このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200324となっている論文です。

PDF登録状況(公開日: 20200324)

TitleAuthorsAbstract論文公表日・翻訳日
# 中心対称低z反強磁性体の巨大運動量依存性スピン分裂

Giant momentum-dependent spin splitting in centrosymmetric low Z antiferromagnets ( http://arxiv.org/abs/1912.12689v3 )

ライセンス: Link先を確認
Lin-Ding Yuan, Zhi Wang, Jun-Wei Luo, Emmanuel I. Rashba, Alex Zunger(参考訳) 固体(バンド構造)のエネルギー対結晶運動量e(k)図は、その光学的、磁気的、および輸送的性質をナビゲートするための道路地図を構成する。 特定の原子タイプ、組成、対称性を持つ結晶を選択することで、ターゲットバンド構造や所望の特性を設計できる。 特に魅力的な結果として、ペカールとラシュバ(Zh. Eksperim. i Teor. Fiz. 47 (1964))が想像したように、運動量依存の分裂を伴うスピン成分に分裂するエネルギーバンドを設計することが挙げられる。 現在の論文は、従来のドレッセルハウスとラシュバのスピン軌道結合(SOC)と平行なエネルギーバンドの波動ベクトル依存スピン分割(SS)に対して「設計原理」を提供するが、基本的に異なる源である反強磁性に由来する。 磁気対称性設計原理を用いて、SSパターンの異なるいくつかの汎用AFMプロトタイプを同定する。 これらのツールは、異なるプロトタイプに属するSSと特定のAFM化合物の同定を可能にする。 特定の化合物 -- 中心対称四角形MnF2 -- は密度汎関数バンド構造計算によって、1種類のAFM SSを定量的に説明するために用いられる。 非中心対称結晶に制限された従来のSOC誘起効果とは異なり、反強磁性誘起スピン分裂は、中心対称化合物を含むように遊び場を広げ、SSはSOCなしでも最もよく知られた("giant")SOC効果に匹敵し、高いSOCに必要な高原子数要素に依存しないことを示す。 スピンスプリットエネルギー帯を用いた最適反強磁性体同定のための現在の設計原理は,重元素を含む化合物を必要とせず,効率的なスピン電荷変換およびスピン軌道トルク応用に有用であると考えられる。

The energy vs. crystal momentum E(k) diagram for a solid (band structure) constitutes the road map for navigating its optical, magnetic, and transport properties. By selecting crystals with specific atom types, composition and symmetries, one could design a target band structure and thus desired properties. A particularly attractive outcome would be to design energy bands that are split into spin components with a momentum-dependent splitting, as envisioned by Pekar and Rashba [Zh. Eksperim. i Teor. Fiz. 47 (1964)], enabling spintronic application. The current paper provides "design principles" for wavevector dependent spin splitting (SS) of energy bands that parallels the traditional Dresselhaus and Rashba spin-orbit coupling (SOC) - induce splitting, but originates from a fundamentally different source -- antiferromagnetism. We identify a few generic AFM prototypes with distinct SS patterns using magnetic symmetry design principles. These tools allow also the identification of specific AFM compounds with SS belonging to different prototypes. A specific compound -- centrosymmetric tetragonal MnF2 -- is used via density functional band structure calculations to quantitatively illustrate one type of AFM SS. Unlike the traditional SOC-induced effects restricted to non-centrosymmetric crystals, we show that antiferromagnetic-induced spin splitting broadens the playing field to include even centrosymmetric compounds, and gives SS comparable in magnitude to the best known ('giant') SOC effects, even without SOC, and consequently does not rely on the often-unstable high atomic number elements required for high SOC. We envision that use of the current design principles to identify an optimal antiferromagnet with spin-split energy bands would be beneficial for efficient spin-charge conversion and spin orbit torque applications without the burden of requiring compounds containing heavy elements.
翻訳日:2023-01-17 08:19:53 公開日:2020-03-24
# meliusnet: バイナリニューラルネットワークはモバイルネットレベルの精度を実現できますか?

MeliusNet: Can Binary Neural Networks Achieve MobileNet-level Accuracy? ( http://arxiv.org/abs/2001.05936v2 )

ライセンス: Link先を確認
Joseph Bethge, Christian Bartz, Haojin Yang, Ying Chen, and Christoph Meinel(参考訳) binary neural network (bnns) は、典型的な32ビット浮動小数点値の代わりにバイナリ重みとアクティベーションを使用するニューラルネットワークである。 モデルサイズを削減し、限られた電力と計算資源でモバイルまたは組み込みデバイス上で効率的な推論を可能にする。 しかし、重みとアクティベーションの2値化は、品質とキャパシティの低さを特徴付ける結果となり、従来のネットワークと比較して精度が低下する。 以前の作業はチャネルの数を増やしたり、これらの問題を緩和するために複数のバイナリベースを使用したりしていた。 本稿では,その代わりにアーキテクチャ的アプローチであるmeliusnetを提案する。 機能キャパシティを増加させる分厚いブロックと、機能品質を向上させる改良ブロックで構成されています。 ImageNetデータセットの実験では、計算の保存と精度の両方に関して、さまざまな一般的なバイナリアーキテクチャよりも、MeliusNetの方が優れたパフォーマンスを示している。 さらに,本手法を用いてBNNモデルを訓練し,モデルサイズ,操作数,精度の点で,人気のコンパクトネットワークMobileNet-v1の精度に初めて適合することを示した。 私たちのコードはhttps://github.com/hpi-xnor/BMXNet-v2で公開されている。

Binary Neural Networks (BNNs) are neural networks which use binary weights and activations instead of the typical 32-bit floating point values. They have reduced model sizes and allow for efficient inference on mobile or embedded devices with limited power and computational resources. However, the binarization of weights and activations leads to feature maps of lower quality and lower capacity and thus a drop in accuracy compared to traditional networks. Previous work has increased the number of channels or used multiple binary bases to alleviate these problems. In this paper, we instead present an architectural approach: MeliusNet. It consists of alternating a DenseBlock, which increases the feature capacity, and our proposed ImprovementBlock, which increases the feature quality. Experiments on the ImageNet dataset demonstrate the superior performance of our MeliusNet over a variety of popular binary architectures with regards to both computation savings and accuracy. Furthermore, with our method we trained BNN models, which for the first time can match the accuracy of the popular compact network MobileNet-v1 in terms of model size, number of operations and accuracy. Our code is published online at https://github.com/hpi-xnor/BMXNet-v2
翻訳日:2023-01-10 23:26:51 公開日:2020-03-24
# 複数形態の文のための時空間ビデオグラウンド

Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences ( http://arxiv.org/abs/2001.06891v3 )

ライセンス: Link先を確認
Zhu Zhang, Zhou Zhao, Yang Zhao, Qi Wang, Huasheng Liu, Lianli Gao(参考訳) 本稿では,STVG(Spatio-Temporal Video Grounding for Multi-Form Sentences)という新しい課題について考察する。 STVGは、被検体の時空間管の局所化を目的とし、被検体の映像と宣言的・解釈的文を与えられた。 STVGには2つの困難な設定がある: 1) ビデオのごく一部にオブジェクトが存在する場合にのみ、ビデオから時空間的なオブジェクトチューブをローカライズする必要がある; (2) 明示的なオブジェクトを持つ宣言文や未知のオブジェクトを持つ疑問文を含む多形文を扱う。 既存の手法では、非効率なチューブプレジェネレーションとオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。 そこで我々は,この課題に対して新しい時空間グラフ推論ネットワーク(STGRN)を提案する。 まず,各フレームの暗黙的および明示的な空間的部分グラフと,フレーム間の時間的動的部分グラフを含む時間的対象ダイナミクスとの関係を捉えるために,時空間的領域グラフを構築する。 次に、テキストの手がかりをグラフに取り込み、多段階のクロスモーダルグラフ推論を開発する。 次に, 動的選択法を備えた時空間局在化器を導入し, 時空間チューブをチューブプリジェネレーションなしで直接検索する。 さらに,ビデオ関連データセットvidorに基づいて,大規模ビデオグラウンドデータセットvidstgをコントリビュートする。 本手法の有効性を実験的に検証した。

In this paper, we consider a novel task, Spatio-Temporal Video Grounding for Multi-Form Sentences (STVG). Given an untrimmed video and a declarative/interrogative sentence depicting an object, STVG aims to localize the spatio-temporal tube of the queried object. STVG has two challenging settings: (1) We need to localize spatio-temporal object tubes from untrimmed videos, where the object may only exist in a very small segment of the video; (2) We deal with multi-form sentences, including the declarative sentences with explicit objects and interrogative sentences with unknown objects. Existing methods cannot tackle the STVG task due to the ineffective tube pre-generation and the lack of object relationship modeling. Thus, we then propose a novel Spatio-Temporal Graph Reasoning Network (STGRN) for this task. First, we build a spatio-temporal region graph to capture the region relationships with temporal object dynamics, which involves the implicit and explicit spatial subgraphs in each frame and the temporal dynamic subgraph across frames. We then incorporate textual clues into the graph and develop the multi-step cross-modal graph reasoning. Next, we introduce a spatio-temporal localizer with a dynamic selection method to directly retrieve the spatio-temporal tubes without tube pre-generation. Moreover, we contribute a large-scale video grounding dataset VidSTG based on video relation dataset VidOR. The extensive experiments demonstrate the effectiveness of our method.
翻訳日:2023-01-08 12:36:51 公開日:2020-03-24
# ParasNet: ニューラルネットワークによる高速寄生虫検出

ParasNet: Fast Parasites Detection with Neural Networks ( http://arxiv.org/abs/2002.11327v2 )

ライセンス: Link先を確認
X.F. Xu, S. Talbot, T. Selvaraja(参考訳) ディープラーニングは、画像分類、オブジェクト検出、音声認識、薬物発見など、多くのアプリケーション領域のパフォーマンスを2012年以来劇的に向上させてきた。 ディープラーニングアルゴリズムは、大規模なデータセット、高度なモデル、計算能力を活用することによって、データ内の複雑な隠れ情報を発見することを約束する。 深層学習技術は多くの医学応用において医療専門家のレベルパフォーマンスを示しているが、いくつかの応用はまだ調査されていない。 本研究では,深層学習による飲料水中の細胞レベルのクリプトスポリジウムとジアルジアの検出について検討した。 実験により,新しい深層学習に基づくアルゴリズムが,Jetson TX2プラットフォーム上で97パーセント以上の精度と700fps以上の速度で手作りSVMベースのアルゴリズムを上回ったことが示された。 本研究は,今後,リアルタイムかつ高精度なラベルフリーセルレベルcryptosporidiumおよびgiardia検出システムを実現する。

Deep learning has dramatically improved the performance in many application areas such as image classification, object detection, speech recognition, drug discovery and etc since 2012. Where deep learning algorithms promise to discover the intricate hidden information inside the data by leveraging the large dataset, advanced model and computing power. Although deep learning techniques show medical expert level performance in a lot of medical applications, but some of the applications are still not explored or under explored due to the variation of the species. In this work, we studied the bright field based cell level Cryptosporidium and Giardia detection in the drink water with deep learning. Our experimental demonstrates that the new developed deep learning-based algorithm surpassed the handcrafted SVM based algorithm with above 97 percentage in accuracy and 700+fps in speed on embedded Jetson TX2 platform. Our research will lead to real-time and high accuracy label-free cell level Cryptosporidium and Giardia detection system in the future.
翻訳日:2022-12-28 15:36:31 公開日:2020-03-24
# Social-STGCNN:人間の軌道予測のための時空間グラフ畳み込みニューラルネットワーク

Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction ( http://arxiv.org/abs/2002.11927v3 )

ライセンス: Link先を確認
Abduallah Mohamed, Kun Qian, Mohamed Elhoseiny, Christian Claudel(参考訳) 歩行者行動の機械的理解の改善は、自動運転車や人間のようなエージェント間の相互作用のモデリングを高速化する。 歩行者の軌跡は、歩行者そのものだけでなく、周囲の物体との相互作用にも影響される。 従来は、異なる学習歩行者状態を統合する様々な集約手法を用いて、これらの相互作用をモデル化していた。 本稿では,対話をグラフとしてモデル化し,集約手法の必要性を代替する社会時空間グラフ畳み込みニューラルネットワーク(Social-STGCNN)を提案する。 その結果,最終変位誤差 (fde) が20%向上し, 平均変位誤差 (ade) が8.5倍小さく, 推定速度が最大48倍向上した。 さらに,本モデルでは,データ効率が向上し,トレーニングデータの20%に過ぎず,ADEメトリック上での過去の技術状況を上回っている。 隣接行列内に歩行者間の社会的相互作用を埋め込むカーネル関数を提案する。 定性的分析により,歩行者軌道間で期待できる社会的行動のモデルが継承されたことを示す。 コードはhttps://github.com/abduallahmohamed/social-stgcnnで入手できる。

Better machine understanding of pedestrian behaviors enables faster progress in modeling interactions between agents such as autonomous vehicles and humans. Pedestrian trajectories are not only influenced by the pedestrian itself but also by interaction with surrounding objects. Previous methods modeled these interactions by using a variety of aggregation methods that integrate different learned pedestrians states. We propose the Social Spatio-Temporal Graph Convolutional Neural Network (Social-STGCNN), which substitutes the need of aggregation methods by modeling the interactions as a graph. Our results show an improvement over the state of art by 20% on the Final Displacement Error (FDE) and an improvement on the Average Displacement Error (ADE) with 8.5 times less parameters and up to 48 times faster inference speed than previously reported methods. In addition, our model is data efficient, and exceeds previous state of the art on the ADE metric with only 20% of the training data. We propose a kernel function to embed the social interactions between pedestrians within the adjacency matrix. Through qualitative analysis, we show that our model inherited social behaviors that can be expected between pedestrians trajectories. Code is available at https://github.com/abduallahmohamed/Social-STGCNN.
翻訳日:2022-12-28 08:49:47 公開日:2020-03-24
# 熱帯サポートベクターマシンとその系統解析への応用

Tropical Support Vector Machine and its Applications to Phylogenomics ( http://arxiv.org/abs/2003.00677v2 )

ライセンス: Link先を確認
Xiaoxian Tang, Houjie Wang, Ruriko Yoshida(参考訳) ゲノム全体の系統解析(phylogenomics)のほとんどのデータは本質的に多次元であり、人間の理解と計算分析にとって大きな課題となっている。 また,系統樹の空間はユークリッド的ではないため,データサイエンスにおける統計的学習モデルを直接系統樹に適用することはできない。 実際、系統樹の空間は、マックスプラス代数(max-plus algebra)という観点から熱帯グラスマン多様体である。 そこで,系統解析のためのマルチロケーションデータセットを分類するために,熱帯サポートベクターマシン (svms) を提案する。 古典的なSVMと同様に、熱帯SVMは熱帯の超平面によって定義される識別的分類器であり、これらのデータポイントを熱帯の射影トーラス内のセクター(半空間)に分けるために、データポイントからそれ自身への最小の熱帯距離を最大化する。 ハードマージン熱帯SVMとソフトマージン熱帯SVMの両方を線形プログラミング問題として定式化することができる。 我々は2つのカテゴリのデータを分類することに集中し、同じカテゴリのデータポイントが熱帯分離超平面の同じセクタに理想的に残ると仮定することで、より単純なケースを考察する。 ハードマージンの熱帯SVMに対して、2つのカテゴリのデータポイントを分離するための必要十分条件を証明し、実現可能な線形計画問題の最適値について明示的な公式を示す。 ソフトマージン熱帯svmに対して, 最適な熱帯分離超平面を計算する新しい手法を開発した。 計算実験は、我々の手法がうまく動作することを示す。 この論文はオープンな問題で締めくくります。

Most data in genome-wide phylogenetic analysis (phylogenomics) is essentially multidimensional, posing a major challenge to human comprehension and computational analysis. Also, we can not directly apply statistical learning models in data science to a set of phylogenetic trees since the space of phylogenetic trees is not Euclidean. In fact, the space of phylogenetic trees is a tropical Grassmannian in terms of max-plus algebra. Therefore, to classify multi-locus data sets for phylogenetic analysis, we propose tropical support vector machines (SVMs). Like classical SVMs, a tropical SVM is a discriminative classifier defined by the tropical hyperplane which maximizes the minimum tropical distance from data points to itself in order to separate these data points into sectors (half-spaces) in the tropical projective torus. Both hard margin tropical SVMs and soft margin tropical SVMs can be formulated as linear programming problems. We focus on classifying two categories of data, and we study a simpler case by assuming the data points from the same category ideally stay in the same sector of a tropical separating hyperplane. For hard margin tropical SVMs, we prove the necessary and sufficient conditions for two categories of data points to be separated, and we show an explicit formula for the optimal value of the feasible linear programming problem. For soft margin tropical SVMs, we develop novel methods to compute an optimal tropical separating hyperplane. Computational experiments show our methods work well. We end this paper with open problems.
翻訳日:2022-12-27 05:42:55 公開日:2020-03-24
# コロナウイルス(COVID-19)パンデミックのための迅速AI開発サイクル:ディープラーニングCT画像解析による自動検出と患者モニタリングの初期結果

Rapid AI Development Cycle for the Coronavirus (COVID-19) Pandemic: Initial Results for Automated Detection & Patient Monitoring using Deep Learning CT Image Analysis ( http://arxiv.org/abs/2003.05037v3 )

ライセンス: Link先を確認
Ophir Gozes, Maayan Frid-Adar, Hayit Greenspan, Patrick D. Browning, Huangqi Zhang, Wenbin Ji, Adam Bernheim, Eliot Siegel(参考訳) 目的: コロナウイルスの検出,定量化,追跡のためのAIベースの自動CT画像解析ツールを開発する。 材料と方法:中国病感染地域を含む複数の国際データセットを含む。 本稿では,堅牢な2次元および3次元深層学習モデルを用いて,既存のAIモデルを修正・適応し,臨床的理解と組み合わせるシステムを提案する。 本研究は, 新型コロナウイルスの胸部CT像が疑われる症例の検出におけるシステムの性能解析と, 3Dボリューム・レビューを用いて経時的に疾患の進展を評価することを目的として, コロナスコアを作成した。 この研究には157人の国際患者(中国と米国)が参加している。 結果: 胸部ct検査では, ウイルス対非コロナウイルスの分類結果が0.996 auc (95%ci: 0.989-1.00) であった。 作業点:感度98.2%、特異度92.2% コロナウイルス患者の時間分析のために、システム出力は、小さな不透明度(体積、直径)の定量的測定とスライスベースの熱マップや3Dボリュームディスプレイにおける大きな不透明度の可視化を可能にする。 提案するコロナスコアは,疾患の進行を経時的に測定する。 結論: 本研究は, 早期に開発されたaiベースの画像解析により, 新型コロナウイルスの検出精度, 定量化, 病害の追跡に有効であることを実証した。

Purpose: Develop AI-based automated CT image analysis tools for detection, quantification, and tracking of Coronavirus; demonstrate they can differentiate coronavirus patients from non-patients. Materials and Methods: Multiple international datasets, including from Chinese disease-infected areas were included. We present a system that utilizes robust 2D and 3D deep learning models, modifying and adapting existing AI models and combining them with clinical understanding. We conducted multiple retrospective experiments to analyze the performance of the system in the detection of suspected COVID-19 thoracic CT features and to evaluate evolution of the disease in each patient over time using a 3D volume review, generating a Corona score. The study includes a testing set of 157 international patients (China and U.S). Results: Classification results for Coronavirus vs Non-coronavirus cases per thoracic CT studies were 0.996 AUC (95%CI: 0.989-1.00) ; on datasets of Chinese control and infected patients. Possible working point: 98.2% sensitivity, 92.2% specificity. For time analysis of Coronavirus patients, the system output enables quantitative measurements for smaller opacities (volume, diameter) and visualization of the larger opacities in a slice-based heat map or a 3D volume display. Our suggested Corona score measures the progression of disease over time. Conclusion: This initial study, which is currently being expanded to a larger population, demonstrated that rapidly developed AI-based image analysis can achieve high accuracy in detection of Coronavirus as well as quantification and tracking of disease burden.
翻訳日:2022-12-24 21:03:54 公開日:2020-03-24
# 脳が分割をどう使うか

How the Brain might use Division ( http://arxiv.org/abs/2003.05320v2 )

ライセンス: Link先を確認
Kieran Greer(参考訳) 生物学や人工知能における最も基本的な問題の1つは、人間の脳がどのように数学的機能を実行するかである。 統計学を通じて自らを体系化するニューラルアーキテクチャは、何をすべきかをどうやって知るのか? ひとつの可能性は、問題をもっと抽象的なものに抽出することだ。 これは、脳が大量の数を扱う方法を考えるとき、例えば何かの力に対して、単に答えをまとめるだけでは不可能であるときに明確になる。 本稿では,問題を記号操作の1つに変更した場合,単に数えるのではなく,数学的な問題にもっと簡単に答えることができることを示唆する。 もし記号を比較・操作することができ、おそらくそれらが何であるかを完全に理解せずに、数学的操作が相対的になり、それらのいくつかはロート学習されるかもしれない。 提案システムは従来のコンピュータバイナリシステムに代わるものとして提案することもできる。 実際の数学はすべてバイナリ演算に分解されるが、より象徴的なレベルでは数値を操作して問題のサイズを減らすことができるため、バイナリ操作がより簡単になる。 これを見る興味深い結果は、分割によって生じる新しいフラクタル方程式の可能性であり、これは適合性の尺度として、脳が自己再配置とこの適合性との比較によって何かを解く方法を決定するのに役立つ。

One of the most fundamental questions in Biology or Artificial Intelligence is how the human brain performs mathematical functions. How does a neural architecture that may organise itself mostly through statistics, know what to do? One possibility is to extract the problem to something more abstract. This becomes clear when thinking about how the brain handles large numbers, for example to the power of something, when simply summing to an answer is not feasible. In this paper, the author suggests that the maths question can be answered more easily if the problem is changed into one of symbol manipulation and not just number counting. If symbols can be compared and manipulated, maybe without understanding completely what they are, then the mathematical operations become relative and some of them might even be rote learned. The proposed system may also be suggested as an alternative to the traditional computer binary system. Any of the actual maths still breaks down into binary operations, while a more symbolic level above that can manipulate the numbers and reduce the problem size, thus making the binary operations simpler. An interesting result of looking at this is the possibility of a new fractal equation resulting from division, that can be used as a measure of good fit and would help the brain decide how to solve something through self-replacement and a comparison with this good fit.
翻訳日:2022-12-24 14:41:44 公開日:2020-03-24
# 非凸非平滑逆問題に対する学習可能なグラディエントDescent型アルゴリズム

A Novel Learnable Gradient Descent Type Algorithm for Non-convex Non-smooth Inverse Problems ( http://arxiv.org/abs/2003.06748v2 )

ライセンス: Link先を確認
Qingchao Zhang, Xiaojing Ye, Hongcheng Liu, and Yunmei Chen(参考訳) 非凸逆問題に対する最適化アルゴリズムは近年大きな関心を集めている。 しかし、既存の手法では収束を保証するために非凸正則化は滑らかか単純であることが要求される。 本稿では, 残差学習とネステロフの平滑化手法を用いて, 一般非凸と非滑らか正則化からなる逆問題に対して, 証明可能な収束で解く新しい勾配降下型アルゴリズムを提案する。 さらに、このアルゴリズムを用いて、トレーニングデータから非線形空間変換を適応的に学習するニューラルネットワークアーキテクチャを開発し、この学習された変換の一般的な非凸構造に対応するために収束を継承する。 数値的な結果から,提案手法は様々な画像再構成問題に対して,効率と精度で最先端の手法よりも優れていた。

Optimization algorithms for solving nonconvex inverse problem have attracted significant interests recently. However, existing methods require the nonconvex regularization to be smooth or simple to ensure convergence. In this paper, we propose a novel gradient descent type algorithm, by leveraging the idea of residual learning and Nesterov's smoothing technique, to solve inverse problems consisting of general nonconvex and nonsmooth regularization with provable convergence. Moreover, we develop a neural network architecture intimating this algorithm to learn the nonlinear sparsity transformation adaptively from training data, which also inherits the convergence to accommodate the general nonconvex structure of this learned transformation. Numerical results demonstrate that the proposed network outperforms the state-of-the-art methods on a variety of different image reconstruction problems in terms of efficiency and accuracy.
翻訳日:2022-12-23 09:15:17 公開日:2020-03-24
# FragNet:Deep Fragment Networksを用いた作者識別

FragNet: Writer Identification using Deep Fragment Networks ( http://arxiv.org/abs/2003.07212v2 )

ライセンス: Link先を確認
Sheng He, Lambert Schomaker(参考訳) 少量のテキストに基づく作者識別は難しい問題である。 本稿では,約1単語を含む単語またはテキストブロック画像に基づく著者識別のための新しいベンチマーク手法を提案する。 これらの単語画像から強力な特徴を抽出するために,fragnetという深層ニューラルネットワークが提案されている。 fragnetには2つの経路がある。 フィーチャーピラミッドは特徴マップを抽出するのに使われ、フラグメントパスは入力画像から抽出されたフラグメントと特徴ピラミッド上の特徴マップに基づいてライターのアイデンティティを予測するように訓練されている。 提案手法は,単語とページイメージの両方に基づいて,著者識別のための効率的かつ堅牢な深層表現を生成することができることを示す。

Writer identification based on a small amount of text is a challenging problem. In this paper, we propose a new benchmark study for writer identification based on word or text block images which approximately contain one word. In order to extract powerful features on these word images, a deep neural network, named FragNet, is proposed. The FragNet has two pathways: feature pyramid which is used to extract feature maps and fragment pathway which is trained to predict the writer identity based on fragments extracted from the input image and the feature maps on the feature pyramid. We conduct experiments on four benchmark datasets, which show that our proposed method can generate efficient and robust deep representations for writer identification based on both word and page images.
翻訳日:2022-12-23 03:30:54 公開日:2020-03-24
# 統計的関係からニューロシンボリック人工知能へ

From Statistical Relational to Neuro-Symbolic Artificial Intelligence ( http://arxiv.org/abs/2003.08316v2 )

ライセンス: Link先を確認
Luc De Raedt, Sebastijan Duman\v{c}i\'c, Robin Manhaeve, and Giuseppe Marra(参考訳) ニューロシンボリックおよび統計的リレーショナル人工知能はどちらも論理的推論による学習のためのフレームワークを統合する。 この調査は、これらの2つの分野の7つの異なる次元にまたがる複数の並列性を特定する。 これらは、ニューロシンボリック人工知能アプローチの特徴付けと位置決めだけでなく、さらなる研究のためのいくつかの方向を特定するためにも使われる。

Neuro-symbolic and statistical relational artificial intelligence both integrate frameworks for learning with logical reasoning. This survey identifies several parallels across seven different dimensions between these two fields. These cannot only be used to characterize and position neuro-symbolic artificial intelligence approaches but also to identify a number of directions for further research.
翻訳日:2022-12-22 10:06:24 公開日:2020-03-24
# 超解像ユニバーサルスタイル変換のための共同蒸留法

Collaborative Distillation for Ultra-Resolution Universal Style Transfer ( http://arxiv.org/abs/2003.08436v2 )

ライセンス: Link先を確認
Huan Wang, Yijun Li, Yuehai Wang, Haoji Hu, Ming-Hsuan Yang(参考訳) ユニバーサルスタイル転送法は通常、大量の画像に事前学習された深層畳み込みニューラルネットワーク(cnn)モデル(例えばvgg-19)からのリッチな表現を利用する。 有効性にもかかわらず、その応用は、メモリが制限された超高解像度画像を扱うために、大きなモデルサイズに強く制約されている。 本研究では,エンコーダデコーダを用いたニューラルスタイル転送のための新しい知識蒸留法(Collaborative Distillation)を提案し,畳み込みフィルタの低減を図る。 主な考え方は、エンコーダとデコーダのペアが排他的な協調関係を構築していることであり、これはスタイル転送モデルの新しい種類の知識と見なされている。 また, 共同蒸留における特徴量ミスマッチを克服するために, 学生ネットワークを駆動し, 教師の特徴の線形埋め込みを学習するために, 線形埋め込み損失を導入する。 広範な実験により、モデルサイズが15.5倍小さくても、異なるユニバーサルスタイル転送アプローチ(wct, adain)に適用した場合の有効性が示された。 特に,圧縮モデルを用いたWCTでは,12GBのGPU上での超高解像度(40メガピクセル以上)のユニバーサルな転送を実現している。 最適化に基づくスタイリゼーション手法のさらなる実験は、異なるスタイリゼーションパラダイムに基づくアルゴリズムの一般化を示す。 私たちのコードとトレーニングされたモデルは、https://github.com/mingsun-tse/collaborative-distillationで利用可能です。

Universal style transfer methods typically leverage rich representations from deep Convolutional Neural Network (CNN) models (e.g., VGG-19) pre-trained on large collections of images. Despite the effectiveness, its application is heavily constrained by the large model size to handle ultra-resolution images given limited memory. In this work, we present a new knowledge distillation method (named Collaborative Distillation) for encoder-decoder based neural style transfer to reduce the convolutional filters. The main idea is underpinned by a finding that the encoder-decoder pairs construct an exclusive collaborative relationship, which is regarded as a new kind of knowledge for style transfer models. Moreover, to overcome the feature size mismatch when applying collaborative distillation, a linear embedding loss is introduced to drive the student network to learn a linear embedding of the teacher's features. Extensive experiments show the effectiveness of our method when applied to different universal style transfer approaches (WCT and AdaIN), even if the model size is reduced by 15.5 times. Especially, on WCT with the compressed models, we achieve ultra-resolution (over 40 megapixels) universal style transfer on a 12GB GPU for the first time. Further experiments on optimization-based stylization scheme show the generality of our algorithm on different stylization paradigms. Our code and trained models are available at https://github.com/mingsun-tse/collaborative-distillation.
翻訳日:2022-12-22 09:58:11 公開日:2020-03-24
# 完全連結サブネットワークを用いたCNNにおけるアンサンブル学習

Ensemble learning in CNN augmented with fully connected subnetworks ( http://arxiv.org/abs/2003.08562v3 )

ライセンス: Link先を確認
Daiki Hirata, Norikazu Takahashi(参考訳) 畳み込みニューラルネットワーク(CNN)は、一般的な物体認識タスクにおいて顕著な性能を示した。 本稿では,1つのベースcnnと複数の完全接続サブネットワーク(fcsns)で構成されるensnetと呼ばれる新しいモデルを提案する。 このモデルでは、ベースCNNにおける最後の畳み込み層によって生成される特徴写像の集合をチャネルに沿って分割し、これらの部分集合をFCSNに割り当てる。 FCSNは独立して訓練されており、クラスラベルを割り当てられたフィーチャーマップのサブセットから予測することができる。 全体モデルの出力は、ベースCNNとFCSNの過半数投票によって決定される。 MNIST, Fashion-MNIST, CIFAR-10データセットを用いた実験結果から,提案手法はCNNの性能をさらに向上させることが示された。 特にEnsNetは、MNISTで最先端のエラー率0.16%を達成する。

Convolutional Neural Networks (CNNs) have shown remarkable performance in general object recognition tasks. In this paper, we propose a new model called EnsNet which is composed of one base CNN and multiple Fully Connected SubNetworks (FCSNs). In this model, the set of feature-maps generated by the last convolutional layer in the base CNN is divided along channels into disjoint subsets, and these subsets are assigned to the FCSNs. Each of the FCSNs is trained independent of others so that it can predict the class label from the subset of the feature-maps assigned to it. The output of the overall model is determined by majority vote of the base CNN and the FCSNs. Experimental results using the MNIST, Fashion-MNIST and CIFAR-10 datasets show that the proposed approach further improves the performance of CNNs. In particular, an EnsNet achieves a state-of-the-art error rate of 0.16% on MNIST.
翻訳日:2022-12-22 04:07:53 公開日:2020-03-24
# TArC:チュニジアのアラブ人コーパスをインクリメンタルかつ半自動収集

TArC: Incrementally and Semi-Automatically Collecting a Tunisian Arabish Corpus ( http://arxiv.org/abs/2003.09520v2 )

ライセンス: Link先を確認
Elisa Gugliotta, Marco Dinarelli(参考訳) 本論では, チュニジア・アラブ人コーパス (TArC) の構成過程について述べる。 アラビア語(アラビア語: Arabizi)は、アラビア語の方言をラテン文字やアリスモグラフ(文字として使われる数字)で自発的に符号化したものである。 このコードシステムは、CMC(Computer-Mediated Communication)やテキストメッセージングの非公式フレームワークの記述を容易にするために、ソーシャルメディアのアラビア語話者によって開発された。 アラビア語の方言間の認識には様々な種類があり、アラビア語のコード体系はアラビア語の方言のほとんどと同様、未資源である。 ここ数年、NLP分野におけるアラビア語方言への注目は著しく高まっている。 これを考慮すると、TArCは異なるタイプの分析、計算、言語、およびNLPツールトレーニングのための有用なサポートとなる。 本稿では、TArCの半自動構築プロセスに関する予備研究と、TArC上で開発された最初の分析について述べる。 また、建設過程で直面する課題の完全な概要を述べるため、チュニジア方言の特徴と、チュニジア・アラブ語におけるそれらのエンコーディングを紹介する。

This article describes the constitution process of the first morpho-syntactically annotated Tunisian Arabish Corpus (TArC). Arabish, also known as Arabizi, is a spontaneous coding of Arabic dialects in Latin characters and arithmographs (numbers used as letters). This code-system was developed by Arabic-speaking users of social media in order to facilitate the writing in the Computer-Mediated Communication (CMC) and text messaging informal frameworks. There is variety in the realization of Arabish amongst dialects, and each Arabish code-system is under-resourced, in the same way as most of the Arabic dialects. In the last few years, the focus on Arabic dialects in the NLP field has considerably increased. Taking this into consideration, TArC will be a useful support for different types of analyses, computational and linguistic, as well as for NLP tools training. In this article we will describe preliminary work on the TArC semi-automatic construction process and some of the first analyses we developed on TArC. In addition, in order to provide a complete overview of the challenges faced during the building process, we will present the main Tunisian dialect characteristics and their encoding in Tunisian Arabish.
翻訳日:2022-12-21 21:59:02 公開日:2020-03-24
# 単一画像から3次元部品組立を学習する

Learning 3D Part Assembly from a Single Image ( http://arxiv.org/abs/2003.09754v2 )

ライセンス: Link先を確認
Yichen Li and Kaichun Mo and Lin Shao and Minhyuk Sung and Leonidas Guibas(参考訳) 自律的な組み立ては多くのアプリケーションにおいてロボットにとって重要な能力である。 この課題に対して,ロボット工学において障害物回避,運動計画,アクチュエータ制御などの課題が広く研究されている。 しかし、タスク仕様に関しては、可能性の空間は未検討のままです。 この目的のために,学習ベースのソリューションとともに,単一画像による3次元部品組み立てという新たな問題を導入する。 本報告では, 家具組立において, 部品の完全な集合と, 組み立て物全体を描いた一枚の画像から, 家具組立の設定について検討する。 この設定では、部品間のあいまいさ(例えば、椅子の背と脚のストレッチャーのスラット)の取り扱いや、可視性の有無に関わらず部品と部分のサブアセンブリの3dポーズ予測など、複数の課題が存在する。 本稿では,強い2D-3D対応と組立指向グラフメッセージパッシングを利用して部分関係を推定する2モジュールパイプラインを提案する。 partnetベースの合成ベンチマークを用いた実験では,3つのベースラインアプローチと比較して,フレームワークの有効性を実証する。

Autonomous assembly is a crucial capability for robots in many applications. For this task, several problems such as obstacle avoidance, motion planning, and actuator control have been extensively studied in robotics. However, when it comes to task specification, the space of possibilities remains underexplored. Towards this end, we introduce a novel problem, single-image-guided 3D part assembly, along with a learningbased solution. We study this problem in the setting of furniture assembly from a given complete set of parts and a single image depicting the entire assembled object. Multiple challenges exist in this setting, including handling ambiguity among parts (e.g., slats in a chair back and leg stretchers) and 3D pose prediction for parts and part subassemblies, whether visible or occluded. We address these issues by proposing a two-module pipeline that leverages strong 2D-3D correspondences and assembly-oriented graph message-passing to infer part relationships. In experiments with a PartNet-based synthetic benchmark, we demonstrate the effectiveness of our framework as compared with three baseline approaches.
翻訳日:2022-12-21 13:15:27 公開日:2020-03-24
# 相関型特徴表現を用いた音声障害認識

Audio Impairment Recognition Using a Correlation-Based Feature Representation ( http://arxiv.org/abs/2003.09889v2 )

ライセンス: Link先を確認
Alessandro Ragano, Emmanouil Benetos, Andrew Hines(参考訳) 音声障害認識は、音声ファイル内の雑音の検出と障害タイプ分類に基づいている。 近年,高度なディープラーニングモデルの利用により,大幅に性能が向上している。 しかし、機能の堅牢性はまだ未解決の問題であり、強力なディープラーニングアーキテクチャを必要とする主な理由の1つです。 様々な音楽スタイルが存在する場合、手作りの機能はオーディオ劣化特性を捉えるのに効率が悪く、オーディオ障害を認識する際に失敗する傾向にあり、音楽概念を誤って学習することができる。 本稿では,特徴対の相関関係に基づく手作り特徴の新たな表現を提案する。 提案した相関に基づく特徴表現と機械学習で使用される典型的な原特徴表現とを実験的に比較し、比較精度を確保しつつ、コンパクトな特徴次元とテスト段階での計算速度の改善の観点から優れた性能を示す。

Audio impairment recognition is based on finding noise in audio files and categorising the impairment type. Recently, significant performance improvement has been obtained thanks to the usage of advanced deep learning models. However, feature robustness is still an unresolved issue and it is one of the main reasons why we need powerful deep learning architectures. In the presence of a variety of musical styles, hand-crafted features are less efficient in capturing audio degradation characteristics and they are prone to failure when recognising audio impairments and could mistakenly learn musical concepts rather than impairment types. In this paper, we propose a new representation of hand-crafted features that is based on the correlation of feature pairs. We experimentally compare the proposed correlation-based feature representation with a typical raw feature representation used in machine learning and we show superior performance in terms of compact feature dimensionality and improved computational speed in the test stage whilst achieving comparable accuracy.
翻訳日:2022-12-21 05:59:54 公開日:2020-03-24
# 逆数領域適応による超広視野と伝統ファウンダス画像間の領域ギャップのブリッジ

Bridge the Domain Gap Between Ultra-wide-field and Traditional Fundus Images via Adversarial Domain Adaptation ( http://arxiv.org/abs/2003.10042v2 )

ライセンス: Link先を確認
Lie Ju, Xin Wang, Quan Zhou, Hu Zhu, Mehrtash Harandi, Paul Bonnington, Tom Drummond, and Zongyuan Ge(参考訳) 何十年もの間、網膜イメージング技術の進歩は、眼底カメラを用いた網膜疾患の効果的な診断と管理を可能にしてきた。 近年,optosカメラによる超広視野(uwf)眼底撮影は,従来の眼底画像では一般的に見られない病変に対して,眼底の広い知見が提供されつつある。 従来の眼底画像の研究は活発であるが、UWF眼底画像の研究はほとんどない。 最も重要な理由の1つは、uwf fundusの画像が入手が難しいことである。 本稿では,本研究で初めて,従来の眼底画像からuff眼底画像への領域適応について検討する。 本稿では,2つの領域間の領域間ギャップを橋渡しし,疑似ラベル学習と逆学習によるuwf眼底診断モデルの共同学習を行うための柔軟な枠組みを提案する。 ドメイン適応を規制するための正規化手法を設計する。 また,不正に生成された擬似ラベルのオーバーフィッティング問題を克服するためにmixupを適用した。 その結果,本手法は従来の眼底画像からの知識をuwf眼底画像に適応・伝達し,網膜疾患認識の性能を向上させることができることがわかった。

For decades, advances in retinal imaging technology have enabled effective diagnosis and management of retinal disease using fundus cameras. Recently, ultra-wide-field (UWF) fundus imaging by Optos camera is gradually put into use because of its broader insights on fundus for some lesions that are not typically seen in traditional fundus images. Research on traditional fundus images is an active topic but studies on UWF fundus images are few. One of the most important reasons is that UWF fundus images are hard to obtain. In this paper, for the first time, we explore domain adaptation from the traditional fundus to UWF fundus images. We propose a flexible framework to bridge the domain gap between two domains and co-train a UWF fundus diagnosis model by pseudo-labelling and adversarial learning. We design a regularisation technique to regulate the domain adaptation. Also, we apply MixUp to overcome the over-fitting issue from incorrect generated pseudo-labels. Our experimental results on either single or both domains demonstrate that the proposed method can well adapt and transfer the knowledge from traditional fundus images to UWF fundus images and improve the performance of retinal disease recognition.
翻訳日:2022-12-21 00:44:46 公開日:2020-03-24
# GeoGraph: 幾何学的手がかりを用いたグラフに基づく多視点物体検出学習

GeoGraph: Learning graph-based multi-view object detection with geometric cues end-to-end ( http://arxiv.org/abs/2003.10151v2 )

ライセンス: Link先を確認
Ahmed Samy Nassar, Stefano D'Aronco, S\'ebastien Lef\`evre, and Jan D. Wegner(参考訳) 本稿では,複数のビューから静的な都市オブジェクトを検出し,インスタンスを再識別し,最後にオブジェクトごとに地理的位置を割り当てる,エンドツーエンド学習可能な手法を提案する。 提案手法はグラフニューラルネットワーク(GNN)を用いて全ての物体を検出し,その位置を画像と近似カメラのポーズを入力として出力する。 我々のGNNは、相対的なポーズと画像証拠を同時にモデル化し、任意の数の入力ビューを扱うことができる。 本手法は咬合に頑健であり, 近接物体の外観が類似しており, 視覚的画像の出現と相対的なポーズを共同で推論することにより, 視点の変化が顕著である。 2つの挑戦的大規模データセットの実験的評価と最先端手法との比較により、精度と効率の両面で有意かつ体系的な改善が見られ、検出と再ID平均精度が2-6%向上し、トレーニング時間を8倍短縮した。

In this paper we propose an end-to-end learnable approach that detects static urban objects from multiple views, re-identifies instances, and finally assigns a geographic position per object. Our method relies on a Graph Neural Network (GNN) to, detect all objects and output their geographic positions given images and approximate camera poses as input. Our GNN simultaneously models relative pose and image evidence, and is further able to deal with an arbitrary number of input views. Our method is robust to occlusion, with similar appearance of neighboring objects, and severe changes in viewpoints by jointly reasoning about visual image appearance and relative pose. Experimental evaluation on two challenging, large-scale datasets and comparison with state-of-the-art methods show significant and systematic improvements both in accuracy and efficiency, with 2-6% gain in detection and re-ID average precision as well as 8x reduction of training time.
翻訳日:2022-12-21 00:16:06 公開日:2020-03-24
# learn to schedule (leasch): 5g mac層における無線資源スケジューリングのための深層強化学習手法

Learn to Schedule (LEASCH): A Deep reinforcement learning approach for radio resource scheduling in the 5G MAC layer ( http://arxiv.org/abs/2003.11003v1 )

ライセンス: Link先を確認
F. AL-Tam, N. Correia, J. Rodriguez(参考訳) ネットワーク管理ツールは通常、ある世代から別の世代に継承される。 これらのツールがチェックされ、新しいネットワークの目標とサービス要件に適合するように定期的に更新されているため、これは成功した。 残念ながら、新しいネットワーキングサービスはこのアプローチを時代遅れにし、新しいツールを手作りしたり、現在のツールをアップグレードすることで、メンテナンスと改善が極めて難しい複雑なシステムに繋がる可能性がある。 幸いなことに、aiの最近の進歩は、多くのネットワーク管理問題を解決するのに役立つ新しい有望なツールを提供した。 この興味深い傾向に続き、本記事では5GネットワークのMAC層における無線リソーススケジューリング問題を解くことができる深層強化学習モデルLEASCHを紹介する。 LEASCHはサンドボックスで開発、訓練され、5Gネットワークにデプロイされる。 実験結果は,従来のベースライン法と比較し,leaschの有効性を検証した。

Network management tools are usually inherited from one generation to another. This was successful since these tools have been kept in check and updated regularly to fit new networking goals and service requirements. Unfortunately, new networking services will render this approach obsolete and handcrafting new tools or upgrading the current ones may lead to complicated systems that will be extremely difficult to maintain and improve. Fortunately, recent advances in AI have provided new promising tools that can help solving many network management problems. Following this interesting trend, the current article presents LEASCH, a deep reinforcement learning model able to solve the radio resource scheduling problem in the MAC layer of 5G networks. LEASCH is developed and trained in a sand-box and then deployed in a 5G network. The experimental results validate the effectiveness of LEASCH compared to conventional baseline methods in many key performance indicators.
翻訳日:2022-12-20 09:47:47 公開日:2020-03-24
# SOL: ソースコードの変更なしにAIフレームワークを不運にサポート

SOL: Effortless Device Support for AI Frameworks without Source Code Changes ( http://arxiv.org/abs/2003.10688v1 )

ライセンス: Link先を確認
Nicolas Weber and Felipe Huici(参考訳) 現代の高性能コンピューティングクラスタはCPUの限られた計算能力を克服するためにアクセラレータに大きく依存している。 これらのスーパーコンピュータは、シミュレーション、数値応用、人工知能(ai)など、さまざまなドメインの様々なアプリケーションを実行する。 その結果、ベンダーはハードウェア上でさまざまなワークロードを効率的に実行できなければなりません。 aiドメインでは、これは特に、共通のコードベースを持たず、機能的にも異なる可能性のある、多くの人気フレームワーク(pytorch、tensorflowなど)の存在によって悪化している。 これらのフレームワークのコードは急速に進化し、すべての変更に追いつくのにコストがかかり、開発者は継続的にアップストリームを行なわざるを得なくなる可能性がある。 本稿では,メンテナンスのオーバーヘッドを最小限に抑えるため,フレームワークのソースコードを変更することなく,AIフレームワークにハードウェアサポートを提供する方法について検討する。 我々は、異種ハードウェアを透過的にサポートできるハードウェア抽象化層を提供するAIアクセラレーションミドルウェアであるSOLを紹介した。 概念実証として,CPU,GPU,ベクトルプロセッサの3つのバックエンドでPyTorch用のSOLを実装した。

Modern high performance computing clusters heavily rely on accelerators to overcome the limited compute power of CPUs. These supercomputers run various applications from different domains such as simulations, numerical applications or artificial intelligence (AI). As a result, vendors need to be able to efficiently run a wide variety of workloads on their hardware. In the AI domain this is in particular exacerbated by the existence of a number of popular frameworks (e.g, PyTorch, TensorFlow, etc.) that have no common code base, and can vary in functionality. The code of these frameworks evolves quickly, making it expensive to keep up with all changes and potentially forcing developers to go through constant rounds of upstreaming. In this paper we explore how to provide hardware support in AI frameworks without changing the framework's source code in order to minimize maintenance overhead. We introduce SOL, an AI acceleration middleware that provides a hardware abstraction layer that allows us to transparently support heterogeneous hardware. As a proof of concept, we implemented SOL for PyTorch with three backends: CPUs, GPUs and vector processors.
翻訳日:2022-12-20 09:45:54 公開日:2020-03-24
# 高速コールドスタートレコメンデーションのための多機能離散協調フィルタ

Multi-Feature Discrete Collaborative Filtering for Fast Cold-start Recommendation ( http://arxiv.org/abs/2003.10719v1 )

ライセンス: Link先を確認
Yang Xu, Lei Zhu, Zhiyong Cheng, Jingjing Li, Jiande Sun(参考訳) ハッシュ処理は,アイテムに対するユーザの好みの計算において高い計算能力とストレージ効率を有するため,大規模レコメンデーション問題に対処する効果的な手法である。 しかしながら、既存のハッシュベースのレコメンデーションメソッドには、2つの重要な問題がある。 1)レコメンデーションプロセスは主にユーザとイテムのインタラクションと単一コンテンツ機能に依存している。 インタラクション履歴やコンテンツ機能が利用できない場合(コールドスタート問題)、そのパフォーマンスは著しく悪化する。 2) 既存の手法では, 最適化を緩和したハッシュ符号を学習したり, 個別座標降下法を用いてバイナリハッシュ符号を直接解いたりすることで, 量子化損失や計算時間を大幅に削減することができる。 本稿では,これらの問題を解決するために,MFDCF(Multi-Feature Discrete Collaborative Filtering)と呼ばれる高速コールドスタートレコメンデーション手法を提案する。 具体的には、低ランクな自己重み付き多機能融合モジュールは、その相補性を十分に活用することにより、複数のコンテンツ機能をバイナリに適応的に投影するように設計されている。 さらに,簡単な操作でバイナリハッシュコードを直接計算する高速離散最適化アルゴリズムを開発した。 2つのパブリックレコメンデーションデータセットの実験では、MFDCFは様々な面において最先端よりも優れています。

Hashing is an effective technique to address the large-scale recommendation problem, due to its high computation and storage efficiency on calculating the user preferences on items. However, existing hashing-based recommendation methods still suffer from two important problems: 1) Their recommendation process mainly relies on the user-item interactions and single specific content feature. When the interaction history or the content feature is unavailable (the cold-start problem), their performance will be seriously deteriorated. 2) Existing methods learn the hash codes with relaxed optimization or adopt discrete coordinate descent to directly solve binary hash codes, which results in significant quantization loss or consumes considerable computation time. In this paper, we propose a fast cold-start recommendation method, called Multi-Feature Discrete Collaborative Filtering (MFDCF), to solve these problems. Specifically, a low-rank self-weighted multi-feature fusion module is designed to adaptively project the multiple content features into binary yet informative hash codes by fully exploiting their complementarity. Additionally, we develop a fast discrete optimization algorithm to directly compute the binary hash codes with simple operations. Experiments on two public recommendation datasets demonstrate that MFDCF outperforms the state-of-the-arts on various aspects.
翻訳日:2022-12-20 09:45:38 公開日:2020-03-24
# PointNetKL:Bathymetric SLAMにおけるGICP共分散推定のための深い推論

PointNetKL: Deep Inference for GICP Covariance Estimation in Bathymetric SLAM ( http://arxiv.org/abs/2003.10931v1 )

ライセンス: Link先を確認
Ignacio Torroba, Christopher Iliffe Sprague, Nils Bore, John Folkesson(参考訳) 点雲の登録方法は、自動運転車における多くのSLAMシステムの重要な構成要素となっている。 しかし、このような登録の不確実性の正確な推定は、SLAMフィルタにおけるこの種の測定を一貫した融合の鍵となる要件である。 この推定は、通常、点雲参照フレーム間で計算された変換の共分散として与えられ、モンテカルロ法を最も正確にみなす異なるアプローチに従ってモデル化されている。 しかし、モンテカルロ近似はオンラインSLAMのような時間クリティカルなアプリケーションの中では使いづらい。 生のポイントクラウドを抽象化するために注意深く設計された機能を使用して、機械学習を通じてこの共分散を推定する努力がなされている。 しかし、このアプローチのパフォーマンスは選択した機能に敏感である。 我々は,生データを扱うことで,共分散とともに特徴を学習することが可能であり,ポイントネットに基づく新しいアプローチを提案する。 本研究では,学習不確実性分布とモンテカルロ法による計算値とのkl発散を損失として,このネットワークを訓練する。 自律型水中車両(AUV)を用いたSLAMの用途に適用した汎用モデルの性能を,3次元透視点雲の2次元登録に限定して検証した。

Registration methods for point clouds have become a key component of many SLAM systems on autonomous vehicles. However, an accurate estimate of the uncertainty of such registration is a key requirement to a consistent fusion of this kind of measurements in a SLAM filter. This estimate, which is normally given as a covariance in the transformation computed between point cloud reference frames, has been modelled following different approaches, among which the most accurate is considered to be the Monte Carlo method. However, a Monte Carlo approximation is cumbersome to use inside a time-critical application such as online SLAM. Efforts have been made to estimate this covariance via machine learning using carefully designed features to abstract the raw point clouds. However, the performance of this approach is sensitive to the features chosen. We argue that it is possible to learn the features along with the covariance by working with the raw data and thus we propose a new approach based on PointNet. In this work, we train this network using the KL divergence between the learned uncertainty distribution and one computed by the Monte Carlo method as the loss. We test the performance of the general model presented applying it to our target use-case of SLAM with an autonomous underwater vehicle (AUV) restricted to the 2-dimensional registration of 3D bathymetric point clouds.
翻訳日:2022-12-20 09:45:16 公開日:2020-03-24
# 深層強化学習と行動ゲーム理論によるドライバモデリング

Driver Modeling through Deep Reinforcement Learning and Behavioral Game Theory ( http://arxiv.org/abs/2003.11071v1 )

ライセンス: Link先を確認
Berat Mert Albaba, Yildiray Yildiz(参考訳) 本稿では,道路走行シナリオにおける運転者の行動予測のためのモデリングフレームワークとして,深層強化学習と階層的ゲーム理論の相乗的組み合わせを提案する。 複数の人間と人間のオートマチックな相互作用に対処できるモデリングフレームワークの必要性は、すべてのエージェントを意思決定者として同時にモデル化することが可能である。 このようなモデリングフレームワークは、自動運転車の検証と検証に利用可能であり、自動運転車がドライバーと同一の安全性レベルに達するためには、数百万マイルの運転試験が必要であると推定される。 本稿では、複数の人的意思決定者からなる高忠実度交通シミュレータにおいて、安全かつ迅速な自動運転アルゴリズムの評価を可能にすることにより、テストに費やした時間と労力を削減するために使用される。 提案するモデリングフレームワークの忠実性を示すために,ゲーム理論ドライバモデルとトラヒックデータから抽出した実際の人間運転行動パターンを比較した。

In this paper, a synergistic combination of deep reinforcement learning and hierarchical game theory is proposed as a modeling framework for behavioral predictions of drivers in highway driving scenarios. The need for a modeling framework that can address multiple human-human and human-automation interactions, where all the agents can be modeled as decision makers simultaneously, is the main motivation behind this work. Such a modeling framework may be utilized for the validation and verification of autonomous vehicles: It is estimated that for an autonomous vehicle to reach the same safety level of cars with drivers, millions of miles of driving tests are required. The modeling framework presented in this paper may be used in a high-fidelity traffic simulator consisting of multiple human decision makers to reduce the time and effort spent for testing by allowing safe and quick assessment of self-driving algorithms. To demonstrate the fidelity of the proposed modeling framework, game theoretical driver models are compared with real human driver behavior patterns extracted from traffic data.
翻訳日:2022-12-20 09:44:44 公開日:2020-03-24
# 単一光場画像からの共焦点顕微鏡スタックの再構成

Learning to Reconstruct Confocal Microscopy Stacks from Single Light Field Images ( http://arxiv.org/abs/2003.11004v1 )

ライセンス: Link先を確認
Josue Page, Federico Saltarin, Yury Belyaev, Ruth Lyck, Paolo Favaro(参考訳) 単一光場画像から共焦点顕微鏡スタックを再構成するための新しい深層学習手法を提案する。 この再構築のために,U-Net設計に触発された新しいニューラルネットワークアーキテクチャである LFMNet を導入する。 a 112x112x57.6$\mu m^3$ volume (1287x1287x64 voxels) を50msで再現でき、1287x1287ピクセルの単一ライトフィールド画像が与えられた。 生活科学の応用性を証明するため, 蛍光標識血管を用いたマウス脳スライスを定量的, 質的に評価した。 スキャン時間と記憶空間の大幅な減少のため,我々の装置と方法はリアルタイム3D顕微鏡に直接適用できる。 我々は,ネットワークアーキテクチャの光学設計,および与えられた目標深度範囲のボリュームを最適に再構成するためのトレーニング手順の分析を行う。 ネットワークをトレーニングするために、マウスの脳血管の362個のライトフィールド画像と、それに対応する3d共焦点スキャンのデータセットを構築しました。 データセットは研究目的で利用可能になる予定だ。

We present a novel deep learning approach to reconstruct confocal microscopy stacks from single light field images. To perform the reconstruction, we introduce the LFMNet, a novel neural network architecture inspired by the U-Net design. It is able to reconstruct with high-accuracy a 112x112x57.6$\mu m^3$ volume (1287x1287x64 voxels) in 50ms given a single light field image of 1287x1287 pixels, thus dramatically reducing 720-fold the time for confocal scanning of assays at the same volumetric resolution and 64-fold the required storage. To prove the applicability in life sciences, our approach is evaluated both quantitatively and qualitatively on mouse brain slices with fluorescently labelled blood vessels. Because of the drastic reduction in scan time and storage space, our setup and method are directly applicable to real-time in vivo 3D microscopy. We provide analysis of the optical design, of the network architecture and of our training procedure to optimally reconstruct volumes for a given target depth range. To train our network, we built a data set of 362 light field images of mouse brain blood vessels and the corresponding aligned set of 3D confocal scans, which we use as ground truth. The data set will be made available for research purposes.
翻訳日:2022-12-20 09:44:07 公開日:2020-03-24
# 声の摂動とビブラートの分析に基づくBulbar ALS検出

Bulbar ALS Detection Based on Analysis of Voice Perturbation and Vibrato ( http://arxiv.org/abs/2003.10806v1 )

ライセンス: Link先を確認
Maxim Vashkevich and Alexander Petrovsky and Yuliya Rushkevich(参考訳) 生物学的マーカーの欠如は、筋萎縮性側索硬化症(ALS)を検出するために1年間の診断遅延を引き起こす。 診断プロセスを改善するために、音響解析に基づく自動音声アセスメントを用いることができる。 本研究の目的は,ALS患者の自動検出のための持続母音発声テストの有用性を検証することである。 そこで我々は,摂動測定(ジッタやシマなど)の計算に必要な基本周期に音声信号を分離する手法を提案する。 また, 母音発声における病的ビブラート症状の定量的評価法を提案した。 実験により, 線形判別分析に基づく音響解析手法を用いて, 感度86.7\%, 特異92.2\%で90.7\%の精度が得られた。

On average the lack of biological markers causes a one year diagnostic delay to detect amyotrophic lateral sclerosis (ALS). To improve the diagnostic process an automatic voice assessment based on acoustic analysis can be used. The purpose of this work was to verify the sutability of the sustain vowel phonation test for automatic detection of patients with ALS. We proposed enhanced procedure for separation of voice signal into fundamental periods that requires for calculation of perturbation measurements (such as jitter and shimmer). Also we proposed method for quantitative assessment of pathological vibrato manifestations in sustain vowel phonation. The study's experiments show that using the proposed acoustic analysis methods, the classifier based on linear discriminant analysis attains 90.7\% accuracy with 86.7\% sensitivity and 92.2\% specificity.
翻訳日:2022-12-20 09:43:05 公開日:2020-03-24
# 限られた処理資源下でのリアルタイム3次元オブジェクト提案生成と分類

Real-time 3D object proposal generation and classification under limited processing resources ( http://arxiv.org/abs/2003.10670v1 )

ライセンス: Link先を確認
Xuesong Li, Jose Guivant, Subhan Khan(参考訳) 3Dオブジェクトを検出するタスクは、さまざまなロボットアプリケーションにとって重要である。 既存のディープラーニングベースの検出技術は、素晴らしいパフォーマンスを達成した。 しかし、これらの技術はリアルタイム環境でグラフィックス処理ユニット(GPU)でしか動作しない。 ロボットの計算資源を限定したリアルタイム3次元物体検出を実現するため,3次元提案生成と分類からなる効率的な検出手法を提案する。 提案生成は主にポイントセグメンテーションに基づいており、提案分類は軽量畳み込みニューラルネットワーク(CNN)モデルによって行われる。 提案手法を検証するために,KITTIデータセットを利用する。 実験結果は,実時間3次元物体検出手法をポイントクラウドから提案し,オブジェクトのリコールと分類の競合性を示す。

The task of detecting 3D objects is important to various robotic applications. The existing deep learning-based detection techniques have achieved impressive performance. However, these techniques are limited to run with a graphics processing unit (GPU) in a real-time environment. To achieve real-time 3D object detection with limited computational resources for robots, we propose an efficient detection method consisting of 3D proposal generation and classification. The proposal generation is mainly based on point segmentation, while the proposal classification is performed by a lightweight convolution neural network (CNN) model. To validate our method, KITTI datasets are utilized. The experimental results demonstrate the capability of proposed real-time 3D object detection method from the point cloud with a competitive performance of object recall and classification.
翻訳日:2022-12-20 09:36:16 公開日:2020-03-24
# 単一画像超解像のための学習正規化と強度勾配に基づく忠実度

Learning regularization and intensity-gradient-based fidelity for single image super resolution ( http://arxiv.org/abs/2003.10689v1 )

ライセンス: Link先を確認
Hu Liang, Shengrong Zhao(参考訳) 単一画像の超解像に対してより有用な情報を抽出する方法は命令的で難しい問題である。 学習ベース手法はそのような課題の代表的な方法である。 しかし、トレーニングデータとテストデータの間に大きな違いがある可能性があるため、結果はそれほど安定していない。 正規化に基づく方法は、観察の自己情報を有効に活用することができる。 しかし、正規化法で用いられる劣化モデルは、強度空間の劣化を考えるだけである。 様々な特徴空間における劣化反射が考慮されないため、画像の再構成はできない。 本稿では,まず画像劣化の進行状況を調査し,強度と勾配空間の両方における劣化モデルを確立する。 これにより、復元のための包括的データ一貫性制約が確立される。 これにより、観測データからより有用な情報を抽出することができる。 第2に、正規化項は、設計された対称的残留ディープニューラルネットワークによって学習される。 人工的な傾向を避けるために、事前定義されたデータセットから類似した外部情報を検索することができる。 最後に、提案された忠実性項と設計正規化項を正規化フレームワークに組み込む。 さらに、半四分法分割法と擬共役法に基づいて最適化法を開発する。 実験結果から,提案手法に対応する主観的指標と客観的指標が比較法より優れていることが示された。

How to extract more and useful information for single image super resolution is an imperative and difficult problem. Learning-based method is a representative method for such task. However, the results are not so stable as there may exist big difference between the training data and the test data. The regularization-based method can effectively utilize the self-information of observation. However, the degradation model used in regularization-based method just considers the degradation in intensity space. It may not reconstruct images well as the degradation reflections in various feature space are not considered. In this paper, we first study the image degradation progress, and establish degradation model both in intensity and gradient space. Thus, a comprehensive data consistency constraint is established for the reconstruction. Consequently, more useful information can be extracted from the observed data. Second, the regularization term is learned by a designed symmetric residual deep neural-network. It can search similar external information from a predefined dataset avoiding the artificial tendency. Finally, the proposed fidelity term and designed regularization term are embedded into the regularization framework. Further, an optimization method is developed based on the half-quadratic splitting method and the pseudo conjugate method. Experimental results indicated that the subjective and the objective metric corresponding to the proposed method were better than those obtained by the comparison methods.
翻訳日:2022-12-20 09:36:05 公開日:2020-03-24
# メモリ効率fcnを用いたフルサイズct画像からの臓器セグメンテーション

Organ Segmentation From Full-size CT Images Using Memory-Efficient FCN ( http://arxiv.org/abs/2003.10690v1 )

ライセンス: Link先を確認
Chenglong Wang, Masahiro Oda, Kensaku Mori(参考訳) 本稿では,複数のメモリ最適化手法を組み込んだ,メモリ効率の高い完全畳み込みネットワーク(fcn)を提案する。 医用画像分割タスクでは、サブボリュームクロッピングが一般的な前処理となっている。 gpuメモリ要求を減らすためにサブボリューム(または小さなパッチボリューム)が切り分けられた。 しかし、小さなパッチボリュームでは空間的コンテキストが小さくなり、精度が低下する。 本研究の目的は, 分割精度を維持しつつ, サブボリュームトリッピングを伴わずに, フルサイズのCT画像を直接トレーニングできるメモリ効率の高いFCNを提案することである。 アーキテクチャと実装の両方からネットワークを最適化します。 グラフィックス処理ユニット(GPU)やテンソル処理ユニット(TPU)などのコンピューティングハードウェアの開発により、ディープラーニングアプリケーションは許容時間内に大規模なデータセットでネットワークをトレーニングすることが可能になった。 これらのアプリケーションのうち、完全畳み込みネットワーク(fcn)を用いた意味セグメンテーションは、コンピュータビジョンと医療画像処理の分野における従来の画像処理アプローチに対して大幅に改善されている。 しかし、コンピュータビジョンタスクで使用される一般的なカラー画像とは異なり、医用画像は3次元ct画像、マイクロct画像、病理組織画像などのカラー画像よりも大きなスケールを持つ。 これらの医用画像の訓練では,計算資源の大量需要が深刻な問題となっている。 本稿では,臨床用ct画像から臓器分割問題における高gpuメモリ要求課題に取り組むため,メモリ効率の高いfcnを提案する。 実験の結果,GPUメモリの需要はベースラインアーキテクチャの約40%であり,パラメータ量はベースラインの約30%であることがわかった。

In this work, we present a memory-efficient fully convolutional network (FCN) incorporated with several memory-optimized techniques to reduce the run-time GPU memory demand during training phase. In medical image segmentation tasks, subvolume cropping has become a common preprocessing. Subvolumes (or small patch volumes) were cropped to reduce GPU memory demand. However, small patch volumes capture less spatial context that leads to lower accuracy. As a pilot study, the purpose of this work is to propose a memory-efficient FCN which enables us to train the model on full size CT image directly without subvolume cropping, while maintaining the segmentation accuracy. We optimize our network from both architecture and implementation. With the development of computing hardware, such as graphics processing unit (GPU) and tensor processing unit (TPU), now deep learning applications is able to train networks with large datasets within acceptable time. Among these applications, semantic segmentation using fully convolutional network (FCN) also has gained a significant improvement against traditional image processing approaches in both computer vision and medical image processing fields. However, unlike general color images used in computer vision tasks, medical images have larger scales than color images such as 3D computed tomography (CT) images, micro CT images, and histopathological images. For training these medical images, the large demand of computing resource become a severe problem. In this paper, we present a memory-efficient FCN to tackle the high GPU memory demand challenge in organ segmentation problem from clinical CT images. The experimental results demonstrated that our GPU memory demand is about 40% of baseline architecture, parameter amount is about 30% of the baseline.
翻訳日:2022-12-20 09:35:50 公開日:2020-03-24
# データセットクリーニング --顔認識を用いた大規模顔データセットのクロス検証手法

Dataset Cleaning -- A Cross Validation Methodology for Large Facial Datasets using Face Recognition ( http://arxiv.org/abs/2003.10815v1 )

ライセンス: Link先を確認
Viktor Varkarakis, Peter Corcoran(参考訳) 近年、顔検出、顔認識、その他のタスクの進歩を促進するために、大規模な「野生の」顔データセットがリリースされた。 これらのデータセットのほとんどは、自動手順でwebページから取得される。 その結果、ノイズの多いデータがしばしば見つかる。 さらに,これらの大規模顔データセットでは,顔認識アルゴリズムのトレーニングに使用されるため,アイデンティティのアノテーションが重要である。 しかし、これらのデータセットの自動収集方法と大きなサイズのため、多くのididityフォルダには、データセットの品質を低下させるラベル付きサンプルが含まれている。 そこで本研究では,雑音の多い大顔データセットを顔認証を用いて掃除する半自動的な手法を提案する。 この手法はCelebAデータセットをクリーニングし、その有効性を示す。 さらに、celebaデータセットのミスラベルされたサンプルのリストも利用可能である。

In recent years, large "in the wild" face datasets have been released in an attempt to facilitate progress in tasks such as face detection, face recognition, and other tasks. Most of these datasets are acquired from webpages with automatic procedures. As a consequence, noisy data are often found. Furthermore, in these large face datasets, the annotation of identities is important as they are used for training face recognition algorithms. But due to the automatic way of gathering these datasets and due to their large size, many identities folder contain mislabeled samples which deteriorates the quality of the datasets. In this work, it is presented a semi-automatic method for cleaning the noisy large face datasets with the use of face recognition. This methodology is applied to clean the CelebA dataset and show its effectiveness. Furthermore, the list with the mislabelled samples in the CelebA dataset is made available.
翻訳日:2022-12-20 09:35:25 公開日:2020-03-24
# 光フィールドを用いた静的シーン再構成のための動的オブジェクトの除去

Removing Dynamic Objects for Static Scene Reconstruction using Light Fields ( http://arxiv.org/abs/2003.11076v1 )

ライセンス: Link先を確認
Pushyami Kaveti, Sammie Katt, Hanumant Singh(参考訳) ロボットは、人間、家具、自動車を含む静的でダイナミックな実体からなる環境で動作すべきだという一般的な期待がある。 これらの動的環境は、フロントエンドにエラーを導入することで、視覚的同時ローカライゼーションとマッピング(SLAM)アルゴリズムに課題をもたらす。 ライトフィールドは、シーンのより完全な視覚情報をキャプチャすることで、このような問題に対処する方法の1つを提供する。 パースペクティブカメラからの1つの光線とは対照的に、光場は空間の1つの点から現れる光の束を捉えるので、それを通り抜けることで動的物体を見ることができる。 本稿では,リニアカメラアレイで取得した光フィールドを用いた動的物体の存在下で,静的背景の再焦点像を合成する手法を提案する。 意味セグメンテーションを用いて,静止シーンの奥行きと再焦点画像の両方を同時に推定し,単一の時間ステップで動的物体を検出する。 これにより、静的マップを初期化する必要がなくなる。 このアルゴリズムは並列化可能で、GPU上に実装されており、リアルタイムに近い速度で実行できます。 5台のカメラアレイを持つ小型ロボットを用いて得られた実世界のデータに対する本手法の有効性を実証する。

There is a general expectation that robots should operate in environments that consist of static and dynamic entities including people, furniture and automobiles. These dynamic environments pose challenges to visual simultaneous localization and mapping (SLAM) algorithms by introducing errors into the front-end. Light fields provide one possible method for addressing such problems by capturing a more complete visual information of a scene. In contrast to a single ray from a perspective camera, Light Fields capture a bundle of light rays emerging from a single point in space, allowing us to see through dynamic objects by refocusing past them. In this paper we present a method to synthesize a refocused image of the static background in the presence of dynamic objects that uses a light-field acquired with a linear camera array. We simultaneously estimate both the depth and the refocused image of the static scene using semantic segmentation for detecting dynamic objects in a single time step. This eliminates the need for initializing a static map . The algorithm is parallelizable and is implemented on GPU allowing us execute it at close to real time speeds. We demonstrate the effectiveness of our method on real-world data acquired using a small robot with a five camera array.
翻訳日:2022-12-20 09:35:14 公開日:2020-03-24
# IoTのためのAI時系列モデルのスケーラブルなデプロイ

Scalable Deployment of AI Time-series Models for IoT ( http://arxiv.org/abs/2003.12141v1 )

ライセンス: Link先を確認
Bradley Eck, Francesco Fusco, Robert Gormally, Mark Purcell, Seshu Tirupathi(参考訳) IBM Research Castorは、IoTアプリケーションで大量のAI時系列モデルを管理およびデプロイするためのクラウドネイティブシステムである。 典型的な機械学習ワークフローに従って、PythonとRでコードテンプレートをモデル化する。 モデルと時系列データを管理するための知識に基づくアプローチは、機能エンジニアリングタスクを表現するための一般的なセマンティック概念の使用を可能にする。 モデルテンプレートはセマンティックな概念の特定のインスタンスに対してプログラム的にデプロイできるため、IoTアプリケーションが成長するにつれてモデルの再利用と自動レプリケーションをサポートする。 デプロイされたモデルは、サーバレスクラウドコンピューティングフレームワークを活用することで、自動的に並列に実行される。 トレーニングされたモデルバージョンとローリングホライゾン予測の完全な履歴は継続され、完全なモデル系統とトレーサビリティが実現される。 実世界のスマートグリッドライブ予測アプリケーションのデプロイ結果が報告されている。 最大数万のAIモデリングタスクを実行するスケーラビリティも評価されている。

IBM Research Castor, a cloud-native system for managing and deploying large numbers of AI time-series models in IoT applications, is described. Modelling code templates, in Python and R, following a typical machine-learning workflow are supported. A knowledge-based approach to managing model and time-series data allows the use of general semantic concepts for expressing feature engineering tasks. Model templates can be programmatically deployed against specific instances of semantic concepts, thus supporting model reuse and automated replication as the IoT application grows. Deployed models are automatically executed in parallel leveraging a serverless cloud computing framework. The complete history of trained model versions and rolling-horizon predictions is persisted, thus enabling full model lineage and traceability. Results from deployments in real-world smart-grid live forecasting applications are reported. Scalability of executing up to tens of thousands of AI modelling tasks is also evaluated.
翻訳日:2022-12-20 09:34:55 公開日:2020-03-24
# DeepSIP: 一時マルチモーダルCNNによるネットワーク障害のサービス影響予測システム

DeepSIP: A System for Predicting Service Impact of Network Failure by Temporal Multimodal CNN ( http://arxiv.org/abs/2003.10643v1 )

ライセンス: Link先を確認
Yoichi Matsuo, Tatsuaki Kimura and Ken Nishimatsu(参考訳) ネットワークで障害が発生した場合、ネットワークオペレータはサービスへの影響を認識する必要がある。 本稿では、時間的マルチモーダル畳み込みニューラルネットワーク(CNN)を用いたネットワーク要素の故障による障害からの回復時間と交通量損失を予測するシステム、DeepSIP(Deep Learning Based Service Impact Prediction)を提案する。 復旧までの時間はサービスレベル合意(SLA)に有用な情報であり、交通量の減少は障害の深刻度に直接関連しているため、これらをサービスへの影響とみなす。 ネットワーク要素がサービスへの影響に関する情報を明示的に含まないため、サービスへの影響を予測するのは困難です。 そこで我々は,障害に関する隠れた情報を抽出することにより,syslogメッセージとトラフィック量からサービスへの影響を予測することを目的とする。 マルチモーダルで強い相関関係を持つsyslogメッセージとトラヒックボリュームから予測に有用な特徴を抽出するために,時間的マルチモーダルcnnを用いた。 合成データセットを用いた他のNN法と比較して,DeepSIPとDeepSIPの予測誤差を約50%削減する実験を行った。

When a failure occurs in a network, network operators need to recognize service impact, since service impact is essential information for handling failures. In this paper, we propose Deep learning based Service Impact Prediction (DeepSIP), a system to predict the time to recovery from the failure and the loss of traffic volume due to the failure in a network element using a temporal multimodal convolutional neural network (CNN). Since the time to recovery is useful information for a service level agreement (SLA) and the loss of traffic volume is directly related to the severity of the failures, we regard these as the service impact. The service impact is challenging to predict, since a network element does not explicitly contain any information about the service impact. Thus, we aim to predict the service impact from syslog messages and traffic volume by extracting hidden information about failures. To extract useful features for prediction from syslog messages and traffic volume which are multimodal and strongly correlated, and have temporal dependencies, we use temporal multimodal CNN. We experimentally evaluated DeepSIP and DeepSIP reduced prediction error by approximately 50% in comparison with other NN-based methods with a synthetic dataset.
翻訳日:2022-12-20 09:34:43 公開日:2020-03-24
# セキュリティデータに対する注意に基づく自己監視型特徴学習

Attention-Based Self-Supervised Feature Learning for Security Data ( http://arxiv.org/abs/2003.10639v1 )

ライセンス: Link先を確認
I-Ta Lee, Manish Marwah, and Martin Arlitt(参考訳) サイバーセキュリティにおける機械学習の応用は急速に増加しているが、ほとんどのモデルは手動で構築された機能を使用している。 この手動アプローチはエラーを起こしやすく、ドメインの専門知識を必要とする。 本稿では,サイバーセキュリティアプリケーションで日常的に使用されるデータの埋め込みを学習するために,自己教師付きシーケンス・ツー・シーケンスモデルを設計する。 この方法は2つの実世界の公開データセットで検証される。 学習された機能は異常検出モデルで使われ、ベースラインメソッドから学んだ機能よりも優れたパフォーマンスを示す。

While applications of machine learning in cyber-security have grown rapidly, most models use manually constructed features. This manual approach is error-prone and requires domain expertise. In this paper, we design a self-supervised sequence-to-sequence model with attention to learn an embedding for data routinely used in cyber-security applications. The method is validated on two real world public data sets. The learned features are used in an anomaly detection model and perform better than learned features from baseline methods.
翻訳日:2022-12-20 09:34:23 公開日:2020-03-24
# 保険価格における機械学習モデルの説明可能性に向けて

Towards Explainability of Machine Learning Models in Insurance Pricing ( http://arxiv.org/abs/2003.10674v1 )

ライセンス: Link先を確認
Kevin Kuo, Daniel Lupton(参考訳) 機械学習の手法は近年、アクチュアリティへの関心が高まっている。 しかし、一般化線形モデルと比較して、これらの手法の透明性が欠如していることもあって、実践者による採用は限られている。 本稿では,不動産・カジュアル保険におけるモデル解釈可能性の必要性を論じ,モデルを説明するための枠組みを提案し,その枠組みを説明するケーススタディを提案する。

Machine learning methods have garnered increasing interest among actuaries in recent years. However, their adoption by practitioners has been limited, partly due to the lack of transparency of these methods, as compared to generalized linear models. In this paper, we discuss the need for model interpretability in property & casualty insurance ratemaking, propose a framework for explaining models, and present a case study to illustrate the framework.
翻訳日:2022-12-20 09:34:04 公開日:2020-03-24
# 低消費電力深層学習とコンピュータビジョンのための手法の検討

A Survey of Methods for Low-Power Deep Learning and Computer Vision ( http://arxiv.org/abs/2003.11066v1 )

ライセンス: Link先を確認
Abhinav Goel, Caleb Tung, Yung-Hsiang Lu, and George K. Thiruvathukal(参考訳) ディープニューラルネットワーク(DNN)は多くのコンピュータビジョンタスクで成功している。 しかし、最も正確なDNNは数百万のパラメータと演算を必要とし、エネルギー、計算、メモリを集中的に処理する。 これにより、限られた計算リソースを持つ低消費電力デバイスへの大規模なDNNの展開が妨げられる。 近年,メモリ要求量,エネルギー消費量,演算数を削減し,精度を著しく低下させることなくdnnモデルを改善している。 本稿では,低消費電力深層学習とコンピュータビジョンの進展,特に推論に関する調査を行い,dnnモデルのコンパクト化と高速化について述べる。 これらの手法は,(1)パラメータ量子化とプルーニング,(2)圧縮畳み込みフィルタと行列因子化,(3)ネットワークアーキテクチャ探索,(4)知識蒸留の4つの主要なカテゴリに分類できる。 各カテゴリの手法を用いて,問題の正確性,長所,短所,潜在的な解決策を分析した。 また,今後の研究のガイドラインとして,新たな評価指標について考察する。

Deep neural networks (DNNs) are successful in many computer vision tasks. However, the most accurate DNNs require millions of parameters and operations, making them energy, computation and memory intensive. This impedes the deployment of large DNNs in low-power devices with limited compute resources. Recent research improves DNN models by reducing the memory requirement, energy consumption, and number of operations without significantly decreasing the accuracy. This paper surveys the progress of low-power deep learning and computer vision, specifically in regards to inference, and discusses the methods for compacting and accelerating DNN models. The techniques can be divided into four major categories: (1) parameter quantization and pruning, (2) compressed convolutional filters and matrix factorization, (3) network architecture search, and (4) knowledge distillation. We analyze the accuracy, advantages, disadvantages, and potential solutions to the problems with the techniques in each category. We also discuss new evaluation metrics as a guideline for future research.
翻訳日:2022-12-20 09:28:28 公開日:2020-03-24
# hmmアライメントによる弱教師付きセグメンテーションフリー単語スポッティング

Bootstrapping Weakly Supervised Segmentation-free Word Spotting through HMM-based Alignment ( http://arxiv.org/abs/2003.11087v1 )

ライセンス: Link先を確認
Tomas Wilkinson and Carl Nettelblad(参考訳) 手書き文書における単語スポッティングの最近の研究は印象的な結果をもたらした。 この進歩は、手動でアノテートされたデータに依存する教師付き学習システムによって主に行われ、新しいコレクションへのデプロイに多大な労力がかかる。 本稿では,ボックスアノテーションを使わずに書き起こしを利用する手法を提案し,部分的学習モデルを用いてセグメンテーションフリーなクエリ・バイ・ストリング語スポッティングモデルを訓練する。 これは隠れマルコフモデルに基づくトレーニングフリーアライメント手順によって行われる。 この手順は、ワード領域の提案と書き起こしの間の仮マッピングを作成し、単一のアライメント可能性を選択することなく、弱注釈のトレーニングデータを自動的に生成する。 完全アノテートされたトレーニングセットの1%から7%を部分収束に使用する場合,残りのトレーニングデータを自動アノテートし,それを用いたトレーニングを成功させる。 すべてのデータセットにおいて、最終的なトレーニングされたモデルは、基底真理として使用される完全なトレーニングセットでトレーニングされたモデルによるパフォーマンスのマップ%以内になります。 これは、デジタル文字起こしデータが多くの興味のあるコレクションの一部にすでに存在するため、より汎用的な単語スポッティングへの大きな進歩であると考えています。

Recent work in word spotting in handwritten documents has yielded impressive results. This progress has largely been made by supervised learning systems, which are dependent on manually annotated data, making deployment to new collections a significant effort. In this paper, we propose an approach that utilises transcripts without bounding box annotations to train segmentation-free query-by-string word spotting models, given a partially trained model. This is done through a training-free alignment procedure based on hidden Markov models. This procedure creates a tentative mapping between word region proposals and the transcriptions to automatically create additional weakly annotated training data, without choosing any single alignment possibility as the correct one. When only using between 1% and 7% of the fully annotated training sets for partial convergence, we automatically annotate the remaining training data and successfully train using it. On all our datasets, our final trained model then comes within a few mAP% of the performance from a model trained with the full training set used as ground truth. We believe that this will be a significant advance towards a more general use of word spotting, since digital transcription data will already exist for parts of many collections of interest.
翻訳日:2022-12-20 09:28:13 公開日:2020-03-24
# 感情認識のための統合深部クロスドメイン伝達学習

Joint Deep Cross-Domain Transfer Learning for Emotion Recognition ( http://arxiv.org/abs/2003.11136v1 )

ライセンス: Link先を確認
Dung Nguyen, Sridha Sridharan, Duc Thanh Nguyen, Simon Denman, Son N. Tran, Rui Zeng, and Clinton Fookes(参考訳) 深層学習は感情認識の大幅な進歩に応用されている。 このような大きな進歩にもかかわらず、既存のアプローチは十分なトレーニングデータによって妨げられ、結果として得られたモデルは、ミスマッチした条件下ではうまく一般化しない。 そこで本研究では,リッチデータセットから学習した知識をソース-poorデータセットに同時転送する学習戦略を提案する。 また,認識性能の向上につながるクロスドメインな特徴を学習することができる。 提案フレームワークの堅牢性を示すために,eNTERFACE, SAVEE, EMODBを含む3つのベンチマーク感情データセットの実験を行った。 実験の結果,提案手法は最先端の転校学習方式をかなり超えていることがわかった。

Deep learning has been applied to achieve significant progress in emotion recognition. Despite such substantial progress, existing approaches are still hindered by insufficient training data, and the resulting models do not generalize well under mismatched conditions. To address this challenge, we propose a learning strategy which jointly transfers the knowledge learned from rich datasets to source-poor datasets. Our method is also able to learn cross-domain features which lead to improved recognition performance. To demonstrate the robustness of our proposed framework, we conducted experiments on three benchmark emotion datasets including eNTERFACE, SAVEE, and EMODB. Experimental results show that the proposed method surpassed state-of-the-art transfer learning schemes by a significant margin.
翻訳日:2022-12-20 09:27:16 公開日:2020-03-24
# 大規模配車システムのリアルタイム派遣:最適化、機械学習、モデル予測制御の統合

Real-Time Dispatching of Large-Scale Ride-Sharing Systems: Integrating Optimization, Machine Learning, and Model Predictive Control ( http://arxiv.org/abs/2003.10942v1 )

ライセンス: Link先を確認
Connor Riley and Pascal Van Hentenryck and Enpeng Yuan(参考訳) 本稿では,多くの都市が直面する混雑問題に対処するために,大規模リアルタイム配車システムの導入を検討する。 目標は、乗車時間制限の下で待ち時間を最小化しながら、少数の車両で全顧客(サービス保証)にサービスを提供することである。 本稿では,最先端のディスパッチアルゴリズム,ゾーン間需要予測のための機械学習モデル,アイドル車両移動のためのモデル予測制御最適化を密に統合したエンド・ツー・エンド方式を提案する。 ニューヨーク市での歴史的なタクシー旅行の実験では、この統合により全てのテストケースで平均待ち時間が30%減少し、オンデマンドゾーンの最大のインスタンスでは55%近くに達することが示されている。

This paper considers the dispatching of large-scale real-time ride-sharing systems to address congestion issues faced by many cities. The goal is to serve all customers (service guarantees) with a small number of vehicles while minimizing waiting times under constraints on ride duration. This paper proposes an end-to-end approach that tightly integrates a state-of-the-art dispatching algorithm, a machine-learning model to predict zone-to-zone demand over time, and a model predictive control optimization to relocate idle vehicles. Experiments using historic taxi trips in New York City indicate that this integration decreases average waiting times by about 30% over all test cases and reaches close to 55% on the largest instances for high-demand zones.
翻訳日:2022-12-20 09:26:12 公開日:2020-03-24
# コンテキスト対応Parseツリー

Context-Aware Parse Trees ( http://arxiv.org/abs/2003.11118v1 )

ライセンス: Link先を確認
Fangke Ye, Shengtian Zhou, Anand Venkat, Ryan Marcus, Paul Petersen, Jesmin Jahan Tithi, Tim Mattson, Tim Kraska, Pradeep Dubey, Vivek Sarkar, Justin Gottschlich(参考訳) 単純化されたパースツリー(SPT)は、最先端のコードレコメンデーションシステムであるAromaで提示され、プログラム \emph{syntax} ではなくプログラム \emph{structure} をキャプチャすることで、コードセマンティクスを推論する木構造表現である。 これは、プログラミング言語構文によって主に駆動される古典的な抽象構文木から逸脱している。 我々は意味論に基づく表現が望ましいと考えているが、SPTの構成の特異性はその性能に影響を与える可能性がある。 これらのニュアンスを解析し,アロマのsptの影響を強く受け,新しい木構造である<emph{context-aware parse tree} (capt) を提示する。 CAPTはよりリッチなセマンティック表現を提供することでSPTを強化する。 特に、CAPTはセマンティックな特徴を追加するための言語固有の技術と、構文的に表現されているが意味的に関係のない特徴を取り除くための言語に依存しない技術に対する追加のバインディングサポートを提供する。 本研究は,提案する意味論的特徴の価値を定量的に検証し,分析した48,610個のプログラムにおいて,特定のCAPT構成がSPTよりも39倍精度が高いことを示した。

The simplified parse tree (SPT) presented in Aroma, a state-of-the-art code recommendation system, is a tree-structured representation used to infer code semantics by capturing program \emph{structure} rather than program \emph{syntax}. This is a departure from the classical abstract syntax tree, which is principally driven by programming language syntax. While we believe a semantics-driven representation is desirable, the specifics of an SPT's construction can impact its performance. We analyze these nuances and present a new tree structure, heavily influenced by Aroma's SPT, called a \emph{context-aware parse tree} (CAPT). CAPT enhances SPT by providing a richer level of semantic representation. Specifically, CAPT provides additional binding support for language-specific techniques for adding semantically-salient features, and language-agnostic techniques for removing syntactically-present but semantically-irrelevant features. Our research quantitatively demonstrates the value of our proposed semantically-salient features, enabling a specific CAPT configuration to be 39\% more accurate than SPT across the 48,610 programs we analyzed.
翻訳日:2022-12-20 09:25:59 公開日:2020-03-24
# Dise\~no e implementaci\'on de una meta-heur\'istica multi-poblacional de optimizaci\'on combinatoria enfocada a la resoluci\'on de problemas de asignaci\'on de rutas a veh\'iculos

Dise\~no e implementaci\'on de una meta-heur\'istica multi-poblacional de optimizaci\'on combinatoria enfocada a la resoluci\'on de problemas de asignaci\'on de rutas a veh\'iculos ( http://arxiv.org/abs/2003.11393v1 )

ライセンス: Link先を確認
Eneko Osaba(参考訳) 交通は現代社会において、ビジネス部門と市民の双方にとって欠かせない領域である。 交通システムには様々な種類があり、それぞれに独自の特徴がある。 同様に、様々な分野の知識が輸送計画に効率的に対応できる。 輸送と物流に関する問題の大部分は共通の特徴を持っているため、最適化問題としてモデル化することができ、他の一般的な問題の特別な場合と見なせる。 これらの問題は組合せ最適化分野に当てはまる。 このタイプの問題の多くは、非常に複雑である。 膨大な量のメタヒューリスティックスが文献の中にあり、それぞれに長所と短所がある。 組合せ最適化問題の複雑性が高いため、これら全ての問題を最適に解く技術は存在しない。 この事実は、組合せ最適化と車両経路問題の分野を研究のホットトピックにしている。 この博士論文は、様々な種類の車両経路問題を解決するための新しいメタヒューリスティックの開発に注力する。 提案手法は, 既存の手法と比較して, 性能や概念的独創性との関連において付加価値を提供する。 提案モデルを検証する目的で, 開発したメタヒューリスティックによる結果と類似哲学の他の4つのアルゴリズムによる結果を比較した。 この実験でよく知られた4つの経路問題と2つの古典的組合せ最適化問題に使われている。 平均値や標準偏差などのパラメータに基づく比較に加えて、2つの異なる統計試験が実施されている。 これらのテストのおかげで、提案されたメタヒューリスティックは、パフォーマンスと概念の独創性という点で競争的であることが確認できる。

Transportation is an essential area in the nowadays society, both for business sector and citizenry. There are different kinds of transportation systems, each one with its own characteristics. In the same way, various areas of knowledge can deal efficiently with the transport planning. The majority of the problems related with the transport and logistics have common characteristics, so they can be modeled as optimization problems, being able to see them as special cases of other generic problems. These problems fit into the combinatorial optimization field. Much of the problems of this type have an exceptional complexity. A great amount of meta-heuristics can be found the literature, each one with its advantages and disadvantages. Due to the high complexity of combinatorial optimization problems, there is no technique able to solve all these problems optimally. This fact makes the fields of combinatorial optimization and vehicle routing problems be a hot topic of research. This doctoral thesis will focus its efforts on developing a new meta-heuristic to solve different kind of vehicle routing problems. The presented technique offers an added value compared to existing methods, either in relation to the performance, and the contribution of conceptual originality. With the aim of validating the proposed model, the results obtained by the developed meta-heuristic have been compared with the ones obtained by other four algorithms of similar philosophy. Four well-known routing problems have been used in this experimentation, as well as two classical combinatorial optimization problems. In addition to the comparisons based on parameters such as the mean, or the standard deviation, two different statistical tests have been carried out. Thanks to these tests it can be affirmed that the proposed meta-heuristic is competitive in terms of performance and conceptual originality.
翻訳日:2022-12-20 09:25:37 公開日:2020-03-24
# Paired Egocentric Interaction Recognitionのためのクロスビューインタラクション一貫性のモデル化

Modeling Cross-view Interaction Consistency for Paired Egocentric Interaction Recognition ( http://arxiv.org/abs/2003.10663v1 )

ライセンス: Link先を確認
Zhongguo Li, Fan Lyu, Wei Feng, Song Wang(参考訳) Augmented Reality(AR)の開発により、ユーザからの要求を正確に理解する上で、Egocentric Action Recognition(EAR)が重要な役割を果たす。 しかし、EARは人間と機械の相互作用を一つの自我中心の視点で認識するのに役立つように設計されており、2人の対面ARユーザー間の相互作用を捉えることは困難である。 Paired Egocentric Interaction Recognition (PEIR) は、2人の人間とビデオの相互作用を協調的に認識するタスクである。 残念ながら、既存のPEIRメソッドは常に線形決定関数を使って、2つのエゴセントリックビデオから抽出された特徴を融合させる。 ペアビデオにおける相互作用の一貫性とそれらから抽出された特徴は相互に相関する。 その上に,2つのビューの一貫性を特徴レベルで捉えるbiliear poolingを用いて,2つのビュー間の関連性を構築することを提案する。 具体的には、あるビューからのそれぞれのニューロンは、別のビューからのニューロンに接続し、2つのビュー間のコンパクトな一貫性を保証する。 そして、全ての可能なペアのニューロンは、内部の一貫性のある情報のためにPEIRに使用される。 効率を高めるために,count sketch を用いたコンパクトな双線型プーリングを用いて,外部積の直接計算を回避した。 データセットPEVの実験結果は,タスクPEIRにおける提案手法の優位性を示している。

With the development of Augmented Reality (AR), egocentric action recognition (EAR) plays important role in accurately understanding demands from the user. However, EAR is designed to help recognize human-machine interaction in single egocentric view, thus difficult to capture interactions between two face-to-face AR users. Paired egocentric interaction recognition (PEIR) is the task to collaboratively recognize the interactions between two persons with the videos in their corresponding views. Unfortunately, existing PEIR methods always directly use linear decision function to fuse the features extracted from two corresponding egocentric videos, which ignore consistency of interaction in paired egocentric videos. The consistency of interactions in paired videos, and features extracted from them are correlated to each other. On top of that, we propose to build the relevance between two views using biliear pooling, which capture the consistency of two views in feature-level. Specifically, each neuron in the feature maps from one view connects to the neurons from another view, which guarantee the compact consistency between two views. Then all possible paired neurons are used for PEIR for the inside consistent information of them. To be efficient, we use compact bilinear pooling with Count Sketch to avoid directly computing outer product in bilinear. Experimental results on dataset PEV shows the superiority of the proposed methods on the task PEIR.
翻訳日:2022-12-20 09:19:44 公開日:2020-03-24
# 空間変換器の射影幾何学への一般化と2d/3d登録への応用

Generalizing Spatial Transformers to Projective Geometry with Applications to 2D/3D Registration ( http://arxiv.org/abs/2003.10987v1 )

ライセンス: Link先を確認
Cong Gao, Xingtong Liu, Wenhao Gu, Benjamin Killeen, Mehran Armand, Russell Taylor and Mathias Unberath(参考訳) 微分レンダリングは、3Dシーンと対応する2Dイメージを接続する技術である。 微分可能であるため、画像形成中のプロセスを学ぶことができる。 差別化可能なレンダリングに対する従来のアプローチは、3Dシーンのメッシュベースの表現に重点を置いていた。 本稿では,空間変換器を射影幾何学に一般化した新しい射影空間変換器モジュールを提案する。 本アーキテクチャの有用性を,ラジオグラフとctスキャンの2d/3d登録例で示す。 具体的には,ポーズパラメータに対して凸な画像類似度関数を近似した画像処理と投影モデルのエンドツーエンド学習が可能であり,従来の勾配勾配を用いて効果的に最適化可能であることを示す。 私たちの知る限りでは、空間トランスフォーマーが射影幾何学のために記述されたのはこれが初めてです。 ソースコードはこの原稿の公開時に公開され、我々の開発が関連する3D研究アプリケーションに利益をもたらすことを期待します。

Differentiable rendering is a technique to connect 3D scenes with corresponding 2D images. Since it is differentiable, processes during image formation can be learned. Previous approaches to differentiable rendering focus on mesh-based representations of 3D scenes, which is inappropriate for medical applications where volumetric, voxelized models are used to represent anatomy. We propose a novel Projective Spatial Transformer module that generalizes spatial transformers to projective geometry, thus enabling differentiable volume rendering. We demonstrate the usefulness of this architecture on the example of 2D/3D registration between radiographs and CT scans. Specifically, we show that our transformer enables end-to-end learning of an image processing and projection model that approximates an image similarity function that is convex with respect to the pose parameters, and can thus be optimized effectively using conventional gradient descent. To the best of our knowledge, this is the first time that spatial transformers have been described for projective geometry. The source code will be made public upon publication of this manuscript and we hope that our developments will benefit related 3D research applications.
翻訳日:2022-12-20 09:16:54 公開日:2020-03-24
# N-Gramsとスティロメトリ特徴を用いたマイクロブログテキストの法定オーサリング解析

Forensic Authorship Analysis of Microblogging Texts Using N-Grams and Stylometric Features ( http://arxiv.org/abs/2003.11545v1 )

ライセンス: Link先を確認
Nicole Mariah Sharon Belvisi, Naveed Muhammad, Fernando Alonso-Fernandez(参考訳) 近年、インターネットに投稿されたメッセージやテキストは刑事捜査に利用されている。 しかし、その作者は不明な点が多い。 一部のチャンネルでは、デジタルテキストの長さが一定の文字数に限定されているため、著者を確立する問題はさらに困難である。 本研究では,280文字に制限されたツイートメッセージの作者を特定することを目的とする。 著者の属性に伝統的に用いられてきた人気機能の評価を行い,異なるレベルの筆記スタイルの特性を捉えた。 弊社の実験では、40名のユーザによる、120から200のツイートを自撮りでデータベース化した。 この小さなセットを使った結果は有望であり、異なる特徴により分類精度は92%から98.5%である。 これらの結果は、ツイートやSMSなどの短いテキストを使用する既存の研究と比較すると、競合する。

In recent years, messages and text posted on the Internet are used in criminal investigations. Unfortunately, the authorship of many of them remains unknown. In some channels, the problem of establishing authorship may be even harder, since the length of digital texts is limited to a certain number of characters. In this work, we aim at identifying authors of tweet messages, which are limited to 280 characters. We evaluate popular features employed traditionally in authorship attribution which capture properties of the writing style at different levels. We use for our experiments a self-captured database of 40 users, with 120 to 200 tweets per user. Results using this small set are promising, with the different features providing a classification accuracy between 92% and 98.5%. These results are competitive in comparison to existing studies which employ short texts such as tweets or SMS.
翻訳日:2022-12-20 09:10:08 公開日:2020-03-24
# 平面ナノマグネットアレイを用いた貯留層計算

Reservoir Computing with Planar Nanomagnet Arrays ( http://arxiv.org/abs/2003.10948v1 )

ライセンス: Link先を確認
Peng Zhou, Nathan R. McDonald, Alexander J. Edwards, Lisa Loomis, Clare D. Thiem, Joseph S. Friedman(参考訳) 貯水池コンピューティングはニューロモルフィックコンピューティングの新たな方法論であり、特にswap(hardware implementation in size, weight, and power)制約環境に適している。 本研究では,平面ナノマグネットアレイを用いた貯水池コンピュータのハードウェア実装を提案する。 微小ナノマグネット貯水池を電磁シミュレーションで示し、単純な波形を100%精度で識別することができる。 プラナーナノマグネット貯水池は、専用ニューロモルフィックハードウェアの需要が高まる中で、期待できる新しいソリューションである。

Reservoir computing is an emerging methodology for neuromorphic computing that is especially well-suited for hardware implementations in size, weight, and power (SWaP) constrained environments. This work proposes a novel hardware implementation of a reservoir computer using a planar nanomagnet array. A small nanomagnet reservoir is demonstrated via micromagnetic simulations to be able to identify simple waveforms with 100% accuracy. Planar nanomagnet reservoirs are a promising new solution to the growing need for dedicated neuromorphic hardware.
翻訳日:2022-12-20 09:09:55 公開日:2020-03-24
# スピントロニッククラスタリングアーキテクチャのための教師なし競合型ハードウェア学習ルール

Unsupervised Competitive Hardware Learning Rule for Spintronic Clustering Architecture ( http://arxiv.org/abs/2003.11120v1 )

ライセンス: Link先を確認
Alvaro Velasquez, Christopher H. Bennett, Naimul Hassan, Wesley H. Brigner, Otitoaleke G. Akinola, Jean Anne C. Incorvia, Matthew J. Marinella, Joseph S. Friedman(参考訳) 本稿では,新しいスピントロニクスコンピューティングアーキテクチャにおける教師なしクラスタリングのためのハードウェア学習ルールを提案する。 提案手法では,磁壁型磁気トンネル接合素子の3端子構造を利用して,ニューロモーフィック・コンピューティング・アーキテクチャでシナプスとして使用される際に,その装置を訓練するためのフィードバックループを構築する。

We propose a hardware learning rule for unsupervised clustering within a novel spintronic computing architecture. The proposed approach leverages the three-terminal structure of domain-wall magnetic tunnel junction devices to establish a feedback loop that serves to train such devices when they are used as synapses in a neuromorphic computing architecture.
翻訳日:2022-12-20 09:09:46 公開日:2020-03-24
# FPGA上でのメモリ効率の良いデータフロー推論高速化のための進化的ビンパッキング

Evolutionary Bin Packing for Memory-Efficient Dataflow Inference Acceleration on FPGA ( http://arxiv.org/abs/2003.12449v1 )

ライセンス: Link先を確認
Mairin Kroes, Lucian Petrica, Sorin Cotofana, Michaela Blott(参考訳) FPGA(Field Programmable Gate Arrays)に実装された畳み込みニューラルネットワーク(CNN)データフロー推論アクセラレータは、CPUやGPU上でのCNN実行と比較して、エネルギー効率とレイテンシが向上している。 しかし、CNNパラメータメモリの複雑な形状は、一般的にFPGAオンチップメモリ(OCM)にうまく対応せず、結果としてOCM利用が低下し、FPGA上で効果的に加速できるCNNのサイズとタイプが制限される。 本研究では,CNNパラメータのFPGA OCMへのマッピング効率を向上させる設計手法を提案する。 提案手法は, 従来の bin packing アルゴリズムがFPGA や CNN 特有の制約の解決に適していないことを判断する。 遺伝的アルゴリズムと従来のビンパッキングヒューリスティックとをハイブリッド化し,パラメータメモリをグループ化し,fpgaオンチップメモリに最適適合するフレキシブルマッパーを作成する。 これらのアルゴリズムをFPGA推論アクセラレータ上で評価する。 我々のハイブリッドマッパーは、すべてのCNNユースケースに対して数秒で最適解に収束し、深層CNNのOCM利用効率を最大65%向上させ、現在の最先端のシミュレーションアニールアプローチよりも200$\times$高速となる。

Convolutional neural network (CNN) dataflow inference accelerators implemented in Field Programmable Gate Arrays (FPGAs) have demonstrated increased energy efficiency and lower latency compared to CNN execution on CPUs or GPUs. However, the complex shapes of CNN parameter memories do not typically map well to FPGA on-chip memories (OCM), which results in poor OCM utilization and ultimately limits the size and types of CNNs which can be effectively accelerated on FPGAs. In this work, we present a design methodology that improves the mapping efficiency of CNN parameters to FPGA OCM. We frame the mapping as a bin packing problem and determine that traditional bin packing algorithms are not well suited to solve the problem within FPGA- and CNN-specific constraints. We hybridize genetic algorithms and simulated annealing with traditional bin packing heuristics to create flexible mappers capable of grouping parameter memories such that each group optimally fits FPGA on-chip memories. We evaluate these algorithms on a variety of FPGA inference accelerators. Our hybrid mappers converge to optimal solutions in a matter of seconds for all CNN use-cases, achieve an increase of up to 65% in OCM utilization efficiency for deep CNNs, and are up to 200$\times$ faster than current state-of-the-art simulated annealing approaches.
翻訳日:2022-12-20 09:09:39 公開日:2020-03-24
# KFNet:Kalmanフィルタを用いた時間カメラ再ローカライズ学習

KFNet: Learning Temporal Camera Relocalization using Kalman Filtering ( http://arxiv.org/abs/2003.10629v1 )

ライセンス: Link先を確認
Lei Zhou, Zixin Luo, Tianwei Shen, Jiahui Zhang, Mingmin Zhen, Yao Yao, Tian Fang and Long Quan(参考訳) 時間的カメラ再ローカライズは静止画に焦点を当てたワンショット再ローカライズとは対照的に、各ビデオフレームに対するポーズを連続的に推定する。 時間依存性を考慮すると、現在の時間的再ローカライズ手法は、精度の面では、最先端のワンショットアプローチよりも一般的には劣っている。 そこで本研究では,Kalman Filtering (KFNet) を組み込んだネットワークアーキテクチャを用いて,時間的再ローカライズ手法を改善する。 特に、kfnetはポーズ決定のために2dおよび3d対応を再帰的に確立するためにシーン座標回帰問題を時間領域に拡張する。 ネットワークアーキテクチャの設計と損失の定式化は、ベイズ学習の文脈におけるカルマンフィルタに基づいている。 複数の再ローカライゼーションベンチマークの大規模な実験は、KFNetの1ショットおよび時間的再ローカライズアプローチの頂点における高い精度を示している。 私たちのコードはhttps://github.com/zlthinker/kfnetでリリースされています。

Temporal camera relocalization estimates the pose with respect to each video frame in sequence, as opposed to one-shot relocalization which focuses on a still image. Even though the time dependency has been taken into account, current temporal relocalization methods still generally underperform the state-of-the-art one-shot approaches in terms of accuracy. In this work, we improve the temporal relocalization method by using a network architecture that incorporates Kalman filtering (KFNet) for online camera relocalization. In particular, KFNet extends the scene coordinate regression problem to the time domain in order to recursively establish 2D and 3D correspondences for the pose determination. The network architecture design and the loss formulation are based on Kalman filtering in the context of Bayesian learning. Extensive experiments on multiple relocalization benchmarks demonstrate the high accuracy of KFNet at the top of both one-shot and temporal relocalization approaches. Our codes are released at https://github.com/zlthinker/KFNet.
翻訳日:2022-12-20 09:08:21 公開日:2020-03-24
# Gen-LaneNet: 3Dレーン検出のための汎用的でスケーラブルなアプローチ

Gen-LaneNet: A Generalized and Scalable Approach for 3D Lane Detection ( http://arxiv.org/abs/2003.10656v1 )

ライセンス: Link先を確認
Yuliang Guo, Guang Chen, Peitao Zhao, Weide Zhang, Jinghao Miao, Jingao Wang and Tae Eun Choe(参考訳) 我々はGen-LaneNetと呼ばれる一般化されたスケーラブルな手法を提案し、単一の画像から3Dレーンを検出する。 最新の最先端の3d-lanenetにインスパイアされたこの手法は、画像エンコーディング、特徴の空間変換、3dレーン予測を単一のネットワークで解決する統一フレームワークである。 しかし、Gen-LaneNetのユニークな設計を2つの折り畳みで提案する。 まず,新しい座標系に新しい幾何誘導レーンアンカー表現を導入し,ネットワーク出力から実3次元レーン点を直接計算するために,特定の幾何変換を適用する。 我々は,新しい座標系における車線点と基本となるトップビュー機能との整合が,未知のシーンを扱う一般的な方法に不可欠であることを実証する。 次に,画像分割サブネットワークとジオメトリエンコーディングサブネットワークの学習を分離するスケーラブルな2段階フレームワークを提案する。 3D-LaneNetと比較して、提案されているGen-LaneNetは、現実世界のアプリケーションで堅牢なソリューションを実現するために必要な3Dレーンラベルの量を劇的に削減する。 さらに,3次元車線検出手法の開発と評価を促進するため,新しい合成データセットとその構築戦略を公表した。 実験では,提案したGen-LaneNetが平均精度(AP)およびFスコアで3D-LaneNetより有意に優れていることを示す。

We present a generalized and scalable method, called Gen-LaneNet, to detect 3D lanes from a single image. The method, inspired by the latest state-of-the-art 3D-LaneNet, is a unified framework solving image encoding, spatial transform of features and 3D lane prediction in a single network. However, we propose unique designs for Gen-LaneNet in two folds. First, we introduce a new geometry-guided lane anchor representation in a new coordinate frame and apply a specific geometric transformation to directly calculate real 3D lane points from the network output. We demonstrate that aligning the lane points with the underlying top-view features in the new coordinate frame is critical towards a generalized method in handling unfamiliar scenes. Second, we present a scalable two-stage framework that decouples the learning of image segmentation subnetwork and geometry encoding subnetwork. Compared to 3D-LaneNet, the proposed Gen-LaneNet drastically reduces the amount of 3D lane labels required to achieve a robust solution in real-world application. Moreover, we release a new synthetic dataset and its construction strategy to encourage the development and evaluation of 3D lane detection methods. In experiments, we conduct extensive ablation study to substantiate the proposed Gen-LaneNet significantly outperforms 3D-LaneNet in average precision(AP) and F-score.
翻訳日:2022-12-20 09:07:52 公開日:2020-03-24
# CRNet:Few-Shotセグメンテーションのためのクロスリファレンスネットワーク

CRNet: Cross-Reference Networks for Few-Shot Segmentation ( http://arxiv.org/abs/2003.10658v1 )

ライセンス: Link先を確認
Weide Liu, Chi Zhang, Guosheng Lin, Fayao Liu(参考訳) 過去数年間、最先端の画像セグメンテーションアルゴリズムは深層畳み込みニューラルネットワークに基づいている。 ディープネットワークを概念を理解する能力でレンダリングするには、人間が大量のピクセルレベルの注釈付きデータを収集してモデルを訓練する必要がある。 近年,この問題を解決するために少数ショットセグメンテーションが提案されている。 少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。 本稿では,数ショットセグメンテーションのためのクロスリファレンスネットワーク(CRNet)を提案する。 クエリ画像のマスクのみを予測する従来の作業とは異なり,提案モデルでは,サポート画像とクエリ画像の両方に対して同時に予測を行う。 相互参照機構により、我々のネットワークは2つの画像に共起するオブジェクトをよりよく見つけることができるので、数発のセグメンテーションタスクに役立つ。 また,フォアグラウンド領域の予測を精錬するために,マスクリファインメントモジュールを開発した。 k$-shot学習のために、複数のラベル付きサポートイメージを活用するために、ネットワークの一部を微調整することを提案する。 PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。

Over the past few years, state-of-the-art image segmentation algorithms are based on deep convolutional neural networks. To render a deep network with the ability to understand a concept, humans need to collect a large amount of pixel-level annotated data to train the models, which is time-consuming and tedious. Recently, few-shot segmentation is proposed to solve this problem. Few-shot segmentation aims to learn a segmentation model that can be generalized to novel classes with only a few training images. In this paper, we propose a cross-reference network (CRNet) for few-shot segmentation. Unlike previous works which only predict the mask in the query image, our proposed model concurrently make predictions for both the support image and the query image. With a cross-reference mechanism, our network can better find the co-occurrent objects in the two images, thus helping the few-shot segmentation task. We also develop a mask refinement module to recurrently refine the prediction of the foreground regions. For the $k$-shot learning, we propose to finetune parts of networks to take advantage of multiple labeled support images. Experiments on the PASCAL VOC 2012 dataset show that our network achieves state-of-the-art performance.
翻訳日:2022-12-20 09:07:25 公開日:2020-03-24
# ML-SIM:構造顕微鏡画像の再構成のためのディープニューラルネットワーク

ML-SIM: A deep neural network for reconstruction of structured illumination microscopy images ( http://arxiv.org/abs/2003.11064v1 )

ライセンス: Link先を確認
Charles N. Christensen, Edward N. Ward, Pietro Lio, Clemens F. Kaminski(参考訳) 構造的照明顕微鏡(SIM)は、ライブセルイメージングと互換性のある速度で画像解像度の倍増を可能にするため、光学超解像撮影において重要な技術となっている。 しかし、SIM画像の再構成は遅く、アーティファクトになりがちである。 本稿では機械学習を利用した多目的再構成手法ML-SIMを提案する。 このモデルはエンドツーエンドのディープ残差ニューラルネットワークであり、一般的なSIMアーチファクトのないシミュレーションデータセットでトレーニングされる。 したがって、ML-SIMは生のSIM入力フレームの照明パターンにおけるノイズや不規則に対して堅牢である。 再建法は広く適用可能であり,実験訓練データの取得は不要である。 トレーニングデータは、汎用ライブラリの画像上のSIMプロセスのシミュレーションから生成されるので、特定の実験的なSIM実装に効率的に適用することができる。 本手法で実現される復元品質は従来のsim再構成法と比較し,シミュレーション入力と実験入力の両方において,ノイズ,再構成忠実性,コントラストの面でのアドバンテージを示す。 さらに、1つのSIMフレームの再構成は通常、最新のNvidiaグラフィックカードでPC上で実行するのに100ms程度しかかかりません。 完全な実装とトレーニングされたネットワークはhttp://ML-SIM.com.comで入手できる。

Structured illumination microscopy (SIM) has become an important technique for optical super-resolution imaging because it allows a doubling of image resolution at speeds compatible for live-cell imaging. However, the reconstruction of SIM images is often slow and prone to artefacts. Here we propose a versatile reconstruction method, ML-SIM, which makes use of machine learning. The model is an end-to-end deep residual neural network that is trained on a simulated data set to be free of common SIM artefacts. ML-SIM is thus robust to noise and irregularities in the illumination patterns of the raw SIM input frames. The reconstruction method is widely applicable and does not require the acquisition of experimental training data. Since the training data are generated from simulations of the SIM process on images from generic libraries the method can be efficiently adapted to specific experimental SIM implementations. The reconstruction quality enabled by our method is compared with traditional SIM reconstruction methods, and we demonstrate advantages in terms of noise, reconstruction fidelity and contrast for both simulated and experimental inputs. In addition, reconstruction of one SIM frame typically only takes ~100ms to perform on PCs with modern Nvidia graphics cards, making the technique compatible with real-time imaging. The full implementation and the trained networks are available at http://ML-SIM.com.
翻訳日:2022-12-20 09:01:18 公開日:2020-03-24
# エンコーダの深さ:オートエンコーダによるオーディオ視覚品質測定のための特徴記述子の分析

How deep is your encoder: an analysis of features descriptors for an autoencoder-based audio-visual quality metric ( http://arxiv.org/abs/2003.11100v1 )

ライセンス: Link先を確認
Helard Martinez and Andrew Hines and Mylene C. Q. Farias(参考訳) 音響視覚品質評価モデルの開発は、正確な予測を得るために多くの課題を提起する。 これらの課題の1つは、オーディオと視覚刺激が持つ複雑な相互作用のモデル化と、この相互作用が人間のユーザによってどのように解釈されるかである。 No-Reference Audio-Visual Quality Metric Based on a Deep Autoencoder (NAViDAd)は、機械学習の観点からこの問題を扱う。 このメトリックは2セットのオーディオとビデオの特徴ディスクリプタを受け取り、オーディオと視覚の質を予測するために使用される低次元の機能セットを生成する。 NAViDAdの基本的な実装は、様々なオーディオ視覚データベースでテストされた正確な予測を生成することができた。 現在の研究は、計量の基底構造に関するアブレーション研究を行っている。 いくつかのモジュールは、メトリック機能をよりよく理解するために、異なる設定を使用して削除または再訓練される。 この研究で得られた結果は重要なフィードバックを提供し、メトリックのアーキテクチャの実際の能力を理解し、最終的にはより優れたオーディオ・視覚品質のメトリクスを開発することができる。

The development of audio-visual quality assessment models poses a number of challenges in order to obtain accurate predictions. One of these challenges is the modelling of the complex interaction that audio and visual stimuli have and how this interaction is interpreted by human users. The No-Reference Audio-Visual Quality Metric Based on a Deep Autoencoder (NAViDAd) deals with this problem from a machine learning perspective. The metric receives two sets of audio and video features descriptors and produces a low-dimensional set of features used to predict the audio-visual quality. A basic implementation of NAViDAd was able to produce accurate predictions tested with a range of different audio-visual databases. The current work performs an ablation study on the base architecture of the metric. Several modules are removed or re-trained using different configurations to have a better understanding of the metric functionality. The results presented in this study provided important feedback that allows us to understand the real capacity of the metric's architecture and eventually develop a much better audio-visual quality metric.
翻訳日:2022-12-20 09:00:58 公開日:2020-03-24
# PAIN(Physally Adversarial Intelligent Networks)による自律運転支援に向けて

Towards Safer Self-Driving Through Great PAIN (Physically Adversarial Intelligent Networks) ( http://arxiv.org/abs/2003.10662v1 )

ライセンス: Link先を確認
Piyush Gupta, Demetris Coleman, Joshua E. Siegel(参考訳) 自動車両のニューラルネットワークは、データ可用性の制限により、過度な適合性、一般化性の低下、未訓練のエッジケースに悩まされる。 研究者はトレーニングプロセスを支援するためにランダム化されたエッジケースシナリオを合成するが、シミュレーションは潜在的なルールや機能に過剰に適合する可能性をもたらす。 最悪のシナリオ生成の自動化は、自動運転を改善するための有益なデータをもたらす可能性がある。 そこで我々は,CARLAシミュレーション環境において,自動運転車が積極的に対話する「Physically Adversarial Intelligent Network」(PAIN)を導入する。 我々は2つのエージェント、主人公と敵を訓練し、優先された体験リプレイを伴う二重深度Qネットワーク(DDDQN)を使用する。 結合されたネットワークは交互に衝突し、"防御的"回避アルゴリズムが非敵対的な運用条件下での平均時間と距離を増大させるような衝突を避ける。 訓練されたプロタゴニストは、環境の不確実性に対してより弾力性が高く、ケースの故障を抑える傾向が低くなり、敵のいないエージェントよりも衝突する。

Automated vehicles' neural networks suffer from overfit, poor generalizability, and untrained edge cases due to limited data availability. Researchers synthesize randomized edge-case scenarios to assist in the training process, though simulation introduces potential for overfit to latent rules and features. Automating worst-case scenario generation could yield informative data for improving self driving. To this end, we introduce a "Physically Adversarial Intelligent Network" (PAIN), wherein self-driving vehicles interact aggressively in the CARLA simulation environment. We train two agents, a protagonist and an adversary, using dueling double deep Q networks (DDDQNs) with prioritized experience replay. The coupled networks alternately seek-to-collide and to avoid collisions such that the "defensive" avoidance algorithm increases the mean-time-to-failure and distance traveled under non-hostile operating conditions. The trained protagonist becomes more resilient to environmental uncertainty and less prone to corner case failures resulting in collisions than the agent trained without an adversary.
翻訳日:2022-12-20 08:59:40 公開日:2020-03-24
# 多次元分割回帰のための効率的なアルゴリズム

Efficient Algorithms for Multidimensional Segmented Regression ( http://arxiv.org/abs/2003.11086v1 )

ライセンス: Link先を確認
Ilias Diakonikolas and Jerry Li and Anastasia Voloshinov(参考訳) 関数 $f$ のノイズサンプルが未知の $k$ 矩形集合上で一意に線形であることを約束するならば、平均二乗誤差において所望の精度で$f$ を回復したい。 任意の次元におけるこの問題に対する最初のサンプルと計算効率のよいアルゴリズムを提供する。 提案アルゴリズムは,多次元設定において新しい単純な反復的マージ手法に依存する。 合成データと実データの両方を実験的に評価したところ、アルゴリズムは競争力があり、場合によっては最先端のヒューリスティックスよりも優れていた。 実装のコードは \url{https://github.com/avoloshinov/multidimensional-segmented-regression} で利用可能です。

We study the fundamental problem of fixed design {\em multidimensional segmented regression}: Given noisy samples from a function $f$, promised to be piecewise linear on an unknown set of $k$ rectangles, we want to recover $f$ up to a desired accuracy in mean-squared error. We provide the first sample and computationally efficient algorithm for this problem in any fixed dimension. Our algorithm relies on a simple iterative merging approach, which is novel in the multidimensional setting. Our experimental evaluation on both synthetic and real datasets shows that our algorithm is competitive and in some cases outperforms state-of-the-art heuristics. Code of our implementation is available at \url{https://github.com/avoloshinov/multidimensional-segmented-regression}.
翻訳日:2022-12-20 08:59:24 公開日:2020-03-24
# felix: タグと挿入による柔軟なテキスト編集

Felix: Flexible Text Editing Through Tagging and Insertion ( http://arxiv.org/abs/2003.10687v1 )

ライセンス: Link先を確認
Jonathan Mallinson, Aliaksei Severyn, Eric Malmi, Guillermo Garrido(参考訳) Felix -- 生成のための柔軟なテキスト編集アプローチで、双方向コンテキストによるデコードと自己教師型事前学習のアイデアから最大限の利益を得るように設計されています。 従来のsequence-to-sequence(seq2seq)モデルとは対照的に、felixは低リソース設定で効率的で推論時間も速いが、柔軟な入出力変換をモデル化できる。 テキスト編集タスクを2つのサブタスクに分解することで,入力トークンのサブセットと出力テキストの順序をタグ付けし,入力に存在しない出力の欠落トークンをインフィルする挿入を行う。 タグ付けモデルは新しいPointerメカニズムを採用し、挿入モデルはMasked Language Modelに基づいている。 どちらのモデルも高速な推論を保証するために非自己回帰的である。 Felix は Sentence Fusion, Machine Translation Automatic Post-Editing, Summarization, Text Simplification という 4 つの NLG タスクで評価した場合、最近のテキスト編集手法や強い seq2seq ベースラインと比較して好意的に機能する。

We present Felix --- a flexible text-editing approach for generation, designed to derive the maximum benefit from the ideas of decoding with bi-directional contexts and self-supervised pre-training. In contrast to conventional sequence-to-sequence (seq2seq) models, Felix is efficient in low-resource settings and fast at inference time, while being capable of modeling flexible input-output transformations. We achieve this by decomposing the text-editing task into two sub-tasks: tagging to decide on the subset of input tokens and their order in the output text and insertion to in-fill the missing tokens in the output not present in the input. The tagging model employs a novel Pointer mechanism, while the insertion model is based on a Masked Language Model. Both of these models are chosen to be non-autoregressive to guarantee faster inference. Felix performs favourably when compared to recent text-editing methods and strong seq2seq baselines when evaluated on four NLG tasks: Sentence Fusion, Machine Translation Automatic Post-Editing, Summarization, and Text Simplification.
翻訳日:2022-12-20 08:59:11 公開日:2020-03-24
# edid言語のためのニューラルマシン翻訳に向けて

Towards Neural Machine Translation for Edoid Languages ( http://arxiv.org/abs/2003.10704v1 )

ライセンス: Link先を確認
Iroro Orife(参考訳) 多くのナイジェリアの言語は、現代の社会における以前の権威と目的を英語とナイジェリアのピジンに放棄した。 何百万人もの母国語話者にとって、情報、コミュニケーション、医療、安全保障への不平等なアクセスと、政治的および市民生活への参加を弱める不平等が存在する。 この研究は、排除を最小限に抑え、社会言語と経済的エンパワーメントを促進するために、南ナイジェリアの江戸語族に対するニューラル機械翻訳(NMT)の実現可能性を探る。 新しいJW300公開データセットを用いて、このグループで広く話されている4つの言語、 \`Ed\o, \'Es\'an, Urhobo, Isokoのベースライン翻訳モデルを訓練し、評価した。 トレーニングされたモデル、コード、データセットは、将来のEdoid言語技術の研究を前進させるためにオープンソース化された。

Many Nigerian languages have relinquished their previous prestige and purpose in modern society to English and Nigerian Pidgin. For the millions of L1 speakers of indigenous languages, there are inequalities that manifest themselves as unequal access to information, communications, health care, security as well as attenuated participation in political and civic life. To minimize exclusion and promote socio-linguistic and economic empowerment, this work explores the feasibility of Neural Machine Translation (NMT) for the Edoid language family of Southern Nigeria. Using the new JW300 public dataset, we trained and evaluated baseline translation models for four widely spoken languages in this group: \`Ed\'o, \'Es\'an, Urhobo and Isoko. Trained models, code and datasets have been open-sourced to advance future research efforts on Edoid language technology.
翻訳日:2022-12-20 08:58:48 公開日:2020-03-24
# 新生児術後痛の持続的評価における深層学習の活用に関する第1報

First Investigation Into the Use of Deep Learning for Continuous Assessment of Neonatal Postoperative Pain ( http://arxiv.org/abs/2003.10601v1 )

ライセンス: Link先を確認
Md Sirajus Salekin, Ghada Zamzmi, Dmitry Goldgof, Rangachar Kasturi, Thao Ho and Yu Sun(参考訳) 本研究は,新生児術後の痛み評価に完全自動ディープラーニングフレームワークを用いた最初の研究である。 術後の痛みの度合いの異なる顔の特徴を抽出するために、B-CNN(Bilinear Convolutional Neural Network)の使用を特に検討し、その後、リカレントニューラルネットワーク(RNN)を用いて時間パターンをモデル化する。 急性および術後の痛みには共通の特徴(視覚活動単位など)があるが、術後の痛みは異なるダイナミックであり、時間とともに独特のパターンで進化する。 以上の結果から,急性痛と術後痛のパターンに明らかな差異が認められた。 また, 術後痛強度を連続的に評価するために, バイリニアCNNとRNNモデルを組み合わせることの効率性も示唆した。

This paper presents the first investigation into the use of fully automated deep learning framework for assessing neonatal postoperative pain. It specifically investigates the use of Bilinear Convolutional Neural Network (B-CNN) to extract facial features during different levels of postoperative pain followed by modeling the temporal pattern using Recurrent Neural Network (RNN). Although acute and postoperative pain have some common characteristics (e.g., visual action units), postoperative pain has a different dynamic, and it evolves in a unique pattern over time. Our experimental results indicate a clear difference between the pattern of acute and postoperative pain. They also suggest the efficiency of using a combination of bilinear CNN with RNN model for the continuous assessment of postoperative pain intensity.
翻訳日:2022-12-20 08:52:02 公開日:2020-03-24
# 単一画像からのカメラのローカライズについて

On Localizing a Camera from a Single Image ( http://arxiv.org/abs/2003.10664v1 )

ライセンス: Link先を確認
Pradipta Ghosh, Xiaochen Liu, Hang Qiu, Marcos A. M. Vieira, Gaurav S. Sukhatme, and Ramesh Govindan(参考訳) パブリックカメラは属性を記述するメタデータが限られていることが多い。 キーが欠けている属性はカメラの正確な位置であり、カメラで見られるイベントの位置を正確に特定することができる。 本稿では,カメラが撮影した1枚の画像から,どの条件下でカメラの位置を推定できるのか? 人間の作業者による投影幾何学,ニューラルネットワーク,クラウドソースアノテーションの法的な組み合わせを用いて,テストデータセット内の画像の95%を12m以内の位置に配置できることを示す。 このパフォーマンスは、ある領域にある大きな画像のコーパスでトレーニングされた場合、単一の画像のポーズを推定できる最先端のニューラルネットワークであるPoseNetよりも2桁良い。 最後に、カメラの位置やパラメータを推定することで、さまざまな仮想センサーを設計できることを示します。

Public cameras often have limited metadata describing their attributes. A key missing attribute is the precise location of the camera, using which it is possible to precisely pinpoint the location of events seen in the camera. In this paper, we explore the following question: under what conditions is it possible to estimate the location of a camera from a single image taken by the camera? We show that, using a judicious combination of projective geometry, neural networks, and crowd-sourced annotations from human workers, it is possible to position 95% of the images in our test data set to within 12 m. This performance is two orders of magnitude better than PoseNet, a state-of-the-art neural network that, when trained on a large corpus of images in an area, can estimate the pose of a single image. Finally, we show that the camera's inferred position and intrinsic parameters can help design a number of virtual sensors, all of which are reasonably accurate.
翻訳日:2022-12-20 08:51:29 公開日:2020-03-24
# tecno : 多段時相畳み込みネットワークを用いた手術相認識

TeCNO: Surgical Phase Recognition with Multi-Stage Temporal Convolutional Networks ( http://arxiv.org/abs/2003.10751v1 )

ライセンス: Link先を確認
Tobias Czempiel, Magdalini Paschali, Matthias Keicher, Walter Simson, Hubertus Feussner, Seong Tae Kim, Nassir Navab(参考訳) 手術段階の自動認識は、患者の安全性を向上し、術中意思決定支援システムの不可欠な部分となる可能性を持つ、挑戦的で重要な課題である。 本稿では,外科的位相認識のための階層的予測改善を行う多段階時間畳み込みネットワーク(MS-TCN)をワークフロー解析において初めて提案する。 因果的、拡張された畳み込みにより、曖昧な遷移の間であっても、大きな受容領域とオンライン推論が可能となる。 本手法は腹腔鏡下胆嚢摘出術ビデオの2つのデータに対して,追加の手術用ツール情報を用いずに徹底的に評価した。 各種の最先端LSTM法より, 外科的位相認識のための因果MS-TCNの有効性を検証した。

Automatic surgical phase recognition is a challenging and crucial task with the potential to improve patient safety and become an integral part of intra-operative decision-support systems. In this paper, we propose, for the first time in workflow analysis, a Multi-Stage Temporal Convolutional Network (MS-TCN) that performs hierarchical prediction refinement for surgical phase recognition. Causal, dilated convolutions allow for a large receptive field and online inference with smooth predictions even during ambiguous transitions. Our method is thoroughly evaluated on two datasets of laparoscopic cholecystectomy videos with and without the use of additional surgical tool information. Outperforming various state-of-the-art LSTM approaches, we verify the suitability of the proposed causal MS-TCN for surgical phase recognition.
翻訳日:2022-12-20 08:51:15 公開日:2020-03-24
# 連続2次元MRIの追跡による登録

Registration by tracking for sequential 2D MRI ( http://arxiv.org/abs/2003.10819v1 )

ライセンス: Link先を確認
Niklas Gunnarsson, Jens Sj\"olund and Thomas B. Sch\"on(参考訳) 私たちの解剖は絶え間ない動きです。 現代のMRIでは、放射線治療セッション中にこの動きをリアルタイムで記録することが可能である。 本稿では,2次元MR画像の逐次特性を利用して対応する変位場を推定する画像登録手法を提案する。 この方法は、特定の点を独立に追跡するいくつかの識別相関フィルタを用いる。 疎結合な補間スキームと共に、変位場を推定することができる。 識別相関フィルタはオンライン上で訓練され,本手法はモダリティ非依存である。 補間スキームでは、合成二相性変位場を用いて訓練された正規化畳み込みを持つニューラルネットワークを用いる。 本手法は, セグメンテーション心データセットを用いて評価し, 従来の2つの手法と比較して, 改善された性能を観察する。 この改良は、小さな物体の大きな動きを検出するという点で特に顕著である。

Our anatomy is in constant motion. With modern MR imaging it is possible to record this motion in real-time during an ongoing radiation therapy session. In this paper we present an image registration method that exploits the sequential nature of 2D MR images to estimate the corresponding displacement field. The method employs several discriminative correlation filters that independently track specific points. Together with a sparse-to-dense interpolation scheme we can then estimate of the displacement field. The discriminative correlation filters are trained online, and our method is modality agnostic. For the interpolation scheme we use a neural network with normalized convolutions that is trained using synthetic diffeomorphic displacement fields. The method is evaluated on a segmented cardiac dataset and when compared to two conventional methods we observe an improved performance. This improvement is especially pronounced when it comes to the detection of larger motions of small objects.
翻訳日:2022-12-20 08:51:01 公開日:2020-03-24
# covidx-net:x線画像によるcovid-19診断のためのディープラーニング分類器のフレームワーク

COVIDX-Net: A Framework of Deep Learning Classifiers to Diagnose COVID-19 in X-Ray Images ( http://arxiv.org/abs/2003.11055v1 )

ライセンス: Link先を確認
Ezz El-Din Hemdan, Marwa A. Shouman and Mohamed Esmail Karar(参考訳) 背景と目的:コロナウイルス(CoV)は重症急性呼吸症候群(SARS-CoV)、中東呼吸症候群(MERS-CoV)を引き起こすウイルスである。 2019年の新型コロナウイルス(COVID-19)は、2019年末に中国の武漢市で新型肺炎として発見された。 世界保健機関(WHO)の報告によると、新型コロナウイルスの感染が世界中に広がり、感染者や死亡者数は毎日急増している。 そこで本稿では,X線画像における新型コロナウイルスの診断を支援するための新しいディープラーニングフレームワークであるCOVIDX-Netを導入することを目的とする。 材料と方法: 公式のCOVID-19データセットが不足しているため、この研究はChest X線画像50枚で実証され、陽性が25件確認された。 COVIDX-Netには、Visual Geometry Group Network (VGG19)やGoogle MobileNetの第2バージョンなど、深い畳み込みニューラルネットワークモデルの7つの異なるアーキテクチャが含まれている。 各深層ニューラルネットワークモデルは、x線画像の正規化強度を分析し、患者ステータスを陰性または陽性のcovid-19症例に分類することができる。 結果: モデルトレーニングとテストフェーズの80~20%のX線画像に基づいて, COVIDX-Netの実験と評価が成功している。 VGG19とDense Convolutional Network(DenseNet)モデルでは、それぞれ0.89と0.91のf1スコアを持つ自動化新型コロナウイルスの分類が良好で類似した性能を示した。 結論:本研究は、提案したCOVIDX-Netフレームワークに基づいて、X線画像中のCOVID-19を分類するためのディープラーニングモデルの有用性を実証した。 この研究の次のマイルストーンは臨床研究である。

Background and Purpose: Coronaviruses (CoV) are perilous viruses that may cause Severe Acute Respiratory Syndrome (SARS-CoV), Middle East Respiratory Syndrome (MERS-CoV). The novel 2019 Coronavirus disease (COVID-19) was discovered as a novel disease pneumonia in the city of Wuhan, China at the end of 2019. Now, it becomes a Coronavirus outbreak around the world, the number of infected people and deaths are increasing rapidly every day according to the updated reports of the World Health Organization (WHO). Therefore, the aim of this article is to introduce a new deep learning framework; namely COVIDX-Net to assist radiologists to automatically diagnose COVID-19 in X-ray images. Materials and Methods: Due to the lack of public COVID-19 datasets, the study is validated on 50 Chest X-ray images with 25 confirmed positive COVID-19 cases. The COVIDX-Net includes seven different architectures of deep convolutional neural network models, such as modified Visual Geometry Group Network (VGG19) and the second version of Google MobileNet. Each deep neural network model is able to analyze the normalized intensities of the X-ray image to classify the patient status either negative or positive COVID-19 case. Results: Experiments and evaluation of the COVIDX-Net have been successfully done based on 80-20% of X-ray images for the model training and testing phases, respectively. The VGG19 and Dense Convolutional Network (DenseNet) models showed a good and similar performance of automated COVID-19 classification with f1-scores of 0.89 and 0.91 for normal and COVID-19, respectively. Conclusions: This study demonstrated the useful application of deep learning models to classify COVID-19 in X-ray images based on the proposed COVIDX-Net framework. Clinical studies are the next milestone of this research work.
翻訳日:2022-12-20 08:49:22 公開日:2020-03-24
# Seq2Seq学習によるICTシステムの自動リカバリに向けたリカバリコマンド生成

Recovery command generation towards automatic recovery in ICT systems by Seq2Seq learning ( http://arxiv.org/abs/2003.10784v1 )

ライセンス: Link先を確認
Hiroki Ikeuchi, Akio Watanabe, Tsutomu Hirao, Makoto Morishita, Masaaki Nishino, Yoichi Matsuo, Keishiro Watanabe(参考訳) ICTシステムの規模と複雑さの増大に伴い、その運用は失敗から自動的に回復する必要がある。 異常を自動的に検出し、現在のメソッドで障害の根本原因を分析することは可能になったが、障害から回復するためにどのコマンドを実行するべきかの決定は、手動操作に依存する。 本稿では,ニューラルネットワークモデルであるseq2seqを用いて,リカバリコマンドの自動推定手法を提案する。 このモデルは、過去にオペレータが実行した機器から取得したログとリカバリコマンドとの複雑な関係を学習する。 新たな障害が発生した場合、収集したログに基づいて、障害から回復する有効なコマンドを推定する。 合成データセットと現実的なopenstackデータセットを用いて実験を行い,高い精度でリカバリコマンドを推定できることを実証した。

With the increase in scale and complexity of ICT systems, their operation increasingly requires automatic recovery from failures. Although it has become possible to automatically detect anomalies and analyze root causes of failures with current methods, making decisions on what commands should be executed to recover from failures still depends on manual operation, which is quite time-consuming. Toward automatic recovery, we propose a method of estimating recovery commands by using Seq2Seq, a neural network model. This model learns complex relationships between logs obtained from equipment and recovery commands that operators executed in the past. When a new failure occurs, our method estimates plausible commands that recover from the failure on the basis of collected logs. We conducted experiments using a synthetic dataset and realistic OpenStack dataset, demonstrating that our method can estimate recovery commands with high accuracy.
翻訳日:2022-12-20 08:42:54 公開日:2020-03-24
# 脆性材料におけるデータ駆動型故障予測:位相場に基づく機械学習フレームワーク

Data-Driven Failure Prediction in Brittle Materials: A Phase-Field Based Machine Learning Framework ( http://arxiv.org/abs/2003.10975v1 )

ライセンス: Link先を確認
Eduardo A. Barros de Moraes, Hadi Salehi and Mohsen Zayernouri(参考訳) 繰り返しまたは増大する荷重下でのミクロ・マクロ・クラックの進化による脆性材料の破壊は、しばしば破折の開始を阻止するために顕著な塑性を持たず破滅的である。 それぞれの位置での早期故障検出は、あらゆる実用アプリケーションにおいて非常に重要な特徴であり、どちらも人工知能を使って効果的に対処することができる。 本稿では, 脆性材料の損傷と疲労に対する等温, 線形弾性および等方性相場モデルにおける故障予測のための教師付き機械学習(ML)フレームワークを開発する。 位相場モデルの時系列データは、幾何の異なる位置にある仮想センシングノードから抽出される。 時系列データ/センサノード応答を対応するラベル付きパターンとして表現し、MLアルゴリズムと統合し、特定パターンによる損傷分類に用いるパターン認識方式を導入する。 時系列データにランダムノイズを重畳して不確実性解析を行い,雑音汚染データを用いたフレームワークのロバスト性を評価する。 提案手法は,騒音レベルが高い場合においても許容できる精度で故障を予測できることを示す。 その結果,教師付きMLフレームワークの良好な性能,人工知能とMLの実用的工学的問題への適用性が示された。 脆性材料におけるデータ駆動型故障予測。

Failure in brittle materials led by the evolution of micro- to macro-cracks under repetitive or increasing loads is often catastrophic with no significant plasticity to advert the onset of fracture. Early failure detection with respective location are utterly important features in any practical application, both of which can be effectively addressed using artificial intelligence. In this paper, we develop a supervised machine learning (ML) framework to predict failure in an isothermal, linear elastic and isotropic phase-field model for damage and fatigue of brittle materials. Time-series data of the phase-field model is extracted from virtual sensing nodes at different locations of the geometry. A pattern recognition scheme is introduced to represent time-series data/sensor nodes responses as a pattern with a corresponding label, integrated with ML algorithms, used for damage classification with identified patterns. We perform an uncertainty analysis by superposing random noise to the time-series data to assess the robustness of the framework with noise-polluted data. Results indicate that the proposed framework is capable of predicting failure with acceptable accuracy even in the presence of high noise levels. The findings demonstrate satisfactory performance of the supervised ML framework, and the applicability of artificial intelligence and ML to a practical engineering problem, i.,e, data-driven failure prediction in brittle materials.
翻訳日:2022-12-20 08:42:25 公開日:2020-03-24
# 属性グラフクラスタリングにユーザの好みを組み込む

Incorporating User's Preference into Attributed Graph Clustering ( http://arxiv.org/abs/2003.11079v1 )

ライセンス: Link先を確認
Wei Ye, Dominik Mautz, Christian Boehm, Ambuj Singh, Claudia Plant(参考訳) グラフクラスタリングは、プレーングラフと属性グラフの両方で広く研究されている。 しかしながら、これらのメソッドはすべて、クラスタ構造を見つけるためにグラフ全体を分割する必要がある。 時々、ドメインの知識に基づいて、人々はグラフ内の特定のターゲット領域に関する情報を持っており、このローカル領域に集中した単一のクラスタを見つけたいだけである。 このようなタスクをローカルクラスタリングと呼ぶ。 グローバルクラスタリングとは対照的に、局所クラスタリングは、与えられたシード頂点(および属性グラフの指定された属性)に集中している1つのクラスタのみを見つけることを目的としている。 現在、この種のタスクを処理できるメソッドはごくわずかです。 この目的のために,局所クラスタに対してグラフユニモダリティ(gu)と属性ユニモダリティ(au)という2つの品質尺度を提案する。 前者はグラフ構造の相同性を測定し、後者は指定された属性からなる部分空間の相同性を測定する。 線形結合をコンパクト性と呼ぶ。 さらに,コンパクト度スコアを最適化するためにLOCLUを提案する。 locluが検出したローカルクラスタは、関心領域に集中し、グラフ内の効率的な情報フローを提供し、指定された属性のサブスペースにユニモーダルデータ分布を示す。

Graph clustering has been studied extensively on both plain graphs and attributed graphs. However, all these methods need to partition the whole graph to find cluster structures. Sometimes, based on domain knowledge, people may have information about a specific target region in the graph and only want to find a single cluster concentrated on this local region. Such a task is called local clustering. In contrast to global clustering, local clustering aims to find only one cluster that is concentrating on the given seed vertex (and also on the designated attributes for attributed graphs). Currently, very few methods can deal with this kind of task. To this end, we propose two quality measures for a local cluster: Graph Unimodality (GU) and Attribute Unimodality (AU). The former measures the homogeneity of the graph structure while the latter measures the homogeneity of the subspace that is composed of the designated attributes. We call their linear combination as Compactness. Further, we propose LOCLU to optimize the Compactness score. The local cluster detected by LOCLU concentrates on the region of interest, provides efficient information flow in the graph and exhibits a unimodal data distribution in the subspace of the designated attributes.
翻訳日:2022-12-20 08:41:33 公開日:2020-03-24
# 極端なno$_2$エピソードに対する確率論的予測手法--モデルの比較

Probabilistic forecasting approaches for extreme NO$_2$ episodes: a comparison of models ( http://arxiv.org/abs/2003.11356v1 )

ライセンス: Link先を確認
Sebasti\'an P\'erez Vasseur and Jos\'e L. Aznarte(参考訳) 高濃度のno$_2$のエピソードは、空気の質が一定のしきい値を超えると活性化される交通規制を通じて当局によって処理されるようになっている。 汚染物質濃度がこれらの閾値に達する確率を見極めることは必要となる。 確率的予測(probabilistic forecasting)は、単一の値ではなく、期待分布関数の予測を可能にする一連の手法である。 no$_2$の場合、閾値を超える将来の確率を計算し、汚染ピークを検出することができる。 都市におけるno$_2$濃度の分布を予測対象地平線(最大60時間)で予測するために,10の確率的予測モデルを徹底的に比較した。 温度勾配が上昇した木は最高の性能を示し、予測値と予測全分布の両方に最高の結果をもたらす。 さらに,この手法が汚染ピークの検出にどのように役立つかを示す。

High concentration episodes for NO$_2$ are increasingly dealt with by authorities through traffic restrictions which are activated when air quality deteriorates beyond certain thresholds. Foreseeing the probability that pollutant concentrations reach those thresholds becomes thus a necessity. Probabilistic forecasting is a family of techniques that allow for the prediction of the expected distribution function instead of a single value. In the case of NO$_2$, it allows for the calculation of future chances of exceeding thresholds and to detect pollution peaks. We thoroughly compared 10 state of the art probabilistic predictive models, using them to predict the distribution of NO$_2$ concentrations in a urban location for a set of forecasting horizons (up to 60 hours). Quantile gradient boosted trees shows the best performance, yielding the best results for both the expected value and the forecast full distribution. Furthermore, we show how this approach can be used to detect pollution peaks.
翻訳日:2022-12-20 08:41:15 公開日:2020-03-24
# IoTスマート空気質モニタリングデバイスのネットワークキャリブレーションのための適応型機械学習戦略

Adaptive machine learning strategies for network calibration of IoT smart air quality monitoring devices ( http://arxiv.org/abs/2003.12011v1 )

ライセンス: Link先を確認
Saverio De Vito, Girolamo Di Francia, Elena Esposito, Sergio Ferlito, Fabrizio Formisano and Ettore Massera(参考訳) 空気質マルチセンサーシステム(aqms)は、比較的正確な空気汚染物質量の推定を可能にすることができることを最近証明した低コストの化学マイクロセンサーアレイに基づくiotデバイスである。 彼らの可用性は、現在のAQRMS(AQ Regulatory Monitoring Systems)のネットワークに影響を与える地理的疎度問題を解決するために、広汎な空気品質モニタリング(AQM)ネットワークをデプロイすることを可能にする。 残念なことに、その精度は、センサー中毒や老化、非目標ガス干渉、製造の繰り返し性欠如など、いくつかの技術上の問題の影響により、長期にわたる現場展開において制限されている。 先行変数、観測変数、および隠れたコンテキスト変数(すなわち非観測可能な干渉変数)の確率分布の季節的変化 フィールドデータ駆動型キャリブレーションモデル 短期的・中期的なパフォーマンスが最近、都市の権威や監視機関の注目を集めるようになった。 本研究では,この非定常的フレームワークに適応学習戦略を適用し,連続学習を可能にするマルチセンサキャリブレーションモデルの妥当性を高める。 異なるネットワークにおける関連パラメータの影響を解析し,ノード間再校正シナリオを分析する。 したがって、都市シナリオにおける恒久的な高分解能AQマッピングを目的とした普及デプロイメントや、AQRMSデータが障害やスケジュールされたメインテナンスのために利用できない場合にデータを提供するAQRMSバックアップシステムとしてAQMSを使用するために有用である。

Air Quality Multi-sensors Systems (AQMS) are IoT devices based on low cost chemical microsensors array that recently have showed capable to provide relatively accurate air pollutant quantitative estimations. Their availability permits to deploy pervasive Air Quality Monitoring (AQM) networks that will solve the geographical sparseness issue that affect the current network of AQ Regulatory Monitoring Systems (AQRMS). Unfortunately their accuracy have shown limited in long term field deployments due to negative influence of several technological issues including sensors poisoning or ageing, non target gas interference, lack of fabrication repeatability, etc. Seasonal changes in probability distribution of priors, observables and hidden context variables (i.e. non observable interferents) challenge field data driven calibration models which short to mid term performances recently rose to the attention of Urban authorithies and monitoring agencies. In this work, we address this non stationary framework with adaptive learning strategies in order to prolong the validity of multisensors calibration models enabling continuous learning. Relevant parameters influence in different network and note-to-node recalibration scenario is analyzed. Results are hence useful for pervasive deployment aimed to permanent high resolution AQ mapping in urban scenarios as well as for the use of AQMS as AQRMS backup systems providing data when AQRMS data are unavailable due to faults or scheduled mainteinance.
翻訳日:2022-12-20 08:41:00 公開日:2020-03-24
# コーディネート埋め込みによる畳み込みニューラルネットワークの簡単な修正法

A Simple Fix for Convolutional Neural Network via Coordinate Embedding ( http://arxiv.org/abs/2003.10589v1 )

ライセンス: Link先を確認
Liliang Ren, Zhuonan Hao(参考訳) 畳み込みニューラルネットワーク(CNN)はコンピュータビジョンの領域で広く応用されている。 しかし、cnnモデルが翻訳不変であるという事実から、各ピクセルの座標情報を認識していない。 したがって、cnnの一般化能力は、各ピクセルの座標に直接作用するアフィン変換をモデルが学習するためには座標情報が必要であるため、制限される。 本稿では,座標埋め込みによる座標情報をCNNモデルに組み込むための簡単な手法を提案する。 我々のアプローチは下流モデルアーキテクチャを変更せず、オブジェクト検出のようなタスクのためにトレーニング済みのモデルに容易に適用することができる。 ドイツ交通信号検出ベンチマークの実験により,本手法はモデル性能を著しく向上するだけでなく,アフィン変換に対する堅牢性も向上することが示された。

Convolutional Neural Networks (CNN) has been widely applied in the realm of computer vision. However, given the fact that CNN models are translation invariant, they are not aware of the coordinate information of each pixel. Thus the generalization ability of CNN will be limited since the coordinate information is crucial for a model to learn affine transformations which directly operate on the coordinate of each pixel. In this project, we proposed a simple approach to incorporate the coordinate information to the CNN model through coordinate embedding. Our approach does not change the downstream model architecture and can be easily applied to the pre-trained models for the task like object detection. Our experiments on the German Traffic Sign Detection Benchmark show that our approach not only significantly improve the model performance but also have better robustness with respect to the affine transformation.
翻訳日:2022-12-20 08:40:16 公開日:2020-03-24
# FADNet: 分散推定のための高速で正確なネットワーク

FADNet: A Fast and Accurate Network for Disparity Estimation ( http://arxiv.org/abs/2003.10758v1 )

ライセンス: Link先を確認
Qiang Wang, Shaohuai Shi, Shizhen Zheng, Kaiyong Zhao, Xiaowen Chu(参考訳) ディープニューラルネットワーク(DNN)はコンピュータビジョンの分野で大きな成功を収めている。 DNNでは, 従来の手作り特徴量に基づく手法よりも, ステレオマッチングにおける予測精度が向上する傾向にある。 しかし、設計したDNNは、特に3D畳み込みベースのネットワークにおいて、その差を正確に予測するために、メモリと計算資源をかなり必要としており、リアルタイムアプリケーションへのデプロイが困難である。 一方,既存の計算効率の高いネットワークでは,大規模データセットに表現能力がないため,多くのシナリオにおいて正確な予測ができない。 そこで本研究では,fadnetという3つの特徴を持つ,効率良く高精度な深層ネットワークを提案する。 1) 高速な計算を維持するために, 積み重ねブロックを用いた効率的な2次元相関層を利用する。 2) 残余構造を組み合わせることで,より深いモデルを学習しやすくする。 3) 重みスケジューリングトレーニング手法を活用し, 精度を向上させるために, マルチスケール予測を含む。 我々は、Scene FlowとKITTI 2015という2つの一般的なデータセット上で、FADNetの有効性を示す実験を行っている。 実験の結果,FADNetは最先端の予測精度を達成し,既存の3Dモデルよりもかなり高速に動作していることがわかった。 FADNetのコードはhttps://github.com/HKBU-HPML/FADNetで公開されている。

Deep neural networks (DNNs) have achieved great success in the area of computer vision. The disparity estimation problem tends to be addressed by DNNs which achieve much better prediction accuracy in stereo matching than traditional hand-crafted feature based methods. On one hand, however, the designed DNNs require significant memory and computation resources to accurately predict the disparity, especially for those 3D convolution based networks, which makes it difficult for deployment in real-time applications. On the other hand, existing computation-efficient networks lack expression capability in large-scale datasets so that they cannot make an accurate prediction in many scenarios. To this end, we propose an efficient and accurate deep network for disparity estimation named FADNet with three main features: 1) It exploits efficient 2D based correlation layers with stacked blocks to preserve fast computation; 2) It combines the residual structures to make the deeper model easier to learn; 3) It contains multi-scale predictions so as to exploit a multi-scale weight scheduling training technique to improve the accuracy. We conduct experiments to demonstrate the effectiveness of FADNet on two popular datasets, Scene Flow and KITTI 2015. Experimental results show that FADNet achieves state-of-the-art prediction accuracy, and runs at a significant order of magnitude faster speed than existing 3D models. The codes of FADNet are available at https://github.com/HKBU-HPML/FADNet.
翻訳日:2022-12-20 08:33:58 公開日:2020-03-24
# 新型コロナウイルスとコンピュータ・オーディション:SARS-CoV-2コロナ危機における音声・音声分析の役割

COVID-19 and Computer Audition: An Overview on What Speech & Sound Analysis Could Contribute in the SARS-CoV-2 Corona Crisis ( http://arxiv.org/abs/2003.11117v1 )

ライセンス: Link先を確認
Bj\"orn W. Schuller, Dagmar M. Schuller, Kun Qian, Juan Liu, Huaiyuan Zheng, Xiao Li(参考訳) この記事執筆時点で、世界の人口は1万人以上が新型コロナウイルス(COVID-19)の流行で死亡しており、3カ月以上前にSARS-CoV-2として公式に知られるようになった。 以降、パンデミック(パンデミック)と称される流行を抑えるため、世界中で大きな努力が続けられている。 本稿では,コンピュータ・オーディション(CA)の可能性,すなわち人工知能による音声・音声分析の利用について概説する。 まず,関連する現象や文脈的に有意な現象が音声や音声から自動的に評価できるかを調査した。 これには、呼吸の自動認識と監視、乾燥して湿ったくしゃみやくしゃみの音、寒さ下でのスピーチ、食行動、眠気、痛みなどが含まれる。 次に、利用の潜在的なユースケースを検討する。 これには、症状のヒストグラムとその経時的発達に基づくリスク評価と診断、スプレッドのモニタリング、社会的距離とその影響、治療と回復、患者の健康状態が含まれる。 私たちは、現実の使用に直面するべき課題を素早くガイドします。 CAは(前)診断と監視ツールの実装の準備が整っているという結論に達し、より一般的には、リッチで重要な、しかしこれまでは、新型コロナウイルスとの戦いの可能性を秘めている。

At the time of writing, the world population is suffering from more than 10,000 registered COVID-19 disease epidemic induced deaths since the outbreak of the Corona virus more than three months ago now officially known as SARS-CoV-2. Since, tremendous efforts have been made worldwide to counter-steer and control the epidemic by now labelled as pandemic. In this contribution, we provide an overview on the potential for computer audition (CA), i.e., the usage of speech and sound analysis by artificial intelligence to help in this scenario. We first survey which types of related or contextually significant phenomena can be automatically assessed from speech or sound. These include the automatic recognition and monitoring of breathing, dry and wet coughing or sneezing sounds, speech under cold, eating behaviour, sleepiness, or pain to name but a few. Then, we consider potential use-cases for exploitation. These include risk assessment and diagnosis based on symptom histograms and their development over time, as well as monitoring of spread, social distancing and its effects, treatment and recovery, and patient wellbeing. We quickly guide further through challenges that need to be faced for real-life usage. We come to the conclusion that CA appears ready for implementation of (pre-)diagnosis and monitoring tools, and more generally provides rich and significant, yet so far untapped potential in the fight against COVID-19 spread.
翻訳日:2022-12-20 08:32:56 公開日:2020-03-24
# 個人報酬とチーム報酬の複合問題に対するマルチエージェント強化学習

Multi-Agent Reinforcement Learning for Problems with Combined Individual and Team Reward ( http://arxiv.org/abs/2003.10598v1 )

ライセンス: Link先を確認
Hassam Ullah Sheikh and Ladislau B\"ol\"oni(参考訳) 多くの協調的マルチエージェント問題では、エージェントが個々のタスクを学習し、グループ全体の成功に貢献した。 これは、チームのグローバルな報酬を最大化する、あるいは個々のローカルな報酬を最大化するように設計された、最先端のマルチエージェント強化アルゴリズムにとって、難しいタスクです。 どちらかの報酬が不足して不安定な学習につながると、問題は悪化する。 この問題に対処するために,グローバルとローカルの報酬を最大化するために同時に学習する新しい多エージェント強化学習フレームワークであるDecomposed Multi-Agent Deep Deterministic Policy Gradient (DE-MADDPG)を提案する。 また,本ソリューションは,maddpgアルゴリズムの直接適応よりも,はるかに良好で安定した性能を実現することを実証する。

Many cooperative multi-agent problems require agents to learn individual tasks while contributing to the collective success of the group. This is a challenging task for current state-of-the-art multi-agent reinforcement algorithms that are designed to either maximize the global reward of the team or the individual local rewards. The problem is exacerbated when either of the rewards is sparse leading to unstable learning. To address this problem, we present Decomposed Multi-Agent Deep Deterministic Policy Gradient (DE-MADDPG): a novel cooperative multi-agent reinforcement learning framework that simultaneously learns to maximize the global and local rewards. We evaluate our solution on the challenging defensive escort team problem and show that our solution achieves a significantly better and more stable performance than the direct adaptation of the MADDPG algorithm.
翻訳日:2022-12-20 08:32:18 公開日:2020-03-24
# FedSel:Federated SGD: ローカルな差別的プライバシーとトップk次元の選択

FedSel: Federated SGD under Local Differential Privacy with Top-k Dimension Selection ( http://arxiv.org/abs/2003.10637v1 )

ライセンス: Link先を確認
Ruixuan Liu, Yang Cao, Masatoshi Yoshikawa, Hong Chen(参考訳) 小さなガジェットから大量のデータが生成される中、モバイルデバイス上でのフェデレーション学習がトレンドになりつつある。 フェデレート環境では、SGD(Stochastic Gradient Descent)は様々な機械学習モデルのためのフェデレーション学習に広く使われている。 ユーザのセンシティブなデータに基づいて計算される勾配からのプライバシー漏洩を防止するため、最近、ローカルディファレンシャルプライバシ(LDP)がフェデレーション付きSGDのプライバシ保証として検討されている。 しかし、既存の解には次元依存性の問題があり、注入されたノイズは次元 $d$ にほぼ比例する。 本稿では,この問題を解消するため, LDP 下でのフェデレーション SGD のための2段階フレームワーク FedSel を提案する。 私たちのキーとなる考え方は、すべての次元が等しく重要であるわけではないので、連邦化されたSGDの各イテレーションにおける貢献に応じてTop-k次元をプライベートに選択します。 具体的には,3つのプライベート次元選択機構を提案し,グラデーション累積法を適用して,ノイズの少ない学習プロセスを安定化する。 また,feselのプライバシ,正確性,時間的複雑性についても理論的に解析した。 実世界および合成データセットの実験は、我々のフレームワークの有効性と効率を検証する。

As massive data are produced from small gadgets, federated learning on mobile devices has become an emerging trend. In the federated setting, Stochastic Gradient Descent (SGD) has been widely used in federated learning for various machine learning models. To prevent privacy leakages from gradients that are calculated on users' sensitive data, local differential privacy (LDP) has been considered as a privacy guarantee in federated SGD recently. However, the existing solutions have a dimension dependency problem: the injected noise is substantially proportional to the dimension $d$. In this work, we propose a two-stage framework FedSel for federated SGD under LDP to relieve this problem. Our key idea is that not all dimensions are equally important so that we privately select Top-k dimensions according to their contributions in each iteration of federated SGD. Specifically, we propose three private dimension selection mechanisms and adapt the gradient accumulation technique to stabilize the learning process with noisy updates. We also theoretically analyze privacy, accuracy and time complexity of FedSel, which outperforms the state-of-the-art solutions. Experiments on real-world and synthetic datasets verify the effectiveness and efficiency of our framework.
翻訳日:2022-12-20 08:31:32 公開日:2020-03-24
# ランダムモード結合行列モデルに基づくU-Netの学習と音響干渉の緩和

Training a U-Net based on a random mode-coupling matrix model to recover acoustic interference striations ( http://arxiv.org/abs/2003.10661v1 )

ライセンス: Link先を確認
Xiaolei Li, Wenhua Song, Dazhi Gao, Wei Gao and Haozhong Wan(参考訳) U-Netは、歪んだものから音響干渉ストレート(AIS)を回復するために訓練される。 ランダムモード結合行列モデルを導入し、多数のトレーニングデータを迅速に生成し、U-Netのトレーニングに使用する。 非線形内部波(NLIW)を用いた範囲依存導波路において,U-NetのAIS回復性能を検証した。 ランダムモード結合行列モデルは正確な物理モデルではないが, 実験結果は, 異なる信号-雑音比 (SNR) および異なる形状のNLIWの振幅と幅で, U-NetがAISを回復することを示す。

A U-Net is trained to recover acoustic interference striations (AISs) from distorted ones. A random mode-coupling matrix model is introduced to generate a large number of training data quickly, which are used to train the U-Net. The performance of AIS recovery of the U-Net is tested in range-dependent waveguides with nonlinear internal waves (NLIWs). Although the random mode-coupling matrix model is not an accurate physical model, the test results show that the U-Net successfully recovers AISs under different signal-to-noise ratios (SNRs) and different amplitudes and widths of NLIWs for different shapes.
翻訳日:2022-12-20 08:31:10 公開日:2020-03-24
# 不整合ICTシステムの連続異常検出のためのディープラーニングモデルの分割

Dividing Deep Learning Model for Continuous Anomaly Detection of Inconsistent ICT Systems ( http://arxiv.org/abs/2003.10783v1 )

ライセンス: Link先を確認
Kengo Tajiri and Yasuhiro Ikeda and Yuusuke Nakano and Keishiro Watanabe(参考訳) 健康モニタリングは、信頼できる情報通信技術(ICT)システムを維持する上で重要である。 正規性」を記述するモデルを訓練する機械学習に基づく異常検出手法は,ICTシステムの状態を監視する上で有望である。 しかし,特定の機器の交換により,監視ログデータの種類がトレーニングデータから変化する場合には,これらの手法は使用できない。 そのため、ログデータの変更時に現れる異常を排除できる。 そこで本研究では,ログデータの相関に基づくディープラーニングモデルを用いたICTシステム監視手法を提案する。 また、深層学習モデルからログデータの相関関係を抽出し、相関関係に基づいてログデータを分離するアルゴリズムを提案する。 ログデータの一部が変更されると、ログデータの変化の影響を受けない分割されたモデルで健康モニタリングを継続できる。 本稿では, ベンチマークデータと実ログデータを含む実験結果から, 分割したモデルを用いた手法では異常検出精度が低下せず, 異常検出のためのモデルを分割して, ログデータの一部が変化してもネットワーク状態の監視を続けることができることを示す。

Health monitoring is important for maintaining reliable information and communications technology (ICT) systems. Anomaly detection methods based on machine learning, which train a model for describing "normality" are promising for monitoring the state of ICT systems. However, these methods cannot be used when the type of monitored log data changes from that of training data due to the replacement of certain equipment. Therefore, such methods may dismiss an anomaly that appears when log data changes. To solve this problem, we propose an ICT-systems-monitoring method with deep learning models divided based on the correlation of log data. We also propose an algorithm for extracting the correlations of log data from a deep learning model and separating log data based on the correlation. When some of the log data changes, our method can continue health monitoring with the divided models which are not affected by changes in the log data. We present the results from experiments involving benchmark data and real log data, which indicate that our method using divided models does not decrease anomaly detection accuracy and a model for anomaly detection can be divided to continue monitoring a network state even if some the log data change.
翻訳日:2022-12-20 08:30:58 公開日:2020-03-24
# ユーザ生成データからの学習の落とし穴--主観的クラス問題の深い分析

A Pitfall of Learning from User-generated Data: In-depth Analysis of Subjective Class Problem ( http://arxiv.org/abs/2003.10621v1 )

ライセンス: Link先を確認
Kei Nemoto and Shweta Jain(参考訳) 教師付き学習アルゴリズムの研究は、トレーニングデータがAmazon Mechanical Turkのようなクラウドソーシングサービスを通じてアクセス可能な、ドメインの専門家または少なくともセミプロフェッショナルのラベルによってラベル付けされていることを暗黙的に仮定している。 インターネットが出現すると、データが豊富になり、多くの機械学習ベースのシステムが、分類データを真のラベルとして使用して、ユーザ生成データでトレーニングされ始めた。 しかし,ユーザ定義ラベルを用いた教師あり学習の分野では,ユーザが必ずしも専門家ではなく,システムから自身のユーティリティを改善するために,誤ったラベルを提供することを動機付けている部分はほとんどない。 本稿では,ユーザ定義ラベルにおける2種類のクラスを提案する。主観的クラスと客観的なクラス表示では,主観的クラスはドメインの専門家が提供するものと同じくらい信頼性が高いが,主観的クラスはユーザによるバイアスや操作の対象である。 我々はこれを主観的クラス問題と定義し、オラクルに問い合わせることなくデータセット内の主観的ラベルを検出するためのフレームワークを提供する。 このフレームワークを利用することで、データマイニング実践者はプロジェクトの初期段階で主観的なクラスを検出し、従来の機械学習技術で主観的なクラス問題に対処することで、貴重な時間とリソースの無駄を避けることができる。

Research in the supervised learning algorithms field implicitly assumes that training data is labeled by domain experts or at least semi-professional labelers accessible through crowdsourcing services like Amazon Mechanical Turk. With the advent of the Internet, data has become abundant and a large number of machine learning based systems started being trained with user-generated data, using categorical data as true labels. However, little work has been done in the area of supervised learning with user-defined labels where users are not necessarily experts and might be motivated to provide incorrect labels in order to improve their own utility from the system. In this article, we propose two types of classes in user-defined labels: subjective class and objective class - showing that the objective classes are as reliable as if they were provided by domain experts, whereas the subjective classes are subject to bias and manipulation by the user. We define this as a subjective class issue and provide a framework for detecting subjective labels in a dataset without querying oracle. Using this framework, data mining practitioners can detect a subjective class at an early stage of their projects, and avoid wasting their precious time and resources by dealing with subjective class problem with traditional machine learning techniques.
翻訳日:2022-12-20 08:24:52 公開日:2020-03-24
# Tree Index: 新しいクラスタ評価手法

Tree Index: A New Cluster Evaluation Technique ( http://arxiv.org/abs/2003.10841v1 )

ライセンス: Link先を確認
A. H. Beg, Md Zahidul Islam, Vladimir Estivill-Castro(参考訳) ここでは、Tree Indexと呼ばれるクラスタ評価手法を紹介する。 我々の木索引アルゴリズムは,クラスタ品質指標の定量的フォーマットではなく,クラスタリングの構造情報を記述することを目的としている(クラスタの表現力はベクトル量子化と類似した累積誤差である)。 私たちのツリーインデックスは、最小記述長の複雑さなしに簡単に学習できるクラスタ間のマージンを見つけています。 当社のツリーインデックスは、クラスタ識別子をラベルとして、クラスタ化されたデータセットから決定ツリーを生成します。 各葉のエントロピーと深さを組み合わせる。 直感的には、純粋な葉を持つ短い木はデータをうまく一般化する(クラスターはよく分離されているので容易に学習できる)。 そのため、ラベルは意味のあるクラスタです。 クラスタリングアルゴリズムがうまく分離できなければ、結果から得られた木は大きくて詳細すぎるでしょう。 脳のデータセット上のクラスタリング結果(様々な技術によって達成される)において、Tree Indexは合理的クラスタと非感受性クラスタを区別する。 図形視覚化によるツリーインデックスの有効性を確認した。 既存のクラスタ品質指標ではそうはならないが、ツリーインデックスは非センシブルなソリューションよりもセンシブルなソリューションを評価する。

We introduce a cluster evaluation technique called Tree Index. Our Tree Index algorithm aims at describing the structural information of the clustering rather than the quantitative format of cluster-quality indexes (where the representation power of clustering is some cumulative error similar to vector quantization). Our Tree Index is finding margins amongst clusters for easy learning without the complications of Minimum Description Length. Our Tree Index produces a decision tree from the clustered data set, using the cluster identifiers as labels. It combines the entropy of each leaf with their depth. Intuitively, a shorter tree with pure leaves generalizes the data well (the clusters are easy to learn because they are well separated). So, the labels are meaningful clusters. If the clustering algorithm does not separate well, trees learned from their results will be large and too detailed. We show that, on the clustering results (obtained by various techniques) on a brain dataset, Tree Index discriminates between reasonable and non-sensible clusters. We confirm the effectiveness of Tree Index through graphical visualizations. Tree Index evaluates the sensible solutions higher than the non-sensible solutions while existing cluster-quality indexes fail to do so.
翻訳日:2022-12-20 08:23:31 公開日:2020-03-24
# スパース一般化固有値問題に対する逆除去レイリー・リッツ法

An Inverse-free Truncated Rayleigh-Ritz Method for Sparse Generalized Eigenvalue Problem ( http://arxiv.org/abs/2003.10897v1 )

ライセンス: Link先を確認
Yunfeng Cai and Ping Li(参考訳) 本稿では,最大で$k$非ゼロの固有ベクトルを求めるスパース一般化固有値問題 (SGEP) について考察する。 SGEPは、例えばスパース主成分分析(SPCA)、スパース判別分析(SDA)、スパース正準相関解析(SCCA)など、機械学習、統計、科学計算の多くの分野で自然に現れる。 本稿では, SGEP を効率的に解くために, 逆不整合Rayleigh-Ritz 法 ({\em IFTRR}) と呼ばれる3段階アルゴリズムの開発に着目する。 IFTRRの各イテレーションでは、少数の行列ベクトル積しか必要としない。 これによりIFTRRは大規模問題に適している。 特に,先行固有ベクトルの支持セットを効果的に見つけることができる新しいトラクション戦略が提案されている。 IFTRRがうまく機能する理由を説明するために理論的結果が開発された。 数値シミュレーションはIFTRRの利点を実証する。

This paper considers the sparse generalized eigenvalue problem (SGEP), which aims to find the leading eigenvector with at most $k$ nonzero entries. SGEP naturally arises in many applications in machine learning, statistics, and scientific computing, for example, the sparse principal component analysis (SPCA), the sparse discriminant analysis (SDA), and the sparse canonical correlation analysis (SCCA). In this paper, we focus on the development of a three-stage algorithm named {\em inverse-free truncated Rayleigh-Ritz method} ({\em IFTRR}) to efficiently solve SGEP. In each iteration of IFTRR, only a small number of matrix-vector products is required. This makes IFTRR well-suited for large scale problems. Particularly, a new truncation strategy is proposed, which is able to find the support set of the leading eigenvector effectively. Theoretical results are developed to explain why IFTRR works well. Numerical simulations demonstrate the merits of IFTRR.
翻訳日:2022-12-20 08:23:02 公開日:2020-03-24
# 非線形方程式系によるロバスト行列完全問題の解法

Solving the Robust Matrix Completion Problem via a System of Nonlinear Equations ( http://arxiv.org/abs/2003.10992v1 )

ライセンス: Link先を確認
Yunfeng Cai and Ping Li(参考訳) 低ランク行列 $l_*$ とスパース行列 $s_*$ を、それらの和 $m=l_*+s_*\in\mathbb{r}^{m\times n}$ の不完全な観測から回収することを目的としたロバスト行列完全性の問題を考える。 アルゴリズム的には、ロバスト行列完備問題は非線形方程式の系を解く問題に変換され、別の方向法を用いて非線形方程式を解く。 さらに、アルゴリズムは並列化しやすく、大規模問題にも適している。 理論的には、$l_*$ が観測された $m_*$ の低位近似によって近似できる場合の十分条件を特徴付ける。 適切な仮定の下では、アルゴリズムが真の解に線形収束することを示す。 数値シミュレーションにより、単純な手法は期待通りに動作し、最先端の手法に匹敵することを示した。

We consider the problem of robust matrix completion, which aims to recover a low rank matrix $L_*$ and a sparse matrix $S_*$ from incomplete observations of their sum $M=L_*+S_*\in\mathbb{R}^{m\times n}$. Algorithmically, the robust matrix completion problem is transformed into a problem of solving a system of nonlinear equations, and the alternative direction method is then used to solve the nonlinear equations. In addition, the algorithm is highly parallelizable and suitable for large scale problems. Theoretically, we characterize the sufficient conditions for when $L_*$ can be approximated by a low rank approximation of the observed $M_*$. And under proper assumptions, it is shown that the algorithm converges to the true solution linearly. Numerical simulations show that the simple method works as expected and is comparable with state-of-the-art methods.
翻訳日:2022-12-20 08:22:21 公開日:2020-03-24
# StyleGAN - 大規模でスケーラブルな顔データ構築に向けた第一歩

Re-Training StyleGAN -- A First Step Towards Building Large, Scalable Synthetic Facial Datasets ( http://arxiv.org/abs/2003.10847v1 )

ライセンス: Link先を確認
Viktor Varkarakis, Shabab Bazrafkan, Peter Corcoran(参考訳) StyleGANは、ランダムな2Dの高品質な合成顔データサンプルを生成する、最先端の対向ネットワークアーキテクチャである。 本稿では,StyleGANのアーキテクチャとトレーニング手法を再考し,いくつかの代替データセット上で再トレーニングを行った経験について述べる。 再訓練プロセスから生じる実践的な問題と課題について論じる。 実験結果と検証結果が提示され、複数の異なる再訓練されたスタイルGAN重み付けの比較分析が提供される。 合成顔データの大規模でスケーラブルなデータセット構築におけるこのツールの役割についても論じる。

StyleGAN is a state-of-art generative adversarial network architecture that generates random 2D high-quality synthetic facial data samples. In this paper, we recap the StyleGAN architecture and training methodology and present our experiences of retraining it on a number of alternative public datasets. Practical issues and challenges arising from the retraining process are discussed. Tests and validation results are presented and a comparative analysis of several different re-trained StyleGAN weightings is provided 1. The role of this tool in building large, scalable datasets of synthetic facial data is also discussed.
翻訳日:2022-12-20 08:15:04 公開日:2020-03-24
# 言語記述における意味的役割を用いた映像オブジェクトの接地

Video Object Grounding using Semantic Roles in Language Description ( http://arxiv.org/abs/2003.10606v1 )

ライセンス: Link先を確認
Arka Sadhu, Kan Chen, Ram Nevatia(参考訳) 自然言語記述で参照されるビデオのオブジェクトを基盤とするvog(video object grounding)のタスクについて検討する。 従来の方法では、VOGに対処するために画像グラウンドベースアルゴリズムを適用し、オブジェクト関係情報の探索に失敗し、限定的な一般化に苦しむ。 本稿では、VOGにおけるオブジェクト関係の役割を考察し、相対的な位置符号化による自己アテンションによるマルチモーダルオブジェクト関係を符号化する新しいフレームワークVOGNetを提案する。 VOGNetを評価するために,新たなコントラストサンプリング手法を提案し,既存のキャプションとグラウンドデータセットに基づいて,ActivityNet-SRL(ASRL)と呼ばれる新しいデータセットを構築した。 ASRLの実験では、VOGにおけるオブジェクト関係の符号化の必要性が検証され、VOGNetは競争ベースラインをかなり上回っている。

We explore the task of Video Object Grounding (VOG), which grounds objects in videos referred to in natural language descriptions. Previous methods apply image grounding based algorithms to address VOG, fail to explore the object relation information and suffer from limited generalization. Here, we investigate the role of object relations in VOG and propose a novel framework VOGNet to encode multi-modal object relations via self-attention with relative position encoding. To evaluate VOGNet, we propose novel contrasting sampling methods to generate more challenging grounding input samples, and construct a new dataset called ActivityNet-SRL (ASRL) based on existing caption and grounding datasets. Experiments on ASRL validate the need of encoding object relations in VOG, and our VOGNet outperforms competitive baselines by a significant margin.
翻訳日:2022-12-20 08:14:36 公開日:2020-03-24
# コンクリートによる画像からの漢詩生成と抽象情報

Generating Chinese Poetry from Images via Concrete and Abstract Information ( http://arxiv.org/abs/2003.10773v1 )

ライセンス: Link先を確認
Yusen Liu, Dayiheng Liu, Jiancheng Lv, Yongsheng Sang(参考訳) 近年、漢詩の自動生成は大きな進歩を遂げている。 生成した詩の質の向上に重点が置かれるほか、イメージから詩を作るという新しい話題もある。 しかし、このトピックの既存の手法には、トピックドリフトとセマンティック不整合の問題があり、これらのモデルをトレーニングする際、イメージ-ポエムペアデータセットを構築するのは難しい。 本稿では,これらの問題に対処するために,画像からコンクリートと抽象情報を抽出し,統合する。 本研究では,個々の詩列に具体的キーワードを明示的な方法で埋め込むインフィルリング型漢詩生成モデルと,その抽象情報を生成した詩に組み込む抽象情報を提案する。 さらに、トレーニング中に非並列データを使用し、別の画像データセットと詩データセットを構築し、フレームワーク内の異なるコンポーネントをトレーニングします。 自動評価と人的評価の両方の結果から, 画質を損なうことなく, 画像との整合性の良い詩を生成できることがわかった。

In recent years, the automatic generation of classical Chinese poetry has made great progress. Besides focusing on improving the quality of the generated poetry, there is a new topic about generating poetry from an image. However, the existing methods for this topic still have the problem of topic drift and semantic inconsistency, and the image-poem pairs dataset is hard to be built when training these models. In this paper, we extract and integrate the Concrete and Abstract information from images to address those issues. We proposed an infilling-based Chinese poetry generation model which can infill the Concrete keywords into each line of poems in an explicit way, and an abstract information embedding to integrate the Abstract information into generated poems. In addition, we use non-parallel data during training and construct separate image datasets and poem datasets to train the different components in our framework. Both automatic and human evaluation results show that our approach can generate poems which have better consistency with images without losing the quality.
翻訳日:2022-12-20 08:14:19 公開日:2020-03-24
# 画像キャプションのためのコンパクト報酬の学習

Learning Compact Reward for Image Captioning ( http://arxiv.org/abs/2003.10925v1 )

ライセンス: Link先を確認
Nannan Li, Zhenzhong Chen(参考訳) 敵対的学習は、画像キャプションにおいて自然かつ多様な記述を生成することの進歩を示している。 しかし、既存の敵対的手法の学習された報酬は、報酬の曖昧さの問題により曖昧で不明確なものである。 本稿では,文中の各単語に対する報酬を分散させることにより,報酬あいまいさ問題に対処する改良された逆逆強化学習(rAIRL)手法を提案する。 さらに,モード崩壊を緩和し,生成した記述の多様性を高めるために,損失関数の条件項を導入する。 我々は,MS COCOとFlickr30Kを用いた実験により,画像キャプションのコンパクトな報酬を学習できることを示した。

Adversarial learning has shown its advances in generating natural and diverse descriptions in image captioning. However, the learned reward of existing adversarial methods is vague and ill-defined due to the reward ambiguity problem. In this paper, we propose a refined Adversarial Inverse Reinforcement Learning (rAIRL) method to handle the reward ambiguity problem by disentangling reward for each word in a sentence, as well as achieve stable adversarial training by refining the loss function to shift the generator towards Nash equilibrium. In addition, we introduce a conditional term in the loss function to mitigate mode collapse and to increase the diversity of the generated descriptions. Our experiments on MS COCO and Flickr30K show that our method can learn compact reward for image captioning.
翻訳日:2022-12-20 08:14:01 公開日:2020-03-24
# 多様な方向からの防衛

Defense Through Diverse Directions ( http://arxiv.org/abs/2003.10602v1 )

ライセンス: Link先を確認
Christopher M. Bender, Yang Li, Yifeng Shi, Michael K. Reiter, Junier B. Oliva(参考訳) 本研究では,オンライン対人訓練を必要とせず,強力な対人ロバスト性を実現するための新しいベイズニューラルネットワーク手法を開発する。 この方向の従来の取り組みとは異なり、学習パラメータ分布と先行パラメータ分布のばらつきを最小限に抑えることで、ネットワーク重みの確率性のみに頼らない。 さらに、全ての入力共変量に関して、モデルが期待される不確実性を維持することを要求する。 ネットワークが入力を均等に分配することを奨励することで、ターゲットの摂動に自然な堅牢性を与える局所的かつ脆い特徴の影響を受けにくくなることを示す。 いくつかのベンチマークデータセットで経験的ロバスト性を示す。

In this work we develop a novel Bayesian neural network methodology to achieve strong adversarial robustness without the need for online adversarial training. Unlike previous efforts in this direction, we do not rely solely on the stochasticity of network weights by minimizing the divergence between the learned parameter distribution and a prior. Instead, we additionally require that the model maintain some expected uncertainty with respect to all input covariates. We demonstrate that by encouraging the network to distribute evenly across inputs, the network becomes less susceptible to localized, brittle features which imparts a natural robustness to targeted perturbations. We show empirical robustness on several benchmark datasets.
翻訳日:2022-12-20 08:13:00 公開日:2020-03-24
# 埋め込みは医学用語を適切に表現できるか? 新しい大規模医療用語類似性データセットには答えがある!

Can Embeddings Adequately Represent Medical Terminology? New Large-Scale Medical Term Similarity Datasets Have the Answer! ( http://arxiv.org/abs/2003.11082v1 )

ライセンス: Link先を確認
Claudia Schulz, Damir Juric(参考訳) 医学データに基づいて訓練された多くの埋め込みが出現しているが、それが医学用語をいかによく表しているか、特に、意味的に類似した医療用語の密接な関係がこれらの埋め込みにエンコードされているかは明らかでない。 現在、医療用語の類似性をテストするための小さなデータセットのみが利用可能であり、埋め込みの一般性に関する結論を医師が使用する膨大な量の医療用語に導き出すことができない。 医師との注記研究において,複数の医療用語類似度データセットを自動生成し,その品質を確認する。 最新の単語と文脈の埋め込みを新しいデータセットで評価し、複数のベクトル類似度メトリクスと単語ベクトル集約手法を比較した。 その結果,現在の埋め込みは医療用語を適切にエンコードする能力に限られていることがわかった。 この新しいデータセットは、医療用語全体を正確に表現できる医療埋め込みの開発のための挑戦的な新しいベンチマークを形成する。

A large number of embeddings trained on medical data have emerged, but it remains unclear how well they represent medical terminology, in particular whether the close relationship of semantically similar medical terms is encoded in these embeddings. To date, only small datasets for testing medical term similarity are available, not allowing to draw conclusions about the generalisability of embeddings to the enormous amount of medical terms used by doctors. We present multiple automatically created large-scale medical term similarity datasets and confirm their high quality in an annotation study with doctors. We evaluate state-of-the-art word and contextual embeddings on our new datasets, comparing multiple vector similarity metrics and word vector aggregation techniques. Our results show that current embeddings are limited in their ability to adequately encode medical terms. The novel datasets thus form a challenging new benchmark for the development of medical embeddings able to accurately represent the whole medical terminology.
翻訳日:2022-12-20 08:06:22 公開日:2020-03-24
# 強化と実世界競争へのsim-to-realの適用によるサッカーの学習

Learning to Play Soccer by Reinforcement and Applying Sim-to-Real to Compete in the Real World ( http://arxiv.org/abs/2003.11102v1 )

ライセンス: Link先を確認
Hansenclever F. Bassani, Renie A. Delgado, Jose Nilton de O. Lima Junior, Heitor R. Medeiros, Pedro H. M. Braga and Alain Tapp(参考訳) この研究は、ラテンアメリカロボティクスコンペティション(LARC)の伝統的なリーグであるIEEE Very Small Size Soccer(VSSS)の実際のサッカーロボットを完全に制御するための強化学習(RL)の応用を示す。 VSSSリーグでは、3つの小さなロボットの2つのチームが互いに対戦します。 そこで本研究では,連続的あるいは離散的な制御ポリシーを訓練できるシミュレーション環境と,得られたポリシーを用いて実世界のロボットを制御できるsim-to-real手法を提案する。 その結果,学習方針は手作業による特定が困難な行動の幅広いレパートリーを示すことがわかった。 このアプローチはVSSS-RLと呼ばれ、2018年のLARCでは1-vs-1で3位にランクインした。

This work presents an application of Reinforcement Learning (RL) for the complete control of real soccer robots of the IEEE Very Small Size Soccer (VSSS), a traditional league in the Latin American Robotics Competition (LARC). In the VSSS league, two teams of three small robots play against each other. We propose a simulated environment in which continuous or discrete control policies can be trained, and a Sim-to-Real method to allow using the obtained policies to control a robot in the real world. The results show that the learned policies display a broad repertoire of behaviors that are difficult to specify by hand. This approach, called VSSS-RL, was able to beat the human-designed policy for the striker of the team ranked 3rd place in the 2018 LARC, in 1-vs-1 matches.
翻訳日:2022-12-20 08:05:57 公開日:2020-03-24
# 無限水平強化学習のためのブラックボックスオフポリシー推定

Black-box Off-policy Estimation for Infinite-Horizon Reinforcement Learning ( http://arxiv.org/abs/2003.11126v1 )

ライセンス: Link先を確認
Ali Mousavi, Lihong Li, Qiang Liu, Denny Zhou(参考訳) 長期ホリゾン問題に対するオフ・ポリシー推定は、医療やロボティクスのような多くの現実のアプリケーションにおいて重要であり、高忠実度シミュレータが利用できず、オン・ポリシー評価は高価か不可能である。 近ごろ \cite{liu18breaking} は、典型的な重要サンプリングに基づく手法に悩まされる \emph{curse of horizon} を避けるアプローチを提案した。 有望な結果を示す一方で、このアプローチは、実際には、 \emph{known} 行動ポリシーの \emph{stationary distribution} からデータを引き出す必要があるため、制限されている。 本稿では,このような制限をなくすための新しいアプローチを提案する。 特に、ある作用素の固定点の解として問題を定式化する。 再生カーネルヒルベルト・スペースズ (RKHSs) のツールを用いて, 政治外のデータの収集方法を知ることなく, 定常分布の重要度を算出する新しい推定器を開発した。 我々は漸近的一貫性と有限サンプル一般化を解析する。 ベンチマークの実験は、我々のアプローチの有効性を検証する。

Off-policy estimation for long-horizon problems is important in many real-life applications such as healthcare and robotics, where high-fidelity simulators may not be available and on-policy evaluation is expensive or impossible. Recently, \cite{liu18breaking} proposed an approach that avoids the \emph{curse of horizon} suffered by typical importance-sampling-based methods. While showing promising results, this approach is limited in practice as it requires data be drawn from the \emph{stationary distribution} of a \emph{known} behavior policy. In this work, we propose a novel approach that eliminates such limitations. In particular, we formulate the problem as solving for the fixed point of a certain operator. Using tools from Reproducing Kernel Hilbert Spaces (RKHSs), we develop a new estimator that computes importance ratios of stationary distributions, without knowledge of how the off-policy data are collected. We analyze its asymptotic consistency and finite-sample generalization. Experiments on benchmarks verify the effectiveness of our approach.
翻訳日:2022-12-20 08:05:40 公開日:2020-03-24
# 画像に基づく制約解決のためのハイブリッド分類と推論

Hybrid Classification and Reasoning for Image-based Constraint Solving ( http://arxiv.org/abs/2003.11001v1 )

ライセンス: Link先を確認
Maxime Mulamba, Jayanta Mandi, Rocsildes Canoy, Tias Guns(参考訳) 入力の一部が事実として与えられず、画像や音声などの生のセンサデータとして受信される複雑な制約付き問題を解くことへの関心が高まっている。 我々は、与えられたセル桁を手書きし、その画像として提供するプロトタイプ問題として「視覚スドク」を用いる。 この場合、まずイメージをラベル付けするために分類器を訓練し、使用しなければなりません。 本稿では,制約ソルバの推論を用いて画像分類のハイブリダイゼーションについて検討する。 予測に対する純粋な制約推論は十分な結果を与えないことを示す。 代わりに、分類器の確率的推定を制約解法に公開することにより、より緊密な積分の可能性を探る。 これにより、確率的推定に対する共同推論が可能になり、解法を用いて最大確率解を求める。 分類器の力と制約推論の力のトレードオフについて検討するとともに,構造知識の付加的利用によるさらなる統合について検討する。 さらに,確率的推定の校正が推論に及ぼす影響について検討した。 その結果,このようなハイブリッドアプローチは,予測(確率)と制約解決のさらなる統合を促進するため,別のアプローチを大きく上回っていることがわかった。

There is an increased interest in solving complex constrained problems where part of the input is not given as facts but received as raw sensor data such as images or speech. We will use "visual sudoku" as a prototype problem, where the given cell digits are handwritten and provided as an image thereof. In this case, one first has to train and use a classifier to label the images, so that the labels can be used for solving the problem. In this paper, we explore the hybridization of classifying the images with the reasoning of a constraint solver. We show that pure constraint reasoning on predictions does not give satisfactory results. Instead, we explore the possibilities of a tighter integration, by exposing the probabilistic estimates of the classifier to the constraint solver. This allows joint inference on these probabilistic estimates, where we use the solver to find the maximum likelihood solution. We explore the trade-off between the power of the classifier and the power of the constraint reasoning, as well as further integration through the additional use of structural knowledge. Furthermore, we investigate the effect of calibration of the probabilistic estimates on the reasoning. Our results show that such hybrid approaches vastly outperform a separate approach, which encourages a further integration of prediction (probabilities) and constraint solving.
翻訳日:2022-12-20 08:05:21 公開日:2020-03-24
# ドメイン適応の観点からの長距離視覚認識のためのクラスベース手法の再考

Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition from a Domain Adaptation Perspective ( http://arxiv.org/abs/2003.10780v1 )

ライセンス: Link先を確認
Muhammad Abdullah Jamal and Matthew Brown and Ming-Hsuan Yang and Liqiang Wang and Boqing Gong(参考訳) 現実世界のオブジェクトの頻度は、しばしばパワー法則に従い、マシンラーニングモデルで見られるロングテールのクラス分布を持つデータセットと、すべてのクラスでうまく機能するモデルへの期待とのミスマッチを引き起こす。 このミスマッチをドメイン適応の観点から分析する。 まず、長い尾の分類のための既存のクラスバランスの手法を、ドメイン適応におけるよく研究されたシナリオであるターゲットシフトに接続する。 この接続により、これらの方法が暗黙的にトレーニングデータとテストデータが同じクラス条件分布を共有していると仮定していることが分かる。 ヘッドクラスは、予測されたデータを推論時に適切に表現する豊富な多様なトレーニング例を含むことができるが、テールクラスは、しばしば代表的なトレーニングデータに欠ける。 そこで本研究では,メタラーニングによるクラス条件分布の違いを明示的に推定することにより,古典的クラスバランス学習の強化を提案する。 6つのベンチマークデータセットと3つの損失関数でアプローチを検証する。

Object frequency in the real world often follows a power law, leading to a mismatch between datasets with long-tailed class distributions seen by a machine learning model and our expectation of the model to perform well on all classes. We analyze this mismatch from a domain adaptation point of view. First of all, we connect existing class-balanced methods for long-tailed classification to target shift, a well-studied scenario in domain adaptation. The connection reveals that these methods implicitly assume that the training data and test data share the same class-conditioned distribution, which does not hold in general and especially for the tail classes. While a head class could contain abundant and diverse training examples that well represent the expected data at inference time, the tail classes are often short of representative training data. To this end, we propose to augment the classic class-balanced learning by explicitly estimating the differences between the class-conditioned distributions with a meta-learning approach. We validate our approach with six benchmark datasets and three loss functions.
翻訳日:2022-12-20 08:05:01 公開日:2020-03-24
# tracer: ハイステークスアプリケーションの正確かつ解釈可能な分析を容易にするフレームワーク

TRACER: A Framework for Facilitating Accurate and Interpretable Analytics for High Stakes Applications ( http://arxiv.org/abs/2003.12012v1 )

ライセンス: Link先を確認
Kaiping Zheng, Shaofeng Cai, Horng Ruey Chua, Wei Wang, Kee Yuan Ngiam, Beng Chin Ooi(参考訳) ヘルスケアやファイナンス分析といった高利率なアプリケーションでは、予測モデルの解釈性が必要であり、ドメイン実践者が予測を信頼する必要がある。 従来の機械学習モデル、例えばロジスティック回帰(lr)は、自然界では容易に解釈できる。 しかし、これらのモデルの多くは時間的相関や変動を考慮せずに時系列データを集約している。 したがって、その性能は、recurrent neural network (rnn)ベースのモデルには一致しないが、解釈は困難である。 本稿では、医療分析や金融投資やリスク管理といった高リスクアプリケーションのための新しいTITVモデルを用いて、正確かつ解釈可能な予測を容易にするための一般的なフレームワークTRACERを提案する。 LRや他の既存のRNNモデルとは異なり、TITVは、時系列全体にわたって共有される特徴の影響と時間的重要性について、特徴量変換サブネットと自己アテンションサブネットワークを用いて、時間的不変性と時間的不変性の両方の重要性を捉えるように設計されている。 医療分析は運転ユースケースとして採用されており、提案されたTRACERはフィンテックなど他の分野にも適用可能であることに留意する。 我々は,TRACERの精度を現実の2つの病院データセットで広く評価し,患者レベルと特徴レベルの両方においてTRACERの解釈可能性をさらに検証した。 さらに、TRACERは高利回りの金融アプリケーションや臨界温度予測アプリケーションでも検証されている。 実験の結果,TRACERは高利得アプリケーションに対する正確かつ解釈可能な解析を容易にすることがわかった。

In high stakes applications such as healthcare and finance analytics, the interpretability of predictive models is required and necessary for domain practitioners to trust the predictions. Traditional machine learning models, e.g., logistic regression (LR), are easy to interpret in nature. However, many of these models aggregate time-series data without considering the temporal correlations and variations. Therefore, their performance cannot match up to recurrent neural network (RNN) based models, which are nonetheless difficult to interpret. In this paper, we propose a general framework TRACER to facilitate accurate and interpretable predictions, with a novel model TITV devised for healthcare analytics and other high stakes applications such as financial investment and risk management. Different from LR and other existing RNN-based models, TITV is designed to capture both the time-invariant and the time-variant feature importance using a feature-wise transformation subnetwork and a self-attention subnetwork, for the feature influence shared over the entire time series and the time-related importance respectively. Healthcare analytics is adopted as a driving use case, and we note that the proposed TRACER is also applicable to other domains, e.g., fintech. We evaluate the accuracy of TRACER extensively in two real-world hospital datasets, and our doctors/clinicians further validate the interpretability of TRACER in both the patient level and the feature level. Besides, TRACER is also validated in a high stakes financial application and a critical temperature forecasting application. The experimental results confirm that TRACER facilitates both accurate and interpretable analytics for high stakes applications.
翻訳日:2022-12-20 08:04:43 公開日:2020-03-24
# 多因子細胞遺伝アルゴリズム(mfcga) : アルゴリズム設計、性能比較、遺伝子導入可能性解析

Multifactorial Cellular Genetic Algorithm (MFCGA): Algorithmic Design, Performance Comparison and Genetic Transferability Analysis ( http://arxiv.org/abs/2003.10768v1 )

ライセンス: Link先を確認
Eneko Osaba, Aritz D. Martinez, Jesus L. Lobo, Javier Del Ser and Francisco Herrera(参考訳) マルチタスク最適化は先進的な研究領域であり、近年顕著な研究の勢いを増している。 一つのタスクを一度に解くことに焦点を当てた従来の最適化パラダイムとは異なり、マルチタスクは単一の探索プロセスを実行することで複数の最適化問題を同時に処理する方法に対処する。 この目標を効率的に達成する主な目的は、最適化すべき問題(タスク)間の相乗効果を利用して、知識伝達を通じてお互いを助けることである。 さらに、進化的マルチタスク(EM)の概念は進化的計算の概念を取り入れたマルチタスク環境を、検討中の問題の同時解決のインスピレーションとしている。 このようにして、MFEA(Multifactorial Evolutionary Algorithm)のようなEMアプローチは、複数の離散的、連続的、単一、および/または多目的最適化問題を扱う際に顕著な成功を収めている。 本研究では, セル・オートマトンの概念に重きを置き, 問題間の知識交換機構を実装する多元的最適化シナリオのための新しいアルゴリズムスキームである多元的セル・遺伝的アルゴリズム(mfcga)を提案する。 我々は提案したMFCGAの広範な性能解析を行い、同じアルゴリズム条件下での標準MFEAと15以上の異なるマルチタスク設定(離散トラベリングセールスマン問題における異なる参照インスタンスを経由する)を比較した。 この分析のさらなる貢献は、MFCGA探索プロセスに沿って異なる最適化タスクの間に出現した相乗効果を実証的に示すことによって、問題インスタンス間の遺伝子導入可能性の定量的な検証である。

Multitasking optimization is an incipient research area which is lately gaining a notable research momentum. Unlike traditional optimization paradigm that focuses on solving a single task at a time, multitasking addresses how multiple optimization problems can be tackled simultaneously by performing a single search process. The main objective to achieve this goal efficiently is to exploit synergies between the problems (tasks) to be optimized, helping each other via knowledge transfer (thereby being referred to as Transfer Optimization). Furthermore, the equally recent concept of Evolutionary Multitasking (EM) refers to multitasking environments adopting concepts from Evolutionary Computation as their inspiration for the simultaneous solving of the problems under consideration. As such, EM approaches such as the Multifactorial Evolutionary Algorithm (MFEA) has shown a remarkable success when dealing with multiple discrete, continuous, single-, and/or multi-objective optimization problems. In this work we propose a novel algorithmic scheme for Multifactorial Optimization scenarios - the Multifactorial Cellular Genetic Algorithm (MFCGA) - that hinges on concepts from Cellular Automata to implement mechanisms for exchanging knowledge among problems. We conduct an extensive performance analysis of the proposed MFCGA and compare it to the canonical MFEA under the same algorithmic conditions and over 15 different multitasking setups (encompassing different reference instances of the discrete Traveling Salesman Problem). A further contribution of this analysis beyond performance benchmarking is a quantitative examination of the genetic transferability among the problem instances, eliciting an empirical demonstration of the synergies emerged between the different optimization tasks along the MFCGA search process.
翻訳日:2022-12-20 08:04:16 公開日:2020-03-24
# COEBA:進化的マルチタスクを離散化する進化的バットアルゴリズム

COEBA: A Coevolutionary Bat Algorithm for Discrete Evolutionary Multitasking ( http://arxiv.org/abs/2003.11628v1 )

ライセンス: Link先を確認
Eneko Osaba, Javier Del Ser, Xin-She Yang, Andres Iglesias and Akemi Galvez(参考訳) マルチタスク最適化は、科学コミュニティで多くの注目を集めている新しい研究分野である。 このパラダイムの主な目的は、単一の探索プロセスを実行することで、複数の最適化問題やタスクを同時に解決する方法である。 この目標を達成する主な触媒は、最適化すべきタスクの中で可能なシナジーと相補性を活用し、それらの間の知識の伝達(転送最適化と呼ばれる)によって互いに助け合うことである。 この文脈では、進化的マルチタスクは、手前のタスクを同時に解くために進化的計算の概念に頼って、転送最適化の問題に対処する。 本研究は,マルチタスク環境を扱うための新しいアルゴリズムスキームを提案することで,この傾向に寄与する。 提案手法はCoevolutionary Bat Algorithmと呼ばれ、共進化的戦略とメタヒューリスティックなBat Algorithmの両方から着想を得た。 提案手法の性能を, 離散走行セールスマン問題の8つの参照インスタンスから構成した15種類のマルチタスク構成の多因子進化アルゴリズムと比較した。 提案された共進化的バットアルゴリズムは、進化的マルチタスクシナリオを解決するための有望なメタヒューリスティックである。

Multitasking optimization is an emerging research field which has attracted lot of attention in the scientific community. The main purpose of this paradigm is how to solve multiple optimization problems or tasks simultaneously by conducting a single search process. The main catalyst for reaching this objective is to exploit possible synergies and complementarities among the tasks to be optimized, helping each other by virtue of the transfer of knowledge among them (thereby being referred to as Transfer Optimization). In this context, Evolutionary Multitasking addresses Transfer Optimization problems by resorting to concepts from Evolutionary Computation for simultaneous solving the tasks at hand. This work contributes to this trend by proposing a novel algorithmic scheme for dealing with multitasking environments. The proposed approach, coined as Coevolutionary Bat Algorithm, finds its inspiration in concepts from both co-evolutionary strategies and the metaheuristic Bat Algorithm. We compare the performance of our proposed method with that of its Multifactorial Evolutionary Algorithm counterpart over 15 different multitasking setups, composed by eight reference instances of the discrete Traveling Salesman Problem. The experimentation and results stemming therefrom support the main hypothesis of this study: the proposed Coevolutionary Bat Algorithm is a promising meta-heuristic for solving Evolutionary Multitasking scenarios.
翻訳日:2022-12-20 08:03:50 公開日:2020-03-24