このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20200705となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# モバイルデバイス上でのリアルタイム推論のための画像強調パターンベーススパーシティ An Image Enhancing Pattern-based Sparsity for Real-time Inference on Mobile Devices ( http://arxiv.org/abs/2001.07710v3 ) ライセンス: Link先を確認 | Xiaolong Ma, Wei Niu, Tianyun Zhang, Sijia Liu, Sheng Lin, Hongjia Li, Xiang Chen, Jian Tang, Kaisheng Ma, Bin Ren, Yanzhi Wang | (参考訳) ウェイトプルーニングはディープニューラルネットワーク(DNN)の冗長性を排除し,様々なプラットフォーム上での高速化を実現するための,単純かつ効果的な方法として広く認められてきた。
しかし, プルーニング技術の大部分は, モデル精度と正則性のトレードオフであり, 推論精度が低下し, デバイス上でのアクセラレーション性能が制限される。
この問題を解決するために,パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を新たに導入し,高精度かつハードウェアフレンドリな環境を実現する。
また,パターン認識型プルーニングフレームワークでは,パターンライブラリの抽出,パターン選択,パターンおよび接続性プルーニング,重みトレーニングを同時に実現している。
新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
私たちの知る限りでは、モバイルデバイスが大規模なdnnモデルのリアルタイム推論を実現するのは、パターンベースのスパーシティのユニークな空間的特性とコンパイラのコード生成能力の助けを借りて初めてです。 Weight pruning has been widely acknowledged as a straightforward and effective method to eliminate redundancy in Deep Neural Networks (DNN), thereby achieving acceleration on various platforms. However, most of the pruning techniques are essentially trade-offs between model accuracy and regularity which lead to impaired inference accuracy and limited on-device acceleration performance. To solve the problem, we introduce a new sparsity dimension, namely pattern-based sparsity that comprises pattern and connectivity sparsity, and becoming both highly accurate and hardware friendly. With carefully designed patterns, the proposed pruning unprecedentedly and consistently achieves accuracy enhancement and better feature extraction ability on different DNN structures and datasets, and our pattern-aware pruning framework also achieves pattern library extraction, pattern selection, pattern and connectivity pruning and weight training simultaneously. Our approach on the new pattern-based sparsity naturally fits into compiler optimization for highly efficient DNN execution on mobile platforms. To the best of our knowledge, it is the first time that mobile devices achieve real-time inference for the large-scale DNN models thanks to the unique spatial property of pattern-based sparsity and the help of the code generation capability of compilers. | 翻訳日:2023-01-08 04:57:17 公開日:2020-07-05 |
# k-tied正規分布:ベイズニューラルネットワークにおけるガウス平均場後方のコンパクトパラメータ化 The k-tied Normal Distribution: A Compact Parameterization of Gaussian Mean Field Posteriors in Bayesian Neural Networks ( http://arxiv.org/abs/2002.02655v2 ) ライセンス: Link先を確認 | Jakub Swiatkowski, Kevin Roth, Bastiaan S. Veeling, Linh Tran, Joshua V. Dillon, Jasper Snoek, Stephan Mandt, Tim Salimans, Rodolphe Jenatton, Sebastian Nowozin | (参考訳) 変分ベイズ推論は、ベイズニューラルネットワーク重みの後方分布を近似するための一般的な手法である。
このタイプの手法を開発する最近の研究は、性能向上を期待して近似後段のよりリッチなパラメータ化を探求している。
対照的に、ここでは変分分布をよりコンパクトなパラメータ化に制限することを示唆する興味深い実験的発見を共有する。
ガウス平均場変動推定を用いて訓練された様々なディープベイズニューラルネットワークに対して、後方標準偏差は収束後の強い低ランク構造を示す。
これは、これらの変動パラメータを低ランクの分解に分解することで、モデルの性能を低下させることなく変動近似をよりコンパクトにすることができることを意味する。
さらに, 偏差パラメータ化により, 変分下界の確率勾配推定の信号-雑音比が向上し, より高速に収束することがわかった。 Variational Bayesian Inference is a popular methodology for approximating posterior distributions over Bayesian neural network weights. Recent work developing this class of methods has explored ever richer parameterizations of the approximate posterior in the hope of improving performance. In contrast, here we share a curious experimental finding that suggests instead restricting the variational distribution to a more compact parameterization. For a variety of deep Bayesian neural networks trained using Gaussian mean-field variational inference, we find that the posterior standard deviations consistently exhibit strong low-rank structure after convergence. This means that by decomposing these variational parameters into a low-rank factorization, we can make our variational approximation more compact without decreasing the models' performance. Furthermore, we find that such factorized parameterizations improve the signal-to-noise ratio of stochastic gradient estimates of the variational lower bound, resulting in faster convergence. | 翻訳日:2023-01-03 03:40:51 公開日:2020-07-05 |
# 知識グラフを用いた単純な質問応答に対する神経関係予測 Neural Relation Prediction for Simple Question Answering over Knowledge Graph ( http://arxiv.org/abs/2002.07715v3 ) ライセンス: Link先を確認 | Amin Abolghasemi, Saeedeh Momtazi | (参考訳) ナレッジグラフはファクトイド質問に対する回答を提供する典型的リソースとして広く使われている。
知識グラフ上の単純な質問応答において、関係抽出は、予め定義された関係型の集合からファクトイド質問の関係を予測することを目的としている。
最近の手法では、ニューラルネットワークを利用して、すべての事前定義された関係と問題にマッチする。
本稿では,質問の根底にある関係を抽出するインスタンスベースの手法を提案し,その目的に対して,同じ関係を持つ新しい質問の一致するパラフレーズを検出し,それに対応する関係を予測として選択する。
モデルの概念は、関係が様々な形で表現できるのに対して、これらの形式は語彙的あるいは意味論的に類似した用語や概念を共有しているという事実に根ざしている。
simplequestionsデータセットを用いた実験により,提案モデルが最先端の関係抽出モデルと比較して精度が向上したことを示す。 Knowledge graphs are widely used as a typical resource to provide answers to factoid questions. In simple question answering over knowledge graphs, relation extraction aims to predict the relation of a factoid question from a set of predefined relation types. Most recent methods take advantage of neural networks to match a question with all predefined relations. In this paper, we propose an instance-based method to capture the underlying relation of question and to this aim, we detect matching paraphrases of a new question which share the same relation, and their corresponding relation is selected as our prediction. The idea of our model roots in the fact that a relation can be expressed with various forms of questions while these forms share lexically or semantically similar terms and concepts. Our experiments on the SimpleQuestions dataset show that the proposed model achieves better accuracy compared to the state-of-the-art relation extraction models. | 翻訳日:2022-12-30 19:15:53 公開日:2020-07-05 |
# 最悪の相互情報最大化による逆ロバスト表現の学習 Learning Adversarially Robust Representations via Worst-Case Mutual Information Maximization ( http://arxiv.org/abs/2002.11798v2 ) ライセンス: Link先を確認 | Sicheng Zhu, Xiao Zhang, David Evans | (参考訳) 敵の入力に対して堅牢な機械学習モデルを訓練することは、一見不可能な課題である。
敵対的ロバスト性をよりよく理解するために,ロバスト表現を学ぶという根本的な問題を考える。
我々は,最悪の入力摂動の下で,入力分布と出力分布の相互情報の最大変化を捉える表現脆弱性の概念を開発する。
そして,その表現の脆弱性に基づいて下流の分類器に対して達成可能な最小の対向リスクに対して下限を確立する定理を証明した。
本稿では,入力分布と出力分布の最悪の相互情報を最大化し,本質的に堅牢な表現を得る教師なし学習手法を提案する。
下流分類タスクの実験は、教師なし学習とトレーニング原理を用いた表現の堅牢性を支援する。 Training machine learning models that are robust against adversarial inputs poses seemingly insurmountable challenges. To better understand adversarial robustness, we consider the underlying problem of learning robust representations. We develop a notion of representation vulnerability that captures the maximum change of mutual information between the input and output distributions, under the worst-case input perturbation. Then, we prove a theorem that establishes a lower bound on the minimum adversarial risk that can be achieved for any downstream classifier based on its representation vulnerability. We propose an unsupervised learning method for obtaining intrinsically robust representations by maximizing the worst-case mutual information between the input and output distributions. Experiments on downstream classification tasks support the robustness of the representations found using unsupervised learning with our training principle. | 翻訳日:2022-12-28 15:00:13 公開日:2020-07-05 |
# 自己組織決定木を用いた時空間過程の予測 Prediction with Spatio-temporal Point Processes with Self Organizing Decision Trees ( http://arxiv.org/abs/2003.03657v3 ) ライセンス: Link先を確認 | Oguzhan Karaahmetoglu (1 and 2) and Suleyman Serdar Kozat (1 and 2) ((1) Bilkent University, (2) DataBoss A.S.) | (参考訳) 本研究では,その批判的実生活応用により多くの研究者の注目を集めている時空間予測問題について考察する。
具体的には,この問題に対する新しいアプローチを提案する。
我々のアプローチは、非定常かつ自励的な点過程であるホークス過程に基づいている。
時空間データを表現するために時系列データを表現できる標準点プロセスモデルの定式化を拡張する。
データは時間と空間の非定常としてモデル化します。
さらに,我々が取り組んでいる空間領域を適応的決定木を通して部分領域に分割し,各部分領域のソース統計を個別に相互に相互作用する点過程でモデル化する。
また、点過程と決定木パラメータに対する勾配に基づく共同最適化アルゴリズムも提供する。
そこで,本稿では,音源統計と空間領域の適応的分割を共同で推定するモデルを提案する。
最後に,本論文の標準手法と比較して,空間適応と共同最適化による顕著な改善をもたらす実生活データに関する実験結果を提供する。 We study the spatio-temporal prediction problem, which has attracted the attention of many researchers due to its critical real-life applications. In particular, we introduce a novel approach to this problem. Our approach is based on the Hawkes process, which is a non-stationary and self-exciting point process. We extend the formulations of a standard point process model that can represent time-series data to represent a spatio-temporal data. We model the data as nonstationary in time and space. Furthermore, we partition the spatial region we are working on into subregions via an adaptive decision tree and model the source statistics in each subregion with individual but mutually interacting point processes. We also provide a gradient based joint optimization algorithm for the point process and decision tree parameters. Thus, we introduce a model that can jointly infer the source statistics and an adaptive partitioning of the spatial region. Finally, we provide experimental results on real-life data, which provides significant improvement due to space adaptation and joint optimization compared to standard well-known methods in the literature. | 翻訳日:2022-12-25 19:11:32 公開日:2020-07-05 |
# ブラックボックス最適化のための表現の発見 Discovering Representations for Black-box Optimization ( http://arxiv.org/abs/2003.04389v2 ) ライセンス: Link先を確認 | Adam Gaier, Alexander Asteroth, Jean-Baptiste Mouret | (参考訳) ブラックボックス最適化におけるソリューションのエンコーディングは、表現力とドメイン知識の間の微妙で手作りのバランスであり、幅広いソリューションを探索し、それらのソリューションが有用であることを保証する。
主な洞察は、このプロセスは、高品質な多様性アルゴリズム(以下MAP-Elites)で高性能なソリューションのデータセットを生成し、そのデータセットから生成モデル(以下、変分オートエンコーダ)で表現を学習することで自動化できるということです。
第二の洞察は、この表現が品質の多様性の最適化を高次元に拡張するために使用できるということです -- しかし、学習した表現と従来の変動演算子で生成されたソリューションを慎重に混ぜた場合に限りです。
我々は,1000個の平面アームの逆運動学の低次元エンコーディングを学習することにより,これらの能力を示す。
その結果、学習表現は、標準map-elitesよりも桁違いに少ない評価で高次元の問題を解くことができ、一旦解くと、生成されたエンコーディングは、新規だが類似したタスクの迅速な最適化に使用できることが示された。
提案手法は品質の多様性のアルゴリズムを高次元にスケールアップするだけでなく,ブラックボックス最適化エンコーディングを手設計ではなく,自動的に学習できることを示す。 The encoding of solutions in black-box optimization is a delicate, handcrafted balance between expressiveness and domain knowledge -- between exploring a wide variety of solutions, and ensuring that those solutions are useful. Our main insight is that this process can be automated by generating a dataset of high-performing solutions with a quality diversity algorithm (here, MAP-Elites), then learning a representation with a generative model (here, a Variational Autoencoder) from that dataset. Our second insight is that this representation can be used to scale quality diversity optimization to higher dimensions -- but only if we carefully mix solutions generated with the learned representation and those generated with traditional variation operators. We demonstrate these capabilities by learning an low-dimensional encoding for the inverse kinematics of a thousand joint planar arm. The results show that learned representations make it possible to solve high-dimensional problems with orders of magnitude fewer evaluations than the standard MAP-Elites, and that, once solved, the produced encoding can be used for rapid optimization of novel, but similar, tasks. The presented techniques not only scale up quality diversity algorithms to high dimensions, but show that black-box optimization encodings can be automatically learned, rather than hand designed. | 翻訳日:2022-12-25 07:49:32 公開日:2020-07-05 |
# RigNet:Articulated Charactersのためのニューラルリギング RigNet: Neural Rigging for Articulated Characters ( http://arxiv.org/abs/2005.00559v2 ) ライセンス: Link先を確認 | Zhan Xu, Yang Zhou, Evangelos Kalogerakis, Chris Landreth and Karan Singh | (参考訳) 本稿では,入力文字モデルからアニメーションリグを自動生成するRigNetを提案する。
調音文字を表す入力3Dモデルが与えられた後、RigNetは、関節配置とトポロジーにおけるアニメーターの期待と一致する骨格を予測する。
また、予測された骨格に基づいて表面の皮膚重量を推定する。
本手法は,形状クラスや構造を仮定することなく,メッシュ表現を直接操作する深層アーキテクチャに基づいている。
このアーキテクチャは、メッシュ、骨格、および対応する皮膚重量を含む、多種多様なリッグモデルのコレクションに基づいて訓練されている。
アニメーターリグを定量的に比較すると,先行技術よりも優れた結果が得られ,定性的に複数の詳細レベルで表現・アニメーションできることを示し,最後に,出力リグに対する様々なアルゴリズム選択の影響を評価する。 We present RigNet, an end-to-end automated method for producing animation rigs from input character models. Given an input 3D model representing an articulated character, RigNet predicts a skeleton that matches the animator expectations in joint placement and topology. It also estimates surface skin weights based on the predicted skeleton. Our method is based on a deep architecture that directly operates on the mesh representation without making assumptions on shape class and structure. The architecture is trained on a large and diverse collection of rigged models, including their mesh, skeletons and corresponding skin weights. Our evaluation is three-fold: we show better results than prior art when quantitatively compared to animator rigs; qualitatively we show that our rigs can be expressively posed and animated at multiple levels of detail; and finally, we evaluate the impact of various algorithm choices on our output rigs. | 翻訳日:2022-12-08 00:21:10 公開日:2020-07-05 |
# コンピュータ支援分子設計のための深層学習と知識ベース手法 ---統一アプローチに向けて--最新技術と今後の展望- Deep Learning and Knowledge-Based Methods for Computer Aided Molecular Design -- Toward a Unified Approach: State-of-the-Art and Future Directions ( http://arxiv.org/abs/2005.08968v2 ) ライセンス: Link先を確認 | Abdulelah S. Alshehri, Rafiqul Gani, Fengqi You | (参考訳) 分子レベルでの操作特性による化合物の最適設計は、しばしばかなりの科学的進歩とプロセスシステムの性能向上の鍵となる。
本稿では,CAMD(Computer-Aided Molecular Design)問題を支える重要なトレンド,課題,機会について述べる。
まず,知識駆動型特性推定手法と解法,および対応するCAMDツールおよび応用について概説する。
知識に基づく手法や手法を論じる計算の課題を考察し, 深層学習の分子設計への応用を, 計算の限界を克服し, 化学空間の未知領域をナビゲートするための肥大したアプローチとして調査する。
この調査の主な焦点は、様々な深層学習アーキテクチャと異なる分子表現の下での分子の深部生成モデリングである。
さらに,ディープラーニングモデル構築におけるベンチマークと経験的厳密性の重要性が注目されている。
レビュー記事はまた、知識ベースおよびデータ駆動型CAMDの現在の展望と課題について詳細な議論を行い、今後の研究方向性の重要な領域を特定する。
特に強調されているのは、知識駆動型CAMD手法やツールの蓄積した富を活用しながら、ディープラーニングアプローチを活用できるハイブリッドモデリングパラダイムの豊かな道である。 The optimal design of compounds through manipulating properties at the molecular level is often the key to considerable scientific advances and improved process systems performance. This paper highlights key trends, challenges, and opportunities underpinning the Computer-Aided Molecular Design (CAMD) problems. A brief review of knowledge-driven property estimation methods and solution techniques, as well as corresponding CAMD tools and applications, are first presented. In view of the computational challenges plaguing knowledge-based methods and techniques, we survey the current state-of-the-art applications of deep learning to molecular design as a fertile approach towards overcoming computational limitations and navigating uncharted territories of the chemical space. The main focus of the survey is given to deep generative modeling of molecules under various deep learning architectures and different molecular representations. Further, the importance of benchmarking and empirical rigor in building deep learning models is spotlighted. The review article also presents a detailed discussion of the current perspectives and challenges of knowledge-based and data-driven CAMD and identifies key areas for future research directions. Special emphasis is on the fertile avenue of hybrid modeling paradigm, in which deep learning approaches are exploited while leveraging the accumulated wealth of knowledge-driven CAMD methods and tools. | 翻訳日:2022-12-01 23:23:20 公開日:2020-07-05 |
# 幼児脳MRIにおける自動変形型登録ネットワーク An Auto-Context Deformable Registration Network for Infant Brain MRI ( http://arxiv.org/abs/2005.09230v2 ) ライセンス: Link先を確認 | Dongming Wei, Sahar Ahmad, Yunzhi Huang, Lei Ma, Zhengwang Wu, Gang Li, Li Wang, Qian Wang, Pew-Thian Yap, Dinggang Shen | (参考訳) 変形可能な画像登録は、長手および人口分析に不可欠である。
乳児脳mri画像の幾何学的アライメントは,脳の発達に伴う画像出現の急速な変化により困難である。
本稿では, 幼児向け深層登録ネットワークを提案する。このネットワークは, 自動文脈戦略を用いて変形場を徐々に洗練し, 高精度な対応関係を得る。
複数の登録ネットワークを訓練する代わりに,複数のネットワークを複数回起動して変形場を推定し,反復的変形微細化を行う。
最終変形場は、変形場のインクリメンタルな組成により得られる。
現状登録法との比較実験結果から, 変形場の滑らかさを保ちながら, 高い精度を達成できることが示唆された。
私たちの実装はオンラインで利用可能です。 Deformable image registration is fundamental to longitudinal and population analysis. Geometric alignment of the infant brain MR images is challenging, owing to rapid changes in image appearance in association with brain development. In this paper, we propose an infant-dedicated deep registration network that uses the auto-context strategy to gradually refine the deformation fields to obtain highly accurate correspondences. Instead of training multiple registration networks, our method estimates the deformation fields by invoking a single network multiple times for iterative deformation refinement. The final deformation field is obtained by the incremental composition of the deformation fields. Experimental results in comparison with state-of-the-art registration methods indicate that our method achieves higher accuracy while at the same time preserves the smoothness of the deformation fields. Our implementation is available online. | 翻訳日:2022-12-01 14:06:35 公開日:2020-07-05 |
# ディープラーニングを用いた三次元顕微鏡のセンサレス収差推定 Practical sensorless aberration estimation for 3D microscopy with deep learning ( http://arxiv.org/abs/2006.01804v2 ) ライセンス: Link先を確認 | Debayan Saha, Uwe Schmidt, Qinrong Zhang, Aurelien Barbotin, Qi Hu, Na Ji, Martin J. Booth, Martin Weigert, Eugene W. Myers | (参考訳) 体積強度画像からの光収差の推定は3次元顕微鏡におけるセンサレス適応光学の重要なステップである。
ディープラーニングに基づく最近のアプローチでは、高速処理で正確な結果が得られる。
しかし、ネットワークをトレーニングするための地上の真理顕微鏡データを集めることは、通常非常に難しいか、あるいは不可能である。
本稿では,シミュレーションデータのみをトレーニングしたニューラルネットワークが実際の実験画像の正確な予測をもたらすことを示す。
2つの異なる顕微鏡法で得られたシミュレーションおよび実験データセットに対するアプローチを検証するとともに,結果を学習しない手法と比較する。
さらに,データ要求に対する個々の収差の予測可能性を調べ,ウェーブフロントの対称性が重要な役割を担っていることを示す。
最後に、Pythonのオープンソースソフトウェアとして実装を無償で提供します。 Estimation of optical aberrations from volumetric intensity images is a key step in sensorless adaptive optics for 3D microscopy. Recent approaches based on deep learning promise accurate results at fast processing speeds. However, collecting ground truth microscopy data for training the network is typically very difficult or even impossible thereby limiting this approach in practice. Here, we demonstrate that neural networks trained only on simulated data yield accurate predictions for real experimental images. We validate our approach on simulated and experimental datasets acquired with two different microscopy modalities, and also compare the results to non-learned methods. Additionally, we study the predictability of individual aberrations with respect to their data requirements and find that the symmetry of the wavefront plays a crucial role. Finally, we make our implementation freely available as open source software in Python. | 翻訳日:2022-11-26 01:06:33 公開日:2020-07-05 |
# 反復的・償却的推論としての強化学習 Reinforcement Learning as Iterative and Amortised Inference ( http://arxiv.org/abs/2006.10524v3 ) ライセンス: Link先を確認 | Beren Millidge, Alexander Tschantz, Anil K Seth, Christopher L Buckley | (参考訳) モデルベースまたはモデルフリー、ポリシーベースまたは計画ベース、オンラインまたはオフラインなど、強化学習(RL)アルゴリズムを分類する方法はいくつかある。
このような幅広い分類スキームは、異なる技術に対する統一的な視点を提供し、新しいアルゴリズムの開発を文脈化し、導くのに役立つ。
本稿では,この制御を推論フレームワークとして利用し,償却および反復推論に基づく新しい分類手法の概要を述べる。
この方法では、幅広いアルゴリズムを分類し、新しい視点を提供し、既存の類似性を強調することができることを実証する。
さらに、この観点からは、比較的未探索なアルゴリズム設計空間の一部を特定することができ、革新的なRLアルゴリズムへの新たな経路を提案する。 There are several ways to categorise reinforcement learning (RL) algorithms, such as either model-based or model-free, policy-based or planning-based, on-policy or off-policy, and online or offline. Broad classification schemes such as these help provide a unified perspective on disparate techniques and can contextualise and guide the development of new algorithms. In this paper, we utilise the control as inference framework to outline a novel classification scheme based on amortised and iterative inference. We demonstrate that a wide range of algorithms can be classified in this manner providing a fresh perspective and highlighting a range of existing similarities. Moreover, we show that taking this perspective allows us to identify parts of the algorithmic design space which have been relatively unexplored, suggesting new routes to innovative RL algorithms. | 翻訳日:2022-11-21 20:24:50 公開日:2020-07-05 |
# 高次元におけるリッジ規則化実証リスク最小化の基礎的限界 Fundamental Limits of Ridge-Regularized Empirical Risk Minimization in High Dimensions ( http://arxiv.org/abs/2006.08917v2 ) ライセンス: Link先を確認 | Hossein Taheri, Ramtin Pedarsani, and Christos Thrampoulidis | (参考訳) 経験的リスク最小化(ERM)アルゴリズムは、信号処理や機械学習アプリケーションにおける様々な推定や予測タスクで広く利用されている。
それらの人気にもかかわらず、測定数と未知のパラメータ数の両方が大きすぎる現代体制において、その統計特性を説明する理論が最近登場している。
本稿では,高次元一般化線形モデルにおける推論における凸EMMの統計的精度の基本的な限界を初めて特徴づける。
比例率で大きく成長するガウス的特徴と問題次元を持つスタイリングされた設定では、シャープな性能特性から始め、広い種類の損失関数と正規化パラメータの任意の値を保持する推定誤差と予測誤差の厳密な下限を導出する。
我々の正確な分析にはいくつかの属性がある。
まず、損失関数と正規化パラメータを最適に調整するためのレシピを作成する。
第二に、一般的なヒューリスティック選択のサブ最適性を正確に定量化することができる:例えば、最適に調整された最小二乗は(おそらく驚くほど)標準ロジスティックデータにほぼ最適であるが、信号強度が増加するにつれてサブ最適ギャップは劇的に増加する。
第3に,オーバーパラメータ比の関数として,リッジレギュライゼーションのメリットを正確に評価するために境界を用いる。
特に、我々の境界は、データ分布の単純な関数である確率変数のフィッシャー情報によって表現され、古典統計学において対応する境界と結びついている。 Empirical Risk Minimization (ERM) algorithms are widely used in a variety of estimation and prediction tasks in signal-processing and machine learning applications. Despite their popularity, a theory that explains their statistical properties in modern regimes where both the number of measurements and the number of unknown parameters is large is only recently emerging. In this paper, we characterize for the first time the fundamental limits on the statistical accuracy of convex ERM for inference in high-dimensional generalized linear models. For a stylized setting with Gaussian features and problem dimensions that grow large at a proportional rate, we start with sharp performance characterizations and then derive tight lower bounds on the estimation and prediction error that hold over a wide class of loss functions and for any value of the regularization parameter. Our precise analysis has several attributes. First, it leads to a recipe for optimally tuning the loss function and the regularization parameter. Second, it allows to precisely quantify the sub-optimality of popular heuristic choices: for instance, we show that optimally-tuned least-squares is (perhaps surprisingly) approximately optimal for standard logistic data, but the sub-optimality gap grows drastically as the signal strength increases. Third, we use the bounds to precisely assess the merits of ridge-regularization as a function of the over-parameterization ratio. Notably, our bounds are expressed in terms of the Fisher Information of random variables that are simple functions of the data distribution, thus making ties to corresponding bounds in classical statistics. | 翻訳日:2022-11-20 20:46:57 公開日:2020-07-05 |
# 深層ニューラルネットワークを用いた画像透かしの自動化とロバスト化 An Automated and Robust Image Watermarking Scheme Based on Deep Neural Networks ( http://arxiv.org/abs/2007.02460v1 ) ライセンス: Link先を確認 | Xin Zhong, Pei-Chi Huang, Spyridon Mastorakis, Frank Y. Shih | (参考訳) デジタル画像透かし(Digital image watermarking)は、透かしを隠蔽画像に埋め込んで抽出する手法である。
近年,画像透かしアルゴリズムを動的に適用するために,深層学習に基づく画像透かし方式が注目されている。
しかし,既存の深層学習に基づく透かし手法は,組込み・抽出アルゴリズムの学習・自動化や,頑健さと盲点の両面を同時に実現するための適合性を十分に適用していない。
本稿では,ディープラーニングニューラルネットワークに基づく頑健で盲目な画像透かし手法を提案する。
ドメイン知識の必要を最小化するために、ディープニューラルネットワークの適合能力を利用して、自動画像透かしアルゴリズムを学習し、一般化する。
ディープラーニングアーキテクチャは、人間の介入やアノテーションを避けるために教師なしの方法で訓練されるイメージ透かしタスクのために特別に設計されている。
フレキシブルなアプリケーションを容易にするために,提案手法の堅牢性は,事前の知識や攻撃例を必要とせずに実現される。
携帯電話カメラによる画像からの透かし抽出の難解な事例は,提案の頑健さと実用性を示す。
実験,評価,適用例により提案方式の優位性が確認された。 Digital image watermarking is the process of embedding and extracting a watermark covertly on a cover-image. To dynamically adapt image watermarking algorithms, deep learning-based image watermarking schemes have attracted increased attention during recent years. However, existing deep learning-based watermarking methods neither fully apply the fitting ability to learn and automate the embedding and extracting algorithms, nor achieve the properties of robustness and blindness simultaneously. In this paper, a robust and blind image watermarking scheme based on deep learning neural networks is proposed. To minimize the requirement of domain knowledge, the fitting ability of deep neural networks is exploited to learn and generalize an automated image watermarking algorithm. A deep learning architecture is specially designed for image watermarking tasks, which will be trained in an unsupervised manner to avoid human intervention and annotation. To facilitate flexible applications, the robustness of the proposed scheme is achieved without requiring any prior knowledge or adversarial examples of possible attacks. A challenging case of watermark extraction from phone camera-captured images demonstrates the robustness and practicality of the proposal. The experiments, evaluation, and application cases confirm the superiority of the proposed scheme. | 翻訳日:2022-11-13 08:46:19 公開日:2020-07-05 |
# 無線通信ネットワーク上での連合学習のための遅延最小化 Delay Minimization for Federated Learning Over Wireless Communication Networks ( http://arxiv.org/abs/2007.03462v1 ) ライセンス: Link先を確認 | Zhaohui Yang and Mingzhe Chen and Walid Saad and Choong Seon Hong and Mohammad Shikh-Bahaei and H. Vincent Poor and Shuguang Cui | (参考訳) 本稿では,無線通信ネットワーク上でのフェデレーション学習(fl)における遅延最小化の問題について検討する。
検討したモデルでは,各ユーザが限られたローカル計算資源を利用して,収集したデータを用いてローカルFLモデルをトレーニングし,訓練したFLモデルパラメータをベースステーション(BS)に送信し,ローカルFLモデルを集約し,集約したFLモデルを全ユーザにブロードキャストする。
flはユーザとbsの間の学習モデル交換を伴うため、計算と通信のレイテンシは必要な学習精度レベルによって決定され、flアルゴリズムの収束率に影響する。
この共同学習・コミュニケーション問題は遅延最小化問題として定式化され、目的関数が学習精度の凸関数であることが証明される。
次に,最適解を得るために,二分探索アルゴリズムを提案する。
シミュレーションの結果,提案アルゴリズムは従来のFL法と比較して最大27.3%遅延を低減できることがわかった。 In this paper, the problem of delay minimization for federated learning (FL) over wireless communication networks is investigated. In the considered model, each user exploits limited local computational resources to train a local FL model with its collected data and, then, sends the trained FL model parameters to a base station (BS) which aggregates the local FL models and broadcasts the aggregated FL model back to all the users. Since FL involves learning model exchanges between the users and the BS, both computation and communication latencies are determined by the required learning accuracy level, which affects the convergence rate of the FL algorithm. This joint learning and communication problem is formulated as a delay minimization problem, where it is proved that the objective function is a convex function of the learning accuracy. Then, a bisection search algorithm is proposed to obtain the optimal solution. Simulation results show that the proposed algorithm can reduce delay by up to 27.3% compared to conventional FL methods. | 翻訳日:2022-11-13 08:46:00 公開日:2020-07-05 |
# 離散正弦波変換のための整数近似法 An Integer Approximation Method for Discrete Sinusoidal Transforms ( http://arxiv.org/abs/2007.02232v1 ) ライセンス: Link先を確認 | R. J. Cintra | (参考訳) 近似法は離散変換の評価方法として検討されてきた。
本研究では, 離散フーリエ, ハートレー, コサイン変換 (DFT, DHT, DCT) に対して, 単純な二進有理近似法に基づいて, 整数変換のクラスを提案し, 解析する。
導入された手法は一般にいくつかのブロック長に適用できるが、既存の手法は通常特定の変換サイズ専用である。
提案した近似変換は乗法的複雑性が低く、直交性は行列極分解によって達成できる。
得られた変換は,文献のアーカイブ手法と競合することを示す。
DFT, DHT, DCTに対する新しい8点2乗波近似変換も提案手法の特別な場合として導入されている。 Approximate methods have been considered as a means to the evaluation of discrete transforms. In this work, we propose and analyze a class of integer transforms for the discrete Fourier, Hartley, and cosine transforms (DFT, DHT, and DCT), based on simple dyadic rational approximation methods. The introduced method is general, applicable to several block-lengths, whereas existing approaches are usually dedicated to specific transform sizes. The suggested approximate transforms enjoy low multiplicative complexity and the orthogonality property is achievable via matrix polar decomposition. We show that the obtained transforms are competitive with archived methods in literature. New 8-point square wave approximate transforms for the DFT, DHT, and DCT are also introduced as particular cases of the introduced methodology. | 翻訳日:2022-11-13 08:45:44 公開日:2020-07-05 |
# フェデレート学習のためのマルチタスク帯域ベースクライアントスケジューリング Multi-Armed Bandit Based Client Scheduling for Federated Learning ( http://arxiv.org/abs/2007.02315v1 ) ライセンス: Link先を確認 | Wenchao Xia, Tony Q. S. Quek, Kun Guo, Wanli Wen, Howard H. Yang, Hongbo Zhu | (参考訳) 分散クライアントの計算能力とローカルデータを活用することで、フェデレーション学習(fl)は、通信オーバーヘッドの削減やデータのプライバシの保護といったユビキタスな特性を特徴とする。
flの各通信ラウンドにおいて、クライアントは自身のデータに基づいてローカルモデルを更新し、ローカルアップデートを無線チャネル経由でアップロードする。
しかし、数百から数千回の通信ラウンドによって引き起こされるレイテンシは、flのボトルネックである。
トレーニングの遅延を最小限に抑えるため、この研究は、クライアントの無線チャネル状態情報や統計的特性を知ることなく、FLにおけるオンラインクライアントスケジューリング(CS)のためのマルチアームバンディットベースのフレームワークを提供する。
まず、クライアントのローカルデータセットが独立かつ同一分散(i.i.d.)されバランスをとる理想的なシナリオのために、upper confidence bound policy(cs-ucb)に基づくcsアルゴリズムを提案する。
提案したCS-UCBアルゴリズムの期待された性能後悔の上限は,通信ラウンドで対数的に増大することを示すものである。
次に,ローカルデータセットの非理想的かつ不均衡な特性とクライアントの可用性に対処するために,UCBポリシと仮想キュー技術(CS-UCB-Q)に基づくCSアルゴリズムを提案する。
上界も導出され、提案したCS-UCB-Qアルゴリズムの期待性能が一定条件下での通信ラウンドよりも線形に成長できることが示されている。
また,flトレーニングの収束性能も解析した。
最後に,提案アルゴリズムの有効性をシミュレーションにより検証した。 By exploiting the computing power and local data of distributed clients, federated learning (FL) features ubiquitous properties such as reduction of communication overhead and preserving data privacy. In each communication round of FL, the clients update local models based on their own data and upload their local updates via wireless channels. However, latency caused by hundreds to thousands of communication rounds remains a bottleneck in FL. To minimize the training latency, this work provides a multi-armed bandit-based framework for online client scheduling (CS) in FL without knowing wireless channel state information and statistical characteristics of clients. Firstly, we propose a CS algorithm based on the upper confidence bound policy (CS-UCB) for ideal scenarios where local datasets of clients are independent and identically distributed (i.i.d.) and balanced. An upper bound of the expected performance regret of the proposed CS-UCB algorithm is provided, which indicates that the regret grows logarithmically over communication rounds. Then, to address non-ideal scenarios with non-i.i.d. and unbalanced properties of local datasets and varying availability of clients, we further propose a CS algorithm based on the UCB policy and virtual queue technique (CS-UCB-Q). An upper bound is also derived, which shows that the expected performance regret of the proposed CS-UCB-Q algorithm can have a sub-linear growth over communication rounds under certain conditions. Besides, the convergence performance of FL training is also analyzed. Finally, simulation results validate the efficiency of the proposed algorithms. | 翻訳日:2022-11-13 08:44:42 公開日:2020-07-05 |
# 航空・衛星画像における領域分割のための弱補正領域適応 Weakly Supervised Domain Adaptation for Built-up Region Segmentation in Aerial and Satellite Imagery ( http://arxiv.org/abs/2007.02277v1 ) ライセンス: Link先を確認 | Javed Iqbal and Mohsen Ali | (参考訳) 本稿では,衛星と空中画像の課題に対処するための新しい領域適応アルゴリズムを提案する。
環境に対する人間の影響,公共政策の影響,一般都市人口分析を理解する上で,構築された地域推定は重要な要素である。
航空画像と衛星画像の多様性と、この多様性をカバーするラベル付きデータの欠如により、機械学習アルゴリズムはそのようなタスク、特に複数の領域にまたがる一般化が困難になる。
一方,強い空間的文脈と構造が欠如していることから,既存の教師なし領域適応法を適用すれば,サブ最適適応が可能となる。
既存の領域適応手法の限界を徹底的に研究し、対象領域に画像レベルラベルが利用できると仮定して、弱制御された適応戦略を提案する。
具体的には,組込み領域分割ネットワーク (エンコーダデコーダとして) の設計を行い,適応のための画像分類ヘッドを追加した。
このシステムは、高解像度(HR)から超高解像度(VHR)まで、複数の衛星・航空画像データセットの視覚的差異に対処することができる。
現実的で挑戦的なhrデータセットは、73.4平方キロメートルのルワンダを手でタグ付けし、異なる地形にまたがる様々な構築構造をキャプチャすることで作成される。
開発されたデータセットは、既存のデータセットと比較して空間的に豊富で、森林や砂漠、泥の家、スズ、色のついた屋上など、さまざまな組立シナリオをカバーする。
広範な実験は、単一ソースドメインからターゲットドメインを分割するために適応することで行われる。
既存の最先端の手法に比べて、IoUの11.6%-52%の高利得を実現しています。 This paper proposes a novel domain adaptation algorithm to handle the challenges posed by the satellite and aerial imagery, and demonstrates its effectiveness on the built-up region segmentation problem. Built-up area estimation is an important component in understanding the human impact on the environment, the effect of public policy, and general urban population analysis. The diverse nature of aerial and satellite imagery and lack of labeled data covering this diversity makes machine learning algorithms difficult to generalize for such tasks, especially across multiple domains. On the other hand, due to the lack of strong spatial context and structure, in comparison to the ground imagery, the application of existing unsupervised domain adaptation methods results in the sub-optimal adaptation. We thoroughly study the limitations of existing domain adaptation methods and propose a weakly-supervised adaptation strategy where we assume image-level labels are available for the target domain. More specifically, we design a built-up area segmentation network (as encoder-decoder), with an image classification head added to guide the adaptation. The devised system is able to address the problem of visual differences in multiple satellite and aerial imagery datasets, ranging from high resolution (HR) to very high resolution (VHR). A realistic and challenging HR dataset is created by hand-tagging the 73.4 sq-km of Rwanda, capturing a variety of build-up structures over different terrain. The developed dataset is spatially rich compared to existing datasets and covers diverse built-up scenarios including built-up areas in forests and deserts, mud houses, tin, and colored rooftops. Extensive experiments are performed by adapting from the single-source domain, to segment out the target domain. We achieve high gains ranging 11.6%-52% in IoU over the existing state-of-the-art methods. | 翻訳日:2022-11-13 08:40:46 公開日:2020-07-05 |
# 放射状断面積画像:クラッタ型3次元形状記述子 Radial Intersection Count Image: a Clutter Resistant 3D Shape Descriptor ( http://arxiv.org/abs/2007.02306v1 ) ライセンス: Link先を確認 | Bart Iver van Blokland and Theoharis Theoharis | (参考訳) 乱れシーンの新規な形状記述子であるラジアル・インターセクション・カウンタ・イメージ(RICI)を提示し、乱れシーンとより顕著な乱れシーンの両方において、古典的なスピンイメージ(SI)と3次元形状コンテキスト(3DSC)を大幅に上回ることを示す。
また、計算と比較も高速である。
RICIのクラッタ抵抗は主に、クラッタをかなり無視できる新しい距離関数の設計によるものである。
SI と 3DSC はどちらも点サンプルをカウントするが、RICI はメッシュ表面との交叉数を用いており、ノイズフリーである。
効率的なRICI構築のために, 汎用アルゴリズムを開発した。
これには、効率的な円三角交叉アルゴリズムと、点をsiのような座標(\alpha$,$\beta$)に投影するアルゴリズムが含まれる。
clutterboxの実験は、clutterに対するディスクリプタの応答を評価するより良い方法としても紹介されている。
このフレームワークでSI, 3DSC, RICIを評価し, RICIの利点を明らかに示す。 A novel shape descriptor for cluttered scenes is presented, the Radial Intersection Count Image (RICI), and is shown to significantly outperform the classic Spin Image (SI) and 3D Shape Context (3DSC) in both uncluttered and, more significantly, cluttered scenes. It is also faster to compute and compare. The clutter resistance of the RICI is mainly due to the design of a novel distance function, capable of disregarding clutter to a great extent. As opposed to the SI and 3DSC, which both count point samples, the RICI uses intersection counts with the mesh surface, and is therefore noise-free. For efficient RICI construction, novel algorithms of general interest were developed. These include an efficient circle-triangle intersection algorithm and an algorithm for projecting a point into SI-like ($\alpha$, $\beta$) coordinates. The 'clutterbox experiment' is also introduced as a better way of evaluating descriptors' response to clutter. The SI, 3DSC, and RICI are evaluated in this framework and the advantage of the RICI is clearly demonstrated. | 翻訳日:2022-11-13 08:40:16 公開日:2020-07-05 |
# 膝関節鏡視下関節分節の正規化に対する自己監督深度推定法 Self-supervised Depth Estimation to Regularise Semantic Segmentation in Knee Arthroscopy ( http://arxiv.org/abs/2007.02361v1 ) ライセンス: Link先を確認 | Fengbei Liu, Yaqub Jonmohamadi, Gabriel Maicas, Ajay K. Pandey, Gustavo Carneiro | (参考訳) 術中における膝関節構造の自動的セマンティックセグメンテーションは, 膝関節鏡視下手術を支援する。
しかし、画像条件の低さ(例えば、低テクスチャ、過剰露出など)のため、自動セマンティックセグメンテーションは難しいシナリオであり、このトピックに関する文献の不足を正当化する。
本稿では,膝関節鏡におけるセマンティクスセグメンテーションの訓練を正すための,新しい自己教師付き単眼深度推定法を提案する。
さらに深度推定の規則化を図るため,日常的な物体のステレオ関節鏡で捉えたクリーンなトレーニング画像(画像条件が悪く,テクスチャ情報も豊富ではない)を用いてモデルを事前訓練する手法を提案する。
このようなモデルを用いて, 膝関節鏡視像を用いて, セマンティクスセグメンテーションと自己教師付き単眼深度の両方を再現した。
セマンティクスセグメンテーションアノテーションを用いたカダビリック膝関節鏡,2000対のカダビリック膝関節鏡,および2150対のステレオ画像対を含む3868点の鏡視画像を含むデータセットを用いて,自己教師付き奥行き推定により正規化したセマンティクスセグメンテーションが,セマンティクスセグメンテーションアノテーションをモデルとした最先端セマンティクスセグメンテーションアプローチよりも正確なセグメンテーションを生成することを示す。 Intra-operative automatic semantic segmentation of knee joint structures can assist surgeons during knee arthroscopy in terms of situational awareness. However, due to poor imaging conditions (e.g., low texture, overexposure, etc.), automatic semantic segmentation is a challenging scenario, which justifies the scarce literature on this topic. In this paper, we propose a novel self-supervised monocular depth estimation to regularise the training of the semantic segmentation in knee arthroscopy. To further regularise the depth estimation, we propose the use of clean training images captured by the stereo arthroscope of routine objects (presenting none of the poor imaging conditions and with rich texture information) to pre-train the model. We fine-tune such model to produce both the semantic segmentation and self-supervised monocular depth using stereo arthroscopic images taken from inside the knee. Using a data set containing 3868 arthroscopic images captured during cadaveric knee arthroscopy with semantic segmentation annotations, 2000 stereo image pairs of cadaveric knee arthroscopy, and 2150 stereo image pairs of routine objects, we show that our semantic segmentation regularised by self-supervised depth estimation produces a more accurate segmentation than a state-of-the-art semantic segmentation approach modeled exclusively with semantic segmentation annotation. | 翻訳日:2022-11-13 08:39:55 公開日:2020-07-05 |
# GanglionNet:NABLA-Nネットワークによるガングリオン細胞の密度と分布の客観的評価 GanglionNet: Objectively Assess the Density and Distribution of Ganglion Cells With NABLA-N Network ( http://arxiv.org/abs/2007.02367v1 ) ライセンス: Link先を確認 | Md Zahangir Alom (Member, IEEE), Raj P. Kapur, TJ Browen, and Vijayan K. Asari (Senior Member, IEEE) | (参考訳) ヒルシュスプルングス病(Hirschsprungs disease、HD)は、小児胃腸科、外科、放射線学、病理学などの複数の専門医が診断し、管理する出生欠陥である。
HDは腹腔内ガングリオン細胞が欠如しており、隣接する上流腸ではガングリオン細胞数が徐々に正規化され、移行帯(transition zone, TZ)と呼ばれる。
異常腸を除去するための決定的な外科的治療には、tzから神経節細胞密度の正確な評価が必要である。
本稿では、新しいnabla_n network based deep learning (dl)アプローチであるganglionnetを用いて、免疫染色されたガングリオン細胞を検出・計数する自動化手法を提案する。
形態画像解析法は、細胞数をカウントする領域の精製に応用され、予測されたマスクからガングリア領域(ガングリオン細胞群)を定義する。
提案モデルは,専門家病理学者による単一点注記サンプルを用いて訓練される。
ガングリオンネットは2560x1920ピクセルの完全に新しいHPF(High Power Field)画像でテストされ、その出力は専門家の病理学者による手動計数結果と比較される。
提案手法はガングリオンネットの強靭性を示す専門病理医の計数と比較すると, 神経節細胞のロバスト97.49%の検出精度を示す。
提案したDLを用いたガングリオン細胞検出法は,HD患者のTZ診断を簡素化し,標準化する。 Hirschsprungs disease (HD) is a birth defect which is diagnosed and managed by multiple medical specialties such as pediatric gastroenterology, surgery, radiology, and pathology. HD is characterized by absence of ganglion cells in the distal intestinal tract with a gradual normalization of ganglion cell numbers in adjacent upstream bowel, termed as the transition zone (TZ). Definitive surgical management to remove the abnormal bowel requires accurate assessment of ganglion cell density in histological sections from the TZ, which is difficult, time-consuming and prone to operator error. We present an automated method to detect and count immunostained ganglion cells using a new NABLA_N network based deep learning (DL) approach, called GanglionNet. The morphological image analysis methods are applied for refinement of the regions for counting of the cells and define ganglia regions (a set of ganglion cells) from the predicted masks. The proposed model is trained with single point annotated samples by the expert pathologist. The GanglionNet is tested on ten completely new High Power Field (HPF) images with dimension of 2560x1920 pixels and the outputs are compared against the manual counting results by the expert pathologist. The proposed method shows a robust 97.49% detection accuracy for ganglion cells, when compared to counts by the expert pathologist, which demonstrates the robustness of GanglionNet. The proposed DL based ganglion cell detection and counting method will simplify and standardize TZ diagnosis for HD patients. | 翻訳日:2022-11-13 08:39:25 公開日:2020-07-05 |
# 分離した機能アグリゲーションによる詳細保存ポイントクラウド完成 Detail Preserved Point Cloud Completion via Separated Feature Aggregation ( http://arxiv.org/abs/2007.02374v1 ) ライセンス: Link先を確認 | Wenxiao Zhang, Qingan Yan and Chunxia Xiao | (参考訳) ポイントクラウド形状の完成は、3Dビジョンとロボティクスにおいて難しい問題である。
既存の学習ベースのフレームワークは、エンコーダデコーダアーキテクチャを利用して、高度にエンコードされたグローバルな特徴ベクトルから完全な形状を復元する。
グローバル機能は3dオブジェクトの全体形状をほぼ表わすことができるが、完了プロセス中に形状の詳細を失うことになる。
本研究では,グローバルな機能を用いて全表面を復元する代わりに,マルチレベル機能の機能を探索し,既知の部分と欠落部分を別々に表現するために異なる機能を集約する。
我々は,2種類の特徴を表現し,それらの組み合わせから座標を再構成するために,global \& local feature aggregation(glfa)とsustains feature aggregation(rfa)という2つの異なる特徴集約戦略を提案する。
さらに,生成した点雲が一様でない分布や異常値から遠ざかるのを防ぐために,改良コンポーネントを設計した。
ShapeNetデータセットで大規模な実験が行われた。
定性的および定量的評価により,提案するネットワークは,特にディテール保存における最先端技術手法よりも優れていた。 Point cloud shape completion is a challenging problem in 3D vision and robotics. Existing learning-based frameworks leverage encoder-decoder architectures to recover the complete shape from a highly encoded global feature vector. Though the global feature can approximately represent the overall shape of 3D objects, it would lead to the loss of shape details during the completion process. In this work, instead of using a global feature to recover the whole complete surface, we explore the functionality of multi-level features and aggregate different features to represent the known part and the missing part separately. We propose two different feature aggregation strategies, named global \& local feature aggregation(GLFA) and residual feature aggregation(RFA), to express the two kinds of features and reconstruct coordinates from their combination. In addition, we also design a refinement component to prevent the generated point cloud from non-uniform distribution and outliers. Extensive experiments have been conducted on the ShapeNet dataset. Qualitative and quantitative evaluations demonstrate that our proposed network outperforms current state-of-the art methods especially on detail preservation. | 翻訳日:2022-11-13 08:38:56 公開日:2020-07-05 |
# カプセルニューラルネットワークによる無レンズ顕微鏡画像の結核予測 Using Capsule Neural Network to predict Tuberculosis in lens-free microscopic images ( http://arxiv.org/abs/2007.02457v1 ) ライセンス: Link先を確認 | Dennis N\'u\~nez-Fern\'andez, Lamberto Ballan, Gabriel Jim\'enez-Avalos, Jorge Coronel, Mirko Zimic | (参考訳) Mycobacterium tuberculosis(マイコバクテリウム結核)という細菌によって引き起こされる結核は、世界中で最も深刻な公衆衛生問題の一つである。
本研究は,MODS法と無レンズ顕微鏡を用いて結核の予測を容易かつ自動化することを目的としている。
収集したデータセットにCapsNetアーキテクチャを使用し、従来のCNNアーキテクチャよりも精度が高いことを示す。 Tuberculosis, caused by a bacteria called Mycobacterium tuberculosis, is one of the most serious public health problems worldwide. This work seeks to facilitate and automate the prediction of tuberculosis by the MODS method and using lens-free microscopy, which is easy to use by untrained personnel. We employ the CapsNet architecture in our collected dataset and show that it has a better accuracy than traditional CNN architectures. | 翻訳日:2022-11-13 08:38:37 公開日:2020-07-05 |
# 医用画像診断のための協調的教師なし領域適応 Collaborative Unsupervised Domain Adaptation for Medical Image Diagnosis ( http://arxiv.org/abs/2007.07222v1 ) ライセンス: Link先を確認 | Yifan Zhang, Ying Wei, Qingyao Wu, Peilin Zhao, Shuaicheng Niu, Junzhou Huang, Mingkui Tan | (参考訳) 深層学習に基づく画像診断は臨床医学において大きな可能性を秘めている。
しかし、現実のアプリケーションでは、しばしば2つの大きな困難に苦しむ。
1) 医療画像よりもアノテーションコストがかかるため,モデルトレーニングには限定ラベルしか使用できない。
2 ラベル画像は、疾患の診断上の困難さから、相当なラベルノイズ(例えば、ラベルの誤記)を含むことがある。
これらの問題に対処するために,我々は,対象タスクの学習を支援するために,関連ドメインからの豊富なラベル付きデータを活用する。
クリーンなラベル付きデータに頼り、サンプルを仮定するほとんどのUDA手法とは違って、トランスファービリティに適応し、ラベルノイズを協調的に克服するコラボレーティブ非教師なしドメイン適応アルゴリズムを革新的に提案する。
提案手法の一般化性能を理論的に解析し,医用画像と一般画像の両方で実験的に評価する。
実験結果から,提案手法の優位性と一般化を実証した。 Deep learning based medical image diagnosis has shown great potential in clinical medicine. However, it often suffers two major difficulties in real-world applications: 1) only limited labels are available for model training, due to expensive annotation costs over medical images; 2) labeled images may contain considerable label noise (e.g., mislabeling labels) due to diagnostic difficulties of diseases. To address these, we seek to exploit rich labeled data from relevant domains to help the learning in the target task via {Unsupervised Domain Adaptation} (UDA). Unlike most UDA methods that rely on clean labeled data or assume samples are equally transferable, we innovatively propose a Collaborative Unsupervised Domain Adaptation algorithm, which conducts transferability-aware adaptation and conquers label noise in a collaborative way. We theoretically analyze the generalization performance of the proposed method, and also empirically evaluate it on both medical and general images. Promising experimental results demonstrate the superiority and generalization of the proposed method. | 翻訳日:2022-11-13 08:38:30 公開日:2020-07-05 |
# フレアリングストーム警告マシンとしての機械学習:2017年9月の太陽フレアリングストームの警告マシンは可能か? Machine learning as a flaring storm warning machine: Was a warning machine for the September 2017 solar flaring storm possible? ( http://arxiv.org/abs/2007.02425v1 ) ライセンス: Link先を確認 | Federico Benvenuto, Cristina Campi, Anna Maria Massone, Michele Piana | (参考訳) 機械学習は現在、フレア予測と監視技術に選択される方法論であり、伝統的なバージョンと深層バージョンの両方において、宇宙天気のこの領域で予測に最も頻繁に使われているものとなっている。
しかし、これまでのところ機械学習は嵐を発生させるための警告システムを実現できていないため、過去10年間の科学文献から、太陽フレアの激しい予測におけるその性能は最適ではないことが示唆されている。
太陽嵐の予報に関する主な困難は、おそらく2つである。
第一に、ほとんどの方法は確率的予測を提供し、拡張時間範囲に沿ってフレアの連続的な発生について二項のye/noの表示を送らないよう考えられている。
第2に、フレアリング・ストームは、宇宙ミッションのデータベースにほとんど記録されていない高エネルギー事象の爆発によって特徴づけられ、結果として、監督された手法は、非常に不均衡な歴史的セットで訓練されるため、特に激しいフレアの予測には効果がない。
しかし,本研究では,教師付き機械学習を,過去10年間で最も暴力的で予期せぬ現象をタイムリーに警告する手段として活用し,嵐の全期間において磁気リコネクションによって毎日放出されるエネルギー予算をある程度正確に予測することを可能にする。
さらに,sparsity-enhancing machine learningと特徴ランキングの組み合わせにより,予測過程においてエネルギーが活発な領域特性として果たした役割を識別できることを示す。 Machine learning is nowadays the methodology of choice for flare forecasting and supervised techniques, in both their traditional and deep versions, are becoming the most frequently used ones for prediction in this area of space weather. Yet, machine learning has not been able so far to realize an operating warning system for flaring storms and the scientific literature of the last decade suggests that its performances in the prediction of intense solar flares are not optimal. The main difficulties related to forecasting solar flaring storms are probably two. First, most methods are conceived to provide probabilistic predictions and not to send binary yes/no indications on the consecutive occurrence of flares along an extended time range. Second, flaring storms are typically characterized by the explosion of high energy events, which are seldom recorded in the databases of space missions; as a consequence, supervised methods are trained on very imbalanced historical sets, which makes them particularly ineffective for the forecasting of intense flares. Yet, in this study we show that supervised machine learning could be utilized in a way to send timely warnings about the most violent and most unexpected flaring event of the last decade, and even to predict with some accuracy the energy budget daily released by magnetic reconnection during the whole time course of the storm. Further, we show that the combination of sparsity-enhancing machine learning and feature ranking could allow the identification of the prominent role that energy played as an Active Region property in the forecasting process. | 翻訳日:2022-11-13 08:38:00 公開日:2020-07-05 |
# 流体画像登録による解剖学的データ増大 Anatomical Data Augmentation via Fluid-based Image Registration ( http://arxiv.org/abs/2007.02447v1 ) ライセンス: Link先を確認 | Zhengyang Shen, Zhenlin Xu, Sahin Olut, Marc Niethammer | (参考訳) 医用画像解析のための流体画像強調法を提案する。
既存の手法とは対照的に,本フレームワークは,与えられたサンプルの基盤となる測地線部分空間からの補間により,解剖学的に有意な画像を生成する。
私たちのアプローチは3つのステップからなる。
1) 原画像と対象画像の集合が与えられた場合、大変形拡散型距離マッピング(LDDMM)モデルを用いて測地部分空間を構築する。
2) 得られた測地線部分空間から変換をサンプリングする。
3)補間により変形画像とセグメンテーションを得る。
脳(LPBA)と膝(OAI)のデータを用いた実験では,2つの課題に対するアプローチのパフォーマンスが示されている。
1) 画像分割のための訓練及び試験中のデータ拡張
2)単一アトラス画像セグメンテーションのためのワンショット学習
我々は,本手法が解剖学的に意味のあるデータを生成し,これらのタスクの性能を競合するアプローチよりも向上することを示した。
コードはhttps://github.com/uncbiag/easyregで入手できる。 We introduce a fluid-based image augmentation method for medical image analysis. In contrast to existing methods, our framework generates anatomically meaningful images via interpolation from the geodesic subspace underlying given samples. Our approach consists of three steps: 1) given a source image and a set of target images, we construct a geodesic subspace using the Large Deformation Diffeomorphic Metric Mapping (LDDMM) model; 2) we sample transformations from the resulting geodesic subspace; 3) we obtain deformed images and segmentations via interpolation. Experiments on brain (LPBA) and knee (OAI) data illustrate the performance of our approach on two tasks: 1) data augmentation during training and testing for image segmentation; 2) one-shot learning for single atlas image segmentation. We demonstrate that our approach generates anatomically meaningful data and improves performance on these tasks over competing approaches. Code is available at https://github.com/uncbiag/easyreg. | 翻訳日:2022-11-13 08:32:20 公開日:2020-07-05 |
# Starfish: ユニバーサル前処理とテキスト組み込みプログラミングのためのプロトタイプ Starfish: A Prototype for Universal Preprocessing and Text-Embedded Programming ( http://arxiv.org/abs/2007.02366v1 ) ライセンス: Link先を確認 | Vlado Keselj | (参考訳) 本稿では,汎用テキストプリプロセッシングとテキスト組込みプログラミング(PTEP)の新たな概念を提案する。
プリプロセッシングとテキスト埋め込みプログラミングは、断片化され、相互に分離された方法で、プログラミング言語やフレームワークで広く使われている。
PTEPのアイデアは、 \TeX\型付けシステムの実装で見ることができる。それらはPHPや同様のWeb言語で顕著であり、最終的にはJupyterのデータサイエンスフレームワークで使用される。
本稿では,本研究の分野をより統一的な枠組みで研究し,ptepの新たな原則である普遍性,更新および置換モード,フレキシブル性,構成可能性,透明性を満たす実装システムstarfishについて述べる。
我々は、perlでユニバーサルプリプロセッシングとテキスト埋め込みプログラミングを実装するオープンソースシステムであるstarfishの運用モデルと設計について述べる。
システムは透過的であり、設計により他のプログラミング言語にも直接実装できる。 We present a novel concept of universal text preprocessing and text-embedded programming (PTEP). Preprocessing and text-embedded programming has been widely used in programming languages and frameworks in a fragmented and mutually isolated way. The PTEP ideas can be found in the implementation of the \TeX\ typesetting system; they are prominent in PHP and similar web languages, and finally they are used in the Jupyter data science framework. This paper presents this area of research and related work in a more unified framework, and we describe the implemented system Starfish that satisfies the following novel principles of PTEP: universality, update and replace modes, flexiblity, configurability, and transparency. We describe the operating model and design of Starfish, which is an open-source system implementing universal preprocessing and text-embedded programming in Perl. The system is transparent and its design allows direct implementation in other programming languages as well. | 翻訳日:2022-11-13 08:31:17 公開日:2020-07-05 |
# 北米における新型コロナウイルス(covid-19)関連ツイートの探索的分析 Exploratory Analysis of COVID-19 Related Tweets in North America to Inform Public Health Institutes ( http://arxiv.org/abs/2007.02452v1 ) ライセンス: Link先を確認 | Hyeju Jang, Emily Rempel, Giuseppe Carenini, Naveed Janjua | (参考訳) ソーシャルメディアは、社会問題に対する人々の反応を学べる豊富な情報源です。
新型コロナウイルス(covid-19)は人々の生活に大きな影響を与えているため、公衆衛生の介入に対する人々の反応を捉え、その懸念を理解することが不可欠である。
本稿では,北米における新型コロナウイルスに対する人々の反応と懸念について,特にカナダを中心に調査することを目的とする。
トピックモデリングとアスペクトベースの感情分析を用いて、COVID-19関連ツイートを分析し、その結果を公衆衛生の専門家に解釈する。
新型コロナウイルス(covid-19)に対する公衆衛生介入の実施時期と議論されるトピックのタイムラインを比較した。
また、新型コロナウイルス(covid-19)関連の問題についての人々の感情についても検討する。
我々は,新たな介入政策を策定するにあたって,その成果が公衆衛生機関にどのように役立つかについて議論する。
我々の研究は、自然言語処理(NLP)技術が、ドメインの専門家による公衆衛生問題にどのように適用できるかを示している。 Social media is a rich source where we can learn about people's reactions to social issues. As COVID-19 has significantly impacted on people's lives, it is essential to capture how people react to public health interventions and understand their concerns. In this paper, we aim to investigate people's reactions and concerns about COVID-19 in North America, especially focusing on Canada. We analyze COVID-19 related tweets using topic modeling and aspect-based sentiment analysis, and interpret the results with public health experts. We compare timeline of topics discussed with timing of implementation of public health interventions for COVID-19. We also examine people's sentiment about COVID-19 related issues. We discuss how the results can be helpful for public health agencies when designing a policy for new interventions. Our work shows how Natural Language Processing (NLP) techniques could be applied to public health questions with domain expert involvement. | 翻訳日:2022-11-13 08:30:18 公開日:2020-07-05 |
# 最大微分エントロピーを用いたブラインド逆ガンマ補正 Blind Inverse Gamma Correction with Maximized Differential Entropy ( http://arxiv.org/abs/2007.02246v1 ) ライセンス: Link先を確認 | Yong Lee, Shaohua Zhang, Miao Li, Xiaoyu He | (参考訳) 不要な非線形ガンマ歪みは、画像取得、処理、および/または表示の過程において、非常に多様な画像にしばしば発生する。
ガンマ歪みは、キャプチャ設定の変更と輝度の変化によってしばしば変化する。
所定の画像から適切な復元ガンマ値を自動的に決定するブラインド逆ガンマ補正は、歪みを軽減するために最重要となる。
ブラインド逆ガンマ補正では、最大微分エントロピーモデルから直接適応ガンマ変換法(AGT-ME)を提案する。
対応する最適化は数学的な簡潔な閉形式解を持ち、AGT-MEの効率的な実装と正確なガンマ復元をもたらす。
ヒトの眼の知覚感度が非線形であることを考えると,視力向上のための改良型AGT-ME-VISUALも提案されている。
可変データセットを用いて、AGT-MEは幅広いガンマ歪み(0.1から3.0)を正確に推定することができ、最先端の手法よりも優れている。
提案したAGT-MEとAGT-ME-VISUALは, 自動ガンマ調整, 天然/医用画像コントラスト強調, およびFPR画像復元の3つの典型的な応用に適用された。
さらに、AGT-ME/AGT-ME-VISUALは汎用的で、マスク画像、マルチチャンネル(カラーまたはスペクトル)画像、またはマルチフレームビデオにシームレスに拡張でき、任意のチューニングパラメータが不要である。
さらに、対応するpythonコード(https://github.com/yongleex/agt-me)も興味のあるユーザに提供されている。 Unwanted nonlinear gamma distortion frequently occurs in a great diversity of images during the procedures of image acquisition, processing, and/or display. And the gamma distortion often varies with capture setup change and luminance variation. Blind inverse gamma correction, which automatically determines a proper restoration gamma value from a given image, is of paramount importance to attenuate the distortion. For blind inverse gamma correction, an adaptive gamma transformation method (AGT-ME) is proposed directly from a maximized differential entropy model. And the corresponding optimization has a mathematical concise closed-form solution, resulting in efficient implementation and accurate gamma restoration of AGT-ME. Considering the human eye has a non-linear perception sensitivity, a modified version AGT-ME-VISUAL is also proposed to achieve better visual performance. Tested on variable datasets, AGT-ME could obtain an accurate estimation of a large range of gamma distortion (0.1 to 3.0), outperforming the state-of-the-art methods. Besides, the proposed AGT-ME and AGT-ME-VISUAL were applied to three typical applications, including automatic gamma adjustment, natural/medical image contrast enhancement, and fringe projection profilometry image restoration. Furthermore, the AGT-ME/ AGT-ME-VISUAL is general and can be seamlessly extended to the masked image, multi-channel (color or spectrum) image, or multi-frame video, and free of the arbitrary tuning parameter. Besides, the corresponding Python code (https://github.com/yongleex/AGT-ME) is also provided for interested users. | 翻訳日:2022-11-13 08:30:03 公開日:2020-07-05 |
# コンテンツのオリジナルアスペクト比を保存する多重パッチを用いた画像美学予測 Image Aesthetics Prediction Using Multiple Patches Preserving the Original Aspect Ratio of Contents ( http://arxiv.org/abs/2007.02268v1 ) ライセンス: Link先を確認 | Lijie Wang, Xueting Wang and Toshihiko Yamasaki | (参考訳) ソーシャルネットワークサービスの普及により、印象的な画像の選択、編集、生成に対する需要が高まっている。
この傾向は、自動画像処理の補完機能として、画像美学を評価することの重要性を高める。
画像中のコンテンツの元のアスペクト比を維持して画像美観スコアを予測するマルチパッチ方式mpa-netを提案する。
25万枚の画像を含む大規模AVAデータセットを用いた実験により, 同一間隔のマルチパッチ選択手法の有効性が, シングルパッチ予測やランダムパッチ選択手法と比較して有意であることがわかった。
このデータセットでは、MPA-Netはベースライン手法とみなされたニューラルイメージアセスメントアルゴリズムよりも優れている。
特に、MPA-Netは美学のスコアの0.073 (11.5%)高い線形相関係数 (LCC) と、スペアマンのランク相関係数 (SRCC) の0.088 (14.4%) を得る。
MPA-Net は平均平方誤差 (MSE) を 0.0115 (4.18%) 削減し、最先端の連続美学スコア予測手法に匹敵する LCC と SRCC の結果を得る。
最も顕著なのは、MPA-Netは、特にアスペクト比が1.0から遠くない画像に対して、MSEがかなり低いことであり、MPA-Netは幅広い画像アスペクト比に有用であることを示している。
MPA-Netは画像のみを使用し、トレーニングや予測の段階で外部情報を必要としない。
したがって、MPA-Netは、他の人間の主観性予測のような美学スコア予測以外の応用には大きな可能性を秘めている。 The spread of social networking services has created an increasing demand for selecting, editing, and generating impressive images. This trend increases the importance of evaluating image aesthetics as a complementary function of automatic image processing. We propose a multi-patch method, named MPA-Net (Multi-Patch Aggregation Network), to predict image aesthetics scores by maintaining the original aspect ratios of contents in the images. Through an experiment involving the large-scale AVA dataset, which contains 250,000 images, we show that the effectiveness of the equal-interval multi-patch selection approach for aesthetics score prediction is significant compared to the single-patch prediction and random patch selection approaches. For this dataset, MPA-Net outperforms the neural image assessment algorithm, which was regarded as a baseline method. In particular, MPA-Net yields a 0.073 (11.5%) higher linear correlation coefficient (LCC) of aesthetics scores and a 0.088 (14.4%) higher Spearman's rank correlation coefficient (SRCC). MPA-Net also reduces the mean square error (MSE) by 0.0115 (4.18%) and achieves results for the LCC and SRCC that are comparable to those of the state-of-the-art continuous aesthetics score prediction methods. Most notably, MPA-Net yields a significant lower MSE especially for images with aspect ratios far from 1.0, indicating that MPA-Net is useful for a wide range of image aspect ratios. MPA-Net uses only images and does not require external information during the training nor prediction stages. Therefore, MPA-Net has great potential for applications aside from aesthetics score prediction such as other human subjectivity prediction. | 翻訳日:2022-11-13 08:29:06 公開日:2020-07-05 |
# セマンティック事前を持つマルチビューステレオ Multi view stereo with semantic priors ( http://arxiv.org/abs/2007.02295v1 ) ライセンス: Link先を確認 | Elisavet Konstantina Stathopoulou, Fabio Remondino | (参考訳) パッチベースステレオは近年,大規模マルチビューアプリケーションにおいて,高密度3次元再構成のための画像ベース技術として一般的に用いられている。
このようなパイプラインの典型的なステップはステレオペアの選択、深度マップの計算、深度マップの改良、そして最後に3Dでシーンの完全かつ正確な表現を生成するための融合にまとめることができる。
本研究では,semantic priorsを用いて,オープンソースライブラリopenmvsに実装されたシーンの標準的な密集した3次元再構築を支援することを目的とする。
この目的のために、3次元シーンの同じ部分を参照する近隣ビューの深度マップ間の深度一貫性チェックとともに、可能なエラーを除去し、ラベルごとの分節点雲を選択的に取得するために、余分な意味制約を課し、この方向に自動化する。
in 隣り合うビュー間のセマンティックコヒーレンスを再確認するために、異なるクラスに属するピクセルのミスマッチを回避すべく、追加の意味的基準を検討することができる。 Patch-based stereo is nowadays a commonly used image-based technique for dense 3D reconstruction in large scale multi-view applications. The typical steps of such a pipeline can be summarized in stereo pair selection, depth map computation, depth map refinement and, finally, fusion in order to generate a complete and accurate representation of the scene in 3D. In this study, we aim to support the standard dense 3D reconstruction of scenes as implemented in the open source library OpenMVS by using semantic priors. To this end, during the depth map fusion step, along with the depth consistency check between depth maps of neighbouring views referring to the same part of the 3D scene, we impose extra semantic constraints in order to remove possible errors and selectively obtain segmented point clouds per label, boosting automation towards this direction. I n order to reassure semantic coherence between neighbouring views, additional semantic criterions can be considered, aiming to elim inate mismatches of pixels belonging in different classes. | 翻訳日:2022-11-13 08:22:31 公開日:2020-07-05 |
# 部分重複点集合の整列化:内部近似アルゴリズム Aligning Partially Overlapping Point Sets: an Inner Approximation Algorithm ( http://arxiv.org/abs/2007.02363v1 ) ライセンス: Link先を確認 | Wei Lian, WangMeng Zuo, Lei Zhang | (参考訳) 変換の値に関する事前情報がないような部分重複点集合の調整は、コンピュータビジョンにおいて難しい問題である。
この目的を達成するために、まずロバストな点マッチングアルゴリズムの目的を低次元変数の関数に還元する。
しかし、結果として得られる関数は、実現可能な領域を含む有限領域上のみ凹凸である。
この問題に対処するために,対象関数が凹部である領域内でのみ動作する内部近似最適化アルゴリズムを採用する。
我々のアルゴリズムは変換の正規化を必要としないので、変換の値に関する事前情報がない状況に対処することができる。
我々の方法もまた$\epsilon-$globally最適であり、堅牢であることを保証する。
さらに、最も計算コストの高いサブルーチンは、効率的に解くことができる線形割当問題である。
実験により,提案手法が最先端アルゴリズムよりも頑健であることを示す。
本手法は変換パラメータの数が少ない場合にも効率的である。 Aligning partially overlapping point sets where there is no prior information about the value of the transformation is a challenging problem in computer vision. To achieve this goal, we first reduce the objective of the robust point matching algorithm to a function of a low dimensional variable. The resulting function, however, is only concave over a finite region including the feasible region. To cope with this issue, we employ the inner approximation optimization algorithm which only operates within the region where the objective function is concave. Our algorithm does not need regularization on transformation, and thus can handle the situation where there is no prior information about the values of the transformations. Our method is also $\epsilon-$globally optimal and thus is guaranteed to be robust. Moreover, its most computationally expensive subroutine is a linear assignment problem which can be efficiently solved. Experimental results demonstrate the better robustness of the proposed method over state-of-the-art algorithms. Our method is also efficient when the number of transformation parameters is small. | 翻訳日:2022-11-13 08:21:32 公開日:2020-07-05 |
# ファッション衣装における色相性学習 Learning Color Compatibility in Fashion Outfits ( http://arxiv.org/abs/2007.02388v1 ) ライセンス: Link先を確認 | Heming Zhang, Xuewen Yang, Jianchao Tan, Chi-Hao Wu, Jue Wang, C.-C. Jay Kuo | (参考訳) カラー互換性はファッション服の互換性を評価する上で重要であるが、以前の研究では無視されていた。
我々は、この重要な問題を研究者の注意に向け、様々なファッションタスクの解決策として互換性学習フレームワークを提案する。
このフレームワークは、服の互換性をモデル化する新しい方法と革新的な学習スキームで構成されている。
具体的には,衣装をグラフとしてモデル化し,グラフニューラルネットワークのパワーをより活用するための新しいグラフ構成を提案する。
次に, 下位ラベルと擬似ラベルを併用して, 互換性モデルを弱教師付きで訓練し, 拡張実験により, フレームワークの有効性とともに, カラー互換性の重要性を検証した。
カラー情報だけでは、私たちのモデルの性能は、ディープイメージ機能を使用する従来の方法とすでに同等です。
上記の貢献を組み合わせることで、ファッション互換性の新たな予測方法が確立しました。 Color compatibility is important for evaluating the compatibility of a fashion outfit, yet it was neglected in previous studies. We bring this important problem to researchers' attention and present a compatibility learning framework as solution to various fashion tasks. The framework consists of a novel way to model outfit compatibility and an innovative learning scheme. Specifically, we model the outfits as graphs and propose a novel graph construction to better utilize the power of graph neural networks. Then we utilize both ground-truth labels and pseudo labels to train the compatibility model in a weakly-supervised manner.Extensive experimental results verify the importance of color compatibility alone with the effectiveness of our framework. With color information alone, our model's performance is already comparable to previous methods that use deep image features. Our full model combining the aforementioned contributions set the new state-of-the-art in fashion compatibility prediction. | 翻訳日:2022-11-13 08:20:53 公開日:2020-07-05 |
# TilinGNN: 自己監視型グラフニューラルネットワークによるテイル学習 TilinGNN: Learning to Tile with Self-Supervised Graph Neural Network ( http://arxiv.org/abs/2007.02278v1 ) ライセンス: Link先を確認 | Hao Xu and Ka Hei Hui and Chi-Wing Fu and Hao Zhang | (参考訳) タイリング問題の古典的解法として,最初のニューラル最適化フレームワークを提案する。
すなわち、1種類以上のタイルを用いて任意の2次元形状の周期的でないタイリングを求める。
まず、ターゲット形状の候補タイル位置をグラフノードとしてモデル化し、タイル位置間の接続をエッジとしてモデル化することで、タイリングをグラフ問題として再構成する。
さらに,グラフ畳み込みニューラルネットワークであるtilingnnを構築し,グラフエッジ上で機能を漸進的に伝播・集約し,タイル配置を予測する。
tilingnnは、タイル間の重なりや穴を避けながら、ターゲット形状のタイル被覆を最大化することでトレーニングされる。
重要なことは、ネットワークの出力に定義されている損失項としてこれらの基準を具体化するので、地味なタイリングソリューションは不要である。
トレーニング後、TilinGNNのランタイムは、候補のタイル位置の数とほぼ直線的であり、従来の組合せ探索よりも大幅に優れている。
我々は,TilinGNNの速度と汎用性を示すために,様々な形状の様々な実験を行った。
また,代替法と手動解,ロバスト性解析,アブレーション研究との比較を行い,本手法の質を検証した。 We introduce the first neural optimization framework to solve a classical instance of the tiling problem. Namely, we seek a non-periodic tiling of an arbitrary 2D shape using one or more types of tiles: the tiles maximally fill the shape's interior without overlaps or holes. To start, we reformulate tiling as a graph problem by modeling candidate tile locations in the target shape as graph nodes and connectivity between tile locations as edges. Further, we build a graph convolutional neural network, coined TilinGNN, to progressively propagate and aggregate features over graph edges and predict tile placements. TilinGNN is trained by maximizing the tiling coverage on target shapes, while avoiding overlaps and holes between the tiles. Importantly, our network is self-supervised, as we articulate these criteria as loss terms defined on the network outputs, without the need of ground-truth tiling solutions. After training, the runtime of TilinGNN is roughly linear to the number of candidate tile locations, significantly outperforming traditional combinatorial search. We conducted various experiments on a variety of shapes to showcase the speed and versatility of TilinGNN. We also present comparisons to alternative methods and manual solutions, robustness analysis, and ablation studies to demonstrate the quality of our approach. | 翻訳日:2022-11-13 08:14:00 公開日:2020-07-05 |
# 新型コロナウイルスの胸部X線画像のフェデレーション学習実験 Experiments of Federated Learning for COVID-19 Chest X-ray Images ( http://arxiv.org/abs/2007.05592v1 ) ライセンス: Link先を確認 | Boyi Liu, Bingjie Yan, Yize Zhou, Yifan Yang, Yixian Zhang | (参考訳) AIは新型コロナウイルスの識別において重要な役割を果たす。
コンピュータビジョンとディープラーニング技術は、Chest X-ray Imagesで新型コロナウイルスの感染を判定するのに役立つ。
しかし、患者のプライバシーの保護と尊重のために、病院の特定の医療関連データは、許可なく漏洩や共有を許さなかった。
このようなトレーニングデータの収集は大きな課題だった。
ある程度は、COVID-19を検出するためのディープラーニングアプローチを実行する際に十分なデータサンプルが不足している。
フェデレーション学習は、この問題に対処するための利用可能な方法です。
データサイロの問題を効果的に解決し、ローカルデータを得ることなく共有モデルを得ることができる。
本研究では,covid-19データトレーニングにおける連合学習の利用と,その効果を検証するための実験の展開を提案する。
また、MobileNet、ResNet18、MoblieNet、COVID-Netの4つの人気モデルのパフォーマンスを、フレームワークなしで、フェデレートされた学習フレームワークと比較する。
この研究は、covid-19に関する連合学習に関するより多くの研究を刺激することを目的としている。 AI plays an important role in COVID-19 identification. Computer vision and deep learning techniques can assist in determining COVID-19 infection with Chest X-ray Images. However, for the protection and respect of the privacy of patients, the hospital's specific medical-related data did not allow leakage and sharing without permission. Collecting such training data was a major challenge. To a certain extent, this has caused a lack of sufficient data samples when performing deep learning approaches to detect COVID-19. Federated Learning is an available way to address this issue. It can effectively address the issue of data silos and get a shared model without obtaining local data. In the work, we propose the use of federated learning for COVID-19 data training and deploy experiments to verify the effectiveness. And we also compare performances of four popular models (MobileNet, ResNet18, MoblieNet, and COVID-Net) with the federated learning framework and without the framework. This work aims to inspire more researches on federated learning about COVID-19. | 翻訳日:2022-11-13 08:13:37 公開日:2020-07-05 |
# Momentumは進化のダイナミクスを加速する Momentum Accelerates Evolutionary Dynamics ( http://arxiv.org/abs/2007.02449v1 ) ライセンス: Link先を確認 | Marc Harper and Joshua Safyan | (参考訳) 機械学習のモーメントと進化のダイナミクスを組み合わせることで、モーメントは世代間記憶の単純なメカニズムと見なすことができる。
情報ダイバージェンスをリアプノフ関数として、運動量はレプリケータ方程式や集団のユークリッド勾配降下を含む進化力学の収束を加速することを示した。
進化的に安定な状態が存在する場合、これらの手法は小さな学習率や小さな運動量に対する収束を証明し、計算とよく一致する収束時間における相対的な減少を解析的に決定する。
主な結果は、進化力学が勾配流でない場合でも適用される。
また, モーメントは, 通常の非吸収平衡に収束する, あるいは, モーメントの値や機構によって, サイクリングを破ることによって, それらのダイナミクスの収束特性を変化させることも示している。 We combine momentum from machine learning with evolutionary dynamics, where momentum can be viewed as a simple mechanism of intergenerational memory. Using information divergences as Lyapunov functions, we show that momentum accelerates the convergence of evolutionary dynamics including the replicator equation and Euclidean gradient descent on populations. When evolutionarily stable states are present, these methods prove convergence for small learning rates or small momentum, and yield an analytic determination of the relative decrease in time to converge that agrees well with computations. The main results apply even when the evolutionary dynamic is not a gradient flow. We also show that momentum can alter the convergence properties of these dynamics, for example by breaking the cycling associated to the rock-paper-scissors landscape, leading to either convergence to the ordinarily non-absorbing equilibrium, or divergence, depending on the value and mechanism of momentum. | 翻訳日:2022-11-13 08:13:21 公開日:2020-07-05 |
# EmotionGIF-Yankee:ロバストモデルに基づくアンサンブル法による感性分類器 EmotionGIF-Yankee: A Sentiment Classifier with Robust Model Based Ensemble Methods ( http://arxiv.org/abs/2007.02259v1 ) ライセンス: Link先を確認 | Wei-Yao Wang, Kai-Shiang Chang, Yu-Chien Tang | (参考訳) 本稿では,ロバストなモデルに基づくアンサンブル手法を用いて感情を分類する方法を提案する。
私たちはトークン化のカバレッジを高めるためにツイートデータを前処理します。
ドメインバイアスを低減するために、事前訓練された言語モデルのツイートデータセットをトレーニングする。
さらに,各分類器の強みと弱みから,平均値とパワー重み付き和というアンサンブル方式の異なるモデルを活用する。
実験の結果,本手法は感情分類に肯定的な効果を示した。
私たちのシステムは、socialnlp 2020 emotiongifコンペティションの評価から26チーム中3位に到達しました。 This paper provides a method to classify sentiment with robust model based ensemble methods. We preprocess tweet data to enhance coverage of tokenizer. To reduce domain bias, we first train tweet dataset for pre-trained language model. Besides, each classifier has its strengths and weakness, we leverage different types of models with ensemble methods: average and power weighted sum. From the experiments, we show that our approach has achieved positive effect for sentiment classification. Our system reached third place among 26 teams from the evaluation in SocialNLP 2020 EmotionGIF competition. | 翻訳日:2022-11-13 08:12:33 公開日:2020-07-05 |
# ツイートの感情分析 : 単語埋め込みと機械学習による分析 Tweets Sentiment Analysis via Word Embeddings and Machine Learning Techniques ( http://arxiv.org/abs/2007.04303v1 ) ライセンス: Link先を確認 | Aditya Sharma, Alex Daniels | (参考訳) ソーシャルメディアデータの感情分析は、人間の考え方として考えられる態度、評価、感情から成り立っている。
大量のドキュメントを肯定的な側面と否定的な側面に分類することは非常に難しい作業です。
Twitter、Facebook、Instagramなどのソーシャルネットワークは、人々の感情や意見に関する情報を集めるためのプラットフォームを提供する。
ソーシャルメディアで毎日何時間も過ごし、さまざまなトピックについて意見を共有しているという事実を考えると、感情をよりよく分析するのに役立つ。
ソーシャルメディアツールを使ってさまざまなサービスを提供し、顧客と対話する企業が増えている。
感性分析(SA)は、与えられたツイートの極性を肯定的および否定的なツイートに分類し、大衆の感情を理解する。
本稿では,感情分類のための特徴選択モデル word2vec と機械学習アルゴリズムランダムフォレストを用いて,2019年大統領選のリアルタイムtwitter データの感情分析を行う。
word2vec with random forest は bow や tf-idf のような従来の方法に比べて感情分析の精度が大幅に向上する。
Word2vecはテキスト中の単語の文脈意味を考慮し、特徴の質を改善し、機械学習と感情分析の精度を向上させる。 Sentiment analysis of social media data consists of attitudes, assessments, and emotions which can be considered a way human think. Understanding and classifying the large collection of documents into positive and negative aspects are a very difficult task. Social networks such as Twitter, Facebook, and Instagram provide a platform in order to gather information about peoples sentiments and opinions. Considering the fact that people spend hours daily on social media and share their opinion on various different topics helps us analyze sentiments better. More and more companies are using social media tools to provide various services and interact with customers. Sentiment Analysis (SA) classifies the polarity of given tweets to positive and negative tweets in order to understand the sentiments of the public. This paper aims to perform sentiment analysis of real-time 2019 election twitter data using the feature selection model word2vec and the machine learning algorithm random forest for sentiment classification. Word2vec with Random Forest improves the accuracy of sentiment analysis significantly compared to traditional methods such as BOW and TF-IDF. Word2vec improves the quality of features by considering contextual semantics of words in a text hence improving the accuracy of machine learning and sentiment analysis. | 翻訳日:2022-11-13 08:11:42 公開日:2020-07-05 |
# 近位政策最適化アルゴリズムに基づくアジャイル衛星のミッションスケジュール Mission schedule of agile satellites based on Proximal Policy Optimization Algorithm ( http://arxiv.org/abs/2007.02352v1 ) ライセンス: Link先を確認 | Xinrui Liu | (参考訳) 衛星のミッションスケジュールは、現在、軌道上の衛星の数と種類が著しく増加しており、それに対応するタスクもますます複雑になりつつあるため、宇宙活動の重要な部分である。
本稿では,PPO(Proximal Policy Optimization Algorithm)と組み合わせたミッションスケジュールモデルを提案する。
従来のヒューリスティック計画法とは違い,本論文では強化学習アルゴリズムを組み込んで,問題を記述するための新しい方法を提案する。
本稿では,データダウンロードを含むいくつかの制約について考察する。 Mission schedule of satellites is an important part of space operation nowadays, since the number and types of satellites in orbit are increasing tremendously and their corresponding tasks are also becoming more and more complicated. In this paper, a mission schedule model combined with Proximal Policy Optimization Algorithm(PPO) is proposed. Different from the traditional heuristic planning method, this paper incorporate reinforcement learning algorithms into it and find a new way to describe the problem. Several constraints including data download are considered in this paper. | 翻訳日:2022-11-13 08:11:23 公開日:2020-07-05 |
# プロセス適合性チェックのためのイベントログの部分順序解決 Partial Order Resolution of Event Logs for Process Conformance Checking ( http://arxiv.org/abs/2007.02416v1 ) ライセンス: Link先を確認 | Han van der Aa, Henrik Leopold, Matthias Weidlich | (参考訳) ビジネスプロセスの実行をサポートする一方で、情報システムはイベントログを記録する。
コンフォーマンスチェックは、記録されたプロセスの振る舞いが規範仕様の振る舞いに適合するかどうかを分析するためにこれらのログに依存する。
しかし、既存の適合性チェック技術の重要な前提は、すべてのイベントがプロセスインスタンス毎のイベントの順序を推測できるタイムスタンプと関連付けられていることである。
残念ながら、この前提はしばしば実際に違反される。
同期の問題、手動のイベント記録、あるいはデータの破損のため、イベントは部分的にのみ順序付けられている。
本稿では,イベントログの部分次数分解の問題を解決し,このギャップを解消する。
これは、インスタンスのイベントのすべての可能な全順序に対する確率分布の構成を意味する。
実世界のデータにおける順序の不確実性に対処するために,行動抽象化の異なる概念を取り入れた,この課題に対する推定器をいくつか提示する。
さらに,部分順序分解に基づくコンフォーマンスチェックの実行時間を削減するために,精度の観点から境界誤差を伴う近似手法を提案する。
実世界および合成データを用いた実験により,我々のアプローチは最先端よりも精度が大幅に向上することが明らかとなった。 While supporting the execution of business processes, information systems record event logs. Conformance checking relies on these logs to analyze whether the recorded behavior of a process conforms to the behavior of a normative specification. A key assumption of existing conformance checking techniques, however, is that all events are associated with timestamps that allow to infer a total order of events per process instance. Unfortunately, this assumption is often violated in practice. Due to synchronization issues, manual event recordings, or data corruption, events are only partially ordered. In this paper, we put forward the problem of partial order resolution of event logs to close this gap. It refers to the construction of a probability distribution over all possible total orders of events of an instance. To cope with the order uncertainty in real-world data, we present several estimators for this task, incorporating different notions of behavioral abstraction. Moreover, to reduce the runtime of conformance checking based on partial order resolution, we introduce an approximation method that comes with a bounded error in terms of accuracy. Our experiments with real-world and synthetic data reveal that our approach improves accuracy over the state-of-the-art considerably. | 翻訳日:2022-11-13 08:11:15 公開日:2020-07-05 |
# セルフチャリングはクロスドメインの一般化を改善する Self-Challenging Improves Cross-Domain Generalization ( http://arxiv.org/abs/2007.02454v1 ) ライセンス: Link先を確認 | Zeyi Huang and Haohan Wang and Eric P. Xing and Dong Huang | (参考訳) 畳み込みニューラルネットワーク(CNN)は、ラベルと相関する支配的特徴を活性化することによって画像分類を行う。
トレーニングデータとテストデータが同様の分布下にある場合、その主な機能は類似しており、テストデータ上での適切なパフォーマンスを促進するのが普通である。
にもかかわらず、異なる分布のサンプルでテストすると性能が低下し、ドメイン間の画像分類が困難になる。
ドメイン外データに対するcnnの一般化を大幅に改善した,単純なトレーニングヒューリスティック表現自己チャリング(rsc)を導入する。
RSCはトレーニングデータ上で活性化される支配的な特徴に挑戦(破棄)し、ラベルと相関する残りの特徴をネットワークに活性化させる。
このプロセスは、新しいドメインの事前知識や余分なネットワークパラメータを学習することなく、ドメイン外のデータに適用可能な機能表現を起動する。
クロスドメイン一般化を改善するためのRCCの理論的性質と条件を示す。
この実験は, RSC法の単純, 効果的, アーキテクチャに依存しない性質を裏付けるものである。 Convolutional Neural Networks (CNN) conduct image classification by activating dominant features that correlated with labels. When the training and testing data are under similar distributions, their dominant features are similar, which usually facilitates decent performance on the testing data. The performance is nonetheless unmet when tested on samples from different distributions, leading to the challenges in cross-domain image classification. We introduce a simple training heuristic, Representation Self-Challenging (RSC), that significantly improves the generalization of CNN to the out-of-domain data. RSC iteratively challenges (discards) the dominant features activated on the training data, and forces the network to activate remaining features that correlates with labels. This process appears to activate feature representations applicable to out-of-domain data without prior knowledge of new domain and without learning extra network parameters. We present theoretical properties and conditions of RSC for improving cross-domain generalization. The experiments endorse the simple, effective and architecture-agnostic nature of our RSC method. | 翻訳日:2022-11-13 08:04:35 公開日:2020-07-05 |
# 顧客反応の感性分析 Sentiment Analysis on Customer Responses ( http://arxiv.org/abs/2007.02237v1 ) ライセンス: Link先を確認 | Antony Samuels, John Mcgonical | (参考訳) 感覚分析はコンピュータ科学において最も急速に普及している研究分野の1つであり、この領域のすべての活動を追跡することは困難である。
我々は、製品に対する顧客のフィードバックレビューを行い、特定の製品に対する意見を変えることで囲まれた世界に影響を与える、意見のマイニング、テキストマイニング、感情を活用する。
この研究で使用されるデータは、Amazon.comから収集されたオンライン製品レビューである。
検索されたレビューの比較感情分析を行った。
本研究は, スマートフォンを肯定的, 否定的, 中立的行動に分け, さまざまな意見の感傷的分析を行う。 Sentiment analysis is one of the fastest spreading research areas in computer science, making it challenging to keep track of all the activities in the area. We present a customer feedback reviews on product, where we utilize opinion mining, text mining and sentiments, which has affected the surrounded world by changing their opinion on a specific product. Data used in this study are online product reviews collected from Amazon.com. We performed a comparative sentiment analysis of retrieved reviews. This research paper provides you with sentimental analysis of various smart phone opinions on smart phones dividing them Positive, Negative and Neutral Behaviour. | 翻訳日:2022-11-13 08:03:57 公開日:2020-07-05 |
# ニュースセンチメント分析 News Sentiment Analysis ( http://arxiv.org/abs/2007.02238v1 ) ライセンス: Link先を確認 | Antony Samuels, John Mcgonical | (参考訳) 近代の技術的時代は、いくつかの領域で伝統的な生活様式を変えてきた。
情報技術の進歩に伴い,ニュースやイベントの出版が急速に進んでいる。
何百万というユーザーが毎日、コメントやブログ、ブログ経由のニュース共有、ソーシャルメディアのマイクロブログサイトなど、大量のデータを毎日発行している。
このような膨大なデータの手動移動は困難な作業であり、このタスクを自動かつ効率的に実行するための高度な手法が取得される。
ニュースは、良い、悪い、中立の感情から成るイベントを報告する。
感性分析を用いて、テキスト情報に含まれる人間の感情を調べる。
本稿では,レキシコンを用いたニュース記事の感情分析手法を提案する。
実験はbbcニュースデータセットで行われ、採用したアプローチの適用可能性と妥当性が示されている。 Modern technological era has reshaped traditional lifestyle in several domains. The medium of publishing news and events has become faster with the advancement of Information Technology. IT has also been flooded with immense amounts of data, which is being published every minute of every day, by millions of users, in the shape of comments, blogs, news sharing through blogs, social media micro-blogging websites and many more. Manual traversal of such huge data is a challenging job, thus, sophisticated methods are acquired to perform this task automatically and efficiently. News reports events that comprise of emotions - good, bad, neutral. Sentiment analysis is utilized to investigate human emotions present in textual information. This paper presents a lexicon-based approach for sentiment analysis of news articles. The experiments have been performed on BBC news data set, which expresses the applicability and validation of the adopted approach. | 翻訳日:2022-11-13 08:03:48 公開日:2020-07-05 |
# 線形逆問題の新しい min-max 修正法 Novel min-max reformulations of Linear Inverse Problems ( http://arxiv.org/abs/2007.02448v1 ) ライセンス: Link先を確認 | Mohammed Rayyan Sheriff and Debasish Chatterjee | (参考訳) 本稿では,線形逆問題(LIP, ill-posed Linear Inverse Problems, LIP)の分類について述べる。
このような問題は,医療画像処理やレコメンダシステムなど,さまざまな場面で発生します。
本稿では,誤差制約付き線形逆問題の少し一般化したバージョンを提案し,その凸幾何学の表現を提供することにより,新規かつ等価な凸凹 min-max 再構成を求める。
min-max問題のサドル点は、LIPの解という観点から完全に特徴付けられる。
min-max問題の解法として、単純なサドル点を求めることで、LIPの解を見つけるための新しい単純なアルゴリズムが提供される。
さらに,本論文で提案するmin-max問題としてのLIPの再構成は,ほぼ確実に回復制約のある辞書学習問題の解法を開発する上で重要である。 In this article, we dwell into the class of so-called ill-posed Linear Inverse Problems (LIP) which simply refers to the task of recovering the entire signal from its relatively few random linear measurements. Such problems arise in a variety of settings with applications ranging from medical image processing, recommender systems, etc. We propose a slightly generalized version of the error constrained linear inverse problem and obtain a novel and equivalent convex-concave min-max reformulation by providing an exposition to its convex geometry. Saddle points of the min-max problem are completely characterized in terms of a solution to the LIP, and vice versa. Applying simple saddle point seeking ascend-descent type algorithms to solve the min-max problems provides novel and simple algorithms to find a solution to the LIP. Moreover, the reformulation of an LIP as the min-max problem provided in this article is crucial in developing methods to solve the dictionary learning problem with almost sure recovery constraints. | 翻訳日:2022-11-13 08:02:45 公開日:2020-07-05 |
# CIDMP:低次元特徴空間を用いた赤血球内マラリア寄生虫の完全検出 CIDMP: Completely Interpretable Detection of Malaria Parasite in Red Blood Cells using Lower-dimensional Feature Space ( http://arxiv.org/abs/2007.02248v1 ) ライセンス: Link先を確認 | Anik Khan, Kishor Datta Gupta, Deepak Venugopal, Nirman Kumar | (参考訳) マラリア原虫に赤血球(RBC)が感染しているかどうかを予測することは、病理学において重要な問題である。
最近、教師付き機械学習アプローチがこの問題に使われており、合理的な成功を収めている。
特に畳み込みニューラルネットワークのような最先端の手法は、画像ピクセルからますます複雑な特徴階層を自動的に抽出する。
このような一般化された自動特徴抽出法は、多くの領域において機能工学の負担を大幅に減らしているが、本稿で検討したようなニッチなタスクでは、2つの大きな問題が生じる。
第一に、非常に多くの機能(関連しないかもしれない)を使用しているため、そのようなモデルのトレーニングは計算コストがかかる。
さらに重要なのは、大きな機能領域が、どの機能が予測に本当に重要なのかを理解するのを非常に難しくすることです。
したがって、このような方法に対する批判は、学習アルゴリズムが不透明なブラックボックスをユーザーに、この場合、医療専門家に与えることである。
このようなアルゴリズムの推奨は容易に理解できるが、その推奨の理由は明らかではない。
これはモデルの非解釈可能性の問題であり、最も優れたアルゴリズムは通常最小の解釈可能である。
これらの問題に対処するため,本稿では,解釈や計算が容易な少数の集約特徴を抽出し,特徴空間が大幅に縮小された場合でも高い予測精度が得られることを示す手法を提案する。 Predicting if red blood cells (RBC) are infected with the malaria parasite is an important problem in Pathology. Recently, supervised machine learning approaches have been used for this problem, and they have had reasonable success. In particular, state-of-the-art methods such as Convolutional Neural Networks automatically extract increasingly complex feature hierarchies from the image pixels. While such generalized automatic feature extraction methods have significantly reduced the burden of feature engineering in many domains, for niche tasks such as the one we consider in this paper, they result in two major problems. First, they use a very large number of features (that may or may not be relevant) and therefore training such models is computationally expensive. Further, more importantly, the large feature-space makes it very hard to interpret which features are truly important for predictions. Thus, a criticism of such methods is that learning algorithms pose opaque black boxes to its users, in this case, medical experts. The recommendation of such algorithms can be understood easily, but the reason for their recommendation is not clear. This is the problem of non-interpretability of the model, and the best-performing algorithms are usually the least interpretable. To address these issues, in this paper, we propose an approach to extract a very small number of aggregated features that are easy to interpret and compute, and empirically show that we obtain high prediction accuracy even with a significantly reduced feature-space. | 翻訳日:2022-11-13 08:02:14 公開日:2020-07-05 |
# ブロックモデル誘導型教師なし特徴選択 Block Model Guided Unsupervised Feature Selection ( http://arxiv.org/abs/2007.02376v1 ) ライセンス: Link先を確認 | Zilong Bai, Hoa Nguyen, Ian Davidson | (参考訳) 特徴選択はデータマイニングのコア領域であり、グラフ駆動型非教師なし特徴選択の最近のイノベーションである。
この設定では、$m$フィーチャを持つ$n$インスタンスからなるデータセット$\mathbf{y}$と、対応する$n$ノードグラフ(それらの隣接マトリックスは$\mathbf{a}$)があり、2つのインスタンスが類似していることを示すエッジがあります。
属性付きネットワーク上で教師なしの機能選択を行う既存の取り組みは、$f$ の解法で直接リンクを再生成するか、$f(\mathbf{y}_i,\mathbf{y}_j) \approx \mathbf{a}_{i,j}$ でコミュニティ構造を見つけるか、$\mathbf{a}$ でコミュニティ構造を見つけるか、$\mathbf{y}$ の機能を使ってこれらのコミュニティを予測するかのどちらかである。
しかし、グラフ駆動の教師なしの機能選択は、より複雑なガイダンスを探求するための未熟な領域である。
ここでは、まずグラフ上にブロックモデルを構築し、次に特徴選択にブロックモデルを使用するという新しいアプローチをとる。
つまり、$\mathbf{F}\mathbf{M}\mathbf{F}^T \approx \mathbf{A}$ を発見し、次に $\mathcal{S}$ という機能のサブセットを見つけ、 $\mathbf{F}$ と $\mathbf{M}$ の両方を保存するために別のグラフを誘導する。
我々はアプローチブロックモデル誘導型非教師なし特徴選択(bmgufs)と呼ぶ。
実験結果から,本手法は,クラスタリングにおける高品質な特徴の探索において,複数の実世界の公開データセット上での最先端の手法であることがわかった。 Feature selection is a core area of data mining with a recent innovation of graph-driven unsupervised feature selection for linked data. In this setting we have a dataset $\mathbf{Y}$ consisting of $n$ instances each with $m$ features and a corresponding $n$ node graph (whose adjacency matrix is $\mathbf{A}$) with an edge indicating that the two instances are similar. Existing efforts for unsupervised feature selection on attributed networks have explored either directly regenerating the links by solving for $f$ such that $f(\mathbf{y}_i,\mathbf{y}_j) \approx \mathbf{A}_{i,j}$ or finding community structure in $\mathbf{A}$ and using the features in $\mathbf{Y}$ to predict these communities. However, graph-driven unsupervised feature selection remains an understudied area with respect to exploring more complex guidance. Here we take the novel approach of first building a block model on the graph and then using the block model for feature selection. That is, we discover $\mathbf{F}\mathbf{M}\mathbf{F}^T \approx \mathbf{A}$ and then find a subset of features $\mathcal{S}$ that induces another graph to preserve both $\mathbf{F}$ and $\mathbf{M}$. We call our approach Block Model Guided Unsupervised Feature Selection (BMGUFS). Experimental results show that our method outperforms the state of the art on several real-world public datasets in finding high-quality features for clustering. | 翻訳日:2022-11-13 07:55:51 公開日:2020-07-05 |
# 関係グラフを用いたベイズメタラーニングによるマイナショット関係抽出 Few-shot Relation Extraction via Bayesian Meta-learning on Relation Graphs ( http://arxiv.org/abs/2007.02387v1 ) ライセンス: Link先を確認 | Meng Qu, Tianyu Gao, Louis-Pascal A. C. Xhonneux, Jian Tang | (参考訳) 本稿では,文中の一対の実体の関係を,複数のラベル付き例で学習することで予測することを目的とした,少数ショット関係抽出について検討する。
本稿では,新しい関係をより効果的に一般化するために,関係間の関係を調べ,大域関係グラフの活用を提案する。
本稿では,グローバル関係グラフ上のグラフニューラルネットワークを用いて,プロトタイプベクトルの初期偏差をパラメータ化することで,関係ベクトルの後方分布を効果的に学習する新しいベイズメタラーニング手法を提案する。
さらに,プロトタイプベクトルの後方分布を効果的に最適化するために,mamlアルゴリズムに関連しているがプロトタイプベクトルの不確かさを処理できる確率勾配ランジュバンダイナミクスを用いることを提案する。
フレームワーク全体がエンドツーエンドで効果的かつ効率的に最適化できます。
2つのベンチマークデータセットの実験は、少数ショットとゼロショットの両方の設定において、競合ベースラインに対する提案手法の有効性を証明した。 This paper studies few-shot relation extraction, which aims at predicting the relation for a pair of entities in a sentence by training with a few labeled examples in each relation. To more effectively generalize to new relations, in this paper we study the relationships between different relations and propose to leverage a global relation graph. We propose a novel Bayesian meta-learning approach to effectively learn the posterior distribution of the prototype vectors of relations, where the initial prior of the prototype vectors is parameterized with a graph neural network on the global relation graph. Moreover, to effectively optimize the posterior distribution of the prototype vectors, we propose to use the stochastic gradient Langevin dynamics, which is related to the MAML algorithm but is able to handle the uncertainty of the prototype vectors. The whole framework can be effectively and efficiently optimized in an end-to-end fashion. Experiments on two benchmark datasets prove the effectiveness of our proposed approach against competitive baselines in both the few-shot and zero-shot settings. | 翻訳日:2022-11-13 07:55:17 公開日:2020-07-05 |
# deep autocoderに基づくグラフィカルなスクリーンショットからのコードの自動生成 Automatically Generating Codes from Graphical Screenshots Based on Deep Autocoder ( http://arxiv.org/abs/2007.02272v1 ) ライセンス: Link先を確認 | Xiaoling Huang and Feng Liao | (参考訳) ソフトウェアフロントエンド開発において、グラフィカルユーザインタフェース(GUI)イメージを対応するフロントエンドコードに変換する作業は避けられない作業である。
この作業を自動化しようとする試みがいくつかあった。
しかし、これらのモデルによって生成されたGUIコードは、注意機構のガイダンスがないため正確ではない。
この問題を解決するために,人工的な注意機構に基づくPixCoderを提案する。
アプローチとしては、ニューラルネットワークをトレーニングして、入力されたGUIイメージのスタイルシートを予測し、ベクトルを出力する。
PixCoderは、出力ベクトルに従って特定のプラットフォームをターゲットにしたGUIコードを生成する。
実験の結果、PixCoderが生成したGUIコードの精度は95%以上であることがわかった。 During software front-end development, the work to convert Graphical User Interface(GUI) image to the corresponding front-end code is an inevitable tedious work. There have been some attempts to make this work to be automatic. However, the GUI code generated by these models is not accurate due to the lack of attention mechanism guidance. To solve this problem, we propose PixCoder based on an artificially supervised attention mechanism. The approach is to train a neural network to predict the style sheets in the input GUI image and then output a vector. PixCoder generate the GUI code targeting specific platform according to the output vector. The experimental results have shown the accuracy of the GUI code generated by PixCoder is over 95%. | 翻訳日:2022-11-13 07:54:04 公開日:2020-07-05 |
# 注意に基づく物体と意味部品の関節検出 Attention-based Joint Detection of Object and Semantic Part ( http://arxiv.org/abs/2007.02419v1 ) ライセンス: Link先を確認 | Keval Morabia, Jatin Arora, Tara Vijaykumar | (参考訳) 本稿では,犬のような物体と,その顔や脚などの意味的な部分との協調検出の問題について述べる。
我々のモデルは2つのFaster-RCNNモデルに基づいて作成され、それらの特徴を共有して、関連するオブジェクトとパートの新規なアテンションベースの特徴融合を実行し、両方の表現を拡張します。
これらの表現は、両方のモデルに対して別々に最終分類と有界箱回帰に使用される。
PASCAL-Part 2010 データセットを用いた実験の結果,IoU=0.5 における平均平均精度 (mAP) において,関節検出は物体検出と部分検出の両方を同時に改善できることがわかった。 In this paper, we address the problem of joint detection of objects like dog and its semantic parts like face, leg, etc. Our model is created on top of two Faster-RCNN models that share their features to perform a novel Attention-based feature fusion of related Object and Part features to get enhanced representations of both. These representations are used for final classification and bounding box regression separately for both models. Our experiments on the PASCAL-Part 2010 dataset show that joint detection can simultaneously improve both object detection and part detection in terms of mean Average Precision (mAP) at IoU=0.5. | 翻訳日:2022-11-13 07:53:32 公開日:2020-07-05 |
# 深層強化学習による教師なしパラフレージング Unsupervised Paraphrasing via Deep Reinforcement Learning ( http://arxiv.org/abs/2007.02244v1 ) ライセンス: Link先を確認 | A. B. Siddique, Samet Oymak, Vagelis Hristidis | (参考訳) パラフレージング(パラフレージング、英: Paraphrasing)とは、異なる単語で入力文の意味を表現し、流用性(文法的、構文的正しさ)を維持すること。
言い換える作業の多くは、特定のドメインに限定された教師付きモデル(画像キャプションなど)を使用している。
このようなモデルは、直接他のドメインに転送することも、うまく一般化することもできず、新しいドメインのラベル付きトレーニングデータを作成することは高価で手間がかかる。
異なるドメインにまたがる言い回しの必要性や、多くのドメインでラベル付きトレーニングデータの不足は、教師なしの言い回し生成手法を探求することを求めている。
本稿では,深層強化学習(drl)に基づく新しい教師なしパラフレーズ生成法であるprogressive unsupervised paraphrasing (pup)を提案する。
PUPは変分オートエンコーダ(非並列コーパスを使用して訓練)を使用して、DRLモデルを温める種パラフレーズを生成する。
そこでPUPは, 文の並列化を必要とせず, 生成したパラフレーズの品質を定量化するために, 意味的妥当性, 言語流布度, 表現の多様性を組み合わせ, 新たな報酬関数によって導かれるシードパラフレーズを段階的に調整する。
PUPは,4つの実データセットにおける自動計測とユーザスタディの両方の観点から,教師なしのパラフレージング技術より優れていることを示す。
また、PUPは複数のデータセット上でドメイン適応型教師付きアルゴリズムよりも優れていることを示す。
また,PUPが意味的類似性と表現の多様性との間に大きなトレードオフをもたらすことを示す。 Paraphrasing is expressing the meaning of an input sentence in different wording while maintaining fluency (i.e., grammatical and syntactical correctness). Most existing work on paraphrasing use supervised models that are limited to specific domains (e.g., image captions). Such models can neither be straightforwardly transferred to other domains nor generalize well, and creating labeled training data for new domains is expensive and laborious. The need for paraphrasing across different domains and the scarcity of labeled training data in many such domains call for exploring unsupervised paraphrase generation methods. We propose Progressive Unsupervised Paraphrasing (PUP): a novel unsupervised paraphrase generation method based on deep reinforcement learning (DRL). PUP uses a variational autoencoder (trained using a non-parallel corpus) to generate a seed paraphrase that warm-starts the DRL model. Then, PUP progressively tunes the seed paraphrase guided by our novel reward function which combines semantic adequacy, language fluency, and expression diversity measures to quantify the quality of the generated paraphrases in each iteration without needing parallel sentences. Our extensive experimental evaluation shows that PUP outperforms unsupervised state-of-the-art paraphrasing techniques in terms of both automatic metrics and user studies on four real datasets. We also show that PUP outperforms domain-adapted supervised algorithms on several datasets. Our evaluation also shows that PUP achieves a great trade-off between semantic similarity and diversity of expression. | 翻訳日:2022-11-13 07:47:11 公開日:2020-07-05 |
# 人間-ロボットインタラクションにおける自然言語の教師なしオンライングラウンドリング Unsupervised Online Grounding of Natural Language during Human-Robot Interactions ( http://arxiv.org/abs/2007.04304v1 ) ライセンス: Link先を確認 | Oliver Roesler | (参考訳) 人間が自然言語でロボットとコミュニケーションできるためには、言葉と知覚のつながりが必要だ。
これらの接続を作る過程は記号接地と呼ばれ、約30年間研究されてきた。
多くの研究が行われてきたが、シノニムの接地を考える人は少なく、アルゴリズムはオフラインか教師付きでしか動作しない。
本稿では,人間による監視やオンライン化を必要とせず,新たに遭遇した状況ごとに単語やフレーズの接地を可能にする,クロスシチュエーション学習に基づく接地フレームワークを提案する。
提案フレームワークは,人間の教師とロボットとのインタラクション実験により評価され,既存の教師なし接地フレームワークと比較した。
その結果,提案フレームワークは,ベースラインフレームワークを上回りながら,オンラインおよび教師なしの方法で単語を認識できることがわかった。 Allowing humans to communicate through natural language with robots requires connections between words and percepts. The process of creating these connections is called symbol grounding and has been studied for nearly three decades. Although many studies have been conducted, not many considered grounding of synonyms and the employed algorithms either work only offline or in a supervised manner. In this paper, a cross-situational learning based grounding framework is proposed that allows grounding of words and phrases through corresponding percepts without human supervision and online, i.e. it does not require any explicit training phase, but instead updates the obtained mappings for every new encountered situation. The proposed framework is evaluated through an interaction experiment between a human tutor and a robot, and compared to an existing unsupervised grounding framework. The results show that the proposed framework is able to ground words through their corresponding percepts online and in an unsupervised manner, while outperforming the baseline framework. | 翻訳日:2022-11-13 07:46:42 公開日:2020-07-05 |
# バンドの衝突と公衆衛生対策への応用 Collapsing Bandits and Their Application to Public Health Interventions ( http://arxiv.org/abs/2007.04432v1 ) ライセンス: Link先を確認 | Aditya Mate, Jackson A. Killian, Haifeng Xu, Andrew Perrault, Milind Tambe | (参考訳) 我々は,各アームが特別な構造を持つ二元状態マルコフ過程に従う,新しいrestless multi-armed bandit(rmab)設定であるcollpasing banditsを提案し,研究している。
目標は、1ラウンドあたりの限られた行動予算を計画することで、できるだけ多くの武器を「良い」状態に保つことである。
このような崩壊するバンディットは、労働者が同時に患者を監視し、患者の健康を最大化する方法で介入を行なわなければならない多くの医療領域の自然なモデルである。
主な貢献は以下の通りである。
(i)RMABのWhittle index技術に基づいて、Colapsing Banditsの問題が指数化可能である条件を導出する。
我々の導出は、最適な政策が「前方」または「逆」のしきい値ポリシーの形式を取ると特徴づけられる新しい条件に基づいている。
(II)クローズドフォームを含むWhittleインデックスを高速に計算するアルゴリズムを構築するためにしきい値ポリシーの最適性を利用する。
(iii)患者が結核薬を服用することを最大化するために介入を行なわなければならない実世界の医療タスクのデータを含む、いくつかのデータ分布について評価する。
提案アルゴリズムは,最先端のRMAB技術と比較して3次精度向上を実現し,同様の性能を実現している。 We propose and study Collpasing Bandits, a new restless multi-armed bandit (RMAB) setting in which each arm follows a binary-state Markovian process with a special structure: when an arm is played, the state is fully observed, thus "collapsing" any uncertainty, but when an arm is passive, no observation is made, thus allowing uncertainty to evolve. The goal is to keep as many arms in the "good" state as possible by planning a limited budget of actions per round. Such Collapsing Bandits are natural models for many healthcare domains in which workers must simultaneously monitor patients and deliver interventions in a way that maximizes the health of their patient cohort. Our main contributions are as follows: (i) Building on the Whittle index technique for RMABs, we derive conditions under which the Collapsing Bandits problem is indexable. Our derivation hinges on novel conditions that characterize when the optimal policies may take the form of either "forward" or "reverse" threshold policies. (ii) We exploit the optimality of threshold policies to build fast algorithms for computing the Whittle index, including a closed-form. (iii) We evaluate our algorithm on several data distributions including data from a real-world healthcare task in which a worker must monitor and deliver interventions to maximize their patients' adherence to tuberculosis medication. Our algorithm achieves a 3-order-of-magnitude speedup compared to state-of-the-art RMAB techniques while achieving similar performance. | 翻訳日:2022-11-13 07:46:06 公開日:2020-07-05 |
# gifのオートキャプチャー:視覚言語事前学習のための大規模ビデオセンテンスデータセット Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training ( http://arxiv.org/abs/2007.02375v1 ) ライセンス: Link先を確認 | Yingwei Pan and Yehao Li and Jianjie Luo and Jun Xu and Ting Yao and Tao Mei | (参考訳) そこで本研究では,汎用ビデオ理解のための新しい大規模事前学習データセットであるgifのオートキャプチャを提案する。
すべてのビデオ文ペアは、数十億のWebページからビデオキャプションアノテーションを自動的に抽出してフィルタリングすることによって生成される。
GIFデータセットのオートキャプションは、ビデオキャプションの一般的な特徴表現やエンコーダ・デコーダ構造、その他の下流タスク(例えば、ビデオにおける文のローカライゼーション、ビデオ質問応答など)の事前トレーニングにも利用できる。
本稿では,既存のビデオ文データセットと比較して,GIFデータセット上でのオートキャプションの詳細な分析を行う。
また,トランスフォーマーをベースとしたエンコーダ・デコーダ構造の評価を行い,映像キャプションの下流処理にさらに適応し,MSR-VTT上での有意な一般化を実現する。
データセットは \url{http://www.auto-video-captions.top/2020/dataset} で利用可能である。 In this work, we present Auto-captions on GIF, which is a new large-scale pre-training dataset for generic video understanding. All video-sentence pairs are created by automatically extracting and filtering video caption annotations from billions of web pages. Auto-captions on GIF dataset can be utilized to pre-train the generic feature representation or encoder-decoder structure for video captioning, and other downstream tasks (e.g., sentence localization in videos, video question answering, etc.) as well. We present a detailed analysis of Auto-captions on GIF dataset in comparison to existing video-sentence datasets. We also provide an evaluation of a Transformer-based encoder-decoder structure for vision-language pre-training, which is further adapted to video captioning downstream task and yields the compelling generalizability on MSR-VTT. The dataset is available at \url{http://www.auto-video-captions.top/2020/dataset}. | 翻訳日:2022-11-13 07:44:59 公開日:2020-07-05 |
# 教師なし連想尺度による中国語セグメンテーションフリー単語埋め込みの改善 Improving Chinese Segmentation-free Word Embedding With Unsupervised Association Measure ( http://arxiv.org/abs/2007.02342v1 ) ライセンス: Link先を確認 | Yifan Zhang, Maohua Wang, Yongjian Huang, Qianrong Gu | (参考訳) セグメンテーションフリーワード埋め込み(sembei)に関する最近の研究は、セグメンテーションを前処理ステップとして避けつつ、セグメンテーションなし言語のための新しいパイプラインを開発した。
しかし、文字間の強い結合力を持たない組込み語彙に存在するノイズの多いn-gramが多すぎると、学習された単語組込みの品質が制限される。
この問題に対処するために,n-grams語彙をtimes information(pati)のpointwise associationと呼ばれる新しい非教師なしアソシエーション尺度を用いて収集し,セグメンテーションフリーな単語埋め込みモデルの新バージョンを提案する。
センベイにおける周波数やポイントワイド相互情報(PMI)などの一般的なn-gramフィルタリング手法と比較して,提案手法はコーパスからより潜時的な情報を利用して,中国語テキストなどの未分類言語データへの埋め込みターゲットとして,より強い凝集度を持つn-gramを収集することができる。
中国SNSデータに関するさらなる実験により、提案手法により、下流タスクにおける単語埋め込みの性能が向上することが示された。 Recent work on segmentation-free word embedding(sembei) developed a new pipeline of word embedding for unsegmentated language while avoiding segmentation as a preprocessing step. However, too many noisy n-grams existing in the embedding vocabulary that do not have strong association strength between characters would limit the quality of learned word embedding. To deal with this problem, a new version of segmentation-free word embedding model is proposed by collecting n-grams vocabulary via a novel unsupervised association measure called pointwise association with times information(PATI). Comparing with the commonly used n-gram filtering method like frequency used in sembei and pointwise mutual information(PMI), the proposed method leverages more latent information from the corpus and thus is able to collect more valid n-grams that have stronger cohesion as embedding targets in unsegmented language data, such as Chinese texts. Further experiments on Chinese SNS data show that the proposed model improves performance of word embedding in downstream tasks. | 翻訳日:2022-11-13 07:44:40 公開日:2020-07-05 |