このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200308となっている論文です。

PDF登録状況(公開日: 20200308)

TitleAuthorsAbstract論文公表日・翻訳日
# 部分可観測線形二次制御における後悔最小化

Regret Minimization in Partially Observable Linear Quadratic Control ( http://arxiv.org/abs/2002.00082v2 )

ライセンス: Link先を確認
Sahin Lale, Kamyar Azizzadenesheli, Babak Hassibi, Anima Anandkumar(参考訳) モデルダイナミクスが未知である部分可観測線形二次制御系における後悔最小化の問題について検討する。 本研究では,モデルマルコフパラメータを学習し,コントローラ設計に不確実性に直面した楽観主義の原理に従うexpcommitを提案する。 本稿では, 部分的に観測可能な線形二次制御のために, 後悔を分解し, 終端から終端までの後悔の上限を与える新しい方法を提案する。 最後に、安定保証を提供し、$t$が問題の時間軸であるexpcommitに対して$\tilde{\mathcal{o}}(t^{2/3})$の後悔の上限を確立する。

We study the problem of regret minimization in partially observable linear quadratic control systems when the model dynamics are unknown a priori. We propose ExpCommit, an explore-then-commit algorithm that learns the model Markov parameters and then follows the principle of optimism in the face of uncertainty to design a controller. We propose a novel way to decompose the regret and provide an end-to-end sublinear regret upper bound for partially observable linear quadratic control. Finally, we provide stability guarantees and establish a regret upper bound of $\tilde{\mathcal{O}}(T^{2/3})$ for ExpCommit, where $T$ is the time horizon of the problem.
翻訳日:2023-01-05 06:12:53 公開日:2020-03-08
# BUSU-Net:医療画像セグメンテーションのためのU-Netフレームワーク

BUSU-Net: An Ensemble U-Net Framework for Medical Image Segmentation ( http://arxiv.org/abs/2003.01581v2 )

ライセンス: Link先を確認
Wei Hao Khoong(参考訳) 近年,畳み込みニューラルネットワーク(cnns)が医療画像解析に革命をもたらした。 セマンティックセグメンテーションで最も有名なCNNアーキテクチャの1つはU-netであり、いくつかの医療画像セグメンテーションアプリケーションで大きな成功を収めている。 さらに最近では、ニューラルアーキテクチャサーチ(NAS)におけるオートMLの進歩により、医療画像セグメンテーションにおいてNAS-Unetのような手法が提案されている。 本稿では,ラダーネット,u-net,automl,nasから着想を得て,双方向畳み込み型lstmと密接な接続からなるu-netフレームワークを用いた,第1の(左から)u-netライクなネットワークが第2の(左から)より深い,アンサンブルなディープニューラルネットワークを提案する。 このネットワークは,最近の最先端ネットワークをいくつかの評価指標で上回っており,また,最近の最先端ネットワークをいくつかの評価指標で上回る軽量版の評価も行っている。

In recent years, convolutional neural networks (CNNs) have revolutionized medical image analysis. One of the most well-known CNN architectures in semantic segmentation is the U-net, which has achieved much success in several medical image segmentation applications. Also more recently, with the rise of autoML ad advancements in neural architecture search (NAS), methods like NAS-Unet have been proposed for NAS in medical image segmentation. In this paper, with inspiration from LadderNet, U-Net, autoML and NAS, we propose an ensemble deep neural network with an underlying U-Net framework consisting of bi-directional convolutional LSTMs and dense connections, where the first (from left) U-Net-like network is deeper than the second (from left). We show that this ensemble network outperforms recent state-of-the-art networks in several evaluation metrics, and also evaluate a lightweight version of this ensemble network, which also outperforms recent state-of-the-art networks in some evaluation metrics.
翻訳日:2022-12-26 23:18:36 公開日:2020-03-08
# 事前知識のないブラインド画像復元

Blind Image Restoration without Prior Knowledge ( http://arxiv.org/abs/2003.01764v2 )

ライセンス: Link先を確認
Noam Elron, Shahar S. Yuval, Dmitry Rudoy and Noam Levy(参考訳) 多くの画像復元技術は、訓練中の劣化に大きく依存しており、わずかに異なる入力に適用すると、その性能は著しく低下する。 盲目的で普遍的な手法は、様々な条件に適応できる訓練されたモデルを作ることで、これを緩和しようとする。 しかし、現在の盲点技術は劣化過程の事前の知識とパラメータ空間に関する仮定を必要とする。 本稿では, 劣化の事前知識を必要とせず, ブラインドユニバーサル修復への新しいアプローチである自己正規化側鎖(scnc)を提案する。 このモジュールは既存のCNNトポロジに追加することができ、ネットワークの他の部分とエンドツーエンドでトレーニングされる。 タスクに関連するイメージングパラメータとそれらのダイナミクスは、トレーニングデータの多様性から推定される。 本手法を画像復元作業に適用し, SNSCが劣化パラメータを符号化し, 復元性能を向上させることを実証する。

Many image restoration techniques are highly dependent on the degradation used during training, and their performance declines significantly when applied to slightly different input. Blind and universal techniques attempt to mitigate this by producing a trained model that can adapt to varying conditions. However, blind techniques to date require prior knowledge of the degradation process, and assumptions regarding its parameter-space. In this paper we present the Self-Normalization Side-Chain (SCNC), a novel approach to blind universal restoration in which no prior knowledge of the degradation is needed. This module can be added to any existing CNN topology, and is trained along with the rest of the network in an end-to-end manner. The imaging parameters relevant to the task, as well as their dynamics, are deduced from the variety in the training data. We apply our solution to several image restoration tasks, and demonstrate that the SNSC encodes the degradation-parameters, improving restoration performance.
翻訳日:2022-12-26 23:01:46 公開日:2020-03-08
# PUMiner: 開発者質問からのセキュリティポストのマイニングとPU学習によるWebサイトへの回答

PUMiner: Mining Security Posts from Developer Question and Answer Websites with PU Learning ( http://arxiv.org/abs/2003.03741v1 )

ライセンス: Link先を確認
Triet H. M. Le, David Hin, Roland Croft, M. Ali Babar(参考訳) セキュリティはソフトウェア開発における関心の高まりだ。 Developer Question and Answer (Q&A) Webサイトは、大量のセキュリティに関する議論を行っている。 既存の研究では、セキュリティに関する議論に人間定義のルールを用いたが、これらの研究は依然として多くの投稿を見逃しており、q&aウェブサイトで報告されたセキュリティプラクティスの不完全な分析に繋がる可能性がある。 従来の教師付き機械学習手法はマイニングプロセスを自動化できるが、必要なネガティブ(非セキュリティ)クラスを取得するには高価すぎる。 本稿では,Q&A サイトからセキュリティポストを自動的にマイニングする新しい学習フレームワーク PUMiner を提案する。 PUMinerは、投稿の特徴を抽出するコンテキスト対応の埋め込みモデルを構築し、ラベル付きPositiveとUnlabelledを使ってセキュリティコンテンツを識別する2段階のPUモデルを開発する。 私たちはPUMinerをStack Overflowの1720万以上の投稿とSecurity StackExchangeの52,611の投稿で評価しています。 PUMiner はすべてのモデル構成に対して少なくとも 0.85 の検証性能で有効であることを示す。 さらに,puminerのマシューズ相関係数 (mcc) はそれぞれ0.906, 0.534, 0.084点高く, 正の類似性フィルタリング, および一段階のpuモデルである。 PUMinerは文字列マッチングが完全に失敗するシナリオのMCCも0.745である。 ラベル付きポジティブポストと非ラベル付きポストの比率が1:100 である場合でも、PUMiner は 0.65 の強いMCCを達成し、完全な教師付き学習よりも 160% よい。 PUMinerを使うことで、実践者や研究者に対して、Q&Aウェブサイト上で最大かつ最新のセキュリティコンテンツを提供する。

Security is an increasing concern in software development. Developer Question and Answer (Q&A) websites provide a large amount of security discussion. Existing studies have used human-defined rules to mine security discussions, but these works still miss many posts, which may lead to an incomplete analysis of the security practices reported on Q&A websites. Traditional supervised Machine Learning methods can automate the mining process; however, the required negative (non-security) class is too expensive to obtain. We propose a novel learning framework, PUMiner, to automatically mine security posts from Q&A websites. PUMiner builds a context-aware embedding model to extract features of the posts, and then develops a two-stage PU model to identify security content using the labelled Positive and Unlabelled posts. We evaluate PUMiner on more than 17.2 million posts on Stack Overflow and 52,611 posts on Security StackExchange. We show that PUMiner is effective with the validation performance of at least 0.85 across all model configurations. Moreover, Matthews Correlation Coefficient (MCC) of PUMiner is 0.906, 0.534 and 0.084 points higher than one-class SVM, positive-similarity filtering, and one-stage PU models on unseen testing posts, respectively. PUMiner also performs well with an MCC of 0.745 for scenarios where string matching totally fails. Even when the ratio of the labelled positive posts to the unlabelled ones is only 1:100, PUMiner still achieves a strong MCC of 0.65, which is 160% better than fully-supervised learning. Using PUMiner, we provide the largest and up-to-date security content on Q&A websites for practitioners and researchers.
翻訳日:2022-12-25 14:47:59 公開日:2020-03-08
# 超高密度ネットワークにおける動的人気下での強化学習に基づく協調コーデック

Reinforcement Learning Based Cooperative Coded Caching under Dynamic Popularities in Ultra-Dense Networks ( http://arxiv.org/abs/2003.03758v1 )

ライセンス: Link先を確認
Shen Gao, Peihao Dong, Zhiwen Pan, Geoffrey Ye Li(参考訳) 無線バックホールを持つ超高密度ネットワークでは、通常ストレージが限られている小規模基地局(sbss)でのキャッシュ戦略は、膨大なデータレート要求を満たすために不可欠である。 コンテンツ人気プロファイルは時間によって異なるため、強化学習(RL)を利用して、最大距離分離可能(MDS)符号化による協調キャッシュ戦略を設計する。 我々はMDS符号化に基づく協調キャッシュをマルコフ決定プロセスとしてモデル化し、マクロ基地局にアクセスせずにSBSが直接提供する長期予測累積トラフィック負荷を最大化する。 定式化問題に対しては,まず,協調型mds符号化をq-learningに組み込むことにより,小規模システムの最適解を求める。 大規模事例に対応するために, 状態動作値関数をヒューリスティックに近似する。 近似関数は、学習可能なパラメータをほんの数個含むだけで、より高速で効率的なアクション選択アプローチを提案し、複雑さを劇的に低減します。 数値計算により提案したRLアルゴリズムの最適性と近距離最適性を検証し,ベースライン方式と比較して優位性を示す。 また、異なる環境に対して優れた堅牢性を示す。

For ultra-dense networks with wireless backhaul, caching strategy at small base stations (SBSs), usually with limited storage, is critical to meet massive high data rate requests. Since the content popularity profile varies with time in an unknown way, we exploit reinforcement learning (RL) to design a cooperative caching strategy with maximum-distance separable (MDS) coding. We model the MDS coding based cooperative caching as a Markov decision process to capture the popularity dynamics and maximize the long-term expected cumulative traffic load served directly by the SBSs without accessing the macro base station. For the formulated problem, we first find the optimal solution for a small-scale system by embedding the cooperative MDS coding into Q-learning. To cope with the large-scale case, we approximate the state-action value function heuristically. The approximated function includes only a small number of learnable parameters and enables us to propose a fast and efficient action-selection approach, which dramatically reduces the complexity. Numerical results verify the optimality/near-optimality of the proposed RL based algorithms and show the superiority compared with the baseline schemes. They also exhibit good robustness to different environments.
翻訳日:2022-12-25 14:47:27 公開日:2020-03-08
# データストリーミング異常検出のためのtedaアルゴリズムのハードウェアアーキテクチャの提案

Hardware Architecture Proposal for TEDA algorithm to Data Streaming Anomaly Detection ( http://arxiv.org/abs/2003.03837v1 )

ライセンス: Link先を確認
Lucileide M. D. da Silva, Maria G. F. Coutinho, Carlos E. B. Santos, Mailson R. Santos, Luiz Affonso Guedes, M. Dolores Ruiz, Marcelo A. C. Fernandes(参考訳) 今日利用可能な時系列データやストリーミングデータなど、リアルタイムのデータ量は増え続けている。 到着した瞬間にこのデータを分析できることは、大きな付加価値をもたらす可能性がある。 しかし、多くの計算努力と新しい加速技術も必要である。 そこで本研究では,データストリーミング異常検出のために,FPGA(Field Programmable Gate Arrays)上に実装された定型性と偏心性データ解析(TEDA)アルゴリズムのハードウェアアーキテクチャを提案する。 TEDAは、データストリームコンテキストにおける外れ値検出の新しいアプローチに基づいている。 提案の有効性を検証するために,提案するハードウェアの占有率とスループットについて述べる。 また,シミュレーション結果の精度も高めている。 xilinx virtex-6 xc6vlx240t-1ff1156をターゲットとするプロジェクトである。

The amount of data in real-time, such as time series and streaming data, available today continues to grow. Being able to analyze this data the moment it arrives can bring an immense added value. However, it also requires a lot of computational effort and new acceleration techniques. As a possible solution to this problem, this paper proposes a hardware architecture for Typicality and Eccentricity Data Analytic (TEDA) algorithm implemented on Field Programmable Gate Arrays (FPGA) for use in data streaming anomaly detection. TEDA is based on a new approach to outlier detection in the data stream context. In order to validate the proposals, results of the occupation and throughput of the proposed hardware are presented. Besides, the bit accurate simulation results are also presented. The project aims to Xilinx Virtex-6 xc6vlx240t-1ff1156 as the target FPGA.
翻訳日:2022-12-25 14:47:08 公開日:2020-03-08
# オブジェクトピッキングのためのオンライン自己監督学習:メトリック学習アプローチによる最適グラスピング位置の検出

Online Self-Supervised Learning for Object Picking: Detecting Optimum Grasping Position using a Metric Learning Approach ( http://arxiv.org/abs/2003.03717v1 )

ライセンス: Link先を確認
Kanata Suzuki, Yasuto Yokota, Yuzi Kanazawa, Tomoyoshi Takebayashi(参考訳) 自己教師付き学習法は、自動オブジェクト選択の魅力的な候補である。 しかし、試薬の観察可能な部分は限られているため、試験サンプルは完全な根拠の真実を欠いている。 すなわち、試用試料に含まれる情報は、しばしば各対象の特定の把握位置を知るために不十分である。 これにより、訓練は局所解に落ち、ロボットが学習した把持位置は対象の状態とは独立している。 本研究では、メトリック学習により得られた特徴空間内の距離として定義される把持スコアから、個々の対象の最適把持位置を決定する。 事前設計した最適把握位置に対する溶液の密接度を試験で評価した。 提案手法では, 把持位置が最適に近づくと, 1つのフィードバックが把持スコアを拡大し, もう1つのフィードバックが把持候補間の有意把持位置の負のフィードバックを減少させる, という2つのフィードバック制御が組み込まれている。 2つのディープニューラルネットワークを用いたオンライン自己教師付き学習手法を提案する。 対象物の把持位置を検出するssdと、特徴空間における2つの入力データの類似性を用いて試用サンプルを評価するシャムネットワーク(sns)。 提案手法は, 実験サンプルを訓練することにより, 特徴ベクトルとしての把握位置の関係と, 最適な把握位置を示すいくつかの事前サンプルを埋め込む。 SNの特徴空間に基づく把握スコアをSSDトレーニングプロセスに組み込むことにより、最適な把握位置を優先的に訓練する。 提案手法は,簡単な指導信号を用いたベースライン法よりも高い成功率を達成した。 また、SNの特徴空間における把握スコアは、対象物の把握位置を正確に表している。

Self-supervised learning methods are attractive candidates for automatic object picking. However, the trial samples lack the complete ground truth because the observable parts of the agent are limited. That is, the information contained in the trial samples is often insufficient to learn the specific grasping position of each object. Consequently, the training falls into a local solution, and the grasp positions learned by the robot are independent of the state of the object. In this study, the optimal grasping position of an individual object is determined from the grasping score, defined as the distance in the feature space obtained using metric learning. The closeness of the solution to the pre-designed optimal grasping position was evaluated in trials. The proposed method incorporates two types of feedback control: one feedback enlarges the grasping score when the grasping position approaches the optimum; the other reduces the negative feedback of the potential grasping positions among the grasping candidates. The proposed online self-supervised learning method employs two deep neural networks. : SSD that detects the grasping position of an object, and Siamese networks (SNs) that evaluate the trial sample using the similarity of two input data in the feature space. Our method embeds the relation of each grasping position as feature vectors by training the trial samples and a few pre-samples indicating the optimum grasping position. By incorporating the grasping score based on the feature space of SNs into the SSD training process, the method preferentially trains the optimum grasping position. In the experiment, the proposed method achieved a higher success rate than the baseline method using simple teaching signals. And the grasping scores in the feature space of the SNs accurately represented the grasping positions of the objects.
翻訳日:2022-12-25 14:45:19 公開日:2020-03-08
# てんかん診断のためのグラミアン角和場を用いた脳波信号分類のためのディープニューラルネットワークの実装

Implementation of Deep Neural Networks to Classify EEG Signals using Gramian Angular Summation Field for Epilepsy Diagnosis ( http://arxiv.org/abs/2003.04534v1 )

ライセンス: Link先を確認
K. Palani Thanaraj, B. Parvathavarthini, U. John Tanik, V. Rajinikanth, Seifedine Kadry, K. Kamalanand(参考訳) 本稿では,深層ニューラルネットワーク(dnn)によるてんかんの診断における脳波などの画像時系列データのアプローチを評価する。 EEG信号は、Gramian Angular Summation Field (GASF)を用いてRGB画像に変換する。 多くの脳波エポックは正常脳波および焦点脳波信号のgasf画像に変換される。 次に、画像分類問題に広く用いられている深層ニューラルネットワークのいくつかを用いて、焦点gasf画像を検出する。 AlexNet、VGG16、VGG19の3つの事前訓練DNNが、転写学習アプローチに基づいてててんかん検出のために検証されている。 さらに、GASF画像からテクスチャ特徴を抽出し、多層ニューラルネットワーク(ANN)分類器において顕著な特徴を選択する。 最後に, GASF画像からのてんかん診断のために, バッチ正規化, Max-pooling, Denseの3層からなるカスタム畳み込みニューラルネットワーク(CNN)を提案する。 この結果から, 平均ピーク精度0.885, リコール率0.92, F1スコア0.90のGASF画像に対して, カスタムCNNモデルで識別できることが示唆された。 さらに、受信器動作特性(ROC)曲線のAUC値は、カスタムCNNモデルでは0.92である。 本稿では,画像分類問題において広く用いられている深層学習手法が,脳波信号からgcf画像によるてんかん検出の代替手法となることを示唆する。

This paper evaluates the approach of imaging timeseries data such as EEG in the diagnosis of epilepsy through Deep Neural Network (DNN). EEG signal is transformed into an RGB image using Gramian Angular Summation Field (GASF). Many such EEG epochs are transformed into GASF images for the normal and focal EEG signals. Then, some of the widely used Deep Neural Networks for image classification problems are used here to detect the focal GASF images. Three pre-trained DNN such as the AlexNet, VGG16, and VGG19 are validated for epilepsy detection based on the transfer learning approach. Furthermore, the textural features are extracted from GASF images, and prominent features are selected for a multilayer Artificial Neural Network (ANN) classifier. Lastly, a Custom Convolutional Neural Network (CNN) with three CNN layers, Batch Normalization, Max-pooling layer, and Dense layers, is proposed for epilepsy diagnosis from GASF images. The results of this paper show that the Custom CNN model was able to discriminate against the focal and normal GASF images with an average peak Precision of 0.885, Recall of 0.92, and F1-score of 0.90. Moreover, the Area Under the Curve (AUC) value of the Receiver Operating Characteristic (ROC) curve is 0.92 for the Custom CNN model. This paper suggests that Deep Learning methods widely used in image classification problems can be an alternative approach for epilepsy detection from EEG signals through GASF images.
翻訳日:2022-12-25 14:43:44 公開日:2020-03-08
# 依存型付き知識グラフ

Dependently Typed Knowledge Graphs ( http://arxiv.org/abs/2003.03785v1 )

ライセンス: Link先を確認
Zhangsheng Lai, Aik Beng Ng, Liang Ze Wong, Simon See, and Shaowei Lin(参考訳) 知識グラフに対する推論は、伝統的にセマンティックウェブスタックの言語階層の上に構築されている。 知識グラフのResource Description Framework (RDF) から、知識グラフに推論機能を追加する様々な構文拡張を通じて、より高度な構造が導入された。 本稿では,標準セマンティックWeb技術(RDFとそのクエリ言語SPARQL)を依存型理論と統一的に再現する方法を示す。 知識グラフの基本的な機能の提供に加えて、依存型はエンティティとクエリの両方をエンコードする表現力、目撃者によるクエリに対する応答の説明可能性、目撃者構築における構成性と自動化を付加する。 我々は,Coq証明アシスタントを用いて,将来的な研究の実証として,依存型付き知識グラフを構築し,クエリする方法を実証する。

Reasoning over knowledge graphs is traditionally built upon a hierarchy of languages in the Semantic Web Stack. Starting from the Resource Description Framework (RDF) for knowledge graphs, more advanced constructs have been introduced through various syntax extensions to add reasoning capabilities to knowledge graphs. In this paper, we show how standardized semantic web technologies (RDF and its query language SPARQL) can be reproduced in a unified manner with dependent type theory. In addition to providing the basic functionalities of knowledge graphs, dependent types add expressiveness in encoding both entities and queries, explainability in answers to queries through witnesses, and compositionality and automation in the construction of witnesses. Using the Coq proof assistant, we demonstrate how to build and query dependently typed knowledge graphs as a proof of concept for future works in this direction.
翻訳日:2022-12-25 14:43:22 公開日:2020-03-08
# ディーププランニングドメイン学習によるピクセルからの転送可能なタスク実行

Transferable Task Execution from Pixels through Deep Planning Domain Learning ( http://arxiv.org/abs/2003.03726v1 )

ライセンス: Link先を確認
Kei Kase, Chris Paxton, Hammad Mazhar, Tetsuya Ogata, Dieter Fox(参考訳) ロボットは生の視覚入力から多くの操作タスクを解くためにモデルを学ぶことができるが、これらのモデルを使って新しい問題を解決することはできない。 一方、ストリップのようなシンボリックプランニング手法は、ドメイン定義とシンボリック目標のみを考慮すれば、これまでも新たな問題を解決することができたが、これらのアプローチは、部分的に観察可能な世界のセンサデータからシンボルを接地することの難しさから、現実世界のロボットタスクでしばしば苦労する。 本稿では,2つの手法の強みを組み合わせた階層モデル学習手法であるdeep planning domain learning (dpdl)を提案する。 DPDLは、現在の象徴的世界状態からなる論理述語集合の値を予測する高レベルモデルを学び、シンボル的演算子をロボット上で実行可能な動作に変換する低レベルポリシーを別々に学習する。 これにより、ロボットが明示的に訓練されていなくても、複雑なマルチステップタスクを実行できる。 我々は,フォトリアリスティックなキッチンシナリオで操作タスクを行う方法を示す。

While robots can learn models to solve many manipulation tasks from raw visual input, they cannot usually use these models to solve new problems. On the other hand, symbolic planning methods such as STRIPS have long been able to solve new problems given only a domain definition and a symbolic goal, but these approaches often struggle on the real world robotic tasks due to the challenges of grounding these symbols from sensor data in a partially-observable world. We propose Deep Planning Domain Learning (DPDL), an approach that combines the strengths of both methods to learn a hierarchical model. DPDL learns a high-level model which predicts values for a large set of logical predicates consisting of the current symbolic world state, and separately learns a low-level policy which translates symbolic operators into executable actions on the robot. This allows us to perform complex, multi-step tasks even when the robot has not been explicitly trained on them. We show our method on manipulation tasks in a photorealistic kitchen scenario.
翻訳日:2022-12-25 14:43:06 公開日:2020-03-08
# Xtreaming: インクリメンタル多次元投影法とそのストリーミングデータへの応用

Xtreaming: an incremental multidimensional projection technique and its application to streaming data ( http://arxiv.org/abs/2003.09017v1 )

ライセンス: Link先を確認
T\'acito T. A. T. Neves, Rafael M. Martins, Danilo B. Coimbra, Kostiantyn Kucher, Andreas Kerren, Fernando V. Paulovich(参考訳) ストリーミングデータアプリケーションは,センサやソーシャルメディアなどのデータを連続的にキャプチャないし生成するさまざまな情報ソースの能力によって,より一般的になっています。 近年の進歩にもかかわらず、ほとんどの可視化手法、特に多次元投影や次元縮小技術は、ストリーミングデータの過渡的性質のため、そのようなシナリオでは直接適用できない。 現在、オンラインまたはインクリメンタル戦略を使用してこの制限に対処し、データを継続的に処理し、視覚化を更新しているメソッドはわずかである。 相対的な成功にもかかわらず、その多くはデータの保存とアクセスを複数回必要としており、データが継続的に成長するストリーミングには適していない。 このような要件を課すものはありませんが、すでに投影されているデータの位置を更新することはできません。 本稿では,多次元データを複数回参照することなく,新たに出現する構造やパターンを反映した視覚表現を連続的に更新する,新たなインクリメンタルプロジェクション手法であるxtreamingを提案する。 実験の結果,Xtreamingは,他のストリーミングやインクリメンタル手法と比較して,グローバルな距離保存の面では競争力があることがわかった。 我々の知る限りでは、すべてのデータを保存せずに新しい構造を忠実に表現するプロジェクションを進化させることのできる最初の方法論であり、ストリーミングデータを効率的に効果的に投影するための信頼性の高い結果を提供する。

Streaming data applications are becoming more common due to the ability of different information sources to continuously capture or produce data, such as sensors and social media. Despite recent advances, most visualization approaches, in particular, multidimensional projection or dimensionality reduction techniques, cannot be directly applied in such scenarios due to the transient nature of streaming data. Currently, only a few methods address this limitation using online or incremental strategies, continuously processing data, and updating the visualization. Despite their relative success, most of them impose the need for storing and accessing the data multiple times, not being appropriate for streaming where data continuously grow. Others do not impose such requirements but are not capable of updating the position of the data already projected, potentially resulting in visual artifacts. In this paper, we present Xtreaming, a novel incremental projection technique that continuously updates the visual representation to reflect new emerging structures or patterns without visiting the multidimensional data more than once. Our tests show that Xtreaming is competitive in terms of global distance preservation if compared to other streaming and incremental techniques, but it is orders of magnitude faster. To the best of our knowledge, it is the first methodology that is capable of evolving a projection to faithfully represent new emerging structures without the need to store all data, providing reliable results for efficiently and effectively projecting streaming data.
翻訳日:2022-12-25 14:42:47 公開日:2020-03-08
# IMRAM: 画像-テキスト検索のための繰り返しアテンションメモリとの反復マッチング

IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval ( http://arxiv.org/abs/2003.03772v1 )

ライセンス: Link先を確認
Hui Chen, Guiguang Ding, Xudong Liu, Zijia Lin, Ji Liu, Jungong Han(参考訳) 画像とテキストの双方向検索は、視覚と言語との対応を理解する上で重要である。 既存の手法では注意機構を利用して細かな方法で対応を探索している。 しかし、それらの多くは全ての意味論を等しく考慮し、それらの多様な複雑さに関わらず、それらを一様に整列させる。 実際、意味論は多種多様であり(すなわち、様々な意味概念を含む)、人間は通常、理解可能な言語に結合するために潜在構造に従う。 既存の手法でこのような高度な対応を最適に捉えるのは難しいかもしれない。 本稿では,このような不足に対処するために,画像とテキストの対応を複数ステップのアライメントでキャプチャする反復型アテンションメモリ(imram)方式を提案する。 具体的には,このような細かな対応を段階的に探究する反復マッチングスキームを提案する。 メモリ蒸留ユニットは、初期の段階から後の段階までアライメント知識を洗練するために使用される。 Flickr8K、Flickr30K、MS COCOの3つのベンチマークデータセットの実験結果から、IMRAMが最先端のパフォーマンスを達成し、その効果を十分に証明していることがわかる。 実用的なビジネス広告データセットである \Ads{} の実験は、実用シナリオにおける我々の手法の適用性をさらに検証する。

Enabling bi-directional retrieval of images and texts is important for understanding the correspondence between vision and language. Existing methods leverage the attention mechanism to explore such correspondence in a fine-grained manner. However, most of them consider all semantics equally and thus align them uniformly, regardless of their diverse complexities. In fact, semantics are diverse (i.e. involving different kinds of semantic concepts), and humans usually follow a latent structure to combine them into understandable languages. It may be difficult to optimally capture such sophisticated correspondences in existing methods. In this paper, to address such a deficiency, we propose an Iterative Matching with Recurrent Attention Memory (IMRAM) method, in which correspondences between images and texts are captured with multiple steps of alignments. Specifically, we introduce an iterative matching scheme to explore such fine-grained correspondence progressively. A memory distillation unit is used to refine alignment knowledge from early steps to later ones. Experiment results on three benchmark datasets, i.e. Flickr8K, Flickr30K, and MS COCO, show that our IMRAM achieves state-of-the-art performance, well demonstrating its effectiveness. Experiments on a practical business advertisement dataset, named \Ads{}, further validates the applicability of our method in practical scenarios.
翻訳日:2022-12-25 14:35:14 公開日:2020-03-08
# 野球ゲーム再構築のためのトラッキングシステム

A Tracking System For Baseball Game Reconstruction ( http://arxiv.org/abs/2003.03856v1 )

ライセンス: Link先を確認
Nina Wiedemann, Carlos Dietrich, Claudio T. Silva(参考訳) 野球の試合は、しばしば個人間で行われる多くのコンテストと見なされる。 例えば、ピッチャーとバッターのデュエルは、スポーツを駆動するエンジンと考えられている。 投手は、打者に対して競争上の優位性を得るために様々な戦略を使用し、ボールの軌跡を把握し、ヒットに間に合うように反応するように最善を尽くします。 本研究では,ピッチャー,バッター,ボールの動きを高レベルに捉えるシステムを提案し,その情報がどのように処理され,興味深い統計値が得られるかについて議論する。 提案手法は,ビデオ資料のみを対象とし,従来のシステムと同等の結果が得られるビデオの大規模データベースを実証する。 さらに、選手、コーチ、チーム、ファンが利用できる情報の量を増やすために、最先端のAI技術が組み込まれています。

The baseball game is often seen as many contests that are performed between individuals. The duel between the pitcher and the batter, for example, is considered the engine that drives the sport. The pitchers use a variety of strategies to gain competitive advantage against the batter, who does his best to figure out the ball trajectory and react in time for a hit. In this work, we propose a system that captures the movements of the pitcher, the batter, and the ball in a high level of detail, and discuss several ways how this information may be processed to compute interesting statistics. We demonstrate on a large database of videos that our methods achieve comparable results as previous systems, while operating solely on video material. In addition, state-of-the-art AI techniques are incorporated to augment the amount of information that is made available for players, coaches, teams, and fans.
翻訳日:2022-12-25 14:33:34 公開日:2020-03-08
# 人間とディープニューラルネットの視覚的特徴

Salient Facial Features from Humans and Deep Neural Networks ( http://arxiv.org/abs/2003.08765v1 )

ライセンス: Link先を確認
Shanmeng Sun, Wei Zhen Teoh, Michael Guerzhoy(参考訳) 本研究では,人間や畳み込みニューラルネットワーク(ConvNet)が顔の分類に用いている特徴について検討する。 私たちは、特定の個人を特定する際に最もConvNetの出力に影響を与える顔の特徴を可視化するために、ガイド付きバックプロパゲーション(GB)を使用します。 私たちは、人間の知性タスクを使用して、特定の個人を特定する上で最も重要な顔の特徴を見つけます。 本研究では,人間とConvNetsから収集した情報の違いについて検討する。 人間は顔の特徴に関する利用可能な情報を使用して顔を識別するバイアスを発生させる。 研究によると、これらのバイアスは神経学的発達と個人の社会経験に影響されている。 近年、コンピュータビジョンコミュニティは、ディープニューラルネットワークベースのモデルを用いた多くの顔処理タスクにおいて、人間レベルのパフォーマンスを達成した。 これらの顔処理システムは、モデルアーキテクチャの選択とデータ分散の訓練により、体系的なバイアスを受ける。

In this work, we explore the features that are used by humans and by convolutional neural networks (ConvNets) to classify faces. We use Guided Backpropagation (GB) to visualize the facial features that influence the output of a ConvNet the most when identifying specific individuals; we explore how to best use GB for that purpose. We use a human intelligence task to find out which facial features humans find to be the most important for identifying specific individuals. We explore the differences between the saliency information gathered from humans and from ConvNets. Humans develop biases in employing available information on facial features to discriminate across faces. Studies show these biases are influenced both by neurological development and by each individual's social experience. In recent years the computer vision community has achieved human-level performance in many face processing tasks with deep neural network-based models. These face processing systems are also subject to systematic biases due to model architectural choices and training data distribution.
翻訳日:2022-12-25 14:32:46 公開日:2020-03-08
# ESBM: エンティティの要約 BenchMark

ESBM: An Entity Summarization BenchMark ( http://arxiv.org/abs/2003.03734v1 )

ライセンス: Link先を確認
Qingxia Liu, Gong Cheng, Kalpa Gunaratna, Yuzhong Qu(参考訳) エンティティ要約(Entity summarization)は、RDFデータから三重項のサイズ制限されたサブセットを選択することで、エンティティの最適なコンパクト要約を計算する問題である。 エンティティの要約は、多くのアプリケーションをサポートし、実りある研究につながった。 しかし、既存のシステムの幅広い範囲をカバーする評価努力の欠如がある。 理由の1つは、評価のためのベンチマークの欠如である。 一部のベンチマークはもはや利用できないが、制限のある小さなベンチマークもある。 本稿では、既存のベンチマークの限界を克服し、ベンチマークの標準デシラタを満たすEntity Summarization BenchMark(ESBM)を作成します。 汎用エンティティサマリーサの評価に利用可能な最大のベンチマークを用いて,9~既存のシステムを比較した,これまでで最も広範な実験を行う。 これらのシステムはすべて教師なしであるため、参照のための教師付き学習ベースシステムの実装と評価も行う。

Entity summarization is the problem of computing an optimal compact summary for an entity by selecting a size-constrained subset of triples from RDF data. Entity summarization supports a multiplicity of applications and has led to fruitful research. However, there is a lack of evaluation efforts that cover the broad spectrum of existing systems. One reason is a lack of benchmarks for evaluation. Some benchmarks are no longer available, while others are small and have limitations. In this paper, we create an Entity Summarization BenchMark (ESBM) which overcomes the limitations of existing benchmarks and meets standard desiderata for a benchmark. Using this largest available benchmark for evaluating general-purpose entity summarizers, we perform the most extensive experiment to date where 9~existing systems are compared. Considering that all of these systems are unsupervised, we also implement and evaluate a supervised learning based system for reference.
翻訳日:2022-12-25 14:32:33 公開日:2020-03-08
# DeepLENS: エンティティ要約のためのディープラーニング

DeepLENS: Deep Learning for Entity Summarization ( http://arxiv.org/abs/2003.03736v1 )

ライセンス: Link先を確認
Qingxia Liu, Gong Cheng, Yuzhong Qu(参考訳) エンティティの要約は知識グラフよりも顕著なタスクである。 既存の手法は主に教師なしだが,3重項の符号化にテキストセマンティクスを利用する,単純かつ効果的なディープラーニングモデルDeepLENSを提示し,その相互依存性に基づいて各候補の3重項をスコアする。 DeepLENSは、公開ベンチマークで既存のメソッドを著しく上回った。

Entity summarization has been a prominent task over knowledge graphs. While existing methods are mainly unsupervised, we present DeepLENS, a simple yet effective deep learning model where we exploit textual semantics for encoding triples and we score each candidate triple based on its interdependence on other triples. DeepLENS significantly outperformed existing methods on a public benchmark.
翻訳日:2022-12-25 14:32:19 公開日:2020-03-08
# swarm intelligenceを用いたソフトウェア信頼性モデリングにおけるパラメータ推定の比較研究

A Comparative Study on Parameter Estimation in Software Reliability Modeling using Swarm Intelligence ( http://arxiv.org/abs/2003.04770v1 )

ライセンス: Link先を確認
Najla Akram AL-Saati, Marrwa Abd-AlKareem Alabajee(参考訳) 本研究は,ソフトウェア信頼性向上モデルのパラメータ推定におけるcuckoo search (cs) とfirefly algorithm (fa) の2つのよく知られたswarmアルゴリズムの性能の比較に焦点を当てている。 この研究は、Particle Swarm Optimization (PSO) と Ant Colony Optimization (ACO) を用いてさらに強化されている。 全てのアルゴリズムは実際のソフトウェア故障データに基づいて評価され、テストを行い、得られた結果を比較して、使用する各アルゴリズムの性能を示す。 さらに、CSとFAは実行時間とイテレーション数に基づいて比較される。 実験結果から、CSはSRGMのパラメータを推定する上でより効率的であり、選択したデータセットおよび採用モデルに対するPSOおよびACOに加えて、FAよりも優れていることが示された。

This work focuses on a comparison between the performances of two well-known Swarm algorithms: Cuckoo Search (CS) and Firefly Algorithm (FA), in estimating the parameters of Software Reliability Growth Models. This study is further reinforced using Particle Swarm Optimization (PSO) and Ant Colony Optimization (ACO). All algorithms are evaluated according to real software failure data, the tests are performed and the obtained results are compared to show the performance of each of the used algorithms. Furthermore, CS and FA are also compared with each other on bases of execution time and iteration number. Experimental results show that CS is more efficient in estimating the parameters of SRGMs, and it has outperformed FA in addition to PSO and ACO for the selected Data sets and employed models.
翻訳日:2022-12-25 14:26:44 公開日:2020-03-08
# ユニバーサルなイメージ埋め込みに特別なイメージを埋め込む

Unifying Specialist Image Embedding into Universal Image Embedding ( http://arxiv.org/abs/2003.03701v1 )

ライセンス: Link先を確認
Yang Feng, Futang Peng, Xu Zhang, Wei Zhu, Shanfeng Zhang, Howard Zhou, Zhen Li, Tom Duerig, Shih-Fu Chang, Jiebo Luo(参考訳) 深部画像埋め込みは、2つの画像の意味的類似性を測定する方法を提供する。 画像検索、顔認証、ゼロショット学習など、多くのアプリケーションにおいて中心的な役割を果たす。 画像の様々な領域に適用可能な普遍的深層埋め込みモデルを持つことが望ましい。 しかし、既存の手法は主に訓練専門家の埋め込みモデルに依存しており、それぞれが単一のドメインの画像に適用できる。 本稿では,各専門家の領域における複数の専門家のパフォーマンスに合わせるために,単一の普遍的な画像埋め込みモデルをトレーニングする方法について検討する。 複数のドメインからトレーニングデータを融合するだけでは、既存のメソッドを使ってトレーニングすると、いくつかのドメインが過度に適合するため、この問題は解決できない。 そこで本研究では,複数の専門家の知識を普遍的な埋め込みに融合させてこの問題を解決することを提案する。 画像間の絶対距離を蒸留する既存の埋め込み蒸留法とは対照的に,画像間の絶対距離を確率分布に変換し,専門家の分布と普遍埋め込みとのKL分散を最小化する。 複数の公開データセットを用いて,提案手法がユニバーサル画像埋め込みの目標を達成することを検証した。

Deep image embedding provides a way to measure the semantic similarity of two images. It plays a central role in many applications such as image search, face verification, and zero-shot learning. It is desirable to have a universal deep embedding model applicable to various domains of images. However, existing methods mainly rely on training specialist embedding models each of which is applicable to images from a single domain. In this paper, we study an important but unexplored task: how to train a single universal image embedding model to match the performance of several specialists on each specialist's domain. Simply fusing the training data from multiple domains cannot solve this problem because some domains become overfitted sooner when trained together using existing methods. Therefore, we propose to distill the knowledge in multiple specialists into a universal embedding to solve this problem. In contrast to existing embedding distillation methods that distill the absolute distances between images, we transform the absolute distances between images into a probabilistic distribution and minimize the KL-divergence between the distributions of the specialists and the universal embedding. Using several public datasets, we validate that our proposed method accomplishes the goal of universal image embedding.
翻訳日:2022-12-25 14:26:30 公開日:2020-03-08
# 階層埋め込みのための適応的セマンティクス・ビジュアルツリー

Adaptive Semantic-Visual Tree for Hierarchical Embeddings ( http://arxiv.org/abs/2003.03707v1 )

ライセンス: Link先を確認
Shuo Yang, Wei Yu, Ying Zheng, Hongxun Yao, Tao Mei(参考訳) 商品カテゴリーは本質的に、概念抽象化の異なるレベル、特に細かなカテゴリーのセマンティック階層を形成する。 この階層は、さまざまなレベルにわたるさまざまなカテゴリ間の豊富な相関をエンコードするので、意味空間を効果的に規則化し、予測の曖昧さを軽減できる。 しかし,これまでの精細画像検索の研究は主に意味的類似性や視覚的類似性に焦点が当てられている。 実際のアプリケーションでは、単に視覚的類似性を利用するだけでは、消費者が実際の画像で商品を検索する必要性を満たすことができない可能性がある。 しかし、ユーザーはコートよりもコートを欲しがっている。コートも色やテクスチャの属性が違う。 本稿では,実際の写真撮影に基づく新しい問題を紹介する。 そのため、セマンティック情報は「視覚」の前に「意味」を作るためにマージンを規則化するために統合される。 そこで本研究では,異なる意味レベル間の意味類似度と同一意味クラス内の視覚類似度を同時に評価する商品カテゴリのアーキテクチャを表現する階層的適応的意味視木(asvt)を提案する。 セマンティック情報は、クエリと類似商品に対する消費者の要求を満たす一方、視覚情報はセマンティッククラス内の相関を最適化する。 各レベルにおいて、セマンティック階層に基づいて異なるマージンを設定し、それらを事前情報として組み込んで、きめ細かい機能埋め込みを学ぶ。 本フレームワークを評価するために,オンラインショッピングアプリケーション上で,実際の画像クエリと公式商品画像から階層ラベルを収集したJDProductという新しいデータセットを提案する。 パブリックカー196とcubの広範な実験結果

Merchandise categories inherently form a semantic hierarchy with different levels of concept abstraction, especially for fine-grained categories. This hierarchy encodes rich correlations among various categories across different levels, which can effectively regularize the semantic space and thus make predictions less ambiguous. However, previous studies of fine-grained image retrieval primarily focus on semantic similarities or visual similarities. In a real application, merely using visual similarity may not satisfy the need of consumers to search merchandise with real-life images, e.g., given a red coat as a query image, we might get a red suit in recall results only based on visual similarity since they are visually similar. But the users actually want a coat rather than suit even the coat is with different color or texture attributes. We introduce this new problem based on photoshopping in real practice. That's why semantic information are integrated to regularize the margins to make "semantic" prior to "visual". To solve this new problem, we propose a hierarchical adaptive semantic-visual tree (ASVT) to depict the architecture of merchandise categories, which evaluates semantic similarities between different semantic levels and visual similarities within the same semantic class simultaneously. The semantic information satisfies the demand of consumers for similar merchandise with the query while the visual information optimizes the correlations within the semantic class. At each level, we set different margins based on the semantic hierarchy and incorporate them as prior information to learn a fine-grained feature embedding. To evaluate our framework, we propose a new dataset named JDProduct, with hierarchical labels collected from actual image queries and official merchandise images on an online shopping application. Extensive experimental results on the public CARS196 and CUB-
翻訳日:2022-12-25 14:26:10 公開日:2020-03-08
# シーケンスレベル探索によるキャプション向上

Better Captioning with Sequence-Level Exploration ( http://arxiv.org/abs/2003.03749v1 )

ライセンス: Link先を確認
Jia Chen, Qin Jin(参考訳) シーケンスレベルの学習目標は多くのモデルで最先端のパフォーマンスを達成するためにキャプションタスクで広く使われている。 この目的において、モデルは生成されたキャプション(シーケンスレベル)の品質に対する報酬によって訓練される。 本研究では, 理論と実験結果の両方から, キャプション課題に対する現在のシーケンスレベルの学習目標の限界を示す。 理論的には、現在の目的はモデルによって生成されたキャプションセットの精度側のみを最適化することであり、リコール側を見落としていることを示している。 実証的な結果は、この目的によって訓練されたモデルは、リコール側で低いスコアを得る傾向があることを示している。 我々は,リコールを促進するために,現在の目的にシーケンスレベルの探索用語を追加することを提案する。 トレーニングにおいて、より妥当なキャプションを探索するためにモデルがガイドされる。 このようにして,提案手法は,生成キャプションの精度とリコール面の両方を考慮したものである。 ビデオと画像のキャプションデータセットにおける提案手法の有効性を示す実験を行った。

Sequence-level learning objective has been widely used in captioning tasks to achieve the state-of-the-art performance for many models. In this objective, the model is trained by the reward on the quality of its generated captions (sequence-level). In this work, we show the limitation of the current sequence-level learning objective for captioning tasks from both theory and empirical result. In theory, we show that the current objective is equivalent to only optimizing the precision side of the caption set generated by the model and therefore overlooks the recall side. Empirical result shows that the model trained by this objective tends to get lower score on the recall side. We propose to add a sequence-level exploration term to the current objective to boost recall. It guides the model to explore more plausible captions in the training. In this way, the proposed objective takes both the precision and recall sides of generated captions into account. Experiments show the effectiveness of the proposed method on both video and image captioning datasets.
翻訳日:2022-12-25 14:24:08 公開日:2020-03-08
# テンポラルカラーコンステンシーのベンチマーク

A Benchmark for Temporal Color Constancy ( http://arxiv.org/abs/2003.03763v1 )

ライセンス: Link先を確認
Yanlin Qian and Jani K\"apyl\"a and Joni-Kristian K\"am\"ar\"ainen and Samu Koskinen and Jiri Matas(参考訳) テンポラルカラーコンステンシー(英語版)(cc)は、従来の単一フレームカラーコンステンシーに挑戦する最近提案されたアプローチである。 従来のアプローチでは、シーンの照明色を推定するために、1フレームのショットフレームを使用する。 時間CCでは、ビューファインダーシーケンスから複数のフレームを使用して色を推定する。 しかし、手法評価のための現実的な大規模時間カラーコンステンシーデータセットは存在しない。 本研究では,新しい時間CCベンチマークを導入する。 本ベンチマークは,(1)高精細度携帯電話カメラで記録された600個の実世界シーケンス,(2)一貫した評価を保証する固定列車分割,(3)新しいベンチマークと過去の研究で使用されるデータセットの高精度化を実現するベースライン手法からなる。 本実験では,近年の最先端技術を含む20以上の有色着色方法について報告する。

Temporal Color Constancy (CC) is a recently proposed approach that challenges the conventional single-frame color constancy. The conventional approach is to use a single frame - shot frame - to estimate the scene illumination color. In temporal CC, multiple frames from the view finder sequence are used to estimate the color. However, there are no realistic large scale temporal color constancy datasets for method evaluation. In this work, a new temporal CC benchmark is introduced. The benchmark comprises of (1) 600 real-world sequences recorded with a high-resolution mobile phone camera, (2) a fixed train-test split which ensures consistent evaluation, and (3) a baseline method which achieves high accuracy in the new benchmark and the dataset used in previous works. Results for more than 20 well-known color constancy methods including the recent state-of-the-arts are reported in our experiments.
翻訳日:2022-12-25 14:23:37 公開日:2020-03-08
# デジタル透かしにおけるディープニューラルネットワークの一般的な利用法

A General Approach for Using Deep Neural Network for Digital Watermarking ( http://arxiv.org/abs/2003.12428v1 )

ライセンス: Link先を確認
Yurui Ming, Weiping Ding, Zehong Cao, Chin-Teng Lin(参考訳) iot(internet of things, モノのインターネット)の技術は、画像などのデジタルコンテンツの大量獲得を促進する。 しかし、プライバシーや立法の観点から考えると、いまだに知的コンテンツ保護の必要性が求められる。 本稿では,この目的を達成するための汎用ディープニューラルネットワーク(DNN)に基づく透かし手法を提案する。 特定の画像を保護するためにニューラルネットワークをトレーニングする代わりに、画像セットをトレーニングし、トレーニングされたモデルを使用して、異なるテストイメージセットをバルクで保護する。 主観的評価と客観的評価の両方から,提案手法の優越性と実用性を確認した。 この一般的なニューラル透かし機構の堅牢性を示すために、この透かし画像に一般的に使用される操作を適用して対応する抽出された透かしを調べる。 我々の知る限り、我々は初めてDNNを用いて透かしを行う一般的な方法を提案する。 その性能と経済性を考慮すると、知的コンテンツ保護にDNNを活用する研究を一般化する研究が有望な研究トレンドであると結論付けている。

Technologies of the Internet of Things (IoT) facilitate digital contents such as images being acquired in a massive way. However, consideration from the privacy or legislation perspective still demands the need for intellectual content protection. In this paper, we propose a general deep neural network (DNN) based watermarking method to fulfill this goal. Instead of training a neural network for protecting a specific image, we train on an image set and use the trained model to protect a distinct test image set in a bulk manner. Respective evaluations both from the subjective and objective aspects confirm the supremacy and practicability of our proposed method. To demonstrate the robustness of this general neural watermarking mechanism, commonly used manipulations are applied to the watermarked image to examine the corresponding extracted watermark, which still retains sufficient recognizable traits. To the best of our knowledge, we are the first to propose a general way to perform watermarking using DNN. Considering its performance and economy, it is concluded that subsequent studies that generalize our work on utilizing DNN for intellectual content protection is a promising research trend.
翻訳日:2022-12-25 14:17:37 公開日:2020-03-08
# ProGen:タンパク質生成のための言語モデリング

ProGen: Language Modeling for Protein Generation ( http://arxiv.org/abs/2004.03497v1 )

ライセンス: Link先を確認
Ali Madani, Bryan McCann, Nikhil Naik, Nitish Shirish Keskar, Namrata Anand, Raphael R. Eguchi, Po-Ssu Huang, Richard Socher(参考訳) タンパク質工学のための生成モデリングは、合成生物学、医学、物質科学における根本的な問題を解決する鍵となる。 コストのかかる構造アノテーションを欠くタンパク質の指数関数的に増加する集合を活用するために、タンパク質工学を教師なしシーケンス生成問題として採用する。 1.2bパラメータ言語モデルprogenを分子機能や細胞成分などのキーワードタグと分類された約280mのタンパク質配列で訓練した。 これにより、ProGenは前例のない進化的配列の多様性を提供し、一次配列の類似性、二次構造精度、コンフォメーションエネルギーに基づく測定値によるきめ細かい制御を生成できる。

Generative modeling for protein engineering is key to solving fundamental problems in synthetic biology, medicine, and material science. We pose protein engineering as an unsupervised sequence generation problem in order to leverage the exponentially growing set of proteins that lack costly, structural annotations. We train a 1.2B-parameter language model, ProGen, on ~280M protein sequences conditioned on taxonomic and keyword tags such as molecular function and cellular component. This provides ProGen with an unprecedented range of evolutionary sequence diversity and allows it to generate with fine-grained control as demonstrated by metrics based on primary sequence similarity, secondary structure accuracy, and conformational energy.
翻訳日:2022-12-25 14:17:21 公開日:2020-03-08
# DFVS:Deep Flow Guided Scene Agnostic Image based Visual Servoing

DFVS: Deep Flow Guided Scene Agnostic Image Based Visual Servoing ( http://arxiv.org/abs/2003.03766v1 )

ライセンス: Link先を確認
Y V S Harish, Harit Pandya, Ayush Gaud, Shreya Terupally, Sai Shankar and K. Madhava Krishna(参考訳) 既存のディープラーニングベースのビジュアルサーボアプローチは、画像間の相対カメラのポーズを後退させる。 そのため、大量のトレーニングデータと、新しいシーンに適応するための微調整が必要である。 さらに、現在のアプローチでは、シーンの基本的な形状を考慮せず、カメラポーズの直接推定に依存する。 したがって、カメラポーズの予測の不正確さ、特に遠方の目標のために、サーボ性能が低下する。 本稿では,2段階の解法を提案する。 i) 深部ニューラルネットワークを用いて予測される視覚的特徴として光学的流れを考察する。 (ii)これらのフロー特徴は、相互作用行列を用いて他のニューラルネットワークが提供する深さ推定と体系的に統合される。 さらに,視覚サーボアプローチの収束と一般化を研究するため,様々な場面におけるフォトリアリスティック3次元シミュレーションの広範なベンチマークを提案する。 3m以上40度以上の収束を示すとともに,1.5m以上20度以上のシナリオに対して収束できない既存のアプローチでは,2cm以下と1度以下の正確な位置を維持している。 さらに,航空ロボットの実際のシナリオに対するアプローチについても検討した。 提案手法は,6自由度の位置決めタスクに対して,リトレーニングや微調整を伴わない,高精度で堅牢なサーボ性能を実現する新しいシナリオに一般化する。

Existing deep learning based visual servoing approaches regress the relative camera pose between a pair of images. Therefore, they require a huge amount of training data and sometimes fine-tuning for adaptation to a novel scene. Furthermore, current approaches do not consider underlying geometry of the scene and rely on direct estimation of camera pose. Thus, inaccuracies in prediction of the camera pose, especially for distant goals, lead to a degradation in the servoing performance. In this paper, we propose a two-fold solution: (i) We consider optical flow as our visual features, which are predicted using a deep neural network. (ii) These flow features are then systematically integrated with depth estimates provided by another neural network using interaction matrix. We further present an extensive benchmark in a photo-realistic 3D simulation across diverse scenes to study the convergence and generalisation of visual servoing approaches. We show convergence for over 3m and 40 degrees while maintaining precise positioning of under 2cm and 1 degree on our challenging benchmark where the existing approaches that are unable to converge for majority of scenarios for over 1.5m and 20 degrees. Furthermore, we also evaluate our approach for a real scenario on an aerial robot. Our approach generalizes to novel scenarios producing precise and robust servoing performance for 6 degrees of freedom positioning tasks with even large camera transformations without any retraining or fine-tuning.
翻訳日:2022-12-25 14:17:09 公開日:2020-03-08
# 医用画像診断の評価による手術リスクの低減

Reduction of Surgical Risk Through the Evaluation of Medical Imaging Diagnostics ( http://arxiv.org/abs/2003.08748v1 )

ライセンス: Link先を確認
Marco A. V. M. Grinet, Nuno M. Garcia, Ana I. R. Gouveia, Jose A. F. Moutinho, Abel J. P. Gomes(参考訳) 近年,乳腺癌 (BRCA) 画像のコンピュータ支援診断 (CAD) が研究の活発な領域となっている。 本研究の主な目的は,診断画像からBRCAを検出・診断するための信頼性の高い自動診断手法を開発することである。 本稿では, BRCA患者のMRIおよびマンモグラフィー画像に応用したCAD法の現状について概説する。 本研究の目的は, BRCA画像からテクスチャと統計分析を通じて抽出した様々な特徴を広範囲に紹介することであり, メタデータを用いて関連する情報を集約し, 腫瘍学者や放射線学者を支援する深層学習フレームワークとデータ構造を分類することである。 既存の文献を画像のモダリティに応じて分類し,放射線学,機械学習,あるいは両者の組み合わせに分類する。 また,各モダリティと手法の強度と弱さの違いを強調し,定量的比較によりBRCAの検出性能を解析した。 BRCA検出のためのCADシステム実装における各種手法の結果を比較した。 各アプローチの標準ワークフローコンポーネントはレビューされ、概要表が提供される。 本稿では,BRCAの診断・検出に応用された放射能特徴抽出技術と機械学習手法について,データ作成,データ構造,前処理,後処理戦略に着目した広範な文献レビューを行う。 病理組織像,MRIおよびマンモグラフィー画像からBRCA検出のための放射線学的特徴抽出および機械学習手法への関心が高まっている。 しかし、最良の診断結果を提供するために異なるデータ型を組み合わせられるCAD手法は存在しない。 医療画像や患者データにデータ融合技術を用いると、検出と分類結果が改善される可能性がある。

Computer aided diagnosis (CAD) of Breast Cancer (BRCA) images has been an active area of research in recent years. The main goals of this research is to develop reliable automatic methods for detecting and diagnosing different types of BRCA from diagnostic images. In this paper, we present a review of the state of the art CAD methods applied to magnetic resonance (MRI) and mammography images of BRCA patients. The review aims to provide an extensive introduction to different features extracted from BRCA images through texture and statistical analysis and to categorize deep learning frameworks and data structures capable of using metadata to aggregate relevant information to assist oncologists and radiologists. We divide the existing literature according to the imaging modality and into radiomics, machine learning, or combination of both. We also emphasize the difference between each modality and methods strengths and weaknesses and analyze their performance in detecting BRCA through a quantitative comparison. We compare the results of various approaches for implementing CAD systems for the detection of BRCA. Each approachs standard workflow components are reviewed and summary tables provided. We present an extensive literature review of radiomics feature extraction techniques and machine learning methods applied in BRCA diagnosis and detection, focusing on data preparation, data structures, pre processing and post processing strategies available in the literature. There is a growing interest on radiomic feature extraction and machine learning methods for BRCA detection through histopathological images, MRI and mammography images. However, there isnt a CAD method able to combine distinct data types to provide the best diagnostic results. Employing data fusion techniques to medical images and patient data could lead to improved detection and classification results.
翻訳日:2022-12-25 14:15:54 公開日:2020-03-08
# 最大類似配列モデルのデコーダの検討:ルックアヘッドアプローチ

Investigating the Decoders of Maximum Likelihood Sequence Models: A Look-ahead Approach ( http://arxiv.org/abs/2003.03716v1 )

ライセンス: Link先を確認
Yu-Siang Wang, Yen-Ling Kuo, Boris Katz(参考訳) 我々は,多段階の将来の情報を,最大次数列モデルのデコーダに実際に組み込む方法を示す。 我々は,kステップまでのロールアウトの可能性を考慮し,kステップルックアヘッドモジュールを提案する。 ロールアウトを評価するために他のバリューネットワークをトレーニングする他のアプローチとは異なり、このルックアヘッドモジュールを直接適用して、最大限のフレームワークでトレーニングされた任意のシーケンスモデルのデコードを改善することができる。 IM2LATEX-100k OCR画像からLaTeX、WMT16マルチモーダル機械翻訳、WMT14機械翻訳の3つの難易度データセットに対するルックアヘッドモジュールの評価を行った。 我々のルックアヘッドモジュールは、IM2LATEX-100kやWMT16マルチモーダル機械翻訳のような単純なデータセットの性能を向上させる。 しかし、より難しいデータセット(例えば、長いシーケンスを含む)、WMT14機械翻訳の改善は限界に達している。 k-step look-aheadを用いたさらなる調査は、より困難なタスクが過大評価されたEOS(end-of-sentence)確率に悩まされることを示唆している。 過大評価されたEOS確率はビーム幅を増大させる際にビーム探索の性能を低下させる。 モデルがEOSや他の単語を出力するかどうかを推定するために、トレーニングに補助的なEOS損失を統合することで、EOS問題に取り組む。 実験の結果,EOS推定の改善は,提案したルックアヘッドモジュールの性能を高めるだけでなく,ビームサーチの堅牢性も向上することがわかった。

We demonstrate how we can practically incorporate multi-step future information into a decoder of maximum likelihood sequence models. We propose a "k-step look-ahead" module to consider the likelihood information of a rollout up to k steps. Unlike other approaches that need to train another value network to evaluate the rollouts, we can directly apply this look-ahead module to improve the decoding of any sequence model trained in a maximum likelihood framework. We evaluate our look-ahead module on three datasets of varying difficulties: IM2LATEX-100k OCR image to LaTeX, WMT16 multimodal machine translation, and WMT14 machine translation. Our look-ahead module improves the performance of the simpler datasets such as IM2LATEX-100k and WMT16 multimodal machine translation. However, the improvement of the more difficult dataset (e.g., containing longer sequences), WMT14 machine translation, becomes marginal. Our further investigation using the k-step look-ahead suggests that the more difficult tasks suffer from the overestimated EOS (end-of-sentence) probability. We argue that the overestimated EOS probability also causes the decreased performance of beam search when increasing its beam width. We tackle the EOS problem by integrating an auxiliary EOS loss into the training to estimate if the model should emit EOS or other words. Our experiments show that improving EOS estimation not only increases the performance of our proposed look-ahead module but also the robustness of the beam search.
翻訳日:2022-12-25 14:15:28 公開日:2020-03-08
# 大規模マルチラベルドメイン分類のための擬似ラベリングと負フィードバック学習

Pseudo Labeling and Negative Feedback Learning for Large-scale Multi-label Domain Classification ( http://arxiv.org/abs/2003.03728v1 )

ライセンス: Link先を確認
Joo-Kyung Kim and Young-Bum Kim(参考訳) 大規模ドメイン分類では、発話は重複する能力を持つ複数のドメインによって処理できる。 しかし、実際の訓練発話毎に限られた数の地対地ドメインが提供され、正確なターゲットラベルを最大で知れば、モデル性能の向上に寄与する。 本稿では,訓練発話毎に1つの基底領域を与えられた場合,最も信頼度の高い領域を訓練用擬似ラベルとして一貫して予測する。 誤った擬似ラベルによる予測誤差を低減するために,不正確なシステム応答を持つ発話を利用して,不正確な予測領域の信頼度を低減する。 知的会話システムからユーザ発話を評価することで,提案手法は仮説の再評価によるドメイン分類の性能を大幅に向上させることを示す。

In large-scale domain classification, an utterance can be handled by multiple domains with overlapped capabilities. However, only a limited number of ground-truth domains are provided for each training utterance in practice while knowing as many as correct target labels is helpful for improving the model performance. In this paper, given one ground-truth domain for each training utterance, we regard domains consistently predicted with the highest confidences as additional pseudo labels for the training. In order to reduce prediction errors due to incorrect pseudo labels, we leverage utterances with negative system responses to decrease the confidences of the incorrectly predicted domains. Evaluating on user utterances from an intelligent conversational system, we show that the proposed approach significantly improves the performance of domain classification with hypothesis reranking.
翻訳日:2022-12-25 14:15:01 公開日:2020-03-08
# 実世界の航空機乗組員ペアリング最適化:コラム生成法に対する遺伝的アルゴリズムのカスタマイズ

Real-World Airline Crew Pairing Optimization: Customized Genetic Algorithm versus Column Generation Method ( http://arxiv.org/abs/2003.03792v1 )

ライセンス: Link先を確認
Divyam Aggarwal, Dhish Kumar Saxena, Thomas Back, Michael Emmerich(参考訳) 航空機乗組員のコストは2番目に大きな運用コストであり、その限界改善は年間数百万ドルにも達する可能性がある。 さらに、非常に制約された結合性は、高い影響の研究と商業的価値をもたらします。 航空会社のクルーペア最適化問題(CPOP)は、タイムテーブルからすべてのフライトを最小限のコストでカバーし、フェデレーション等によって規定される複数の法的制約を満たすことを目的としている。 CPOPのスケールに応じて、いくつかの遺伝的アルゴリズムとカラム生成に基づくアプローチが文献で提案されている。 しかし、これらのアプローチは、小規模の飛行データセット(一握りのペアリング)や、トルコ航空などの小規模航空会社(低需要地域で運用)で検証されている。 大型航空会社のネットワークにスケールすると、検索効率が大幅に低下する。 本論文の貢献は,ドメイン知識を利用した初期化と遺伝的演算子の改善,コラム生成に基づく大規模オプティマイザ(著者らが開発した)との比較による遺伝的アルゴリズムの提案に関係している。 上記の貢献の実用性を示すために、geアビエーションが提供する実世界のテストケース(839便)が、より大きな航空会社のネットワークから抽出された(米国では33,000便まで運行されている)。

Airline crew cost is the second-largest operating cost component and its marginal improvement may translate to millions of dollars annually. Further, it's highly constrained-combinatorial nature brings-in high impact research and commercial value. The airline crew pairing optimization problem (CPOP) is aimed at generating a set of crew pairings, covering all flights from its timetable, with minimum cost, while satisfying multiple legality constraints laid by federations, etc. Depending upon CPOP's scale, several Genetic Algorithm and Column Generation based approaches have been proposed in the literature. However, these approaches have been validated either on small-scale flight datasets (a handful of pairings) or for smaller airlines (operating-in low-demand regions) such as Turkish Airlines, etc. Their search-efficiency gets impaired drastically when scaled to the networks of bigger airlines. The contributions of this paper relate to the proposition of a customized genetic algorithm, with improved initialization and genetic operators, developed by exploiting the domain-knowledge; and its comparison with a column generation based large-scale optimizer (developed by authors). To demonstrate the utility of the above-cited contributions, a real-world test-case (839 flights), provided by GE Aviation, is used which has been extracted from the networks of larger airlines (operating up to 33000 monthly flights in the US).
翻訳日:2022-12-25 14:14:49 公開日:2020-03-08
# 確率的自己回帰予測モデルに対する敵対的攻撃

Adversarial Attacks on Probabilistic Autoregressive Forecasting Models ( http://arxiv.org/abs/2003.03778v1 )

ライセンス: Link先を確認
Rapha\"el Dang-Nhu, Gagandeep Singh, Pavol Bielik, Martin Vechev(参考訳) 我々は、単一値の列ではなく確率分布の列を出力するニューラルネットワークに対する効果的な逆攻撃を生成する。 この設定は、最近提案された深い確率的自己回帰予測モデルを含み、過去の時系列の確率分布を推定し、様々なアプリケーションドメインで最新の結果を達成する。 私たちが取り組む重要な技術的課題は、出力列のジョイント分布の統計量のモンテカルロ推定を通じて効果的に分化することである。 さらに,過去の観測に留まらず,将来の観測の条件付けを可能にするベイズ設定まで,確率的予測に関する先行研究を拡大する。 当社のアプローチは,頑健な意思決定が不可欠である2つの課題 – 株式取引と電力消費予測 – において,少ない入力摂動による攻撃をうまく生成できることを実証する。

We develop an effective generation of adversarial attacks on neural models that output a sequence of probability distributions rather than a sequence of single values. This setting includes the recently proposed deep probabilistic autoregressive forecasting models that estimate the probability distribution of a time series given its past and achieve state-of-the-art results in a diverse set of application domains. The key technical challenge we address is effectively differentiating through the Monte-Carlo estimation of statistics of the joint distribution of the output sequence. Additionally, we extend prior work on probabilistic forecasting to the Bayesian setting which allows conditioning on future observations, instead of only on past observations. We demonstrate that our approach can successfully generate attacks with small input perturbations in two challenging tasks where robust decision making is crucial: stock market trading and prediction of electricity consumption.
翻訳日:2022-12-25 14:08:12 公開日:2020-03-08
# ディープラーニングを利用したTwitterデータによる薬物使用の識別

Utilizing Deep Learning to Identify Drug Use on Twitter Data ( http://arxiv.org/abs/2003.11522v1 )

ライセンス: Link先を確認
Joseph Tassone, Peizhi Yan, Mackenzie Simpson, Chetan Mendhe, Vijay Mago, Salimur Choudhury(参考訳) ソーシャルメディアの収集と検証は,ユーザの精神活動や行動傾向を研究する上で有用なメカニズムとなっている。 収集したTwitterデータを分析して、ドラッグ関連ツイートを分類するモデルを開発した。 スラングなどのキーワードや薬物の消費方法に関する話題を使って、一連のツイートが生成された。 候補候補は前処理され、データセットは3,696,150行になった。 サポートベクトルマシン(SVM)、XGBoost、畳み込みニューラルネットワーク(CNN)に基づく分類器を含む複数の手法の分類能力を比較した。 単純な特徴分析や属性解析ではなく、ツイートの意味をスクリーニングし分析するためのディープラーニングアプローチが導入された。 CNNベースの2つの分類器は、他の手法と比較して最も良い結果を示した。 1回目は2,661件のサンプルを手動でラベル付けし、もう1回は12,142件のサンプルを合成生成した。 精度は76.35%と82.31%で、AUCは0.90と0.91である。 さらに、協会のルールマイニングでは、一般的に言及される薬物は頻繁に使用される違法物質と対応し、システムの実用性が証明された。 最後に、合成生成集合はスコアを増加させ、分類能力を改善し、この方法論の価値を証明した。

The collection and examination of social media has become a useful mechanism for studying the mental activity and behavior tendencies of users. Through the analysis of collected Twitter data, models were developed for classifying drug-related tweets. Using topic pertaining keywords, such as slang and methods of drug consumption, a set of tweets was generated. Potential candidates were then preprocessed resulting in a dataset of 3,696,150 rows. The classification power of multiple methods was compared including support vector machines (SVM), XGBoost, and convolutional neural network (CNN) based classifiers. Rather than simple feature or attribute analysis, a deep learning approach was implemented to screen and analyze the tweets' semantic meaning. The two CNN-based classifiers presented the best result when compared against other methodologies. The first was trained with 2,661 manually labeled samples, while the other included synthetically generated tweets culminating in 12,142 samples. The accuracy scores were 76.35% and 82.31%, with an AUC of 0.90 and 0.91. Additionally, association rule mining showed that commonly mentioned drugs had a level of correspondence with frequently used illicit substances, proving the practical usefulness of the system. Lastly, the synthetically generated set provided increased scores, improving the classification capability and proving the worth of this methodology.
翻訳日:2022-12-25 14:07:28 公開日:2020-03-08
# 協調型マルチエージェント強化学習のロバスト性について

On the Robustness of Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2003.03722v1 )

ライセンス: Link先を確認
Jieyu Lin, Kristina Dzeparoska, Sai Qian Zhang, Alberto Leon-Garcia, Nicolas Papernot(参考訳) 協力的マルチエージェント強化学習(c-MARL)では、エージェントはチームとして協力的に行動し、チーム全体の報酬を最大化する。 我々は,チーム内のエージェントを攻撃できる敵に対するc-MARLのロバスト性を分析する。 このエージェントの観察を操作する能力を通じて、敵はチーム報酬の合計を減らそうとする。 第一に、チームの報酬やエージェントの誤った予測による影響を見積もることは困難であり、第二に、モデルは微分不可能であり、第三に、機能空間は低次元である。 そこで我々は新たな攻撃を導入する。 攻撃者はまずポリシーネットワークを訓練し、強化学習を行い、被害者のエージェントが取るべき間違った行動を見つける。 そして、敵は標的となる敵の例を使って、被害者にこの行為を強制する。 StartCraft IIのマルチエージェントベンチマークの結果、c-MARLチームはエージェントの観測に適用される摂動に対して非常に脆弱であることが示された。 1つのエージェントを攻撃することで、攻撃方法はチーム全体の報酬に非常に悪影響を与え、それを20から9.4に削減します。 この結果、チームの勝利率は98.9%から0%に低下した。

In cooperative multi-agent reinforcement learning (c-MARL), agents learn to cooperatively take actions as a team to maximize a total team reward. We analyze the robustness of c-MARL to adversaries capable of attacking one of the agents on a team. Through the ability to manipulate this agent's observations, the adversary seeks to decrease the total team reward. Attacking c-MARL is challenging for three reasons: first, it is difficult to estimate team rewards or how they are impacted by an agent mispredicting; second, models are non-differentiable; and third, the feature space is low-dimensional. Thus, we introduce a novel attack. The attacker first trains a policy network with reinforcement learning to find a wrong action it should encourage the victim agent to take. Then, the adversary uses targeted adversarial examples to force the victim to take this action. Our results on the StartCraft II multi-agent benchmark demonstrate that c-MARL teams are highly vulnerable to perturbations applied to one of their agent's observations. By attacking a single agent, our attack method has highly negative impact on the overall team reward, reducing it from 20 to 9.4. This results in the team's winning rate to go down from 98.9% to 0%.
翻訳日:2022-12-25 14:06:11 公開日:2020-03-08
# 神経オデムの進行的成長

Progressive Growing of Neural ODEs ( http://arxiv.org/abs/2003.03695v1 )

ライセンス: Link先を確認
Hammad A. Ayyubi, Yi Yao and Ajay Divakaran(参考訳) ニューラル正規微分方程式(NODE)は、不規則サンプル時系列データを近似(補間)および予測(補間)するための強力なモデリングツールであることが証明されている。 しかし、実世界データ、特に複雑な行動を伴う長期データ(例えば、数年にわたる長期傾向、月ごとの中期季節性、日毎の短期的局所変動)に適用すると、パフォーマンスは大幅に低下する。 異なる周波数(時間スパン)での振る舞いの異なる複雑なデータのモデリングに対処するため,長期的時系列予測のためのNODEの新しい進歩的学習パラダイムを提案する。 具体的には、カリキュラム学習の原則に従って、トレーニングが進むにつれて、データの複雑さとネットワーク能力が徐々に増大する。 合成データと実トラフィックデータ(pems bay area traffic data)の両方を用いた実験の結果,我々のトレーニング手法は,バニラノードの性能を64%以上向上させることがわかった。

Neural Ordinary Differential Equations (NODEs) have proven to be a powerful modeling tool for approximating (interpolation) and forecasting (extrapolation) irregularly sampled time series data. However, their performance degrades substantially when applied to real-world data, especially long-term data with complex behaviors (e.g., long-term trend across years, mid-term seasonality across months, and short-term local variation across days). To address the modeling of such complex data with different behaviors at different frequencies (time spans), we propose a novel progressive learning paradigm of NODEs for long-term time series forecasting. Specifically, following the principle of curriculum learning, we gradually increase the complexity of data and network capacity as training progresses. Our experiments with both synthetic data and real traffic data (PeMS Bay Area traffic data) show that our training methodology consistently improves the performance of vanilla NODEs by over 64%.
翻訳日:2022-12-25 13:59:24 公開日:2020-03-08
# 作物収量予測のためのハイブリッド機械学習モデル

Hybrid Machine Learning Models for Crop Yield Prediction ( http://arxiv.org/abs/2005.04155v1 )

ライセンス: Link先を確認
Saeed Nosratabadi, Felde Imre, Karoly Szell, Sina Ardabili, Bertalan Beszedes, Amir Mosavi(参考訳) 食料安全保障政策、計画、貿易には収穫量の予測が不可欠である。 本研究の目的は,ハイブリッド機械学習に基づく新しい作物収量予測モデルを提案することである。 本研究では, 作物収量予測のためのニューラルネットワーク-帝国主義的競争アルゴリズム (ann-ica) とニューラルネットワーク-gray wolf optimizer (ann-gwo) モデルの性能評価を行った。 結果によると、ANN-GWOのRは0.48、RMSEは3.19、MEAは26.65であり、ANN-ICAモデルと比較して収穫量予測の精度が向上した。 結果は、食品安全保障の実践者、研究者、あるいは政策立案者によって利用できる。

Prediction of crop yield is essential for food security policymaking, planning, and trade. The objective of the current study is to propose novel crop yield prediction models based on hybrid machine learning methods. In this study, the performance of the artificial neural networks-imperialist competitive algorithm (ANN-ICA) and artificial neural networks-gray wolf optimizer (ANN-GWO) models for the crop yield prediction are evaluated. According to the results, ANN-GWO, with R of 0.48, RMSE of 3.19, and MEA of 26.65, proved a better performance in the crop yield prediction compared to the ANN-ICA model. The results can be used by either practitioners, researchers or policymakers for food security.
翻訳日:2022-12-25 13:59:06 公開日:2020-03-08
# 騒音ラベルの学習改善

Improving Training on Noisy Stuctured Labels ( http://arxiv.org/abs/2003.03862v1 )

ライセンス: Link先を確認
Abubakar Abid, James Zou(参考訳) きめ細かいアノテーション、例えば高密度画像ラベル、画像分割、テキストタグ付けは、多くのMLアプリケーションで有用であるが、生成には労力がかかる。 さらに、細かなアノテーションには、しばしば体系的で構造化されたエラーがあります。 例えば、車は画像に完全に注釈を付けていないかもしれないし、車と道路の境界は粗い注釈だけになるかもしれない。 このような構造化エラーを伴うデータに対する標準的なMLトレーニングは、バイアスとパフォーマンスの悪いモデルを生成する。 本稿では,細粒度アノテーションにおける構造化誤りの存在下での学習の課題に対処するために,誤り訂正ネットワーク(ecn)の新たな枠組みを提案する。 一般的な構造的エラーを伴う大きなノイズの多いデータセットと、より正確なアノテーションを備えたデータセットを考えると、ecnはノイズの多いデータのトレーニングのための標準的なアプローチと比較して、きめ細かいアノテーションの予測を大幅に改善することができる。 アノテーションや騒がしいラベルの構造を活用できるように学習することで実現されている。 画像セグメンテーションとテキストタグ付けに関するシステム実験は、ノイズのある構造化ラベルのトレーニングを改善するためのECNの強い性能を示す。

Fine-grained annotations---e.g. dense image labels, image segmentation and text tagging---are useful in many ML applications but they are labor-intensive to generate. Moreover there are often systematic, structured errors in these fine-grained annotations. For example, a car might be entirely unannotated in the image, or the boundary between a car and street might only be coarsely annotated. Standard ML training on data with such structured errors produces models with biases and poor performance. In this work, we propose a novel framework of Error-Correcting Networks (ECN) to address the challenge of learning in the presence structured error in fine-grained annotations. Given a large noisy dataset with commonly occurring structured errors, and a much smaller dataset with more accurate annotations, ECN is able to substantially improve the prediction of fine-grained annotations compared to standard approaches for training on noisy data. It does so by learning to leverage the structures in the annotations and in the noisy labels. Systematic experiments on image segmentation and text tagging demonstrate the strong performance of ECN in improving training on noisy structured labels.
翻訳日:2022-12-25 13:58:43 公開日:2020-03-08
# 近傍情報に基づくネットワーク崩壊確率アルゴリズム

Neighborhood Information-based Probabilistic Algorithm for Network Disintegration ( http://arxiv.org/abs/2003.04713v1 )

ライセンス: Link先を確認
Qian Li, San-Yang Liu, Xin-She Yang(参考訳) 多くの現実世界のアプリケーションは複雑なネットワークとしてモデル化でき、インターネット、疫病ネットワーク、トランスポートネットワーク、電力網、タンパク質の折り畳み構造などが含まれる。 ネットワークの完全性と堅牢性は、重要なネットワークが保護され、望ましくない有害ネットワークが解体できることを保証するために重要である。 ネットワーク構造と整合性はキーノードの集合によって制御することができ、ネットワーク構造と整合性を保証するためにネットワーク内のノードの最適な組み合わせを見つけることはNP完全問題である。 広範な研究にもかかわらず、既存の手法には多くの制限があり、未解決の問題も数多く残っている。 本稿では,近隣情報に基づく確率的アプローチ,すなわち近隣情報に基づく確率的アルゴリズム(NIPA)を提案する。 また、各ノードの隣接ノードの寄与率と2ホップノード情報を組み合わせた、新たな集中度に基づく重要度尺度(IM)も定義する。 提案するnipaは異なるネットワークベンチマークでテストされ、最善攻撃戦略(oas)、ハイ・トゥルーネス・ファースト(hbf)、ハイ・グレード・ファースト(hdf)の3つの手法と比較した。 実験の結果,提案したNIPAは4つの手法の中で最も有効であることが示唆された。 一般に、NIPAは高い効率で最も重要なノードの組み合わせを識別でき、提案したNIPAが発見する最適なキーノードの集合は、ヒューリスティックな中央性予測により、それよりもはるかに小さい。 さらに、以前は無視されていた多くの弱連結ノードが識別され、新たに特定された最適ノードの重要な部分となる。 したがって、ネットワークの完全性を保護するため、保護のための修正戦略が推奨される。 さらに重要な課題と今後の研究課題についても論じる。

Many real-world applications can be modelled as complex networks, and such networks include the Internet, epidemic disease networks, transport networks, power grids, protein-folding structures and others. Network integrity and robustness are important to ensure that crucial networks are protected and undesired harmful networks can be dismantled. Network structure and integrity can be controlled by a set of key nodes, and to find the optimal combination of nodes in a network to ensure network structure and integrity can be an NP-complete problem. Despite extensive studies, existing methods have many limitations and there are still many unresolved problems. This paper presents a probabilistic approach based on neighborhood information and node importance, namely, neighborhood information-based probabilistic algorithm (NIPA). We also define a new centrality-based importance measure (IM), which combines the contribution ratios of the neighbor nodes of each target node and two-hop node information. Our proposed NIPA has been tested for different network benchmarks and compared with three other methods: optimal attack strategy (OAS), high betweenness first (HBF) and high degree first (HDF). Experiments suggest that the proposed NIPA is most effective among all four methods. In general, NIPA can identify the most crucial node combination with higher effectiveness, and the set of optimal key nodes found by our proposed NIPA is much smaller than that by heuristic centrality prediction. In addition, many previously neglected weakly connected nodes are identified, which become a crucial part of the newly identified optimal nodes. Thus, revised strategies for protection are recommended to ensure the safeguard of network integrity. Further key issues and future research topics are also discussed.
翻訳日:2022-12-25 13:58:00 公開日:2020-03-08
# 自然に着想を得た最適化アルゴリズム : 課題と課題

Nature-Inspired Optimization Algorithms: Challenges and Open Problems ( http://arxiv.org/abs/2003.03776v1 )

ライセンス: Link先を確認
Xin-She Yang(参考訳) 科学と工学における多くの問題は、複雑な非線形制約の下で最適化問題として定式化することができる。 高度に非線形な問題の解は通常高度な最適化アルゴリズムを必要とするが、従来のアルゴリズムはそのような問題に対処するのに苦労することがある。 現在のトレンドは、柔軟性と有効性から自然にインスパイアされたアルゴリズムを使用することです。 しかし、自然にインスパイアされた計算と群知性にはいくつかの重要な問題がある。 本稿では,近年の自然に触発されたアルゴリズムについて,その探索機構と数学的基礎を重視した詳細なレビューを行う。 アルゴリズムの収束と安定性の分析、パラメータチューニング、数学的フレームワーク、ベンチマークの役割、スケーラビリティに関する5つの課題が指摘されている。 これらの問題を今後の研究の方向性として論じる。

Many problems in science and engineering can be formulated as optimization problems, subject to complex nonlinear constraints. The solutions of highly nonlinear problems usually require sophisticated optimization algorithms, and traditional algorithms may struggle to deal with such problems. A current trend is to use nature-inspired algorithms due to their flexibility and effectiveness. However, there are some key issues concerning nature-inspired computation and swarm intelligence. This paper provides an in-depth review of some recent nature-inspired algorithms with the emphasis on their search mechanisms and mathematical foundations. Some challenging issues are identified and five open problems are highlighted, concerning the analysis of algorithmic convergence and stability, parameter tuning, mathematical framework, role of benchmarking and scalability. These problems are discussed with the directions for future research.
翻訳日:2022-12-25 13:57:33 公開日:2020-03-08
# メタヒューリスティック最適化器の性能に及ぼす初期化の影響

Influence of Initialization on the Performance of Metaheuristic Optimizers ( http://arxiv.org/abs/2003.03789v1 )

ライセンス: Link先を確認
Qian Li, San-Yang Liu, Xin-She Yang(参考訳) 全てのメタヒューリスティック最適化アルゴリズムはいくつかの初期化を必要とし、そのような最適化アルゴリズムの初期化は通常ランダムに実行される。 しかし、初期化はそのようなアルゴリズムの性能に大きな影響を及ぼす可能性がある。 本稿では,22種類の初期化法を用いて,微分進化 (de), 粒子群最適化 (pso), cuckoo search (cs), 人工蜂コロニー (abc) アルゴリズムおよび遺伝的アルゴリズム (ga) の5つの最適化器の収束と精度に関する系統的比較を行った。 19種類の異なる特性とモダリティを持つテスト関数を用いて,初期化の効果,個体数,反復数を比較した。 厳密な統計ランキングテストでは、DECアルゴリズムを用いた関数の43.37\%が異なる初期化法で有意な差を示し、PSOアルゴリズムとCSアルゴリズムの両方を用いた関数の73.68\%は異なる初期化法で著しく影響を受ける。 シミュレーションにより, DEは初期化に敏感であり, PSOもCSも初期化に敏感であることがわかった。 また,機能評価の最大値 (FE) が同じ条件下では,人口規模にも強い影響が生じる可能性がある。 粒子群最適化は通常より大きな人口を必要とするが、カッコウ探索は小さな人口しか必要としない。 差分進化はイテレーションの数に大きく依存しており、イテレーションの数が多い比較的小さな個体群はより良い結果をもたらす可能性がある。 さらに、ABCは初期化に敏感であるが、そのような初期化はGAにはほとんど影響しない。 ベータ分布、指数分布、レイリー分布のようないくつかの確率分布は、通常、より良い性能をもたらす。 本研究の意義と今後の研究課題についても詳細に述べる。

All metaheuristic optimization algorithms require some initialization, and the initialization for such optimizers is usually carried out randomly. However, initialization can have some significant influence on the performance of such algorithms. This paper presents a systematic comparison of 22 different initialization methods on the convergence and accuracy of five optimizers: differential evolution (DE), particle swarm optimization (PSO), cuckoo search (CS), artificial bee colony (ABC) algorithm and genetic algorithm (GA). We have used 19 different test functions with different properties and modalities to compare the possible effects of initialization, population sizes and the numbers of iterations. Rigorous statistical ranking tests indicate that 43.37\% of the functions using the DE algorithm show significant differences for different initialization methods, while 73.68\% of the functions using both PSO and CS algorithms are significantly affected by different initialization methods. The simulations show that DE is less sensitive to initialization, while both PSO and CS are more sensitive to initialization. In addition, under the condition of the same maximum number of function evaluations (FEs), the population size can also have a strong effect. Particle swarm optimization usually requires a larger population, while the cuckoo search needs only a small population size. Differential evolution depends more heavily on the number of iterations, a relatively small population with more iterations can lead to better results. Furthermore, ABC is more sensitive to initialization, while such initialization has little effect on GA. Some probability distributions such as the beta distribution, exponential distribution and Rayleigh distribution can usually lead to better performance. The implications of this study and further research topics are also discussed in detail.
翻訳日:2022-12-25 13:57:23 公開日:2020-03-08
# 逆特徴学習:エラーの表現学習に基づく特徴学習

Inverse Feature Learning: Feature learning based on Representation Learning of Error ( http://arxiv.org/abs/2003.03689v1 )

ライセンス: Link先を確認
Behzad Ghazanfari, Fatemeh Afghah, MohammadTaghi Hajiaghayi(参考訳) 本稿では,エラー表現に基づく分類のための高レベル特徴のセットを学習する新しい教師付き特徴学習手法として,逆特徴学習を提案する。 本手法の主な貢献は,誤差を高次特徴として学習することであり,現在の表現学習法は,真のラベルと予測値との差分関数として得られる損失関数によって誤りを解釈する。 このような学習手法の利点の1つは、各クラスで学習した特徴が他のクラスで学習した特徴とは無関係であることである。 エラー表現学習は、エラー生成と分析プロセスを通じて各インスタンスと異なるクラスの関係をキャプチャする、オリジナルのデータセットに影響のある一連の機能を追加することで、一般化と過度な適合の機会を減らすのにも役立ちます。 この方法は、各クラスのインスタンスが多様な特徴表現または不均衡クラスを持つデータセットにおいて特に効果的である。 実験の結果,提案手法は,いくつかの人気データセットの最先端分類手法と比較して,性能が著しく向上することが示された。 本稿では,異なる特徴量学習領域における誤り表現学習の視点を生かした新しい経路の開拓を期待する。

This paper proposes inverse feature learning as a novel supervised feature learning technique that learns a set of high-level features for classification based on an error representation approach. The key contribution of this method is to learn the representation of error as high-level features, while current representation learning methods interpret error by loss functions which are obtained as a function of differences between the true labels and the predicted ones. One advantage of such learning method is that the learned features for each class are independent of learned features for other classes; therefore, this method can learn simultaneously meaning that it can learn new classes without retraining. Error representation learning can also help with generalization and reduce the chance of over-fitting by adding a set of impactful features to the original data set which capture the relationships between each instance and different classes through an error generation and analysis process. This method can be particularly effective in data sets, where the instances of each class have diverse feature representations or the ones with imbalanced classes. The experimental results show that the proposed method results in significantly better performance compared to the state-of-the-art classification techniques for several popular data sets. We hope this paper can open a new path to utilize the proposed perspective of error representation learning in different feature learning domains.
翻訳日:2022-12-25 13:56:53 公開日:2020-03-08
# アングルに基づくコスト感性多カテゴリ分類

Angle-Based Cost-Sensitive Multicategory Classification ( http://arxiv.org/abs/2003.03691v1 )

ライセンス: Link先を確認
Yi Yang, Yuxuan Guo and Xiangyu Chang(参考訳) 多くの現実世界の分類問題には、異なるタイプの誤分類に対して異なるコストが伴う。 したがって、全体の誤分類コストを最小限に抑えるコスト感受性分類器を開発することが重要である。 バイナリコスト依存型分類器はよく研究されているが、多カテゴリ分類問題の解決はいまだに困難である。 この問題に対処する一般的なアプローチは、kクラス問題に対するk分類関数を構築し、サム・トゥ・ゼロの制約を課すことで冗長性を取り除くことである。 しかし、そのような手法は通常、計算の複雑さと非効率なアルゴリズムをもたらす。 本稿では,単元制約を伴わないマルチカテゴリ分類のためのアングル型コストセンシティブ分類フレームワークを提案する。 アングルベースのコスト依存分類フレームワークに含まれる損失関数は、Fisherの一貫性をさらに正当化する。 このフレームワークの有用性を示すために、コストに敏感な2つのマルチカテゴリブースティングアルゴリズムを具体例として導出する。 数値実験により,提案したブースティングアルゴリズムは既存のブースティング手法と競合する性能を示す。

Many real-world classification problems come with costs which can vary for different types of misclassification. It is thus important to develop cost-sensitive classifiers which minimize the total misclassification cost. Although binary cost-sensitive classifiers have been well-studied, solving multicategory classification problems is still challenging. A popular approach to address this issue is to construct K classification functions for a K-class problem and remove the redundancy by imposing a sum-to-zero constraint. However, such method usually results in higher computational complexity and inefficient algorithms. In this paper, we propose a novel angle-based cost-sensitive classification framework for multicategory classification without the sum-to-zero constraint. Loss functions that included in the angle-based cost-sensitive classification framework are further justified to be Fisher consistent. To show the usefulness of the framework, two cost-sensitive multicategory boosting algorithms are derived as concrete instances. Numerical experiments demonstrate that proposed boosting algorithms yield competitive classification performances against other existing boosting approaches.
翻訳日:2022-12-25 13:56:33 公開日:2020-03-08