このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210125となっている論文です。

PDF登録状況(公開日: 20210125)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 単眼カメラによる障害物回避 [全文訳有]

Obstacle Avoidance Using a Monocular Camera ( http://arxiv.org/abs/2012.01608v2 )

ライセンス: CC BY 4.0
Kyle Hatch, John Mern, Mykel Kochenderfer(参考訳) 単純なデジタルカメラに基づく衝突回避システムは、小さなUAVを混み合った低高度環境に安全に統合するのに役立ちます。 本研究では,ニューラルネットワークと経路プランナコントローラを組み合わせた単眼カメラを用いた小型UAVの障害物回避システムを提案する。 本システムは、カメラ画像から深度を推定するビジョンネットワークと、高レベル制御ネットワークと、衝突予測ネットワークと、緊急ポリシーとから構成される。 本システムは,制約飛行パターンで障害物コースを走行する模擬UAVを用いて評価する。 その結果,本システムは飛行速度を維持しつつ低衝突率を達成した。

A collision avoidance system based on simple digital cameras would help enable the safe integration of small UAVs into crowded, low-altitude environments. In this work, we present an obstacle avoidance system for small UAVs that uses a monocular camera with a hybrid neural network and path planner controller. The system is comprised of a vision network for estimating depth from camera images, a high-level control network, a collision prediction network, and a contingency policy. This system is evaluated on a simulated UAV navigating an obstacle course in a constrained flight pattern. Results show the proposed system achieves low collision rates while maintaining operationally relevant flight speeds.
翻訳日:2021-05-24 05:18:44 公開日:2021-01-25
# (参考訳) Interactive Weak Supervision: データラベリングに有用なヒューリスティックを学ぶ [全文訳有]

Interactive Weak Supervision: Learning Useful Heuristics for Data Labeling ( http://arxiv.org/abs/2012.06046v2 )

ライセンス: CC BY 4.0
Benedikt Boecking, Willie Neiswanger, Eric Xing, Artur Dubrawski(参考訳) 大きなアノテートされたデータセットを持つことは、成功した機械学習モデルのトレーニングに不可欠である。 弱監督は、複数のノイズのあるヒューリスティックを使って確率的ラベルを生成することで、真実のアノテーションを使わずにラベル付きデータセットを作成するための有望な代替手段を提供する。 このプロセスは大規模なデータセットにスケール可能で、医療やeコマースといったさまざまな領域におけるアートパフォーマンスの状況を示している。 ユーザの生成したヒューリスティックスから学ぶことの現実的な問題は、創造性、先見性、ドメインの専門知識が、それらを手作りする人たちから必要となることだ。 本稿では,提案手法がヒューリスティックスを提案し,提案する各ヒューリスティックに対するユーザフィードバックから学習する,対話型弱い監督のための最初のフレームワークを開発した。 実験の結果,真理学習ラベルにアクセスすることなく,高い競争力を持つテストセットのパフォーマンスを達成できるモデルをトレーニングするには,少数のフィードバックイテレーションが必要なことがわかった。 我々は,ヒューリスティックスに対するフィードバックを効果的に提供できるユーザスタディを行い,テストセットの結果が模擬オラクルの性能を追跡することを示す。

Obtaining large annotated datasets is critical for training successful machine learning models and it is often a bottleneck in practice. Weak supervision offers a promising alternative for producing labeled datasets without ground truth annotations by generating probabilistic labels using multiple noisy heuristics. This process can scale to large datasets and has demonstrated state of the art performance in diverse domains such as healthcare and e-commerce. One practical issue with learning from user-generated heuristics is that their creation requires creativity, foresight, and domain expertise from those who hand-craft them, a process which can be tedious and subjective. We develop the first framework for interactive weak supervision in which a method proposes heuristics and learns from user feedback given on each proposed heuristic. Our experiments demonstrate that only a small number of feedback iterations are needed to train models that achieve highly competitive test set performance without access to ground truth training labels. We conduct user studies, which show that users are able to effectively provide feedback on heuristics and that test set results track the performance of simulated oracles.
翻訳日:2021-05-14 13:41:00 公開日:2021-01-25
# (参考訳) Fork or Fail: 複数対1マッピングによるサイクル一貫性トレーニング [全文訳有]

Fork or Fail: Cycle-Consistent Training with Many-to-One Mappings ( http://arxiv.org/abs/2012.07412v3 )

ライセンス: CC BY 4.0
Qipeng Guo, Zhijing Jin, Ziyu Wang, Xipeng Qiu, Weinan Zhang, Jun Zhu, Zheng Zhang, David Wipf(参考訳) サイクル一貫性のあるトレーニングは、各ドメイン内のマッチしたペアを収集するという面倒な要件なしに、2つの関心領域間の前方および逆のマッピングを共同学習するために広く使われている。 この点において、暗黙の仮定は、任意の領域から与えられた入力がそれぞれの写像の連続した適用から正確に再構成できるような(少なくともおよそ)接地単射が存在するということである。 しかし、多くのアプリケーションではそのような単射は存在せず、大規模な再構成エラーはサイクル一貫性トレーニングの成功を損なう可能性がある。 この制限の重要な例の1つとして、ドメイン間の多対一あるいは全射的マッピングが存在する、事実上関係のある状況を考える。 この状況に対処するために,条件付き変分オートエンコーダ(cvae)アプローチを開発し,両方向の再構成誤差を最小限に抑えるための全射写像を暗黙の単射に変換し,自然な副産物として1対1の方向に現実的な出力の多様性を求めることができる。 理論的動機として,提案したCVAEに基づくエネルギー関数の最小化が,地中トラス・サージェクティブ・マッピングの回復と一致するという簡易なシナリオを分析した。 経験的側面では、既知の基盤を持つ合成画像データセットと、知識グラフから自然言語を生成する現実のアプリケーション、そしてその逆の原型的な推測ケースを考える。 後者の場合、当社のcvaeパイプラインは、グラフからテキストへのタスクに対するテキストの多様性を促進しながら、サイクルトレーニング中にこのような多対一のマッピングをキャプチャすることができます。 我々のコードはgithub.com/QipengGuo /CycleGTで入手できる。 このバージョンには追加のコンテンツとアップデートが含まれている。

Cycle-consistent training is widely used for jointly learning a forward and inverse mapping between two domains of interest without the cumbersome requirement of collecting matched pairs within each domain. In this regard, the implicit assumption is that there exists (at least approximately) a ground-truth bijection such that a given input from either domain can be accurately reconstructed from successive application of the respective mappings. But in many applications no such bijection can be expected to exist and large reconstruction errors can compromise the success of cycle-consistent training. As one important instance of this limitation, we consider practically-relevant situations where there exists a many-to-one or surjective mapping between domains. To address this regime, we develop a conditional variational autoencoder (CVAE) approach that can be viewed as converting surjective mappings to implicit bijections whereby reconstruction errors in both directions can be minimized, and as a natural byproduct, realistic output diversity can be obtained in the one-to-many direction. As theoretical motivation, we analyze a simplified scenario whereby minima of the proposed CVAE-based energy function align with the recovery of ground-truth surjective mappings. On the empirical side, we consider a synthetic image dataset with known ground-truth, as well as a real-world application involving natural language generation from knowledge graphs and vice versa, a prototypical surjective case. For the latter, our CVAE pipeline can capture such many-to-one mappings during cycle training while promoting textural diversity for graph-to-text tasks. Our code is available at github.com/QipengGuo /CycleGT *A condensed version of this paper has been accepted to AISTATS 2021. This version contains additional content and updates.
翻訳日:2021-05-09 02:29:33 公開日:2021-01-25
# ActionBert: ユーザインターフェースのセマンティック理解にユーザアクションを活用する

ActionBert: Leveraging User Actions for Semantic Understanding of User Interfaces ( http://arxiv.org/abs/2012.12350v2 )

ライセンス: Link先を確認
Zecheng He, Srinivas Sunkara, Xiaoxue Zang, Ying Xu, Lijuan Liu, Nevan Wichers, Gabriel Schubiner, Ruby Lee, Jindong Chen and Blaise Ag\"uera y Arcas(参考訳) モバイルデバイスがユビキタスになりつつある中、さまざまなユーザインターフェース(UI)と定期的に対話することは、多くの人々にとって日常的な側面である。 これらのデバイスのアクセシビリティを改善し、さまざまな設定で使用できるようにするには、uiを通じてユーザを支援し、タスクを達成するためのモデルを構築することが極めて重要です。 しかし、これを達成するにはいくつかの課題がある。 まず、類似した外観を持つUIコンポーネントは機能が異なるため、外観を分析することよりも機能を理解することがより重要である。 第二に、webページのドキュメントオブジェクトモデル(dom)やモバイルアプリケーションのビュー階層(vh)といったドメイン固有の機能は、ui要素の意味に関する重要なシグナルを提供するが、これらの機能は自然言語フォーマットにはない。 第3に、UIの多様性と標準DOMやVH表現の欠如のため、高いカバレッジでUI理解モデルを構築するには、大量のトレーニングデータが必要である。 データ効率のよい方法で様々な問題に取り組むためのNLPの事前学習ベースのアプローチの成功に触発されて、ActionBertと呼ばれる新しいトレーニング済みUI表現モデルを導入する。 ユーザインタラクショントレースにおける視覚的,言語的,ドメイン固有の特徴を,UIとそのコンポーネントの汎用的特徴表現の事前訓練に活用する。 私たちの重要な直感は、ユーザーアクション、例えば、異なるUIコンポーネントの一連のクリックは、それらの機能に関する重要な情報を明らかにすることです。 提案手法は,アイコン分類からUIコンポーネント検索に至るまで,さまざまなダウンストリームタスクに対して,自然言語記述に基づく提案モデルを評価する。 実験により、提案するactionbertモデルは、下流タスク全体のマルチモーダルベースラインを最大15.5%上回ることがわかった。

As mobile devices are becoming ubiquitous, regularly interacting with a variety of user interfaces (UIs) is a common aspect of daily life for many people. To improve the accessibility of these devices and to enable their usage in a variety of settings, building models that can assist users and accomplish tasks through the UI is vitally important. However, there are several challenges to achieve this. First, UI components of similar appearance can have different functionalities, making understanding their function more important than just analyzing their appearance. Second, domain-specific features like Document Object Model (DOM) in web pages and View Hierarchy (VH) in mobile applications provide important signals about the semantics of UI elements, but these features are not in a natural language format. Third, owing to a large diversity in UIs and absence of standard DOM or VH representations, building a UI understanding model with high coverage requires large amounts of training data. Inspired by the success of pre-training based approaches in NLP for tackling a variety of problems in a data-efficient way, we introduce a new pre-trained UI representation model called ActionBert. Our methodology is designed to leverage visual, linguistic and domain-specific features in user interaction traces to pre-train generic feature representations of UIs and their components. Our key intuition is that user actions, e.g., a sequence of clicks on different UI components, reveals important information about their functionality. We evaluate the proposed model on a wide variety of downstream tasks, ranging from icon classification to UI component retrieval based on its natural language description. Experiments show that the proposed ActionBert model outperforms multi-modal baselines across all downstream tasks by up to 15.5%.
翻訳日:2021-04-26 07:48:08 公開日:2021-01-25
# 重み付きデファジブル知識ベースと深部ニューラルネットワークモデルのためのマルチ参照セマンティクス

Weighted defeasible knowledge bases and a multipreference semantics for a deep neural network model ( http://arxiv.org/abs/2012.13421v2 )

ライセンス: Link先を確認
Laura Giordano and Daniele Theseider Dupr\'e(参考訳) 本稿では,知識表現におけるデファシブル推論のための多義的セマンティクスとディープニューラルネットワークモデルとの関係について検討する。 記述論理の重み付き知識ベースは「概念的」な多重参照意味論の下で考慮される。 意味論はさらにファジィ解釈に拡張され、多層パーセプトロンの優先解釈を提供するために利用される。

In this paper we investigate the relationships between a multipreferential semantics for defeasible reasoning in knowledge representation and a deep neural network model. Weighted knowledge bases for description logics are considered under a "concept-wise" multipreference semantics. The semantics is further extended to fuzzy interpretations and exploited to provide a preferential interpretation of Multilayer Perceptrons.
翻訳日:2021-04-25 08:09:38 公開日:2021-01-25
# (参考訳) 科学的事実検証のための段落レベルのマルチタスク学習モデル [全文訳有]

A Paragraph-level Multi-task Learning Model for Scientific Fact-Verification ( http://arxiv.org/abs/2012.14500v2 )

ライセンス: CC BY 4.0
Xiangci Li, Gully Burns, Nanyun Peng(参考訳) ドメインの専門家でさえも、証拠の根拠を支持または否定することで科学的な主張を検証することは非自明な仕事である。 ソーシャルメディアやニュースサイトでは、いつでも手動でもプログラムでも、誤報が広まると状況は悪化する。 その結果、誤情報拡散に対処するためには、自動事実検証ツールが不可欠となる。 本研究では,SciFactタスクに対して,BERTモデルからの文脈化文埋め込みのシーケンスを直接計算し,有理数選択と姿勢予測のモデルを協調的に訓練する,新しい段落レベルのマルチタスク学習モデルを提案する。

Even for domain experts, it is a non-trivial task to verify a scientific claim by providing supporting or refuting evidence rationales. The situation worsens as misinformation is proliferated on social media or news websites, manually or programmatically, at every moment. As a result, an automatic fact-verification tool becomes crucial for combating the spread of misinformation. In this work, we propose a novel, paragraph-level, multi-task learning model for the SciFact task by directly computing a sequence of contextualized sentence embeddings from a BERT model and jointly training the model on rationale selection and stance prediction.
翻訳日:2021-04-19 12:39:48 公開日:2021-01-25
# グラフフィルタリングによる分類精度の向上

Improving Classification Accuracy with Graph Filtering ( http://arxiv.org/abs/2101.04789v2 )

ライセンス: Link先を確認
Mounia Hamidouche, Carlos Lassance, Yuqing Hu, Lucas Drumetz, Bastien Pasdeloup, Vincent Gripon(参考訳) 機械学習では、分類器は通常、トレーニングデータのノイズに影響を受けやすい。 本研究では,クラス内雑音を低減し,グラフフィルタリングを用いて分類性能を向上させることを目的とする。 考慮されたグラフは、潜在空間におけるそれらの表現の類似性に応じて同じクラスに属するトレーニング集合のサンプルを接続することによって得られる。 提案手法は,クラス内分散を漸近的に減少させながら平均値を維持したグラフフィルタリング手法である。 本手法は一般にすべての分類問題に適用されるが,クラス内ノイズが小さいサンプル選択に大きく影響しうる場合において特に有用である。 視覚の分野における標準化されたベンチマークを用いて,提案手法は,少数ショットと標準分類の両方の場合において,最先端の結果をわずかに改善する能力を実証的に実証した。

In machine learning, classifiers are typically susceptible to noise in the training data. In this work, we aim at reducing intra-class noise with the help of graph filtering to improve the classification performance. Considered graphs are obtained by connecting samples of the training set that belong to a same class depending on the similarity of their representation in a latent space. We show that the proposed graph filtering methodology has the effect of asymptotically reducing intra-class variance, while maintaining the mean. While our approach applies to all classification problems in general, it is particularly useful in few-shot settings, where intra-class noise can have a huge impact due to the small sample selection. Using standardized benchmarks in the field of vision, we empirically demonstrate the ability of the proposed method to slightly improve state-of-the-art results in both cases of few-shot and standard classification.
翻訳日:2021-04-04 01:51:59 公開日:2021-01-25
# 自己教師付き表現学習と複数画像予測によるcovid-19の予後

COVID-19 Prognosis via Self-Supervised Representation Learning and Multi-Image Prediction ( http://arxiv.org/abs/2101.04909v2 )

ライセンス: Link先を確認
Anuroop Sriram, Matthew Muckley, Koustuv Sinha, Farah Shamout, Joelle Pineau, Krzysztof J. Geras, Lea Azour, Yindalon Aphinyanaphongs, Nafissa Yakubova, William Moore(参考訳) 新型コロナウイルスの感染拡大で病院の資源が枯渇し、救急医療機関に提示する患者の迅速かつ正確なトリアージが求められている。 胸部X線などの臨床データを用いた機械学習技術は、どの患者が劣化のリスクが最も高いかを予測するために用いられている。 胸部X線による2種類の患者劣化予測の課題を考察する: 有害事象劣化(集中治療室への移動, 挿管, 死亡)と1日6L以上の酸素要求量の増加である。 新型コロナウイルス患者のデータが比較的少ないため、既存のソリューションは、関連する非共用画像で教師付き事前トレーニングを利用するが、これは、事前トレーニングデータとターゲットの新型コロナウイルス患者データの違いによって制限される。 本稿では,前訓練段階における運動量コントラスト(moco)法に基づく自己教師あり学習を用いて,下流課題に使用する汎用イメージ表現の学習を行う。 3つの結果が得られます。 1つは1つの画像からの劣化予測であり、このモデルが受信者の動作特性曲線(auc)の下の領域を96時間以内に予測し(教師付き事前訓練で0.703に比較)、24時間で1日6l以上の酸素要求を予測するaucを0.765に設定する(教師付き事前訓練で0.749に比較)。 次に,複数の画像のシーケンスを予測として処理可能なトランスフォーマーアーキテクチャを提案し,96時間における有害事象の予測に改良されたAUC 0.786,96時間における致命率予測に0.848を達成できることを示す。 小型臨床研究により,本モデルの予測精度は,同一情報を解析した経験者と同等であることが示唆された。

The rapid spread of COVID-19 cases in recent months has strained hospital resources, making rapid and accurate triage of patients presenting to emergency departments a necessity. Machine learning techniques using clinical data such as chest X-rays have been used to predict which patients are most at risk of deterioration. We consider the task of predicting two types of patient deterioration based on chest X-rays: adverse event deterioration (i.e., transfer to the intensive care unit, intubation, or mortality) and increased oxygen requirements beyond 6 L per day. Due to the relative scarcity of COVID-19 patient data, existing solutions leverage supervised pretraining on related non-COVID images, but this is limited by the differences between the pretraining data and the target COVID-19 patient data. In this paper, we use self-supervised learning based on the momentum contrast (MoCo) method in the pretraining phase to learn more general image representations to use for downstream tasks. We present three results. The first is deterioration prediction from a single image, where our model achieves an area under receiver operating characteristic curve (AUC) of 0.742 for predicting an adverse event within 96 hours (compared to 0.703 with supervised pretraining) and an AUC of 0.765 for predicting oxygen requirements greater than 6 L a day at 24 hours (compared to 0.749 with supervised pretraining). We then propose a new transformer-based architecture that can process sequences of multiple images for prediction and show that this model can achieve an improved AUC of 0.786 for predicting an adverse event at 96 hours and an AUC of 0.848 for predicting mortalities at 96 hours. A small pilot clinical study suggested that the prediction accuracy of our model is comparable to that of experienced radiologists analyzing the same information.
翻訳日:2021-03-30 08:05:40 公開日:2021-01-25
# 部分重なり合う点集合に対するハイブリッドトリ線形および双線形計画法

Hybrid Trilinear and Bilinear Programming for Aligning Partially Overlapping Point Sets ( http://arxiv.org/abs/2101.07458v2 )

ライセンス: Link先を確認
Wei Lian and Wangmeng Zuo and Lei Zhang(参考訳) 部分重なり合う点集合を処理し、対応する変換に不変なアライメント法は、ICPのような局所探索に基づく手法に初期変換構成を提供するなど、コンピュータビジョンにおいて望ましい。 この目的のために、まず、ロバスト点マッチング(RPM)アルゴリズムの目的が立方多項式であることを示す。 次に,三重項および二重項の凸エンベロープを用いて下界関数を発達させる。 結果として生じる下界問題は、線形代入と低次元凸二次計画法によって効率よく解ける。 次に,変換パラメータのみを分岐して収束する分枝結合アルゴリズム(bnb)を開発した。 実験の結果,提案手法はロバスト性と速度の点で最先端手法よりも良好な性能を示した。

Alignment methods which can handle partially overlapping point sets and are invariant to the corresponding transformations are desirable in computer vision, with applications such as providing initial transformation configuration for local search based methods like ICP. To this end, we first show that the objective of the robust point matching (RPM) algorithm is a cubic polynomial. We then utilize the convex envelopes of trilinear and bilinear monomials to develop its lower bounding function. The resulting lower bounding problem can be efficiently solved via linear assignment and low dimensional convex quadratic programming. We next develop a branch-and-bound (BnB) algorithm which only branches over the transformation parameters and converges quickly. Experimental results demonstrated favorable performance of the proposed method over the state-of-the-art methods in terms of robustness and speed.
翻訳日:2021-03-22 11:21:43 公開日:2021-01-25
# (参考訳) 非パラメトリック適応ネットワークプラニング [全文訳有]

Non-Parametric Adaptive Network Pruning ( http://arxiv.org/abs/2101.07985v2 )

ライセンス: CC BY 4.0
Mingbao Lin, Rongrong Ji, Shaojie Li, Yan Wang, Yongjian Wu, Feiyue Huang, Qixiang Ye(参考訳) 人気のあるネットワークプルーニングアルゴリズムは、手作りパラメトリックモデルを最適化することで冗長情報を減らし、フィルタの選択において最適な性能と長時間を生じる可能性がある。 アルゴリズム設計をシンプルにするために,非パラメトリックモデリングを革新的に導入し,EPrunerと呼ばれる自動かつ効率的なプルーニング手法を実現する。 顔認識コミュニティに触発されて,重み行列に対するメッセージパッシングアルゴリズムの親和性伝播を用いて,適応的な例示数を求め,保存フィルタとして機能する。 eprunerは、"重要"フィルタを決定する際のトレーニングデータへの依存性を壊し、gpuベースのsomaよりも1桁早くcpuの実装を可能にする。 さらに, 実例の重みは, 微調整によりよい初期化をもたらすことを示した。 VGGNet-16では、EPrunerは88.80%のパラメータを除去して76.34%のFLOPを削減し、CIFAR-10の精度は0.06%向上した。 resnet-152において、eprunerは64.18%のパラメータを削除することで65.12%のflops削減を達成している。 コードはhttps://github.com/l mbxmu/eprunerで入手できる。

Popular network pruning algorithms reduce redundant information by optimizing hand-crafted parametric models, and may cause suboptimal performance and long time in selecting filters. We innovatively introduce non-parametric modeling to simplify the algorithm design, resulting in an automatic and efficient pruning approach called EPruner. Inspired by the face recognition community, we use a message passing algorithm Affinity Propagation on the weight matrices to obtain an adaptive number of exemplars, which then act as the preserved filters. EPruner breaks the dependency on the training data in determining the "important" filters and allows the CPU implementation in seconds, an order of magnitude faster than GPU based SOTAs. Moreover, we show that the weights of exemplars provide a better initialization for the fine-tuning. On VGGNet-16, EPruner achieves a 76.34%-FLOPs reduction by removing 88.80% parameters, with 0.06% accuracy improvement on CIFAR-10. In ResNet-152, EPruner achieves a 65.12%-FLOPs reduction by removing 64.18% parameters, with only 0.71% top-5 accuracy loss on ILSVRC-2012. Code can be available at https://github.com/l mbxmu/EPruner.
翻訳日:2021-03-22 08:51:22 公開日:2021-01-25
# LowKey: ソーシャルメディアユーザーを顔認識から守るために、敵対的攻撃を活用する

LowKey: Leveraging Adversarial Attacks to Protect Social Media Users from Facial Recognition ( http://arxiv.org/abs/2101.07922v2 )

ライセンス: Link先を確認
Valeriia Cherepanova, Micah Goldblum, Harrison Foley, Shiyuan Duan, John Dickerson, Gavin Taylor, Tom Goldstein(参考訳) 顔認識システムは、民間企業や政府機関、消費者サービスや大量監視プログラムの請負業者によって、ますます普及している。 これらのシステムは通常、ユーザー画像のソーシャルメディアプロファイルをスクラップして構築される。 顔認識システムをバイパスするための対向摂動法が提案されている。 しかし、既存の方法はフルスケールのシステムや商用APIでは失敗する。 我々は,画像処理パイプライン全体を考慮し,顔検出や大規模データベースを含む産業用パイプラインに対して明らかに有効である,独自の逆フィルタを開発した。 さらに、Amazon RekognitionとMicrosoft Azure Face Recognition APIの精度を大幅に低下させ、それぞれの精度を1%以下に削減する使いやすいWebツールもリリースしました。

Facial recognition systems are increasingly deployed by private corporations, government agencies, and contractors for consumer services and mass surveillance programs alike. These systems are typically built by scraping social media profiles for user images. Adversarial perturbations have been proposed for bypassing facial recognition systems. However, existing methods fail on full-scale systems and commercial APIs. We develop our own adversarial filter that accounts for the entire image processing pipeline and is demonstrably effective against industrial-grade pipelines that include face detection and large scale databases. Additionally, we release an easy-to-use webtool that significantly degrades the accuracy of Amazon Rekognition and the Microsoft Azure Face Recognition API, reducing the accuracy of each to below 1%.
翻訳日:2021-03-22 01:30:55 公開日:2021-01-25
# 動きのぼけに対する幾何学的モーメント不変量

Geometric Moment Invariants to Motion Blur ( http://arxiv.org/abs/2101.08647v2 )

ライセンス: Link先を確認
Hongxiang Hao., Hanlin Mo., Hua Li(参考訳) 本稿では,動きのぼかし不変量の導出による動きのぼかしの干渉を取り除くことに焦点を当てる。 動きのぼやきの幾何学的モーメントと数学的モデルに基づき、ぼやけた画像と元の画像の幾何学的モーメントが線形に関連していることを証明する。 この性質により、既存のモーメントベースの特徴が動きのぼかしに不変であるかどうかを分析することができる。 驚くべきことに、幾何モーメント不変量は空間変換だけでなく動きのぼやきにも不変である。 一方、合成および実画像データセットを用いて、これらの不変量の不変性とロバスト性をテストする。 また,これらの不変量は,画像検索,分類,テンプレートマッチングにおいて広く使用されるぼやけモーメント不変量や非モーメント画像の特徴よりも優れていることが示された。

In this paper, we focus on removing interference of motion blur by the derivation of motion blur invariants.Unlike earlier work, we don't restore any blurred image. Based on geometric moment and mathematical model of motion blur, we prove that geometric moments of blurred image and original image are linearly related. Depending on this property, we can analyse whether an existing moment-based feature is invariant to motion blur. Surprisingly, we find some geometric moment invariants are invariants to not only spatial transform but also motion blur. Meanwhile, we test invariance and robustness of these invariants using synthetic and real blur image datasets. And the results show these invariants outperform some widely used blur moment invariants and non-moment image features in image retrieval, classification and template matching.
翻訳日:2021-03-21 07:49:48 公開日:2021-01-25
# タスク類似性がメタラーニングに与える影響に関する情報理論解析

An Information-Theoreti c Analysis of the Impact of Task Similarity on Meta-Learning ( http://arxiv.org/abs/2101.08390v2 )

ライセンス: Link先を確認
Sharu Theresa Jose and Osvaldo Simeone(参考訳) メタラーニングは、関連するタスクからのデータ観測からモデルクラスやトレーニングアルゴリズムのハイパーパラメータを最適化することを目的としている。 baxter [1] の設定に続いて、タスクはタスク空間上の分散とタスクごとのデータ分散によって定義される同じタスク環境に属すると仮定される。 したがって、タスク環境の統計的性質はタスクの類似性を決定する。 meta-learnerの目標は、タスク環境からサンプリングされた新しいタスクのトレーニングに適用されると、ハイパーパラメータがわずかな損失を得るようにすることである。 結果として生じる平均損失(メタ人口損失)と、メタ一般化ギャップ(meta-generalization gap)として知られる関連するタスクから得られる利用可能なデータに基づいて測定される経験的損失(experience loss)との差は、メタリーナーの一般化能力の尺度である。 本稿では,メタ一般化ギャップの平均絶対値に関する新しい情報理論的境界を提案する。 従来の作業[2]とは違って,タスク関連性,タスク数,タスク毎のデータサンプル数がメタ一般化ギャップに与える影響を明確に把握する。 タスクの類似性は、KL(Kullback-Leibler) とJS(Jensen-Shannon)の分岐によって測定される。 本稿では,メタ学習バイアスを伴うリッジ回帰の例で提案する境界を説明する。

Meta-learning aims at optimizing the hyperparameters of a model class or training algorithm from the observation of data from a number of related tasks. Following the setting of Baxter [1], the tasks are assumed to belong to the same task environment, which is defined by a distribution over the space of tasks and by per-task data distributions. The statistical properties of the task environment thus dictate the similarity of the tasks. The goal of the meta-learner is to ensure that the hyperparameters obtain a small loss when applied for training of a new task sampled from the task environment. The difference between the resulting average loss, known as meta-population loss, and the corresponding empirical loss measured on the available data from related tasks, known as meta-generalization gap, is a measure of the generalization capability of the meta-learner. In this paper, we present novel information-theoreti c bounds on the average absolute value of the meta-generalization gap. Unlike prior work [2], our bounds explicitly capture the impact of task relatedness, the number of tasks, and the number of data samples per task on the meta-generalization gap. Task similarity is gauged via the Kullback-Leibler (KL) and Jensen-Shannon (JS) divergences. We illustrate the proposed bounds on the example of ridge regression with meta-learned bias.
翻訳日:2021-03-21 07:45:20 公開日:2021-01-25
# (参考訳) 弱い指導を伴う深層学習を用いた臨床ノートからアルツハイマー病の生活習慣因子の抽出 [全文訳有]

Extracting Lifestyle Factors for Alzheimer's Disease from Clinical Notes Using Deep Learning with Weak Supervision ( http://arxiv.org/abs/2101.09244v2 )

ライセンス: CC BY 4.0
Zitao Shen, Yoonkwon Yi, Anusha Bompelli, Fang Yu, Yanshan Wang, Rui Zhang(参考訳) アルツハイマー病(AD)に対する効果的な治療法は存在しないため、ライフスタイルの変化や介入によって予防がより重要になっている。 AD患者の電子健康記録(EHR)の分析は、ADに対するライフスタイルの影響をよりよく理解するのに役立ちます。 しかし、ライフスタイル情報は典型的には臨床物語に保存される。 本研究の目的は, 生活習慣因子(身体活動や過度の食事など)を臨床テキストから分類するための自然言語処理(NLP)モデルの有効性を実証することであった。 ルールベースNLPアルゴリズムを用いてトレーニングデータのラベルを自動生成する。 弱ラベル付きトレーニングコーパス上で, BERTモデルから事前学習した双方向エンコーダ表現の弱い監視を行った。 これらのモデルには、BERTベースモデル、PubMedBERT (abstracts + full text)、PubMedBERT (only abstracts)、Unified Medical Language System (UMLS) BERT、Bio BERT、Bio-clinical BERTが含まれる。 生活習慣因子の分類におけるBERTモデルの有効性を検証するために,身体活動と過剰食の2つのケーススタディを行った。 これらのモデルは2つのケーススタディで開発されたゴールドスタンダードコーパス (gsc) で比較された。 PubmedBERT(Abs)モデルは、精度、リコール、F-1スコアはそれぞれ0.96、0.96、0.96で、身体活動において最高のパフォーマンスを達成した。 過度の食事の分類では,Bio BERTモデルが完全精度,リコール,F-1スコアで最高の成績を示した。 弱い監督を利用するアプローチは、ディープラーニングモデルのトレーニングに必要なサンプルサイズを大幅に増加させる可能性がある。 この研究は、臨床ノートからアルツハイマー病のライフスタイル因子を抽出するためのBERTモデルの有効性を示した。

Since no effective therapies exist for Alzheimer's disease (AD), prevention has become more critical through lifestyle factor changes and interventions. Analyzing electronic health records (EHR) of patients with AD can help us better understand lifestyle's effect on AD. However, lifestyle information is typically stored in clinical narratives. Thus, the objective of the study was to demonstrate the feasibility of natural language processing (NLP) models to classify lifestyle factors (e.g., physical activity and excessive diet) from clinical texts. We automatically generated labels for the training data by using a rule-based NLP algorithm. We conducted weak supervision for pre-trained Bidirectional Encoder Representations from Transformers (BERT) models on the weakly labeled training corpus. These models include the BERT base model, PubMedBERT(abstracts + full text), PubMedBERT(only abstracts), Unified Medical Language System (UMLS) BERT, Bio BERT, and Bio-clinical BERT. We performed two case studies: physical activity and excessive diet, in order to validate the effectiveness of BERT models in classifying lifestyle factors for AD. These models were compared on the developed Gold Standard Corpus (GSC) on the two case studies. The PubmedBERT(Abs) model achieved the best performance for physical activity, with its precision, recall, and F-1 scores of 0.96, 0.96, and 0.96, respectively. Regarding classifying excessive diet, the Bio BERT model showed the highest performance with perfect precision, recall, and F-1 scores. The proposed approach leveraging weak supervision could significantly increase the sample size, which is required for training the deep learning models. The study also demonstrates the effectiveness of BERT models for extracting lifestyle factors for Alzheimer's disease from clinical notes.
翻訳日:2021-03-20 21:20:47 公開日:2021-01-25
# (参考訳) ECOL-R:強化学習による新規オブジェクトキャプションにおけるコピー促進 [全文訳有]

ECOL-R: Encouraging Copying in Novel Object Captioning with Reinforcement Learning ( http://arxiv.org/abs/2101.09865v1 )

ライセンス: CC BY 4.0
Yufei Wang and Ian D. Wood and Stephen Wan and Mark Johnson(参考訳) 新規なオブジェクトキャプションは、トレーニングキャプションで見ることなく、外部のオブジェクト検出器から情報が得られるオブジェクトを記述することを必要とするゼロショット画像キャプションタスクである。 重要な課題は、入力画像中の検出されたすべての新規オブジェクトを選択し、記述することです。 本稿では、この課題に焦点をあて、新しいオブジェクトラベルを正確に記述することを奨励するコピー強化トランスフォーマーモデルであるECOL-Rモデル(Encouraging Copying of Object Labels with Reinforced Learning)を提案する。 これは、キャプション品質を維持しながら、新しいオブジェクトへの言及を奨励するscst強化学習フレームワーク(rennie et al., 2017)の特別報酬関数によって達成される。 さらに、検出対象が参照キャプションに言及されている画像に対してSCSTトレーニングを制限し、ECOL-Rモデルをトレーニングする。 さらに、既知のオブジェクトタイプから新しいオブジェクトタイプに知識を転送するAbstract Labelsと、新しいオブジェクトラベルの適切な入力形式を決定するMorphological Selectorを介してコピーメカニズムを改善します。 その結果得られたモデルは、nocaps (agrawal et al., 2019) と hold-out coco (hendricks et al., 2016) ベンチマークに最新技術を設定する。

Novel Object Captioning is a zero-shot Image Captioning task requiring describing objects not seen in the training captions, but for which information is available from external object detectors. The key challenge is to select and describe all salient detected novel objects in the input images. In this paper, we focus on this challenge and propose the ECOL-R model (Encouraging Copying of Object Labels with Reinforced Learning), a copy-augmented transformer model that is encouraged to accurately describe the novel object labels. This is achieved via a specialised reward function in the SCST reinforcement learning framework (Rennie et al., 2017) that encourages novel object mentions while maintaining the caption quality. We further restrict the SCST training to the images where detected objects are mentioned in reference captions to train the ECOL-R model. We additionally improve our copy mechanism via Abstract Labels, which transfer knowledge from known to novel object types, and a Morphological Selector, which determines the appropriate inflected forms of novel object labels. The resulting model sets new state-of-the-art on the nocaps (Agrawal et al., 2019) and held-out COCO (Hendricks et al., 2016) benchmarks.
翻訳日:2021-03-16 07:58:33 公開日:2021-01-25
# (参考訳) 第3次ディハードチャレンジにおけるドメイン依存話者ダイアリゼーション [全文訳有]

Domain-Dependent Speaker Diarization for the Third DIHARD Challenge ( http://arxiv.org/abs/2101.09884v1 )

ライセンス: CC BY 4.0
A Kishore Kumar, Shefali Waldekar, Goutam Saha, Md Sahidullah(参考訳) 本報告では,第3回DIHARD音声ダイアリゼーションチャレンジのためにABSP Laboratoryチームが開発したシステムについて述べる。 本研究の主な貢献は,音響領域依存音声ダイアリゼーションのための簡易かつ効率的な解法の開発である。 Emph{acoustic domain ID} (ADI) タスクのスピーカ埋め込みについて検討する。 本研究は,第3のDIHARDチャレンジデータセットにおいて,i-vectorベースの手法がx-vectorベースの手法よりもかなり優れた性能を実現することを明らかにする。 次に、ADIモジュールとダイアリゼーションフレームワークを統合します。 その性能は,凝集階層クラスタリングのしきい値と,各音響領域の得点時の次元性低減パラメータを最適化することで,ベースラインよりも大幅に向上した。 我々は,DIHARD III 評価セットのトラック1において,コア条件とフル条件に対する DER の 9.63 % と 10.64 % の相対的な改善を達成した。

This report presents the system developed by the ABSP Laboratory team for the third DIHARD speech diarization challenge. Our main contribution in this work is to develop a simple and efficient solution for acoustic domain dependent speech diarization. We explore speaker embeddings for \emph{acoustic domain identification} (ADI) task. Our study reveals that i-vector based method achieves considerably better performance than x-vector based approach in the third DIHARD challenge dataset. Next, we integrate the ADI module with the diarization framework. The performance substantially improved over that of the baseline when we optimized the thresholds for agglomerative hierarchical clustering and the parameters for dimensionality reduction during scoring for individual acoustic domains. We achieved a relative improvement of $9.63\%$ and $10.64\%$ in DER for core and full conditions, respectively, for Track 1 of the DIHARD III evaluation set.
翻訳日:2021-03-16 07:37:05 公開日:2021-01-25
# (参考訳) MadDog: 頭字語識別と曖昧化のためのWebベースシステム [全文訳有]

MadDog: A Web-based System for Acronym Identification and Disambiguation ( http://arxiv.org/abs/2101.09893v1 )

ライセンス: CC BY 4.0
Amir Pouran Ben Veyseh, Franck Dernoncourt, Walter Chang, Thien Huu Nguyen(参考訳) 略語と略語は、長いフレーズの短い形式であり、さまざまなタイプの執筆に広く使用されています。 文章中のスペースと読み時間の節約が有用であるにもかかわらず、特に頭字語がテキストで定義されていない場合や長いテキストでの定義から遠く離れている場合など、テキストを理解する上での課題もある。 この問題を軽減するため、研究コミュニティとソフトウェア開発者の両方から、頭字語を識別するシステムを構築し、テキスト中の正しい意味を見つけるための努力がなされている。 しかし、既存の作品のいずれも、さまざまなドメインで頭字語を処理し、公開可能な統一ソリューションを提供していない。 そこで我々は, 科学, 生物医学, 一般分野など, 様々な分野の頭字語を処理できる, 初めてのWebベースの頭字語識別・曖昧化システムを提供する。 Webベースのシステムはhttp://iq.cs.uoregon .edu:5000で公開されており、デモビデオはhttps://youtu.be/IkS h7LqI42Mで公開されている。 システムソースコードはhttps://github.com/a mirveyseh/MadDogでも入手できる。

Acronyms and abbreviations are the short-form of longer phrases and they are ubiquitously employed in various types of writing. Despite their usefulness to save space in writing and reader's time in reading, they also provide challenges for understanding the text especially if the acronym is not defined in the text or if it is used far from its definition in long texts. To alleviate this issue, there are considerable efforts both from the research community and software developers to build systems for identifying acronyms and finding their correct meanings in the text. However, none of the existing works provide a unified solution capable of processing acronyms in various domains and to be publicly available. Thus, we provide the first web-based acronym identification and disambiguation system which can process acronyms from various domains including scientific, biomedical, and general domains. The web-based system is publicly available at http://iq.cs.uoregon .edu:5000 and a demo video is available at https://youtu.be/IkS h7LqI42M. The system source code is also available at https://github.com/a mirveyseh/MadDog.
翻訳日:2021-03-16 07:33:37 公開日:2021-01-25
# (参考訳) モデル駆動からデータ駆動へ:アクティブディープラーニングに関する調査 [全文訳有]

From Model-driven to Data-driven: A Survey on Active Deep Learning ( http://arxiv.org/abs/2101.09933v1 )

ライセンス: CC BY 4.0
Peng Liu, Guojin He, Lei Zhao(参考訳) 大規模なデータセットにラベル付けすべきサンプルは、ディープラーニングのトレーニングにおいて最も重要な問題のひとつです。 これまでのところ,多くの文献において,深層学習に関連する様々なサンプル選択戦略が提案されている。 基本学習者が予測者と呼ばれ、ラベル付けスキームがセレクタと呼ばれる深層モデルの場合のみ、アクティブ深層学習(adl)と定義した。 本調査では,セレクタ指定における3つの基本因子を要約した。 ADLをモデル駆動型ADLとデータ駆動型ADLに分類する。 2つの主要なADLの異なる特性は、それぞれindetailで対処された。 さらに、データ駆動型およびモデル駆動型ADLのサブクラスも要約され、実証的に議論される。 データ駆動型adlandモデル駆動adlの利点と欠点を徹底的に分析する。 我々は、ディープラーニングの開発により、ADLのセレクタもモデル駆動からデータ駆動まで段階を経験していると指摘した。 最後に、その不確実性、説明、認知科学の基礎などについて議論し、モデル駆動からデータ駆動へのadlの動向について調査する。

Which samples should be labelled in a large data set is one of the most important problems for trainingof deep learning. So far, a variety of active sample selection strategies related to deep learning havebeen proposed in many literatures. We defined them as Active Deep Learning (ADL) only if theirpredictor is deep model, where the basic learner is called as predictor and the labeling schemes iscalled selector. In this survey, three fundamental factors in selector designation were summarized. Wecategory ADL into model-driven ADL and data-driven ADL, by whether its selector is model-drivenor data-driven. The different characteristics of the two major type of ADL were addressed in indetail respectively. Furthermore, different sub-classes of data-driven and model-driven ADL are alsosummarized and discussed emphatically. The advantages and disadvantages between data-driven ADLand model-driven ADL are thoroughly analyzed. We pointed out that, with the development of deeplearning, the selector in ADL also is experiencing the stage from model-driven to data-driven. Finally,we make discussion on ADL about its uncertainty, explanatory, foundations of cognitive science etc.and survey on the trend of ADL from model-driven to data-driven.
翻訳日:2021-03-16 07:21:20 公開日:2021-01-25
# (参考訳) ベイズ最適化による4足歩行ロボットの足場歩行学習 [全文訳有]

Scaffolded Gait Learning of a Quadruped Robot with Bayesian Optimization ( http://arxiv.org/abs/2101.09961v1 )

ライセンス: CC BY 4.0
Keyan Zhai, Chu'an Li, Andre Rosendo(参考訳) 学習試験の間、システムは異なる障害条件に晒され、安全な行動が見つかる前にロボット部品を壊す可能性がある。 人間はこの問題を、学習をより安全な構造/制御に置き、その難しさを徐々に増すことで解決する。 本稿では,四足歩行ロボットに対する安定歩行学習における同様の支援の効果について述べる。 指導足場に関する心理学的理論に基づき,ロボットに異なる支援設定を提供し,ひずみゲージを用いて評価し,安定なraibertコントローラに対するパラメトリック探索を行うためにベイズ最適化を用いる。 歩行学習において一定支持と徐々に減少する支持の関係を計測するための実験を行い, 徐々に減少する支持は一定高さでの支持よりも安定な歩行を創出できることを示した。 シミュレーションと現実のギャップはロボットに壊滅的な失敗をもたらす可能性があるが、提案手法は新たな行動を学ぶ際のスピードと安全性を組み合わせたものである。

During learning trials, systems are exposed to different failure conditions which may break robotic parts before a safe behavior is discovered. Humans contour this problem by grounding their learning to a safer structure/control first and gradually increasing its difficulty. This paper presents the impact of a similar supports in the learning of a stable gait on a quadruped robot. Based on the psychological theory of instructional scaffolding, we provide different support settings to our robot, evaluated with strain gauges, and use Bayesian Optimization to conduct a parametric search towards a stable Raibert controller. We perform several experiments to measure the relation between constant supports and gradually reduced supports during gait learning, and our results show that a gradually reduced support is capable of creating a more stable gait than a support at a fixed height. Although gaps between simulation and reality can lead robots to catastrophic failures, our proposed method combines speed and safety when learning a new behavior.
翻訳日:2021-03-16 06:13:11 公開日:2021-01-25
# (参考訳) トランスファーラーニングを用いたCOVID-19関連肺浸潤物のセグメント化のための3D U-Net: 手頃な価格のハードウェアに関する最新の結果 [全文訳有]

3D U-Net for segmentation of COVID-19 associated pulmonary infiltrates using transfer learning: State-of-the-art results on affordable hardware ( http://arxiv.org/abs/2101.09976v1 )

ライセンス: CC BY-SA 4.0
Keno K. Bressem, Stefan M. Niehues, Bernd Hamm, Marcus R. Makowski, Janis L. Vahldiek, Lisa C. Adams(参考訳) 肺浸潤物のセグメンテーションは、COVID-19の重症度を評価するのに役立ちますが、手動セグメンテーションは労働力と時間集約的です。 神経ネットワークを用いて肺浸潤を分断すると、このタスクは自動化される。 しかし、CTデータから3D U-Netを訓練することは時間的およびリソース集約的である。 そこで本研究では,限られたハードウェアと短時間で,最先端セグメンテーションモデルのトレーニングにトランスファーラーニングを利用する方法を開発した。 私たちは最近公開されたRSNA International COVID-19 Open Radiology Database(RICORD)を使用して、18層の3D ResNetを使用して完全な3次元U-Netアーキテクチャを訓練します。 このモデルの一般化は、胸部CT(Corona CasesとMosMedデータセット)を受けたCOVID-19患者の2つのオープンに利用可能なデータセットでテストされた。 我々のモデルは、以前公開された3D U-Netアーキテクチャに匹敵し、チューニングデータセットの平均Diceスコア0.679、コロナケースデータセット0.648、MosMedデータセット0.405を達成しました。 特に、これらの結果は、以前の研究で使用したGPUよりも少ないメモリを持つ単一のGPU上でのトレーニング時間を短くすることで達成された。

Segmentation of pulmonary infiltrates can help assess severity of COVID-19, but manual segmentation is labor and time-intensive. Using neural networks to segment pulmonary infiltrates would enable automation of this task. However, training a 3D U-Net from computed tomography (CT) data is time- and resource-intensive. In this work, we therefore developed and tested a solution on how transfer learning can be used to train state-of-the-art segmentation models on limited hardware and in shorter time. We use the recently published RSNA International COVID-19 Open Radiology Database (RICORD) to train a fully three-dimensional U-Net architecture using an 18-layer 3D ResNet, pretrained on the Kinetics-400 dataset as encoder. The generalization of the model was then tested on two openly available datasets of patients with COVID-19, who received chest CTs (Corona Cases and MosMed datasets). Our model performed comparable to previously published 3D U-Net architectures, achieving a mean Dice score of 0.679 on the tuning dataset, 0.648 on the Coronacases dataset and 0.405 on the MosMed dataset. Notably, these results were achieved with shorter training time on a single GPU with less memory available than the GPUs used in previous studies.
翻訳日:2021-03-16 06:06:57 公開日:2021-01-25
# (参考訳) 全または無体制における最大類似度推定について [全文訳有]

On maximum-likelihood estimation in the all-or-nothing regime ( http://arxiv.org/abs/2101.09994v1 )

ライセンス: CC BY 4.0
Luca Corinzia, Paolo Penna, Wojciech Szpankowski, Joachim M. Buhmann(参考訳) ガウステンソルの階数1の加法的変形を \emph{maximum-likelihood estimator} (MLE) に従って推定する問題について検討する。 解析はスパース設定で行われ、基礎となる信号は、次元の総数に対して部分線形にスケールする支持体を持つ。 我々は、ベルヌーイ分布信号に対して、MLEは、同じ問題における最小平均二乗誤差推定器(MMSE)に対して既に確立されている \emph{all-or-nothing} (AoN) 相転移を行うことを示す。 i) MLE と MMSE の接続は、制約された信号空間における第一モーメント法と第二モーメント法を用い、 (ii) MMSE の回復規則は、標準 AoN で与えられる単純なエラー消滅特性よりも厳格であり、これは一般的な結果として証明されている。

We study the problem of estimating a rank-1 additive deformation of a Gaussian tensor according to the \emph{maximum-likelihood estimator} (MLE). The analysis is carried out in the sparse setting, where the underlying signal has a support that scales sublinearly with the total number of dimensions. We show that for Bernoulli distributed signals, the MLE undergoes an \emph{all-or-nothing} (AoN) phase transition, already established for the minimum mean-square-error estimator (MMSE) in the same problem. The result follows from two main technical points: (i) the connection established between the MLE and the MMSE, using the first and second-moment methods in the constrained signal space, (ii) a recovery regime for the MMSE stricter than the simple error vanishing characterization given in the standard AoN, that is here proved as a general result.
翻訳日:2021-03-16 05:29:23 公開日:2021-01-25
# (参考訳) フェデレーション学習に基づく生産ラインの故障予測:実証的研究 [全文訳有]

Failure Prediction in Production Line Based on Federated Learning: An Empirical Study ( http://arxiv.org/abs/2101.11715v1 )

ライセンス: CC0 1.0
Ning Ge, Guanghao Li, Li Zhang, Yi Liu Yi Liu(参考訳) 組織間のデータ保護は、集中型学習(cl)技術の適用を制限する。 フェデレーション学習(fl)は、複数の参加者がデータを共有することなく学習モデルを構築することを可能にする。 それでも、知的製造におけるFLに関する研究はごくわずかである。 本稿では,FLに基づく生産ラインの故障予測に関する実証研究の結果について述べる。 本論文では,(1)FedSVM(Federated Support Vector Machine)およびFedRF(Federated Random Forest)アルゴリズムを水平FLと垂直FLのシナリオに対してそれぞれ設計し,(2)FLとCLのアルゴリズムの有効性を評価する実験プロセスを提案する。 テストデータが不均一であるという事実は、私たちの発見を高めます。 本研究では FL が CL を故障予測に置き換えることができることを明らかにした。

Data protection across organizations is limiting the application of centralized learning (CL) techniques. Federated learning (FL) enables multiple participants to build a learning model without sharing data. Nevertheless, there are very few research works on FL in intelligent manufacturing. This paper presents the results of an empirical study on failure prediction in the production line based on FL. This paper (1) designs Federated Support Vector Machine (FedSVM) and Federated Random Forest (FedRF) algorithms for the horizontal FL and vertical FL scenarios, respectively; (2) proposes an experiment process for evaluating the effectiveness between the FL and CL algorithms; (3) finds that the performance of FL and CL are not significantly different on the global testing data, on the random partial testing data, and on the estimated unknown Bosch data, respectively. The fact that the testing data is heterogeneous enhances our findings. Our study reveals that FL can replace CL for failure prediction.
翻訳日:2021-03-16 05:01:51 公開日:2021-01-25
# (参考訳) インテリジェントエージェントのための簡易災害関連知識基盤 [全文訳有]

A Simple Disaster-Related Knowledge Base for Intelligent Agents ( http://arxiv.org/abs/2101.10014v1 )

ライセンス: CC BY 4.0
Clark Emmanuel Paulo, Arvin Ken Ramirez, David Clarence Reducindo, Rannie Mark Mateo, Joseph Marvin Imperial(参考訳) 本論文では,フィリピンの災害時における概念と単語関係からなる意味的ネットワークを構築することにより,単純な知識基盤を確立する取り組みについて述べる。 私たちの主なデータソースは、フィリピンのニュースサイトから取り除かれたニュース記事のコレクションです。 単語埋め込みを用いて、初期シード単語リストから意味的に類似し共起する単語を抽出する。 我々は450単語のアサーションを持つ拡張オントロジーに到達した。 言語学、災害学、気象学の専門家に私たちの知識ベースを評価し、一致率64%に到達させました。 次に,アサーションの時系列分析を行い,(a) 人間による役割の傾向,(b) 人間の所属,(c) 災害関連単語の共通化など,知識基盤が捉えた重要な意味的変化を同定する。 本研究から開発されたコンテキスト固有の知識ベースは,facebook messengerなどのプラットフォームに統合されたチャットボットなどのインテリジェントエージェントによって,災害関連クエリに応答することができる。

In this paper, we describe our efforts in establishing a simple knowledge base by building a semantic network composed of concepts and word relationships in the context of disasters in the Philippines. Our primary source of data is a collection of news articles scraped from various Philippine news websites. Using word embeddings, we extract semantically similar and co-occurring words from an initial seed words list. We arrive at an expanded ontology with a total of 450 word assertions. We let experts from the fields of linguistics, disasters, and weather science evaluate our knowledge base and arrived at an agreeability rate of 64%. We then perform a time-based analysis of the assertions to identify important semantic changes captured by the knowledge base such as the (a) trend of roles played by human entities, (b) memberships of human entities, and (c) common association of disaster-related words. The context-specific knowledge base developed from this study can be adapted by intelligent agents such as chat bots integrated in platforms such as Facebook Messenger for answering disaster-related queries.
翻訳日:2021-03-16 04:33:30 公開日:2021-01-25
# (参考訳) グラフニューラルネットワークの現状と電力システムへの応用 [全文訳有]

A Review of Graph Neural Networks and Their Applications in Power Systems ( http://arxiv.org/abs/2101.10025v1 )

ライセンス: CC BY 4.0
Wenlong Liao, Birgitte Bak-Jensen, Jayakrishnan Radhakrishna Pillai, Yuelong Wang, and Yusen Wang(参考訳) ディープニューラルネットワークは、パターン認識から信号処理まで、電力システムにおける多くの機械学習タスクに革命をもたらした。 これらのタスクのデータは典型的にはユークリッド領域で表される。 それでも電力系統では、非ユークリッド領域からデータが収集され、高次元の特徴とノード間の相互依存性を持つグラフ構造化データとして表現されるアプリケーションが増えています。 グラフ構造化データの複雑さは、ユークリッド領域で定義された既存のディープニューラルネットワークに大きな課題をもたらした。 近年,電力系統におけるグラフ構造化データに対するディープニューラルネットワークの拡張に関する研究が数多く行われている。 本稿では,電力系統におけるグラフニューラルネットワーク(gnns)の包括的概要について述べる。 具体的には、GNN構造(例えば、グラフ畳み込みネットワーク、グラフ繰り返しニューラルネットワーク、グラフ注意ネットワーク、グラフ生成ネットワーク、空間時空間グラフ畳み込みネットワーク、GNNsのハイブリッド形式)のいくつかの古典的なパラダイムを要約し、故障診断、電力予測、電力フロー計算、データ生成などの電力システムにおける重要なアプリケーションについて詳細に検討する。 さらに、電力システムにおけるGNNの適用に関する主な課題といくつかの研究動向について論じる。

Deep neural networks have revolutionized many machine learning tasks in power systems, ranging from pattern recognition to signal processing. The data in these tasks is typically represented in Euclidean domains. Nevertheless, there is an increasing number of applications in power systems, where data are collected from non-Euclidean domains and represented as the graph-structured data with high dimensional features and interdependency among nodes. The complexity of graph-structured data has brought significant challenges to the existing deep neural networks defined in Euclidean domains. Recently, many studies on extending deep neural networks for graph-structured data in power systems have emerged. In this paper, a comprehensive overview of graph neural networks (GNNs) in power systems is proposed. Specifically, several classical paradigms of GNNs structures (e.g., graph convolutional networks, graph recurrent neural networks, graph attention networks, graph generative networks, spatial-temporal graph convolutional networks, and hybrid forms of GNNs) are summarized, and key applications in power systems such as fault diagnosis, power prediction, power flow calculation, and data generation are reviewed in detail. Furthermore, main issues and some research trends about the applications of GNNs in power systems are discussed.
翻訳日:2021-03-15 13:00:03 公開日:2021-01-25
# (参考訳) ターゲット補題アノテーションによる用語翻訳の円滑化 [全文訳有]

Facilitating Terminology Translation with Target Lemma Annotations ( http://arxiv.org/abs/2101.10035v1 )

ライセンス: CC BY-SA 4.0
Toms Bergmanis and M\=arcis Pinnis(参考訳) 機械翻訳における用語統合に関する最近の研究のほとんどは、用語翻訳がターゲット言語の文に適した形で既にインフレーションされていると仮定している。 しかし、プロの翻訳者の日々の仕事では、翻訳者が辞書形式で用語が与えられたバイリンガル用語集で作業するケースはほとんどありません。適切なターゲット言語フォームを見つけることは翻訳プロセスの一部です。 apriori の特定対象言語形式に対する要求は非現実的であり、以前の作業の実用的適用性を妨げていると論じている。 本研究では,ランダムに選択されたソース言語単語を対象言語補題で注釈付けするソース側データ拡張手法を用いて,機械翻訳システムの訓練を行う。 このような拡張データに基づいて訓練されたシステムは,実生活の翻訳シナリオにおける用語統合に容易に利用できることを示す。 形態学的に複雑なバルト語とウラル語への用語変換実験では,用語統合の手段のないベースラインシステムよりも最大7点のBLEU点が向上し,前回の作業よりも平均4点のBLEU点が向上した。 人的評価の結果は、ラトビア語への翻訳の際の項翻訳精度において、以前の研究よりも47.7%の絶対的な改善を示している。

Most of the recent work on terminology integration in machine translation has assumed that terminology translations are given already inflected in forms that are suitable for the target language sentence. In day-to-day work of professional translators, however, it is seldom the case as translators work with bilingual glossaries where terms are given in their dictionary forms; finding the right target language form is part of the translation process. We argue that the requirement for apriori specified target language forms is unrealistic and impedes the practical applicability of previous work. In this work, we propose to train machine translation systems using a source-side data augmentation method that annotates randomly selected source language words with their target language lemmas. We show that systems trained on such augmented data are readily usable for terminology integration in real-life translation scenarios. Our experiments on terminology translation into the morphologically complex Baltic and Uralic languages show an improvement of up to 7 BLEU points over baseline systems with no means for terminology integration and an average improvement of 4 BLEU points over the previous work. Results of the human evaluation indicate a 47.7% absolute improvement over the previous work in term translation accuracy when translating into Latvian.
翻訳日:2021-03-15 12:26:51 公開日:2021-01-25
# (参考訳) 定時系列におけるARIMAの反復学習のための収束の最適化 [全文訳有]

Optimizing Convergence for Iterative Learning of ARIMA for Stationary Time Series ( http://arxiv.org/abs/2101.10037v1 )

ライセンス: CC BY 4.0
Kevin Styp-Rekowski, Florian Schmidt, Odej Kao(参考訳) 連続システムにおける時系列の予測は、IoTと5Gの最近の開発により、ますます関連性の高いタスクになります。 一般的な予測モデルであるARIMAは、数十年にわたって様々なアプリケーションに適用されている。 ARIMAのオンライン変種は、時系列の基本的なプロセスを学ぶために、オンラインニュートンステップを適用します。 この最適化手法には計算の複雑さと収束に関する落とし穴がある。 そこで本研究では,近年,ニューラルネットワークの学習に普及した計算コストの安いオンライングラディエントDescent最適化手法に着目した。 このようなモデルを反復的に学習するために,Adam,AMSGrad,Adagra d,Nesterovなど,異なるオンライングラディエントDescent学習者を組み合わせて高速収束を実現する手法を提案する。 合成データおよび実験データセットの評価は,提案手法が既存の手法より優れており,全体として予測誤差が低いことを示す。

Forecasting of time series in continuous systems becomes an increasingly relevant task due to recent developments in IoT and 5G. The popular forecasting model ARIMA is applied to a large variety of applications for decades. An online variant of ARIMA applies the Online Newton Step in order to learn the underlying process of the time series. This optimization method has pitfalls concerning the computational complexity and convergence. Thus, this work focuses on the computational less expensive Online Gradient Descent optimization method, which became popular for learning of neural networks in recent years. For the iterative training of such models, we propose a new approach combining different Online Gradient Descent learners (such as Adam, AMSGrad, Adagrad, Nesterov) to achieve fast convergence. The evaluation on synthetic data and experimental datasets show that the proposed approach outperforms the existing methods resulting in an overall lower prediction error.
翻訳日:2021-03-15 12:15:59 公開日:2021-01-25
# (参考訳) 風速予測のための深層グラフ畳み込みネットワーク [全文訳有]

Deep Graph Convolutional Networks for Wind Speed Prediction ( http://arxiv.org/abs/2101.10041v1 )

ライセンス: CC BY-SA 4.0
Tomasz Sta\'nczyk and Siamak Mehrkanoon(参考訳) 風速予測と予測は、さまざまなビジネスおよび管理部門にとって重要です。 本稿では,グラフ畳み込みネットワーク(GCN)に基づく風速予測の新しいモデルを提案する。 複数の気象観測所から取得した複数の気象変数の時間的データから、風速は複数の時間ステップで予測される。 特に気象局は、関連する隣接行列が学習可能であるグラフのノードとして扱われる。 このようにして、ネットワークはグラフ空間構造を学習し、過去の気象データに基づいて気象観測所間の関係の強さを決定する。 学習した隣接行列に自己ループ接続を追加し、隣接行列を正規化する。 自己ループ接続設定(2つの別々のモデル)で2つのシナリオを検討します。 最初のシナリオでは、自己ループ接続は定数加法として課される。 第2のシナリオでは、ネットワークが自己ループ接続強度を決定するために学習可能なパラメータを含む。 さらに,空間グラフ畳み込みとともに時空間グラフ畳み込みを構成する複数の時間ステップからのデータを取り入れた。 デンマークとオランダの都市にある気象観測所から収集した実データを用いて実験を行った。 数値実験により,提案したモデルが参照データセットのベースラインモデルより優れていることが示された。 モデルの各層から学習隣接行列を視覚化することで、さらなる洞察を提供します。

Wind speed prediction and forecasting is important for various business and management sectors. In this paper, we introduce new models for wind speed prediction based on graph convolutional networks (GCNs). Given hourly data of several weather variables acquired from multiple weather stations, wind speed values are predicted for multiple time steps ahead. In particular, the weather stations are treated as nodes of a graph whose associated adjacency matrix is learnable. In this way, the network learns the graph spatial structure and determines the strength of relations between the weather stations based on the historical weather data. We add a self-loop connection to the learnt adjacency matrix and normalize the adjacency matrix. We examine two scenarios with the self-loop connection setting (two separate models). In the first scenario, the self-loop connection is imposed as a constant additive. In the second scenario a learnable parameter is included to enable the network to decide about the self-loop connection strength. Furthermore, we incorporate data from multiple time steps with temporal convolution, which together with spatial graph convolution constitutes spatio-temporal graph convolution. We perform experiments on real datasets collected from weather stations located in cities in Denmark and the Netherlands. The numerical experiments show that our proposed models outperform previously developed baseline models on the referenced datasets. We provide additional insights by visualizing learnt adjacency matrices from each layer of our models.
翻訳日:2021-03-15 12:02:00 公開日:2021-01-25
# (参考訳) 衛星通信における人工知能の展望 [全文訳有]

Artificial Intelligence for Satellite Communication: A Review ( http://arxiv.org/abs/2101.10899v1 )

ライセンス: CC BY 4.0
Fares Fourati, Mohamed-Slim Alouini(参考訳) 衛星通信は、未発見領域や未発見領域に対するサービス継続性、サービスユビキティ、サービスのスケーラビリティを提供する。 しかし、衛星ネットワークの資源管理、ネットワーク制御、ネットワークセキュリティ、スペクトル管理、エネルギー利用が地上ネットワークよりも難しいため、これらの利点を実現するために、まずいくつかの課題に対処しなければならない。 一方、機械学習、ディープラーニング、強化学習などの人工知能(AI)は、研究分野として着実に成長しており、無線通信を含む多様なアプリケーションで成果を発揮しています。 特に、ビームホッピング、アンチジャミング、ネットワークトラフィック予測、チャネルモデリング、テレメトリマイニング、電離圏シンチレーション検出、干渉管理、リモートセンシング、行動モデリング、宇宙-地上統合、エネルギー管理など、さまざまな衛星通信分野へのAIの適用は優れた可能性を実証しています。 この研究は、AI、その多様なサブフィールド、そして最先端のアルゴリズムの概観を提供する。 衛星通信システムの多様な側面に直面するいくつかの課題が議論され、その提案と潜在的なAIベースのソリューションが提示される。 最後に、フィールドの見通しが描かれ、将来のステップが提案される。

Satellite communication offers the prospect of service continuity over uncovered and under-covered areas, service ubiquity, and service scalability. However, several challenges must first be addressed to realize these benefits, as the resource management, network control, network security, spectrum management, and energy usage of satellite networks are more challenging than that of terrestrial networks. Meanwhile, artificial intelligence (AI), including machine learning, deep learning, and reinforcement learning, has been steadily growing as a research field and has shown successful results in diverse applications, including wireless communication. In particular, the application of AI to a wide variety of satellite communication aspects have demonstrated excellent potential, including beam-hopping, anti-jamming, network traffic forecasting, channel modeling, telemetry mining, ionospheric scintillation detecting, interference managing, remote sensing, behavior modeling, space-air-ground integrating, and energy managing. This work thus provides a general overview of AI, its diverse sub-fields, and its state-of-the-art algorithms. Several challenges facing diverse aspects of satellite communication systems are then discussed, and their proposed and potential AI-based solutions are presented. Finally, an outlook of field is drawn, and future steps are suggested.
翻訳日:2021-03-15 10:59:30 公開日:2021-01-25
# (参考訳) 方向性平均シフトアルゴリズムのEMパースペクティブ [全文訳有]

The EM Perspective of Directional Mean Shift Algorithm ( http://arxiv.org/abs/2101.10058v1 )

ライセンス: CC BY 4.0
Yikun Zhang, Yen-Chi Chen(参考訳) 指向性平均シフト (DMS) アルゴリズムは、単位超球面上のカーネル密度推定器によって定義される局所的な密度モードを求める非パラメトリックな手法である。 本稿では、任意の DMS 反復を一般化期待最大化 (EM) アルゴリズムとして見ることができること、特に von Mises カーネルを適用すると、正確な EM アルゴリズムとなることを示す。 一般化された)emフレームワークの下では、密度推定の上昇特性の新たな証明を提供し、方向平均シフト列のグローバル収束を実証する。 最後に,dmsアルゴリズムの線形収束に関する新たな知見を与える。

The directional mean shift (DMS) algorithm is a nonparametric method for pursuing local modes of densities defined by kernel density estimators on the unit hypersphere. In this paper, we show that any DMS iteration can be viewed as a generalized Expectation-Maximiza tion (EM) algorithm; in particular, when the von Mises kernel is applied, it becomes an exact EM algorithm. Under the (generalized) EM framework, we provide a new proof for the ascending property of density estimates and demonstrate the global convergence of directional mean shift sequences. Finally, we give a new insight into the linear convergence of the DMS algorithm.
翻訳日:2021-03-15 09:59:04 公開日:2021-01-25
# (参考訳) RelWalk - 知識グラフ埋め込みのための潜在変数モデルアプローチ [全文訳有]

RelWalk A Latent Variable Model Approach to Knowledge Graph Embedding ( http://arxiv.org/abs/2101.10070v1 )

ライセンス: CC BY 4.0
Danushka Bollegala, Huda Hakami, Yuichi Yoshida and Ken-ichi Kawarabayashi(参考訳) 低次元空間におけるエンティティの埋め込みと知識グラフの関係は、エンティティ間のリンクの欠如を予測する際、顕著な性能を示した。 進歩は達成されたが、既存の方法はヒューリスティックに動機づけられ、そのような埋め込みの理論的理解は比較的未発達である。 本稿では、単語埋め込みのランダムウォークモデル(Arora et al., 2016a)を知識グラフ埋め込み(KGE)に拡張し、2つの実体h(ヘッド)とt(テール)の間の関係Rの強さを評価するスコアリング関数を導出する。 さらに,KGEの先行研究で広く用いられている限界損失最小化は,KGEから推定される確率の下での対数類似率の最大化から自然に導かれることを示す。 理論的解析によって動機付けられた学習目標を提案し,知識グラフからKGEを学習する。 得られた目的を用いて、正確なKGEをFB15K237とWN18RRベンチマークデータセットから学習し、理論を支持する実証的な証拠を提供する。

Embedding entities and relations of a knowledge graph in a low-dimensional space has shown impressive performance in predicting missing links between entities. Although progresses have been achieved, existing methods are heuristically motivated and theoretical understanding of such embeddings is comparatively underdeveloped. This paper extends the random walk model (Arora et al., 2016a) of word embeddings to Knowledge Graph Embeddings (KGEs) to derive a scoring function that evaluates the strength of a relation R between two entities h (head) and t (tail). Moreover, we show that marginal loss minimisation, a popular objective used in much prior work in KGE, follows naturally from the log-likelihood ratio maximisation under the probabilities estimated from the KGEs according to our theoretical relationship. We propose a learning objective motivated by the theoretical analysis to learn KGEs from a given knowledge graph. Using the derived objective, accurate KGEs are learnt from FB15K237 and WN18RR benchmark datasets, providing empirical evidence in support of the theory.
翻訳日:2021-03-15 07:53:25 公開日:2021-01-25
# (参考訳) ユーザーレビューにおけるブランド感を測るためのポアソン因子モデルの逆学習 [全文訳有]

Adversarial Learning of Poisson Factorisation Model for Gauging Brand Sentiment in User Reviews ( http://arxiv.org/abs/2101.10150v1 )

ライセンス: CC0 1.0
Runcong Zhao and Lin Gui and Gabriele Pergola and Yulan He(参考訳) 本論文では、製品レビューからブランド関連極性保持トピックを検出することを目的としたブランドトポリックモデル(BTM)を提案する。 トピックが「ポジティブ」や「ネガティブ」や「ニューラル」などの別個の感情カテゴリでグループ化されていると仮定する既存の感情トピック抽出モデルとは異なり、BTMは、実際の価値のあるブランド関連感情スコアを自動的に推測し、特定のトピック(例えば「シェーバー」や「クリーム」など)の下で単語の連続的な変化を観察できるきめ細かい感情トピックを生成することができます。 BTMは、逆学習を取り入れたPoisson分解モデルに基づいて構築されている。 amazon reviewsから構築されたデータセットで評価されている。 実験の結果,BTMはブランドランキングにおいて多くの競争的ベースラインを上回り,トピックコヒーレンスとユニークさのバランスを良くし,ポーラリティを含むトピックをより分離したトピックを抽出した。

In this paper, we propose the Brand-Topic Model (BTM) which aims to detect brand-associated polarity-bearing topics from product reviews. Different from existing models for sentiment-topic extraction which assume topics are grouped under discrete sentiment categories such as `positive', `negative' and `neural', BTM is able to automatically infer real-valued brand-associated sentiment scores and generate fine-grained sentiment-topics in which we can observe continuous changes of words under a certain topic (e.g., `shaver' or `cream') while its associated sentiment gradually varies from negative to positive. BTM is built on the Poisson factorisation model with the incorporation of adversarial learning. It has been evaluated on a dataset constructed from Amazon reviews. Experimental results show that BTM outperforms a number of competitive baselines in brand ranking, achieving a better balance of topic coherence and uniqueness, and extracting better-separated polarity-bearing topics.
翻訳日:2021-03-15 05:36:16 公開日:2021-01-25
# (参考訳) セミ教師付き意味セグメンテーションのためのマスクベースデータ拡張 [全文訳有]

Mask-based Data Augmentation for Semi-supervised Semantic Segmentation ( http://arxiv.org/abs/2101.10156v1 )

ライセンス: CC BY 4.0
Ying Chen, Xu Ouyang, Kaiyue Zhu, Gady Agam(参考訳) 畳み込みニューラルネットワーク(CNN)を用いたセマンティックセグメンテーションは、画像解析の重要な要素です。 セマンティックセグメンテーションを実行するためにCNNを訓練するには大量のラベル付きデータが必要である。 半教師付き学習アルゴリズムはラベルなしのデータを利用してこの問題に対処し、トレーニングに必要なラベル付きデータの量を削減する。 特に、CutMixやClassMixなどのデータ拡張技術は、既存のラベル付きデータから追加のトレーニングデータを生成します。 本論文では、CutMixとClassMixの側面を組み込んだデータ拡張の新たなアプローチであるComplexMixを提案する。 提案手法は,意味論的に正確でありながら拡張データの複雑さを制御し,複雑さと正確性の間のトレードオフに対処する能力を有する。 提案手法は,セマンティックセグメンテーションの標準データセットを用いて評価し,他の最先端技術と比較する。 実験結果から,セマンティック画像分割のための標準データセットにおける最新手法の改良が得られた。

Semantic segmentation using convolutional neural networks (CNN) is a crucial component in image analysis. Training a CNN to perform semantic segmentation requires a large amount of labeled data, where the production of such labeled data is both costly and labor intensive. Semi-supervised learning algorithms address this issue by utilizing unlabeled data and so reduce the amount of labeled data needed for training. In particular, data augmentation techniques such as CutMix and ClassMix generate additional training data from existing labeled data. In this paper we propose a new approach for data augmentation, termed ComplexMix, which incorporates aspects of CutMix and ClassMix with improved performance. The proposed approach has the ability to control the complexity of the augmented data while attempting to be semantically-correct and address the tradeoff between complexity and correctness. The proposed ComplexMix approach is evaluated on a standard dataset for semantic segmentation and compared to other state-of-the-art techniques. Experimental results show that our method yields improvement over state-of-the-art methods on standard datasets for semantic image segmentation.
翻訳日:2021-03-15 05:19:57 公開日:2021-01-25
# (参考訳) 単一画像超解法のための構造的コヒーレンスを学習する [全文訳有]

Learning Structral coherence Via Generative Adversarial Network for Single Image Super-Resolution ( http://arxiv.org/abs/2101.10165v1 )

ライセンス: CC BY 4.0
Yuanzhuo Li, Yunan Zheng, Jie Chen, Zhenyu Xu, Yiguang Liu(参考訳) 単一画像スーパーリゾリューション(SISR)の大きな課題の1つは、人間の視覚システムに準拠したグローバルな形状と局所的な詳細で一貫性のある画像を回復する能力です。 最近のGAN(Genation Adversarial Network)ベースのSISR法は、全体的な現実的なSR画像を生成していますが、ローカル領域で構造的な歪みを伴う不快なテクスチャは常にあります。 これらの問題に対処するため,SRプロセスで高分解能勾配マップを復元することにより,構造情報を保存するための勾配分岐をジェネレータに導入する。 さらに,u-netに基づく判別器を用いて,画像全体と画素単位の詳細な信頼性を考慮し,再構成画像の全体的な一貫性を維持することができる。 さらに,目的関数について検討し,より現実的で自然な情報を生成するためにLPIPS知覚損失を付加した。 実験結果から,提案手法は知覚指標(PI)における最先端の知覚駆動SR法を上回り,自然画像復元における幾何学的一貫性と視覚的快感を得ることができた。

Among the major remaining challenges for single image super resolution (SISR) is the capacity to recover coherent images with global shapes and local details conforming to human vision system. Recent generative adversarial network (GAN) based SISR methods have yielded overall realistic SR images, however, there are always unpleasant textures accompanied with structural distortions in local regions. To target these issues, we introduce the gradient branch into the generator to preserve structural information by restoring high-resolution gradient maps in SR process. In addition, we utilize a U-net based discriminator to consider both the whole image and the detailed per-pixel authenticity, which could encourage the generator to maintain overall coherence of the reconstructed images. Moreover, we have studied objective functions and LPIPS perceptual loss is added to generate more realistic and natural details. Experimental results show that our proposed method outperforms state-of-the-art perceptual-driven SR methods in perception index (PI), and obtains more geometrically consistent and visually pleasing textures in natural image restoration.
翻訳日:2021-03-15 04:54:31 公開日:2021-01-25
# (参考訳) モノのインターネット(IoT)デバイスの検出と識別のための機械学習:調査 [全文訳有]

Machine Learning for the Detection and Identification of Internet of Things (IoT) Devices: A Survey ( http://arxiv.org/abs/2101.10181v1 )

ライセンス: CC BY 4.0
Yongxin Liu, Jian Wang, Jianqiang Li, Shuteng Niu, Houbing Song(参考訳) モノのインターネット(IoT)は、さまざまな新興サービスやアプリケーションを可能にする、日常生活の不可欠な部分になりつつあります。 しかし、不正なIoTデバイスの存在は、IoTを未然にリスクにさらし、深刻な結果をもたらしています。 IoTを確保する第一歩は、不正なIoTデバイスを検出し、正当なものを識別することです。 従来の手法では暗号機構を使用して正当なデバイスのアイデンティティを認証し検証する。 しかし、暗号プロトコルは多くのシステムで利用できません。 一方、これらの手法は、正当性のあるデバイスを悪用したり、暗号鍵を開示する場合、効果が低い。 したがって、非暗号化IoTデバイス識別とローグデバイス検出は、既存のシステムを保護するための効率的なソリューションとなり、暗号プロトコルを持つシステムにさらなる保護を提供する。 非暗号的アプローチはさらなる努力を必要とし、まだ十分に調査されていない。 本稿では、IoTデバイスの識別のための機械学習技術に関する包括的な調査と、受動監視エージェントまたはネットワークオペレータの視点から、侵害または改ざんされたデバイスを検出する。 iotデバイスの識別と検出を,デバイス固有のパターン認識,ディープラーニングによるデバイス識別,教師なしデバイス識別,異常デバイス検出の4つのカテゴリに分類した。 一方,本稿では,ML関連の様々な実現技術について論じる。 これらの実現技術には、学習アルゴリズム、ネットワークトラフィックトレースと無線信号の機能エンジニアリング、継続学習、異常検出などが含まれる。

The Internet of Things (IoT) is becoming an indispensable part of everyday life, enabling a variety of emerging services and applications. However, the presence of rogue IoT devices has exposed the IoT to untold risks with severe consequences. The first step in securing the IoT is detecting rogue IoT devices and identifying legitimate ones. Conventional approaches use cryptographic mechanisms to authenticate and verify legitimate devices' identities. However, cryptographic protocols are not available in many systems. Meanwhile, these methods are less effective when legitimate devices can be exploited or encryption keys are disclosed. Therefore, non-cryptographic IoT device identification and rogue device detection become efficient solutions to secure existing systems and will provide additional protection to systems with cryptographic protocols. Non-cryptographic approaches require more effort and are not yet adequately investigated. In this paper, we provide a comprehensive survey on machine learning technologies for the identification of IoT devices along with the detection of compromised or falsified ones from the viewpoint of passive surveillance agents or network operators. We classify the IoT device identification and detection into four categories: device-specific pattern recognition, Deep Learning enabled device identification, unsupervised device identification, and abnormal device detection. Meanwhile, we discuss various ML-related enabling technologies for this purpose. These enabling technologies include learning algorithms, feature engineering on network traffic traces and wireless signals, continual learning, and abnormality detection.
翻訳日:2021-03-15 04:45:54 公開日:2021-01-25
# (参考訳) ホワイトペーパー:疑わしいコンテンツを含むオンラインビデオの大規模ラベル付きリポジトリ作成への挑戦と考察 [全文訳有]

White Paper: Challenges and Considerations for the Creation of a Large Labelled Repository of Online Videos with Questionable Content ( http://arxiv.org/abs/2101.10894v1 )

ライセンス: CC BY 4.0
Thamar Solorio, Mahsa Shafaei, Christos Smailis, Mona Diab, Theodore Giannakopoulos, Heng Ji, Yang Liu, Rada Mihalcea, Smaranda Muresan, Ioannis Kakadiaris(参考訳) 本稿では,疑わしいコンテンツを示すラベルを付記したオンラインビデオの広範なリポジトリを開発するための批判的考察の要点について概説する。 主な議論ポイントは、1)AIコミュニティにとって価値のあるリポジトリをもたらす適切なラベルの種類、2)コレクションとアノテーションプロセスの設計方法、およびその潜在的な影響を最大化するためにコーパスの配布方法、3)アノテータに対するトラウマのリスクを低減するために私たちが取るべきアクションである。

This white paper presents a summary of the discussions regarding critical considerations to develop an extensive repository of online videos annotated with labels indicating questionable content. The main discussion points include: 1) the type of appropriate labels that will result in a valuable repository for the larger AI community; 2) how to design the collection and annotation process, as well as the distribution of the corpus to maximize its potential impact; and, 3) what actions we can take to reduce risk of trauma to annotators.
翻訳日:2021-03-15 03:36:45 公開日:2021-01-25
# (参考訳) 胸部X線画像を用いたCOVID-19コンピュータ支援診断の2段階的検討 [全文訳有]

A two-step explainable approach for COVID-19 computer-aided diagnosis from chest x-ray images ( http://arxiv.org/abs/2101.10223v1 )

ライセンス: CC BY 4.0
Carlo Alberto Barbano, Enzo Tartaglione, Claudio Berzovini, Marco Calandri, Marco Grangetto(参考訳) 患者の早期スクリーニングは、新型コロナウイルスの感染拡大に対する即時かつ迅速な対応を評価するために重要な問題です。 鼻咽頭の綿棒の使用は最も実行可能なアプローチと考えられていますが、結果は即時ではなく、高速試験の場合、十分に正確です。 早期スクリーニングにChest X-Ray (CXR)イメージングを使用することは、より速く、より正確な応答を提供する可能性があります。しかし、CXRからのCOVIDの診断は困難であり、その決定プロセスであるディープラーニングのサポートに頼る必要があります。 肺の既知の病理(異常)を最初に検出し、その上に病気を診断する説明可能な2段階の診断アプローチを提案します。 私たちのアプローチは、専門家の放射線科医と互換性のあるCOVID検出で有望なパフォーマンスを達成します。 私たちの実験はすべて、特に臨床応用において、説明可能性が機械学習アルゴリズムの信頼を構築する上で重要な役割を果たすことを念頭において行われました。

Early screening of patients is a critical issue in order to assess immediate and fast responses against the spread of COVID-19. The use of nasopharyngeal swabs has been considered the most viable approach; however, the result is not immediate or, in the case of fast exams, sufficiently accurate. Using Chest X-Ray (CXR) imaging for early screening potentially provides faster and more accurate response; however, diagnosing COVID from CXRs is hard and we should rely on deep learning support, whose decision process is, on the other hand, "black-boxed" and, for such reason, untrustworthy. We propose an explainable two-step diagnostic approach, where we first detect known pathologies (anomalies) in the lungs, on top of which we diagnose the illness. Our approach achieves promising performance in COVID detection, compatible with expert human radiologists. All of our experiments have been carried out bearing in mind that, especially for clinical applications, explainability plays a major role for building trust in machine learning algorithms.
翻訳日:2021-03-15 03:04:29 公開日:2021-01-25
# (参考訳) ガウス型グラッピング表現を用いたロボットグラッピング検出用軽量畳み込みニューラルネットワーク [全文訳有]

Lightweight Convolutional Neural Network with Gaussian-based Grasping Representation for Robotic Grasping Detection ( http://arxiv.org/abs/2101.10226v1 )

ライセンス: CC BY 4.0
Hu Cao, Guang Chen, Zhijun Li, Jianjie Lin, Alois Knoll(参考訳) 深層学習法は,ロボットの把握検出性能の向上に優れた成果を上げている。 しかし,一般物体検出における深層学習法はロボット把持検出には適さない。 現在の物体検出器は、高精度と高速な推論速度のバランスをとるのが難しい。 本稿では,実際の把握シーンのnチャネル入力画像からロボットによる把握ポーズ推定を行うための,効率的で頑健な完全畳み込みニューラルネットワークモデルを提案する。 提案するネットワークは,一段階検出のための軽量な生成アーキテクチャである。 具体的には、Gaussianカーネルに基づく把握表現を導入し、トレーニングサンプルをエンコードし、最大の中央点把握自信の原則を具現化します。 一方、マルチスケール情報を抽出し、特徴の識別性を高めるために、私たちの把握検出アーキテクチャのボトルネックに受容フィールドブロック(RFB)を組み立てます。 また、画素の注意とチャンネルの注意を組み合わせ、ノイズ特性を抑制し、把握対象の特徴を強調して、さまざまな形状やサイズのコンテキスト情報を融合させることに自動的に焦点を合わせます。 CornellとJacquardの2つの公開把握データセットに関する広範な実験は、精度と推論速度のバランスをとる方法の最先端のパフォーマンスを示しています。 ネットワークは、コーネルとジャカードのデータセット上でそれぞれ98.9$\%$と95.6$\%$の精度でより良いパフォーマンスを達成しながら、他の優れたアルゴリズムよりも桁違いに小さい順序である。

The method of deep learning has achieved excellent results in improving the performance of robotic grasping detection. However, the deep learning methods used in general object detection are not suitable for robotic grasping detection. Current modern object detectors are difficult to strike a balance between high accuracy and fast inference speed. In this paper, we present an efficient and robust fully convolutional neural network model to perform robotic grasping pose estimation from an n-channel input image of the real grasping scene. The proposed network is a lightweight generative architecture for grasping detection in one stage. Specifically, a grasping representation based on Gaussian kernel is introduced to encode training samples, which embodies the principle of maximum central point grasping confidence. Meanwhile, to extract multi-scale information and enhance the feature discriminability, a receptive field block (RFB) is assembled to the bottleneck of our grasping detection architecture. Besides, pixel attention and channel attention are combined to automatically learn to focus on fusing context information of varying shapes and sizes by suppressing the noise feature and highlighting the grasping object feature. Extensive experiments on two public grasping datasets, Cornell and Jacquard demonstrate the state-of-the-art performance of our method in balancing accuracy and inference speed. The network is an order of magnitude smaller than other excellent algorithms while achieving better performance with an accuracy of 98.9$\%$ and 95.6$\%$ on the Cornell and Jacquard datasets, respectively.
翻訳日:2021-03-15 02:52:42 公開日:2021-01-25
# (参考訳) コントラスト学習に基づく特徴抽出のための統一フレームワーク

A Unified Framework for Feature Extraction based on Contrastive Learning ( http://arxiv.org/abs/2101.11703v1 )

ライセンス: CC BY 4.0
Hongjie Zhang(参考訳) 特徴抽出は高次元データにおける次元性の呪いを軽減する効果的な手法である。 自己教師あり学習の分野におけるコントラスト学習の発展により,新しい視点からのコントラスト学習に基づく特徴抽出のための統一的な枠組みを提案し,教師なし特徴抽出と教師なし特徴抽出の両方に適合する。 このフレームワークでは,まず,グラフ埋め込み(GE)に基づく対照的な学習グラフを構築し,正と負のペアを定義する新しい方法を提案する。 そして、コントラスト損失関数を最小化することにより、投影行列を解く。 この枠組みでは、類似したサンプルだけでなく、非教師付きGEに基づく異種サンプルも検討でき、教師付き特徴抽出とのギャップを狭めることができる。 提案手法の有効性を検証するため, 局所保存による非監督GE法LPP, 局所保存のない監督GE法LDA, 局所保存による監督GE法LFDA, CL-LPP, CL-LDA, CL-LFDAをそれぞれ提案した。 最後に,5つの実データを用いた数値実験を行った。

Feature extraction is an efficient approach for alleviating the curse of dimensionality in high-dimensional data. With the development of contrastive learning in the field of self-supervised learning, we propose a unified framework for feature extraction based on contrastive learning from a new perspective, which is suitable for both unsupervised and supervised feature extraction. In this framework, we first construct a contrastive learning graph based on graph embedding (GE), which proposes a new way to define positive and negative pairs. Then, we solve the projection matrix by minimizing the contrastive loss function. In this framework, we can consider not only similar samples but also dissimilar samples on the basis of unsupervised GE, so as to narrow the gap with supervised feature extraction. In order to verify the effectiveness of our proposed framework for unsupervised and supervised feature extraction, we improved the unsupervised GE method LPP with local preserving, the supervised GE method LDA without local preserving, and the supervised GE method LFDA with local preserving, and proposed CL-LPP, CL-LDA, and CL-LFDA, respectively. Finally, we performed numerical experiments on five real datasets.
翻訳日:2021-03-15 02:30:19 公開日:2021-01-25
# (参考訳) ブレグジットツイートにおける心理的ストレス検出のためのトランスファーラーニングアプローチ [全文訳有]

Transfer Learning Approach for Detecting Psychological Distress in Brexit Tweets ( http://arxiv.org/abs/2102.00912v1 )

ライセンス: CC BY 4.0
Sean-Kelly Palicki, Shereen Fouad, Mariam Adedoyin-Olowe, Zahraa S. Abdallah(参考訳) 2016年、英国(英国)市民は2020年に正式に実施された欧州連合(EU)を離れることに投票しました。 この期間、イギリス住民はEUとの継続的な関係に関して大きな不確実性を経験した。 多くの人はソーシャルメディアプラットフォームを使って、この重要な出来事に対する感情を表現している。 最近、感情分析は、twitterコンテンツの精神的幸福を検出する重要なツールとみなされている。 しかし、政治的なツイートにおける心理的苦痛状態の検出は、抑うつ状態や不安状態を記述した明示的な文がないために難しい作業である。 そこで本論文では,ブレグジットツイートの非臨床心理的ストレス状態を測定するために,感情分析のためのトランスファーラーニング手法を活用する。 このフレームワークは、自己報告の心理的苦痛ツイート(ソースドメイン)から学んだ知識を移行して、ブレグジットツイート(ターゲットドメイン)の障害状態を検出します。 このフレームワークは、ソースとターゲットドメイン間の負の転送の影響を減らすために、ドメイン適応技術を適用します。 また、ブレグジットツイートにおける個人の心理的苦痛のレベルを検出するために使用できるブレグジット救済指数も導入している。 両方のドメインからのデータを含む実験をデザインする。 提案モデルは、ソースドメインとターゲットドメインの66%と62%の精度で、ブレグジットツイートにおける非臨床的心理的苦痛状態を検出することができる。

In 2016, United Kingdom (UK) citizens voted to leave the European Union (EU), which was officially implemented in 2020. During this period, UK residents experienced a great deal of uncertainty around the UK's continued relationship with the EU. Many people have used social media platforms to express their emotions about this critical event. Sentiment analysis has been recently considered as an important tool for detecting mental well-being in Twitter contents. However, detecting the psychological distress status in political-related tweets is a challenging task due to the lack of explicit sentences describing the depressive or anxiety status. To address this problem, this paper leverages a transfer learning approach for sentiment analysis to measure the non-clinical psychological distress status in Brexit tweets. The framework transfers the knowledge learnt from self-reported psychological distress tweets (source domain) to detect the distress status in Brexit tweets (target domain). The framework applies a domain adaptation technique to decrease the impact of negative transfer between source and target domains. The paper also introduces a Brexit distress index that can be used to detect levels of psychological distress of individuals in Brexit tweets. We design an experiment that includes data from both domains. The proposed model is able to detect the non-clinical psychological distress status in Brexit tweets with an accuracy of 66% and 62% on the source and target domains, respectively.
翻訳日:2021-03-15 02:29:01 公開日:2021-01-25
# (参考訳) 改訂から学ぶ: スケールでの議論におけるクレームの品質評価 [全文訳有]

Learning From Revisions: Quality Assessment of Claims in Argumentation at Scale ( http://arxiv.org/abs/2101.10250v1 )

ライセンス: CC BY 4.0
Gabriella Skitalinskaya, Jonas Klaff and Henning Wachsmuth(参考訳) 引数の品質を評価し、引数を構成するクレームは計算議論において重要なタスクとなっています。 しかし、異なる主張が同じ話題について同じスタンスを共有しているとしても、その評価は議論されているトピックの異なる側面の事前の認識と重み付けに依存する。 これにより、トピックに依存しない品質指標の学習が困難になる。 本稿では,同一のクレームの異なるリビジョンを比較することで,議論の面に関わらずクレーム品質の評価を行う。 我々は,Kialo.comから377k以上のクレームリビジョンペアを作成した大規模コーパスをコンパイルし,政治,倫理,エンターテイメントなどさまざまなトピックをカバーした。 次に、(a)どのリビジョンペアのクレームが良いかを評価し、(b)クレームのすべてのバージョンを品質でランク付けする2つのタスクを提案する。 組込み型ロジスティック回帰とトランスフォーマー型ニューラルネットワークを用いた最初の実験では有望な結果を示し,学習指標がトピックをまたいでよく一般化することを示唆した。 詳細なエラー解析では、クレームの品質寸法を確実に評価できるかどうかを洞察する。 すべての結果を再現するために必要なデータとスクリプトを提供します。

Assessing the quality of arguments and of the claims the arguments are composed of has become a key task in computational argumentation. However, even if different claims share the same stance on the same topic, their assessment depends on the prior perception and weighting of the different aspects of the topic being discussed. This renders it difficult to learn topic-independent quality indicators. In this paper, we study claim quality assessment irrespective of discussed aspects by comparing different revisions of the same claim. We compile a large-scale corpus with over 377k claim revision pairs of various types from kialo.com, covering diverse topics from politics, ethics, entertainment, and others. We then propose two tasks: (a) assessing which claim of a revision pair is better, and (b) ranking all versions of a claim by quality. Our first experiments with embedding-based logistic regression and transformer-based neural networks show promising results, suggesting that learned indicators generalize well across topics. In a detailed error analysis, we give insights into what quality dimensions of claims can be assessed reliably. We provide the data and scripts needed to reproduce all results.
翻訳日:2021-03-15 02:11:50 公開日:2021-01-25
# (参考訳) コミュニケーションゲームによる視覚的意味論の出現 [全文訳有]

The emergence of visual semantics through communication games ( http://arxiv.org/abs/2101.10253v1 )

ライセンス: CC BY 4.0
Daniela Mihai and Jonathon Hare(参考訳) 近年,レファレンスシグナリングゲームをリアルイメージでプレイすることを学ぶエージェント間のコミュニケーションシステムの出現が注目されている。 作業の大部分は、エージェントが通信を学習する情報をバイアスする可能性のある、固定された事前訓練された画像特徴抽出ネットワークの使用に重点を置いている。 本研究では,'sender'エージェントが画像に関する情報を'receiver'に伝達し,多数の邪魔者から正しい画像を選択しなければならないシグナリングゲームの設定について検討する。 特徴抽出器の重みと課題がモデルによって学習された視覚的意味論に与える影響を検討する。 まず,事前学習された特徴抽出ネットワークの利用が,創発的コミュニケーションチャネルによって伝達される視覚意味論を誘導的にバイアスし,誘発される視覚意味論を定量化することを示す。 次に,視覚特徴抽出器の教師付き事前学習を必要とせず,意味的に意味のあるコミュニケーションの出現を促すために,帰納的バイアスを導入する方法について検討する。 画像の概念特性をキャプチャする視覚的表現を誘導する目的で,入力画像とゲーム内の追加タスクに様々な拡張を課す。 実験により,視覚的意味論を捉えたコミュニケーションシステムは,適切なタイプのゲームをプレイすることで,完全に自己指導的に学習できることが実証された。 我々の研究は、創発的なコミュニケーション研究と自己教師型特徴学習のギャップを埋める。

The emergence of communication systems between agents which learn to play referential signalling games with realistic images has attracted a lot of attention recently. The majority of work has focused on using fixed, pretrained image feature extraction networks which potentially bias the information the agents learn to communicate. In this work, we consider a signalling game setting in which a `sender' agent must communicate the information about an image to a `receiver' who must select the correct image from many distractors. We investigate the effect of the feature extractor's weights and of the task being solved on the visual semantics learned by the models. We first demonstrate to what extent the use of pretrained feature extraction networks inductively bias the visual semantics conveyed by emergent communication channel and quantify the visual semantics that are induced. We then go on to explore ways in which inductive biases can be introduced to encourage the emergence of semantically meaningful communication without the need for any form of supervised pretraining of the visual feature extractor. We impose various augmentations to the input images and additional tasks in the game with the aim to induce visual representations which capture conceptual properties of images. Through our experiments, we demonstrate that communication systems which capture visual semantics can be learned in a completely self-supervised manner by playing the right types of game. Our work bridges a gap between emergent communication research and self-supervised feature learning.
翻訳日:2021-03-15 01:50:13 公開日:2021-01-25
# (参考訳) VConstruct:変分オートエンコーダを用いたChl-aデータのギャップ充填 [全文訳有]

VConstruct: Filling Gaps in Chl-a Data Using a Variational Autoencoder ( http://arxiv.org/abs/2101.10260v1 )

ライセンス: CC BY 4.0
Matthew Ehrler and Neil Ernst(参考訳) クロロフィルaのリモートセンシングは気候変動のモニタリングに不可欠である。 Chlorphyll-a測定は、海中の藻類濃度のアイデアを与え、海洋の健康を監視することができます。 しかし、データ収集に使用される衛星が雲やその他のアーティファクトによって妨害されるのが一般的な問題である。 これは衛星からの時系列データが空間的データ損失に苦しむことを意味する。 これらの画像の欠落部分を様々な精度で再構成できるアルゴリズムは数多く存在し、データ補完による経験的直交関数(dineof)が現在の標準となっている。 しかし、DINEOFは遅く、時間的に均質な水中での精度の低下に悩まされ、時間的データに依存し、単一の潜在的再構成しか生成できない。 可変オートエンコーダ(VAE)を用いたクロロフィルaデータの再構築のための機械学習手法を提案する。 私達の正確さの結果はDINEOFより競争ですが、わずかに正確ではないです。 提案手法の利点として,計算時間を大幅に短縮し,複数の潜在的再構成を生成できることを挙げる。 最後に、計画されている改善と今後の作業の概要を述べます。

Remote sensing of Chlorophyll-a is vital in monitoring climate change. Chlorphyll-a measurements give us an idea of the algae concentrations in the ocean, which lets us monitor ocean health. However, a common problem is that the satellites used to gather the data are commonly obstructed by clouds and other artifacts. This means that time series data from satellites can suffer from spatial data loss. There are a number of algorithms that are able to reconstruct the missing parts of these images to varying degrees of accuracy, with Data INterpolating Empirical Orthogonal Functions (DINEOF) being the current standard. However, DINEOF is slow, suffers from accuracy loss in temporally homogenous waters, reliant on temporal data, and only able to generate a single potential reconstruction. We propose a machine learning approach to reconstruction of Chlorophyll-a data using a Variational Autoencoder (VAE). Our accuracy results to date are competitive with but slightly less accurate than DINEOF. We show the benefits of our method including vastly decreased computation time and ability to generate multiple potential reconstructions. Lastly, we outline our planned improvements and future work.
翻訳日:2021-03-15 01:26:34 公開日:2021-01-25
# (参考訳) TDMSci: タスクデータセットとメトリクスの科学文献エンティティタグ付けに特化したコーパス [全文訳有]

TDMSci: A Specialized Corpus for Scientific Literature Entity Tagging of Tasks Datasets and Metrics ( http://arxiv.org/abs/2101.10273v1 )

ライセンス: CC BY 4.0
Yufang Hou, Charles Jochim, Martin Gleize, Francesca Bonin and Debasis Ganguly(参考訳) 課題,データセット,評価メトリクスは,実験科学論文を理解する上で重要な概念である。 しかし、科学文献のための情報抽出に関するこれまでの研究は主に抽象論のみに焦点を当てており、データセットを別のタイプの実体として扱うことはない(Zadeh and Schumann, 2016; Luan et al., 2018)。 本稿では,NLP論文から抽出した2000文に対して,タスク(T),データセット(D),メトリック(M)エンティティのドメインエキスパートアノテーションを含む新しいコーパスを提案する。 簡便なデータ拡張戦略を用いたtdm抽出実験の結果を報告し, aclアンソロジーから約30,000のnlp論文に適用した。 コーパスは、科学出版の要約(Erera et al., 2019)と知識発見の研究を促進するために、コミュニティに公開されている。

Tasks, Datasets and Evaluation Metrics are important concepts for understanding experimental scientific papers. However, most previous work on information extraction for scientific literature mainly focuses on the abstracts only, and does not treat datasets as a separate type of entity (Zadeh and Schumann, 2016; Luan et al., 2018). In this paper, we present a new corpus that contains domain expert annotations for Task (T), Dataset (D), Metric (M) entities on 2,000 sentences extracted from NLP papers. We report experiment results on TDM extraction using a simple data augmentation strategy and apply our tagger to around 30,000 NLP papers from the ACL Anthology. The corpus is made publicly available to the community for fostering research on scientific publication summarization (Erera et al., 2019) and knowledge discovery.
翻訳日:2021-03-15 01:19:53 公開日:2021-01-25
# (参考訳) 画像とテキストに関する不可解な質問 [全文訳有]

Unanswerable Questions about Images and Texts ( http://arxiv.org/abs/2102.06793v1 )

ライセンス: CC BY-SA 4.0
Ernest Davis(参考訳) 答えられないテキストや画像に関する質問は、AIの特徴的な問題を引き起こします。 本稿では、VQA(視覚的質問応答)、QA(視覚的質問応答)、AI全般における不可解な問題について議論する。

Questions about a text or an image that cannot be answered raise distinctive issues for an AI. This note discusses the problem of unanswerable questions in VQA (visual question answering), in QA (visual question answering), and in AI generally.
翻訳日:2021-03-15 01:08:19 公開日:2021-01-25
# (参考訳) QFold:タンパク質折り畳みを解くための量子ウォークとディープラーニング [全文訳有]

QFold: Quantum Walks and Deep Learning to Solve Protein Folding ( http://arxiv.org/abs/2101.10279v1 )

ライセンス: CC BY 4.0
P A M Casares, Roberto Campos, M A Martin-Delgado(参考訳) 現在の生化学研究の最も重要な課題の1つである3Dにおけるタンパク質の折り畳み方を予測するための量子計算ツールを開発しています。 本研究では,最近の深層学習の進歩を,メトロポリスアルゴリズムに適用した量子ウォークの手法と組み合わせる方法について述べる。 その結果、qfoldは完全なスケーラブルなハイブリッド量子アルゴリズムであり、従来の量子アプローチとは対照的に、格子モデルの単純化を必要とせず、アミノ酸のねじれ角の観点からパラメータ化のより現実的な仮定に依存している。 我々は、異なるアニーリングスケジュールの古典的アナログと比較し、多項式量子優位性を求め、IBMQ Casablanca量子プロセッサにおける量子メトロポリスの概念実証を検証した。

We develop quantum computational tools to predict how proteins fold in 3D, one of the most important problems in current biochemical research. We explain how to combine recent deep learning advances with the well known technique of quantum walks applied to a Metropolis algorithm. The result, QFold, is a fully scalable hybrid quantum algorithm that in contrast to previous quantum approaches does not require a lattice model simplification and instead relies on the much more realistic assumption of parameterization in terms of torsion angles of the amino acids. We compare it with its classical analog for different annealing schedules and find a polynomial quantum advantage, and validate a proof-of-concept realization of the quantum Metropolis in IBMQ Casablanca quantum processor.
翻訳日:2021-03-15 00:54:44 公開日:2021-01-25
# (参考訳) PAWLS: ラベルと構造を持つPDFアノテーション [全文訳有]

PAWLS: PDF Annotation With Labels and Structure ( http://arxiv.org/abs/2101.10281v1 )

ライセンス: CC BY 4.0
Mark Neumann, Zejiang Shen, Sam Skjonsberg(参考訳) Adobe の Portable Document Format (PDF) はビューのみのドキュメントをリッチなビジュアルマークアップで配布する方法として人気がある。 これは、これらの文書の注釈付けが困難であるため、PDF文書に含まれる情報をトレーニングモデルやデータ分析に使用したいNLP実践者に課題を提示します。 本稿では,PDF文書フォーマットに特化して設計された新しいアノテーションツールPAWLS(PDF Annotation with Labels and Structure)を提案する。 PAWLSは、アノテータが正確にアノテートするために拡張コンテキストを必要とする混合モードアノテーションやシナリオに特に適している。 PAWLSは、スパンベースのテキストアノテーション、N-aryリレーション、フリーフォーム、非テキストバウンディングボックスをサポートし、これらはすべて、マルチモーダル機械学習モデルをトレーニングするための便利なフォーマットでエクスポートできる。 読み取り専用PAWLSサーバはhttps://pawls.apps.a llenai.org/で、ソースコードはhttps://github.com/a llenai/pawlsで入手できる。

Adobe's Portable Document Format (PDF) is a popular way of distributing view-only documents with a rich visual markup. This presents a challenge to NLP practitioners who wish to use the information contained within PDF documents for training models or data analysis, because annotating these documents is difficult. In this paper, we present PDF Annotation with Labels and Structure (PAWLS), a new annotation tool designed specifically for the PDF document format. PAWLS is particularly suited for mixed-mode annotation and scenarios in which annotators require extended context to annotate accurately. PAWLS supports span-based textual annotation, N-ary relations and freeform, non-textual bounding boxes, all of which can be exported in convenient formats for training multi-modal machine learning models. A read-only PAWLS server is available at https://pawls.apps.a llenai.org/ and the source code is available at https://github.com/a llenai/pawls.
翻訳日:2021-03-15 00:19:56 公開日:2021-01-25
# (参考訳) ハイパースペクトル画像分類:ハイブリッドCNNにおける次元低減の成果 [全文訳有]

Hyperspectral Image Classification: Artifacts of Dimension Reduction on Hybrid CNN ( http://arxiv.org/abs/2101.10532v1 )

ライセンス: CC BY 4.0
Muhammad Ahmad, Sidrah Shabbir, Rana Aamir Raza, Manuel Mazzara, Salvatore Distefano, Adil Mehmood Khan(参考訳) 畳み込みニューラルネットワーク(CNN)はハイパースペクトル画像分類(HSIC)のために広く研究されており、2Dおよび3DCNNモデルはハイパースペクトル画像の空間的およびスペクトル情報を利用するのに非常に効率的であることが証明されている。 しかし、2D CNNは空間情報のみを考慮し、スペクトル情報を無視する一方、3D CNNは空間スペクトル情報を高い計算コストで共同で活用する。 そこで本研究では, 軽量CNN (3D) モデルと 2D-CNN (2D-CNN) モデルを提案する。 5つのベンチマークハイパースペクトルデータセット(すなわち、SalinasA、Salinas、Indian Pines、Pavia University、Pavia Center、Botswana)が実験的評価に使用されている。 実験の結果,提案パイプラインは,一般的な計算コストの高い設計選択を除いて,最先端の2d/3d cnnモデルと比較して,一般化性能,統計的意義,計算複雑性の面で優れていた。

Convolutional Neural Networks (CNN) has been extensively studied for Hyperspectral Image Classification (HSIC) more specifically, 2D and 3D CNN models have proved highly efficient in exploiting the spatial and spectral information of Hyperspectral Images. However, 2D CNN only considers the spatial information and ignores the spectral information whereas 3D CNN jointly exploits spatial-spectral information at a high computational cost. Therefore, this work proposed a lightweight CNN (3D followed by 2D-CNN) model which significantly reduces the computational cost by distributing spatial-spectral feature extraction across a lighter model alongside a preprocessing that has been carried out to improve the classification results. Five benchmark Hyperspectral datasets (i.e., SalinasA, Salinas, Indian Pines, Pavia University, Pavia Center, and Botswana) are used for experimental evaluation. The experimental results show that the proposed pipeline outperformed in terms of generalization performance, statistical significance, and computational complexity, as compared to the state-of-the-art 2D/3D CNN models except commonly used computationally expensive design choices.
翻訳日:2021-03-15 00:11:49 公開日:2021-01-25
# (参考訳) 深層学習に基づく混合次元GMMによるCryoEMの変動特性評価 [全文訳有]

Deep learning based mixed-dimensional GMM for characterizing variability in CryoEM ( http://arxiv.org/abs/2101.10356v1 )

ライセンス: CC BY 4.0
Muyuan Chen and Steven Ludtke(参考訳) ほとんどのタンパク質分子の機能には、構造的柔軟性や他の分子との動的相互作用が含まれる。 CryoEMは、コンフォメーション状態とコンフォメーション状態の異なる個々のマクロ分子を直接可視化する。 離散状態の分類には多くの方法があるが、人間の監督なしに連続的なコンフォーメーションの変化や多数の離散状態を特徴付けることは困難である。 本稿では、2次元粒子画像に写像された3次元ガウス混合モデルを用いてタンパク質や複合体のコンフォーメーションランドスケープを決定する機械学習アルゴリズムを提案する。 ディープニューラルネットワークアーキテクチャを用いて、タンパク質複合体内の構造的不均一性を自動的に解決し、コンフォメーションと構成の変化を記述した小さな潜在空間に粒子をマッピングする。 このシステムは、現在使われている他の多様体法よりも直感的で柔軟な表現を示す。 本手法をいくつかの異なる生体分子系に応用し,様々なスケールで組成変化およびコンフォメーション変化を探索する。

The function of most protein molecules involves structural flexibility and/or dynamic interactions with other molecules. CryoEM provides direct visualization of individual macromolecules in different conformational and compositional states. While many methods are available for classification of discrete states, characterization of continuous conformational changes or large numbers of discrete state without human supervision remains challenging. Here we present a machine learning algorithm to determine a conformational landscape for proteins or complexes using a 3-D Gaussian mixture model mapped onto 2-D particle images in known orientations. Using a deep neural network architecture, this method can automatically resolve the structural heterogeneity within the protein complex and map particles onto a small latent space describing conformational and compositional changes. This system presents a more intuitive and flexible representation than other manifold methods currently in use. We demonstrate this method on several different biomolecular systems to explore compositional and conformational changes at a range of scales.
翻訳日:2021-03-14 23:45:53 公開日:2021-01-25
# (参考訳) Regret-Optimal Filtering [全文訳有]

Regret-Optimal Filtering ( http://arxiv.org/abs/2101.10357v1 )

ライセンス: CC BY 4.0
Oron Sabag, Babak Hassibi(参考訳) 線形状態空間モデル(例えばカルマンフィルタ設定)において、後悔の最適化のレンズによるフィルタリングの問題を考察する。 駆動障害と観測ノイズシーケンスに関する異なる仮定は、異なる推定値を引き起こす:有名なカルマンフィルタへの確率的設定、および境界付きエネルギー障害の決定論的な設定で$H_\infty$推定値。 本研究では,将来のすべての観測(いわゆる平滑化)にアクセス可能な透視型推定器の誤差エネルギーの推定と,現在および過去の観測のみにアクセス可能な因果関係との間にある後悔の概念に基づいて,フィルタ設計の新しい基準を定式化する。 残響最適推定器は、すべての有界エネルギーノイズ列間の最悪のケース差を最小限に抑えるために選択される。 得られた推定器は、ノイズの実現に拘わらず、透視推定器の挙動を模倣することを目的としており、確率的アプローチと決定論的アプローチの間を補間する。 2つの異なるレベルで後悔推定問題に対する解決策を提供する。 まず、nehari問題に縮小することで、演算子レベルでの解を提供する。 第二に、状態空間モデルの場合、最適な後悔を達成する推定器を明示的に見つける。 計算の観点からは、3つのリッカティ方程式と1つのリアプノフ方程式を解いて、後悔-最適推定器を容易に実装できる。 次元 $n$ の状態空間モデルの場合、後悔最適推定器は次元 $n$ の状態空間構造を有する。 我々は,様々な問題における推定器の適用性と有効性を示し,推定器の最適値に近い平均および最悪の性能を観察する。 したがって、後悔-最適性は推定器設計への実行可能なアプローチであると主張します。

We consider the problem of filtering in linear state-space models (e.g., the Kalman filter setting) through the lens of regret optimization. Different assumptions on the driving disturbance and the observation noise sequences give rise to different estimators: in the stochastic setting to the celebrated Kalman filter, and in the deterministic setting of bounded energy disturbances to $H_\infty$ estimators. In this work, we formulate a novel criterion for filter design based on the concept of regret between the estimation error energy of a clairvoyant estimator that has access to all future observations (a so-called smoother) and a causal one that only has access to current and past observations. The regret-optimal estimator is chosen to minimize this worst-case difference across all bounded-energy noise sequences. The resulting estimator is adaptive in the sense that it aims to mimic the behavior of the clairvoyant estimator, irrespective of what the realization of the noise will be and thus interpolates between the stochastic and deterministic approaches. We provide a solution for the regret estimation problem at two different levels. First, we provide a solution at the operator level by reducing it to the Nehari problem. Second, for state-space models, we explicitly find the estimator that achieves the optimal regret. From a computational perspective, the regret-optimal estimator can be easily implemented by solving three Riccati equations and a single Lyapunov equation. For a state-space model of dimension $n$, the regret-optimal estimator has a state-space structure of dimension $3n$. We demonstrate the applicability and efficacy of the estimator in a variety of problems and observe that the estimator has average and worst-case performances that are simultaneously close to their optimal values. We therefore argue that regret-optimality is a viable approach to estimator design.
翻訳日:2021-03-14 23:34:31 公開日:2021-01-25
# (参考訳) 言語の力:twitterデータを用いた気候緊急事態に対する感情理解 [全文訳有]

The Power of Language: Understanding Sentiment Towards the Climate Emergency using Twitter Data ( http://arxiv.org/abs/2101.10376v1 )

ライセンス: CC BY 4.0
Arman Sarjou(参考訳) 気候危機に対する態度の違いを理解することは、気候変動に関するリスクを軽減する効果的な行動のための政策変更を推進するための鍵となる。 石油・ガス産業は、世界の排出量のかなりの割合を占めているため、原油先物と気候危機に対する感情との間に関係があると推測することができます。 本研究は,twitter上でのトピックモデリングに潜在ディリクレ割当を用いることにより,気候災害時の会話を3つのトピックに分割することが可能であることを示す。 季節的自動回帰統合移動平均モデリングを用いた原油先物予測は、トレーニングデータとテストデータに0.196と0.209の根本平均二乗誤差で有望な結果をもたらす。 気候緊急事態に対する態度の変化を理解することは、密度ベースクラスタリング(dbscan)のような時空間分析手法を用いて改善できる決定的な結果をもたらす。

Understanding how attitudes towards the Climate Emergency vary can hold the key to driving policy changes for effective action to mitigate climate related risk. The Oil and Gas industry account for a significant proportion of global emissions and so it could be speculated that there is a relationship between Crude Oil Futures and sentiment towards the Climate Emergency. Using Latent Dirichlet Allocation for Topic Modelling on a bespoke Twitter dataset, this study shows that it is possible to split the conversation surrounding the Climate Emergency into 3 distinct topics. Forecasting Crude Oil Futures using Seasonal AutoRegressive Integrated Moving Average Modelling gives promising results with a root mean squared error of 0.196 and 0.209 on the training and testing data respectively. Understanding variation in attitudes towards climate emergency provides inconclusive results which could be improved using spatial-temporal analysis methods such as Density Based Clustering (DBSCAN).
翻訳日:2021-03-14 22:59:16 公開日:2021-01-25
# (参考訳) マルチモーダル変分オートエンコーダを用いた3次元オブジェクト再構成の欠落データ計算法 [全文訳有]

A Missing Data Imputation Method for 3D Object Reconstruction using Multi-modal Variational Autoencoder ( http://arxiv.org/abs/2101.10391v1 )

ライセンス: CC BY 4.0
Hyeonwoo Yu and Jean Oh(参考訳) 人間とロボットの効果的なコラボレーションには、ロボットが人間のオペレーターと視覚的認識を共有することが重要である。 しかし,2次元カメラ画像の3次元形状再構成作業などにおいて,低帯域幅ネットワーク上で大量のセンサデータをリアルタイムに転送することは特に困難である。 データ転送の負担を軽減するために、オートエンコーダなどのデータ圧縮技術を利用して、潜在変数を非コンパクト形式で送信することができる。 しかし、低帯域幅の制限や通信遅延のため、潜伏変数の次元の一部が通過時に失われて復元結果が縮退し、より高速な伝送を実現するために、潜伏変数の部分的要素のみを用いる意図的超過圧縮が用いられる。 これらの不完全なデータケースを処理するために,要素が部分的に失われたり,手作業で除外された潜在変数をインプテーションする手法を提案する。 toperform imputation with some dimension of variable, exploiting prior information of the category- or instance-levelis essential (英語) 一般に、変分オートエンコーダで使われる事前分布は、それらのラベルのすべてのトレーニングデータポイントから得られる。 このタイプのフラット化前処理は、カテゴリまたはインスタンスレベルの分布からインプテーションを実行するのが困難である。

For effective human-robot teaming, it is importantfor the robots to be able to share their visual perceptionwith the human operators. In a harsh remote collaborationsetting , however, it is especially challenging to transfer a largeamount of sensory data over a low-bandwidth network in real-time, e.g., for the task of 3D shape reconstruction given 2Dcamera images. To reduce the burden of data transferring, datacompression techniques such as autoencoder can be utilized toobtain and transmit the data in terms of latent variables in acompact form. However, due to the low-bandwidth limitation orcommunication delay, some of the dimensions of latent variablescan be lost in transit, degenerating the reconstruction results.Moreover, in order to achieve faster transmission, an intentionalover compression can be used where only partial elements ofthe latent variables are used. To handle these incomplete datacases, we propose a method for imputation of latent variableswhose elements are partially lost or manually excluded. Toperform imputation with only some dimensions of variables,exploiting prior information of the category- or instance-levelis essential. In general, a prior distribution used in variationalautoencod ers is achieved from all of the training datapointsregardless of their labels. This type of flattened prior makes itdifficult to perform imputation from the category- or instance-level distributions.
翻訳日:2021-03-14 22:51:29 公開日:2021-01-25
# (参考訳) Learning-'N-Flying: 学習ベースの分散型ミッションAware UAS衝突回避スキーム [全文訳有]

Learning-'N-Flying: A Learning-based, Decentralized Mission Aware UAS Collision Avoidance Scheme ( http://arxiv.org/abs/2101.10404v1 )

ライセンス: CC BY 4.0
Al\"ena Rodionova (1), Yash Vardhan Pant (2), Connor Kurtz (3), Kuk Jang (1), Houssam Abbas (3), Rahul Mangharam (1) ((1) University of Pennsylvania, (2) University of California Berkeley, (3) Oregon State University)(参考訳) アーバン・エア・モビリティ(Urban Air Mobility)は、数百人の有人無人航空機システム(UAS)が様々なミッションを行うシナリオである。 都市内の人間や商品を移動させること)は、未来の輸送ソリューションとして受け入れられている。 これが起こるための重要な要件の1つは、これらの都市圏の航空交通を安全に管理することです。 空域の密度が予想されるため、オンラインで展開できる高速な自律的なソリューションが必要です。 マルチUAS衝突回避(CA)フレームワークLearning-'N-Flying (LNF)を提案する。 分散化され、オン・ザ・フライで動作し、異なるオペレータが管理する自律uasが、信号時相論理を用いて、共通の空域で複雑なミッションを安全に行うことができる。 まず,混合整数線形プログラムとして2つのUASの予測衝突回避問題を定式化し,オンラインでの解決が困難であることを示す。 a)学習に基づく意思決定,b)分散凸最適化に基づく制御を組み合わせることで,まずL2F(Learning-to-Fly) を開発する。 LNFは衝突経路に2つ以上のUASがある場合にL2Fを拡張します。 広範なシミュレーションにより,本手法がオンライン(ミリ秒単位の計算時間)で実行可能であること,最悪の場合には障害率が1%未満であること,よりリラックスした操作では0%近く改善できることを示した。 複数のケーススタディを通して,提案手法を多種多様な設定に適用可能であることを示す。

Urban Air Mobility, the scenario where hundreds of manned and Unmanned Aircraft System (UAS) carry out a wide variety of missions (e.g. moving humans and goods within the city), is gaining acceptance as a transportation solution of the future. One of the key requirements for this to happen is safely managing the air traffic in these urban airspaces. Due to the expected density of the airspace, this requires fast autonomous solutions that can be deployed online. We propose Learning-'N-Flying (LNF) a multi-UAS Collision Avoidance (CA) framework. It is decentralized, works on-the-fly and allows autonomous UAS managed by different operators to safely carry out complex missions, represented using Signal Temporal Logic, in a shared airspace. We initially formulate the problem of predictive collision avoidance for two UAS as a mixed-integer linear program, and show that it is intractable to solve online. Instead, we first develop Learning-to-Fly (L2F) by combining: a) learning-based decision-making, and b) decentralized convex optimization-based control. LNF extends L2F to cases where there are more than two UAS on a collision path. Through extensive simulations, we show that our method can run online (computation time in the order of milliseconds), and under certain assumptions has failure rates of less than 1% in the worst-case, improving to near 0% in more relaxed operations. We show the applicability of our scheme to a wide variety of settings through multiple case studies.
翻訳日:2021-03-14 22:19:23 公開日:2021-01-25
# (参考訳) 時系列分類のためのスペクトル注意機構 [全文訳有]

Spectrum Attention Mechanism for Time Series Classification ( http://arxiv.org/abs/2101.10420v1 )

ライセンス: CC BY 4.0
Shibo Zhou, Yu Pan(参考訳) 時系列分類(TSC)は、常に重要かつ困難な研究課題である。 深層学習の幅広い応用により、ますます多くの研究者が深層学習モデルを使用してTSCの問題を解決する。 時系列は常に多くのノイズを含み、ネットワークトレーニングに悪影響を及ぼすため、通常、ネットワークを訓練する前に元のデータをフィルタリングします。 既存の手法は、フィルタリングとトレーニングを2つの段階として扱うことであり、フィルタの設計にはエキスパートエクスペリエンスが必要であり、アルゴリズムの設計の難しさを増大させ、普遍的ではない。 フィルタの本質は,重要でない周波数成分をフィルタリングし,注意機構に類似した重要な成分を強調することにある。 本稿では,スペクトル(SAM)に作用する注意メカニズムを提案する。 ネットワークは、適応フィルタリングを実現するために各周波数成分に適切な重みを割り当てることができる。 我々は、SAMの周波数スクリーニング機能を強化するためにL1正規化を用いる。 また、シーケンス全体のスペクトルを用いて時間領域情報の損失を回避するためのセグメント化SAM(SSAM)を提案する。 元のデータをセグメント化するために、タンブリングウィンドウが導入されます。 そして、各セグメントにSAMを適用して新機能を生成します。 適切なセグメント数を探索するためのヒューリスティック戦略を提案する。 実験の結果,SSAMはより優れた特徴表現を生成でき,ネットワークの収束を高速化し,ロバスト性や分類精度を向上できることがわかった。

Time series classification(TSC) has always been an important and challenging research task. With the wide application of deep learning, more and more researchers use deep learning models to solve TSC problems. Since time series always contains a lot of noise, which has a negative impact on network training, people usually filter the original data before training the network. The existing schemes are to treat the filtering and training as two stages, and the design of the filter requires expert experience, which increases the design difficulty of the algorithm and is not universal. We note that the essence of filtering is to filter out the insignificant frequency components and highlight the important ones, which is similar to the attention mechanism. In this paper, we propose an attention mechanism that acts on spectrum (SAM). The network can assign appropriate weights to each frequency component to achieve adaptive filtering. We use L1 regularization to further enhance the frequency screening capability of SAM. We also propose a segmented-SAM (SSAM) to avoid the loss of time domain information caused by using the spectrum of the whole sequence. In which, a tumbling window is introduced to segment the original data. Then SAM is applied to each segment to generate new features. We propose a heuristic strategy to search for the appropriate number of segments. Experimental results show that SSAM can produce better feature representations, make the network converge faster, and improve the robustness and classification accuracy.
翻訳日:2021-03-14 21:37:40 公開日:2021-01-25
# (参考訳) 画像分類におけるオンライン継続学習:実証的調査

Online Continual Learning in Image Classification: An Empirical Survey ( http://arxiv.org/abs/2101.10423v1 )

ライセンス: CC BY 4.0
Zheda Mai, Ruiwen Li, Jihwan Jeong, David Quispe, Hyunwoo Kim, Scott Sanner(参考訳) 画像分類のためのオンライン連続学習 オンラインデータとタスクのストリームからイメージを分類する学習の問題は、タスクには新しいクラス(クラスインクリメンタル)やデータ非定常(ドメインインクリメンタル)が含まれる可能性がある。 継続的な学習の重要な課題の1つは、壊滅的な忘れ(CF)、すなわち、より最近のタスクの存在下で古いタスクを忘れることを避けることです。 ここ数年、この問題に対処するために多くの方法やトリックが導入されてきたが、現実的で実用的な様々な設定下では、多くは公平かつ体系的に比較されていない。 To better understand the relative advantages of various approaches and the settings where they work best, this survey aims to (1) compare state-of-the-art methods such as MIR, iCARL, and GDumb and determine which works best at different experimental settings; (2) determine if the best class incremental methods are also competitive in domain incremental setting; (3) evaluate the performance of 7 simple but effective trick such as "review" trick and nearest class mean (NCM) classifier to assess their relative impact. 1)メモリバッファが小さい場合,提案したiCaRLは依然として競争力があり,GDumbは近年提案されている多くの手法を中規模データセットで上回り,MIRは大規模データセットで最良である。 2) では、GDumb は性能がかなり悪いが、MIR (すでに (1) と競合している) も、この非常に異なるが重要な設定において強い競争力を持っていることに注意してください。 全体として、これはMIRが広範囲の設定にわたる強く、多目的な方法であることを結論づけることができます。 (3)では、すべての7つのトリックが有益であり、「レビュー」トリックとNCM分類器で強化されると、MIRはオンラインの継続的な学習をオフライントレーニングにマッチするという究極の目標にはるかに近づかせるパフォーマンスレベルを生成します。

Online continual learning for image classification studies the problem of learning to classify images from an online stream of data and tasks, where tasks may include new classes (class incremental) or data nonstationarity (domain incremental). One of the key challenges of continual learning is to avoid catastrophic forgetting (CF), i.e., forgetting old tasks in the presence of more recent tasks. Over the past few years, many methods and tricks have been introduced to address this problem, but many have not been fairly and systematically compared under a variety of realistic and practical settings. To better understand the relative advantages of various approaches and the settings where they work best, this survey aims to (1) compare state-of-the-art methods such as MIR, iCARL, and GDumb and determine which works best at different experimental settings; (2) determine if the best class incremental methods are also competitive in domain incremental setting; (3) evaluate the performance of 7 simple but effective trick such as "review" trick and nearest class mean (NCM) classifier to assess their relative impact. Regarding (1), we observe earlier proposed iCaRL remains competitive when the memory buffer is small; GDumb outperforms many recently proposed methods in medium-size datasets and MIR performs the best in larger-scale datasets. For (2), we note that GDumb performs quite poorly while MIR -- already competitive for (1) -- is also strongly competitive in this very different but important setting. Overall, this allows us to conclude that MIR is overall a strong and versatile method across a wide variety of settings. For (3), we find that all 7 tricks are beneficial, and when augmented with the "review" trick and NCM classifier, MIR produces performance levels that bring online continual learning much closer to its ultimate goal of matching offline training.
翻訳日:2021-03-14 21:26:31 公開日:2021-01-25
# (参考訳) ニューラルネットワークを用いたデータセット内の隠れた機能依存法則の探索と分類 [全文訳有]

Finding hidden-feature depending laws inside a data set and classifying it using Neural Network ( http://arxiv.org/abs/2101.10427v1 )

ライセンス: CC BY-SA 4.0
Thilo Moshagen, Nihal Acharya Adde, Ajay Navilarekal Rajgopal(参考訳) ニューラルネットワークのログコッシュ損失関数は、アウトプライヤを過重にしない絶対誤差損失関数の利点と、平均付近の連続微分の平均二乗誤差の利点を組み合わせるために開発されており、学習の最終段階を容易にする。 クラスタ化されたデータの場合、ログコッシュ損失のある人工ニューラルネットワークが2つの平均よりも大きなクラスタを学ぶことは明らかです。 さらに、ANNは、セット値関数の回帰に使用されるとき、その選択の1つに近い値、すなわち、セット値関数の1つの分岐を学習し、平均2乗誤差NNは、その間の値を学ぶ。 本研究は,logcosh損失を持つ人工ニューラルネットワークを用いてパラメータ-アウトカムサンプルセットのセット値マッピングの分岐を探索し,それらの分岐に従ってサンプルを分類する手法を提案する。

The logcosh loss function for neural networks has been developed to combine the advantage of the absolute error loss function of not overweighting outliers with the advantage of the mean square error of continuous derivative near the mean, which makes the last phase of learning easier. It is clear, and one experiences it soon, that in the case of clustered data, an artificial neural network with logcosh loss learns the bigger cluster rather than the mean of the two. Even more so, the ANN, when used for regression of a set-valued function, will learn a value close to one of the choices, in other words, one branch of the set-valued function, while a mean-square-error NN will learn the value in between. This work suggests a method that uses artificial neural networks with logcosh loss to find the branches of set-valued mappings in parameter-outcome sample sets and classifies the samples according to those branches.
翻訳日:2021-03-14 21:25:06 公開日:2021-01-25
# (参考訳) 自律型インテリジェントエージェントのマルチエージェントシステムのテストと評価フレームワーク [全文訳有]

Test and Evaluation Framework for Multi-Agent Systems of Autonomous Intelligent Agents ( http://arxiv.org/abs/2101.10430v1 )

ライセンス: CC BY 4.0
Erin Lanus, Ivan Hernandez, Adam Dachowicz, Laura Freeman, Melanie Grande, Andrew Lang, Jitesh H. Panchal, Anthony Patrick, Scott Welch(参考訳) テストと評価は、予期せぬ様々な条件下で、設計されたシステムが意図通りに機能することを保証するために必要なプロセスです。 本研究では,人工知能を組み込んだサイバーフィジカルシステムの複雑なアンサンブルのためのテストと評価の統一フレームワークを開発するという,ユニークな課題について考察する。 本稿では, 開発ライフサイクルだけでなく, 騒音, 変化, 競合する環境下での学習, 適応などを通じて, 開発ライフサイクル全体を通してテストと評価を取り入れたフレームワークを提案する。 このフレームワークは、テスト時間とリソースが制限されていることを尊重しながら、さまざまな階層的な構成スケールで多様なシステムの統合をテストするという課題を負っている。 汎用的なユースケースが提供され、フレームワークを介してユースケースを探索した結果、説明的な目的と研究の方向性が提案される。

Test and evaluation is a necessary process for ensuring that engineered systems perform as intended under a variety of conditions, both expected and unexpected. In this work, we consider the unique challenges of developing a unifying test and evaluation framework for complex ensembles of cyber-physical systems with embedded artificial intelligence. We propose a framework that incorporates test and evaluation throughout not only the development life cycle, but continues into operation as the system learns and adapts in a noisy, changing, and contended environment. The framework accounts for the challenges of testing the integration of diverse systems at various hierarchical scales of composition while respecting that testing time and resources are limited. A generic use case is provided for illustrative purposes and research directions emerging as a result of exploring the use case via the framework are suggested.
翻訳日:2021-03-14 21:14:04 公開日:2021-01-25
# (参考訳) 機械学習に基づく新しい手法を用いた運転用風力タービンブレードの損傷検出

Damage detection in operational wind turbine blades using a new approach based on machine learning ( http://arxiv.org/abs/2101.11711v1 )

ライセンス: CC BY 4.0
Kartik Chandrasekhar, Nevena Stevanovic, Elizabeth J. Cross, Nikolaos Dervilis, Keith Worden(参考訳) 信頼できる構造健康監視(SHM)技術の運用用風力タービンブレードへの適用は、彼らが動作している環境の不確実性のために、困難な作業です。 本稿では,ガウス過程(GP)を用いた新しいSHM手法を提案する。 この手法は、タービン上のブレードが構造特性で公称同一であり、同じ環境および運転変数(EOV)に遭遇するという事実を利用しています。 興味のある特性はブレードの最初のエッジワイズ周波数である。 GPは、ブレードが健全な状態にあるときに、ブレード間のこれらの関係が学習された後、あるブレードのエッジ周波数を予測するために使用される。 このアプローチを用いることで、提案したSHM手法は、ブレードが時間とともに異なる振る舞いを始めるタイミングを特定することができる。 この概念を検証するため, 提案したSHMシステムは, 風力タービンの羽根の実データに適用され, 何らかの損傷が生じたことが判明した。 GP予測と実際の周波数の間の残留誤差のXバー制御チャート分析は、システムが識別および修復される6ヶ月前に損傷の早期開始を成功裏に特定したことを示しています。

The application of reliable structural health monitoring (SHM) technologies to operational wind turbine blades is a challenging task, due to the uncertain nature of the environments they operate in. In this paper, a novel SHM methodology, which uses Gaussian Processes (GPs) is proposed. The methodology takes advantage of the fact that the blades on a turbine are nominally identical in structural properties and encounter the same environmental and operational variables (EOVs). The properties of interest are the first edgewise frequencies of the blades. The GPs are used to predict the edge frequencies of one blade given that of another, after these relationships between the pairs of blades have been learned when the blades are in a healthy state. In using this approach, the proposed SHM methodology is able to identify when the blades start behaving differently from one another over time. To validate the concept, the proposed SHM system is applied to real onshore wind turbine blade data, where some form of damage was known to have taken place. X-bar control chart analysis of the residual errors between the GP predictions and actual frequencies show that the system successfully identified early onset of damage as early as six months before it was identified and remedied.
翻訳日:2021-03-14 21:02:21 公開日:2021-01-25
# (参考訳) PolyLM: 言語モデリングによるPolysemyの学習 [全文訳有]

PolyLM: Learning about Polysemy through Language Modeling ( http://arxiv.org/abs/2101.10448v1 )

ライセンス: CC BY 4.0
Alan Ansell, Felipe Bravo-Marquez, Bernhard Pfahringer(参考訳) 単語埋め込みの「意味的コンフレーション不足」を避けるために、複数のモデルが個々の単語感覚を組み込むことを目的としている。 これらの手法は、一時はword sense induction (wsi) などのタスクでうまく機能していたが、コンテキスト化された埋め込みを利用するタスク固有の技術に取って代わられた。 しかし、感覚埋め込みと文脈化は相互に排他的である必要はない。 言語モデリング問題として,感性埋め込みを学習するタスクを定式化するPolyLMを導入し,文脈化技術の適用を可能にした。 第一に、ある文脈で起こる単語の確率が、その個々の感覚の確率の合計と等しいこと、第二に、ある単語の特定の発生において、その感覚の1つは、他の文脈よりもずっと説得力がある傾向があること、である。 WSI上でのPolyLMの評価は、従来の感覚埋め込み技術よりも大幅に優れており、パラメータが6倍少ないにもかかわらず、現在の最先端の特殊WSI法と一致することを示しています。 コードとトレーニング済みモデルはhttps://github.com/A lanAnsell/PolyLM.com で入手できる。

To avoid the "meaning conflation deficiency" of word embeddings, a number of models have aimed to embed individual word senses. These methods at one time performed well on tasks such as word sense induction (WSI), but they have since been overtaken by task-specific techniques which exploit contextualized embeddings. However, sense embeddings and contextualization need not be mutually exclusive. We introduce PolyLM, a method which formulates the task of learning sense embeddings as a language modeling problem, allowing contextualization techniques to be applied. PolyLM is based on two underlying assumptions about word senses: firstly, that the probability of a word occurring in a given context is equal to the sum of the probabilities of its individual senses occurring; and secondly, that for a given occurrence of a word, one of its senses tends to be much more plausible in the context than the others. We evaluate PolyLM on WSI, showing that it performs considerably better than previous sense embedding techniques, and matches the current state-of-the-art specialized WSI method despite having six times fewer parameters. Code and pre-trained models are available at https://github.com/A lanAnsell/PolyLM.
翻訳日:2021-03-14 20:52:58 公開日:2021-01-25
# (参考訳) ジョブショップスケジューリング問題に対する大規模ベンチマーク [全文訳有]

Large-Scale Benchmarks for the Job Shop Scheduling Problem ( http://arxiv.org/abs/2102.08778v1 )

ライセンス: CC BY 4.0
Giacomo Da Col and Erich Teppan(参考訳) 本報告では,業界における実際のスケジューリング問題に類似した2つの新しいジョブショップスケジューリングベンチマークについて述べる。 特に目標は、大規模なベンチマーク(最大100万のオペレーション)を提供し、実際の産業状況で発生する問題に近い問題に関する最先端のスケジューリングソリューションをテストすることでした。 最初のベンチマークはよく知られたTaillard ベンチマーク (1992) の拡張であり、第二のベンチマークは既知の最適解を持つスケジューリングインスタンスのコレクションである。

This report contains the description of two novel job shop scheduling benchmarks that resemble instances of real scheduling problem as they appear in industry. In particular, the aim was to provide large-scale benchmarks (up to 1 million operations) to test the state-of-the-art scheduling solutions on problems that are closer to what occurs in a real industrial context. The first benchmark is an extension of the well known Taillard benchmark (1992), while the second is a collection of scheduling instances with a known-optimum solution.
翻訳日:2021-03-14 20:13:48 公開日:2021-01-25
# (参考訳) 統計的フラクタル探索(stochastic fractal search)アルゴリズムに関する調査 [全文訳有]

A Survey On (Stochastic Fractal Search) Algorithm ( http://arxiv.org/abs/2102.01503v1 )

ライセンス: CC BY 4.0
Mohammed ElKomy(参考訳) 進化的アルゴリズムは自然にインスパイアされた近似最適化アルゴリズムであり、一般的な数学的手法が良い解を提供しられなかったり、正確な解を見つけるのに従来の徹底的な探索アルゴリズムを使うのに不合理な時間を必要とする場合、科学の問題に通常干渉する。 これらの人口ベースのフレームワークの成功は主に、最も異なる複雑な最適化問題への柔軟性と適応の容易さに起因する。 本稿では, フラクタルと呼ばれる数学的概念に基づく成長の自然現象に着想を得た, 確率的フラクタル探索というメタヒューリスティックなアルゴリズムを提案する。 本論文は,提案するアルゴリズムに適用される文献によく用いられる工学設計最適化問題のアルゴリズムステップと応用例にも注目する。

Evolutionary Algorithms are naturally inspired approximation optimisation algorithms that usually interfere with science problems when common mathematical methods are unable to provide a good solution or finding the exact solution requires an unreasonable amount of time using traditional exhaustive search algorithms. The success of these population-based frameworks is mainly due to their flexibility and ease of adaptation to the most different and complex optimisation problems. This paper presents a metaheuristic algorithm called Stochastic Fractal Search, inspired by the natural phenomenon of growth based on a mathematical concept called the fractal, which is shown to be able to explore the search space more efficiently. This paper also focuses on the algorithm steps and some example applications of engineering design optimisation problems commonly used in the literature being applied to the proposed algorithm.
翻訳日:2021-03-14 20:07:40 公開日:2021-01-25
# (参考訳) サイクルクラスタリングを用いたアプライアンス動作モード同定 [全文訳有]

Appliance Operation Modes Identification Using Cycles Clustering ( http://arxiv.org/abs/2101.10472v1 )

ライセンス: CC BY 4.0
Abdelkareem Jaradat, Hanan Lutfiyya, Anwar Haque(参考訳) コスト、エネルギー需要、環境問題の増加により、多くの研究者がエネルギーモニタリングやエネルギー保存へのアプローチを見出した。 モノのインターネット(IoT)と機械学習(ML)の新興技術は、エネルギーを効率的に保存し、エネルギー消費の利用を改善する可能性を持つ技術を提供します。 スマートホームエネルギーマネジメントシステム(SHEMS)は、住宅セクターにおける需要対応(DR)の適用を通じて、省エネに貢献する可能性があります。 本論文では,DR支援において,感知された住宅分別消費電力を活用したSHEMSの基本的アプローチであるサイクルクラスタリング(OMICC)を用いたアプライアンス動作モード同定について,消費者に軽量なアプライアンス動作モードを選択する機会を提供することで提案する。 アプライアンスの単一使用プロファイル(SUP)のサイクルを抽出し、サイクルのクラスタの観点で特徴に再構成する。 これらの機能はk-nearest neighbors (knn) を使用して、すべての発生で使用されるオペレーションモードを特定するために使用される。 運用モードの識別は、消費者やサプライヤーに対するSHEMS内の多くの潜在的なスマートDRアプリケーションの基礎と見なされる

The increasing cost, energy demand, and environmental issues has led many researchers to find approaches for energy monitoring, and hence energy conservation. The emerging technologies of Internet of Things (IoT) and Machine Learning (ML) deliver techniques that have the potential to efficiently conserve energy and improve the utilization of energy consumption. Smart Home Energy Management Systems (SHEMSs) have the potential to contribute in energy conservation through the application of Demand Response (DR) in the residential sector. In this paper, we propose appliances Operation Modes Identification using Cycles Clustering (OMICC) which is SHEMS fundamental approach that utilizes the sensed residential disaggregated power consumption in supporting DR by providing consumers the opportunity to select lighter appliance operation modes. The cycles of the Single Usage Profile (SUP) of an appliance are extracted and reformed into features in terms of clusters of cycles. These features are then used to identify the operation mode used in every occurrence using K-Nearest Neighbors (KNN). Operation modes identification is considered a basis for many potential smart DR applications within SHEMS towards the consumers or the suppliers
翻訳日:2021-03-14 19:57:30 公開日:2021-01-25
# 談話レベル処理のためのランダム化深部構造予測

Randomized Deep Structured Prediction for Discourse-Level Processing ( http://arxiv.org/abs/2101.10435v1 )

ライセンス: Link先を確認
Manuel Widmoser, Maria Leonor Pacheco, Jean Honorio, Dan Goldwasser(参考訳) RNNやTransformer Networksのような表現力のあるテキストエンコーダは、近年NLPモデルの中心となっている。 作業の大部分は文レベルのタスクに重点を置いており、単一文中の単語間の依存関係、あるいは文のペアをキャプチャしている。 しかし、議論のマイニングのような特定のタスクは、長いテキストとそれら間の複雑な構造的依存関係の会計を必要とする。 深い構造化予測は、表現型ニューラルエンコーダの相補的な強度と高度に構造化されたドメインに対する構造的推論を組み合わせた一般的なフレームワークである。 それにもかかわらず、文を超える必要がある場合、ほとんどの作業は独立に訓練された分類器の出力スコアを組み合わせることに依存している。 この主な理由の1つは、制約付き推論が高い計算コストで来ることである。 本稿では,この懸念を緩和するためにランダム化推論を用いることを考察し,複雑な議論構造を含む一連のタスクに対して,深層構造予測と表現型ニューラルネットワークエンコーダを効率的に活用できることを示す。

Expressive text encoders such as RNNs and Transformer Networks have been at the center of NLP models in recent work. Most of the effort has focused on sentence-level tasks, capturing the dependencies between words in a single sentence, or pairs of sentences. However, certain tasks, such as argumentation mining, require accounting for longer texts and complicated structural dependencies between them. Deep structured prediction is a general framework to combine the complementary strengths of expressive neural encoders and structured inference for highly structured domains. Nevertheless, when the need arises to go beyond sentences, most work relies on combining the output scores of independently trained classifiers. One of the main reasons for this is that constrained inference comes at a high computational cost. In this paper, we explore the use of randomized inference to alleviate this concern and show that we can efficiently leverage deep structured prediction and expressive neural encoders for a set of tasks involving complicated argumentative structures.
翻訳日:2021-03-14 19:23:38 公開日:2021-01-25
# カリキュラム学習:調査

Curriculum Learning: A Survey ( http://arxiv.org/abs/2101.10382v1 )

ライセンス: Link先を確認
Petru Soviany, Radu Tudor Ionescu, Paolo Rota, Nicu Sebe(参考訳) 機械学習モデルを、簡単なサンプルから難しいものまで、意味のある順序でトレーニングすることで、カリキュラム学習は、追加の計算コストなしで、ランダムデータシャッフルに基づく標準的なトレーニングアプローチよりもパフォーマンスが向上する。 カリキュラム学習戦略は、機械学習のあらゆる分野において、幅広いタスクにおいてうまく採用されてきた。 しかし、より難しいデータを導入するための適切なペアリング機能と同様に、サンプルを簡単から困難にランク付けする方法を見つける必要は、カリキュラムのアプローチの使用を制限することができる。 本稿では,これらの制限が文献にどのように取り組まれているかを示し,機械学習における様々な課題に対するカリキュラム学習のインスタンス化について述べる。 様々な分類基準を考慮し,カリキュラム学習アプローチのマルチパースペクティブ分類を手作業で構築する。 さらに,発見したクラスタを分類法に関連付けた凝集クラスタリングアルゴリズムを用いて,カリキュラム学習手法の階層木を構築する。 最後に、私たちは今後の作業にいくつかの興味深い方向を示します。

Training machine learning models in a meaningful order, from the easy samples to the hard ones, using curriculum learning can provide performance improvements over the standard training approach based on random data shuffling, without any additional computational costs. Curriculum learning strategies have been successfully employed in all areas of machine learning, in a wide range of tasks. However, the necessity of finding a way to rank the samples from easy to hard, as well as the right pacing function for introducing more difficult data can limit the usage of the curriculum approaches. In this survey, we show how these limits have been tackled in the literature, and we present different curriculum learning instantiations for various tasks in machine learning. We construct a multi-perspective taxonomy of curriculum learning approaches by hand, considering various classification criteria. We further build a hierarchical tree of curriculum learning methods using an agglomerative clustering algorithm, linking the discovered clusters with our taxonomy. At the end, we provide some interesting directions for future work.
翻訳日:2021-03-14 19:23:22 公開日:2021-01-25
# ニューラルネットワークにおける活性化関数:体系的概要

Activation Functions in Artificial Neural Networks: A Systematic Overview ( http://arxiv.org/abs/2101.09957v1 )

ライセンス: Link先を確認
Johannes Lederer(参考訳) 活性化関数は人工ニューロンの出力を形作るため、ニューラルネットワークの一般および深層学習において不可欠な部分である。 ロジスティックやreluのようないくつかのアクティベーション関数は数十年にわたって使われてきた。 しかし、ディープラーニングが主流の研究テーマとなり、新しい活性化機能がキノコになり、理論と実践の両方に混乱を引き起こします。 本論文では, 人気アクティベーション機能とその特性について, 解析的かつ最新の概観を提供し, ニューラルネットワークを研究・適用するすべての人にとって, タイムリーなリソースとなる。

Activation functions shape the outputs of artificial neurons and, therefore, are integral parts of neural networks in general and deep learning in particular. Some activation functions, such as logistic and relu, have been used for many decades. But with deep learning becoming a mainstream research topic, new activation functions have mushroomed, leading to confusion in both theory and practice. This paper provides an analytic yet up-to-date overview of popular activation functions and their properties, which makes it a timely resource for anyone who studies or applies neural networks.
翻訳日:2021-03-14 19:23:06 公開日:2021-01-25
# PAC学習に基づくDNNの確率ロバスト性解析

Probabilistic Robustness Analysis for DNNs based on PAC Learning ( http://arxiv.org/abs/2101.10102v1 )

ライセンス: Link先を確認
Renjue Li and Pengfei Yang and Cheng-Chao Huang and Bai Xue and Lijun Zhang(参考訳) 本稿では,深層ニューラルネットワーク(DNN)解析のためのブラックボックスベースのアプローチを提案する。 DNN を入力から出力への関数 $\boldsymbol{f}$ と見なし、与えられた入力に対してローカルロバスト性プロパティを考慮する。 ロバストな制御設計におけるシナリオ最適化手法に基づき、目標ラベル $\ell$ と攻撃ラベル $i$ に関してスコア差分関数 $f_i-f_\ell$ を学びます。 入力画素上の線形テンプレートを使用し、線形プログラミング(LP)問題への還元に基づいてスコア差分関数の対応する係数を学習する。 スケーラブルにするために,コンポーネントベースの学習と集中学習を含む最適化を提案する。 学習された関数は、堅牢性特性のほぼ正しい(PAC)保証を提供します。 スコア差分関数はDNNの局所的挙動の近似であるので、潜在的な敵の例を生成するために使用することができ、元のネットワークは、それらが素早いかどうかを確認するために使用することができる。 最後に,絶対係数が大きい入力画素に着目し,それらを用いて攻撃シナリオを説明する。 提案手法をプロトタイプツールであるDeepPACに実装した。 実験の結果, resnet152のような非常に大きなニューラルネットワークを6.5$mのニューロンで処理でき, 決定境界に非常に近い敵の例をしばしば生成できることがわかった。

This paper proposes a black box based approach for analysing deep neural networks (DNNs). We view a DNN as a function $\boldsymbol{f}$ from inputs to outputs, and consider the local robustness property for a given input. Based on scenario optimization technique in robust control design, we learn the score difference function $f_i-f_\ell$ with respect to the target label $\ell$ and attacking label $i$. We use a linear template over the input pixels, and learn the corresponding coefficients of the score difference function, based on a reduction to a linear programming (LP) problems. To make it scalable, we propose optimizations including components based learning and focused learning. The learned function offers a probably approximately correct (PAC) guarantee for the robustness property. Since the score difference function is an approximation of the local behaviour of the DNN, it can be used to generate potential adversarial examples, and the original network can be used to check whether they are spurious or not. Finally, we focus on the input pixels with large absolute coefficients, and use them to explain the attacking scenario. We have implemented our approach in a prototypical tool DeepPAC. Our experimental results show that our framework can handle very large neural networks like ResNet152 with $6.5$M neurons, and often generates adversarial examples which are very close to the decision boundary.
翻訳日:2021-03-14 19:22:55 公開日:2021-01-25
# 対比対比学習による効率的なロバストネスの理解と達成

Understanding and Achieving Efficient Robustness with Adversarial Contrastive Learning ( http://arxiv.org/abs/2101.10027v1 )

ライセンス: Link先を確認
Anh Bui, Trung Le, He Zhao, Paul Montague, Seyit Camtepe, Dinh Phung(参考訳) 対比学習(CL)は最近、さまざまな下流タスクで表現を学習するための効果的なアプローチとして登場しました。 このアプローチの中心となるのは、潜在空間におけるデータとクラス表現の間の「コントラスト」の機会をモデルに提供するための正(類似)と負(類似)のセットの選択である。 本論文では,対向サンプルを用いたモデル堅牢性向上のためのCLについて検討する。 我々はまず、潜伏空間における敵の脆弱性がどのように振る舞うかを理解するための総合的研究を設計し、実施した。 これらの実証的証拠に基づいて,敵攻撃に対するモデルロバスト性を実現するために,効果的かつ効率的な教師付きコントラスト学習を提案する。 さらに,冗長性を除去し,アンカーとの相関性を改善することにより,正負のセットを最適化する新しいサンプル選択戦略を提案する。 ベンチマークデータセット上で行われた実験は、Adversarial Supervised Contrastive Learning(ASCL)アプローチが、堅牢な精度の観点から最先端の防御を2.6\%$上回ることを示し、提案された選択戦略を備えたASCLは、選択戦略なしでASCLと比較してわずか4.8\%$陽性と$6.3\%$陰性でさらに1.4\%$の改善を得ることができます。

Contrastive learning (CL) has recently emerged as an effective approach to learning representation in a range of downstream tasks. Central to this approach is the selection of positive (similar) and negative (dissimilar) sets to provide the model the opportunity to `contrast' between data and class representation in the latent space. In this paper, we investigate CL for improving model robustness using adversarial samples. We first designed and performed a comprehensive study to understand how adversarial vulnerability behaves in the latent space. Based on these empirical evidences, we propose an effective and efficient supervised contrastive learning to achieve model robustness against adversarial attacks. Moreover, we propose a new sample selection strategy that optimizes the positive/negative sets by removing redundancy and improving correlation with the anchor. Experiments conducted on benchmark datasets show that our Adversarial Supervised Contrastive Learning (ASCL) approach outperforms the state-of-the-art defenses by $2.6\%$ in terms of the robust accuracy, whilst our ASCL with the proposed selection strategy can further gain $1.4\%$ improvement with only $42.8\%$ positives and $6.3\%$ negatives compared with ASCL without a selection strategy.
翻訳日:2021-03-14 19:22:31 公開日:2021-01-25
# マルチモーダル機械翻訳のためのクロスリンガルビジュアルプリトレーニング

Cross-lingual Visual Pre-training for Multimodal Machine Translation ( http://arxiv.org/abs/2101.10044v1 )

ライセンス: Link先を確認
Ozan Caglayan, Menekse Kuyu, Mustafa Sercan Amac, Pranava Madhyastha, Erkut Erdem, Aykut Erdem, Lucia Specia(参考訳) 事前学習された言語モデルは、多くの自然言語タスクのパフォーマンスを実質的に改善することが示されている。 これらのモデルの初期の焦点は単一言語前訓練であったが、近年の進歩により言語間および視覚前訓練法が確立された。 本論文では,これら2つのアプローチを組み合わせ,視覚に基づくクロスリンガル表現を学習する。 具体的には,翻訳言語モデル(lample and conneau, 2019)をマスキング領域分類で拡張し,3方向並列視覚と言語コーパスで事前学習を行う。 マルチモーダル機械翻訳のための微調整を行うと、これらのモデルが最先端の性能を得ることを示す。 また,学習した基底表現の有用性に関する質的な洞察も提供する。

Pre-trained language models have been shown to improve performance in many natural language tasks substantially. Although the early focus of such models was single language pre-training, recent advances have resulted in cross-lingual and visual pre-training methods. In this paper, we combine these two approaches to learn visually-grounded cross-lingual representations. Specifically, we extend the translation language modelling (Lample and Conneau, 2019) with masked region classification and perform pre-training with three-way parallel vision & language corpora. We show that when fine-tuned for multimodal machine translation, these models obtain state-of-the-art performance. We also provide qualitative insights into the usefulness of the learned grounded representations.
翻訳日:2021-03-14 19:21:42 公開日:2021-01-25
# 汎用顔アンチスプーフィングのためのカメラ不変特徴学習

Camera Invariant Feature Learning for Generalized Face Anti-spoofing ( http://arxiv.org/abs/2101.10075v1 )

ライセンス: Link先を確認
Baoliang Chen, Wenhan Yang, Haoliang Li, Shiqi Wang and Sam Kwong(参考訳) 学習ベースのアンチスプーフィングでは、カメラモデルの相違が実際のアプリケーションシナリオに大きなドメインギャップをもたらしているというコンセンサスが高まっている。 本稿では,特徴レベルでの取得カメラからの固有ばらつきの影響を排除し,異なる取得デバイスに高度に適応可能な汎用的な顔スプーフィング検出モデルを実現するフレームワークについて述べる。 特に、フレームワークは2つのブランチで構成されている。 最初のブランチは、高周波領域における特徴レベルの分解を介してカメラ不変のスプーフィング機能を学ぶことを目的とする。 スプルーフィングの特徴が高周波領域にのみ存在するという事実に動機づけられて、第2ブランチでは、高周波および低周波情報の再構成に基づいて、抽出されたスポーフィング機能の識別能力を強化画像からさらに高める。 最後に、2つの枝の分類結果は重み付け戦略によって融合される。 実験では、提案手法がデータセット内設定とデータセット間設定の両方でより良いパフォーマンスを達成できることを示し、様々なアプリケーションシナリオで高い一般化能力を示す。

There has been an increasing consensus in learning based face anti-spoofing that the divergence in terms of camera models is causing a large domain gap in real application scenarios. We describe a framework that eliminates the influence of inherent variance from acquisition cameras at the feature level, leading to the generalized face spoofing detection model that could be highly adaptive to different acquisition devices. In particular, the framework is composed of two branches. The first branch aims to learn the camera invariant spoofing features via feature level decomposition in the high frequency domain. Motivated by the fact that the spoofing features exist not only in the high frequency domain, in the second branch the discrimination capability of extracted spoofing features is further boosted from the enhanced image based on the recomposition of the high-frequency and low-frequency information. Finally, the classification results of the two branches are fused together by a weighting strategy. Experiments show that the proposed method can achieve better performance in both intra-dataset and cross-dataset settings, demonstrating the high generalization capability in various application scenarios.
翻訳日:2021-03-14 19:21:32 公開日:2021-01-25
# ISP蒸留

ISP Distillation ( http://arxiv.org/abs/2101.10203v1 )

ライセンス: Link先を確認
Eli Schwartz, Alex Bronstein, Raja Giryes(参考訳) 現在、撮影された画像の多くは、ロボットや自動運転車のカメラなど、人間ではなく機械によって「観察」されている。 物体認識などの高レベルマシンビジョンモデルは、画像がカメラispによって標準画像空間に変換されると仮定する。 しかし、カメラISPは、人間の観察者に対して、マシンではなく、視覚的に喜ぶ画像を生成するために最適化されているため、ISPの計算時間を省いて、ビジョンモデルを生データに直接適用することができる。 しかし,RAW画像から直接そのようなモデルをトレーニングすると,性能低下が生じることが示されている。 RAWデータのアノテートを必要とせずに)この性能低下を軽減するために、RAWとRGBのイメージペアのデータセットを使用し、人間のラベルなしで容易に取得できる。 次に、RAW画像のモデル予測が処理されたRGB画像の既製プリトレーニングモデルの予測と一致するように、知識蒸留を使用してRAWデータに直接適用されるモデルをトレーニングします。 実験の結果,RAW画像の性能はラベル付きRAW画像で訓練されたモデルよりも有意に優れていることがわかった。 また、処理されたRGB画像の事前訓練されたモデルの予測に合理的に一致し、ISPの計算オーバーヘッドを節約します。

Nowadays, many of the images captured are "observed" by machines only and not by humans, for example, robots' or autonomous cars' cameras. High-level machine vision models, such as object recognition, assume images are transformed to some canonical image space by the camera ISP. However, the camera ISP is optimized for producing visually pleasing images to human observers and not for machines, thus, one may spare the ISP compute time and apply the vision models directly to the raw data. Yet, it has been shown that training such models directly on the RAW images results in a performance drop. To mitigate this drop in performance (without the need to annotate RAW data), we use a dataset of RAW and RGB image pairs, which can be easily acquired with no human labeling. We then train a model that is applied directly to the RAW data by using knowledge distillation such that the model predictions for RAW images will be aligned with the predictions of an off-the-shelf pre-trained model for processed RGB images. Our experiments show that our performance on RAW images is significantly better than a model trained on labeled RAW images. It also reasonably matches the predictions of a pre-trained model on processed RGB images, while saving the ISP compute overhead.
翻訳日:2021-03-14 19:21:08 公開日:2021-01-25
# トレーニングにおけるバイアス移行の多面的課題

Diverse Adversaries for Mitigating Bias in Training ( http://arxiv.org/abs/2101.10001v1 )

ライセンス: Link先を確認
Xudong Han, Timothy Baldwin, Trevor Cohn(参考訳) 対比学習は、標準的な方法よりも公平で偏見の少ない言語モデルを学ぶことができる。 しかし、現在の敵対的手法はモデルのバイアスを部分的に緩和するだけであり、トレーニング手順が不安定であることが多い。 本論文では,複数の多様な判別器を用いて,直交的隠れた表現を互いに学習することを奨励する,対比学習の新たなアプローチを提案する。 実験の結果, 偏りの低減とトレーニングの安定性の観点から, 標準逆除去法よりも大幅に改善することが示された。

Adversarial learning can learn fairer and less biased models of language than standard methods. However, current adversarial techniques only partially mitigate model bias, added to which their training procedures are often unstable. In this paper, we propose a novel approach to adversarial learning based on the use of multiple diverse discriminators, whereby discriminators are encouraged to learn orthogonal hidden representations from one another. Experimental results show that our method substantially improves over standard adversarial removal methods, in terms of reducing bias and the stability of training.
翻訳日:2021-03-14 19:20:28 公開日:2021-01-25
# 不規則サンプリング時系列に対するマルチタイムアテンションネットワーク

Multi-Time Attention Networks for Irregularly Sampled Time Series ( http://arxiv.org/abs/2101.10318v1 )

ライセンス: Link先を確認
Satya Narayan Shukla, Benjamin M. Marlin(参考訳) 不規則サンプリングは多くの時系列モデリングアプリケーションで発生し、標準的なディープラーニングモデルに重要な課題をもたらす。 この研究は、不規則にサンプリングされ、多変量である電子健康記録における生理学的時系列データの分析によって動機づけられる。 本稿では,マルチタイムアテンションネットワークと呼ばれる新しい深層学習フレームワークを提案する。 マルチタイムアテンションネットワークは、連続時間値の埋め込みを学び、注意メカニズムを使用して、可変数の観測を含む時系列の固定長表現を生成する。 複数のデータセットを用いた補間および分類タスクにおけるフレームワークの性能について検討する。 本研究の結果から,本手法はベースラインモデルや最近提案されたモデルよりも優れた性能を示しながら,現在の最先端手法よりもはるかに高速なトレーニング時間を提供する。

Irregular sampling occurs in many time series modeling applications where it presents a significant challenge to standard deep learning models. This work is motivated by the analysis of physiological time series data in electronic health records, which are sparse, irregularly sampled, and multivariate. In this paper, we propose a new deep learning framework for this setting that we call Multi-Time Attention Networks. Multi-Time Attention Networks learn an embedding of continuous-time values and use an attention mechanism to produce a fixed-length representation of a time series containing a variable number of observations. We investigate the performance of our framework on interpolation and classification tasks using multiple datasets. Our results show that our approach performs as well or better than a range of baseline and recently proposed models while offering significantly faster training times than current state-of-the-art methods.
翻訳日:2021-03-14 19:20:20 公開日:2021-01-25
# マルチアーマッドバンドを用いたオンラインおよびスケーラブルモデル選択

Online and Scalable Model Selection with Multi-Armed Bandits ( http://arxiv.org/abs/2101.10385v1 )

ライセンス: Link先を確認
Jiayi Xie, Michael Tashman, John Hoffman, Lee Winikor, Rouzbeh Gerami(参考訳) ライブトラフィックで動作する多くのオンラインアプリケーションは、トレーニング、バリデーション、ハイパーパラメータチューニングを履歴データで実行する機械学習モデルを利用している。 しかしながら、オフライン分析で強力なパフォーマンスを示すモデルでは、オンラインデプロイ時のパフォーマンスが低くなることが一般的である。 この問題は、非定常環境での履歴データに関するトレーニングの難しさの結果です。 さらに、モデル選択に使用される機械学習メトリクスは、テスト対象のアプリケーションの成功を決定するために使用される実世界のビジネスメトリクスと十分に相関しないかもしれない。 これらの問題は、MLモデルが入札戦略を駆動するリアルタイム入札(RTB)ドメインにおいて特に顕著であり、モデルの変更が広告キャンペーンのパフォーマンスに影響を与える可能性が高い。 本研究では,実世界のパフォーマンス指標に基づくRTB入札戦略のスケーラブルなオンライン選択システムであるAutomatic Model Selector(AMS)を提案する。 AMSはマルチアーミングバンディット(MAB)を採用し、ライブトラフィックに対する複数のモデルをほぼ同時に実行および評価し、最高のパフォーマンスのモデルに最もトラフィックを割り当て、オンラインパフォーマンスの悪いモデルへのトラフィックを減らし、キャンペーン全体のパフォーマンスに劣るモデルの影響を最小限に抑えます。 オフラインデータへの依存は避けられ、代わりに実行可能なビジネス目標に従ってモデルの選択をケースバイケースで行う。 AMSは、新しいモデルを開発後すぐにライブキャンペーンに安全に導入することを可能にし、全体的なパフォーマンスのリスクを最小限にする。 複数の広告キャンペーンのライブトラフィックテストでは、AMSシステムは広告キャンペーンのパフォーマンス向上に非常に効果的であることが証明されました。

Many online applications running on live traffic are powered by machine learning models, for which training, validation, and hyper-parameter tuning are conducted on historical data. However, it is common for models demonstrating strong performance in offline analysis to yield poorer performance when deployed online. This problem is a consequence of the difficulty of training on historical data in non-stationary environments. Moreover, the machine learning metrics used for model selection may not sufficiently correlate with real-world business metrics used to determine the success of the applications being tested. These problems are particularly prominent in the Real-Time Bidding (RTB) domain, in which ML models power bidding strategies, and a change in models will likely affect performance of the advertising campaigns. In this work, we present Automatic Model Selector (AMS), a system for scalable online selection of RTB bidding strategies based on real-world performance metrics. AMS employs Multi-Armed Bandits (MAB) to near-simultaneously run and evaluate multiple models against live traffic, allocating the most traffic to the best-performing models while decreasing traffic to those with poorer online performance, thereby minimizing the impact of inferior models on overall campaign performance. The reliance on offline data is avoided, instead making model selections on a case-by-case basis according to actionable business goals. AMS allows new models to be safely introduced into live campaigns as soon as they are developed, minimizing the risk to overall performance. In live-traffic tests on multiple ad campaigns, the AMS system proved highly effective at improving ad campaign performance.
翻訳日:2021-03-14 19:20:07 公開日:2021-01-25
# 学習パラメータグラフシフト演算子

Learning Parametrised Graph Shift Operators ( http://arxiv.org/abs/2101.10050v1 )

ライセンス: Link先を確認
George Dasoulas, Johannes Lutzeyer, Michalis Vazirgiannis(参考訳) 多くのドメインでは、データは現在グラフとして表現されているため、このデータのグラフ表現は機械学習においてますます重要になる。 ネットワークデータは暗黙的または明示的に、常にグラフシフト演算子(GSO)を用いて表現され、最も一般的な選択は隣接性、ラプラシア行列とその正規化である。 本稿では、グラフニューラルネットワーク(GNN)フレームワークにおいて、パラメータ値が最も一般的に使用されるGSOとメッセージパッシング演算子となる新しいパラメータGSO(PGSO)を提案する。 PGSOは、最先端のGNNアーキテクチャで使用される標準GSOの代替として提案され、PGSOパラメータの最適化はモデルトレーニングにシームレスに含まれています。 PGSOは実固有値を持ち、パラメータ値とPGSOのスペクトル境界に依存しない実固有ベクトルの集合が導出されることが証明された。 PGSOパラメータは確率的ブロックモデルネットワークの研究においてグラフ構造の空間性に適応することが示され、そこでは文献で見られるGSO正規化を自動的に複製する。 いくつかの実世界のデータセットでは、ノード分類タスクとグラフ分類タスクの両方にPGSOを組み込むことで、最先端のGNNアーキテクチャの精度が向上する。

In many domains data is currently represented as graphs and therefore, the graph representation of this data becomes increasingly important in machine learning. Network data is, implicitly or explicitly, always represented using a graph shift operator (GSO) with the most common choices being the adjacency, Laplacian matrices and their normalisations. In this paper, a novel parametrised GSO (PGSO) is proposed, where specific parameter values result in the most commonly used GSOs and message-passing operators in graph neural network (GNN) frameworks. The PGSO is suggested as a replacement of the standard GSOs that are used in state-of-the-art GNN architectures and the optimisation of the PGSO parameters is seamlessly included in the model training. It is proved that the PGSO has real eigenvalues and a set of real eigenvectors independent of the parameter values and spectral bounds on the PGSO are derived. PGSO parameters are shown to adapt to the sparsity of the graph structure in a study on stochastic blockmodel networks, where they are found to automatically replicate the GSO regularisation found in the literature. On several real-world datasets the accuracy of state-of-the-art GNN architectures is improved by the inclusion of the PGSO in both node- and graph-classification tasks.
翻訳日:2021-03-14 19:19:14 公開日:2021-01-25
# 対物説明のための条件付きジェネラティブモデル

Conditional Generative Models for Counterfactual Explanations ( http://arxiv.org/abs/2101.10123v1 )

ライセンス: Link先を確認
Arnaud Van Looveren, Janis Klaise, Giovanni Vacanti, Oliver Cobb(参考訳) counterfactualインスタンスは、機械学習モデルのローカルな振る舞いに対する人間解釈可能な洞察を提供する。 本論文では, 目的の予測と条件付き生成モデルとを一致させ, 単一フォワードパスで反実インスタンスのバッチを生成するための, 分散内反実モデル記述を生成するための汎用フレームワークを提案する。 この方法は、基礎となる予測モデルのタスクと同様に使用される生成モデルの種類に関して柔軟である。 これにより、画像や時系列、表データなどのさまざまなモダリティや、GANやオートエンコーダなどの生成モデルパラダイム、分類や回帰といった予測タスクへのフレームワークの直接的な適用が可能になる。 本稿では,画像(CelebA),時系列(ECG),混合型表状(Adult Census)データに対する提案手法の有効性について述べる。

Counterfactual instances offer human-interpretable insight into the local behaviour of machine learning models. We propose a general framework to generate sparse, in-distribution counterfactual model explanations which match a desired target prediction with a conditional generative model, allowing batches of counterfactual instances to be generated with a single forward pass. The method is flexible with respect to the type of generative model used as well as the task of the underlying predictive model. This allows straightforward application of the framework to different modalities such as images, time series or tabular data as well as generative model paradigms such as GANs or autoencoders and predictive tasks like classification or regression. We illustrate the effectiveness of our method on image (CelebA), time series (ECG) and mixed-type tabular (Adult Census) data.
翻訳日:2021-03-14 19:18:55 公開日:2021-01-25
# 疾患マスクによる胸部疾患局在の弱監視

Weakly Supervised Thoracic Disease Localization via Disease Masks ( http://arxiv.org/abs/2101.09915v1 )

ライセンス: Link先を確認
Hyun-Woo Kim, Hong-Gyu Jung, Seong-Whan Lee(参考訳) コンピュータ支援診断システムとして医療分野での深層学習システムの利用を可能にするためには、疾患の分類だけでなく、疾患の位置も提示することが不可欠である。 しかし,様々な胸部疾患に対するインスタンスレベルのアノテーションの収集は高価である。 そのため,画像レベルのアノテーションのみを用いる弱教師付き局所化手法が提案されている。 従来の方法では, 病原体の位置を分類の最も差別的な部分として示していたが, 深部ネットワークは, 識別不能なX線画像に対して, 間違った領域を局所化する。 そこで本研究では,主に疾患が発症する領域を記述する疾患マスクを用いた空間的注意法を提案する。 次に, 疾患発生の確率を最大化することにより, 正確な疾患領域の特定に空間的注意をあてる。 一方、胸部X線画像のさまざまなサイズ、回転、およびノイズは、疾患マスクの生成を困難にします。 画像間のばらつきを低減するために,入力されたx線画像を一般化画像に変換するアライメントモジュールを用いる。 8種類の疾患を持つNIH-Chest X-rayデータセットの広範な実験を通して,提案手法は最先端の手法と比較して,より優れたローカライゼーション性能を示すことを示す。

To enable a deep learning-based system to be used in the medical domain as a computer-aided diagnosis system, it is essential to not only classify diseases but also present the locations of the diseases. However, collecting instance-level annotations for various thoracic diseases is expensive. Therefore, weakly supervised localization methods have been proposed that use only image-level annotation. While the previous methods presented the disease location as the most discriminative part for classification, this causes a deep network to localize wrong areas for indistinguishable X-ray images. To solve this issue, we propose a spatial attention method using disease masks that describe the areas where diseases mainly occur. We then apply the spatial attention to find the precise disease area by highlighting the highest probability of disease occurrence. Meanwhile, the various sizes, rotations and noise in chest X-ray images make generating the disease masks challenging. To reduce the variation among images, we employ an alignment module to transform an input X-ray image into a generalized image. Through extensive experiments on the NIH-Chest X-ray dataset with eight kinds of diseases, we show that the proposed method results in superior localization performances compared to state-of-the-art methods.
翻訳日:2021-03-14 19:18:39 公開日:2021-01-25
# 歩行認識のための畳み込みニューラルネットワークの性能評価

Performance Evaluation of Convolutional Neural Networks for Gait Recognition ( http://arxiv.org/abs/2101.10141v1 )

ライセンス: Link先を確認
K.D. Apostolidis, P.S. Amanatidis, G.A. Papakostas(参考訳) 本稿では,歩行認識における深層学習モデルの性能評価について述べる。 この目的のために、歩行認識タスクを解決するためのCASIA-Bデータセットにモデルに適合するために、事前に訓練されたモデルに転送学習スキームが採用される。 この文脈において,18種類の一般畳み込みニューラルネットワーク (cnns) を,様々な条件下で約14,000種類の124クラスの画像を含むcasia-bの歩行エネルギー画像 (geis) を用いて再訓練し,その性能を精度で検討した。 さらに, 検討したモデルの性能は, モデルが検討している画像の一部を調べて, 決定を下すことによって説明できる。 ほぼ全てのモデルが90%以上の精度を達成しており、クラス数の増加にロバストな結果が得られているため、実験結果は非常に有望である。 さらに,本研究の重要な成果は,異なる問題に事前学習したCNNを用いて認識問題を効果的に解くことができ,モデル設計をカスタマイズする必要がなくなることである。

In this paper, a performance evaluation of well-known deep learning models in gait recognition is presented. For this purpose, the transfer learning scheme is adopted to pre-trained models in order to fit the models to the CASIA-B dataset for solving a gait recognition task. In this context, 18 popular Convolutional Neural Networks (CNNs), were re-trained using Gait Energy Images (GEIs) of CASIA-B containing almost 14000 images of 124 classes under various conditions, and their performance was studied in terms of accuracy. Moreover, the performance of the studied models is managed to be explained by examining the parts of the images being considered by the models towards providing their decisions. The experimental results are very promising since almost all the models achieved a high accuracy of over 90%, which is robust to the increasing number of classes. Furthermore, an important outcome of this study is the fact that a recognition problem can be effectively solved by using CNNs pre-trained to different problems, thus eliminating the need for customized model design.
翻訳日:2021-03-14 19:18:20 公開日:2021-01-25
# CNNにおけるスペクトル漏洩とカーネルサイズ再考

Spectral Leakage and Rethinking the Kernel Size in CNNs ( http://arxiv.org/abs/2101.10143v1 )

ライセンス: Link先を確認
Nergis Tomen, Jan van Gemert(参考訳) CNNの畳み込み層は、異なる周波数帯域に入力を分解する線形フィルタを実装している。 しかし、現代のほとんどのアーキテクチャは、畳み込みカーネルのサイズと形状に関するモデル選択を最適化する際に、フィルタ設計の標準原則を無視している。 本研究では,cnnの文脈におけるフィルタリング操作におけるウィンドウアーティファクトによるスペクトル漏洩問題について考察する。 我々は,CNNカーネルの小型化によってスペクトルリークの影響を受けやすくなり,性能劣化を招きうることを示す。 そこで本研究では,CNNアーキテクチャの漏洩を緩和するために,ハミングウィンドウ機能とともにより大きなカーネルサイズを使用することを提案する。 我々はFashion-MNIST, CIFAR-10, CIFAR-100, ImageNetなどのベンチマークデータセット上で, 畳み込み層における標準ウィンドウ関数の簡単な使用により, ベースラインの分類精度を従来の$3\times 3$カーネルで向上させることを示した。 最後に,ハミングウィンドウ表示を用いたCNNは,特定の種類の敵攻撃に対する堅牢性を高めたことを示す。

Convolutional layers in CNNs implement linear filters which decompose the input into different frequency bands. However, most modern architectures neglect standard principles of filter design when optimizing their model choices regarding the size and shape of the convolutional kernel. In this work, we consider the well-known problem of spectral leakage caused by windowing artifacts in filtering operations in the context of CNNs. We show that the small size of CNN kernels make them susceptible to spectral leakage, which may induce performance-degradin g artifacts. To address this issue, we propose the use of larger kernel sizes along with the Hamming window function to alleviate leakage in CNN architectures. We demonstrate improved classification accuracy over baselines with conventional $3\times 3$ kernels, on multiple benchmark datasets including Fashion-MNIST, CIFAR-10, CIFAR-100 and ImageNet, via the simple use of a standard window function in convolutional layers. Finally, we show that CNNs employing the Hamming window display increased robustness against certain types of adversarial attacks.
翻訳日:2021-03-14 19:18:01 公開日:2021-01-25
# AdaBelief Optimizerによる広告の一般化

Generalizing Adversarial Examples by AdaBelief Optimizer ( http://arxiv.org/abs/2101.09930v1 )

ライセンス: Link先を確認
Yixiang Wang, Jiqiang Liu, Xiaolin Chang(参考訳) 最近の研究では、ディープニューラルネットワーク(DNN)が敵対的な例に対して脆弱であることが証明されています。 しかし、既存の敵対攻撃のほとんどは、敵対的に訓練されたモデルをだますことは困難です。 そこで本研究では,AdaBelief 反復高速勾配符号法 (AB-FGSM) を提案する。 AdaBelief最適化アルゴリズムをI-FGSMに統合することにより、AdaBelief最適化アルゴリズムの強力な一般化に頼って、逆例の一般化が改善されると信じている。 提案したAB-FGSMが生成する敵対的事例の有効性と伝達性を検証するため,様々な単一モデルおよびアンサンブルモデルに対して,ホワイトボックスおよびブラックボックス攻撃を行う。 提案手法は, 最先端攻撃法と比較して, ホワイトボックス設定における敵例を効果的に生成でき, 転送レートは最新の攻撃法よりも7%-21%高い。

Recent research has proved that deep neural networks (DNNs) are vulnerable to adversarial examples, the legitimate input added with imperceptible and well-designed perturbations can fool DNNs easily in the testing stage. However, most of the existing adversarial attacks are difficult to fool adversarially trained models. To solve this issue, we propose an AdaBelief iterative Fast Gradient Sign Method (AB-FGSM) to generalize adversarial examples. By integrating AdaBelief optimization algorithm to I-FGSM, we believe that the generalization of adversarial examples will be improved, relying on the strong generalization of AdaBelief optimizer. To validate the effectiveness and transferability of adversarial examples generated by our proposed AB-FGSM, we conduct the white-box and black-box attacks on various single models and ensemble models. Compared with state-of-the-art attack methods, our proposed method can generate adversarial examples effectively in the white-box setting, and the transfer rate is 7%-21% higher than latest attack methods.
翻訳日:2021-03-14 19:17:21 公開日:2021-01-25
# 多値データの融合法

A fusion method for multi-valued data ( http://arxiv.org/abs/2101.10115v1 )

ライセンス: Link先を確認
Martin Pap\v{c}o, Iosu Rodr\'iguez-Mart\'inez, Javier Fumanal-Idocin, Abdulrahman H. Altalhi and Humberto Bustince(参考訳) 本稿では,多次元データの集約に適した偏差に基づくアグリゲーション関数の概念の拡張を提案する。 我々の目的は、ペナルティ関数などの特定のデータ集合に対して最適な集約関数を選択しようとする他の方法による結果の改善と、そのような手法が必要とする時間的複雑さの低減である。 本稿では,この概念をどのように定義できるかを考察し,画像処理やディープラーニング,意思決定といった時間的制約が厳格な領域において,提案手法の適用性を示す3つの例を示す。

In this paper we propose an extension of the notion of deviation-based aggregation function tailored to aggregate multidimensional data. Our objective is both to improve the results obtained by other methods that try to select the best aggregation function for a particular set of data, such as penalty functions, and to reduce the temporal complexity required by such approaches. We discuss how this notion can be defined and present three illustrative examples of the applicability of our new proposal in areas where temporal constraints can be strict, such as image processing, deep learning and decision making, obtaining favourable results in the process.
翻訳日:2021-03-14 19:17:03 公開日:2021-01-25
# 競争下の創発的コミュニケーション

Emergent Communication under Competition ( http://arxiv.org/abs/2101.10276v1 )

ライセンス: Link先を確認
Michael Noukhovitch, Travis LaCroix, Angeliki Lazaridou, Aaron Courville(参考訳) 現代の機械学習の文献は、標準的なRLを用いた競合エージェント間のコミュニケーションを学ぶための負の結果しか得られない。 我々は、部分的に競合するシナリオのスペクトルを研究するために修正された送信受信機ゲームを導入し、通信が競争環境で実際に現れることを示す。 我々は、将来の研究のための3つの重要なポイントを実証的に示す。 まず,コミュニケーションが協調に比例することを示すとともに,標準学習アルゴリズムを用いた部分的競争シナリオに適用できることを示す。 第2に,コミュニケーションと操作の違いを強調し,これまでのコミュニケーションの指標を競合事例に拡張する。 第3に,従来の作業が独立したエージェント間のコミュニケーションを学ばなかった交渉ゲームについて検討する(Cao et al., 2018)。 この環境では、双方のエージェントがコミュニケーションの恩恵を受けなければならないことを示し、ゲームにわずかな修正を加えることで、競合エージェント間のコミュニケーションが成功することを示す。 この研究が誤解を覆し、競争力のある創発的コミュニケーションのさらなる研究を促すことを願っている。

The literature in modern machine learning has only negative results for learning to communicate between competitive agents using standard RL. We introduce a modified sender-receiver game to study the spectrum of partially-competitiv e scenarios and show communication can indeed emerge in a competitive setting. We empirically demonstrate three key takeaways for future research. First, we show that communication is proportional to cooperation, and it can occur for partially competitive scenarios using standard learning algorithms. Second, we highlight the difference between communication and manipulation and extend previous metrics of communication to the competitive case. Third, we investigate the negotiation game where previous work failed to learn communication between independent agents (Cao et al., 2018). We show that, in this setting, both agents must benefit from communication for it to emerge; and, with a slight modification to the game, we demonstrate successful communication between competitive agents. We hope this work overturns misconceptions and inspires more research in competitive emergent communication.
翻訳日:2021-03-14 19:16:54 公開日:2021-01-25
# 時間的遅延オートエンコーダ:確率的多変量時系列予測法

Temporal Latent Auto-Encoder: A Method for Probabilistic Multivariate Time Series Forecasting ( http://arxiv.org/abs/2101.10460v1 )

ライセンス: Link先を確認
Nam Nguyen, Brian Quanz(参考訳) 高次元多変量時系列の確率的予測は、計算負荷と分布モデリングの両方の観点から、非常に難しい課題である。 以前のほとんどの仕事は単純な分布の仮定をするか、あるいは直列相関のモデリングを放棄した。 有望な作業ラインは、潜在空間予測にスケーラブルな行列分解を利用するが、線形埋め込みに限定され、分布をモデル化できず、ディープラーニング予測を使用する場合のエンドツーエンドのトレーニングができない。 本稿では,時間的深層学習遅延空間予測モデルを用いて,多変量時系列の非線形分解を可能にする新しい時間的潜時自動エンコーダ手法を提案する。 確率的潜時空間モデルにより、入力系列の複雑な分布はデコーダを介してモデル化される。 広範な実験は、私たちのモデルが多くの一般的な多変量データセットで最先端のパフォーマンスを達成することを実証しています。

Probabilistic forecasting of high dimensional multivariate time series is a notoriously challenging task, both in terms of computational burden and distribution modeling. Most previous work either makes simple distribution assumptions or abandons modeling cross-series correlations. A promising line of work exploits scalable matrix factorization for latent-space forecasting, but is limited to linear embeddings, unable to model distributions, and not trainable end-to-end when using deep learning forecasting. We introduce a novel temporal latent auto-encoder method which enables nonlinear factorization of multivariate time series, learned end-to-end with a temporal deep learning latent space forecast model. By imposing a probabilistic latent space model, complex distributions of the input series are modeled via the decoder. Extensive experiments demonstrate that our model achieves state-of-the-art performance on many popular multivariate datasets, with gains sometimes as high as $50\%$ for several standard metrics.
翻訳日:2021-03-14 19:16:06 公開日:2021-01-25
# 空間軌道再構成のためのパターン組み立て

Pattern Ensembling for Spatial Trajectory Reconstruction ( http://arxiv.org/abs/2101.09844v1 )

ライセンス: Link先を確認
Shivam Pathak, Mingyi He, Sergey Malinchik, Stanislav Sobolevsky(参考訳) デジタルセンシングは、モビリティを評価し理解する前例のない機会を提供する。 しかし、不完全性、情報不足、不正確な可能性、および位置情報データの時間的不均一性は、その適用性を損なう可能性がある。 移動パターンが繰り返されることが多いため,局所近傍からの類似した軌道パターンを確率的にアンサンブルし,欠落あるいは信頼できない観測を堅牢に再構築する手法を提案する。 自動識別システム(AIS)が提供する船舶軌道データを用いて,従来の機能的軌道補間と比較して,提案手法の評価を行った。 本手法は,実世界の軌跡の類似性を効果的に活用することにより,拡張長と複素幾何学の欠落した軌跡セグメントを再構成するのに役立つ。 一時的に観測されていないときの移動物体の配置や、さらなる軌道採掘に役立つ均等なサンプル軌道補間の作成に使用できる。

Digital sensing provides an unprecedented opportunity to assess and understand mobility. However, incompleteness, missing information, possible inaccuracies, and temporal heterogeneity in the geolocation data can undermine its applicability. As mobility patterns are often repeated, we propose a method to use similar trajectory patterns from the local vicinity and probabilistically ensemble them to robustly reconstruct missing or unreliable observations. We evaluate the proposed approach in comparison with traditional functional trajectory interpolation using a case of sea vessel trajectory data provided by The Automatic Identification System (AIS). By effectively leveraging the similarities in real-world trajectories, our pattern ensembling method helps to reconstruct missing trajectory segments of extended length and complex geometry. It can be used for locating mobile objects when temporary unobserved as well as for creating an evenly sampled trajectory interpolation useful for further trajectory mining.
翻訳日:2021-03-14 19:15:51 公開日:2021-01-25
# 多様体熱補間によるガウス核化グラフラプラシアンの固有収束

Eigen-convergence of Gaussian kernelized graph Laplacian by manifold heat interpolation ( http://arxiv.org/abs/2101.09875v1 )

ライセンス: Link先を確認
Xiuyuan Cheng, Nan Wu(参考訳) 本研究は,ラプラス・ベルトラミ作用素に対するグラフラプラシアンのスペクトル収束を,高次元空間に埋め込まれた$d$次元多様体上の$N$ランダムなサンプルからグラフアフィニティ行列を構築するときの研究である。 ディリクレ形式収束を解析し、ガウス核との畳み込みにより近似固有関数を構成することにより、核帯域幅パラメータ $\epsilon \sim (\log n/n)^{1/(d/2+2)}$ を、固有値収束率 $n^{-1/(d/2+2)}$ とし、2-ノルムにおける固有ベクトル収束率 $n^{-1/(d/2+4)}$; $\epsilon \sim n^{-1/(d/2+3)}$ とすると、固有値と固有ベクトル率は$n^{-1/(d/2+3)}$となる。 これらのレートは最大で$\log n$ factorであり、有限個の低次固有値に対して証明される。 この結果は、データが多様体上で一様にサンプリングされたときに非正規化およびランダムウォークグラフラプラシアンと、非一様サンプリングデータを持つ密度補正グラフラプラシアン(両辺の次数行列によってアフィニティ行列が正規化される)が成り立つ。 中間結果として,密度補正グラフラプラシアンに対する新しい点分割型およびディリクレ型収束率を示す。 理論を検証するために数値的結果が提供される。

This work studies the spectral convergence of graph Laplacian to the Laplace-Beltrami operator when the graph affinity matrix is constructed from $N$ random samples on a $d$-dimensional manifold embedded in a possibly high dimensional space. By analyzing Dirichlet form convergence and constructing candidate approximate eigenfunctions via convolution with manifold heat kernel, we prove that, with Gaussian kernel, one can set the kernel bandwidth parameter $\epsilon \sim (\log N/ N)^{1/(d/2+2)}$ such that the eigenvalue convergence rate is $N^{-1/(d/2+2)}$ and the eigenvector convergence in 2-norm has rate $N^{-1/(d+4)}$; When $\epsilon \sim N^{-1/(d/2+3)}$, both eigenvalue and eigenvector rates are $N^{-1/(d/2+3)}$. These rates are up to a $\log N$ factor and proved for finitely many low-lying eigenvalues. The result holds for un-normalized and random-walk graph Laplacians when data are uniformly sampled on the manifold, as well as the density-corrected graph Laplacian (where the affinity matrix is normalized by the degree matrix from both sides) with non-uniformly sampled data. As an intermediate result, we prove new point-wise and Dirichlet form convergence rates for the density-corrected graph Laplacian. Numerical results are provided to verify the theory.
翻訳日:2021-03-14 19:15:36 公開日:2021-01-25
# ReLUネットワークによる確率分布の近似

Approximating Probability Distributions by ReLU Networks ( http://arxiv.org/abs/2101.09973v1 )

ライセンス: Link先を確認
Manuj Mukherjee and Aslan Tchamkerten and Mansoor Yousefi(参考訳) 入力分布と近似誤差を与えられたニューラルネットワークを用いて目標確率分布を近似するニューロンはいくつ必要か? 本稿では,入力分布が均一で,対象分布がヒストグラム分布のクラスに属する場合のこの問題について検討する。 我々は、これまで存在していた上界よりも厳密に優れている必須ニューロンの数に新しい上界を得る。 この改良の鍵となる要素は、区分線形関数を表すニューラルネットワークの効率的な構築である。 また、ヒストグラム分布を近似するのに必要なニューロンの最小数について下限を得る。

How many neurons are needed to approximate a target probability distribution using a neural network with a given input distribution and approximation error? This paper examines this question for the case when the input distribution is uniform, and the target distribution belongs to the class of histogram distributions. We obtain a new upper bound on the number of required neurons, which is strictly better than previously existing upper bounds. The key ingredient in this improvement is an efficient construction of the neural nets representing piecewise linear functions. We also obtain a lower bound on the minimum number of neurons needed to approximate the histogram distributions.
翻訳日:2021-03-14 19:15:00 公開日:2021-01-25
# 行列型エントロピー関数による測定依存性

Measuring Dependence with Matrix-based Entropy Functional ( http://arxiv.org/abs/2101.10160v1 )

ライセンス: Link先を確認
Shujian Yu, Francesco Alesiani, Xi Yu, Robert Jenssen, Jose C. Principe(参考訳) データの依存度を測定することは、統計と機械学習の中心的な役割を担います。 本研究では,既存の情報理論依存対策の主な考え方を,シャーラーの不等式による高レベルな視点に要約し,一般化する。 この一般化に基づき,行列ベース正規化全相関(t_\alpha^*$)と行列ベース正規化双対全相関(d_\alpha^*$)の2つの尺度を提案し,基礎となるデータ分布を明示的に推定することなく任意の次元空間における複数の変数の依存性を定量化する。 我々の尺度は微分可能かつ統計的に一般的なものよりも強力であることを示す。 また、遺伝子制御ネットワーク推論、共変量シフトおよび非ガウス雑音下での頑健な機械学習、部分空間外乱検出、および畳み込みニューラルネットワーク(CNN)の学習ダイナミクスの理解など、4つの異なる機械学習問題に対する我々の対策の効果を示し、それらの実用性、利点、およびそれらの問題への示唆を示す。 依存度測定のコードはhttps://bit.ly/AAAI- dependenceで入手できます。

Measuring the dependence of data plays a central role in statistics and machine learning. In this work, we summarize and generalize the main idea of existing information-theoreti c dependence measures into a higher-level perspective by the Shearer's inequality. Based on our generalization, we then propose two measures, namely the matrix-based normalized total correlation ($T_\alpha^*$) and the matrix-based normalized dual total correlation ($D_\alpha^*$), to quantify the dependence of multiple variables in arbitrary dimensional space, without explicit estimation of the underlying data distributions. We show that our measures are differentiable and statistically more powerful than prevalent ones. We also show the impact of our measures in four different machine learning problems, namely the gene regulatory network inference, the robust machine learning under covariate shift and non-Gaussian noises, the subspace outlier detection, and the understanding of the learning dynamics of convolutional neural networks (CNNs), to demonstrate their utilities, advantages, as well as implications to those problems. Code of our dependence measure is available at: https://bit.ly/AAAI- dependence
翻訳日:2021-03-14 19:14:52 公開日:2021-01-25
# 冠動脈造影検査における新しい冠動脈抽出法と狭窄検出法

A new approach to extracting coronary arteries and detecting stenosis in invasive coronary angiograms ( http://arxiv.org/abs/2101.09848v1 )

ライセンス: Link先を確認
Chen Zhao, Haipeng Tang, Daniel McGonigle, Zhuo He, Chaoyang Zhang, Yu-Ping Wang, Hong-Wen Deng, Robert Bober, Weihua Zhou(参考訳) 安定した冠動脈疾患 (CAD) では, 医療療法による再血行再建による死亡・心筋梗塞の減少は確実ではない。 冠動脈は通常、狭窄を検出するために抽出される。 本研究では,ICAから冠状動脈を抽出する深層学習による自動アルゴリズムの開発を目標とし,自動血管分割のための2段階反復トレーニング戦略を備えたマルチインプット・マルチスケールU-Netを提案する。 Incorporating features such as the Inception residual module with depth-wise separable convolutional layers, the proposed model generated a refined prediction map with the following two training stages: (i) Stage I coarsely segmented the major coronary arteries from pre-processed single-channel ICAs and generated the probability map of vessels; (ii) during the Stage II, a three-channel image consisting of the original preprocessed image, a generated probability map, and an edge-enhanced image generated from the preprocessed image was fed to the proposed MIMS U-Net to produce the final segmentation probability map. トレーニング段階では、確率マップは反復的に更新され、ニューラルネットワークに供給される。 分節後,血管中心を抽出し,動脈径を算出し,狭窄度を評価するため,動脈狭窄検出アルゴリズムを開発した。 実験の結果,提案手法は平均diceスコア 0.8329, 平均感度 0.8281, 平均特異度 0.9979 となり, 73例から294 icasを得た。 また, 狭窄検出アルゴリズムは0.6668で, 正の予測値は0.7043であった。

In stable coronary artery disease (CAD), reduction in mortality and/or myocardial infarction with revascularization over medical therapy has not been reliably achieved. Coronary arteries are usually extracted to perform stenosis detection. We aim to develop an automatic algorithm by deep learning to extract coronary arteries from ICAs.In this study, a multi-input and multi-scale (MIMS) U-Net with a two-stage recurrent training strategy was proposed for the automatic vessel segmentation. Incorporating features such as the Inception residual module with depth-wise separable convolutional layers, the proposed model generated a refined prediction map with the following two training stages: (i) Stage I coarsely segmented the major coronary arteries from pre-processed single-channel ICAs and generated the probability map of vessels; (ii) during the Stage II, a three-channel image consisting of the original preprocessed image, a generated probability map, and an edge-enhanced image generated from the preprocessed image was fed to the proposed MIMS U-Net to produce the final segmentation probability map. During the training stage, the probability maps were iteratively and recurrently updated by feeding into the neural network. After segmentation, an arterial stenosis detection algorithm was developed to extract vascular centerlines and calculate arterial diameters to evaluate stenotic level. Experimental results demonstrated that the proposed method achieved an average Dice score of 0.8329, an average sensitivity of 0.8281, and an average specificity of 0.9979 in our dataset with 294 ICAs obtained from 73 patient. Moreover, our stenosis detection algorithm achieved a true positive rate of 0.6668 and a positive predictive value of 0.7043.
翻訳日:2021-03-14 19:14:31 公開日:2021-01-25
# 基礎画像における深層学習の応用:一考察

Applications of Deep Learning in Fundus Images: A Review ( http://arxiv.org/abs/2101.09864v1 )

ライセンス: Link先を確認
Tao Li and Wang Bo and Chunyu Hu and Hong Kang and Hanruo Liu and Kai Wang and Huazhu Fu(参考訳) 眼疾患早期検診における眼底画像の使用は臨床的に非常に重要である。 その強力な性能により、深層学習は、病変分割、バイオマーカー分割、疾患診断、画像合成などの関連アプリケーションでますます人気が高まっています。 そのため,眼底画像の深層学習における最近の展開をレビュー論文で要約する必要がある。 本稿では,階層構造を慎重に設計した143のアプリケーション論文を紹介する。 さらに、33の公開データセットが提示される。 各タスクに要約と分析が提供される。 最後に、全てのタスクに共通する制限が明らかにされ、可能な解決策が与えられる。 我々はまた、この分野の急速な開発に適応するために、最先端の結果と新しくリリースされたデータセットをhttps://github.com/n kicsl/Fundus Reviewでリリースし、定期的に更新します。

The use of fundus images for the early screening of eye diseases is of great clinical importance. Due to its powerful performance, deep learning is becoming more and more popular in related applications, such as lesion segmentation, biomarkers segmentation, disease diagnosis and image synthesis. Therefore, it is very necessary to summarize the recent developments in deep learning for fundus images with a review paper. In this review, we introduce 143 application papers with a carefully designed hierarchy. Moreover, 33 publicly available datasets are presented. Summaries and analyses are provided for each task. Finally, limitations common to all tasks are revealed and possible solutions are given. We will also release and regularly update the state-of-the-art results and newly-released datasets at https://github.com/n kicsl/Fundus Review to adapt to the rapid development of this field.
翻訳日:2021-03-14 19:14:06 公開日:2021-01-25
# 複合図形分離のための2段階フレームワーク

A Two-stage Framework for Compound Figure Separation ( http://arxiv.org/abs/2101.09903v1 )

ライセンス: Link先を確認
Weixin Jiang, Eric Schwenker, Trevor Spreadbury, Nicola Ferrier, Maria K.Y. Chan, Oliver Cossairt(参考訳) 科学文献には、自然界で複雑な複雑な、非構造的な図形が大量に含まれている。 複数の画像、グラフ、図面で構成されている)。 これらの複合数値の分離は、これらの数字からの情報検索に不可欠です。 本稿では,複合図形を構成部分図形に分解し,その部分図形と各字幕成分との関係を保ちながら,複合図形分離のための新しい戦略を提案する。 提案する複合図形分離問題に対処するための二段階フレームワークを提案する。 特に、サブフィギュアラベル検出モジュールは、第1段階で全てのサブフィギュアラベルを検出する。 そして、検出された副図ラベルは、特徴選択プロセスを最適化し、グローバルレイアウト情報を余分な特徴として提供することにより、副図を検出するのに役立つ。 提案手法の有効性と優越性を検証するために広範な実験を行い,検出精度を9%向上させた。

Scientific literature contains large volumes of complex, unstructured figures that are compound in nature (i.e. composed of multiple images, graphs, and drawings). Separation of these compound figures is critical for information retrieval from these figures. In this paper, we propose a new strategy for compound figure separation, which decomposes the compound figures into constituent subfigures while preserving the association between the subfigures and their respective caption components. We propose a two-stage framework to address the proposed compound figure separation problem. In particular, the subfigure label detection module detects all subfigure labels in the first stage. Then, in the subfigure detection module, the detected subfigure labels help to detect the subfigures by optimizing the feature selection process and providing the global layout information as extra features. Extensive experiments are conducted to validate the effectiveness and superiority of the proposed framework, which improves the detection precision by 9%.
翻訳日:2021-03-14 19:13:52 公開日:2021-01-25
# ディープラーニングアルゴリズムを用いたct画像からの自動肝分画法の比較検討

Automatic Liver Segmentation from CT Images Using Deep Learning Algorithms: A Comparative Study ( http://arxiv.org/abs/2101.09987v1 )

ライセンス: Link先を確認
K. E. Sengun, Y. T. Cetin, M.S Guzel, S. Can and E. Bostanci(参考訳) 医学的診断と治療を支援するために医療画像が使用されている。 また、最適な手術前計画と周術期管理を容易にするために、外科医に重要な情報を提供する。 本質的に、半自動臓器と腫瘍の分割は多くの研究者によって研究されている。 近年、ディープラーニング(DL)アルゴリズムの開発により、自動臓器分割が研究者から多くの注目を集めています。 本稿では,最先端のdlフレームワークを適用・比較することにより,肝分画のための最も効率的なdlアーキテクチャを提案する。 これらのフレームワークは'LiverVision'という商用ソフトウェアに実装・適応されている。 完全自動肝セグメンテーションのための最も効率的かつ正確なDLアーキテクチャを明らかにすることを目的としている。 アルゴリズムの精度を計測するために実験中の全てのアーキテクチャに等条件が与えられ、比較分析をサポートするためにサイス係数メトリクスも用いられた。 実験結果から, 「U-Net」と「SegNet」は, 時間, コスト, 有効性といった概念を考慮した実験よりも優れていることが示された。 両方のアーキテクチャを考えると、"SegNet"は偽陽性の値を削除することに成功している。 また,画像分割のみの有効性を測定するための精度指標は不十分であった。 その結果,DLアルゴリズムはDICOM画像からの臓器分割を高精度に自動化できることが判明した。 この貢献は外科的事前計画に不可欠であり、このアプローチを異なる臓器および医学分野に適用する動機づけとなる。

Medical imaging has been employed to support medical diagnosis and treatment. It may also provide crucial information to surgeons to facilitate optimal surgical preplanning and perioperative management. Essentially, semi-automatic organ and tumor segmentation has been studied by many researchers. Recently, with the development of Deep Learning (DL) algorithms, automatic organ segmentation has been gathered lots of attention from the researchers. This paper addresses to propose the most efficient DL architectures for Liver segmentation by adapting and comparing state-of-the-art DL frameworks, studied in different disciplines. These frameworks are implemented and adapted into a Commercial software, 'LiverVision'. It is aimed to reveal the most effective and accurate DL architecture for fully automatic liver segmentation. Equal conditions were provided to all architectures in the experiments so as to measure the effectiveness of algorithms accuracy, and Dice coefficient metrics were also employed to support comparative analysis. Experimental results prove that 'U-Net' and 'SegNet' have been superior in line with the experiments conducted considering the concepts of time, cost, and effectiveness. Considering both architectures, 'SegNet' was observed to be more successful in eliminating false-positive values. Besides, it was seen that the accuracy metric used to measure effectiveness in image segmentation alone was not enough. Results reveal that DL algorithms are able to automate organ segmentation from DICOM images with high accuracy. This contribution is critical for surgical preplanning and motivates author to apply this approach to the different organs and field of medicine.
翻訳日:2021-03-14 19:13:11 公開日:2021-01-25
# 顕微鏡画像の埋め込みに基づくInstance Segmentation

Embedding-based Instance Segmentation of Microscopy Images ( http://arxiv.org/abs/2101.10033v1 )

ライセンス: Link先を確認
Manan Lalit, Pavel Tomancak, Florian Jug(参考訳) 顕微鏡画像中のオブジェクトの自動検出とセグメンテーションは、多くの生物学的用途にとって重要です。 自然画像の領域、特に街路シーンの文脈では、組み込みベースのインスタンスセグメンテーションは高品質の結果につながります。 この一連の作業から着想を得て、Neven et alの作業に基づいたエンドツーエンドのトレーニング可能なディープラーニングメソッドである EmbedSeg を紹介します。 彼らのアプローチでは、それぞれのピクセルを任意のインスタンスのcentroidに埋め込むが、embedsegでは、生体オブジェクトの複雑な形状に動機づけられている。 さらに、テスト時間拡張スキームを利用して、生物学的顕微鏡データセットのインスタンスセグメンテーションのパフォーマンスを特に改善することを示唆している。 組込み型インスタンスセグメンテーションは,多種多様な生物学的な顕微鏡データに対する最先端の手法と比較して,競争力のある結果が得られることを示した。 最後に、パイプライン全体は、事実上すべてのCUDA対応ラップトップハードウェアで使用できるメモリフットプリントが小さくなっていることを示します。 当社のオープンソース実装はgithub.com/juglab/em bedsegで利用可能です。

Automatic detection and segmentation of objects in microscopy images is important for many biological applications. In the domain of natural images, and in particular in the context of city street scenes, embedding-based instance segmentation leads to high-quality results. Inspired by this line of work, we introduce EmbedSeg, an end-to-end trainable deep learning method based on the work by Neven et al. While their approach embeds each pixel to the centroid of any given instance, in EmbedSeg, motivated by the complex shapes of biological objects, we propose to use the medoid instead. Additionally, we make use of a test-time augmentation scheme, and show that both suggested modifications improve the instance segmentation performance on biological microscopy datasets notably. We demonstrate that embedding-based instance segmentation achieves competitive results in comparison to state-of-the-art methods on diverse and biologically relevant microscopy datasets. Finally, we show that the overall pipeline has a small enough memory footprint to be used on virtually all CUDA enabled laptop hardware. Our open-source implementation is available at github.com/juglab/Em bedSeg.
翻訳日:2021-03-14 19:12:13 公開日:2021-01-25
# EGFI: エンリッチエンティティとセンテンス情報の融合による薬物-薬物相互作用抽出と生成

EGFI: Drug-Drug Interaction Extraction and Generation with Fusion of Enriched Entity and Sentence Information ( http://arxiv.org/abs/2101.09914v1 )

ライセンス: Link先を確認
Lei Huang, Jiecong Lin, Xiangtao Li, Linqi Song and Ka-Chun Wong(参考訳) 文学の急速な成長は、薬物相互作用などの採掘に隠された多様で包括的な生物医学の知識を蓄積します。 しかし、異質な知識を抽出して、最新の知識や新しい知識を効率的に検索、発見することは困難である。 そこで本研究では,大規模医学文献データから薬物相互作用を抽出・統合するためのEGFIを提案する。 具体的には、EGFIは分類と生成の2つの部分から構成される。 分類部では、EGFIはバイオメディカルコーパスで包括的に事前訓練された言語モデルBioBERTを包含している。 特に,マルチヘッドアテンション機構を提案し,厳密な文脈モデリングのための複数の意味情報を融合するbigruをパックする。 生成部において、EGFIは、フィルタ規則に基づいて生成文が選択される別の事前学習言語モデルBioGPT-2を利用する。 DDIs 2013"データセットと"DTIs"データセットの分類部を評価し,それぞれ0.842と0.720のFIスコアを達成した。 さらに, 分類部を高品質生成文の識別に適用し, 流出成長真理を検証し, フィルタリング文の確認を行った。 DrugBankとDDIs 2013データセットに記録されていない生成された文もまた、新しい薬物関係を識別するEGFIの可能性を示している。

The rapid growth in literature accumulates diverse and yet comprehensive biomedical knowledge hidden to be mined such as drug interactions. However, it is difficult to extract the heterogeneous knowledge to retrieve or even discover the latest and novel knowledge in an efficient manner. To address such a problem, we propose EGFI for extracting and consolidating drug interactions from large-scale medical literature text data. Specifically, EGFI consists of two parts: classification and generation. In the classification part, EGFI encompasses the language model BioBERT which has been comprehensively pre-trained on biomedical corpus. In particular, we propose the multi-head attention mechanism and pack BiGRU to fuse multiple semantic information for rigorous context modeling. In the generation part, EGFI utilizes another pre-trained language model BioGPT-2 where the generation sentences are selected based on filtering rules. We evaluated the classification part on "DDIs 2013" dataset and "DTIs" dataset, achieving the FI score of 0.842 and 0.720 respectively. Moreover, we applied the classification part to distinguish high-quality generated sentences and verified with the exiting growth truth to confirm the filtered sentences. The generated sentences that are not recorded in DrugBank and DDIs 2013 dataset also demonstrate the potential of EGFI to identify novel drug relationships.
翻訳日:2021-03-14 19:11:38 公開日:2021-01-25
# SpanEmo: Span-predictionとしてのマルチラベル感情分類

SpanEmo: Casting Multi-label Emotion Classification as Span-prediction ( http://arxiv.org/abs/2101.10038v1 )

ライセンス: Link先を確認
Hassan Alhuzali, Sophia Ananiadou(参考訳) 感情認識(ER)は自然言語処理(NLP)の重要なタスクであり、健康と幸福から著者のプロファイリング、消費者分析、セキュリティまで、現実世界のアプリケーションに高い影響があります。 ERに対する現在のアプローチは、主に感情が共存できることを考慮せずに感情を独立して分類する。 このようなアプローチは、複数の感情が重なる潜在的な曖昧さを見落とします。 文中のラベルと単語の関連を学習するERモデルを支援するため,マルチラベル感情分類をスパンプレディションとしてキャストする新しいモデル「SpanEmo」を提案する。 さらに、入力文中の複数の共存感情をモデル化することに焦点を当てた損失関数を導入する。 3つの言語セット(英語、アラビア語、スペイン語)にわたるSemEval2018マルチラベル感情データ上での実験は、この方法の有効性を示している。 最後に,モデル性能の向上と感情クラスと文中の単語との有意義な関係の学習という観点から,提案手法の利点を示す異なる分析法を提案する。

Emotion recognition (ER) is an important task in Natural Language Processing (NLP), due to its high impact in real-world applications from health and well-being to author profiling, consumer analysis and security. Current approaches to ER, mainly classify emotions independently without considering that emotions can co-exist. Such approaches overlook potential ambiguities, in which multiple emotions overlap. We propose a new model "SpanEmo" casting multi-label emotion classification as span-prediction, which can aid ER models to learn associations between labels and words in a sentence. Furthermore, we introduce a loss function focused on modelling multiple co-existing emotions in the input sentence. Experiments performed on the SemEval2018 multi-label emotion data over three language sets (i.e., English, Arabic and Spanish) demonstrate our method's effectiveness. Finally, we present different analyses that illustrate the benefits of our method in terms of improving the model performance and learning meaningful associations between emotion classes and words in the sentence.
翻訳日:2021-03-14 19:11:02 公開日:2021-01-25
# 測定語を用いた文圧縮アルゴリズムのブラックボックス最適化のための簡易文選択

With Measured Words: Simple Sentence Selection for Black-Box Optimization of Sentence Compression Algorithms ( http://arxiv.org/abs/2101.10096v1 )

ライセンス: Link先を確認
Yotam Shichel, Meir Kalech, Oren Tsur(参考訳) 文圧縮 (Sentence Compression) とは、ある文の短いが文法的なバージョンを生成し、原文の本質を保存するタスクである。 本稿では,圧縮のためのブラックボックスオプティマイザ(b-boc)を提案する。ブラックボックス圧縮アルゴリズムが与えられたとき,すべての文が圧縮される必要はないと仮定し,圧縮速度と品質の両方を最大化するために最適な圧縮候補を探す。 必要な圧縮比を考えると、(i)単文圧縮と(ii)文シーケンス圧縮の2つのシナリオを検討する。 第1のシナリオでは、指定された比率要件を満たしながら、各文がどの程度圧縮できるかを予測するために最適化器を訓練する。 後者では、所望の圧縮比を個々の文ではなく、全体としての文の列(例えば、段落)に適用する。 そこで我々は,B-BOCを用いて各文に最適な圧縮比を割り当て,それをKnapsack問題としてキャストし,有界動的プログラミングを用いて解く。 両シナリオのB-BOCを3つのデータセットで評価し、他の圧縮アルゴリズムの直接適用と比較して精度とルージュF1スコアの両方を改善することを実証した。

Sentence Compression is the task of generating a shorter, yet grammatical version of a given sentence, preserving the essence of the original sentence. This paper proposes a Black-Box Optimizer for Compression (B-BOC): given a black-box compression algorithm and assuming not all sentences need be compressed -- find the best candidates for compression in order to maximize both compression rate and quality. Given a required compression ratio, we consider two scenarios: (i) single-sentence compression, and (ii) sentences-sequence compression. In the first scenario, our optimizer is trained to predict how well each sentence could be compressed while meeting the specified ratio requirement. In the latter, the desired compression ratio is applied to a sequence of sentences (e.g., a paragraph) as a whole, rather than on each individual sentence. To achieve that, we use B-BOC to assign an optimal compression ratio to each sentence, then cast it as a Knapsack problem, which we solve using bounded dynamic programming. We evaluate B-BOC on both scenarios on three datasets, demonstrating that our optimizer improves both accuracy and Rouge-F1-score compared to direct application of other compression algorithms.
翻訳日:2021-03-14 19:10:45 公開日:2021-01-25
# 議論におけるオープンマインドとスタイルコーディネート

Open-Mindedness and Style Coordination in Argumentative Discussions ( http://arxiv.org/abs/2101.10164v1 )

ライセンス: Link先を確認
Aviv Ben Haim, Oren Tsur(参考訳) 言語の宿泊施設は、話し手がお互いのコミュニケーションスタイルに応じてアクセント、辞書、語彙、その他の言語の側面を調整するプロセスです。 これまでの研究では、言語的調節が話者のパワーとステータスのギャップと、それが承認や議論の効率性を促進する方法とどのように相関するかが示されている。 本研究では,この現象に対する新たな視点を提供し,その社会的地位ではなく,話者のオープンマインドとの相関性を検討する。 我々は、Reddit の Change My View (CMV) サブレディットで起こった何千もの構造化されていない議論を処理し、オープンマインドは異なる文脈における話者の役割と関連していることを示した。 議論レベルでは、合意に達する議論が宿泊のレベルを低くするのが驚きである。

Linguistic accommodation is the process in which speakers adjust their accent, diction, vocabulary, and other aspects of language according to the communication style of one another. Previous research has shown how linguistic accommodation correlates with gaps in the power and status of the speakers and the way it promotes approval and discussion efficiency. In this work, we provide a novel perspective on the phenomena, exploring its correlation with the open-mindedness of a speaker, rather than to her social status. We process thousands of unstructured argumentative discussions that took place in Reddit's Change My View (CMV) subreddit, demonstrating that open-mindedness relates to the assumed role of a speaker in different contexts. On the discussion level, we surprisingly find that discussions that reach agreement present lower levels of accommodation.
翻訳日:2021-03-14 19:10:21 公開日:2021-01-25
# バイオメディカル概念のセマンティック関連性測定のためのハイブリッドアプローチ

A Hybrid Approach to Measure Semantic Relatedness in Biomedical Concepts ( http://arxiv.org/abs/2101.10196v1 )

ライセンス: Link先を確認
Katikapalli Subramanyam Kalyan and Sivanesan Sangeetha(参考訳) 目的: 本研究は,2つのバイオメディカル概念間の関連性を計算するために, センテンスBERTモデルと再適合アルゴリズムに基づくハイブリッドアプローチの有効性を実証することを目的とした。 材料と方法: ELMo, BERT, Sentence BERTモデルを用いて, 概念推奨項を符号化し, 概念ベクトルを生成する。 BioELMo と Clinical ELMo を使いました。 我々は、PubMedBERT、BioBERT、BioClinicalBERTのようなオントロジー知識自由(OKF)モデルと、SapBERT、CoderBERT、KbBERT、UmlsBERTのようなオントロジー知識注入(OKI)モデルを使用した。 snli と stsb データセット上の siamese network を使ってすべての bert モデルをトレーニングし、モデルが複数の単語の概念をより良く表現できるように、句や文レベルでより意味的な情報を学習できるようにしました。 最後に、オントロジー関係の知識を概念ベクトルに注入するために、様々なUMLS関係から再適合アルゴリズムと概念を用いた。 最近リリースされたEHR-RelBデータセットを含む4つの公開データセットのハイブリッドアプローチを評価しました。 EHR-RelBは、89%の用語がマルチワードであるため、より困難になる最大の公開関連データセットです。 結果: Sentence BERTモデルは、主に対応するBERTモデルより優れていた。 SapBERT をベースとした Sentence BERT モデルを用いて生成された概念ベクトルは,UMLS に関連する概念を用いて再適合し,4つのデータセットで最高の結果を得た。 結論: Sentence BERTモデルは、ほとんどの場合、計算関連性スコアにおいてBERTモデルよりも効果的である。 概念ベクトルにオントロジー知識を注入すると、その品質がさらに向上し、関連性のスコアが向上する。

Objective: This work aimed to demonstrate the effectiveness of a hybrid approach based on Sentence BERT model and retrofitting algorithm to compute relatedness between any two biomedical concepts. Materials and Methods: We generated concept vectors by encoding concept preferred terms using ELMo, BERT, and Sentence BERT models. We used BioELMo and Clinical ELMo. We used Ontology Knowledge Free (OKF) models like PubMedBERT, BioBERT, BioClinicalBERT, and Ontology Knowledge Injected (OKI) models like SapBERT, CoderBERT, KbBERT, and UmlsBERT. We trained all the BERT models using Siamese network on SNLI and STSb datasets to allow the models to learn more semantic information at the phrase or sentence level so that they can represent multi-word concepts better. Finally, to inject ontology relationship knowledge into concept vectors, we used retrofitting algorithm and concepts from various UMLS relationships. We evaluated our hybrid approach on four publicly available datasets which also includes the recently released EHR-RelB dataset. EHR-RelB is the largest publicly available relatedness dataset in which 89% of terms are multi-word which makes it more challenging. Results: Sentence BERT models mostly outperformed corresponding BERT models. The concept vectors generated using the Sentence BERT model based on SapBERT and retrofitted using UMLS-related concepts achieved the best results on all four datasets. Conclusions: Sentence BERT models are more effective compared to BERT models in computing relatedness scores in most of the cases. Injecting ontology knowledge into concept vectors further enhances their quality and contributes to better relatedness scores.
翻訳日:2021-03-14 19:10:05 公開日:2021-01-25
# 対話型アノテーションによる科学プロトコルのプロセスレベル表現

Process-Level Representation of Scientific Protocols with Interactive Annotation ( http://arxiv.org/abs/2101.10244v1 )

ライセンス: Link先を確認
Ronen Tamari, Fan Bai, Alan Ritter, Gabriel Stanovsky(参考訳) 我々は,実世界のウェットラボ生化学プロトコルの文書レベル表現であるプロセス実行グラフ~(PEG)を開発し,クロスセンス関係,長距離コア推論,グラウンド化,暗黙の議論といった課題に対処する。 アノテーション中のエンティティ特性や意味的制約を追跡するインタラクティブなテキストシミュレータを用いて,複雑なラボプロトコルのコーパスにpegを手動でアノテートする。 このデータを使用してグラフ予測モデルを開発し、エンティティの識別と局所関係抽出に優れていることを見つけ、コーパスはより困難な長期関係の探索を促進します。

We develop Process Execution Graphs~(PEG), a document-level representation of real-world wet lab biochemistry protocols, addressing challenges such as cross-sentence relations, long-range coreference, grounding, and implicit arguments. We manually annotate PEGs in a corpus of complex lab protocols with a novel interactive textual simulator that keeps track of entity traits and semantic constraints during annotation. We use this data to develop graph-prediction models, finding them to be good at entity identification and local relation extraction, while our corpus facilitates further exploration of challenging long-range relations.
翻訳日:2021-03-14 19:09:33 公開日:2021-01-25
# english machine reading comprehension datasets: a survey (英語)

English Machine Reading Comprehension Datasets: A Survey ( http://arxiv.org/abs/2101.10421v1 )

ライセンス: Link先を確認
Daria Dzendzik, Carl Vogel, Jennifer Foster(参考訳) 本稿では、54の英語機械読解データセットを調査し、この問題に関心のある他の研究者に便利なリソースを提供することを目的とする。 質問文や回答形式に応じてデータセットを分類し,サイズ,語彙,データソース,生成方法,人的パフォーマンスレベル,質問語など,さまざまな領域で比較する。 分析の結果、wikipediaは最も一般的なデータソースであり、データセットにまたがる質問の理由、時期、場所が比較的不足していることが分かりました。

This paper surveys 54 English Machine Reading Comprehension datasets, with a view to providing a convenient resource for other researchers interested in this problem. We categorize the datasets according to their question and answer form and compare them across various dimensions including size, vocabulary, data source, method of creation, human performance level, and first question word. Our analysis reveals that Wikipedia is by far the most common data source and that there is a relative lack of why, when, and where questions across datasets.
翻訳日:2021-03-14 19:09:21 公開日:2021-01-25
# 名前付きエンティティ認識(NER)の最近の動向

Recent Trends in Named Entity Recognition (NER) ( http://arxiv.org/abs/2101.11420v1 )

ライセンス: Link先を確認
Arya Roy(参考訳) データを処理できる大量のコンピュータ可読テキストデータとハードウェアが利用可能になったことで、知識プロジェクトの中心はディープラーニングアーキテクチャへとシフトした。 自然言語処理、特に名前付きエンティティ認識のタスクは例外ではない。 最先端の結果を生み出した学習方法の大部分は、ディープラーニングモデル、使用するトレーニング方法、トレーニングデータ自体、あるいはNERシステムの出力の符号化を変更している。 本稿では,近年NERに採用されている重要な学習手法と,それが過去の線形学習方法からどのように生まれたのかを概観する。 我々はまた、問題のプロセスがNER結果も改善した場所、例えば、シーケンスタグ付け、エンティティリンクなど、NERへの上流または下流にある関連タスクの進捗状況についても説明します。

The availability of large amounts of computer-readable textual data and hardware that can process the data has shifted the focus of knowledge projects towards deep learning architecture. Natural Language Processing, particularly the task of Named Entity Recognition is no exception. The bulk of the learning methods that have produced state-of-the-art results have changed the deep learning model, the training method used, the training data itself or the encoding of the output of the NER system. In this paper, we review significant learning methods that have been employed for NER in the recent past and how they came about from the linear learning methods of the past. We also cover the progress of related tasks that are upstream or downstream to NER, e.g., sequence tagging, entity linking, etc., wherever the processes in question have also improved NER results.
翻訳日:2021-03-14 19:09:11 公開日:2021-01-25
# 文脈に基づく決定と説明に関する認知的視点

Cognitive Perspectives on Context-based Decisions and Explanations ( http://arxiv.org/abs/2101.10179v1 )

ライセンス: Link先を確認
Marcus Westberg, Kary Fr\"amling(参考訳) 人間の認知が哲学と認知科学でモデル化されるとき、人間は世界をナビゲートし、将来の行動の結果について予測するために精神的表現を採用するという考えが広がっています。 これらの表現構造がどのように機能するかを理解することによって、私たちは人間の認知についてもっと理解するだけでなく、人間の意思決定の合理化と説明をよりよく理解します。 これは説明可能なAIに影響を及ぼし、人間の聴衆にコンピュータの意思決定の説明を提供することが目的です。 我々は,XAIの文脈的重要性と実用性は,現在の行動指向の予測表現構造と重なり合うことを示し,CIUを人間が関係し,信頼することのできる説明を作成するための信頼性の高いツールとする。

When human cognition is modeled in Philosophy and Cognitive Science, there is a pervasive idea that humans employ mental representations in order to navigate the world and make predictions about outcomes of future actions. By understanding how these representational structures work, we not only understand more about human cognition but also gain a better understanding for how humans rationalise and explain decisions. This has an influencing effect on explainable AI, where the goal is to provide explanations of computer decision-making for a human audience. We show that the Contextual Importance and Utility method for XAI share an overlap with the current new wave of action-oriented predictive representational structures, in ways that makes CIU a reliable tool for creating explanations that humans can relate to and trust.
翻訳日:2021-03-14 19:08:59 公開日:2021-01-25
# 知能と成長率の測定:ヒバードの知能測定値の変動

Measuring Intelligence and Growth Rate: Variations on Hibbard's Intelligence Measure ( http://arxiv.org/abs/2101.12047v1 )

ライセンス: Link先を確認
Samuel Alexander, Bill Hibbard(参考訳) 2011年、ヒバードは敵対的なシーケンス予測ゲームに出場するエージェントの知能測定を提案した。 ヒバードの考えは、実際には2つの異なる考え方として検討されるべきである: まず、そのようなエージェントの知性は、彼らが倒したライバルのランタイムの成長率に基づいて測定できる、そして、その成長率を測定するための1つの特定の(任意の)方法である。 ヒバードの知性尺度は後者の成長率測定法に基づいているが、関数の成長率を測定する他の方法を調査し、ヒバードのような知性指標と分類法を示す。 特に、我々は、知能対策がどうあるべきかという従来の概念に挑戦するという点で、ビッグ・オ・ビッグ・テータの表記体系に基づく知能分類学を得る。 本稿では,AGI(Artificial General Intelligence)エージェントに対して,シーケンス予測器のインテリジェンス測定が間接的にインテリジェンス測定に果たす役割について論じる。

In 2011, Hibbard suggested an intelligence measure for agents who compete in an adversarial sequence prediction game. We argue that Hibbard's idea should actually be considered as two separate ideas: first, that the intelligence of such agents can be measured based on the growth rates of the runtimes of the competitors that they defeat; and second, one specific (somewhat arbitrary) method for measuring said growth rates. Whereas Hibbard's intelligence measure is based on the latter growth-rate-measurin g method, we survey other methods for measuring function growth rates, and exhibit the resulting Hibbard-like intelligence measures and taxonomies. Of particular interest, we obtain intelligence taxonomies based on Big-O and Big-Theta notation systems, which taxonomies are novel in that they challenge conventional notions of what an intelligence measure should look like. We discuss how intelligence measurement of sequence predictors can indirectly serve as intelligence measurement for agents with Artificial General Intelligence (AGIs).
翻訳日:2021-03-14 19:08:45 公開日:2021-01-25
# ATRM:GNNを用いたFew-shot Learningのためのアテンションベースタスクレベル関係モジュール

ATRM: Attention-based Task-level Relation Module for GNN-based Few-shot Learning ( http://arxiv.org/abs/2101.09840v1 )

ライセンス: Link先を確認
Yurong Guo, Zhanyu Ma, Xiaoxu Li, and Yuan Dong(参考訳) 近年,グラフニューラルネットワーク(GNN)は,クラスごとのラベル付きサンプルに制限されたトレーニングを行う際に,未知のサンプルを分類することを目的とした,少数ショットの分類問題に対処する強力な能力を示している。 GNNベースの数発の学習アーキテクチャは、主に従来のメトリクスを学習可能なGNNに置き換える。 GNNでは、ノードは埋め込みサンプルとして設定され、2つの接続ノード間の関係はネットワークによって取得され、その入力は埋め込み機能の違いである。 サンプル間の関係を測定する方法はサンプル間関係のみをモデル化するが、異なるタスクの特異性は無視する。 すなわち、この関係を測定する方法は、タスクレベルの情報を考慮に入れない。 そこで本研究では, あるサンプルと他のすべてのサンプルのタスクレベル関係を明示的にモデル化する新しい関係測定法, すなわち注意に基づくタスクレベル関係モジュール (ATRM) を提案する。 提案モジュールは,サンプルからサンプルへの埋め込み機能ではなく,サンプルからタスクまでを考慮し,ノード間の関係表現をキャプチャする。 我々は,4つのベンチマークデータセット(mini-ImageNet, tiered-ImageNet, CUB-200-2011, CIFAR-FS)について広範な実験を行った。 実験結果から,提案モジュールはGNNによる少数ショット学習に有効であることが示された。

Recently, graph neural networks (GNNs) have shown powerful ability to handle few-shot classification problem, which aims at classifying unseen samples when trained with limited labeled samples per class. GNN-based few-shot learning architectures mostly replace traditional metric with a learnable GNN. In the GNN, the nodes are set as the samples embedding, and the relationship between two connected nodes can be obtained by a network, the input of which is the difference of their embedding features. We consider this method of measuring relation of samples only models the sample-to-sample relation, while neglects the specificity of different tasks. That is, this method of measuring relation does not take the task-level information into account. To this end, we propose a new relation measure method, namely the attention-based task-level relation module (ATRM), to explicitly model the task-level relation of one sample to all the others. The proposed module captures the relation representations between nodes by considering the sample-to-task instead of sample-to-sample embedding features. We conducted extensive experiments on four benchmark datasets: mini-ImageNet, tiered-ImageNet, CUB-200-2011, and CIFAR-FS. Experimental results demonstrate that the proposed module is effective for GNN-based few-shot learning.
翻訳日:2021-03-14 19:08:27 公開日:2021-01-25
# 顔行動分析のための弱教師付き学習 : 概観

Weakly Supervised Learning for Facial Behavior Analysis : A Review ( http://arxiv.org/abs/2101.09858v1 )

ライセンス: Link先を確認
Gnana Praveen R, Eric Granger, Patrick Cardinal(参考訳) 近年,実世界の多くのアプリケーションにおいて,深層学習に基づくアプローチが優れているため,実験室が制御する条件から困難な実環境へ顔の行動分析がシフトしているが,深層学習アプローチの性能はトレーニングデータ量に依存する。 データ取得の大きな問題の1つは、大量のトレーニングデータに対するアノテーションの必要性である。 大規模なトレーニングデータのラベル付けには、表情やアクションユニットの強力なドメイン専門知識が要求されるため、リアルタイム環境では入手が困難であり、特にドメイン専門家のバイアスによる強度に対する表現やアクションユニットのあいまいさに対して、ラベル付けプロセスは極めて脆弱である。 したがって、弱いアノテーションで顔の行動分析の問題を解決するために不可欠な必要性があります。 本論文では, 顔面行動解析における弱監督学習(WSL)手法について, カテゴリー的および次元的ラベルとそれに関連する課題と潜在的な研究方向性を総合的に検討する。 まず,顔行動分析の文脈とそれに関連する課題において,様々な弱いアノテーションを導入する。 そして、既存の最先端のアプローチを体系的にレビューし、これらのアプローチの分類と洞察と限界を提供します。 さらに、レビューされた文献で広く使用されているデータセットと、これらのアプローチのパフォーマンスと評価原則を要約します。 最後に,実際の状況において,弱いラベルを用いた顔行動分析を適用するために,残る課題と機会について検討する。

In the recent years, there has been a shift in facial behavior analysis from the laboratory-controlle d conditions to the challenging in-the-wild conditions due to the superior performance of deep learning based approaches for many real world applications.However , the performance of deep learning approaches relies on the amount of training data. One of the major problems with data acquisition is the requirement of annotations for large amount of training data. Labeling process of huge training data demands lot of human support with strong domain expertise for facial expressions or action units, which is difficult to obtain in real-time environments.Moreove r, labeling process is highly vulnerable to ambiguity of expressions or action units, especially for intensities due to the bias induced by the domain experts. Therefore, there is an imperative need to address the problem of facial behavior analysis with weak annotations. In this paper, we provide a comprehensive review of weakly supervised learning (WSL) approaches for facial behavior analysis with both categorical as well as dimensional labels along with the challenges and potential research directions associated with it. First, we introduce various types of weak annotations in the context of facial behavior analysis and the corresponding challenges associated with it. We then systematically review the existing state-of-the-art approaches and provide a taxonomy of these approaches along with their insights and limitations. In addition, widely used data-sets in the reviewed literature and the performance of these approaches along with evaluation principles are summarized. Finally, we discuss the remaining challenges and opportunities along with the potential research directions in order to apply facial behavior analysis with weak labels in real life situations.
翻訳日:2021-03-14 19:08:06 公開日:2021-01-25
# 分類規則化を用いたクロス知識に基づくゼロショット学習手法

Cross Knowledge-based Generative Zero-Shot Learning Approach with Taxonomy Regularization ( http://arxiv.org/abs/2101.09892v1 )

ライセンス: Link先を確認
Cheng Xie, Hongxin Xiang, Ting Zeng, Yun Yang, Beibei Yu and Qing Liu(参考訳) ゼロショット学習(ZSL)は、今までにない新しいクラスを認識するための推論能力を持っていますが、クロスモダリティとクロスドメインの課題の2つの基本的な課題に常に直面しています。 これらの問題を緩和するため,提案手法であるCross Knowledge Learning (CKL) とTaxonomy Regularization (TR) を組み合わせたネットワークベースのZSL手法を開発した。 提案手法では, セマンティックな特徴を入力とし, 出力は対応するセマンティックな特徴から生成した合成視覚的特徴である。 CKLは、ZSLにセマンティック・ツー・ビジュアルな特徴を埋め込むために、より関連性の高いセマンティックな特徴をトレーニングできるようにし、Taxonomy Regularization (TR)は、生成ネットワークから生成されたより一般化された視覚的特徴を持つ見えない画像との交点を大幅に改善する。 いくつかのベンチマークデータセット(例えば、AwA1、AwA2、CUB、NAB、aPY)に対する大規模な実験により、ZSL画像分類と検索の観点から、我々のアプローチはこれらの最先端手法よりも優れていることが示された。

Although zero-shot learning (ZSL) has an inferential capability of recognizing new classes that have never been seen before, it always faces two fundamental challenges of the cross modality and crossdomain challenges. In order to alleviate these problems, we develop a generative network-based ZSL approach equipped with the proposed Cross Knowledge Learning (CKL) scheme and Taxonomy Regularization (TR). In our approach, the semantic features are taken as inputs, and the output is the synthesized visual features generated from the corresponding semantic features. CKL enables more relevant semantic features to be trained for semantic-to-visual feature embedding in ZSL, while Taxonomy Regularization (TR) significantly improves the intersections with unseen images with more generalized visual features generated from generative network. Extensive experiments on several benchmark datasets (i.e., AwA1, AwA2, CUB, NAB and aPY) show that our approach is superior to these state-of-the-art methods in terms of ZSL image classification and retrieval.
翻訳日:2021-03-14 19:07:39 公開日:2021-01-25
# 逆テキストから画像への合成:レビュー

Adversarial Text-to-Image Synthesis: A Review ( http://arxiv.org/abs/2101.09983v1 )

ライセンス: Link先を確認
Stanislav Frolov, Tobias Hinz, Federico Raue, J\"orn Hees, Andreas Dengel(参考訳) 生成的敵ネットワークの出現に伴い,テキスト記述からの画像合成が近年,活発な研究領域となっている。 これは、ビジュアルリアリズム、多様性、セマンティックアライメントに関して、過去数年間に重要な進歩を遂げた条件付き画像生成のための柔軟で直感的な方法です。 しかし、複数の物体で高解像度の画像を生成することや、人間の判断と相関する適切で信頼性の高い評価指標の開発など、さらなる研究努力を必要とするいくつかの課題に直面しています。 本総説では,5年前に始まった対人的テキスト・画像合成モデルの現状,その発展を文脈的に把握し,その監督レベルに基づく分類法を提案する。 我々は,より優れたデータセットや評価指標の開発から,アーキテクチャ設計やモデルトレーニングの改善の可能性に至るまで,テキスト・ツー・イメージ合成モデルの評価,欠点の強調,新たな研究領域の特定に向けた現在の戦略を批判的に検討する。 本総説は, テキストと画像の合成に焦点をあてた, 生成的敵ネットワークに関する過去の調査を補完するものである。

With the advent of generative adversarial networks, synthesizing images from textual descriptions has recently become an active research area. It is a flexible and intuitive way for conditional image generation with significant progress in the last years regarding visual realism, diversity, and semantic alignment. However, the field still faces several challenges that require further research efforts such as enabling the generation of high-resolution images with multiple objects, and developing suitable and reliable evaluation metrics that correlate with human judgement. In this review, we contextualize the state of the art of adversarial text-to-image synthesis models, their development since their inception five years ago, and propose a taxonomy based on the level of supervision. We critically examine current strategies to evaluate text-to-image synthesis models, highlight shortcomings, and identify new areas of research, ranging from the development of better datasets and evaluation metrics to possible improvements in architectural design and model training. This review complements previous surveys on generative adversarial networks with a focus on text-to-image synthesis which we believe will help researchers to further advance the field.
翻訳日:2021-03-14 19:06:32 公開日:2021-01-25
# 長尺・短距離時系列特徴のコントラスト学習による弱監督映像異常検出

Weakly-supervised Video Anomaly Detection with Contrastive Learning of Long and Short-range Temporal Features ( http://arxiv.org/abs/2101.10030v1 )

ライセンス: Link先を確認
Yu Tian, Guansong Pang, Yuanhong Chen, Rajvinder Singh, Johan W. Verjans, Gustavo Carneiro(参考訳) 本稿では,訓練用ビデオレベルラベルを付与して,異常事象を含むビデオの断片を識別することを目的とした,弱教師付きビデオ異常検出の問題に対処する。 マルチインスタンス学習(MIL)に基づく現在の手法は、効果的な検出性能を示すが、ビデオの時間的依存を無視する。 また、異常スニペットの数は、MILベースのメソッドのトレーニングプロセスがもっとも異常なスニペットに集中するため複雑になるので、異常スニペットの数は、異常スニペットではなく通常のスニペットを誤って選択し、利用可能なすべての異常スニペットを選択できない可能性がある。 そこで本稿では,Top-K Contrastive Multiple Instance Learning (MTN-KMIL) を用いたマルチスケールテンポラルネットワークを提案する。 The main contributions of MTN-KMIL are: 1) a novel synthesis of a pyramid of dilated convolutions and a self-attention mechanism, with the former capturing the multi-scale short-range temporal dependencies between snippets and the latter capturing long-range temporal dependencies; and 2) a novel contrastive MIL learning method that enforces large margins between the top-K normal and abnormal video snippets at the feature representation level and anomaly score level, resulting in accurate anomaly discrimination. 実験の結果,本手法は3つのベンチマークデータセット(ShanghaiTech, UCF-Crime, XD-Violence)において,最先端の手法よりも高い性能を示した。 コードはhttps://github.com/t ianyu0207/MTN-KMILで入手できる。

In this paper, we address the problem of weakly-supervised video anomaly detection, in which given video-level labels for training, we aim to identify in test videos, the snippets containing abnormal events. Although current methods based on multiple instance learning (MIL) show effective detection performance, they ignore important video temporal dependencies. Also, the number of abnormal snippets can vary per anomaly video, which complicates the training process of MIL-based methods because they tend to focus on the most abnormal snippet -- this can cause it to mistakenly select a normal snippet instead of an abnormal snippet, and also to fail to select all abnormal snippets available. We propose a novel method, named Multi-scale Temporal Network trained with top-K Contrastive Multiple Instance Learning (MTN-KMIL), to address the issues above. The main contributions of MTN-KMIL are: 1) a novel synthesis of a pyramid of dilated convolutions and a self-attention mechanism, with the former capturing the multi-scale short-range temporal dependencies between snippets and the latter capturing long-range temporal dependencies; and 2) a novel contrastive MIL learning method that enforces large margins between the top-K normal and abnormal video snippets at the feature representation level and anomaly score level, resulting in accurate anomaly discrimination. Extensive experiments show that our method outperforms several state-of-the-art methods by a large margin on three benchmark data sets (ShanghaiTech, UCF-Crime and XD-Violence). The code is available at https://github.com/t ianyu0207/MTN-KMIL
翻訳日:2021-03-14 19:05:48 公開日:2021-01-25
# マルチスケール補間ガウスディスクリプタによる教師なし異常検出と局所化

Unsupervised Anomaly Detection and Localisation with Multi-scale Interpolated Gaussian Descriptors ( http://arxiv.org/abs/2101.10043v1 )

ライセンス: Link先を確認
Yuanhong Chen, Yu Tian, Guansong Pang, Gustavo Carneiro(参考訳) 現在の監視されていない異常検出および局在化システムは、通常画像の分布の効果的な推定と異常を識別するための堅牢な基準に依存する1クラスの分類器として一般に定式化される。 しかし,現在のシステムで推定される正規画像の分布は,トレーニングセットで表現されていない正規画像のクラスでは不安定になりがちであり,現場でよく調査される異常識別基準は,マルチスケールな構造的・非構造的異常に対してうまく機能しない。 本稿では,これらの2つの問題に対処するために,教師なし異常検出と位置決め手法を提案する。 より具体的には、通常の画像の下位表現クラスに堅牢な正規分布推定法を導入します。この方法は、トレーニング画像から対比的に補間されたディスクリプタとガウス分類器に基づいています。 また,マルチスケール構造および非構造的異常を正確に検出・局在化可能な新しい異常識別基準を提案する。 MNIST, Fashion MNIST, CIFAR10, MVTec ADデータセットに関する広範な実験では, 教師なし異常検出および局所化のための標準的な実験装置において, 現状よりも優れた結果が得られた。 コードはhttps://github.com/t ianyu0207/IGDで入手できる。

Current unsupervised anomaly detection and localisation systems are commonly formulated as one-class classifiers that depend on an effective estimation of the distribution of normal images and robust criteria to identify anomalies. However, the distribution of normal images estimated by current systems tends to be unstable for classes of normal images that are under-represented in the training set, and the anomaly identification criteria commonly explored in the field does not work well for multi-scale structural and non-structural anomalies. In this paper, we introduce an unsupervised anomaly detection and localisation method designed to address these two issues. More specifically, we introduce a normal image distribution estimation method that is robust to under-represented classes of normal images -- this method is based on adversarially interpolated descriptors from training images and a Gaussian classifier. We also propose a new anomaly identification criterion that can accurately detect and localise multi-scale structural and non-structural anomalies. In extensive experiments on MNIST, Fashion MNIST, CIFAR10 and MVTec AD data sets, our approach shows better results than the current state of the arts in the standard experimental setup for unsupervised anomaly detection and localisation. Code is available at https://github.com/t ianyu0207/IGD.
翻訳日:2021-03-14 19:05:21 公開日:2021-01-25
# 3次元畳み込みニューラルネットワークによるRGB-D定常物体検出

RGB-D Salient Object Detection via 3D Convolutional Neural Networks ( http://arxiv.org/abs/2101.10241v1 )

ライセンス: Link先を確認
Qian Chen, Ze Liu, Yi Zhang, Keren Fu, Qijun Zhao, Hongwei Du(参考訳) RGB-D salient Object Detection (SOD)は近年研究の関心が高まり、エンコーダ・デコーダアーキテクチャに基づく多くのディープラーニング手法が出現している。 しかし、既存のほとんどのRGB-D SODモデルは単一エンコーダまたはデコーダの段階で機能融合を行うため、十分なクロスモーダル融合能力は保証されない。 本稿では,RGB-D SODを3D畳み込みニューラルネットワークで処理する試みについて述べる。 提案したRD3Dは,エンコーダ段階での事前融合とデコーダ段階での深部融合を目標とし,RGBと深度ストリームの完全統合を効果的に促進する。 具体的には、RD3Dはまず、膨脹した3Dエンコーダを介してRGBおよび深度モダリティ間の事前融合を行い、その後、3D畳み込みの広範な集約能力を活用するために、リッチバックプロジェクションパス(RBPP)を備えた3Dデコーダを設計することにより、詳細な機能融合を提供します。 エンコーダとデコーダの両方を含むプログレッシブ融合戦略により、2つのモード間の効果的かつ徹底的な相互作用を活用でき、検出精度を高めることができる。 6つの広く使用されているベンチマークデータセットに関する広範な実験は、4つの主要な評価指標の観点から、RD3Dが14の最先端のRGB-D SODアプローチに対して有利に機能することを示しています。 コードが公開される。https://github.com/P POLYpubki/RD3D。

RGB-D salient object detection (SOD) recently has attracted increasing research interest and many deep learning methods based on encoder-decoder architectures have emerged. However, most existing RGB-D SOD models conduct feature fusion either in the single encoder or the decoder stage, which hardly guarantees sufficient cross-modal fusion ability. In this paper, we make the first attempt in addressing RGB-D SOD through 3D convolutional neural networks. The proposed model, named RD3D, aims at pre-fusion in the encoder stage and in-depth fusion in the decoder stage to effectively promote the full integration of RGB and depth streams. Specifically, RD3D first conducts pre-fusion across RGB and depth modalities through an inflated 3D encoder, and later provides in-depth feature fusion by designing a 3D decoder equipped with rich back-projection paths (RBPP) for leveraging the extensive aggregation ability of 3D convolutions. With such a progressive fusion strategy involving both the encoder and decoder, effective and thorough interaction between the two modalities can be exploited and boost the detection accuracy. Extensive experiments on six widely used benchmark datasets demonstrate that RD3D performs favorably against 14 state-of-the-art RGB-D SOD approaches in terms of four key evaluation metrics. Our code will be made publicly available: https://github.com/P POLYpubki/RD3D.
翻訳日:2021-03-14 19:05:01 公開日:2021-01-25
# HexCNN: ネイティブな六角形畳み込みニューラルネットワークのためのフレームワーク

HexCNN: A Framework for Native Hexagonal Convolutional Neural Networks ( http://arxiv.org/abs/2101.10897v1 )

ライセンス: Link先を確認
Yunxiang Zhao, Qiuhong Ke, Flip Korn, Jianzhong Qi, Rui Zhang(参考訳) ヘキサゴナルcnnモデルは、回転対称性が向上し、異方性が低下するため、iactデータ解析や空中シーン分類などの応用において優れた性能を示している。 六角形処理を実現するために、既存の研究では、主にZeroOutメソッドを使用して六角形処理を模倣し、メモリと計算のオーバーヘッドを大幅に引き起こします。 HexCNNという新しいネイティブ六角形CNNフレームワークでこの不足に対処する。 HexCNNは六角形の入力を受け取り、六角形のフィルタに基づいて入力の原形を前方・後方に伝播することで、模倣による計算やメモリオーバーヘッドを回避する。 矩形形状の入力を必要とするが六角形処理を必要とするアプリケーションの場合、HexCNNは前処理として入力を六角形にパディングすることで適用できる。 この場合、HexCNNの時間と空間効率は、既存の六角形CNN法を著しく上回っていることを示す。 実験の結果、六角形処理を模倣するが長方形フィルタを使用する最先端モデルと比較して、HexCNNはトレーニング時間を最大42.2%短縮した。 一方、HexCNNは、入力の読み込みと畳み込みの実行のためにメモリスペースコストを最大25%と41.7%節約します。

Hexagonal CNN models have shown superior performance in applications such as IACT data analysis and aerial scene classification due to their better rotation symmetry and reduced anisotropy. In order to realize hexagonal processing, existing studies mainly use the ZeroOut method to imitate hexagonal processing, which causes substantial memory and computation overheads. We address this deficiency with a novel native hexagonal CNN framework named HexCNN. HexCNN takes hexagon-shaped input and performs forward and backward propagation on the original form of the input based on hexagon-shaped filters, hence avoiding computation and memory overheads caused by imitation. For applications with rectangle-shaped input but require hexagonal processing, HexCNN can be applied by padding the input into hexagon-shape as preprocessing. In this case, we show that the time and space efficiency of HexCNN still outperforms existing hexagonal CNN methods substantially. Experimental results show that compared with the state-of-the-art models, which imitate hexagonal processing but using rectangle-shaped filters, HexCNN reduces the training time by up to 42.2%. Meanwhile, HexCNN saves the memory space cost by up to 25% and 41.7% for loading the input and performing convolution, respectively.
翻訳日:2021-03-14 19:04:15 公開日:2021-01-25
# 視覚トラッカー評価における詳細の再検討

Revisiting the details when evaluating a visual tracker ( http://arxiv.org/abs/2102.06733v1 )

ライセンス: Link先を確認
Zan Huang(参考訳) 視覚追跡アルゴリズムは、さまざまなアプリケーションで自然に採用されており、いくつかのベンチマークと多くの追跡アルゴリズムがあり、将来的に現れることが予想されています。 本報告では, 単一物体追跡に着目し, トラッカ評価と比較のための簡易かつ高精度, 拡張可能な手法を導入することで, 広く使用されている otb\cite{otb} ベンチマークに基づくトラッカ評価の詳細を再検討する。 実験結果から,追跡アルゴリズムには絶対的な勝者が存在しない可能性が示唆された。 ユースケースに適したトラッカーを選択するためには,詳細な分析を行う必要がある。

Visual tracking algorithms are naturally adopted in various applications, there have been several benchmarks and many tracking algorithms, more expected to appear in the future. In this report, I focus on single object tracking and revisit the details of tracker evaluation based on widely used OTB\cite{otb} benchmark by introducing a simpler, accurate, and extensible method for tracker evaluation and comparison. Experimental results suggest that there may not be an absolute winner among tracking algorithms. We have to perform detailed analysis to select suitable trackers for use cases.
翻訳日:2021-03-14 19:03:53 公開日:2021-01-25
# MICROS: Mixed-Initiative ConveRsatiOnal Systems Workshop

MICROS: Mixed-Initiative ConveRsatiOnal Systems Workshop ( http://arxiv.org/abs/2101.10219v1 )

ライセンス: Link先を確認
Ida Mele, Cristina Ioana Muntean, Mohammad Aliannejadi, Nikos Voskarides(参考訳) The first edition on Mixed-Initiative ConveRsatiOnal Systems (MICROS@ECIR2021)は、会話システム分野における新しいアイデアと貢献を調査・収集することを目的としている。 多くの場合、ユーザーはスマートフォンやホームアシスタントを使って必要な情報を満たす。 これはユーザーがオンライン情報にアクセスする方法に革命をもたらし、従来の検索やレコメンデーションに比べて新たな課題を生じさせている。 MICROSの最初のエディションは、特に混合開始対話システムに焦点を当てます。 実際、会話システムは前向きで、答えだけでなく、あいまいな要求やあいまいな要求に対する解釈も提案する必要がある。

The 1st edition of the workshop on Mixed-Initiative ConveRsatiOnal Systems (MICROS@ECIR2021) aims at investigating and collecting novel ideas and contributions in the field of conversational systems. Oftentimes, the users fulfill their information need using smartphones and home assistants. This has revolutionized the way users access online information, thus posing new challenges compared to traditional search and recommendation. The first edition of MICROS will have a particular focus on mixed-initiative conversational systems. Indeed, conversational systems need to be proactive, proposing not only answers but also possible interpretations for ambiguous or vague requests.
翻訳日:2021-03-14 19:03:43 公開日:2021-01-25
# 高信頼オフポリティ(または偽物)変動推定

High-Confidence Off-Policy (or Counterfactual) Variance Estimation ( http://arxiv.org/abs/2101.09847v1 )

ライセンス: Link先を確認
Yash Chandak, Shiv Shankar, Philip S. Thomas(参考訳) 多くの連続的な意思決定システムは、以前のポリシーを使用して収集されたデータを利用して新しいポリシーを提案します。 重要なアプリケーションでは、ポリシーが必要に応じて振る舞うことを保証するために、デプロイ前に新しいポリシーの振舞いに対する高い信頼性を保証することが重要です。 先行研究は、期待リターンの高信頼オフポリシー推定を研究してきたが、高リスクアプリケーションでは、リターンの分散の高信頼オフポリシー推定が等しく重要である。 本稿では,オフポリシーデータからのリターンのばらつきを高い信頼性で推定し,バウンディングするという,従来から開かれた問題に取り組みます。

Many sequential decision-making systems leverage data collected using prior policies to propose a new policy. For critical applications, it is important that high-confidence guarantees on the new policy's behavior are provided before deployment, to ensure that the policy will behave as desired. Prior works have studied high-confidence off-policy estimation of the expected return, however, high-confidence off-policy estimation of the variance of returns can be equally critical for high-risk applications. In this paper, we tackle the previously open problem of estimating and bounding, with high confidence, the variance of returns from off-policy data
翻訳日:2021-03-14 19:03:32 公開日:2021-01-25
# CPT: サイクル精度による効率的なディープニューラルネットワークトレーニング

CPT: Efficient Deep Neural Network Training via Cyclic Precision ( http://arxiv.org/abs/2101.09868v1 )

ライセンス: Link先を確認
Yonggan Fu, Han Guo, Meng Li, Xin Yang, Yining Ding, Vikas Chandra, Yingyan Lin(参考訳) 低精度ディープニューラルネットワーク(DNN)トレーニングは、DNNのトレーニング時間/エネルギー効率を高めるための最も効果的なノブの1つであるため、大きな注目を集めている。 本稿では、DNNトレーニングの理解に関する最近の知見に触発された新しい視点から、DNNの精度はDNNトレーニングの学習率に類似する効果があるのではないかと推測し、DNNトレーニングの時間とエネルギー効率をさらに高めるためのトレーニング軌道に沿って動的精度を提唱する。 具体的には,最初の数回の訓練期間において,簡便な精度範囲テストを用いて識別可能な2つの境界値間の精度を周期的に変化させる循環精度トレーニング(cpt)を提案する。 5つのデータセットと10のモデルに関する大規模なシミュレーションとアブレーション研究は、CPTの有効性が様々なモデル/タスク(分類と言語モデリングを含む)で一致していることを示した。 さらに,実験と可視化により,CPTは(1)より広い最小値に収束し,(2)DNNトレーニングの最適化と効率を同時に向上する新たな設計ノブを開放すると考えられるトレーニング分散を減少させることを示す。 コードはhttps://github.com/R ICE-EIC/CPTで入手できます。

Low-precision deep neural network (DNN) training has gained tremendous attention as reducing precision is one of the most effective knobs for boosting DNNs' training time/energy efficiency. In this paper, we attempt to explore low-precision training from a new perspective as inspired by recent findings in understanding DNN training: we conjecture that DNNs' precision might have a similar effect as the learning rate during DNN training, and advocate dynamic precision along the training trajectory for further boosting the time/energy efficiency of DNN training. Specifically, we propose Cyclic Precision Training (CPT) to cyclically vary the precision between two boundary values which can be identified using a simple precision range test within the first few training epochs. Extensive simulations and ablation studies on five datasets and ten models demonstrate that CPT's effectiveness is consistent across various models/tasks (including classification and language modeling). Furthermore, through experiments and visualization we show that CPT helps to (1) converge to a wider minima with a lower generalization error and (2) reduce training variance which we believe opens up a new design knob for simultaneously improving the optimization and efficiency of DNN training. Our codes are available at: https://github.com/R ICE-EIC/CPT.
翻訳日:2021-03-14 19:03:19 公開日:2021-01-25
# ドメイン適応のための統一結合最大平均差分法

A Unified Joint Maximum Mean Discrepancy for Domain Adaptation ( http://arxiv.org/abs/2101.09979v1 )

ライセンス: Link先を確認
Wei Wang, Baopu Li, Shuhui Yang, Jing Sun, Zhengming Ding, Junyang Chen, Xiao Dong, Zhihui Wang, Haojie Li(参考訳) ドメイン適応は近年多くの注目を集めており、多くのアルゴリズムが目覚ましい進歩をもって提案されている。 しかし、最大平均誤差(結合平均誤差、JMMD)から導かれる経験的推定は、操作が難しい複雑なテンソル積演算子を含むため、この問題に対する関節確率分布(P(X, Y))距離についてはまだ完全には検討されていない。 本論文では,JMMDの最適化が容易な統一型JMMDを理論的に導出し,境界,クラス条件,重み付きクラスの条件付き確率分布距離がラベルカーネルの異なる特殊な場合であることを証明し,重み付きクラスの条件付き分布は,カテゴリレベルの領域間の特徴アライメントを実現するだけでなく,クラス先行確率を用いた不均衡データセットにも対処できる。 その結果,jmmdは分類に有利な特徴ラベル依存(識別可能性)を低下させ,ラベルカーネルが重み付きクラス条件付きである場合のラベル分布変化に敏感であることが分かった。 そこで、ヒルベルト・シュミットの独立基準を活用し、依存を促進するために新しいMDD行列を提案し、ラベル分散シフトに堅牢な新しいラベルカーネルを考案する。 最後に,いくつかのクロスドメインデータセットについて広範な実験を行い,理論結果の有効性と有効性を示す。

Domain adaptation has received a lot of attention in recent years, and many algorithms have been proposed with impressive progress. However, it is still not fully explored concerning the joint probability distribution (P(X, Y)) distance for this problem, since its empirical estimation derived from the maximum mean discrepancy (joint maximum mean discrepancy, JMMD) will involve complex tensor-product operator that is hard to manipulate. To solve this issue, this paper theoretically derives a unified form of JMMD that is easy to optimize, and proves that the marginal, class conditional and weighted class conditional probability distribution distances are our special cases with different label kernels, among which the weighted class conditional one not only can realize feature alignment across domains in the category level, but also deal with imbalance dataset using the class prior probabilities. From the revealed unified JMMD, we illustrate that JMMD degrades the feature-label dependence (discriminability) that benefits to classification, and it is sensitive to the label distribution shift when the label kernel is the weighted class conditional one. Therefore, we leverage Hilbert Schmidt independence criterion and propose a novel MMD matrix to promote the dependence, and devise a novel label kernel that is robust to label distribution shift. Finally, we conduct extensive experiments on several cross-domain datasets to demonstrate the validity and effectiveness of the revealed theoretical results.
翻訳日:2021-03-14 19:02:53 公開日:2021-01-25
# TT-Rec:深層学習推薦モデルのためのテンソルトレイン圧縮

TT-Rec: Tensor Train Compression for Deep Learning Recommendation Models ( http://arxiv.org/abs/2101.11714v1 )

ライセンス: Link先を確認
Chunxing Yin and Bilge Acun and Xing Liu and Carole-Jean Wu(参考訳) ディープラーニングレコメンデーションモデル(DLRM)への組み込みテーブルのメモリ容量は、業界全体で数十GBからTBへと劇的に増加しています。 DLRMの急速な成長を考えると、迅速かつ効率的なDLRMイノベーションを可能にするために、新しいソリューションが緊急に必要です。 同時に、インフラストラクチャのキャパシティ要求を指数的に増やさなくても、これを行う必要があります。 本論文では,重要かつ未調査のコンテキストであるDLRM(TT-Rec)に対するTensor Trainの分解の可能性を示す。 提案するTT-Rec設計を評価するために,最適化カーネル(TT-EmbeddingBag)を設計,実装する。 TT-EmbeddingBagはSOTA TT実装の3倍高速です。 TT-Recの性能は、ベクトルルックアップ操作を埋め込むためのバッチ行列乗算とキャッシュ戦略によりさらに最適化される。 さらに, 重量初期化分布がDLRM精度に及ぼす影響を数学的, 実験的に検討し, サンプルガウス分布に従ってTT-Recのテンソルコアを初期化することを提案する。 mlperf-dlrmをcriteoのkaggleおよびterabyteデータセットでトレーニングすることにより,メモリ容量,精度,タイミングパフォーマンスという3つの重要な設計空間でtt-recを評価する。 TT-Recは、KaggleとTerabyteのモデルサイズ圧縮をそれぞれ117回、112回達成します。 この印象的なモデルサイズ削減は、圧縮されていないベースラインと比較して正確さやトレーニング時間のオーバーヘッドを伴わない。

The memory capacity of embedding tables in deep learning recommendation models (DLRMs) is increasing dramatically from tens of GBs to TBs across the industry. Given the fast growth in DLRMs, novel solutions are urgently needed, in order to enable fast and efficient DLRM innovations. At the same time, this must be done without having to exponentially increase infrastructure capacity demands. In this paper, we demonstrate the promising potential of Tensor Train decomposition for DLRMs (TT-Rec), an important yet under-investigated context. We design and implement optimized kernels (TT-EmbeddingBag) to evaluate the proposed TT-Rec design. TT-EmbeddingBag is 3 times faster than the SOTA TT implementation. The performance of TT-Rec is further optimized with the batched matrix multiplication and caching strategies for embedding vector lookup operations. In addition, we present mathematically and empirically the effect of weight initialization distribution on DLRM accuracy and propose to initialize the tensor cores of TT-Rec following the sampled Gaussian distribution. We evaluate TT-Rec across three important design space dimensions -- memory capacity, accuracy, and timing performance -- by training MLPerf-DLRM with Criteo's Kaggle and Terabyte data sets. TT-Rec achieves 117 times and 112 times model size compression, for Kaggle and Terabyte, respectively. This impressive model size reduction can come with no accuracy nor training time overhead as compared to the uncompressed baseline.
翻訳日:2021-03-14 19:02:27 公開日:2021-01-25
# インフォーマル文書における記号表現の曖昧化

Disambiguating Symbolic Expressions in Informal Documents ( http://arxiv.org/abs/2101.11716v1 )

ライセンス: Link先を確認
Dennis M\"uller and Cezary Kaliszyk(参考訳) ニューラルマシン翻訳タスクとして,LaTeXファイル,すなわち,それらの正確なセマンティクスと抽象構文木を決定する形で,非公式STEM文書におけるシンボリック表現を曖昧にするタスクを提案する。 関連するさまざまな課題を議論し,約33,000項目のデータセットを提示する。 このデータセット上でいくつかのベースラインモデルを評価したが、オーバーフィッティング前に構文的に有効なLaTeXさえ得られなかった。 そこで本研究では,arxiv.org から得られたデータに基づいて事前学習したトランスフォーマー言語モデルを用いた手法について述べる。 我々は,シンボリック表現の構文と意味を考慮に入れて,複数の専用手法を用いてモデルを評価する。

We propose the task of disambiguating symbolic expressions in informal STEM documents in the form of LaTeX files - that is, determining their precise semantics and abstract syntax tree - as a neural machine translation task. We discuss the distinct challenges involved and present a dataset with roughly 33,000 entries. We evaluated several baseline models on this dataset, which failed to yield even syntactically valid LaTeX before overfitting. Consequently, we describe a methodology using a transformer language model pre-trained on sources obtained from arxiv.org, which yields promising results despite the small size of the dataset. We evaluate our model using a plurality of dedicated techniques, taking the syntax and semantics of symbolic expressions into account.
翻訳日:2021-03-14 19:02:04 公開日:2021-01-25
# 協力投資によるリスク資本の蓄積

Accumulating Risk Capital Through Investing in Cooperation ( http://arxiv.org/abs/2101.10305v1 )

ライセンス: Link先を確認
Charlotte Roman, Michael Dennis, Andrew Critch, Stuart Russell(参考訳) マルチエージェント学習における協力を促進する最近の取り組みは、悪意のあるアクターによる搾取に対してより脆弱になるコストで協力を促進する多くの方法をもたらしました。 これは避けられないトレードオフであり、これらの懸念をバランスさせ、安全と長期協力の両立を促進する目標を提案する。 さらに、安全と協力のトレードオフは深刻ではなく、少量のリスクから協力することで指数関数的に大きな利益を得ることができる。 本研究は,厳密な解決方法と,この目標を目標とする政策の訓練方法,Arccumulating Risk Capital Through Investing in Cooperation (ARCTIC) について検討し,これらを反復した囚人のジレンマとスタッグハントで評価する。

Recent work on promoting cooperation in multi-agent learning has resulted in many methods which successfully promote cooperation at the cost of becoming more vulnerable to exploitation by malicious actors. We show that this is an unavoidable trade-off and propose an objective which balances these concerns, promoting both safety and long-term cooperation. Moreover, the trade-off between safety and cooperation is not severe, and you can receive exponentially large returns through cooperation from a small amount of risk. We study both an exact solution method and propose a method for training policies that targets this objective, Accumulating Risk Capital Through Investing in Cooperation (ARCTIC), and evaluate them in iterated Prisoner's Dilemma and Stag Hunt.
翻訳日:2021-03-14 19:01:51 公開日:2021-01-25
# droidlet: モジュール型、異種、マルチモーダルエージェント

droidlet: modular, heterogenous, multi-modal agents ( http://arxiv.org/abs/2101.10384v1 )

ライセンス: Link先を確認
Anurag Pratik, Soumith Chintala, Kavya Srinet, Dhiraj Gandhi, Rebecca Qian, Yuxuan Sun, Ryan Drew, Sara Elkafrawy, Anoushka Tiwari, Tucker Hart, Mary Williamson, Abhinav Gupta, Arthur Szlam(参考訳) 近年、大規模に学習するエンドツーエンド機械学習(ml)システムを構築するための大きな進歩がある。 しかし、これらのシステムのほとんどは: (a) 分離された(パーセプション、スピーチ、言語のみ); (b) 静的データセットでトレーニングされた。 一方,ロボット工学の分野では,大規模学習が常に困難であった。 スーパービジョンは収集が難しいし、現実世界の物理的相互作用は高価だ。 本研究では,モジュール化された異種エージェントアーキテクチャとプラットフォームであるdroidletをオープンソースとして紹介する。 これにより、認識と言語における大規模な静的データセットと、ロボット工学でよく使われる高度なヒューリスティックの両方を活用でき、インタラクティブなアノテーションのためのツールを提供することができます。 さらに、知覚、言語、行動がひとつのプラットフォームにまとめられ、現実世界の相互作用の豊かさから学ぶエージェントへの道を提供する。

In recent years, there have been significant advances in building end-to-end Machine Learning (ML) systems that learn at scale. But most of these systems are: (a) isolated (perception, speech, or language only); (b) trained on static datasets. On the other hand, in the field of robotics, large-scale learning has always been difficult. Supervision is hard to gather and real world physical interactions are expensive. In this work we introduce and open-source droidlet, a modular, heterogeneous agent architecture and platform. It allows us to exploit both large-scale static datasets in perception and language and sophisticated heuristics often used in robotics; and provides tools for interactive annotation. Furthermore, it brings together perception, language and action onto one platform, providing a path towards agents that learn from the richness of real world interactions.
翻訳日:2021-03-14 19:01:37 公開日:2021-01-25
# ランドマーク検出のための登録と三角測量による監督

Supervision by Registration and Triangulation for Landmark Detection ( http://arxiv.org/abs/2101.09866v1 )

ライセンス: Link先を確認
Xuanyi Dong, Yi Yang, Shih-En Wei, Xinshuo Weng, Yaser Sheikh, Shoou-I Yu(参考訳) 本稿では,マルチビュー映像を用いた教師なし手法である登録・三角測量(srt)による監視を行い,ランドマーク検出器の精度と精度を向上させる。 ラベルのないデータを活用することで、検出者は大量のラベルのないデータから自由に学び、手動のアノテーションの品質や量によって制限されない。 ラベルのないデータを利用するには,(1)隣接するフレームにおける同一のランドマークの検出は,登録,すなわち光学フローと一貫性を持つべきである。 2) 多重同期および幾何的校正ビューにおける同一のランドマークの検出は,単一の3次元点,すなわち複数視点の整合性に対応すべきである。 登録と多視点整合性は手動ラベリングを必要としない監督の源であり、検出器トレーニング中に既存のトレーニングデータを増やすために利用することができる。 識別可能な登録と3D三角モジュールにより、エンドツーエンドのトレーニングが可能です。 画像と映像のランドマーク検出における精度と精度の向上について,11のデータセットと新たに提案されたメトリクスを用いた実験を行った。 コードはhttps://github.com/D -X-Y/landmark-detect ionで入手できる。

We present Supervision by Registration and Triangulation (SRT), an unsupervised approach that utilizes unlabeled multi-view video to improve the accuracy and precision of landmark detectors. Being able to utilize unlabeled data enables our detectors to learn from massive amounts of unlabeled data freely available and not be limited by the quality and quantity of manual human annotations. To utilize unlabeled data, there are two key observations: (1) the detections of the same landmark in adjacent frames should be coherent with registration, i.e., optical flow. (2) the detections of the same landmark in multiple synchronized and geometrically calibrated views should correspond to a single 3D point, i.e., multi-view consistency. Registration and multi-view consistency are sources of supervision that do not require manual labeling, thus it can be leveraged to augment existing training data during detector training. End-to-end training is made possible by differentiable registration and 3D triangulation modules. Experiments with 11 datasets and a newly proposed metric to measure precision demonstrate accuracy and precision improvements in landmark detection on both images and video. Code is available at https://github.com/D -X-Y/landmark-detect ion.
翻訳日:2021-03-14 19:01:25 公開日:2021-01-25
# 実世界バースト画像に先行したグリーンチャネルによるノイズ除去

Joint Denoising and Demosaicking with Green Channel Prior for Real-world Burst Images ( http://arxiv.org/abs/2101.09870v1 )

ライセンス: Link先を確認
Shi Guo, Zhetong Liang, Lei Zhang(参考訳) 生色フィルタアレイ(CFA)データからフルカラー画像を再構成するには,デノイングとデシッキングが不可欠だが相関するステップである。 深層畳み込みニューラルネットワーク(CNN)の学習により、共同でノイズ除去と復号化を行うことで、大きな進歩を遂げました。 しかし、既存のcnn-based joint denoising and demosaicking (jdd) 法は単一の画像で動作し、付加的な白色ガウスノイズを仮定している。 本研究では,実世界バースト画像,すなわち JDD-B に対する JDD 問題について検討する。 グリーンチャネルが、CFAの生データにおける赤と青のチャネルの2倍のサンプリング率と品質を有することを考慮し、このグリーンチャネル事前(GCP)を用いて、JDD-BタスクのためのGCP-Netを構築することを提案する。 GCP-Netでは、グリーンチャネルから抽出されたGCP特徴を利用して、画像全体の特徴抽出と特徴アップサンプリングをガイドする。 また、フレーム間のシフトを補うために、GCPの特徴からオフセットを推定し、ノイズの影響を低減する。 我々のGCP-Netはノイズを除去しながら他のJDDメソッドよりも多くの画像構造や詳細を保存できます。 合成および実世界の雑音画像に対する実験は、GCP-Netの有効性を定量的に定性的に示す。

Denoising and demosaicking are essential yet correlated steps to reconstruct a full color image from the raw color filter array (CFA) data. By learning a deep convolutional neural network (CNN), significant progress has been achieved to perform denoising and demosaicking jointly. However, most existing CNN-based joint denoising and demosaicking (JDD) methods work on a single image while assuming additive white Gaussian noise, which limits their performance on real-world applications. In this work, we study the JDD problem for real-world burst images, namely JDD-B. Considering the fact that the green channel has twice the sampling rate and better quality than the red and blue channels in CFA raw data, we propose to use this green channel prior (GCP) to build a GCP-Net for the JDD-B task. In GCP-Net, the GCP features extracted from green channels are utilized to guide the feature extraction and feature upsampling of the whole image. To compensate for the shift between frames, the offset is also estimated from GCP features to reduce the impact of noise. Our GCP-Net can preserve more image structures and details than other JDD methods while removing noise. Experiments on synthetic and real-world noisy images demonstrate the effectiveness of GCP-Net quantitatively and qualitatively.
翻訳日:2021-03-14 19:01:07 公開日:2021-01-25
# CMOSイメージセンサにおける転がりシャッタの固有の脆弱性

They See Me Rollin': Inherent Vulnerability of the Rolling Shutter in CMOS Image Sensors ( http://arxiv.org/abs/2101.10011v1 )

ライセンス: Link先を確認
Sebastian K\"ohler, Giulio Lovisotto, Simon Birnbach, Richard Baker, Ivan Martinovic(参考訳) カメラは視覚ベースのインテリジェントシステムの基本コンポーネントとなっている。 製造コストと画質のバランスをとるため、現代のほとんどのカメラでは、電子式ローリングシャッター機構を実装したComplementary Metal-Oxide Semiconductorイメージセンサーを使用している。 本稿では, 電子式転がりシャッターを明るい変調光源(例えば, 安価なオフザシェルフレーザー)で利用し, きめ細かな画像破壊を注入する方法について述べる。 これらの破壊は、物体から情報的特徴を抽出するのに高周波データが不可欠であるカメラベースのコンピュータビジョンシステムに大きく影響する。 本研究では, 環境条件, 入射光の角度, レーザーからカメラの距離, 精度など, 転がりシャッター攻撃に影響を及ぼす基本的な要因について検討する。 これらの要因が射出歪みの強度にどう影響するか, カメラの特性をモデル化することで敵がどう考慮するかを実証する。 i) ターゲットカメラのいくつかの特性をプロファイリングし、(ii) 敵の目標を満たす歪みを見つけるために攻撃を部分的にシミュレートする。 次に、敵の目標は、画像内の物体の検出を最大に破壊することであるオブジェクト検出のシナリオへの攻撃をインスタンス化します。 敵はレーザーを変調して、最先端の検出器が知覚する物体の75%まで隠蔽でき、また攻撃を目立たないよう摂動量を制御できることを示した。 以上の結果から,ローリングシャッター攻撃は視覚に基づくインテリジェントシステムの性能と信頼性を大幅に低下させる可能性が示唆された。

Cameras have become a fundamental component of vision-based intelligent systems. As a balance between production costs and image quality, most modern cameras use Complementary Metal-Oxide Semiconductor image sensors that implement an electronic rolling shutter mechanism, where image rows are captured consecutively rather than all-at-once. In this paper, we describe how the electronic rolling shutter can be exploited using a bright, modulated light source (e.g., an inexpensive, off-the-shelf laser), to inject fine-grained image disruptions. These disruptions substantially affect camera-based computer vision systems, where high-frequency data is crucial in extracting informative features from objects. We study the fundamental factors affecting a rolling shutter attack, such as environmental conditions, angle of the incident light, laser to camera distance, and aiming precision. We demonstrate how these factors affect the intensity of the injected distortion and how an adversary can take them into account by modeling the properties of the camera. We introduce a general pipeline of a practical attack, which consists of: (i) profiling several properties of the target camera and (ii) partially simulating the attack to find distortions that satisfy the adversary's goal. Then, we instantiate the attack to the scenario of object detection, where the adversary's goal is to maximally disrupt the detection of objects in the image. We show that the adversary can modulate the laser to hide up to 75% of objects perceived by state-of-the-art detectors while controlling the amount of perturbation to keep the attack inconspicuous. Our results indicate that rolling shutter attacks can substantially reduce the performance and reliability of vision-based intelligent systems.
翻訳日:2021-03-14 19:00:43 公開日:2021-01-25
# 形状優先型マルチストラクチャーディープセグメンテーションと遅延逆正規化

Multi-Structure Deep Segmentation with Shape Priors and Latent Adversarial Regularization ( http://arxiv.org/abs/2101.10173v1 )

ライセンス: Link先を確認
Arnaud Boutillon, Bhushan Borotikar, Christelle Pons, Val\'erie Burdin, Pierre-Henri Conze(参考訳) 小児MRI画像における筋骨格系の自動分割は, 臨床における形態学的評価の課題であるが重要な課題である。 そこで本研究では,mr画像における多構造骨境界化のための深層学習に基づく正規化セグメンテーション法を提案する。 新たに考案した形状コード判別器に基づき,本手法は深層ネットワークに解剖学の学習可能な形状表現に従うよう強制する。 新たな形状先行型逆正則化(SPAR)は、地上の真実と予測マスクから生じる潜時的な形状コードを利用して、より一貫性があり、妥当な予測に向けてセグメンテーションネットワークを導く。 本研究は足関節および肩関節からの2つの小児筋骨格イメージングデータセットにおける術中正規化法と比較した。

Automatic segmentation of the musculoskeletal system in pediatric magnetic resonance (MR) images is a challenging but crucial task for morphological evaluation in clinical practice. We propose a deep learning-based regularized segmentation method for multi-structure bone delineation in MR images, designed to overcome the inherent scarcity and heterogeneity of pediatric data. Based on a newly devised shape code discriminator, our adversarial regularization scheme enforces the deep network to follow a learnt shape representation of the anatomy. The novel shape priors based adversarial regularization (SPAR) exploits latent shape codes arising from ground truth and predicted masks to guide the segmentation network towards more consistent and plausible predictions. Our contribution is compared to state-of-the-art regularization methods on two pediatric musculoskeletal imaging datasets from ankle and shoulder joints.
翻訳日:2021-03-14 19:00:14 公開日:2021-01-25
# D-Net: ボリュームアライメントを考慮したSiameseベースのネットワーク

D-Net: Siamese based Network with Mutual Attention for Volume Alignment ( http://arxiv.org/abs/2101.10248v1 )

ライセンス: Link先を確認
Jian-Qing Zheng, Ngee Han Lim, Bartlomiej W. Papiez(参考訳) いくつかの生物医学的応用における変化の定量化には、コントラストと非コントラスト強調イメージングのアライメントが不可欠です。 特に, 造影CTからの軟骨形状の抽出には, 現在手動で行われている骨の正確なアライメントが必要である。 既存のディープラーニングベースのアライメントでは、共通のテンプレートやローテーション範囲が制限されている。 そこで本研究では,従来の標準テンプレートを必要としない3次元CTスキャン間の任意の回転と変換を推定する新しいネットワークD-netを提案する。 d-net は分岐した siamese エンコーダ-デコーダ構造の拡張であり、新しい相互非局所リンクによって接続される。 この3D教師ネットワークは, 軟骨の造影を伴わず, 術前CTスキャンを用いて訓練し, 検証した。 以上の結果より, ctアライメントの推定精度は, 現在の比較法を上回って有意に向上した。

Alignment of contrast and non-contrast-enhance d imaging is essential for the quantification of changes in several biomedical applications. In particular, the extraction of cartilage shape from contrast-enhanced Computed Tomography (CT) of tibiae requires accurate alignment of the bone, currently performed manually. Existing deep learning-based methods for alignment require a common template or are limited in rotation range. Therefore, we present a novel network, D-net, to estimate arbitrary rotation and translation between 3D CT scans that additionally does not require a prior standard template. D-net is an extension to the branched Siamese encoder-decoder structure connected by new mutual non-local links, which efficiently capture long-range connections of similar features between two branches. The 3D supervised network is trained and validated using preclinical CT scans of mouse tibiae with and without contrast enhancement in cartilage. The presented results show a significant improvement in the estimation of CT alignment, outperforming the current comparable methods.
翻訳日:2021-03-14 19:00:01 公開日:2021-01-25
# タンジェンシャルビューを用いた超解像全方位画質の品質評価

Quality Assessment of Super-Resolved Omnidirectional Image Quality Using Tangential Views ( http://arxiv.org/abs/2101.10396v1 )

ライセンス: Link先を確認
Cagri Ozcinar and Aakanksha Rana(参考訳) 全方位画像(odis)は360度画像としても知られ、与えられた360度シーンのあらゆる方向を一定地点から探索することができる。 ODIを用いた没入型イメージングシステムの設計は困難であり、360度視野全体の非常に大きな解像度カバレッジを必要とするため、QoE(Quality of Experience)が強化されます。 深層学習技術を用いた単一画像超解像法(SISR)の顕著な進歩にもかかわらず,超解像ODIの品質評価のための研究は存在しない。 本稿では,GANベースおよびCNNベースSISR法により生成されたODIの品質測定を対象とする,客観的かつ完全な品質評価フレームワークを提案する。 品質評価フレームワークは、与えられたodisの球面的性質に対処するために接線ビューを利用する。 生成されたタンジェンシャルビューは歪みがなく、SISR品質測定のために高分解能球面データに効率的にスケールできます。 設計したフレームワークに適応した広範に使われているフル参照SISR品質指標を用いて、最先端SISRの2つの手法を広範囲に評価した。 さらに,主観的テストではganベースのアーキテクチャが好まれるのに対し,客観的な測定基準ではcnnベースのsisrよりも高いパフォーマンスを示すことが明らかとなった。

Omnidirectional images (ODIs), also known as 360-degree images, enable viewers to explore all directions of a given 360-degree scene from a fixed point. Designing an immersive imaging system with ODI is challenging as such systems require very large resolution coverage of the entire 360 viewing space to provide an enhanced quality of experience (QoE). Despite remarkable progress on single image super-resolution (SISR) methods with deep-learning techniques, no study for quality assessments of super-resolved ODIs exists to analyze the quality of such SISR techniques. This paper proposes an objective, full-reference quality assessment framework which studies quality measurement for ODIs generated by GAN-based and CNN-based SISR methods. The quality assessment framework offers to utilize tangential views to cope with the spherical nature of a given ODIs. The generated tangential views are distortion-free and can be efficiently scaled to high-resolution spherical data for SISR quality measurement. We extensively evaluate two state-of-the-art SISR methods using widely used full-reference SISR quality metrics adapted to our designed framework. In addition, our study reveals that most objective metric show high performance over CNN based SISR, while subjective tests favors GAN-based architectures.
翻訳日:2021-03-14 18:59:25 公開日:2021-01-25
# 地中真理のない3次元再構成とマッピング性能評価のための指標

A metric for evaluating 3D reconstruction and mapping performance with no ground truthing ( http://arxiv.org/abs/2101.10402v1 )

ライセンス: Link先を確認
Guoxiang Zhang and YangQuan Chen(参考訳) 既存のメトリクスは、特別な機器でのみ収集できる地上の真理データを必要とするため、三次元マッピング性能を評価するのは容易ではない。 本稿では,この評価のために,DMP (metric, dense map posterior) を提案する。 根拠となる真理のデータなしでは機能する。 代わりに、密度の高い雲の観測から、地図の後方確率を反映して、同等の値を計算する。 実験では,提案したDMPを実測値と比較した。 結果はDMPが同様の評価能力を提供できることを示している。 提案されたメトリクスは、異なるメソッドの評価をより柔軟にし、セルフ監視メソッドやより利用可能なデータセットなど、多くの新しい可能性を開きます。

It is not easy when evaluating 3D mapping performance because existing metrics require ground truth data that can only be collected with special instruments. In this paper, we propose a metric, dense map posterior (DMP), for this evaluation. It can work without any ground truth data. Instead, it calculates a comparable value, reflecting a map posterior probability, from dense point cloud observations. In our experiments, the proposed DMP is benchmarked against ground truth-based metrics. Results show that DMP can provide a similar evaluation capability. The proposed metric makes evaluating different methods more flexible and opens many new possibilities, such as self-supervised methods and more available datasets.
翻訳日:2021-03-14 18:59:04 公開日:2021-01-25
# 事前の知識で自動運転車を偽装する学習

Learning to falsify automated driving vehicles with prior knowledge ( http://arxiv.org/abs/2101.10377v1 )

ライセンス: Link先を確認
Andrea Favrin and Vladislav Nenchev and Angelo Cenedese(参考訳) 自動運転技術は大きな進歩を遂げているが、スケーラブルで厳格なテストと安全な自動運転車両の検証は依然として困難である。 本稿では,シミュレーションにおける自動運転機能の実装をテストするための学習に基づく偽造フレームワークを提案する。 機能仕様は、可能なシナリオに関する違反指標と関連していると仮定する。 シナリオパラメータの分散を制限し、学習プロセスをガイドし、改善するためのモデルベースのファシファイアに事前知識が組み込まれています。 模範的な適応型クルーズコントローラでは、純粋に学習ベースまたは純粋にモデルベースのファルシフィケーションアプローチによって得られたシナリオと比較して、非自明なファルシフィケーションシナリオを高い報酬で得る。

While automated driving technology has achieved a tremendous progress, the scalable and rigorous testing and verification of safe automated and autonomous driving vehicles remain challenging. This paper proposes a learning-based falsification framework for testing the implementation of an automated or self-driving function in simulation. We assume that the function specification is associated with a violation metric on possible scenarios. Prior knowledge is incorporated to limit the scenario parameter variance and in a model-based falsifier to guide and improve the learning process. For an exemplary adaptive cruise controller, the presented framework yields non-trivial falsifying scenarios with higher reward, compared to scenarios obtained by purely learning-based or purely model-based falsification approaches.
翻訳日:2021-03-14 18:58:28 公開日:2021-01-25
# ディープラーニングの一般化とトレーニングセットの凸束

Deep Learning Generalization and the Convex Hull of Training Sets ( http://arxiv.org/abs/2101.09849v1 )

ライセンス: Link先を確認
Roozbeh Yousefzadeh(参考訳) トレーニングセットの凸船体に関連して,深層学習モデルの一般化について検討する。 訓練されたイメージ分類器は基本的に、決定境界を介してそのドメインを分割し、各パーティションにクラスを割り当てる。 トレーニングセットの凸内における決定境界の位置は、トレーニングサンプルに関連して調査することができる。 しかし,本解析により,標準画像分類データセットでは,すべてのテスト画像が,その凸包,画素空間,ウェーブレット空間,深層ネットワークで学習された内部表現の外側にかなり存在することが示された。 したがって、訓練されたモデルのパフォーマンスは、その決定境界がトレーニングデータの凸船体外でどのように拡張されるかに部分的に依存します。 これまで研究されなかったこの観点から、深層学習モデルの過小パラメータ化は、決定境界の拡張を形成する上で不可欠であると考えられる。 同時に、オーバーパラメータ化は、トレーニングセットに適合するだけでなく、その決定境界が凸船体外で望ましく拡張されるモデルを得るために、特定のトレーニング体制を伴うべきである。 これを説明するために,トレーニングセットの凸包内外において,様々なパラメータを持つニューラルネットワークの判断境界について検討する。 さらに, 過剰パラメータ化の必要性と, トレーニングセットの凸包外への拡張形成におけるトレーニングレジームの影響について, 多項式決定境界を用いて検討する。

We study the generalization of deep learning models in relation to the convex hull of their training sets. A trained image classifier basically partitions its domain via decision boundaries and assigns a class to each of those partitions. The location of decision boundaries inside the convex hull of training set can be investigated in relation to the training samples. However, our analysis shows that in standard image classification datasets, all testing images are considerably outside that convex hull, in the pixel space, in the wavelet space, and in the internal representations learned by deep networks. Therefore, the performance of a trained model partially depends on how its decision boundaries are extended outside the convex hull of its training data. From this perspective which is not studied before, over-parameterizatio n of deep learning models may be considered a necessity for shaping the extension of decision boundaries. At the same time, over-parameterizatio n should be accompanied by a specific training regime, in order to yield a model that not only fits the training set, but also its decision boundaries extend desirably outside the convex hull. To illustrate this, we investigate the decision boundaries of a neural network, with various degrees of parameters, inside and outside the convex hull of its training set. Moreover, we use a polynomial decision boundary to study the necessity of over-parameterizatio n and the influence of training regime in shaping its extensions outside the convex hull of training set.
翻訳日:2021-03-14 18:57:51 公開日:2021-01-25
# 自動種分類のための中央アフリカ霊長類発声データセットの導入

Introducing a Central African Primate Vocalisation Dataset for Automated Species Classification ( http://arxiv.org/abs/2101.10390v1 )

ライセンス: Link先を確認
Joeri A. Zwerts, Jelle Treep, Casper S. Kaandorp, Floor Meewis, Amparo C. Koot, Heysem Kaya(参考訳) 動物の発声の自動分類は、潜在的に強力な野生動物の監視ツールです。 堅牢な分類器のトレーニングには、相当量の注釈付きデータセットが必要です。 この問題を回避すべく,カメルーンの野生生物保護区において,野生生物を検出可能な分類器の訓練を目的として,半自然条件下で4種の霊長類を記録した。 本稿では,収集したデータセットを紹介し,このアプローチと分類器開発の初期結果について述べる。 アノテーション処理の効率を高めるために,エネルギ/チェンジに基づく自動発声検出により録音を凝縮した。 注釈付きチャンクをトレーニング,検証,テストセットに分割した結果,4種類の霊長類分類において,最大82%の非重み付き平均リコール(UAR)テストセットの性能が確認された。

Automated classification of animal vocalisations is a potentially powerful wildlife monitoring tool. Training robust classifiers requires sizable annotated datasets, which are not easily recorded in the wild. To circumvent this problem, we recorded four primate species under semi-natural conditions in a wildlife sanctuary in Cameroon with the objective to train a classifier capable of detecting species in the wild. Here, we introduce the collected dataset, describe our approach and initial results of classifier development. To increase the efficiency of the annotation process, we condensed the recordings with an energy/change based automatic vocalisation detection. Segmenting the annotated chunks into training, validation and test sets, initial results reveal up to 82% unweighted average recall (UAR) test set performance in four-class primate species classification.
翻訳日:2021-03-14 18:56:48 公開日:2021-01-25
# 競争的質的自己回帰による動的サイバーリスク推定

Dynamic cyber risk estimation with Competitive Quantile Autoregression ( http://arxiv.org/abs/2101.10893v1 )

ライセンス: Link先を確認
Raisa Dzhamtyrova and Carsten Maple(参考訳) サイバーリスクの推定は、システム妥協のコストが壊滅的である可能性があるため、あらゆる情報技術システムの設計とガバナンスの重要な部分です。 効果的なリスクフレームワークは、潜在的な有害事象を予測、評価、緩和する可能性がある。 時系列データに利用可能なVaR(Value-at-Risk)のモデリング手法を提案する。 最初のアプローチはQuantile Autoregression (QAR)に基づいており、VaRは異なる量子要素、すなわちVaRを推定できる。 信頼レベルだ 第2の方法は、CQAR(Competitive Quantile Autoregression)と呼ばれ、新しいデータが利用可能になったらすぐに、動的にサイバーリスクを見積もる。 この方法は、将来任意の時点におけるQARと同様に漸近的に機能することを理論的に保証する。 これらの手法は,カバレッジテストを実行することで,サイバーハッキング攻撃の規模と発生時間を予測することができることを示す。 提案手法は,各重要度レベルで分離した確率過程をモデル化できるため,提案手法に比べて柔軟性が向上する。 実験に使用する完全な再現可能なコードを提供する。

Cyber risk estimation is an essential part of any information technology system's design and governance since the cost of the system compromise could be catastrophic. An effective risk framework has the potential to predict, assess, and mitigate possible adverse events. We propose two methods for modelling Value-at-Risk (VaR) which can be used for any time-series data. The first approach is based on Quantile Autoregression (QAR), which can estimate VaR for different quantiles, i.e. confidence levels. The second method, called Competitive Quantile Autoregression (CQAR), dynamically re-estimates cyber risk as soon as new data becomes available. This method provides a theoretical guarantee that it asymptotically performs as well as any QAR at any time point in the future. We show that these methods can predict the size and inter-arrival time of cyber hacking breaches by running coverage tests. The proposed approaches allow to model a separate stochastic process for each significance level and therefore provide more flexibility compared to previously proposed techniques. We provide a fully reproducible code used for conducting the experiments.
翻訳日:2021-03-14 18:56:32 公開日:2021-01-25
# 立体3次元映像推薦におけるユーザの主観的知覚の潜在要因モデリング

Latent Factor Modeling of Users Subjective Perception for Stereoscopic 3D Video Recommendation ( http://arxiv.org/abs/2101.10039v1 )

ライセンス: Link先を確認
Balasubramanyam Appina, Mansi Sharma, Santosh Kumar(参考訳) 毎年多くの立体3D映画が劇場で公開され、大きな収入を生み出している。 立体撮影と3Dビデオのポストプロダクション技術の改善にもかかわらず、高予算映画でも視聴者の不快感を引き起こす立体的人工物が引き続き現れる。 既存の3Dビデオ品質測定ツールでは、立体画像やビデオの歪みを検出することができるが、これらのアーチファクトに対する視聴者の主観的な認識や、これらの歪みが自身の選択にどのように影響するかを考慮できない。 本論文では,鑑賞者の主観的評価と3D映像の歪みが好みに及ぼす影響を詳細に分析する潜在因子モデルに基づく立体的3D映画の推薦システムを提案する。 私たちの知る限りでは、これは視聴者の視覚的不快感と立体的アーティファクト知覚の間の相関を会計するステレオフィルムの品質評価に基づいて3D映画をお勧めする最初のモデルです。 提案モデルは,Noma3ds1-cospad1 と LFOVIAS3DPh2 S3D ビデオ品質評価データセットを用いてトレーニングおよびテストを行う。 実験の結果,行列分解に基づくレコメンデーションシステムは,視聴者の主観的評価をかなり向上させることができることがわかった。

Numerous stereoscopic 3D movies are released every year to theaters and created large revenues. Despite the improvement in stereo capturing and 3D video post-production technology, stereoscopic artifacts which cause viewer discomfort continue to appear even in high-budget films. Existing automatic 3D video quality measurement tools can detect distortions in stereoscopic images or videos, but they fail to consider the viewer's subjective perception of those artifacts, and how these distortions affect their choices. In this paper, we introduce a novel recommendation system for stereoscopic 3D movies based on a latent factor model that meticulously analyse the viewer's subjective ratings and influence of 3D video distortions on their preferences. To the best of our knowledge, this is a first-of-its-kind model that recommends 3D movies based on stereo-film quality ratings accounting correlation between the viewer's visual discomfort and stereoscopic-artifac t perception. The proposed model is trained and tested on benchmark Nama3ds1-cospad1 and LFOVIAS3DPh2 S3D video quality assessment datasets. The experiments revealed that resulting matrix-factorization based recommendation system is able to generalize considerably better for the viewer's subjective ratings.
翻訳日:2021-03-14 18:56:13 公開日:2021-01-25
# 物理誘起ニューラルネットワークを用いた界面運動からの非圧縮二相流場推定

Inferring incompressible two-phase flow fields from the interface motion using physics-informed neural networks ( http://arxiv.org/abs/2101.09833v1 )

ライセンス: Link先を確認
Aaron B. Buhendwa, Stefan Adami, Nikolaus A. Adams (Technical University of Munich)(参考訳) 本研究では,非圧縮性二相流問題に対して物理インフォームドニューラルネットワークを適用した。 本研究では, 初期状態と境界条件から支配方程式を解くフォワード問題と, 界面位置の散乱時間データから連続速度と圧力場を推定する逆問題について検討する。 我々は大量の流体アプローチ、すなわち、それを用いる。 ここでの補助変数は、各相内の流体の体積率である。 前方問題のために、私達は二相CouetteおよびPoiseuilleの流れを解決します。 逆問題について、2相モデリングのための3つの古典的なテストケースを検討する:(i)せん断流れの低下、(ii)振動低下および(iii)上昇気泡。 時間経過中の界面位置のデータは数値シミュレーションによって生成される。 インタフェースに適合する空間的トレーニングポイントを配布する効果的な方法、すなわち、 体積分数体と残差点が 提案されます。 さらに, 偏微分方程式の残差に伴う損失の適切な重み付けが, トレーニングの成功に不可欠であることを示す。 適応的アクティベーション関数の利点は、前方および逆問題の両方に対して評価される。

In this work, physics-informed neural networks are applied to incompressible two-phase flow problems. We investigate the forward problem, where the governing equations are solved from initial and boundary conditions, as well as the inverse problem, where continuous velocity and pressure fields are inferred from scattered-time data on the interface position. We employ a volume of fluid approach, i.e. the auxiliary variable here is the volume fraction of the fluids within each phase. For the forward problem, we solve the two-phase Couette and Poiseuille flow. For the inverse problem, three classical test cases for two-phase modeling are investigated: (i) drop in a shear flow, (ii) oscillating drop and (iii) rising bubble. Data of the interface position over time is generated by numerical simulation. An effective way to distribute spatial training points to fit the interface, i.e. the volume fraction field, and the residual points is proposed. Furthermore, we show that appropriate weighting of losses associated with the residual of the partial differential equations is crucial for successful training. The benefit of using adaptive activation functions is evaluated for both the forward and inverse problem.
翻訳日:2021-03-14 18:55:52 公開日:2021-01-25
# E-cheating Prevention Measures: Detection of Cheating at Online examinations using Deep Learning Approach -- 事例研究

E-cheating Prevention Measures: Detection of Cheating at Online Examinations Using Deep Learning Approach -- A Case Study ( http://arxiv.org/abs/2101.09841v1 )

ライセンス: Link先を確認
Leslie Ching Ow Tiong and HeeJeong Jasmine Lee(参考訳) この研究は、Covid-19パンデミック中に特に関連があるオンラインアセスメントの現在の問題に対処します。 私たちの焦点は、オンラインアセスメントに関連するアカデミック不正です。 ケーススタディを用いてe-cheatingの可能性を検討し,実施可能な予防策を提案する。 我々は,インターネットプロトコル(IP)検出器と行動検出器という2つの主要なモジュールから構成されるオンライン不正行為の実践を検出するメカニズムとして,電子メール処理エージェントを利用した。 インテリジェンスエージェントは、学生の行動を監視し、悪意のあるプラクティスを防止および検出する能力を持っています。 コース試験でランダム化された複数選択の質問を割り当て、オンライン学習プログラムと統合して学生の行動を監視するために使用できます。 提案手法は, 各種データセット上で有効性を確認した。 その結果、ディープニューラルネットワーク(DNN)では68%、長期メモリ(LSTM)では92%、DenseLSTMでは95%、リカレントニューラルネットワーク(RNN)では86%の精度が示された。

This study addresses the current issues in online assessments, which are particularly relevant during the Covid-19 pandemic. Our focus is on academic dishonesty associated with online assessments. We investigated the prevalence of potential e-cheating using a case study and propose preventive measures that could be implemented. We have utilised an e-cheating intelligence agent as a mechanism for detecting the practices of online cheating, which is composed of two major modules: the internet protocol (IP) detector and the behaviour detector. The intelligence agent monitors the behaviour of the students and has the ability to prevent and detect any malicious practices. It can be used to assign randomised multiple-choice questions in a course examination and be integrated with online learning programs to monitor the behaviour of the students. The proposed method was tested on various data sets confirming its effectiveness. The results revealed accuracies of 68% for the deep neural network (DNN); 92% for the long-short term memory (LSTM); 95% for the DenseLSTM; and, 86% for the recurrent neural network (RNN).
翻訳日:2021-03-14 18:55:36 公開日:2021-01-25
# 不均一コホートプライバシを用いたIoTのフェデレーション侵入検出

Federated Intrusion Detection for IoT with Heterogeneous Cohort Privacy ( http://arxiv.org/abs/2101.09878v1 )

ライセンス: Link先を確認
Ajesh Koyatan Chathoth (1), Abhyuday Jagannatha (2), Stephen Lee (1) ((1) University of Pittsburgh, (2) University of Massachusetts Amherst)(参考訳) IoT(Internet of Things)デバイスはますます普及し、医療や輸送といった多くのアプリケーションドメインに影響を与える。 これらのデバイスは、センサーモニタリングやリアルタイム制御など、現実世界のアプリケーションで使用される。 本研究では,このようなIoTデバイスのネットワーク上での侵入攻撃を検出するために,差分プライベート(DP)ニューラルネットワーク(NN)ベースのネットワーク侵入検出システム(NIDS)を検討する。 このドメインの既存のNNトレーニングソリューションは、プライバシの考慮を無視したり、すべてのユーザのプライバシー要件が均一であると仮定する。 クライアントのプライバシ要件が異種である場合、非識別データ分布を持つクライアントに対して、既存の差分プライベート確率メソッドのパフォーマンスが低下することを示した。 私たちは、IoTデバイスのコホートのより実用的な設定を非識別クライアントおよび異種プライバシー要件とモデル化するコホートベースの$(\epsilon,\delta)$- DPフレームワークを定義します。 本研究では, モデル性能向上を目的とした, 連続学習に基づく2つのDPトレーニング手法を提案する。 私たちの知る限りでは、クライアントプライバシ要求の不均一性を扱うために、継続的な学習に基づくアプローチを採用した最初のシステムです。 実際のデータセットに対するアプローチを評価し,その手法がベースラインを上回ることを示す。 また,ハイパーパラメータ変化に対してロバストな手法を示す。 最後に,提案手法の1つが,クライアントのプライバシ要件のポストホック緩和に容易に適応できることを示す。

Internet of Things (IoT) devices are becoming increasingly popular and are influencing many application domains such as healthcare and transportation. These devices are used for real-world applications such as sensor monitoring, real-time control. In this work, we look at differentially private (DP) neural network (NN) based network intrusion detection systems (NIDS) to detect intrusion attacks on networks of such IoT devices. Existing NN training solutions in this domain either ignore privacy considerations or assume that the privacy requirements are homogeneous across all users. We show that the performance of existing differentially private stochastic methods degrade for clients with non-identical data distributions when clients' privacy requirements are heterogeneous. We define a cohort-based $(\epsilon,\delta)$- DP framework that models the more practical setting of IoT device cohorts with non-identical clients and heterogeneous privacy requirements. We propose two novel continual-learning based DP training methods that are designed to improve model performance in the aforementioned setting. To the best of our knowledge, ours is the first system that employs a continual learning-based approach to handle heterogeneity in client privacy requirements. We evaluate our approach on real datasets and show that our techniques outperform the baselines. We also show that our methods are robust to hyperparameter changes. Lastly, we show that one of our proposed methods can easily adapt to post-hoc relaxations of client privacy requirements.
翻訳日:2021-03-14 18:55:16 公開日:2021-01-25
# ネットワーク上の機械学習タスクに対する適応スケジューリング

Adaptive Scheduling for Machine Learning Tasks over Networks ( http://arxiv.org/abs/2101.10007v1 )

ライセンス: Link先を確認
Konstantinos Gatsis(参考訳) スマートトランスポーテーションシステムやスマートシティ、産業用インターネットなど、新たなコネクテッド・自律システムの主要な機能は、さまざまな物理的場所で収集されたデータを処理し、学習する能力である。 これは分散学習と連合学習という観点から、ますます注目を集めている。 しかし、このセットアップでは、多くのユーザとタスク間で共有され、キャパシティの制約を受ける通信リソースを介してデータ転送が行われる。 本論文では, 線形回帰タスクに資源を効率的に割り当てるアルゴリズムを, データのインフォマティビティ性を利用して検討する。 アルゴリズムは、信頼性の高い性能保証による学習タスクの適応スケジューリングを可能にする。

A key functionality of emerging connected autonomous systems such as smart transportation systems, smart cities, and the industrial Internet-of-Things, is the ability to process and learn from data collected at different physical locations. This is increasingly attracting attention under the terms of distributed learning and federated learning. However, in this setup data transfer takes place over communication resources that are shared among many users and tasks or subject to capacity constraints. This paper examines algorithms for efficiently allocating resources to linear regression tasks by exploiting the informativeness of the data. The algorithms developed enable adaptive scheduling of learning tasks with reliable performance guarantees.
翻訳日:2021-03-14 18:54:37 公開日:2021-01-25
# ある集合上の線形最小化と射影の複雑さ

Complexity of Linear Minimization and Projection on Some Sets ( http://arxiv.org/abs/2101.10040v1 )

ライセンス: Link先を確認
Cyrille W. Combettes and Sebastian Pokutta(参考訳) Frank-Wolfeアルゴリズムは、プロジェクションではなく線形最小化に依存する制約付き最適化の手法である。 したがって、Frank-Wolfeアルゴリズムの大規模な作業の動機は、プロジェクションの代わりに線形最小化を解くことの計算上の利点である。 しかし、この利点を支持する議論は、しばしば簡潔すぎるか不完全です。 本稿では,最適化によく用いられる複数の集合上の両タスクの複雑性境界について検討する。 $\ell_p$-ball, $p\in\left]1,2\right[\cup\left]2,+\infty\right[$, and the Birkhoff polytope も提案されている。

The Frank-Wolfe algorithm is a method for constrained optimization that relies on linear minimizations, as opposed to projections. Therefore, a motivation put forward in a large body of work on the Frank-Wolfe algorithm is the computational advantage of solving linear minimizations instead of projections. However, the discussions supporting this advantage are often too succinct or incomplete. In this paper, we review the complexity bounds for both tasks on several sets commonly used in optimization. Projection methods onto the $\ell_p$-ball, $p\in\left]1,2\right[\cup\left]2,+\infty\right[$, and the Birkhoff polytope are also proposed.
翻訳日:2021-03-14 18:54:27 公開日:2021-01-25
# 変性神経アニーリング

Variational Neural Annealing ( http://arxiv.org/abs/2101.10154v1 )

ライセンス: Link先を確認
Mohamed Hibat-Allah, Estelle M. Inack, Roeland Wiersema, Roger G. Melko, Juan Carrasquilla(参考訳) 科学技術における多くの重要な課題を最適化問題とみなすことができる。 統計物理学の枠組みで見ると、これらは漸進冷却法がターゲットハミルトニアンの基底状態解を探索するのに役立つシミュレート・アニーリングによって取り組まれる。 強力なシミュレーションアニールは、最適化ランドスケープが粗い場合やガラス質の場合、サンプリングダイナミクスが著しく遅くなることが知られている。 ここでは, 対象分布をパラメータ化されたモデルで一般化することで, 変分原理に基づく類似のアニーリングフレームワークを用いて基底状態解を探索できることを示す。 リカレントニューラルネットワークなどの現代の自動回帰モデルは、モデルが荒い風景をエンコードしても、スローダイナミクスなしで正確にサンプリングできるため、理想的なパラメータ化を提供します。 この手順は、いくつかの原型スピンガラスハミルトン上の古典的および量子的設定で実行し、この最適化への未探索のルートの潜在的な力を示す、無症状限界における従来のシミュレートアニールを大幅に上回っていることを発見します。

Many important challenges in science and technology can be cast as optimization problems. When viewed in a statistical physics framework, these can be tackled by simulated annealing, where a gradual cooling procedure helps search for groundstate solutions of a target Hamiltonian. While powerful, simulated annealing is known to have prohibitively slow sampling dynamics when the optimization landscape is rough or glassy. Here we show that by generalizing the target distribution with a parameterized model, an analogous annealing framework based on the variational principle can be used to search for groundstate solutions. Modern autoregressive models such as recurrent neural networks provide ideal parameterizations since they can be exactly sampled without slow dynamics even when the model encodes a rough landscape. We implement this procedure in the classical and quantum settings on several prototypical spin glass Hamiltonians, and find that it significantly outperforms traditional simulated annealing in the asymptotic limit, illustrating the potential power of this yet unexplored route to optimization.
翻訳日:2021-03-14 18:54:17 公開日:2021-01-25
# ハーネスングテンソル構造 -マルチモード貯留層計算とそのMIMOへの応用-

Harnessing Tensor Structures -- Multi-Mode Reservoir Computing and Its Application in Massive MIMO ( http://arxiv.org/abs/2102.09322v1 )

ライセンス: Link先を確認
Zhou Zhou, Lingjia Liu, Jiarui Xu(参考訳) 本稿では,新しいニューラルネットワーク(NN)構造,マルチモード貯水池計算(Multi-Mode RC)を提案する。 RCの動的メカニズムを継承し、基礎となるデータフォーマットとしてテンソルを用いてNNの前方経路と損失最適化を処理する。 マルチモードRCは従来のRC構造(例えば)に比べて複雑さが低い。 対等な一般化性能を持つシングルモードRC)。 さらに,マルチモードRCの最小二乗学習アルゴリズムを交互に導入するとともに,関連する理論解析を行う。 その結果、NNパラメータの設定をガイドし、オーバーフィッティング問題を十分に回避することができます。 重要な応用として,基地局(BSs)に大規模MIMOを用いた直交周波数分割多重化(OFDM)システムにおけるシンボル検出タスクを検討する。 大規模なMIMO-OFDM信号のテンソル構造により、オンライン学習に基づくシンボル検出法は、限られたオンライントレーニングセットを用いてもビット誤り率の観点からうまく一般化する。 評価の結果,マルチモードRCベースの学習フレームワークは,無線システムの実用的制約(すなわち,効果的に対処できることが示唆された。 チャンネル状態情報(CSI)エラーとハードウェアの非線形性により、空気上の堅牢で適応的な学習ベースの通信を可能にする。

In this paper, we introduce a new neural network (NN) structure, multi-mode reservoir computing (Multi-Mode RC). It inherits the dynamic mechanism of RC and processes the forward path and loss optimization of the NN using tensor as the underlying data format. Multi-Mode RC exhibits less complexity compared with conventional RC structures (e.g. single-mode RC) with comparable generalization performance. Furthermore, we introduce an alternating least square-based learning algorithm for Multi-Mode RC as well as conduct the associated theoretical analysis. The result can be utilized to guide the configuration of NN parameters to sufficiently circumvent over-fitting issues. As a key application, we consider the symbol detection task in multiple-input-multi ple-output (MIMO) orthogonal-frequency -division-multiplexi ng (OFDM) systems with massive MIMO employed at the base stations (BSs). Thanks to the tensor structure of massive MIMO-OFDM signals, our online learning-based symbol detection method generalizes well in terms of bit error rate even using a limited online training set. Evaluation results suggest that the Multi-Mode RC-based learning framework can efficiently and effectively combat practical constraints of wireless systems (i.e. channel state information (CSI) errors and hardware non-linearity) to enable robust and adaptive learning-based communications over the air.
翻訳日:2021-03-14 18:53:58 公開日:2021-01-25