このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211025となっている論文です。

PDF登録状況(公開日: 20211025)

TitleAuthorsAbstract論文公表日・翻訳日
# 無線ネットワークにおける協調スペクトル学習のための媒体アクセス制御プロトコル

Medium Access Control protocol for Collaborative Spectrum Learning in Wireless Networks ( http://arxiv.org/abs/2111.12581v1 )

ライセンス: Link先を確認
Tomer Boyarski, Amir Leshem(参考訳) 近年,スペクトル協調のための学習アルゴリズムの提供に力を入れている。 本稿では,高負荷ネットワークにおいて,最小限の後悔と高いスペクトル効率でスペクトル協調を実現するメディアアクセス制御プロトコルを提案する。 アドホックネットワークにおけるスペクトル協調のための完全分散アルゴリズムを提案する。 このアルゴリズムは、チャネル割り当てとアクセススケジューリングの問題を共同で解決する。 アルゴリズムが最適対数的後悔を持つことを証明する。 このアルゴリズムに基づき、アドホックネットワークにおけるアルゴリズムの分散実装を可能にする媒体アクセス制御プロトコルを提供する。 このプロトコルは、単一チャネルオポチュニストキャリアセンシングを使用して、時間と周波数の低複雑さ分散オークションを実行する。 また,有界フレームサイズや収束速度などの実践的実装問題についても論じる。 アルゴリズムと最先端の分散媒体アクセス制御プロトコルを比較したコンピュータシミュレーションは,提案手法の大きな利点を示している。

In recent years there is a growing effort to provide learning algorithms for spectrum collaboration. In this paper we present a medium access control protocol which allows spectrum collaboration with minimal regret and high spectral efficiency in highly loaded networks. We present a fully-distributed algorithm for spectrum collaboration in congested ad-hoc networks. The algorithm jointly solves both the channel allocation and access scheduling problems. We prove that the algorithm has an optimal logarithmic regret. Based on the algorithm we provide a medium access control protocol which allows distributed implementation of the algorithm in ad-hoc networks. The protocol utilizes single-channel opportunistic carrier sensing to carry out a low-complexity distributed auction in time and frequency. We also discuss practical implementation issues such as bounded frame size and speed of convergence. Computer simulations comparing the algorithm to state-of-the-art distributed medium access control protocols show the significant advantage of the proposed scheme.
翻訳日:2021-11-28 18:19:09 公開日:2021-10-25
# (参考訳) マシンラーニングによるプライバシの脅威に対処する [全文訳有]

Addressing Privacy Threats from Machine Learning ( http://arxiv.org/abs/2111.04439v1 )

ライセンス: CC BY 4.0
Mary Anne Smart(参考訳) 毎年、NeurIPSで機械学習の研究者が集まり、公衆衛生、災害対応、気候変動、教育などの分野における機械学習のエキサイティングな応用について議論している。 しかし、これらの研究者の多くは、監視のための機械学習の応用に関する関心が高まっている(nanayakkara et al., 2021)。 本稿では,これらの監視技術に抵抗する戦略の概要と,これらの技術がもたらす脅威に対処するために,機械学習と人間とコンピュータのインタラクション研究者の協力を強化することを求める。

Every year at NeurIPS, machine learning researchers gather and discuss exciting applications of machine learning in areas such as public health, disaster response, climate change, education, and more. However, many of these same researchers are expressing growing concern about applications of machine learning for surveillance (Nanayakkara et al., 2021). This paper presents a brief overview of strategies for resisting these surveillance technologies and calls for greater collaboration between machine learning and human-computer interaction researchers to address the threats that these technologies pose.
翻訳日:2021-11-14 16:53:14 公開日:2021-10-25
# (参考訳) 可視的COVID-19危機:新型コロナ患者に対する前立腺科医の外傷後ストレス障害リスク

The Invisible COVID-19 Crisis: Post-Traumatic Stress Disorder Risk Among Frontline Physicians Treating COVID-19 Patients ( http://arxiv.org/abs/2111.04441v1 )

ライセンス: CC BY 4.0
Sayanti Mukherjee, Lance Rintamaki, Janet L. Shucard, Zhiyuan Wei, Lindsey E. Carlasare, and Christine A. Sinsky(参考訳) 本研究は、米国最前線の医師(COVID-19患者)の外傷性ストレス障害(PTSD)を、第2ラインの医師(COVID-19患者を治療しない)と比較して評価し、PTSDリスクの上昇に関連する因子の意義とパターンを明らかにした。 2020年8月から9月にかけて、最大規模の新型コロナウイルス感染者を抱える18州で医師を診察するために、横断的なウェブベースの調査が実施された。 1,478人の医師のうち1,017人がPTSDチェックリスト(PCL-5)を完成させた。 第一に、PCL-5は2つの医師群間での症状支持の比較に使用された。 PCL-5の症状とPCL-5の高得点を臨床上有意な支持率で評価した。 第2に,ロジスティック回帰と7つの非線形機械学習(ML)アルゴリズムを用いて,変動重要度と部分依存プロットを分析し,PTSDリスクの潜在的な予測因子を同定した。 PTSDリスクの予測者は、認知・心理学的指標、職業特性、仕事経験、社会的支援、人口統計、職場特性などであった。 重要なことに,最終mlモデルランダムフォレストでは,前科医のptsdリスクの危険因子と防御リスクのパターンが同定された。 主な被害要因はうつ病、バーンアウト、ネガティブ・コーピング、covid-19の感染/感染の恐れ、スティグマの認識、およびcovid-19患者を治療するためのリソース不足である。 保護要因には、レジリエンスと雇用者、友人、家族、重要人物からの支持があった。 本研究は,PTSDの予防・損傷リスク要因間の非線形関係を明らかにするためのMLアルゴリズムの価値を明らかにするものである。

This study evaluated post traumatic stress disorder (PTSD) among frontline US physicians (treating COVID-19 patients) in comparison with second-line physicians (not treating COVID-19 patients), and identified the significance and patterns of factors associated with higher PTSD risk. A cross-sectional, web-based survey was deployed during August and September, 2020, to practicing physicians in the 18 states with the largest COVID-19 cases. Among 1,478 responding physicians, 1,017 completed the PTSD Checklist (PCL-5). First, the PCL-5 was used to compare symptom endorsement between the two physician groups. A greater percentage of frontline than second-line physicians had clinically significant endorsement of PCL-5 symptoms and higher PCL-5 scores. Second, logistic regression and seven nonlinear machine learning (ML) algorithms were leveraged to identify potential predictors of PTSD risk by analyzing variable importance and partial dependence plots. Predictors of PTSD risk included cognitive/psychologi cal measures, occupational characteristics, work experiences, social support, demographics, and workplace characteristics. Importantly, the final ML model random forest, identified patterns of both damaging and protective predictors of PTSD risk among frontline physicians. Key damaging factors included depression, burnout, negative coping, fears of contracting/transmit ting COVID-19, perceived stigma, and insufficient resources to treat COVID-19 patients. Protective factors included resilience and support from employers/friends/fa mily/significant others. This study underscores the value of ML algorithms to uncover nonlinear relationships among protective/damaging risk factors for PTSD in frontline physicians, which may better inform interventions to prepare healthcare systems for future epidemics/pandemics.
翻訳日:2021-11-14 16:46:15 公開日:2021-10-25
# 非ガウス雑音による自律システムのサンプリングに基づくロバスト制御

Sampling-Based Robust Control of Autonomous Systems with Non-Gaussian Noise ( http://arxiv.org/abs/2110.12662v1 )

ライセンス: Link先を確認
Thom S. Badings, Alessandro Abate, Nils Jansen, David Parker, Hasan A. Poonawala, Marielle Stoelinga(参考訳) 安全に重要な設定で動作する自律システムの制御装置は、確率的障害を考慮しなければならない。 このような乱れは、しばしばプロセスノイズとしてモデル化され、基礎となる分布が既知のあるいは/またはガウス的であるという仮定が一般的である。 しかし実際には、これらの仮定は非現実的であり、真の雑音分布の近似が不十分になる可能性がある。 本稿では,ノイズ分布の明示的な表現に依存しない新しい計画手法を提案する。 特に,ターゲットに安全に到達するための確率的保証を提供するコントローラの計算の問題に対処する。 まず,連続系を離散状態モデルに抽象化し,状態間の確率的遷移によって雑音を捕捉する。 重要な貢献として、これらの遷移確率のほぼ正しい(pac)境界を、ノイズの有限個のサンプルに基づいて計算するために、シナリオアプローチからのツールを適用する。 いわゆる区間マルコフ決定過程(iMDP)の遷移確率区間におけるこれらの境界を捉える。 このiMDPは遷移確率の不確実性に対して堅牢であり、確率間隔の厳密さはサンプル数によって制御できる。 我々は、現状の検証技術を用いて、iMDPの保証を提供し、これらの保証が自律システムに受け継がれるコントローラを演算する。 現実的なベンチマークは,imdpが数百万のステートやトランジションを持つ場合でも,本手法の実用的適用性を示している。

Controllers for autonomous systems that operate in safety-critical settings must account for stochastic disturbances. Such disturbances are often modelled as process noise, and common assumptions are that the underlying distributions are known and/or Gaussian. In practice, however, these assumptions may be unrealistic and can lead to poor approximations of the true noise distribution. We present a novel planning method that does not rely on any explicit representation of the noise distributions. In particular, we address the problem of computing a controller that provides probabilistic guarantees on safely reaching a target. First, we abstract the continuous system into a discrete-state model that captures noise by probabilistic transitions between states. As a key contribution, we adapt tools from the scenario approach to compute probably approximately correct (PAC) bounds on these transition probabilities, based on a finite number of samples of the noise. We capture these bounds in the transition probability intervals of a so-called interval Markov decision process (iMDP). This iMDP is robust against uncertainty in the transition probabilities, and the tightness of the probability intervals can be controlled through the number of samples. We use state-of-the-art verification techniques to provide guarantees on the iMDP, and compute a controller for which these guarantees carry over to the autonomous system. Realistic benchmarks show the practical applicability of our method, even when the iMDP has millions of states or transitions.
翻訳日:2021-11-07 11:45:48 公開日:2021-10-25
# 足ロボットの歩行の発生によるエネルギー消費の最小化

Minimizing Energy Consumption Leads to the Emergence of Gaits in Legged Robots ( http://arxiv.org/abs/2111.01674v1 )

ライセンス: Link先を確認
Zipeng Fu, Ashish Kumar, Jitendra Malik, Deepak Pathak(参考訳) 足の歩行は、歩行、トロット、ガロップのような歩行パターンの離散的な集合として一般的に研究され、通常、足のついたロボットで与えられたように扱われ、異なる速度で効率的な歩行のために事前にプログラムされる。 しかし、事前にプログラムされた歩行のセットを固定すると、移動の一般化が制限される。 最近の動物運動学的研究は、これらの従来の歩行は理想的な平坦な地形条件でしか一般的ではないが、現実の移動は非構造であり、断続的なステップの芽のようなものであることを示している。 哺乳類の構造的パターンと非構造的パターン、そしてそれらをロボットでどのように合成するか? 本研究では, 機械エネルギーの最小化により, 合成による解析を行い, 移動を学習する。 実四足歩行ロボットにおける自然移動歩行の出現において,エネルギー消費を最小化するための学習が重要な役割を担っていることを示す。 創発的な歩行は理想的な地形に構成され、馬や羊に似ている。 同じアプローチは、動物運動制御の発見と一致した荒地における非構造的な歩行につながる。 自然地形におけるシミュレーションと実際のハードウェアの両方で仮説を検証する。 Videos at https://energy-locom otion.github.io

Legged locomotion is commonly studied and expressed as a discrete set of gait patterns, like walk, trot, gallop, which are usually treated as given and pre-programmed in legged robots for efficient locomotion at different speeds. However, fixing a set of pre-programmed gaits limits the generality of locomotion. Recent animal motor studies show that these conventional gaits are only prevalent in ideal flat terrain conditions while real-world locomotion is unstructured and more like bouts of intermittent steps. What principles could lead to both structured and unstructured patterns across mammals and how to synthesize them in robots? In this work, we take an analysis-by-synthesi s approach and learn to move by minimizing mechanical energy. We demonstrate that learning to minimize energy consumption plays a key role in the emergence of natural locomotion gaits at different speeds in real quadruped robots. The emergent gaits are structured in ideal terrains and look similar to that of horses and sheep. The same approach leads to unstructured gaits in rough terrains which is consistent with the findings in animal motor control. We validate our hypothesis in both simulation and real hardware across natural terrains. Videos at https://energy-locom otion.github.io
翻訳日:2021-11-07 11:09:01 公開日:2021-10-25
# (参考訳) 巨大雑音画像に対する自己教師付きデノイジング [全文訳有]

Self-supervised denoising for massive noisy images ( http://arxiv.org/abs/2110.11911v2 )

ライセンス: CC BY 4.0
Feng Wang, Trond R. Henninen, Debora Keller, Rolf Erni(参考訳) 本稿では,信号の事前処理やノイズモデル校正,クリーンサンプルの不要な,信号再構成のための効果的な深層学習モデルを提案する。 このモデルは、ノイズが測定から独立であり、真の信号が同じ構造化情報を共有することを前提としている。 我々は,その性能を,サブ-r{A}ngstr\"{o}m 分解能原子画像から,サブアルコ秒分解能天文学画像まで,様々な実世界のアプリケーションで実証する。

We propose an effective deep learning model for signal reconstruction, which requires no signal prior, no noise model calibration, and no clean samples. This model only assumes that the noise is independent of the measurement and that the true signals share the same structured information. We demonstrate its performance on a variety of real-world applications, from sub-\r{A}ngstr\"{o}m resolution atomic images to sub-arcsecond resolution astronomy images.
翻訳日:2021-11-01 07:50:17 公開日:2021-10-25
# シナリオ認識型人物ビデオ生成のための衣服スタイル転送の利用

Towards Using Clothes Style Transfer for Scenario-aware Person Video Generation ( http://arxiv.org/abs/2110.11894v2 )

ライセンス: Link先を確認
Jingning Xu, Benlai Tang, Mingjie Wang, Siyuan Bian, Wenyi Guo, Xiang Yin, Zejun Ma(参考訳) 人物ビデオ生成のための服装スタイル転送は、人物内外観と映像シナリオの劇的な変化のため、困難な課題である。 この問題に対処するために、AdaINをベースとした最新のアーキテクチャが提案されている。 しかし、これらのアプローチは細かな細部が不足しており、原産地を歪めやすい。 生成性能をさらに向上させるため,アンタングル型マルチブランチエンコーダと共有デコーダを備えた新しいフレームワークを提案する。 さらに、強ビデオ時空間一貫性を追求するため、内部フレーム判別器を微妙に設計し、入力をクロスフレーム差とする。 さらに,提案フレームワークはシナリオ適応の特性を有する。 tedxpeopleベンチマークに関する広範な実験は、画像品質とビデオコヒーレンスの観点から、最先端のアプローチよりも優れた方法を示している。

Clothes style transfer for person video generation is a challenging task, due to drastic variations of intra-person appearance and video scenarios. To tackle this problem, most recent AdaIN-based architectures are proposed to extract clothes and scenario features for generation. However, these approaches suffer from being short of fine-grained details and are prone to distort the origin person. To further improve the generation performance, we propose a novel framework with disentangled multi-branch encoders and a shared decoder. Moreover, to pursue the strong video spatio-temporal consistency, an inner-frame discriminator is delicately designed with input being cross-frame difference. Besides, the proposed framework possesses the property of scenario adaptation. Extensive experiments on the TEDXPeople benchmark demonstrate the superiority of our method over state-of-the-art approaches in terms of image quality and video coherence.
翻訳日:2021-10-31 09:27:04 公開日:2021-10-25
# Bolt: 自動チューニングとハードウェアネイティブパフォーマンスのギャップを埋める

Bolt: Bridging the Gap between Auto-tuners and Hardware-native Performance ( http://arxiv.org/abs/2110.15238v1 )

ライセンス: Link先を確認
Jiarong Xing, Leyuan Wang, Shang Zhang, Jack Chen, Ang Chen, Yibo Zhu(参考訳) 今日のオートチューナー(AutoTVM、Ansorなど)は、大規模な検索スペースをナビゲートして効率的な実装を特定することで効率的なテンソルプログラムを生成するが、それらは不透明なハードウェアの詳細で実現している。 したがって、ハードウェアネイティブライブラリ(cuBLASやcuDNNなど)のそれよりもパフォーマンスが劣る可能性がある。 一方、これらのベンダーライブラリは、サポート対象関数の固定セットを持ち、自動チューニングによって提供されるカスタマイズと自動化サポートが欠如している。 Boltは、宣言的制御(例えばCUTLASS)を通じて、ベンダーライブラリがモジュール化され、再構成可能であるという最近の傾向に基づいている。 これにより、ハードウェアネイティブなテンプレート検索を通じて、このギャップを橋渡しし、両世界のベストを実現する、新たなアプローチが可能になる。 boltは、グラフ、演算子、モデルレベルでエンドツーエンドのテンソル最適化を再考する新しい機会を提供する。 Bolt氏はこのコンセプトを,TVMで人気のオートチューニングと,広く使用されているプラットフォーム(NVIDIA GPUなど)のクラスにプロトタイピングすることで実現している。 Boltは、一般的な畳み込みニューラルネットワークの推論速度を平均2.5倍改善し、これらのモデルを20分以内に自動チューニングする。

Today's auto-tuners (e.g., AutoTVM, Ansor) generate efficient tensor programs by navigating a large search space to identify effective implementations, but they do so with opaque hardware details. Thus, their performance could fall behind that of hardware-native libraries (e.g., cuBLAS, cuDNN), which are hand-optimized by device vendors to extract high performance. On the other hand, these vendor libraries have a fixed set of supported functions and lack the customization and automation support afforded by auto-tuners. Bolt is based on the recent trend that vendor libraries are increasingly modularized and reconfigurable via declarative control (e.g., CUTLASS). It enables a novel approach that bridges this gap and achieves the best of both worlds, via hardware-native templated search. Bolt provides new opportunities to rethink end-to-end tensor optimizations at the graph, operator, and model levels. Bolt demonstrates this concept by prototyping on a popular auto-tuner in TVM and a class of widely-used platforms (i.e., NVIDIA GPUs) -- both in large deployment in our production environment. Bolt improves the inference speed of common convolutional neural networks by 2.5x on average over the state of the art, and it auto-tunes these models within 20 minutes.
翻訳日:2021-10-29 16:04:13 公開日:2021-10-25
# 明示的関数による連続顔表現の学習

Learning Continuous Face Representation with Explicit Functions ( http://arxiv.org/abs/2110.15268v1 )

ライセンス: Link先を確認
Liping Zhang, Weijun Li, Linjun Sun, Lina Yu, Xin Ning, Xiaoli Dong, Jian Xu, Hong Qin(参考訳) 顔のパターンをどのように表現するか? 私たちの視覚システムでは連続的に表示されますが、コンピュータはしばしば2次元のピクセル配列で顔画像を個別に保存し処理します。 本研究では,明示的な機能を持つ顔画像の連続表現を学習しようと試みる。 まず,各項が解析関数要素となる数学用語の有限和の形で,人間の顔表現のための明示的モデル(EmFace)を提案する。 さらに、新しいニューラルネットワークであるEmFaceの未知のパラメータを推定するために、EmNetはエンコーダ・デコーダ構造を用いて設計され、バックプロパゲーションアルゴリズムを用いて訓練される。 実験の結果,emfaceは表情,姿勢,その他の要素の異なる顔に対して,他の手法と比較して高い表現性能を示すことがわかった。 さらに、EmFaceは、顔画像の復元、復調、変換など、複数の顔画像処理タスクにおいて合理的なパフォーマンスを達成する。

How to represent a face pattern? While it is presented in a continuous way in our visual system, computers often store and process the face image in a discrete manner with 2D arrays of pixels. In this study, we attempt to learn a continuous representation for face images with explicit functions. First, we propose an explicit model (EmFace) for human face representation in the form of a finite sum of mathematical terms, where each term is an analytic function element. Further, to estimate the unknown parameters of EmFace, a novel neural network, EmNet, is designed with an encoder-decoder structure and trained using the backpropagation algorithm, where the encoder is defined by a deep convolutional neural network and the decoder is an explicit mathematical expression of EmFace. Experimental results show that EmFace has a higher representation performance on faces with various expressions, postures, and other factors, compared to that of other methods. Furthermore, EmFace achieves reasonable performance on several face image processing tasks, including face image restoration, denoising, and transformation.
翻訳日:2021-10-29 14:53:37 公開日:2021-10-25
# 微分可能なNASフレームワークと広告CTR予測への応用

Differentiable NAS Framework and Application to Ads CTR Prediction ( http://arxiv.org/abs/2110.14812v1 )

ライセンス: Link先を確認
Ravi Krishna, Aravind Kalaiah, Bichen Wu, Maxim Naumov, Dheevatsa Mudigere, Misha Smelyanskiy, Kurt Keutzer(参考訳) neural architecture search(nas)メソッドは、与えられた目的関数によって測定される最適なディープニューラルネットワーク(dnn)アーキテクチャを自動的に見つけることを目的としている。 コンピュータビジョンや自然言語処理など、多くの分野において、これは重要な、しかしまだ時間がかかるプロセスである。 新しいnas手法は、最近、このプロセスの効率を改善する進歩を遂げた。 我々は、この問題を解決するために、差別化可能なニューラルネットワーク探索(DNAS)のために拡張可能でモジュラーなフレームワークを実装します。 私たちは、コードベースの主要なコンポーネントの概要とそれらの相互作用、および、その拡張の実装に関するセクション(サンプルを含む)を含み、ユーザがディープラーニングモデルのさまざまなカテゴリのアプリケーションで、私たちのフレームワークを採用するのを支援します。 私たちの方法論と実装の能力を評価するために、我々はdnaを広告クリックスルー率(ctr)予測の問題に適用します。 我々は、CTR予測のための深層学習勧告モデル(DLRM)のバックボーンに新しい検索空間を開発し、調整し、Criteo Kaggle CTR予測データセットの最先端結果を報告する。

Neural architecture search (NAS) methods aim to automatically find the optimal deep neural network (DNN) architecture as measured by a given objective function, typically some combination of task accuracy and inference efficiency. For many areas, such as computer vision and natural language processing, this is a critical, yet still time consuming process. New NAS methods have recently made progress in improving the efficiency of this process. We implement an extensible and modular framework for Differentiable Neural Architecture Search (DNAS) to help solve this problem. We include an overview of the major components of our codebase and how they interact, as well as a section on implementing extensions to it (including a sample), in order to help users adopt our framework for their applications across different categories of deep learning models. To assess the capabilities of our methodology and implementation, we apply DNAS to the problem of ads click-through rate (CTR) prediction, arguably the highest-value and most worked on AI problem at hyperscalers today. We develop and tailor novel search spaces to a Deep Learning Recommendation Model (DLRM) backbone for CTR prediction, and report state-of-the-art results on the Criteo Kaggle CTR prediction dataset.
翻訳日:2021-10-29 14:52:14 公開日:2021-10-25
# 地形変動オートエンコーダを用いたカテゴリー選択皮質領域のモデル化

Modeling Category-Selective Cortical Regions with Topographic Variational Autoencoders ( http://arxiv.org/abs/2110.13911v1 )

ライセンス: Link先を確認
T. Anderson Keller, Qinghe Gao, Max Welling(参考訳) 脳のカテゴリー選択性は、ある空間的局所化された大脳皮質の領域が特定の限られたカテゴリーからの刺激に対して頑健かつ選択的に反応する傾向があるという観察を記述している。 カテゴリ選択性の最もよく知られている例は、霊長類において下側頭皮質の領域であるフシフォーム・フェイス・エリア(ffa)であり、物体や他の一般的な刺激と比べ、顔のイメージに優先的に反応する。 本研究では,新たに導入された地形変分オートエンコーダを用いて,そのような局所化カテゴリ選択性の出現を教師なしでモデル化する。 実験により, コーエンのd計量の可視化地図を用いて, 顔, 体, 場所に対して空間的に密度の高いニューラルクラスタが生成されることを示した。 モデルと関連する教師付きアプローチ,すなわちTDANNを比較し,理論的および経験的類似性について考察する。 最後に,人間の腹側頭皮質からの観察に類似した,より抽象的なカテゴリのネストされた空間的階層が得られたことを示唆する予備的な結果を示す。

Category-selectivity in the brain describes the observation that certain spatially localized areas of the cerebral cortex tend to respond robustly and selectively to stimuli from specific limited categories. One of the most well known examples of category-selectivity is the Fusiform Face Area (FFA), an area of the inferior temporal cortex in primates which responds preferentially to images of faces when compared with objects or other generic stimuli. In this work, we leverage the newly introduced Topographic Variational Autoencoder to model of the emergence of such localized category-selectivity in an unsupervised manner. Experimentally, we demonstrate our model yields spatially dense neural clusters selective to faces, bodies, and places through visualized maps of Cohen's d metric. We compare our model with related supervised approaches, namely the TDANN, and discuss both theoretical and empirical similarities. Finally, we show preliminary results suggesting that our model yields a nested spatial hierarchy of increasingly abstract categories, analogous to observations from the human ventral temporal cortex.
翻訳日:2021-10-28 15:10:54 公開日:2021-10-25
# 凹凸, 凸凸およびリプシッツ特性を用いたHSVIfo zs-POSG

HSVI fo zs-POSGs using Concavity, Convexity and Lipschitz Properties ( http://arxiv.org/abs/2110.14529v1 )

ライセンス: Link先を確認
Aur\'elien Delage, Olivier Buffet, Jilles Dibangoye(参考訳) 動的プログラミングとヒューリスティック探索は、逐次的意思決定問題の最先端解法の中核にある。 部分的に観測可能あるいは協調的な設定(\eg, POMDPs, Dec-POMDPs)では、最適な値関数のバウンディング(凸)近似と同様に、完全に観測可能な問題を誘導する適切な統計学を導入する必要がある。 このアプローチは、2-player zero-sum partial observable stochastic games (zs-posg) のいくつかのサブクラスでも成功したが、一般的なケースでは、既知の凸性と凸性にもかかわらず失敗した。 我々は,これらの性質を利用して境界近似器と効率的な更新・選択演算子を導出し,hsvi に触発された原型的解法を導出し,有限時間で $\epsilon$-optimal 解に収束し,経験的に評価する。 これは、線形プログラミングや反復的メソッドに依存する人たちを補完する、有望なアプローチの新たなファミリーへの扉を開く。

Dynamic programming and heuristic search are at the core of state-of-the-art solvers for sequential decision-making problems. In partially observable or collaborative settings (\eg, POMDPs and Dec-POMDPs), this requires introducing an appropriate statistic that induces a fully observable problem as well as bounding (convex) approximators of the optimal value function. This approach has succeeded in some subclasses of 2-player zero-sum partially observable stochastic games (zs-POSGs) as well, but failed in the general case despite known concavity and convexity properties, which only led to heuristic algorithms with poor convergence guarantees. We overcome this issue, leveraging on these properties to derive bounding approximators and efficient update and selection operators, before deriving a prototypical solver inspired by HSVI that provably converges to an $\epsilon$-optimal solution in finite time, and which we empirically evaluate. This opens the door to a novel family of promising approaches complementing those relying on linear programming or iterative methods.
翻訳日:2021-10-28 14:01:24 公開日:2021-10-25
# (参考訳) データ中心型ネットワーク侵入検知システムにおける実世界のギャップを埋める [全文訳有]

Bridging the gap to real-world for network intrusion detection systems with data-centric approach ( http://arxiv.org/abs/2110.13655v1 )

ライセンス: CC BY 4.0
Gustavo de Carvalho Bertoli, Louren\c{c}o Alves Pereira Junior, Filipe Alves Neto Verri, Aldri Luiz dos Santos, Osamu Saotome(参考訳) ネットワーク侵入検知システム(NIDS)に機械学習(ML)を用いる研究のほとんどは、KDD-CUP99、NSL-KDD、UNSW-NB15、CICIDS-2017といった確立されたデータセットを使用している。 この文脈では、公開されたベースライン(モデル中心アプローチ)と比較してメトリクスの改善を目的とした機械学習技術の可能性を探る。 しかし、これらのデータセットは、MLベースのソリューションを現実世界のアプリケーションに変換することが不可能な老化としていくつかの制限を提示している。 本稿では、nids研究の現在の限界、特にデータセットに対処するための体系的なデータ中心アプローチを提案する。 このアプローチは、最新のネットワークトラフィックとアタックで構成されたNIDSデータセットを生成し、ラベリングプロセスは設計によって統合される。

Most research using machine learning (ML) for network intrusion detection systems (NIDS) uses well-established datasets such as KDD-CUP99, NSL-KDD, UNSW-NB15, and CICIDS-2017. In this context, the possibilities of machine learning techniques are explored, aiming for metrics improvements compared to the published baselines (model-centric approach). However, those datasets present some limitations as aging that make it unfeasible to transpose those ML-based solutions to real-world applications. This paper presents a systematic data-centric approach to address the current limitations of NIDS research, specifically the datasets. This approach generates NIDS datasets composed of the most recent network traffic and attacks, with the labeling process integrated by design.
翻訳日:2021-10-28 12:11:44 公開日:2021-10-25
# (参考訳) ビデオにおける発話者検出 [全文訳有]

Detecting speaking persons in video ( http://arxiv.org/abs/2110.13806v1 )

ライセンス: CC BY 4.0
Hannes Fassold(参考訳) 本稿では,表情のランドマークをニューラルネットワークで抽出し,これらのランドマークを時間とともに統計的に解析することにより,映像中の発話者を検出する新しい手法を提案する。

We present a novel method for detecting speaking persons in video, by extracting facial landmarks with a neural network and analysing these landmarks statistically over time
翻訳日:2021-10-28 12:05:26 公開日:2021-10-25
# (参考訳) 大規模科学データセットの自己教師付き類似性探索 [全文訳有]

Self-supervised similarity search for large scientific datasets ( http://arxiv.org/abs/2110.13151v1 )

ライセンス: CC BY 4.0
George Stein, Peter Harrington, Jacqueline Blaum, Tomislav Medan, Zarija Lukic(参考訳) 本稿では,教師なし学習を用いて,ラベルなしの大規模データセットを探索し,活用する。 desi(dark energy spectroscopic instrument)レガシイメージングサーベイの最新データリリースから得られた4200万の銀河画像に注目し,まず,対称性,不確実性,ノイズにロバストな低次元表現を識別するために,自己教師付きモデルを訓練した。 次に,この表現を用いて対話型セマンティック類似検索ツールを構築し,公開する。 また,クラウドソーシングキャンペーンのスピード向上や,教師付きアプリケーションのためのトレーニングセットの構築と改善のために,このツールを使ってレアなオブジェクトを迅速に発見する方法を実証する。 スカイサーベイの画像に焦点を当てているが、この技術はどんな次元の科学データセットにも簡単に適用できる。 similarity search web appはhttps://github.com/g eorgestein/galaxy_se archにある。

We present the use of self-supervised learning to explore and exploit large unlabeled datasets. Focusing on 42 million galaxy images from the latest data release of the Dark Energy Spectroscopic Instrument (DESI) Legacy Imaging Surveys, we first train a self-supervised model to distil low-dimensional representations that are robust to symmetries, uncertainties, and noise in each image. We then use the representations to construct and publicly release an interactive semantic similarity search tool. We demonstrate how our tool can be used to rapidly discover rare objects given only a single example, increase the speed of crowd-sourcing campaigns, and construct and improve training sets for supervised applications. While we focus on images from sky surveys, the technique is straightforward to apply to any scientific dataset of any dimensionality. The similarity search web app can be found at https://github.com/g eorgestein/galaxy_se arch
翻訳日:2021-10-28 12:03:33 公開日:2021-10-25
# (参考訳) 深いポアソン混合による確率的階層予測 [全文訳有]

Probabilistic Hierarchical Forecasting with Deep Poisson Mixtures ( http://arxiv.org/abs/2110.13179v1 )

ライセンス: CC0 1.0
Kin G. Olivares and Nganba Meetei and Ruijun Ma and Rohan Reddy and Mengfei Cao(参考訳) 階層的予測問題は、時系列が、予測に対する集約と分散コヒーレンス制約を自然に定義するグループ構造を構成するときに生じる。 本研究では,新しい予測表現であるポアソン混合メッシュ(poisson mixed mesh, pmm)を探索し,確率的かつコヒーレントな予測を生成する。 オーストラリア国内観光データにおいて,PMMを他の階層的予測手法と比較する実験的な評価を行い,20%の相対的な改善を得た。

Hierarchical forecasting problems arise when time series compose a group structure that naturally defines aggregation and disaggregation coherence constraints for the predictions. In this work, we explore a new forecast representation, the Poisson Mixture Mesh (PMM), that can produce probabilistic, coherent predictions; it is compatible with the neural forecasting innovations, and defines simple aggregation and disaggregation rules capable of accommodating hierarchical structures, unknown during its optimization. We performed an empirical evaluation to compare the PMM \ to other hierarchical forecasting methods on Australian domestic tourism data, where we obtain a 20 percent relative improvement.
翻訳日:2021-10-28 11:40:49 公開日:2021-10-25
# (参考訳) マルチソース医療画像データを用いた汎用マルチタスク学習

Generalized Multi-Task Learning from Substantially Unlabeled Multi-Source Medical Image Data ( http://arxiv.org/abs/2110.13185v1 )

ライセンス: CC BY 4.0
Ayaan Haque, Abdullah-Al-Zubaer Imran, Adam Wang, Demetri Terzopoulos(参考訳) ディープラーニングベースのモデルは、完全に教師ありの方法でトレーニングされた場合、複雑な画像分析タスクの実行に有効であるが、大きなラベル付きデータセットの可用性に起因している。 特に医用画像領域では、専門家画像アノテーションは高価であり、時間がかかり、変動しがちである。 限られた量のラベル付きデータからの半教師付き学習は、promiseを代替品として示した。 ラベルなしデータから得られる知識の最大化は、半教師付き学習モデルに恩恵をもたらす。 さらに、同じモデル内で複数のタスクを学習することで、その一般化性はさらに向上する。 我々は,2つのタスク間の新たなサリエンシブリッジを通して説明可能性を維持しつつ,病気の分類と解剖学的セグメンテーションを半教師付きで共同で学習するマルチタスク学習モデルであるMultiMixを提案する。 胸部X線画像における肺炎の同時分類と肺分画の同時分類におけるMultiMixの有効性を確認した。 さらに、これらのタスクにおけるドメイン内評価とクロスドメイン評価の両方が、我々のモデルが挑戦的な一般化シナリオに適応する可能性を示している。

Deep learning-based models, when trained in a fully-supervised manner, can be effective in performing complex image analysis tasks, although contingent upon the availability of large labeled datasets. Especially in the medical imaging domain, however, expert image annotation is expensive, time-consuming, and prone to variability. Semi-supervised learning from limited quantities of labeled data has shown promise as an alternative. Maximizing knowledge gains from copious unlabeled data benefits semi-supervised learning models. Moreover, learning multiple tasks within the same model further improves its generalizability. We propose MultiMix, a new multi-task learning model that jointly learns disease classification and anatomical segmentation in a semi-supervised manner, while preserving explainability through a novel saliency bridge between the two tasks. Our experiments with varying quantities of multi-source labeled data in the training sets confirm the effectiveness of MultiMix in the simultaneous classification of pneumonia and segmentation of the lungs in chest X-ray images. Moreover, both in-domain and cross-domain evaluations across these tasks further showcase the potential of our model to adapt to challenging generalization scenarios.
翻訳日:2021-10-28 11:24:07 公開日:2021-10-25
# (参考訳) IconQA: 抽象ダイアグラム理解とビジュアル言語推論のための新しいベンチマーク [全文訳有]

IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning ( http://arxiv.org/abs/2110.13214v1 )

ライセンス: CC BY 4.0
Pan Lu, Liang Qiu, Jiaqi Chen, Tony Xia, Yizhou Zhao, Wei Zhang, Zhou Yu, Xiaodan Liang, Song-Chun Zhu(参考訳) 現在の視覚的質問応答(VQA)タスクは主に自然画像に対する人間の注釈付き質問に答えることを検討する。 しかし、自然画像は別として、セマンティックな豊かさを持つ抽象図は、視覚理解と推論研究においてまだ未熟である。 本研究は,アイコン画像コンテキストにおける質問に回答することを目的としたIcon Question Answering (IconQA) の新たな課題を紹介する。 IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。 IconQAデータセットは、抽象図理解と包括的認知推論の重要性を強調する実世界の図式単語問題にインスパイアされている。 したがって、IconQAは、物体認識やテキスト理解のような知覚スキルだけでなく、幾何学的推論、常識的推論、算術的推論といった多様な認知的推論スキルも要求する。 さらに、377のクラスに645,687色のアイコンを含むアイコンデータセットIcon645をリリースする。 IconQAタスクをベンチマークするために、幅広いユーザ研究とブラインド実験を行い、幅広い高度なVQA手法を再現する。 また,アイコンデータセットに予め学習した入力ダイアグラムを組み込んだピラミッドクロスモーダルトランスを用いた強力なIconQAベースラインPatch-TRMを開発した。 iconqa と icon645 は https://iconqa.githu b.io で入手できる。

Current visual question answering (VQA) tasks mainly consider answering human-annotated questions for natural images. However, aside from natural images, abstract diagrams with semantic richness are still understudied in visual understanding and reasoning research. In this work, we introduce a new challenge of Icon Question Answering (IconQA) with the goal of answering a question in an icon image context. We release IconQA, a large-scale dataset that consists of 107,439 questions and three sub-tasks: multi-image-choice, multi-text-choice, and filling-in-the-blank . The IconQA dataset is inspired by real-world diagram word problems that highlight the importance of abstract diagram understanding and comprehensive cognitive reasoning. Thus, IconQA requires not only perception skills like object recognition and text understanding, but also diverse cognitive reasoning skills, such as geometric reasoning, commonsense reasoning, and arithmetic reasoning. To facilitate potential IconQA models to learn semantic representations for icon images, we further release an icon dataset Icon645 which contains 645,687 colored icons on 377 classes. We conduct extensive user studies and blind experiments and reproduce a wide range of advanced VQA methods to benchmark the IconQA task. Also, we develop a strong IconQA baseline Patch-TRM that applies a pyramid cross-modal Transformer with input diagram embeddings pre-trained on the icon dataset. IconQA and Icon645 are available at https://iconqa.githu b.io.
翻訳日:2021-10-28 11:12:32 公開日:2021-10-25
# (参考訳) RBSRICNN: 反復畳み込みニューラルネットワークによる生のバースト超解法 [全文訳有]

RBSRICNN: Raw Burst Super-Resolution through Iterative Convolutional Neural Network ( http://arxiv.org/abs/2110.13217v1 )

ライセンス: CC BY 4.0
Rao Muhammad Umer, Christian Micheloni(参考訳) 現代のデジタルカメラとスマートフォンは主に、リアルなRGB画像を生成するために画像信号処理(ISP)パイプラインに依存している。 しかし、デジタル一眼レフカメラと比較すると、低画質の画像は物理的に制限があるため、コンパクトカメラセンサーを備えた多くの携帯端末で通常得られる。 低画質の画像は、複数の劣化、すなわち、カメラの動きによるサブピクセルシフト、カメラカラーフィルタアレイによるモザイクパターン、より小さなカメラセンサによる低解像度、その他の情報はノイズによって破壊される。 このような劣化は、単一の低分解能(LR)画像から高分解能(HR)画像の詳細を復元する際の、現在のSingle Image Super- resolution(SISR)法の性能を制限する。 本研究では,バースト撮影パイプライン全体をフォワード(物理)モデルで追従する生バースト超解像反復畳み込みニューラルネットワーク(rbsricnn)を提案する。 提案したBurst SRスキームは、既存のブラックボックスデータ駆動方式と比較して、古典的な画像正規化、凸最適化、ディープラーニング技術の問題を解決する。 提案するネットワークは、中間sr推定の反復的改良によって最終的な出力を生成する。 実LRバースト入力に頑健に一般化し, オンル合成バーストデータをトレーニングに用いるための定量的, 定性的な実験において, 提案手法の有効性を実証する。

Modern digital cameras and smartphones mostly rely on image signal processing (ISP) pipelines to produce realistic colored RGB images. However, compared to DSLR cameras, low-quality images are usually obtained in many portable mobile devices with compact camera sensors due to their physical limitations. The low-quality images have multiple degradations i.e., sub-pixel shift due to camera motion, mosaick patterns due to camera color filter array, low-resolution due to smaller camera sensors, and the rest information are corrupted by the noise. Such degradations limit the performance of current Single Image Super-resolution (SISR) methods in recovering high-resolution (HR) image details from a single low-resolution (LR) image. In this work, we propose a Raw Burst Super-Resolution Iterative Convolutional Neural Network (RBSRICNN) that follows the burst photography pipeline as a whole by a forward (physical) model. The proposed Burst SR scheme solves the problem with classical image regularization, convex optimization, and deep learning techniques, compared to existing black-box data-driven methods. The proposed network produces the final output by an iterative refinement of the intermediate SR estimates. We demonstrate the effectiveness of our proposed approach in quantitative and qualitative experiments that generalize robustly to real LR burst inputs with onl synthetic burst data available for training.
翻訳日:2021-10-28 10:41:34 公開日:2021-10-25
# (参考訳) BinaryConnectの廃止と一般化 [全文訳有]

Demystifying and Generalizing BinaryConnect ( http://arxiv.org/abs/2110.13220v1 )

ライセンス: CC BY 4.0
Tim Dockhorn, Yaoliang Yu, Eyy\"ub Sari, Mahdi Zolnouri, Vahid Partovi Nia(参考訳) BinaryConnect(BC)とその多くのバリエーションは、ニューラルネットワーク量子化のデファクトスタンダードとなっている。 しかし、我々のbcの内部構造に対する理解は依然としてかなり限られている。 このギャップを4つの異なる側面で閉じようとしています (a)トレーニング後の量子化を含む既存の量子化アルゴリズムが驚くほど似通っていることを示す。 b) 設計および解析が容易な量子化器の自然なファミリーとしての近位写像について論じる。 c) bc が双対平均化の特別な場合であり、それ自体が一般化条件勾配アルゴリズムの特別な場合である、という観測を精査する。 その結果,BC の一般化として ProxConnect (PC) を提案し,その収束性を確立された接続を利用して証明する。 我々は,CIFAR-10 と ImageNet の実験を行い,PC が競争性能を発揮することを検証した。

BinaryConnect (BC) and its many variations have become the de facto standard for neural network quantization. However, our understanding of the inner workings of BC is still quite limited. We attempt to close this gap in four different aspects: (a) we show that existing quantization algorithms, including post-training quantization, are surprisingly similar to each other; (b) we argue for proximal maps as a natural family of quantizers that is both easy to design and analyze; (c) we refine the observation that BC is a special case of dual averaging, which itself is a special case of the generalized conditional gradient algorithm; (d) consequently, we propose ProxConnect (PC) as a generalization of BC and we prove its convergence properties by exploiting the established connections. We conduct experiments on CIFAR-10 and ImageNet, and verify that PC achieves competitive performance.
翻訳日:2021-10-28 10:32:21 公開日:2021-10-25
# (参考訳) 予測型混合モデル [全文訳有]

Prediction-focused Mixture Models ( http://arxiv.org/abs/2110.13221v1 )

ライセンス: CC BY 4.0
Sanjana Narayanan, Abhishek Sharma, Catherine Zeng and Finale Doshi-Velez(参考訳) いくつかのアプリケーションでは、データの生成モデルを取得するだけでなく、特定の下流タスクに役立てることも望んでいます。 混合モデルはデータ内の離散的なコンポーネントを識別するのに有用であるが、誤特定した場合は下流タスクに有用なコンポーネントを識別できない可能性がある。 ターゲットの予測に関連する入力特徴を選択・モデル化する予測中心混合モデルを提案する。 提案手法は,モデルが極めて不特定である場合でも,入力から関連する信号を特定する。

In several applications, besides getting a generative model of the data, we also want the model to be useful for specific downstream tasks. Mixture models are useful for identifying discrete components in the data, but may not identify components useful for downstream tasks if misspecified; further, current inference techniques often fail to overcome misspecification even when a supervisory signal is provided. We introduce the prediction-focused mixture model, which selects and models input features relevant to predicting the targets. We demonstrate that our approach identifies relevant signal from inputs even when the model is highly misspecified.
翻訳日:2021-10-28 10:05:28 公開日:2021-10-25
# (参考訳) 自然文脈外予測問題の同定とベンチマーク [全文訳有]

Identifying and Benchmarking Natural Out-of-Context Prediction Problems ( http://arxiv.org/abs/2110.13223v1 )

ライセンス: CC BY 4.0
David Madras, Richard Zemel(参考訳) ディープラーニングシステムは、トレーニング分布の異常な入力やサブグループに対して、信頼性の高い予測を行うという問題である、文脈外予測(OOC)でしばしば失敗する。 この目的のために、OOC性能を測定するためのベンチマークが最近紹介されている。 本研究では,OOC性能測定の文献を統一するフレームワークを導入し,既存のデータセットにおけるOCOの候補セットを特定するために,リッチな補助情報をいかに活用できるかを示す。 自然に生じる「カオス集合」のスイートであるNOOChを提示し、特定のOOC障害モードを探索するために、コンテキストの異なる概念がどのように使用できるかを示す。 実験として,これらの課題セットに対する様々な学習アプローチのトレードオフを考察し,oocベンチマークの設計における選択が様々な結論をもたらすことを示す。

Deep learning systems frequently fail at out-of-context (OOC) prediction, the problem of making reliable predictions on uncommon or unusual inputs or subgroups of the training distribution. To this end, a number of benchmarks for measuring OOC performance have recently been introduced. In this work, we introduce a framework unifying the literature on OOC performance measurement, and demonstrate how rich auxiliary information can be leveraged to identify candidate sets of OOC examples in existing datasets. We present NOOCh: a suite of naturally-occurring "challenge sets", and show how varying notions of context can be used to probe specific OOC failure modes. Experimentally, we explore the tradeoffs between various learning approaches on these challenge sets and demonstrate how the choices made in designing OOC benchmarks can yield varying conclusions.
翻訳日:2021-10-28 09:53:09 公開日:2021-10-25
# (参考訳) ランダムネットワーク蒸留による分布ロバストなリカレントデコーダ [全文訳有]

Distributionally Robust Recurrent Decoders with Random Network Distillation ( http://arxiv.org/abs/2110.13229v1 )

ライセンス: CC BY 4.0
Antonio Valerio Miceli-Barone, Alexandra Birch, Rico Sennrich(参考訳) ニューラル機械学習モデルは、トレーニング分布に類似した言語をうまくモデル化するが、分散シフト下での劣化に非常に敏感であり、ドメイン外(ood)テキストを処理する多くの実用的なアプリケーションで発生する。 これは「ショートカット学習(shortcut learning)」、すなわち任意の大きな文脈に対する弱い相関に依存するものである。 本研究では,自己回帰型言語モデルが推論中にOODコンテキストを自動的に無視し,非表現的だがロバストなモデルへとスムーズな移行を行なえるようにするために,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。 提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を示す。

Neural machine learning models can successfully model language that is similar to their training distribution, but they are highly susceptible to degradation under distribution shift, which occurs in many practical applications when processing out-of-domain (OOD) text. This has been attributed to "shortcut learning": relying on weak correlations over arbitrary large contexts. We propose a method based on OOD detection with Random Network Distillation to allow an autoregressive language model to automatically disregard OOD context during inference, smoothly transitioning towards a less expressive but more robust model as the data becomes more OOD while retaining its full context capability when operating in-distribution. We apply our method to a GRU architecture, demonstrating improvements on multiple language modeling (LM) datasets.
翻訳日:2021-10-28 09:21:10 公開日:2021-10-25
# (参考訳) 分解型インダクティブ・プロシージャ学習

Decomposed Inductive Procedure Learning ( http://arxiv.org/abs/2110.13233v1 )

ライセンス: CC BY 4.0
Daniel Weitekamp, Christopher MacLellan, Erik Harpstead, Kenneth Koedinger(参考訳) 機械学習の最近の進歩により、複雑なタスクの多様さにおいて超人的精度で実行する、人工知能エージェントの訓練が可能になった。 しかしながら、これらの能力のトレーニングのプロセスには、数百万の注釈付き例が必要になることが少なくありません。 したがって、機械学習における現代的手法は、超人的性能を示すエージェントを生成できるが、多くの領域において機会当たりの学習率は、人間の学習よりも明らかに低い。 本研究では, 異なる形態の帰納的シンボリック・ラーニングを組み合わせることで, 数学的, 科学的手続きなどの教育的に関連するタスクを, 人間の学習者と同様の速度で学習できるエージェントを構築する方法を概説する, 分解的帰納的手順学習(dipl)の理論を定式化する。 認知モデリングの計算、アルゴリズム、実装レベルの概念に沿って、この理論の構築を動機付け、人間の学習を正確にモデル化するために達成しなければならない計算レベルの6つの学習能力について概説する。 本稿は,DIPL理論に沿って構築されたエージェントが,これらの能力を満たすことができることを実証し,実験的および理論的に,DIPLが人間に似た学習能力を示すエージェントの作成を可能にすることを実証する。

Recent advances in machine learning have made it possible to train artificially intelligent agents that perform with super-human accuracy on a great diversity of complex tasks. However, the process of training these capabilities often necessitates millions of annotated examples -- far more than humans typically need in order to achieve a passing level of mastery on similar tasks. Thus, while contemporary methods in machine learning can produce agents that exhibit super-human performance, their rate of learning per opportunity in many domains is decidedly lower than human-learning. In this work we formalize a theory of Decomposed Inductive Procedure Learning (DIPL) that outlines how different forms of inductive symbolic learning can be used in combination to build agents that learn educationally relevant tasks such as mathematical, and scientific procedures, at a rate similar to human learners. We motivate the construction of this theory along Marr's concepts of the computational, algorithmic, and implementation levels of cognitive modeling, and outline at the computational-level six learning capacities that must be achieved to accurately model human learning. We demonstrate that agents built along the DIPL theory are amenable to satisfying these capacities, and demonstrate, both empirically and theoretically, that DIPL enables the creation of agents that exhibit human-like learning performance.
翻訳日:2021-10-28 09:09:11 公開日:2021-10-25
# (参考訳) シフトコントラスト異常検出による小児眼科ビデオ検診 [全文訳有]

Pediatric Otoscopy Video Screening with Shift Contrastive Anomaly Detection ( http://arxiv.org/abs/2110.13254v1 )

ライセンス: CC BY 4.0
Weiyao Wang, Aniruddha Tamhane, Christine Santos, John R. Rzasa, James H. Clark, Therese L. Canares, and Mathias Unberath(参考訳) 耳に関する懸念と症状は、小児医療の注意を喚起する主要な兆候である。 このような発生頻度が高いにもかかわらず、中・外部の一般的な疾患の診断プロセスには大きな課題がある。 この課題の多くは、臨床で決定される耳の病理の有無を考慮し、コスト効率のよい診断検査が欠如していることに起因する。 しかし、臨床医の間では、耳の病状を正確に診断し、治療する能力にかなりの変化が見られた。 近年のコンピュータビジョンと機械学習の進歩により、臨床医がコンピュータ支援システムを用いて中耳と外耳の病理を正確に診断することへの関心が高まっている。 aiは、耳道および鼓膜検査中に撮影された単一の臨床画像を分析し、特定の診断を行うための病理組織学的パターンの可能性を判断する能力を持っていることが示されている。 このような画像の取得は、特に経験の浅い臨床医にとって困難である。 この技術的課題を軽減するため,我々はビデオシーケンスを用いた手法を開発・テストした。 まず,映像列から耳ドラムパッチを検出・抽出し,有効なフレームを識別する2段階の方法を提案し,第2に,提案するシフトコントラスト異常検出を行い,ot内視鏡映像列を正常または異常と判定する。 本手法は,患者レベルで88.0%のAUROCを達成し,これまでに公表された中では最大である25名の臨床医の平均値を上回った。 提案手法は,光学映像の自動解析に向けた第一歩となる。

Ear related concerns and symptoms represents the leading indication for seeking pediatric healthcare attention. Despite the high incidence of such encounters, the diagnostic process of commonly encountered disease of the middle and external presents significant challenge. Much of this challenge stems from the lack of cost effective diagnostic testing, which necessitating the presence or absence of ear pathology to be determined clinically. Research has however demonstrated considerable variation among clinicians in their ability to accurately diagnose and consequently manage ear pathology. With recent advances in computer vision and machine learning, there is an increasing interest in helping clinicians to accurately diagnose middle and external ear pathology with computer-aided systems. It has been shown that AI has the capacity to analyse a single clinical image captured during examination of the ear canal and eardrum from which it can determine the likelihood of a pathognomonic pattern for a specific diagnosis being present. The capture of such an image can however be challenging especially to inexperienced clinicians. To help mitigate this technical challenge we have developed and tested a method using video sequences. We present a two stage method that first, identifies valid frames by detecting and extracting ear drum patches from the video sequence, and second, performs the proposed shift contrastive anomaly detection to flag the otoscopy video sequences as normal or abnormal. Our method achieves an AUROC of 88.0% on the patient-level and also outperforms the average of a group of 25 clinicians in a comparative study, which is the largest of such published to date. We conclude that the presented method achieves a promising first step towards automated analysis of otoscopy video.
翻訳日:2021-10-28 09:08:05 公開日:2021-10-25
# (参考訳) 協調学習ビデオにおける顔認識 [全文訳有]

Facial Recognition in Collaborative Learning Videos ( http://arxiv.org/abs/2110.13269v1 )

ライセンス: CC BY 4.0
Phuong Tran, Marios Pattichis, Sylvia Celed\'on-Pattichis, Carlos L\'opezLeiva(参考訳) 協調学習ビデオにおける顔認識には多くの課題がある。 共同学習ビデオでは、学生は通常のテーブルの周りに座り、記録カメラの異なる位置に座り、行き来し、移動し、部分的にあるいは完全に閉鎖される。 さらに、ビデオは非常に長く、高速で正確な方法の開発が必要となる。 協調学習システムにおいて,参加者を認識できる動的システムを開発した。 顔検出履歴の過去の情報を用いて,隠蔽と認識障害に対処する。 異なるポーズから顔を検出する必要性と、各参加者にサンプリングまたはk-meansクラスタリングによって計算されたプロトタイプ顔の集合を関連付けることで、速度の必要性に対処する。 その結果,提案システムは非常に高速かつ高精度であることが判明した。 また,InsightFace [2]とトレーニングビデオセグメントを用いたベースラインシステムとの比較を行った。 平均精度は86.2%で, 基準系では70.8%であった。 平均して、認識速度はベースラインシステムより28.1倍速くなった。

Face recognition in collaborative learning videos presents many challenges. In collaborative learning videos, students sit around a typical table at different positions to the recording camera, come and go, move around, get partially or fully occluded. Furthermore, the videos tend to be very long, requiring the development of fast and accurate methods. We develop a dynamic system of recognizing participants in collaborative learning systems. We address occlusion and recognition failures by using past information about the face detection history. We address the need for detecting faces from different poses and the need for speed by associating each participant with a collection of prototype faces computed through sampling or K-means clustering. Our results show that the proposed system is proven to be very fast and accurate. We also compare our system against a baseline system that uses InsightFace [2] and the original training video segments. We achieved an average accuracy of 86.2% compared to 70.8% for the baseline system. On average, our recognition rate was 28.1 times faster than the baseline system.
翻訳日:2021-10-28 08:48:53 公開日:2021-10-25
# (参考訳) 逆問題に対する汎用解としての生成フロー [全文訳有]

Generative Flows as a General Purpose Solution for Inverse Problems ( http://arxiv.org/abs/2110.13285v1 )

ライセンス: CC BY 4.0
Jos\'e A. Ch\'avez(参考訳) モデルデータ分布への生成フローの成功により、それらは逆問題で研究されてきた。 事前学習された生成フローが与えられた場合、先行変数の2ノルムを主目的の正規化項として最小化することを提案した。 その背後にある直感は、高い確率の潜在変数を保証することだったが、実験で示されたような現実的なサンプルの生成は保証されない。 そこで我々は,高次再構成を直接生成するための正規化項を提案する。 我々の仮説は、生成フローを逆問題に対する汎用的な解法とするものである。 本手法は,画像のデノイジング,画像デブラリング,画像インパインティング,画像カラー化における評価を行う。 我々は,PSNRおよびSSIMメトリクスの先行研究よりも,提案手法の大幅な改善を観察する。

Due to the success of generative flows to model data distributions, they have been explored in inverse problems. Given a pre-trained generative flow, previous work proposed to minimize the 2-norm of the latent variables as a regularization term in the main objective. The intuition behind it was to ensure high likelihood latent variables, however this does not ensure the generation of realistic samples as we show in our experiments. We therefore propose a regularization term to directly produce high likelihood reconstructions. Our hypothesis is that our method could make generative flows a general-purpose solver for inverse problems. We evaluate our method in image denoising, image deblurring, image inpainting, and image colorization. We observe a compelling improvement of our method over prior works in the PSNR and SSIM metrics.
翻訳日:2021-10-28 08:41:09 公開日:2021-10-25
# (参考訳) 現実的な市場シミュレーションに向けて--ジェネレーティブ・アドバイサル・ネットワークのアプローチ [全文訳有]

Towards Realistic Market Simulations: a Generative Adversarial Networks Approach ( http://arxiv.org/abs/2110.13287v1 )

ライセンス: CC BY 4.0
Andrea Coletta, Matteo Prata, Michele Conti, Emanuele Mercanti, Novella Bartolini, Aymeric Moulin, Svitlana Vyetrenko, Tucker Balch(参考訳) シミュレーション環境は、現実の市場に近づく前に取引戦略を評価するために、トレーディング会社や投資銀行によってますます使われている。 広く使われているバックテストのアプローチは、過去の市場シナリオを再現しながら実験戦略をシミュレートするものである。 残念ながら、このアプローチは実験エージェントの行動に対する市場の反応を捉えていない。 対照的にマルチエージェントシミュレーションは、金融市場におけるエージェントインタラクションをエミュレートする自然なボトムアップアプローチを示す。 金融市場トレーダーの人口を模倣する多様な戦略を持つトレーダーのプールを設置し、新たな実験的戦略の実行をテストすることができる。 個々のエージェントレベルの歴史的データは一般的にプロプライエタリであり、公共利用には利用できないため、取引戦略のテストに必要な現実性を得るために複数のマーケットエージェントを調整することは困難である。 この課題に対処するために,我々は,実集合的履歴データに基づいて訓練された条件付き生成逆ネットワーク(cgans)に基づく合成市場生成手法を提案する。 CGANベースの"ワールド"エージェントは、実験エージェントに応答して意味のある順序を生成することができる。 私たちは合成市場ジェネレータを、金融市場のオープンソースシミュレータであるabideに統合します。 広範なシミュレーションにより,提案手法は,市場応答性とリアリズムを反映したスタイリッシュな事実という観点から,先行研究よりも優れていることを示す。

Simulated environments are increasingly used by trading firms and investment banks to evaluate trading strategies before approaching real markets. Backtesting, a widely used approach, consists of simulating experimental strategies while replaying historical market scenarios. Unfortunately, this approach does not capture the market response to the experimental agents' actions. In contrast, multi-agent simulation presents a natural bottom-up approach to emulating agent interaction in financial markets. It allows to set up pools of traders with diverse strategies to mimic the financial market trader population, and test the performance of new experimental strategies. Since individual agent-level historical data is typically proprietary and not available for public use, it is difficult to calibrate multiple market agents to obtain the realism required for testing trading strategies. To addresses this challenge we propose a synthetic market generator based on Conditional Generative Adversarial Networks (CGANs) trained on real aggregate-level historical data. A CGAN-based "world" agent can generate meaningful orders in response to an experimental agent. We integrate our synthetic market generator into ABIDES, an open source simulator of financial markets. By means of extensive simulations we show that our proposal outperforms previous work in terms of stylized facts reflecting market responsiveness and realism.
翻訳日:2021-10-28 08:33:45 公開日:2021-10-25
# (参考訳) 確率勾配マルコフ連鎖モンテカルロによる非剛性画像登録の不確かさ定量化 [全文訳有]

Uncertainty quantification in non-rigid image registration via stochastic gradient Markov chain Monte Carlo ( http://arxiv.org/abs/2110.13289v1 )

ライセンス: CC BY 4.0
Daniel Grzech, Mohammad Farid Azampour, Huaqi Qiu, Ben Glocker, Bernhard Kainz, Lo\"ic Le Folgoc(参考訳) 我々は,不確実性定量化に着目した3次元医用画像の非剛性登録のための新しいベイズモデルを開発した。 不確かさを校正した推定値を持つ大きな画像の確率的登録は、計算とモデリングの両方の理由から難しい。 計算問題に対処するため,バックプロパゲーションによるマルコフ連鎖モンテカルロ間の接続と,バックプロパゲーションフレームワークによる変分推論を探索し,変換パラメータの後方分布から試料を効率的に描画する。 モデリング問題に対処するため,高次元および微分同相変換パラメトリションを用いた場合,既存の障壁を克服する画像登録のためのベイズモデルを定式化する。 これにより、不確実性推定のキャリブレーションが改善される。 ディープラーニングに基づく最先端画像登録モデルvoxelmorphと比較し,画像登録精度と不確かさの定量化について検討した。

We develop a new Bayesian model for non-rigid registration of three-dimensional medical images, with a focus on uncertainty quantification. Probabilistic registration of large images with calibrated uncertainty estimates is difficult for both computational and modelling reasons. To address the computational issues, we explore connections between the Markov chain Monte Carlo by backpropagation and the variational inference by backpropagation frameworks, in order to efficiently draw samples from the posterior distribution of transformation parameters. To address the modelling issues, we formulate a Bayesian model for image registration that overcomes the existing barriers when using a dense, high-dimensional, and diffeomorphic transformation parametrisation. This results in improved calibration of uncertainty estimates. We compare the model in terms of both image registration accuracy and uncertainty quantification to VoxelMorph, a state-of-the-art image registration model based on deep learning.
翻訳日:2021-10-28 08:20:33 公開日:2021-10-25
# (参考訳) モバイルおよび組み込みセンシングアプリケーションのための連続学習のシステム性能の検討 [全文訳有]

Exploring System Performance of Continual Learning for Mobile and Embedded Sensing Applications ( http://arxiv.org/abs/2110.13290v1 )

ライセンス: CC BY 4.0
Young D. Kwon, Jagmohan Chauhan, Abhishek Kumar, Pan Hui, and Cecilia Mascolo(参考訳) 継続的な学習アプローチは、破滅的な忘れを解くことによって、ディープニューラルネットワークモデルの適応と漸進的な学習を支援する。 しかし、画像ベースのタスクに伝統的に適用されるこれらの既存のアプローチが、モバイルまたは組み込みセンシングシステムによって生成された時系列データと同じ効果で動作するかどうかは、まだ不明な疑問である。 この空白に対処するために,我々は3つのモバイルおよび組み込みセンシングアプリケーションから得られた6つのデータセットにおける3つの主要な連続学習スキーム(レギュライゼーション,リプレイ,リプレイ)のパフォーマンスを,学習の複雑さが異なるさまざまなシナリオで定量化する,最初の包括的な実証研究を行う。 具体的には、エッジデバイス上でエンドツーエンドの継続的学習フレームワークを実装します。 次に,連続学習法における性能,記憶,計算コスト,メモリフットプリントの一般化性,トレードオフについて検討する。 以上の結果から,iCaRLのような模範的なスキームによるリプレイは,複雑なシナリオであっても,トレーニング例(1%から5%)のストレージスペース(2MB)を犠牲にして,最高のパフォーマンストレードオフを有することが示唆された。 また,メモリ予算が限定されたデバイス上で連続学習を行うことは,実現可能かつ実用的であることを初めて実証した。 特に、2種類のモバイルおよび組み込みデバイスでのレイテンシは、インクリメンタルな学習時間(2秒から4分)とデータセット全体のトレーニング時間(1~75分)の両方が許容されることを示唆している。 最後に,モバイルセンシングタスクに連続学習パラダイムを適用したい実践者に対して,いくつかのガイドラインを提案する。

Continual learning approaches help deep neural network models adapt and learn incrementally by trying to solve catastrophic forgetting. However, whether these existing approaches, applied traditionally to image-based tasks, work with the same efficacy to the sequential time series data generated by mobile or embedded sensing systems remains an unanswered question. To address this void, we conduct the first comprehensive empirical study that quantifies the performance of three predominant continual learning schemes (i.e., regularization, replay, and replay with examples) on six datasets from three mobile and embedded sensing applications in a range of scenarios having different learning complexities. More specifically, we implement an end-to-end continual learning framework on edge devices. Then we investigate the generalizability, trade-offs between performance, storage, computational costs, and memory footprint of different continual learning methods. Our findings suggest that replay with exemplars-based schemes such as iCaRL has the best performance trade-offs, even in complex scenarios, at the expense of some storage space (few MBs) for training examples (1% to 5%). We also demonstrate for the first time that it is feasible and practical to run continual learning on-device with a limited memory budget. In particular, the latency on two types of mobile and embedded devices suggests that both incremental learning time (few seconds - 4 minutes) and training time (1 - 75 minutes) across datasets are acceptable, as training could happen on the device when the embedded device is charging thereby ensuring complete data privacy. Finally, we present some guidelines for practitioners who want to apply a continual learning paradigm for mobile sensing tasks.
翻訳日:2021-10-28 07:55:43 公開日:2021-10-25
# (参考訳) オリゴポリー市場における価格感性製品交渉 [全文訳有]

Negotiating Networks in Oligopoly Markets for Price-Sensitive Products ( http://arxiv.org/abs/2110.13303v1 )

ライセンス: CC BY 4.0
Naman Shukla and Kartik Yellepeddi(参考訳) 価格に敏感な商品のオリゴポリ市場で販売者と購入者の意思決定を同時に見積もる機能を学ぶための新しい枠組みを提案する。 この設定において、売り手ネットワークの目的は、買い手の満足度も考慮し、期待収益を最大化するように、所定のコンテキストに対して価格を提示することである。 一方、バイヤーネットワークの目的は、提供価格に購入の確率を割り当てて、現実世界のバイヤーの反応を模倣するとともに、その行動を通じて価格の感度を示すことである。 言い換えれば、不要に高い価格の商品を拒絶する。 生成的敵ネットワークと同様に、このフレームワークはminimax 2-playerゲームに対応する。 シミュレーションおよび実世界のトランザクションデータを用いた実験で,本フレームワークをベースラインモデルと比較し,提案手法を用いてその可能性を実証した。

We present a novel framework to learn functions that estimate decisions of sellers and buyers simultaneously in an oligopoly market for a price-sensitive product. In this setting, the aim of the seller network is to come up with a price for a given context such that the expected revenue is maximized by considering the buyer's satisfaction as well. On the other hand, the aim of the buyer network is to assign probability of purchase to the offered price to mimic the real world buyers' responses while also showing price sensitivity through its action. In other words, rejecting the unnecessarily high priced products. Similar to generative adversarial networks, this framework corresponds to a minimax two-player game. In our experiments with simulated and real-world transaction data, we compared our framework with the baseline model and demonstrated its potential through proposed evaluation metrics.
翻訳日:2021-10-28 07:28:55 公開日:2021-10-25
# (参考訳) バッチバンディットを用いた公衆衛生におけるリスク割当と有病率推定の調整 [全文訳有]

Reconciling Risk Allocation and Prevalence Estimation in Public Health Using Batched Bandits ( http://arxiv.org/abs/2110.13306v1 )

ライセンス: CC BY 4.0
Ben Chugg, Daniel E. Ho(参考訳) 多くの公衆衛生環境では、既知の脆弱な領域に資源を割り当てることと、問題の全体的な頻度について学ぶことに緊張感がある。 ドアツードアのCovid-19テストプログラムにインスパイアされた私たちは、多武装のバンディット戦略とサンプリング理論からの洞察を組み合わせて、リスクの高い地域にリソースを割り当てながら、正確な有病率推定を回復する方法を実証しました。 ランニング例としては、感染症の発生を例に挙げる。 公衆衛生設定は、分散シフト(真の病気の頻度は時間とともに変化している)やバッチサンプリング(複数の決定を同時に行う必要がある)など、典型的なバンディット設定と区別するいくつかの特徴がある。 それにもかかわらず、いくつかのバンディットアルゴリズムは、新しい領域の出現に気付かず、しばしばランダムなアロケーションよりも悪いアロケーション戦略を達成できることを示す。

In many public health settings, there is a perceived tension between allocating resources to known vulnerable areas and learning about the overall prevalence of the problem. Inspired by a door-to-door Covid-19 testing program we helped design, we combine multi-armed bandit strategies and insights from sampling theory to demonstrate how to recover accurate prevalence estimates while continuing to allocate resources to at-risk areas. We use the outbreak of an infectious disease as our running example. The public health setting has several characteristics distinguishing it from typical bandit settings, such as distribution shift (the true disease prevalence is changing with time) and batched sampling (multiple decisions must be made simultaneously). Nevertheless, we demonstrate that several bandit algorithms are capable out-performing greedy resource allocation strategies, which often perform worse than random allocation as they fail to notice outbreaks in new areas.
翻訳日:2021-10-28 07:19:36 公開日:2021-10-25
# (参考訳) EarthGAN: 代理モデルを使って地球のマントル対流を可視化できますか? [全文訳有]

EarthGAN: Can we visualize the Earth's mantle convection using a surrogate model? ( http://arxiv.org/abs/2110.13315v1 )

ライセンス: CC BY 4.0
Tim von Hahn, Chris K. Mechefske(参考訳) 科学シミュレーションはしばしば基礎的な問題に対する洞察を得るために用いられる。 しかし、強力なコンピュータを使わずに視覚化することは困難である。 本研究では,地球上のマントル対流データセットが容易にアクセス可能なハードウェア上で可視化できるように,生成的対向ネットワークを用いて代理モデルを構築することを目的とする。 予備的な方法と結果を示し、すべてのコードが公開されています。 予備的な結果は、地球のマントル対流データセットの代理モデルが有用な結果をもたらすことを示している。 接地真実(ground-truth)と比較する。

Scientific simulations are often used to gain insight into foundational questions. However, many potentially useful simulation results are difficult to visualize without powerful computers. In this research, we seek to build a surrogate model, using a generative adversarial network, to allow for the visualization of the Earth's Mantle Convection data set on readily accessible hardware. We present our preliminary method and results, and all code is made publicly available. The preliminary results show that a surrogate model of the Earth's Mantle Convection data set can generate useful results. A comparison to the "ground-truth" is provided.
翻訳日:2021-10-28 07:11:38 公開日:2021-10-25
# (参考訳) audacityのためのディープラーニングツール: 研究者がアーティストのツールキットを拡張するのを助ける [全文訳有]

Deep Learning Tools for Audacity: Helping Researchers Expand the Artist's Toolkit ( http://arxiv.org/abs/2110.13323v1 )

ライセンス: CC BY 4.0
Hugo Flores Garcia, Aldo Aguilar, Ethan Manilow, Dmitry Vedenko, Bryan Pardo(参考訳) ニューラルネットワークをオープンソースのオーディオ編集ソフトウェアであるAudacityに統合するソフトウェアフレームワークについて,開発者の最小限の労力で紹介する。 本稿では、エンドユーザとニューラルネットワーク開発者の両方にとってのユースケースをいくつか紹介する。 この作業が、ディープラーニングの実践者とエンドユーザの間の新たなレベルの対話性を促進することを願っています。

We present a software framework that integrates neural networks into the popular open-source audio editing software, Audacity, with a minimal amount of developer effort. In this paper, we showcase some example use cases for both end-users and neural network developers. We hope that this work fosters a new level of interactivity between deep learning practitioners and end-users.
翻訳日:2021-10-28 07:06:40 公開日:2021-10-25
# 指数核を用いた結合ホークスモーメントの計算アルゴリズム

An algorithm for the computation of joint Hawkes moments with exponential kernel ( http://arxiv.org/abs/2110.13649v1 )

ライセンス: Link先を確認
Nicolas Privault(参考訳) 本研究の目的は,Hawkesプロセスと指数カーネルの結合モーメントおよび累積計算のための再帰的アルゴリズムとその実装を Maple と Mathematica に提示することである。 数値結果や計算時間についても論じる。 閉形式式を得るには計算量が必要であり、ジョイント5累積式とモーメント式はそれぞれ3,288と27,116の和に拡張できる。

The purpose of this paper is to present a recursive algorithm and its implementation in Maple and Mathematica for the computation of joint moments and cumulants of Hawkes processes with exponential kernels. Numerical results and computation times are also discussed. Obtaining closed form expressions can be computationally intensive, as joint fifth cumulant and moment formulas can be respectively expanded into up to 3,288 and 27,116 summands.
翻訳日:2021-10-27 16:31:30 公開日:2021-10-25
# CNNC:深部畳み込みニューラルネットワークの比較研究のためのビジュアル分析システム

CNNC: A Visual Analytics System for Comparative Studies of Deep Convolutional Neural Networks ( http://arxiv.org/abs/2110.13252v1 )

ライセンス: Link先を確認
Xiwei Xuan, Xiaoyu Zhang, Oh-Hyun Kwon, Kwan-Liu Ma(参考訳) 近年の畳み込みニューラルネットワーク(CNN)の急速な発展は、多くの機械学習(ML)アプリケーションに大きなブレークスルーをもたらした。 利用可能なさまざまなCNNモデルを理解し比較する能力は不可欠である。 分類精度や計算複雑性などの各モデルの定量的特徴を可視化する従来の手法は、異なるモデルの振る舞いをより深く理解し比較するには不十分である。 さらに、既存のCNN行動評価ツールのほとんどは、2つのモデルの比較のみをサポートし、ユーザのニーズに応じて分析タスクをカスタマイズする柔軟性を欠いている。 本稿では,1つのCNNモデルの詳細な検査と2つ以上のモデルの比較研究を支援する視覚分析システムCNNComparator(CNNC)を提案する。 より多くの(例えば数十の)モデルを比較する能力は、特に我々のシステムを以前のモデルと区別する。 モデルビジュアライゼーションと説明サポートを慎重に設計したCNNCは、分析段階で定量情報と定性的情報の両方を即座に提示する高度にインタラクティブなワークフローを促進する。 我々は,ML実践者を支援するCNNCの有効性を,2つのユースケースによる複数のCNNモデルの評価・比較と,ImageNetデータセット上の画像分類タスクを用いた予備評価を行った。

The rapid development of Convolutional Neural Networks (CNNs) in recent years has triggered significant breakthroughs in many machine learning (ML) applications. The ability to understand and compare various CNN models available is thus essential. The conventional approach with visualizing each model's quantitative features, such as classification accuracy and computational complexity, is not sufficient for a deeper understanding and comparison of the behaviors of different models. Moreover, most of the existing tools for assessing CNN behaviors only support comparison between two models and lack the flexibility of customizing the analysis tasks according to user needs. This paper presents a visual analytics system, CNN Comparator (CNNC), that supports the in-depth inspection of a single CNN model as well as comparative studies of two or more models. The ability to compare a larger number of (e.g., tens of) models especially distinguishes our system from previous ones. With a carefully designed model visualization and explaining support, CNNC facilitates a highly interactive workflow that promptly presents both quantitative and qualitative information at each analysis stage. We demonstrate CNNC's effectiveness for assisting ML practitioners in evaluating and comparing multiple CNN models through two use cases and one preliminary evaluation study using the image classification tasks on the ImageNet dataset.
翻訳日:2021-10-27 16:15:18 公開日:2021-10-25
# ランダム探索法の2次収束特性について

On the Second-order Convergence Properties of Random Search Methods ( http://arxiv.org/abs/2110.13265v1 )

ライセンス: Link先を確認
Aurelien Lucchi, Antonio Orvieto, Adamos Solomou(参考訳) 非凸目的関数を導関数にアクセスできることなく最適化する際、ランダム探索法の理論的収束特性について検討する。 二階情報に依存しない標準ランダム探索手法が二階定常点に収束することを証明する。 しかし、それらは問題の入力次元の点で指数関数的な複雑さに悩まされる。 この問題に対処するために,関数評価にのみ依存して負の曲率を利用する新しいランダム探索法を提案する。 このアプローチがバニラ法よりもずっと速い速度で二階定常点に収束することを証明する:すなわち、関数評価の回数の点での複雑性は問題次元において線型である。 我々は経験的にアルゴリズムをテストし、理論結果と良い一致を見出す。

We study the theoretical convergence properties of random-search methods when optimizing non-convex objective functions without having access to derivatives. We prove that standard random-search methods that do not rely on second-order information converge to a second-order stationary point. However, they suffer from an exponential complexity in terms of the input dimension of the problem. In order to address this issue, we propose a novel variant of random search that exploits negative curvature by only relying on function evaluations. We prove that this approach converges to a second-order stationary point at a much faster rate than vanilla methods: namely, the complexity in terms of the number of function evaluations is only linear in the problem dimension. We test our algorithm empirically and find good agreements with our theoretical results.
翻訳日:2021-10-27 16:14:57 公開日:2021-10-25
# 自己教師型演算子学習による高速PDE制約最適化

Fast PDE-constrained optimization via self-supervised operator learning ( http://arxiv.org/abs/2110.13297v1 )

ライセンス: Link先を確認
Sifan Wang, Mohamed Aziz Bhouri, Paris Perdikaris(参考訳) 設計と最適制御問題は、科学と工学において私たちが直面する基本的なユビキタスなタスクの1つです。 どちらの場合も、実験を通してパフォーマンス/アウトカムを制御可能な変数のセットに関連付ける未知の(ブラックボックス)関数を表現し、最適化することを目指している。 実験力学が偏微分方程式(PDE)によって記述できる場合、そのような問題はPDE制約された最適化タスクに数学的に変換することができ、制御変数の数や実験コストが増加するにつれてすぐに難解になる。 本研究では,PDEの解演算子を学習する自己教師型フレームワークであるDeepONetsを用いて,PDEに制約された最適化問題を高速に解くための高速で微分可能なサロゲートを構築する。 提案手法の有効性は, 熱伝達の時間依存的最適制御, ストークス流中の障害物のドラッグ最小化など, 連続関数を制御や設計変数として含む様々なアプリケーションで実証される。 いずれの場合においても、deeponets は数秒で高次元のコスト汎関数を最小化でき、従来の随伴 pde ソルバと比較すると、比較的低次元の制御/設計パラメトリゼーションに制限される。

Design and optimal control problems are among the fundamental, ubiquitous tasks we face in science and engineering. In both cases, we aim to represent and optimize an unknown (black-box) function that associates a performance/outcome to a set of controllable variables through an experiment. In cases where the experimental dynamics can be described by partial differential equations (PDEs), such problems can be mathematically translated into PDE-constrained optimization tasks, which quickly become intractable as the number of control variables and the cost of experiments increases. In this work we leverage physics-informed deep operator networks (DeepONets) -- a self-supervised framework for learning the solution operator of parametric PDEs -- to build fast and differentiable surrogates for rapidly solving PDE-constrained optimization problems, even in the absence of any paired input-output training data. The effectiveness of the proposed framework will be demonstrated across different applications involving continuous functions as control or design variables, including time-dependent optimal control of heat transfer, and drag minimization of obstacles in Stokes flow. In all cases, we observe that DeepONets can minimize high-dimensional cost functionals in a matter of seconds, yielding a significant speed up compared to traditional adjoint PDE solvers that are typically costly and limited to relatively low-dimensional control/design parametrizations.
翻訳日:2021-10-27 16:14:47 公開日:2021-10-25
# SPHの物理インフォームド機械学習:機械学習ラグランジアン乱流

Physics Informed Machine Learning of SPH: Machine Learning Lagrangian Turbulence ( http://arxiv.org/abs/2110.13311v1 )

ライセンス: Link先を確認
Michael Woodward, Yifeng Tian, Criston Hyett, Chris Fryer, Daniel Livescu, Mikhail Stepanov, Michael Chertkov(参考訳) スムース粒子流体力学(Smoothed Particle hydrodynamics、SPH)は、流体力学の方程式の近似的な数値解を求めるメッシュフリーラグランジアン法である。 本稿では,物理ベースのパラメータとニューラルネットワーク(nns)を共通関数近似器として用いた,パラメータ化および"物理説明可能な"spfインフォームド流体シミュレータの学習可能な階層を提案する。 学習アルゴリズムは,前方および逆モードの自動微分と前方および隣接に基づく感度解析を混合し,勾配に基づく最適化を効率的に行う混合モード手法を開発した。 物理情報学習法は,次のような能力を持つことを示す。 a) 物理的に解釈可能なパラメータ空間やNNパラメータの空間上の逆問題を解決すること。 (b)乱流のラグランジュ統計学(補間) (c)ラグランジュ軌道に基づく確率的およびユーレウス場に基づく損失関数を組み合わせたもの (d)トレーニングセットを超えて、より複雑な利害体制に外挿すること。 さらに,このモデル階層は徐々に物理構造を導入し,解釈性,一般化性(時間スケールやレイノルズ数の拡大),物理対称性の保存,トレーニングデータの削減が期待できる。

Smoothed particle hydrodynamics (SPH) is a mesh-free Lagrangian method for obtaining approximate numerical solutions of the equations of fluid dynamics; which has been widely applied to weakly- and strongly compressible turbulence in astrophysics and engineering applications. We present a learn-able hierarchy of parameterized and "physics-explainable& quot; SPH informed fluid simulators using both physics based parameters and Neural Networks (NNs) as universal function approximators. Our learning algorithm develops a mixed mode approach, mixing forward and reverse mode automatic differentiation with forward and adjoint based sensitivity analyses to efficiently perform gradient based optimization. We show that our physics informed learning method is capable of: (a) solving inverse problems over the physically interpretable parameter space, as well as over the space of NN parameters; (b) learning Lagrangian statistics of turbulence (interpolation); (c) combining Lagrangian trajectory based, probabilistic, and Eulerian field based loss functions; and (d) extrapolating beyond training sets into more complex regimes of interest. Furthermore, this hierarchy of models gradually introduces more physical structure, which we show improves interpretability, generalizability (over larger ranges of time scales and Reynolds numbers), preservation of physical symmetries, and requires less training data.
翻訳日:2021-10-27 16:14:20 公開日:2021-10-25
# リチウムイオン電池劣化診断と予後のための校正不確かさを用いたハイブリッド物理とデータ駆動モデリング

Hybrid physics-based and data-driven modeling with calibrated uncertainty for lithium-ion battery degradation diagnosis and prognosis ( http://arxiv.org/abs/2110.13661v1 )

ライセンス: Link先を確認
Jing Lin, Yu Zhang, Edwin Khoo(参考訳) リチウムイオン電池(LIB)の設計と使用の強化は、今後数十年で人為的な気候変動を緩和するための電化を促進する鍵となる。 LIB劣化の不十分な理解は、バッテリーの耐久性と安全性を制限する重要なボトルネックである。 本稿では,オンライン診断とバッテリー劣化診断のためのハイブリッド物理とデータ駆動モデリングを提案する。 既存のバッテリモデリングと比較して,物理をバックボーンとし,統計的学習技術を改良したモデルの構築を目指している。 このようなハイブリッドモデルは、予測にまつわる明確な不確実性とともに、より一般化可能性と解釈可能性が高く、現実的な利用シナリオの下では、より価値が高く、安全クリティカルなアプリケーションと関係がある。

Advancing lithium-ion batteries (LIBs) in both design and usage is key to promoting electrification in the coming decades to mitigate human-caused climate change. Inadequate understanding of LIB degradation is an important bottleneck that limits battery durability and safety. Here, we propose hybrid physics-based and data-driven modeling for online diagnosis and prognosis of battery degradation. Compared to existing battery modeling efforts, we aim to build a model with physics as its backbone and statistical learning techniques as enhancements. Such a hybrid model has better generalizability and interpretability together with a well-calibrated uncertainty associated with its prediction, rendering it more valuable and relevant to safety-critical applications under realistic usage scenarios.
翻訳日:2021-10-27 16:10:07 公開日:2021-10-25
# コントラスト学習を用いた画質評価

Image Quality Assessment using Contrastive Learning ( http://arxiv.org/abs/2110.13266v1 )

ライセンス: Link先を確認
Pavan C. Madhusudana, Neil Birkbeck, Yilin Wang, Balu Adsumilli, Alan C. Bovik(参考訳) 画像品質表現を自己監督的に取得する問題を考察する。 合成および現実的な歪みの混合を含むラベルのない画像データセットから特徴を学習するために,歪みタイプと次数の予測を補助タスクとして使用する。 次に,コンボリューション深層ニューラルネットワーク(cnn)を,相反するペアワイズ目標を用いて学習し,補助問題を解く。 提案したトレーニングフレームワークと結果の深いIQAモデルを,ConTRastive Image QUality Evaluator (CONTRIQUE)と呼ぶ。 評価中、CNN重みは凍結され、線形回帰器は学習した表現をNo-Reference(NR)設定で品質スコアにマッピングする。 我々は,CNNバックボーンの微調整を伴わずとも,最先端のNR画像品質モデルと比較して競争性能が向上することを示す。 学習された表現は高度に頑健であり、合成または真正の歪みによって引き起こされる画像によく一般化される。 以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。 本論文で使用する実装は \url{https://github.com/p avancm/contrique} で利用可能である。

We consider the problem of obtaining image quality representations in a self-supervised manner. We use prediction of distortion type and degree as an auxiliary task to learn features from an unlabeled image dataset containing a mixture of synthetic and realistic distortions. We then train a deep Convolutional Neural Network (CNN) using a contrastive pairwise objective to solve the auxiliary problem. We refer to the proposed training framework and resulting deep IQA model as the CONTRastive Image QUality Evaluator (CONTRIQUE). During evaluation, the CNN weights are frozen and a linear regressor maps the learned representations to quality scores in a No-Reference (NR) setting. We show through extensive experiments that CONTRIQUE achieves competitive performance when compared to state-of-the-art NR image quality models, even without any additional fine-tuning of the CNN backbone. The learned representations are highly robust and generalize well across images afflicted by either synthetic or authentic distortions. Our results suggest that powerful quality representations with perceptual relevance can be obtained without requiring large labeled subjective image quality datasets. The implementations used in this paper are available at \url{https://github.com/p avancm/CONTRIQUE}.
翻訳日:2021-10-27 16:08:15 公開日:2021-10-25
# データ融合と転送学習のための共分散一般化マッチング成分分析

Covariance-Generaliz ed Matching Component Analysis for Data Fusion and Transfer Learning ( http://arxiv.org/abs/2110.13194v1 )

ライセンス: Link先を確認
Nick Lorenzo, Sean O'Rourke, Theresa Scarnati(参考訳) データ融合および転送学習アプリケーションにおける追加統計情報の符号化を可能にするため、マッチング成分分析(MCA)転送学習技術のための一般化共分散制約を導入する。 半直交制約付きトレース最大化補題を証明した後、結果の共分散一般化最適化問題に対する閉形式解を開発し、その計算のためのアルゴリズムを提供する。 データ融合と転送学習の両方に適用可能な、共分散一般化MCA(CGMCA)と呼ぶ。

In order to allow for the encoding of additional statistical information in data fusion and transfer learning applications, we introduce a generalized covariance constraint for the matching component analysis (MCA) transfer learning technique. After proving a semi-orthogonally constrained trace maximization lemma, we develop a closed-form solution to the resulting covariance-generaliz ed optimization problem and provide an algorithm for its computation. We call this technique -- applicable to both data fusion and transfer learning -- covariance-generaliz ed MCA (CGMCA).
翻訳日:2021-10-27 16:07:29 公開日:2021-10-25
# ニューラルネットワークトレーニング用メモリ可視化ツール

Memory visualization tool for training neural network ( http://arxiv.org/abs/2110.13264v1 )

ライセンス: Link先を確認
Mahendran N(参考訳) ソフトウェア開発は、システムソフトウェア、オープンソース、アプリケーションソフトウェアなど、世界をより良くするのに役立つ。 ソフトウェアエンジニアリングは、実際のSEタスクでの有効性を示すために、コード提案やバグレポートの要約などにニューラルネットワークモデルを適用する。 ソフトウェアと機械学習のアルゴリズムを組み合わせることで、ソフトウェアはより良いソリューションと環境理解を提供する。 ソフトウェアには、世界中の問題を解決するのに役立つ汎用アプリケーションと、特定のコミュニティに役立つ特定のアプリケーションの両方があります。 ディープラーニングにおける計算上の課題に対処するため、多くのツールは、マルチコアCPUやマルチコアGPUなどのハードウェア機能を活用して、トレーニング時間を短縮する。 機械学習アルゴリズムは、世界に大きな影響を与えるが、プロセス中にかなりの量のメモリ利用がある。 本稿では,ディープラーニングモデルの開発と学習に使用されるメモリの分析ツールを提案する。 我々のツールは同時にメモリの視覚的利用をもたらす。 トレーニング中にメモリ利用に影響する様々なパラメータを解析する。 このツールは、より多くのメモリを消費するプロセスやモデルのより良い考えを知るのに役立ちます。

Software developed helps world a better place ranging from system software, open source, application software and so on. Software engineering does have neural network models applied to code suggestion, bug report summarizing and so on to demonstrate their effectiveness at a real SE task. Software and machine learning algorithms combine to make software give better solutions and understanding of environment. In software, there are both generalized applications which helps solve problems for entire world and also some specific applications which helps one particular community. To address the computational challenge in deep learning, many tools exploit hardware features such as multi-core CPUs and many-core GPUs to shorten the training time. Machine learning algorithms have a greater impact in the world but there is a considerable amount of memory utilization during the process. We propose a new tool for analysis of memory utilized for developing and training deep learning models. Our tool results in visual utilization of memory concurrently. Various parameters affecting the memory utilization are analysed while training. This tool helps in knowing better idea of processes or models which consumes more memory.
翻訳日:2021-10-27 15:46:42 公開日:2021-10-25
# 深層信念ネットワークの適応構造学習の微調整モデルを用いた画像に基づくき裂検出のための組込みシステム

An Embedded System for Image-based Crack Detection by using Fine-Tuning model of Adaptive Structural Learning of Deep Belief Network ( http://arxiv.org/abs/2110.13145v1 )

ライセンス: Link先を確認
Shin Kamada, Takumi Ichimura(参考訳) ディープラーニングは、入力空間のいくつかの特徴を効果的に表現し、深層アーキテクチャにおける画像認識性能を大幅に改善できるモデルとして成功している。 本研究では,Restricted Boltzmann Machine (Adaptive RBM) とDeep Belief Network (Adaptive DBN) の適応型構造学習法をディープラーニングモデルとして開発した。 モデルは、ニューロン生成消滅アルゴリズムにより、RBMに与えられた入力データに対して最適な隠れニューロン数を発見でき、訓練されたDBNの隠蔽層として適切な数のRBMを得ることができる自己組織化機能を有する。 本手法は,具体的な画像ベンチマークデータセットであるSDNET 2018を用いてき裂検出を行った。 このデータセットには、ブリッジデッキ、壁、舗装道路の3種類のコンクリート構造物の約56,000枚のクラック画像が含まれている。 アダプティブDBNの微調整方法は、3種類の構造物のテストデータセットの99.7%、99.7%、99.4%の分類精度を示すことができる。 本稿では,提案するAdaptive DBNを,ドローンのリアルタイム推論のためのGPUを備えた小型PCに埋め込んだ。 高速な推論のために、微調整アルゴリズムはいくつかの不活性な隠れニューロンを除去して小さなモデルを作り、そのモデルが分類精度だけでなく推論速度も同時に改善することができた。 Nvidiaの組み込みシステムであるJetson Nano, AGX Xavier, Xavier NXで, 携帯型バッテリー充電器の動作速度と動作時間を評価した。

Deep learning has been a successful model which can effectively represent several features of input space and remarkably improve image recognition performance on the deep architectures. In our research, an adaptive structural learning method of Restricted Boltzmann Machine (Adaptive RBM) and Deep Belief Network (Adaptive DBN) have been developed as a deep learning model. The models have a self-organize function which can discover an optimal number of hidden neurons for given input data in a RBM by neuron generation-annihilat ion algorithm, and can obtain an appropriate number of RBM as hidden layers in the trained DBN. The proposed method was applied to a concrete image benchmark data set SDNET 2018 for crack detection. The dataset contains about 56,000 crack images for three types of concrete structures: bridge decks, walls, and paved roads. The fine-tuning method of the Adaptive DBN can show 99.7%, 99.7%, and 99.4% classification accuracy for test dataset of three types of structures. In this paper, our developed Adaptive DBN was embedded to a tiny PC with GPU for real-time inference on a drone. For fast inference, the fine tuning algorithm also removed some inactivated hidden neurons to make a small model and then the model was able to improve not only classification accuracy but also inference speed simultaneously. The inference speed and running time of portable battery charger were evaluated on three kinds of Nvidia embedded systems; Jetson Nano, AGX Xavier, and Xavier NX.
翻訳日:2021-10-27 15:45:05 公開日:2021-10-25
# まるで魔法のように:merlinによるディープデスペックリングネットワークの自己監督訓練

As if by magic: self-supervised training of deep despeckling networks with MERLIN ( http://arxiv.org/abs/2110.13148v1 )

ライセンス: Link先を確認
Emanuele Dalsasso, Lo\"ic Denis, Florence Tupin(参考訳) スペックル変動は合成開口レーダ(SAR)画像の解釈可能性を大幅に制限する。 このため、スペックル削減は少なくとも40年間にわたる数多くの作品の主題となっている。 ディープニューラルネットワークに基づく技術は、最近、SAR画像復元の品質の観点から、新たなレベルのパフォーマンスを達成した。 適切なネットワークアーキテクチャの設計や適切な損失関数の選択を超えて、トレーニングセットの構築は極めて重要である。 ネットワークは、スペックルフリーの参照画像に可能な限り近い出力を生成するように訓練されています。 スペックルのない画像は一般には入手できないが、地上の真実の欠如を回避するために、自然または光学的な画像や、長期にわたって安定した領域を選択する必要がある。 一方、セルフスーパービジョンはスペックルフリーの画像の使用を避ける。 本研究では,複合型自己教師付きデスペックリング(merlin:complex self-supervised despeckling)と呼ばれる,単眼の複雑なsar画像の現実的部分と想像上の部分の分離に基づく自己教師あり戦略を導入する。 MERLINで訓練されたネットワークは、所定のセンサと撮像モードに特有のSAR転送関数による空間的相関を考慮に入れている。 単一の画像しか必要とせず、おそらく大規模なアーカイブを活用すれば、MERLINはハッシュフリーの扉を開き、大規模な非特定ネットワークの訓練を行う。 トレーニングされたモデルのコードはhttps://gitlab.telec om-paris.fr/RING/MER LINで無償公開されている。

Speckle fluctuations seriously limit the interpretability of synthetic aperture radar (SAR) images. Speckle reduction has thus been the subject of numerous works spanning at least four decades. Techniques based on deep neural networks have recently achieved a new level of performance in terms of SAR image restoration quality. Beyond the design of suitable network architectures or the selection of adequate loss functions, the construction of training sets is of uttermost importance. So far, most approaches have considered a supervised training strategy: the networks are trained to produce outputs as close as possible to speckle-free reference images. Speckle-free images are generally not available, which requires resorting to natural or optical images or the selection of stable areas in long time series to circumvent the lack of ground truth. Self-supervision, on the other hand, avoids the use of speckle-free images. We introduce a self-supervised strategy based on the separation of the real and imaginary parts of single-look complex SAR images, called MERLIN (coMplex sElf-supeRvised despeckLINg), and show that it offers a straightforward way to train all kinds of deep despeckling networks. Networks trained with MERLIN take into account the spatial correlations due to the SAR transfer function specific to a given sensor and imaging mode. By requiring only a single image, and possibly exploiting large archives, MERLIN opens the door to hassle-free as well as large-scale training of despeckling networks. The code of the trained models is made freely available at https://gitlab.telec om-paris.fr/RING/MER LIN.
翻訳日:2021-10-27 15:44:40 公開日:2021-10-25
# 反射領域の効率的なレンダリングのための学習神経透過度

Learning Neural Transmittance for Efficient Rendering of Reflectance Fields ( http://arxiv.org/abs/2110.13272v1 )

ライセンス: Link先を確認
Mohammad Shafiei, Sai Bi, Zhengqin Li, Aidas Liaudanskas, Rodrigo Ortiz-Cayon, Ravi Ramamoorthi(参考訳) 近年,ニューラル・リフレクタンス・フィールドなどの神経容積表現が,新しい視点と照明条件の下で実世界の物体やシーンの出現を忠実に再現するために広く用いられている。 しかし、これらの表現を環境マップのような複雑な照明下でレンダリングすることは、個々の光線がそれぞれの光に向かって行進してサンプルされた点の透過率を計算することを必要とするため、依然として困難で時間がかかる。 本稿では,神経反射率場のレンダリングを高速化するために,予め計算した神経透過関数に基づく新しい手法を提案する。 我々のニューラルトランスミタンス機能は、退屈な光線マーキングを伴わずに、空間の任意の点における透過率を効率的にクエリできるので、レンダリングの時間的複雑さを効果的に低減できる。 本稿では,ニューラルトランスミタンス関数の新たな定式化を提案し,コロケーションカメラと光で撮影した画像のニューラルリフレクタンスフィールドと共同で学習し,モノトニクスを強制する。 実シーンと合成シーンの結果は、最小の精度で環境マップ下でのレンダリングの2桁の高速化を示す。

Recently neural volumetric representations such as neural reflectance fields have been widely applied to faithfully reproduce the appearance of real-world objects and scenes under novel viewpoints and lighting conditions. However, it remains challenging and time-consuming to render such representations under complex lighting such as environment maps, which requires individual ray marching towards each single light to calculate the transmittance at every sampled point. In this paper, we propose a novel method based on precomputed Neural Transmittance Functions to accelerate the rendering of neural reflectance fields. Our neural transmittance functions enable us to efficiently query the transmittance at an arbitrary point in space along an arbitrary ray without tedious ray marching, which effectively reduces the time-complexity of the rendering. We propose a novel formulation for the neural transmittance function, and train it jointly with the neural reflectance fields on images captured under collocated camera and light, while enforcing monotonicity. Results on real and synthetic scenes demonstrate almost two order of magnitude speedup for renderings under environment maps with minimal accuracy loss.
翻訳日:2021-10-27 15:44:13 公開日:2021-10-25
# 操作動作認識と予測のための変分グラフオートエンコーダ

A Variational Graph Autoencoder for Manipulation Action Recognition and Prediction ( http://arxiv.org/abs/2110.13280v1 )

ライセンス: Link先を確認
Gamze Akyol, Sanem Sariel, Eren Erdal Aksoy(参考訳) 数十年にわたる研究にもかかわらず、人間の操作活動を理解することは、コンピュータビジョンとロボティクスにおける最も魅力的で挑戦的な研究の1つだ。 観察された人間の操作行動の認識と予測は、例えば人間とロボットの相互作用やデモからのロボット学習に関連する応用にルーツを持つ。 現在の研究トレンドは、RGBカメラ画像のような構造化ユークリッドデータを処理するための高度な畳み込みニューラルネットワークに大きく依存している。 しかし、これらのネットワークには高次元の生データを処理できる膨大な計算量がある。 関連する作業とは違って,構造化ユークリッドデータに頼るのではなく,記号的シーングラフから操作タスクの認識と予測を共同で学習するディープグラフオートエンコーダを導入する。 我々のネットワークは2つの分岐を持つ変分オートエンコーダ構造を持ち、1つは入力グラフタイプを識別し、もう1つは将来のグラフを予測する。 提案するネットワークの入力は、シーン内の被写体とオブジェクト間の空間関係を記憶するセマンティックグラフの集合である。 ネットワーク出力は、検出および予測されたクラスタイプを表すラベルセットである。 maniacとmsrc-9という2つの異なるデータセット上で,新たなモデルを最先端のメソッドに対してベンチマークし,提案手法が優れた性能を実現することを示す。 ソースコード https://github.com/g amzeakyol/GNet もリリースしています。

Despite decades of research, understanding human manipulation activities is, and has always been, one of the most attractive and challenging research topics in computer vision and robotics. Recognition and prediction of observed human manipulation actions have their roots in the applications related to, for instance, human-robot interaction and robot learning from demonstration. The current research trend heavily relies on advanced convolutional neural networks to process the structured Euclidean data, such as RGB camera images. These networks, however, come with immense computational complexity to be able to process high dimensional raw data. Different from the related works, we here introduce a deep graph autoencoder to jointly learn recognition and prediction of manipulation tasks from symbolic scene graphs, instead of relying on the structured Euclidean data. Our network has a variational autoencoder structure with two branches: one for identifying the input graph type and one for predicting the future graphs. The input of the proposed network is a set of semantic graphs which store the spatial relations between subjects and objects in the scene. The network output is a label set representing the detected and predicted class types. We benchmark our new model against different state-of-the-art methods on two different datasets, MANIAC and MSRC-9, and show that our proposed model can achieve better performance. We also release our source code https://github.com/g amzeakyol/GNet.
翻訳日:2021-10-27 15:43:53 公開日:2021-10-25
# 実ユーザによるセマンティックパーザと対話マネージャのオンライン共同強化学習実験からの発見

Findings from Experiments of On-line Joint Reinforcement Learning of Semantic Parser and Dialogue Manager with real Users ( http://arxiv.org/abs/2110.13213v1 )

ライセンス: Link先を確認
Matthieu Riou and Bassam Jabaian and St\'ephane Huet and Fabrice Lef\`evre(参考訳) 対話システムの設計は近年多くの進歩を目の当たりにしているが、膨大なデータ集合の獲得は、新しいタスクや言語への迅速な開発を妨げている。 さらに、バッチデータによるインタラクティブシステムのトレーニングも満足できない。 本論文では,これらの困難を緩和する便利な方法としてオンライン学習を追求する。 システムモジュールが起動すると、単一のプロセスがトレーニングアルゴリズムでデータ収集、アノテーション、使用を処理します。 新しい課題は、ユーザが生み出すオンライン学習のコストを制御することである。 本研究は,意味解析と対話管理モジュール(音声認識と合成が利用可能ソリューションを提供する)の学習に焦点を当てている。 この文脈では,ユーザ試験でテストされる同時学習のいくつかの変種について検討する。 実験では、様々なメリットを伴って、数百のトレーニングダイアログだけで優れたパフォーマンスを達成でき、手作りのシステムを追い越すことができます。 これらの実験の分析から,システムのトレーナが協調的かつ定常的な行動戦略を確立して,迅速かつ高品質なトレーニングフェーズを実現することの難しさに関する知見が得られた。

Design of dialogue systems has witnessed many advances lately, yet acquiring huge set of data remains an hindrance to their fast development for a new task or language. Besides, training interactive systems with batch data is not satisfactory. On-line learning is pursued in this paper as a convenient way to alleviate these difficulties. After the system modules are initiated, a single process handles data collection, annotation and use in training algorithms. A new challenge is to control the cost of the on-line learning borne by the user. Our work focuses on learning the semantic parsing and dialogue management modules (speech recognition and synthesis offer ready-for-use solutions). In this context we investigate several variants of simultaneous learning which are tested in user trials. In our experiments, with varying merits, they can all achieve good performance with only a few hundreds of training dialogues and overstep a handcrafted system. The analysis of these experiments gives us some insights, discussed in the paper, into the difficulty for the system's trainers to establish a coherent and constant behavioural strategy to enable a fast and good-quality training phase.
翻訳日:2021-10-27 15:25:36 公開日:2021-10-25
# 第4次産業革命技術への職業の露出

Exposure of occupations to technologies of the fourth industrial revolution ( http://arxiv.org/abs/2110.13317v1 )

ライセンス: Link先を確認
Benjamin Meindl, Morgan R. Frank, Joana Mendon\c{c}a(参考訳) 第4次産業革命(4IR)は経済に大きな影響を与える可能性が高い。 企業は新しい技術を実装するために能力を構築する必要があり、自動化によって一部の職業が時代遅れになる可能性がある。 しかし、いつ、いつ、どのように変化が起こるかは、まだ決定されていない。 職業に関連する技術進歩のロバストな実証指標は、この変化を照らすのに役立つ。 この目的により、特許データに基づく指標を提供する。 自然言語処理を用いて,900以上の職業における特許暴露スコアを算出し,それらに関連する技術進歩を表わす。 従来の4IRと4IRの特許露光を区別するレンズを提供する。 本手法は従来の手法と異なり,職業内におけるタスクレベルの特許露出の多様性を考慮し,作業活動をより正確に反映している。 4IR特許の露出は従来の特許の露出と異なることがわかった。 手作業、および建設や生産などの職業は、主に伝統的な(非4IR)特許に曝されるが、4IR特許には暴露されない。 この分析は、4IR技術が雇用の成長に悪影響を及ぼす可能性を示唆している。 さらに、他の自動化やAI露光スコアと4IR露光を比較した。 多くの測度が理論的な自動化の可能性を示しているが、特許に基づく指標は実際の技術の拡散を反映している。 私たちの研究は、4IR技術全体の影響を分析するだけでなく、AIやスマートオフィス技術といった300以上の技術分野の露出スコアも提供しています。 最後に、この研究は、将来の研究者が個別の露出測定を構築できるようにするタスクと作業に対する特許の一般的なマッピングを提供する。

The fourth industrial revolution (4IR) is likely to have a substantial impact on the economy. Companies need to build up capabilities to implement new technologies, and automation may make some occupations obsolete. However, where, when, and how the change will happen remain to be determined. Robust empirical indicators of technological progress linked to occupations can help to illuminate this change. With this aim, we provide such an indicator based on patent data. Using natural language processing, we calculate patent exposure scores for more than 900 occupations, which represent the technological progress related to them. To provide a lens on the impact of the 4IR, we differentiate between traditional and 4IR patent exposure. Our method differs from previous approaches in that it both accounts for the diversity of task-level patent exposures within an occupation and reflects work activities more accurately. We find that exposure to 4IR patents differs from traditional patent exposure. Manual tasks, and accordingly occupations such as construction and production, are exposed mainly to traditional (non-4IR) patents but have low exposure to 4IR patents. The analysis suggests that 4IR technologies may have a negative impact on job growth; this impact appears 10 to 20 years after patent filing. Further, we compared the 4IR exposure to other automation and AI exposure scores. Whereas many measures refer to theoretical automation potential, our patent-based indicator reflects actual technology diffusion. Our work not only allows analyses of the impact of 4IR technologies as a whole, but also provides exposure scores for more than 300 technology fields, such as AI and smart office technologies. Finally, the work provides a general mapping of patents to tasks and occupations, which enables future researchers to construct individual exposure measures.
翻訳日:2021-10-27 15:25:18 公開日:2021-10-25
# ネストグラフニューラルネットワーク

Nested Graph Neural Networks ( http://arxiv.org/abs/2110.13197v1 )

ライセンス: Link先を確認
Muhan Zhang, Pan Li(参考訳) グラフニューラルネットワーク(GNN)のグラフ分類における成功は、Weisfeiler-Lehman (1-WL)アルゴリズムと密接に関連している。 隣接ノードの機能を中心ノードに繰り返し集約することにより、1-WLとGNNは、中心ノードの周囲にルート付きサブツリーをエンコードするノード表現を得る。 これらのルート木表現は、グラフ全体を表現するために単一の表現にプールされる。 しかし、根付き部分木は非木グラフを表すために限定表現性を持つ。 そこで我々はNested Graph Neural Networks (NGNN)を提案する。 NGNNは、ルート付き部分木の代わりにルート付き部分グラフを持つグラフを表すため、多くの同一部分木を共有する2つのグラフは、同じ表現を持つ傾向がある。 鍵となるのは、各ノードの表現がサブツリーよりもその周りのサブグラフをエンコードすることだ。 これを実現するため、NGNNは各ノードの周囲の局所部分グラフを抽出し、各サブグラフにベースGNNを適用してサブグラフ表現を学習する。 グラフ全体の表現は、これらのサブグラフ表現をプールすることで得られる。 NGNNが1-WLよりも強力であることを示す厳密な理論解析を行った。 特に、NGNNは1-WLが常に失敗するほとんどすべてのr-正則グラフを識別できることを示した。 さらに、他の強力なGNNとは異なり、NGNNは標準のGNNよりも一定の時間的複雑さを導入するのみである。 NGNNは様々なベースGNNと組み合わせることができるプラグイン・アンド・プレイフレームワークである。 いくつかのベンチマークデータセットで異なるベースGNNでNGNNをテストする。 NGNNは、そのパフォーマンスを均一に改善し、すべてのデータセットで高い競争性能を示す。

Graph neural network (GNN)'s success in graph classification is closely related to the Weisfeiler-Lehman (1-WL) algorithm. By iteratively aggregating neighboring node features to a center node, both 1-WL and GNN obtain a node representation that encodes a rooted subtree around the center node. These rooted subtree representations are then pooled into a single representation to represent the whole graph. However, rooted subtrees are of limited expressiveness to represent a non-tree graph. To address it, we propose Nested Graph Neural Networks (NGNNs). NGNN represents a graph with rooted subgraphs instead of rooted subtrees, so that two graphs sharing many identical subgraphs (rather than subtrees) tend to have similar representations. The key is to make each node representation encode a subgraph around it more than a subtree. To achieve this, NGNN extracts a local subgraph around each node and applies a base GNN to each subgraph to learn a subgraph representation. The whole-graph representation is then obtained by pooling these subgraph representations. We provide a rigorous theoretical analysis showing that NGNN is strictly more powerful than 1-WL. In particular, we proved that NGNN can discriminate almost all r-regular graphs, where 1-WL always fails. Moreover, unlike other more powerful GNNs, NGNN only introduces a constant-factor higher time complexity than standard GNNs. NGNN is a plug-and-play framework that can be combined with various base GNNs. We test NGNN with different base GNNs on several benchmark datasets. NGNN uniformly improves their performance and shows highly competitive performance on all datasets.
翻訳日:2021-10-27 15:24:53 公開日:2021-10-25
# 知識グラフデータ拡張のための確率的フレームワーク

A Probabilistic Framework for Knowledge Graph Data Augmentation ( http://arxiv.org/abs/2110.13205v1 )

ライセンス: Link先を確認
Jatin Chauhan, Priyanshu Gupta, Pasquale Minervini(参考訳) NNMFAugは、知識グラフ補完作業のためのデータ拡張を行う確率的フレームワークであり、データ不足の問題に対処し、ニューラルネットワーク予測器の学習プロセスを強化することができる。 リンク予測モデルとデータセットの選択によらず,効率性と拡張性という利点を生かして,潜在的に多様なトリプルを生成することができる。 人気のあるモデルとベンチマークで実施された実験と分析は、NNMFAugがベースラインに顕著な改善をもたらすことを示している。

We present NNMFAug, a probabilistic framework to perform data augmentation for the task of knowledge graph completion to counter the problem of data scarcity, which can enhance the learning process of neural link predictors. Our method can generate potentially diverse triples with the advantage of being efficient and scalable as well as agnostic to the choice of the link prediction model and dataset used. Experiments and analysis done on popular models and benchmarks show that NNMFAug can bring notable improvements over the baselines.
翻訳日:2021-10-27 15:24:29 公開日:2021-10-25
# 学習世界モデルを用いた振り返り探索によるマルチタスク適応

Multitask Adaptation by Retrospective Exploration with Learned World Models ( http://arxiv.org/abs/2110.13241v1 )

ライセンス: Link先を確認
Artem Zholus and Aleksandr I. Panov(参考訳) モデルベース強化学習(MBRL)は、複雑なタスクをサンプル効率よく解くことができる。 しかし、タスク間で情報は再利用されない。 本稿では,MBRLエージェントが連続的に増大するタスク非依存記憶から得られるトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。 このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから前のタスクを解く有望な軌道を選択する。 このようなふりかえりの探索は,学習したダイナミクスと探索的軌跡を促進させることで,mbrlエージェントの学習プロセスを加速できることを示す。 私たちは、deepmindコントロールスイート、metaworld multitaskベンチマーク、そしてロボットのnvidia isaacシミュレータによって実装された、フォトリアリスティックでレイトレースされた環境で動作できるモデルの能力をテストするために、我々のアプローチをいくつかのドメインでテストします。

Model-based reinforcement learning (MBRL) allows solving complex tasks in a sample-efficient manner. However, no information is reused between the tasks. In this work, we propose a meta-learned addressing model called RAMa that provides training samples for the MBRL agent taken from continuously growing task-agnostic storage. The model is trained to maximize the expected agent's performance by selecting promising trajectories solving prior tasks from the storage. We show that such retrospective exploration can accelerate the learning process of the MBRL agent by better informing learned dynamics and prompting agent with exploratory trajectories. We test the performance of our approach on several domains from the DeepMind control suite, from Metaworld multitask benchmark, and from our bespoke environment implemented with a robotic NVIDIA Isaac simulator to test the ability of the model to act in a photorealistic, ray-traced environment.
翻訳日:2021-10-27 15:23:32 公開日:2021-10-25
# 一般文脈帯域におけるモデル選択のパレートフロンティア

The Pareto Frontier of model selection for general Contextual Bandits ( http://arxiv.org/abs/2110.13282v1 )

ライセンス: Link先を確認
Teodor V. Marinov and Julian Zimmert(参考訳) モデル選択の最近の進歩は、これらの技術の基本的限界を提起する。 特定の監視の下では、ネストしたポリシークラスを持つ一般的なコンテキストバンディットのモデル選択が行われ、colt2020のオープン問題が発生した。 これは、ネストされたポリシークラス内のすべてのポリシーに対して、最適な1つのアルゴリズムを同時に得ることができるかどうかを問うものであるが、そうでなければ、複雑性項と時間の間に$\ln(|\pi_m|)^{1-\alpha}t^\alpha$というトレードオフに対して可能である。 私たちはこの質問に残念な答えをする。 純粋に確率的な体制であっても、望ましい結果が得られない。 上界と下界に一致する対数的因子のパレートフロンティアを示すので、一般的な政策クラスでは$T$とは独立な複雑性項 $\ln(|\Pi_m|)$ の増加は避けられない。 結果として,全情報ゲームにおける2次境界に関するcolt2016オープン問題を解決した。

Recent progress in model selection raises the question of the fundamental limits of these techniques. Under specific scrutiny has been model selection for general contextual bandits with nested policy classes, resulting in a COLT2020 open problem. It asks whether it is possible to obtain simultaneously the optimal single algorithm guarantees over all policies in a nested sequence of policy classes, or if otherwise this is possible for a trade-off $\alpha\in[\frac{1}{2},1)$ between complexity term and time: $\ln(|\Pi_m|)^{1-\alpha}T^\alpha$. We give a disappointing answer to this question. Even in the purely stochastic regime, the desired results are unobtainable. We present a Pareto frontier of up to logarithmic factors matching upper and lower bounds, thereby proving that an increase in the complexity term $\ln(|\Pi_m|)$ independent of $T$ is unavoidable for general policy classes. As a side result, we also resolve a COLT2016 open problem concerning second-order bounds in full-information games.
翻訳日:2021-10-27 15:23:16 公開日:2021-10-25
# Emukitによる物理過程のエミュレーション

Emulation of physical processes with Emukit ( http://arxiv.org/abs/2110.13293v1 )

ライセンス: Link先を確認
Andrei Paleyes, Mark Pullin, Maren Mahsereci, Cliff McCollum, Neil D. Lawrence, Javier Gonzalez(参考訳) 不確かなシナリオにおける意思決定は、現実世界のシステムにおいてユビキタスな課題である。 この課題に対処するツールには、情報収集のためのシミュレーションや不確かさを定量化する統計エミュレーションが含まれる。 機械学習コミュニティは、意思決定を容易にする多くの方法を開発したが、これまでは複数の異なるツールキットに散らばっており、一般的には固定されたバックエンドに依存している。 本稿では,不確実性の下で意思決定を行うための高度に適応可能なPythonツールキットであるEmukitを提案する。 emukitはユーザーが 一 ベイズ最適化、多要素エミュレーション、実験設計、ベイズ二次解析及び感度解析を含む技術手法の使用状況 (ii)新しい問題に対する意思決定方法の試作が容易である。 emukitは基盤となるモデリングフレームワークに依存せず、ユーザーは独自のカスタムモデルを利用できる。 3つの模範事例研究でEmukitがどのように利用できるかを示す。

Decision making in uncertain scenarios is an ubiquitous challenge in real world systems. Tools to deal with this challenge include simulations to gather information and statistical emulation to quantify uncertainty. The machine learning community has developed a number of methods to facilitate decision making, but so far they are scattered in multiple different toolkits, and generally rely on a fixed backend. In this paper, we present Emukit, a highly adaptable Python toolkit for enriching decision making under uncertainty. Emukit allows users to: (i) use state of the art methods including Bayesian optimization, multi-fidelity emulation, experimental design, Bayesian quadrature and sensitivity analysis; (ii) easily prototype new decision making methods for new problems. Emukit is agnostic to the underlying modeling framework and enables users to use their own custom models. We show how Emukit can be used on three exemplary case studies.
翻訳日:2021-10-27 15:22:36 公開日:2021-10-25
# データの論理解析のための反復規則拡張:大データセットから解釈可能な二項分類を導出するMILPに基づくヒューリスティック

Iterative Rule Extension for Logic Analysis of Data: an MILP-based heuristic to derive interpretable binary classification from large datasets ( http://arxiv.org/abs/2110.13664v1 )

ライセンス: Link先を確認
Marleen Balvert(参考訳) データ駆動による意思決定が急速に普及し、利用可能なデータが増え続けており、線形入力と出力の関係を超えて識別できるモデルの開発が奨励されている。 同時に、これらのモデルに対する信頼とデータから抽象化できる情報の量の両方を改善するため、解釈可能な予測と分類方法の必要性が増している。 この解釈可能性の重要な側面は、複数の妥当な入力-出力関係によって構成される感度-特異性トレードオフの洞察を得ることである。 これらはしばしばレシーバー操作特性(ROC)曲線で示される。 これらの発展が組み合わさって、大量のサンプルやサンプル機能を含むデータなど、大規模データから複雑で解釈可能な入出力関係を抽象化できる方法が必要となる。 直交正規形(DNF)のブールフレーズは,非線形入力-出力関係を理解可能な方法で説明するのに非常に適している。 混合整数線形プログラミング(MILP)は、これらのブールフレーズをバイナリデータから抽象化するために用いられるが、その計算複雑性は大規模なデータセットの分析を妨げている。 この研究は、最大10,000のサンプルとサンプル特性を持つデータからDNFのブールフレーズを抽象化するアルゴリズムIRELANDを提示する。 その結果、大規模なデータセットIRELANDは現在の最先端よりも優れており、現在のモデルがメモリを使い果たしたり、過剰なランタイムを必要とするデータセットのソリューションを見つけることができる。 さらに、IRELANDは構成によって感度-特異性トレードオフ曲線の効率的な計算を可能にし、基礎となる入出力関係のさらなる理解を可能にする。

Data-driven decision making is rapidly gaining popularity, fueled by the ever-increasing amounts of available data and encouraged by the development of models that can identify beyond linear input-output relationships. Simultaneously the need for interpretable prediction- and classification methods is increasing, as this improves both our trust in these models and the amount of information we can abstract from data. An important aspect of this interpretability is to obtain insight in the sensitivity-specific ity trade-off constituted by multiple plausible input-output relationships. These are often shown in a receiver operating characteristic (ROC) curve. These developments combined lead to the need for a method that can abstract complex yet interpretable input-output relationships from large data, i.e. data containing large numbers of samples and sample features. Boolean phrases in disjunctive normal form (DNF) are highly suitable for explaining non-linear input-output relationships in a comprehensible way. Mixed integer linear programming (MILP) can be used to abstract these Boolean phrases from binary data, though its computational complexity prohibits the analysis of large datasets. This work presents IRELAND, an algorithm that allows for abstracting Boolean phrases in DNF from data with up to 10,000 samples and sample characteristics. The results show that for large datasets IRELAND outperforms the current state-of-the-art and can find solutions for datasets where current models run out of memory or need excessive runtimes. Additionally, by construction IRELAND allows for an efficient computation of the sensitivity-specific ity trade-off curve, allowing for further understanding of the underlying input-output relationship.
翻訳日:2021-10-27 15:18:19 公開日:2021-10-25
# 埋め込み出力による教師なしパラフレーズの多様性向上

Improving the Diversity of Unsupervised Paraphrasing with Embedding Outputs ( http://arxiv.org/abs/2110.13231v1 )

ライセンス: Link先を確認
Monisha Jegadeesan, Sachin Kumar, John Wieting, Yulia Tsvetkov(参考訳) ゼロショットパラフレーズ生成のための新しい手法を提案する。 重要なコントリビューションは、翻訳された並列コーパスを使用してトレーニングされたエンドツーエンドの多言語パラフレーズモデルで、パラフレーズを"意味空間"に生成し、最終的なソフトマックス層を単語埋め込みに置き換える。 このアーキテクチャ修正に加えて、自動エンコーディングの目的を組み込んだトレーニング手順は、より流動的なモノリンガルな書き換えのために言語間で効果的なパラメータ共有を可能にし、生成の流布と多様性を促進する。 連続出力パラフレーズ生成モデルは、計算量と人的評価の電池を用いて2言語で評価した場合、ゼロショットパラフレーズベースラインを上回った。

We present a novel technique for zero-shot paraphrase generation. The key contribution is an end-to-end multilingual paraphrasing model that is trained using translated parallel corpora to generate paraphrases into "meaning spaces" -- replacing the final softmax layer with word embeddings. This architectural modification, plus a training procedure that incorporates an autoencoding objective, enables effective parameter sharing across languages for more fluent monolingual rewriting, and facilitates fluency and diversity in generation. Our continuous-output paraphrase generation models outperform zero-shot paraphrasing baselines when evaluated on two languages using a battery of computational metrics as well as in human assessment.
翻訳日:2021-10-27 15:04:51 公開日:2021-10-25
# グラフニューラルネットワークによる交通シナリオ計画

Transportation Scenario Planning with Graph Neural Networks ( http://arxiv.org/abs/2110.13202v1 )

ライセンス: Link先を確認
Ana Alice Peregrino and Soham Pradhan and Zhicheng Liu and Nivan Ferreira and Fabio Miranda(参考訳) 効率的な人力サービスとインフラを提供することは、世界中の中規模から大都市の主要な関心事の1つだ。 したがって、通勤流のダイナミクスを適切に理解することは、都市部をより良く計画するための必要条件である。 この文脈では、将来の変化が評価される仮説的なシナリオを研究することが重要な課題である。 例えば、近隣の住宅や交通手段の増加は、その地域への通勤の流れをどのように変えるのか。 本稿では,最近導入されたグラフニューラルネットワークモデルであるgmelを活用して,異なる土地利用とインフラシナリオを考慮した通勤流の変化を評価することを提案する。 ブラジルの2大都市における実世界事例研究を通じて,本手法の有効性を検証する。

Providing efficient human mobility services and infrastructure is one of the major concerns of most mid-sized to large cities around the world. A proper understanding of the dynamics of commuting flows is, therefore, a requisite to better plan urban areas. In this context, an important task is to study hypothetical scenarios in which possible future changes are evaluated. For instance, how the increase in residential units or transportation modes in a neighborhood will change the commuting flows to or from that region? In this paper, we propose to leverage GMEL, a recently introduced graph neural network model, to evaluate changes in commuting flows taking into account different land use and infrastructure scenarios. We validate the usefulness of our methodology through real-world case studies set in two large cities in Brazil.
翻訳日:2021-10-27 14:21:41 公開日:2021-10-25
# 部分測定物理系制御のための変分枠組み--視覚神経科学と光ランダムメディアの例

Variational framework for partially-measured physical system control: examples of vision neuroscience and optical random media ( http://arxiv.org/abs/2110.13228v1 )

ライセンス: Link先を確認
Babak Rahmani, Demetri Psaltis and Christophe Moser(参考訳) 物理システムが所望通りに振る舞うことを特徴付けるためには、その基礎となる支配規則を事前に知っておくか、システム自体を正確に測定しなければならない。 システムの完全な測定の複雑さは、そのサイズとともにスケールする。 摂動や時変といった現実世界の条件にさらされると、固定された作業条件に調整されたシステムは、非自明な再調整を必要とする可能性がある。 本研究では,物理システムから所望の目標出力を得るための学習手順を提案する。 変分自動エンコーダ(VAE)を用いてシステム機能の生成モデルを提供し,このモデルを用いて,対象出力を生成するシステムに必要な入力を取得する。 光物理と神経科学の2つのデータセットに対する本手法の適用性を示す。

To characterize a physical system to behave as desired, either its underlying governing rules must be known a priori or the system itself be accurately measured. The complexity of full measurements of the system scales with its size. When exposed to real-world conditions, such as perturbations or time-varying settings, the system calibrated for a fixed working condition might require non-trivial re-calibration, a process that could be prohibitively expensive, inefficient and impractical for real-world use cases. In this work, we propose a learning procedure to obtain a desired target output from a physical system. We use Variational Auto-Encoders (VAE) to provide a generative model of the system function and use this model to obtain the required input of the system that produces the target output. We showcase the applicability of our method for two datasets in optical physics and neuroscience.
翻訳日:2021-10-27 14:21:31 公開日:2021-10-25
# 局所最小値探索のための高速摂動確率勾配法

Faster Perturbed Stochastic Gradient Methods for Finding Local Minima ( http://arxiv.org/abs/2110.13144v1 )

ライセンス: Link先を確認
Zixiang Chen and Dongruo Zhou and Quanquan Gu(参考訳) サドルポイントから逃れて局所ミニマを見つけることは、非凸最適化における中心的な問題である。 摂動勾配法はおそらくこの問題の最も単純な方法である。 しかし、(\epsilon, \sqrt{\epsilon})$-approximate local minimaを見つけるには、このタイプのアルゴリズムの既存の最良の確率的勾配複雑性は$\tilde o(\epsilon^{-3.5})$であり、最適ではない。 本稿では,局所極小を見つけるためのより高速な摂動確率勾配フレームワークである \texttt{pullback} を提案する。 SARAH/SPIDER や STORM のような確率勾配推定器を用いたプルバックは$(\epsilon, \epsilon_{H})$-approximate local minima in $\tilde O(\epsilon^{-3} + \epsilon_{H}^{-6})$ stochastic gradient evaluations (または $\tilde O(\epsilon^{-3})$ if $\epsilon_H = \sqrt{\epsilon}$) で得られることを示す。 我々のフレームワークの中核となる考え方は、反復体の平均運動を制御するステップサイズ ``pullback'' スキームであり、局所ミニマへのより高速な収束をもたらす。 行列分解問題の実験は我々の理論を裏付ける。

Escaping from saddle points and finding local minima is a central problem in nonconvex optimization. Perturbed gradient methods are perhaps the simplest approach for this problem. However, to find $(\epsilon, \sqrt{\epsilon})$-approximate local minima, the existing best stochastic gradient complexity for this type of algorithms is $\tilde O(\epsilon^{-3.5})$, which is not optimal. In this paper, we propose \texttt{Pullback}, a faster perturbed stochastic gradient framework for finding local minima. We show that Pullback with stochastic gradient estimators such as SARAH/SPIDER and STORM can find $(\epsilon, \epsilon_{H})$-approximate local minima within $\tilde O(\epsilon^{-3} + \epsilon_{H}^{-6})$ stochastic gradient evaluations (or $\tilde O(\epsilon^{-3})$ when $\epsilon_H = \sqrt{\epsilon}$). The core idea of our framework is a step-size ``pullback'' scheme to control the average movement of the iterates, which leads to faster convergence to the local minima. Experiments on matrix factorization problems corroborate our theory.
翻訳日:2021-10-27 14:17:53 公開日:2021-10-25
# 独立成分分析による単一ヒト細胞のラマン顕微鏡像のスペクトルアンミキシング

Spectral unmixing of Raman microscopic images of single human cells using Independent Component Analysis ( http://arxiv.org/abs/2110.13189v1 )

ライセンス: Link先を確認
M. Hamed Mozaffari and Li-Lin Tay(参考訳) 高分解能ラマン写像の非混合・画像クラスタリング技術としての独立成分分析(ICA)の適用について報告する。 固定されたヒト細胞のハイパースペクトルマップをラマンマイクロ分光計で0.5mグリッド上のラスターパターンで収集した。 主成分分析などの教師なし機械学習技術とは異なり、ICAは非ガウス性および統計的なデータの独立性に基づいており、これはラマンスペクトルの混合である。 したがって、ICAはラマンスペクトルのスペクトルハイパーキューブから擬色写像を組み立てるための優れた候補である。 実験の結果,ICAはヒト細胞のラマン高スペクトルデータの偽色マップを再構築でき,核領域の構成成分や細胞質の細胞外器官,ミトコンドリアの核内分布が観察できることがわかった。 ICA法の最小前処理条件とラベルフリー性は、生きた細胞のラマンハイパースペクトルマップにおけるエンドメンバーの抽出に優れた未混合法である。

Application of independent component analysis (ICA) as an unmixing and image clustering technique for high spatial resolution Raman maps is reported. A hyperspectral map of a fixed human cell was collected by a Raman micro spectrometer in a raster pattern on a 0.5um grid. Unlike previously used unsupervised machine learning techniques such as principal component analysis, ICA is based on non-Gaussianity and statistical independence of data which is the case for mixture Raman spectra. Hence, ICA is a great candidate for assembling pseudo-colour maps from the spectral hypercube of Raman spectra. Our experimental results revealed that ICA is capable of reconstructing false colour maps of Raman hyperspectral data of human cells, showing the nuclear region constituents as well as subcellular organelle in the cytoplasm and distribution of mitochondria in the perinuclear region. Minimum preprocessing requirements and label-free nature of the ICA method make it a great unmixed method for extraction of endmembers in Raman hyperspectral maps of living cells.
翻訳日:2021-10-27 13:52:47 公開日:2021-10-25
# 視覚・言語ナビゲーション用マルチモーダルトランスの履歴認識

History Aware Multimodal Transformer for Vision-and-Language Navigation ( http://arxiv.org/abs/2110.13309v1 )

ライセンス: Link先を確認
Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, Ivan Laptev(参考訳) vision-and-language navigation(vln)は、指示に従って実際のシーンをナビゲートする自律的なビジュアルエージェントを構築することを目的としている。 以前訪れた場所やアクションを思い出すために、vlnのほとんどのアプローチは、リカレント状態を使用してメモリを実装する。 代わりに、長い水平履歴をマルチモーダル意思決定に組み込むために、History Aware Multimodal Transformer (HAMT)を導入する。 HAMTは、まず個々の画像をViTで符号化し、パノラマ観測における画像間の空間的関係をモデル化し、最後に歴史におけるパノラマ間の時間的関係を考慮に入れた階層的視覚変換器(ViT)を介して、過去のパノラマ観測を効率的に符号化する。 そして、テキスト、履歴、現在の観察を共同で組み合わせ、次のアクションを予測する。 まず,single step action predictionとspatial relation predictionを含む複数のプロキシタスクを使用してhamtエンドツーエンドをトレーニングし,さらに強化学習を用いてナビゲーションポリシーをさらに改善する。 HAMTは、細粒度命令付きVLN(R2R, RxR)、高レベル命令(R2R-Last, REVERIE)、ダイアログ(CVDN)、長い水平VLN(R4R, R2R-Back)など、幅広いVLNタスクの新たな状態を達成する。 HAMTは航路を長くしたナビゲーションタスクに特に有効であることを示す。

Vision-and-language navigation (VLN) aims to build autonomous visual agents that follow instructions and navigate in real scenes. To remember previously visited locations and actions taken, most approaches to VLN implement memory using recurrent states. Instead, we introduce a History Aware Multimodal Transformer (HAMT) to incorporate a long-horizon history into multimodal decision making. HAMT efficiently encodes all the past panoramic observations via a hierarchical vision transformer (ViT), which first encodes individual images with ViT, then models spatial relation between images in a panoramic observation and finally takes into account temporal relation between panoramas in the history. It, then, jointly combines text, history and current observation to predict the next action. We first train HAMT end-to-end using several proxy tasks including single step action prediction and spatial relation prediction, and then use reinforcement learning to further improve the navigation policy. HAMT achieves new state of the art on a broad range of VLN tasks, including VLN with fine-grained instructions (R2R, RxR), high-level instructions (R2R-Last, REVERIE), dialogs (CVDN) as well as long-horizon VLN (R4R, R2R-Back). We demonstrate HAMT to be particularly effective for navigation tasks with longer trajectories.
翻訳日:2021-10-27 13:52:10 公開日:2021-10-25
# DeepHelp: ショート危機テキスト会話のためのディープラーニング

DeepHelp: Deep Learning for Shout Crisis Text Conversations ( http://arxiv.org/abs/2110.13244v1 )

ライセンス: Link先を確認
Daniel Cahn(参考訳) shout crisis text lineは、メンタルヘルス危機を経験した個人に、訓練された危機ボランティア(cv)と匿名のテキストメッセージ会話をする機会を提供する。 このプロジェクトはshoutとその親組織であるmental health innovationsと提携して、shoutの会話の理解とサービスの改善における機械学習の応用を探求する。 本研究の目的は,危機的テキストメッセージに深層学習を適用する可能性を示す概念実証モデルを開発することである。 具体的には,(1)自尊心や自尊心のリスクを予測するための深層学習,(2)ロバストな指標を用いた会話の成功度とcvスキルの評価、(3)テキスト作成者調査から,テキスト作成者が調査を終えなかった会話まで,人口統計情報を抽出することを目的とする。 これらの目的のために、ディープラーニングへのコントリビューションには、Transformer-over-BER Tモデルの変更、スパースラベルの存在下で一般化を改善するマルチタスク学習のためのフレームワーク、バイアス付きトレーニングセットから人口パラメータを推定するために不完全な機械学習モデルを使用する数学的モデルが含まれる。 主な成果は、訓練されたCVよりも自殺リスクを予測するパフォーマンスが向上する深層学習モデルと、テキストが88.4%の精度で21歳以下かどうかを予測する能力である。 会話の成功のための3つの指標を作成し,それぞれの有効性と有用性を評価する。 最後に、参加バイアスの逆転は、関連するテキストサーベイで80.3%の会話をする女性は、すべての会話の73.5%から74.8%に近づき、また、会話が役に立ったかどうかをテキストが共有している場合、肯定的な回答は85.1%から45.45%から46.51%に低下する。

The Shout Crisis Text Line provides individuals undergoing mental health crises an opportunity to have an anonymous text message conversation with a trained Crisis Volunteer (CV). This project partners with Shout and its parent organisation, Mental Health Innovations, to explore the applications of Machine Learning in understanding Shout's conversations and improving its service. The overarching aim of this project is to develop a proof-of-concept model to demonstrate the potential of applying deep learning to crisis text messages. Specifically, this project aims to use deep learning to (1) predict an individual's risk of suicide or self-harm, (2) assess conversation success and CV skill using robust metrics, and (3) extrapolate demographic information from a texter survey to conversations where the texter did not complete the survey. To these ends, contributions to deep learning include a modified Transformer-over-BER T model; a framework for multitask learning to improve generalisation in the presence of sparse labels; and a mathematical model for using imperfect machine learning models to estimate population parameters from a biased training set. Key results include a deep learning model with likely better performance at predicting suicide risk than trained CVs and the ability to predict whether a texter is 21 or under with 88.4% accuracy. We produce three metrics for conversation success and evaluate the validity and usefulness for each. Finally, reversal of participation bias provides evidence that women, who make up 80.3% of conversations with an associated texter survey, make up closer to 73.5%- 74.8% of all conversations; and that if, after every conversation, the texter had shared whether they found their conversation helpful, affirmative answers would fall from 85.1% to 45.45% - 46.51%.
翻訳日:2021-10-27 13:49:33 公開日:2021-10-25
# CLLD:テキスト分類のためのラベル距離を用いたコントラスト学習

CLLD: Contrastive Learning with Label Distance for Text Classificatioin ( http://arxiv.org/abs/2110.13656v1 )

ライセンス: Link先を確認
Jinhe Lan, Qingyuan Zhan, Chenhao Jiang, Kunping Yuan, Desheng Wang(参考訳) 既存の事前訓練されたモデルは、様々なテキスト分類タスクで最先端のパフォーマンスを達成した。 これらのモデルは普遍言語表現の学習に有用であることが証明されている。 しかし、類似したテキスト間の意味的不一致は、事前学習された高度なモデルでは効果的に区別できないため、区別が難しいクラスのパフォーマンスに大きな影響を与えている。 この問題に対処するために,本研究では,ラベル距離を用いたコントラスト学習(CLLD)を提案する。 近年のコントラスト学習の進歩に触発され,コントラストクラス学習のためのラベル距離を用いた分類法を特に設計した。 CLLDは、ラベルの割り当てに繋がる微妙な違いの中で柔軟性を確保し、類似性を持つクラスごとに異なる表現を生成する。 公開ベンチマークと内部データセットの大規模な実験により,本手法が事前学習されたモデルの性能を向上させることを示す。 重要な点として,学習ラベル距離はクラス間の敵意を緩和することが示唆された。

Existed pre-trained models have achieved state-of-the-art performance on various text classification tasks. These models have proven to be useful in learning universal language representations. However, the semantic discrepancy between similar texts cannot be effectively distinguished by advanced pre-trained models, which have a great influence on the performance of hard-to-distinguish classes. To address this problem, we propose a novel Contrastive Learning with Label Distance (CLLD) in this work. Inspired by recent advances in contrastive learning, we specifically design a classification method with label distance for learning contrastive classes. CLLD ensures the flexibility within the subtle differences that lead to different label assignments, and generates the distinct representations for each class having similarity simultaneously. Extensive experiments on public benchmarks and internal datasets demonstrate that our method improves the performance of pre-trained models on classification tasks. Importantly, our experiments suggest that the learned label distance relieve the adversarial nature of interclasses.
翻訳日:2021-10-27 13:48:38 公開日:2021-10-25
# 非負行列分解による多視点データの統合クラスタリング

Integrative Clustering of Multi-View Data by Nonnegative Matrix Factorization ( http://arxiv.org/abs/2110.13240v1 )

ライセンス: Link先を確認
Shuo Shuo Liu and Lin Lin(参考訳) マルチビューデータの学習は機械学習研究において新たな問題であり、非負行列分解(NMF)は複数のビューから情報を統合するための一般的な次元性還元法である。 これらの見解はしばしばコンセンサスだけでなく多様な情報も提供する。 しかし、多くのマルチビューnmfアルゴリズムは、各ビューに等しい重みを割り当てたり、ラインサーチを通じて経験的に重みを調整したりする。 本稿では,重み付きマルチビューNMF(WM-NMF)アルゴリズムを提案する。 特に,ビュー固有の重みと観察特有の重みを学習し,各ビューの情報内容を定量化することを目的とする。 導入された重み付けスキームは不要なビューの悪影響を緩和し、より小さいビューとより大きなビューを割り当てることで重要なビューのポジティブな効果を増大させることができる。 さらに,WM-NMFアルゴリズムの収束,摂動解析,一般化誤差について理論的検討を行った。 提案アルゴリズムの有効性と利点を,クラスタリング性能の向上と,既存のアルゴリズムと比較して劣化したデータ処理の観点から検証した。

Learning multi-view data is an emerging problem in machine learning research, and nonnegative matrix factorization (NMF) is a popular dimensionality-reduc tion method for integrating information from multiple views. These views often provide not only consensus but also diverse information. However, most multi-view NMF algorithms assign equal weight to each view or tune the weight via line search empirically, which can be computationally expensive or infeasible without any prior knowledge of the views. In this paper, we propose a weighted multi-view NMF (WM-NMF) algorithm. In particular, we aim to address the critical technical gap, which is to learn both view-specific and observation-specific weights to quantify each view's information content. The introduced weighting scheme can alleviate unnecessary views' adverse effects and enlarge the positive effects of the important views by assigning smaller and larger weights, respectively. In addition, we provide theoretical investigations about the convergence, perturbation analysis, and generalization error of the WM-NMF algorithm. Experimental results confirm the effectiveness and advantages of the proposed algorithm in terms of achieving better clustering performance and dealing with the corrupted data compared to the existing algorithms.
翻訳日:2021-10-27 13:45:55 公開日:2021-10-25
# カーネルメソッドを超えた量子機械学習

Quantum machine learning beyond kernel methods ( http://arxiv.org/abs/2110.13162v1 )

ライセンス: Link先を確認
Sofiene Jerbi, Lukas J. Fiderer, Hendrik Poulsen Nautrup, Jonas M. K\"ubler, Hans J. Briegel, Vedran Dunjko(参考訳) ノイズの多い中間スケール量子コンピュータは、短期的応用に非常に有望であり、パラメトリズド量子回路に基づく多くの機械学習アルゴリズムが学習の利点を達成する手段として提案されている。 しかし、これらの量子機械学習モデルが既存の古典モデルと互いにどのように比較されるかを理解することは、まだ限られている。 この方向の大きな一歩は、古典的機械学習のいわゆるカーネルメソッドにそれらを関連付けることである。 この接続に基づいて、以前の研究では、カーネルモデルがトレーニング性能を改善するために保証されたため、多くの量子機械学習モデルの体系的な再構成が示されている。 本研究では、この結果の適用性を、データ再ロード回路と呼ばれるより一般的なパラメタライズド量子回路モデルに拡張する。 第2に,単純な構成と数値シミュレーションによって,モデルの定義とトレーニングが,機械学習タスクのメリットの真の姿であるカーネル定式化よりも極めて優れた一般化性能を示すことを示す。 この結果は、カーネルの定式化に隣接する量子機械学習モデルのより包括的理論への新たな一歩となる。

With noisy intermediate-scale quantum computers showing great promise for near-term applications, a number of machine learning algorithms based on parametrized quantum circuits have been suggested as possible means to achieve learning advantages. Yet, our understanding of how these quantum machine learning models compare, both to existing classical models and to each other, remains limited. A big step in this direction has been made by relating them to so-called kernel methods from classical machine learning. By building on this connection, previous works have shown that a systematic reformulation of many quantum machine learning models as kernel models was guaranteed to improve their training performance. In this work, we first extend the applicability of this result to a more general family of parametrized quantum circuit models called data re-uploading circuits. Secondly, we show, through simple constructions and numerical simulations, that models defined and trained variationally can exhibit a critically better generalization performance than their kernel formulations, which is the true figure of merit of machine learning tasks. Our results constitute another step towards a more comprehensive theory of quantum machine learning models next to kernel formulations.
翻訳日:2021-10-27 13:21:57 公開日:2021-10-25
# 確率近似によるマルチタスクメタラーニング修正

Multi-Task Meta-Learning Modification with Stochastic Approximation ( http://arxiv.org/abs/2110.13188v1 )

ライセンス: Link先を確認
Andrei Boiarov, Konstantin Khabarlak, Igor Yastrebov(参考訳) メタラーニング手法は、低データ体制下で新しいタスクに迅速に適応できる学習アルゴリズムを構築することを目的としている。 このようなアルゴリズムの主なベンチマークの1つは、数発学習の問題である。 本稿では、トレーニング中にマルチタスクアプローチをとる標準メタラーニングパイプラインの修正について検討する。 提案手法は,共通損失関数における複数のメタ学習タスクの情報の同時利用を行う。 これらのタスクの損失関数に対する影響は、対応する重みによって制御される。 これらの重みの適切な最適化は、モデル全体のトレーニングに大きな影響を与え、テスト時間タスクの品質を改善する可能性がある。 本研究では,同時摂動確率近似法 (spsa) を用いたメタトレーニングタスクの重み付け最適化手法を提案する。 また,提案アルゴリズムを勾配に基づく手法と比較し,確率近似がテスト時間における最大品質向上を示すことを示した。 提案されたマルチタスク修正は、メタ学習パイプラインを使用するほぼすべてのメソッドに適用できる。 本稿では、CIFAR-FS, FC100, tieredImageNet および miniImageNet を用いたプロトタイプネットワークとモデル非依存メタラーニングアルゴリズムの応用について述べる。 これらの実験において、マルチタスク修正は元の手法よりも改善されている。 提案するspsa追跡アルゴリズムは,最大精度向上を示す。 私たちのコードはオンラインで入手できる。

Meta-learning methods aim to build learning algorithms capable of quickly adapting to new tasks in low-data regime. One of the main benchmarks of such an algorithms is a few-shot learning problem. In this paper we investigate the modification of standard meta-learning pipeline that takes a multi-task approach during training. The proposed method simultaneously utilizes information from several meta-training tasks in a common loss function. The impact of each of these tasks in the loss function is controlled by the corresponding weight. Proper optimization of these weights can have a big influence on training of the entire model and might improve the quality on test time tasks. In this work we propose and investigate the use of methods from the family of simultaneous perturbation stochastic approximation (SPSA) approaches for meta-train tasks weights optimization. We have also compared the proposed algorithms with gradient-based methods and found that stochastic approximation demonstrates the largest quality boost in test time. Proposed multi-task modification can be applied to almost all methods that use meta-learning pipeline. In this paper we study applications of this modification on Prototypical Networks and Model-Agnostic Meta-Learning algorithms on CIFAR-FS, FC100, tieredImageNet and miniImageNet few-shot learning benchmarks. During these experiments, multi-task modification has demonstrated improvement over original methods. The proposed SPSA-Tracking algorithm shows the largest accuracy boost. Our code is available online.
翻訳日:2021-10-27 13:21:40 公開日:2021-10-25
# (参考訳) Truncated Tucker分解のための階数適応高次直交反復アルゴリズム [全文訳有]

A rank-adaptive higher-order orthogonal iteration algorithm for truncated Tucker decomposition ( http://arxiv.org/abs/2110.12564v1 )

ライセンス: CC BY 4.0
Chuanfu Xiao, Chao Yang(参考訳) 本稿では,与えられた誤差耐性を持つ高階テンソルのタッカー分解を計算し,その手法が局所最適かつ単調収束であることを証明するために,新しい階数適応高階直交反復法(HoOI)を提案する。 合成テンソルと実世界のテンソルの両方に関する一連の数値実験を行い、提案アルゴリズムが精度と効率の両面で有利であることを示す。 フーイアルゴリズムと古典的交互最小二乗法についてさらに解析し,なぜ階数適応性がフーイアルゴリズムに導入できるのか,どのように機能するのかについて考察した。

We propose a novel rank-adaptive higher-order orthogonal iteration (HOOI) algorithm to compute the truncated Tucker decomposition of higher-order tensors with a given error tolerance, and prove that the method is locally optimal and monotonically convergent. A series of numerical experiments related to both synthetic and real-world tensors are carried out to show that the proposed rank-adaptive HOOI algorithm is advantageous in terms of both accuracy and efficiency. Some further analysis on the HOOI algorithm and the classical alternating least squares method are presented to further understand why rank adaptivity can be introduced into the HOOI algorithm and how it works.
翻訳日:2021-10-27 08:10:04 公開日:2021-10-25
# (参考訳) キーとクエリ分布のマッチングによるアライメント注意 [全文訳有]

Alignment Attention by Matching Key and Query Distributions ( http://arxiv.org/abs/2110.12567v1 )

ライセンス: CC BY 4.0
Shujian Zhang, Xinjie Fan, Huangjie Zheng, Korawat Tanwisuth, Mingyuan Zhou(参考訳) ニューラルアテンションメカニズムは、様々なドメインで最先端のパフォーマンスを達成するためにディープニューラルネットワークに組み込まれている。 このようなモデルのほとんどは、異なる視点からの情報に出席する能力にアピールするマルチヘッドの自己注意を使用している。 本稿では,各頭部におけるキーの分布と問合せの一致を明示的に促すアライメント注意について述べる。 その結果、アライメントアテンションネットワークは、既存のアテンションフレームワークにおける教師なしの正規化として最適化できる。 事前学習したモデルを含む自己注意のモデルはすべて、提案されたアライメントアテンションに変換することが簡単である。 様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。 さらに,グラフ注目と視覚的質問応答に対するアプローチの一般的な適用可能性を示し,アライメント手法を様々な注意関連タスクに組み込む可能性を示す。

The neural attention mechanism has been incorporated into deep neural networks to achieve state-of-the-art performance in various domains. Most such models use multi-head self-attention which is appealing for the ability to attend to information from different perspectives. This paper introduces alignment attention that explicitly encourages self-attention to match the distributions of the key and query within each head. The resulting alignment attention networks can be optimized as an unsupervised regularization in the existing attention framework. It is simple to convert any models with self-attention, including pre-trained ones, to the proposed alignment attention. On a variety of language understanding tasks, we show the effectiveness of our method in accuracy, uncertainty estimation, generalization across domains, and robustness to adversarial attacks. We further demonstrate the general applicability of our approach on graph attention and visual question answering, showing the great potential of incorporating our alignment method into various attention-related tasks.
翻訳日:2021-10-27 07:54:11 公開日:2021-10-25
# (参考訳) 部分的モニタリングに向けて:常に早すぎる [全文訳有]

Towards Partial Monitoring: It is Always too Soon to Give Up ( http://arxiv.org/abs/2110.12585v1 )

ライセンス: CC BY 4.0
Angelo Ferrando (University of Genova), Rafael C. Cardoso (The University of Manchester)(参考訳) ランタイム検証は軽量な形式検証手法である。 分析対象のシステムが期待通りに振る舞うかどうかを実行時に検証するために使用される。 期待される振る舞いは通常、モニターを自動的に合成するために使用されるプロパティによって正式に指定される。 モニタは、システム実行を表すイベントのシーケンスが与えられると、形式的プロパティの満足度または違反を象徴する評価結果を返すデバイスである。 モニタによって実行時に検証できる(参照できない)プロパティは、それぞれ監視可能および監視不能と呼ばれる。 本稿では,モニタリング可能性の概念を実践的な観点から再検討し,モニタリング不能なプロパティが部分的なモニタ生成にどのように使用できるかを示し,その特性を部分的にチェックする。 最後に、理論的および実践的な観点から、その意味を述べる。

Runtime Verification is a lightweight formal verification technique. It is used to verify at runtime whether the system under analysis behaves as expected. The expected behaviour is usually formally specified by means of properties, which are used to automatically synthesise monitors. A monitor is a device that, given a sequence of events representing a system execution, returns a verdict symbolising the satisfaction or violation of the formal property. Properties that can (resp. cannot) be verified at runtime by a monitor are called monitorable and non-monitorable, respectively. In this paper, we revise the notion of monitorability from a practical perspective, where we show how non-monitorable properties can still be used to generate partial monitors, which can partially check the properties. Finally, we present the implications both from a theoretical and practical perspectives.
翻訳日:2021-10-27 07:30:48 公開日:2021-10-25
# (参考訳) 自律システムのためのエージェント駆動モデルに基づく完全システムテスト [全文訳有]

Complete Agent-driven Model-based System Testing for Autonomous Systems ( http://arxiv.org/abs/2110.12586v1 )

ライセンス: CC BY 4.0
Kerstin I. Eder (Department of Computer Science, University of Bristol, United Kingdom), Wen-ling Huang (Department of Mathematics & Computer Science, University of Bremen, Germany), Jan Peleska (Department of Mathematics & Computer Science, University of Bremen, Germany)(参考訳) 本稿では,自動車,航空,鉄道分野における複雑な自律輸送システム(ATS)の試験手法について述べる。 ATSの検証と検証(V&V)に関する最も重要な問題を緩和することを目的としている。 V&Vは、従来の方法のみを使用すると、複雑なATSでは利用できないことが知られている。 ここで提唱されるアプローチは、ソフトウェアの論理的正当性に関する形式的証明を確立するため、モジュールレベルでの完全なテスト手法を使用する。 論理的正当性を確立したシステムレベルのテストは、シミュレーションされたクラウド環境およびターゲットシステム上で実行される。 対象システムで「十分多くの」システムテストが行われたことを示すため、正式に正当化されたカバレッジ基準を導入する。 非常に大規模なシステムテストスイートの実行を最適化するために、複数のテストが並列に実行されるオンラインテストアプローチを提案し、テストステップをオンザフライで特定する。 これらの実行の調整と最適化はエージェントベースのアプローチによって達成される。 ここで提唱されているテストアプローチのそれぞれの側面は、安全クリティカルな輸送システムの既存の開発標準とv&vと一致しているか、または、適用可能な標準の今後の改訂において受け入れられるべき理由である。

In this position paper, a novel approach to testing complex autonomous transportation systems (ATS) in the automotive, avionic, and railway domains is described. It is intended to mitigate some of the most critical problems regarding verification and validation (V&V) effort for ATS. V&V is known to become infeasible for complex ATS, when using conventional methods only. The approach advocated here uses complete testing methods on the module level, because these establish formal proofs for the logical correctness of the software. Having established logical correctness, system-level tests are performed in simulated cloud environments and on the target system. To give evidence that 'sufficiently many' system tests have been performed with the target system, a formally justified coverage criterion is introduced. To optimise the execution of very large system test suites, we advocate an online testing approach where multiple tests are executed in parallel, and test steps are identified on-the-fly. The coordination and optimisation of these executions is achieved by an agent-based approach. Each aspect of the testing approach advocated here is shown to either be consistent with existing standards for development and V&V of safety-critical transportation systems, or it is justified why it should become acceptable in future revisions of the applicable standards.
翻訳日:2021-10-27 07:08:09 公開日:2021-10-25
# (参考訳) QuantifyML: 私の機械学習モデルはどのくらい優れているか? [全文訳有]

QuantifyML: How Good is my Machine Learning Model? ( http://arxiv.org/abs/2110.12588v1 )

ライセンス: CC BY 4.0
Muhammad Usman (University of Texas at Austin, USA), Divya Gopinath (KBR Inc., CMU, Nasa Ames), Corina S. P\u{a}s\u{a}reanu (KBR Inc., CMU, Nasa Ames)(参考訳) 機械学習モデルの有効性は通常、テストデータセットの精度を計算することによって決定される。 しかし、テストデータが研究中の問題の代表ではない可能性があるため、これは誤解を招くことが多い。 QuantifyMLでは、与えられたデータから機械学習モデルが学習し、一般化した範囲を正確に定量化する。 訓練されたモデルが与えられた場合、QuantifyMLはそれをCプログラムに変換し、CBMCモデルチェッカーに供給し、接続正規形(CNF)で公式を生成する。 この式は市販モデルカウンタを用いて解析し、異なるモデル挙動に関する正確な数を求める。 QuantifyML の実現 一 論理述語として表されるアウトプットのカウントと根拠真理を比較して学習可能性を評価すること。 二 異なる機械学習アルゴリズム(決定木対ニューラルネットワーク)を用いて構築されたモデルの性能の比較及び 三 モデルの安全性及び堅牢性の定量化

The efficacy of machine learning models is typically determined by computing their accuracy on test data sets. However, this may often be misleading, since the test data may not be representative of the problem that is being studied. With QuantifyML we aim to precisely quantify the extent to which machine learning models have learned and generalized from the given data. Given a trained model, QuantifyML translates it into a C program and feeds it to the CBMC model checker to produce a formula in Conjunctive Normal Form (CNF). The formula is analyzed with off-the-shelf model counters to obtain precise counts with respect to different model behavior. QuantifyML enables i) evaluating learnability by comparing the counts for the outputs to ground truth, expressed as logical predicates, ii) comparing the performance of models built with different machine learning algorithms (decision-trees vs. neural networks), and iii) quantifying the safety and robustness of models.
翻訳日:2021-10-27 06:44:32 公開日:2021-10-25
# (参考訳) ピアレビューのための最小正方形校正 [全文訳有]

Least Square Calibration for Peer Review ( http://arxiv.org/abs/2110.12607v1 )

ライセンス: CC BY 4.0
Sijun Tan, Jibang Wu, Xiaohui Bei, Haifeng Xu(参考訳) 会議論文レビューのようなピアレビューシステムは、しばしば誤校正の問題に悩まされる。 ピアレビュー校正に関する以前の研究は、通常、順序情報のみを使用するか、線形関数のような単純なレビュアースコアリング関数を仮定する。 実際には、学術会議のようなアプリケーションは、しばしば誤解を和らげるためにオープンな議論のような手動の手法に頼っている。 利用可能な事前知識に基づいて異なるタイプの誤校正を処理できるアルゴリズムを開発することは依然として重要な問題である。 本稿では,ピアレーティングから最上位候補を選択するための柔軟な枠組み,すなわち最小正方形キャリブレーション(lsc)を提案する。 提案手法は,軽度仮定下で無騒音線形採点関数から完全校正を行うが,得点関数が線形関数を超える幅広いクラスと任意のノイズを持つ場合の競合校正結果も提供する。 合成データセット上では、アルゴリズムが最高評価値に基づいてトップ論文を選択するベースラインを一貫して上回っていることを実証的に示す。

Peer review systems such as conference paper review often suffer from the issue of miscalibration. Previous works on peer review calibration usually only use the ordinal information or assume simplistic reviewer scoring functions such as linear functions. In practice, applications like academic conferences often rely on manual methods, such as open discussions, to mitigate miscalibration. It remains an important question to develop algorithms that can handle different types of miscalibrations based on available prior knowledge. In this paper, we propose a flexible framework, namely least square calibration (LSC), for selecting top candidates from peer ratings. Our framework provably performs perfect calibration from noiseless linear scoring functions under mild assumptions, yet also provides competitive calibration results when the scoring function is from broader classes beyond linear functions and with arbitrary noise. On our synthetic dataset, we empirically demonstrate that our algorithm consistently outperforms the baseline which select top papers based on the highest average ratings.
翻訳日:2021-10-27 06:31:01 公開日:2021-10-25
# (参考訳) ニュースは良いニュースではない:10億ワードベンチマークの批判 [全文訳有]

No News is Good News: A Critique of the One Billion Word Benchmark ( http://arxiv.org/abs/2110.12609v1 )

ライセンス: CC BY 4.0
Helen Ngo, Jo\~ao G.M. Ara\'ujo, Jeffrey Hui, Nicholas Frosst(参考訳) 10億ワードベンチマークは、自然言語処理における言語モデリング能力を測定するために一般的に使用されるWMT 2011 News Crawlから派生したデータセットである。 毎年分割されたCommon Crawlのウェブスクラップにのみモデルをトレーニングし、分散シフトによる時間経過とともに、このタスクを悪化させることを示す。 このコーパスの分析により、有害なテキストのいくつかの例と、現在のイベントに対する古い参照が含まれていることが判明した。 我々は,ニュースの時間的性質と時間的分布変化が言語モデリング能力の計測に不適であることを示唆し,言語モデルの構築や評価データセットの構築における潜在的影響と考察について議論する。

The One Billion Word Benchmark is a dataset derived from the WMT 2011 News Crawl, commonly used to measure language modeling ability in natural language processing. We train models solely on Common Crawl web scrapes partitioned by year, and demonstrate that they perform worse on this task over time due to distributional shift. Analysis of this corpus reveals that it contains several examples of harmful text, as well as outdated references to current events. We suggest that the temporal nature of news and its distribution shift over time makes it poorly suited for measuring language modeling ability, and discuss potential impact and considerations for researchers building language models and evaluation datasets.
翻訳日:2021-10-27 06:02:33 公開日:2021-10-25
# (参考訳) メモリベース連続制御のためのリカレントオフポリシーベースライン [全文訳有]

Recurrent Off-policy Baselines for Memory-based Continuous Control ( http://arxiv.org/abs/2110.12628v1 )

ライセンス: CC BY 4.0
Zhihan Yang, Hai Nguyen(参考訳) 環境が部分的に観測可能(PO)である場合、深層強化学習(RL)エージェントは、制御戦略に加えて、履歴全体の適切な時間的表現を学習する必要がある。 この問題は新しいものではなく、モデルフリーおよびモデルベースアルゴリズムが提案されている。 しかし,モデルフリーイメージベースrlの最近の成功に触発されて,(1)フルヒストリを使用し,(2)オフポリシー連続制御の最近の進歩を取り入れた歴史ベースのrlのモデルフリーベースラインが存在しないことに気付いた。 そこで本研究では,DDPG,TD3,SAC(RDPG,R TD3,RSAC)の繰り返しバージョンを実装し,短期および長期のPOドメインで評価し,重要な設計選択について検討する。 実験の結果、RDPGとRTD3は驚くほどいくつかのドメインで失敗し、RSACが最も信頼性が高く、ほぼ全てのドメインでほぼ最適性能に達することがわかった。 しかし、体系的な探索を必要とするタスクは、rsacでも難しいことが判明した。 これらの結果から,モデルフリーRLは報酬信号のみを用いて適切な時間的表現を学習できることが示唆された。 今後の研究を促進するため、PyTorchの実装をhttps://github.com/z hihanyang2022/off-po licy-continuous-cont rolで公開しました。

When the environment is partially observable (PO), a deep reinforcement learning (RL) agent must learn a suitable temporal representation of the entire history in addition to a strategy to control. This problem is not novel, and there have been model-free and model-based algorithms proposed for this problem. However, inspired by recent success in model-free image-based RL, we noticed the absence of a model-free baseline for history-based RL that (1) uses full history and (2) incorporates recent advances in off-policy continuous control. Therefore, we implement recurrent versions of DDPG, TD3, and SAC (RDPG, RTD3, and RSAC) in this work, evaluate them on short-term and long-term PO domains, and investigate key design choices. Our experiments show that RDPG and RTD3 can surprisingly fail on some domains and that RSAC is the most reliable, reaching near-optimal performance on nearly all domains. However, one task that requires systematic exploration still proved to be difficult, even for RSAC. These results show that model-free RL can learn good temporal representation using only reward signals; the primary difficulty seems to be computational cost and exploration. To facilitate future research, we have made our PyTorch implementation publicly available at https://github.com/z hihanyang2022/off-po licy-continuous-cont rol.
翻訳日:2021-10-27 05:57:05 公開日:2021-10-25
# (参考訳) ディープCNNとトランスファー学習を用いた年齢・ジェンダー予測 [全文訳有]

Age and Gender Prediction using Deep CNNs and Transfer Learning ( http://arxiv.org/abs/2110.12633v1 )

ライセンス: CC BY 4.0
Vikas Sheoran, Shreyansh Joshi and Tanisha R. Bhayani(参考訳) 過去10年か2年、画像のブームが見られた。 カメラの普及とセルフィーの出現により、世界中で利用可能な顔画像の数は急増している。 その結果,顔画像を用いた人物の年齢自動推定や性別予測への関心が高まっている。 本稿では,この問題に焦点をあてる。 具体的には,個人の静止顔画像から年齢推定,年齢分類,性別分類について検討する。 問題毎に異なるモデルをトレーニングし,カスタムcnn(convolutional neural network)アーキテクチャの構築と,vggface,res-net50,s e-resnet50で事前トレーニングしたvgg16を特徴抽出器として使用する場合の比較を行った。 また,特徴抽出における各種機械学習アルゴリズムのベースライン性能も提供し,最良の結果を得た。 このような抽出された特徴に基づいて訓練された単純な線形回帰でさえ、年齢推定のためにスクラッチからcnn、resnet50、resnext50を上回った。

The last decade or two has witnessed a boom of images. With the increasing ubiquity of cameras and with the advent of selfies, the number of facial images available in the world has skyrocketed. Consequently, there has been a growing interest in automatic age and gender prediction of a person using facial images. We in this paper focus on this challenging problem. Specifically, this paper focuses on age estimation, age classification and gender classification from still facial images of an individual. We train different models for each problem and we also draw comparisons between building a custom CNN (Convolutional Neural Network) architecture and using various CNN architectures as feature extractors, namely VGG16 pre-trained on VGGFace, Res-Net50 and SE-ResNet50 pre-trained on VGGFace2 dataset and training over those extracted features. We also provide baseline performance of various machine learning algorithms on the feature extraction which gave us the best results. It was observed that even simple linear regression trained on such extracted features outperformed training CNN, ResNet50 and ResNeXt50 from scratch for age estimation.
翻訳日:2021-10-27 05:27:06 公開日:2021-10-25
# (参考訳) 確率的学習率を用いた非凸確率勾配降下の近似収束速度の高速化 [全文訳有]

Accelerated Almost-Sure Convergence Rates for Nonconvex Stochastic Gradient Descent using Stochastic Learning Rates ( http://arxiv.org/abs/2110.12634v1 )

ライセンス: CC BY 4.0
Theodoros Mamalis, Dusan Stipanovic, Petros Voulgaris(参考訳) 大規模最適化には効率的かつ効率的なアルゴリズムが必要である。 そのような人気があり証明されたアルゴリズムの1つは、Stochastic Gradient Descentであり、これらの問題を解決するために一階勾配情報を使用する。 本稿では,確率勾配降下法が決定論的ではなく確率的になる場合のほぼ確実な収束率について検討する。 特に、その学習率には乗法確率性が備わっており、確率的学習率スキームを生成する。 理論的には, 確率的学習率を用いた場合の非凸環境における確率的勾配降下のほぼ確実収束率を, 決定論的学習速度法と比較した。 理論的結果は実証的に検証される。

Large-scale optimization problems require algorithms both effective and efficient. One such popular and proven algorithm is Stochastic Gradient Descent which uses first-order gradient information to solve these problems. This paper studies almost-sure convergence rates of the Stochastic Gradient Descent method when instead of deterministic, its learning rate becomes stochastic. In particular, its learning rate is equipped with a multiplicative stochasticity, producing a stochastic learning rate scheme. Theoretical results show accelerated almost-sure convergence rates of Stochastic Gradient Descent in a nonconvex setting when using an appropriate stochastic learning rate, compared to a deterministic-learni ng-rate scheme. The theoretical results are verified empirically.
翻訳日:2021-10-27 05:16:42 公開日:2021-10-25
# (参考訳) SgSum: マルチドキュメント要約をサブグラフ選択に変換する [全文訳有]

SgSum: Transforming Multi-document Summarization into Sub-graph Selection ( http://arxiv.org/abs/2110.12645v1 )

ライセンス: CC BY 4.0
Moye Chen, Wei Li, Jiachen Liu, Xinyan Xiao, Hua Wu, Haifeng Wang(参考訳) 既存の抽出多文書要約法(MDS)は,各文を個別にスコアリングし,各文を1つずつ抽出して要約を構成するが,その主な欠点は,(1)文の内的・横断的な関係を無視すること,(2)要約全体の一貫性と簡潔さを無視することである。 本稿では,MDSタスクをサブグラフ選択問題として定式化するための新しいMDSフレームワーク(SgSum)を提案する。 SgSumは、有能な文を選択する代わりに、関係グラフから有能な部分グラフを要約として選択する。 従来の手法と比較して,(1)文書集合全体のグラフ構造と候補部分グラフの両方をモデル化することにより文間の関係を捉えること,(2)より情報的かつ一貫性のある部分グラフの形式で統合的な要約を直接出力すること,の2つの利点がある。 MultiNews と DUC データセットの大規模な実験により,提案手法はいくつかの強力なベースラインに対して大幅な改善をもたらすことが示された。 また,人間の評価結果から,従来のMDS法と比較して,より一貫性と情報的な要約を生成できることが示唆された。 さらに,提案アーキテクチャは,mdsタスクのリソースボトルネックを低減できる単一文書入力から複数文書入力への強い転送能力を有する。 コードと結果は以下の通りである。 \url{https://github.com/P addlePaddle/Research /tree/master/NLP/EMN LP2021-SgSum}。

Most of existing extractive multi-document summarization (MDS) methods score each sentence individually and extract salient sentences one by one to compose a summary, which have two main drawbacks: (1) neglecting both the intra and cross-document relations between sentences; (2) neglecting the coherence and conciseness of the whole summary. In this paper, we propose a novel MDS framework (SgSum) to formulate the MDS task as a sub-graph selection problem, in which source documents are regarded as a relation graph of sentences (e.g., similarity graph or discourse graph) and the candidate summaries are its sub-graphs. Instead of selecting salient sentences, SgSum selects a salient sub-graph from the relation graph as the summary. Comparing with traditional methods, our method has two main advantages: (1) the relations between sentences are captured by modeling both the graph structure of the whole document set and the candidate sub-graphs; (2) directly outputs an integrate summary in the form of sub-graph which is more informative and coherent. Extensive experiments on MultiNews and DUC datasets show that our proposed method brings substantial improvements over several strong baselines. Human evaluation results also demonstrate that our model can produce significantly more coherent and informative summaries compared with traditional MDS methods. Moreover, the proposed architecture has strong transfer ability from single to multi-document input, which can reduce the resource bottleneck in MDS tasks. Our code and results are available at: \url{https://github.com/P addlePaddle/Research /tree/master/NLP/EMN LP2021-SgSum}.
翻訳日:2021-10-27 04:58:49 公開日:2021-10-25
# (参考訳) 自己教師付き応答選択によるゼロショット対話の絡み合い [全文訳有]

Zero-Shot Dialogue Disentanglement by Self-Supervised Entangled Response Selection ( http://arxiv.org/abs/2110.12646v1 )

ライセンス: CC BY 4.0
Ta-Chung Chi and Alexander I. Rudnicky(参考訳) 対話の絡み合いは、長く多人数の対話をスレッドにグループ化することを目的としている。 これは対話分析や対話応答選択などの下流アプリケーションに役立ち、クリーンなコンテキスト/レスポンスセットを構築するための第一歩となる。 あいにく、すべての~\emph{reply-to} リンクをラベル付けするには、2次的な作業が必要であり、発話の回数は以下の通りである。 本稿では,まず,a~\textbf{zero-shot}対話のアンタングル解を提案する。 まず,アノテートされていない web から収集した多成分応答選択データセット上でモデルを訓練し,訓練したモデルを用いてゼロショット対話のアンタゴニエーションを行う。 ラベル付きデータがないと、このモデルはクラスタf1スコア25が得られる。 また,様々なラベル付きデータを用いてモデルを微調整する。 実験によると、データのわずか10\%で、完全なdataset\footnote{codeは \url{https://github.com/c hijames/zero_shot_di alogue_disentangleme nt}}でリリースされる。

Dialogue disentanglement aims to group utterances in a long and multi-participant dialogue into threads. This is useful for discourse analysis and downstream applications such as dialogue response selection, where it can be the first step to construct a clean context/response set. Unfortunately, labeling all~\emph{reply-to} links takes quadratic effort w.r.t the number of utterances: an annotator must check all preceding utterances to identify the one to which the current utterance is a reply. In this paper, we are the first to propose a~\textbf{zero-shot} dialogue disentanglement solution. Firstly, we train a model on a multi-participant response selection dataset harvested from the web which is not annotated; we then apply the trained model to perform zero-shot dialogue disentanglement. Without any labeled data, our model can achieve a cluster F1 score of 25. We also fine-tune the model using various amounts of labeled data. Experiments show that with only 10\% of the data, we achieve nearly the same performance of using the full dataset\footnote{Code is released at \url{https://github.com/c hijames/zero_shot_di alogue_disentangleme nt}}.
翻訳日:2021-10-27 04:44:04 公開日:2021-10-25
# (参考訳) モデルに基づく政策評価のためのオペレータ拡張 [全文訳有]

Operator Augmentation for Model-based Policy Evaluation ( http://arxiv.org/abs/2110.12658v1 )

ライセンス: CC BY 4.0
Xun Tang, Lexing Ying, Yuhua Zhu(参考訳) モデルに基づく強化学習では、遷移行列と報酬ベクトルはしばしばノイズを受けるランダムサンプルから推定される。 推定モデルが真の基礎モデルの偏りのない推定値であっても、推定モデルから計算された値関数は偏りがある。 本稿では,推定モデルによる誤差を低減する演算子拡張手法を提案する。 誤差が残差ノルムにあるとき、加法因子は常に正であり、1 + o (1/n)$ で上限が上限であることを証明し、ここで n は遷移行列の各行を学習するのに使われるサンプルの数である。 また,演算子拡張を実現するための実用的な数値アルゴリズムを提案する。

In model-based reinforcement learning, the transition matrix and reward vector are often estimated from random samples subject to noise. Even if the estimated model is an unbiased estimate of the true underlying model, the value function computed from the estimated model is biased. We introduce an operator augmentation method for reducing the error introduced by the estimated model. When the error is in the residual norm, we prove that the augmentation factor is always positive and upper bounded by $1 + O (1/n)$, where n is the number of samples used in learning each row of the transition matrix. We also propose a practical numerical algorithm for implementing the operator augmentation.
翻訳日:2021-10-27 04:36:57 公開日:2021-10-25
# (参考訳) Refined Feature-attentive Network を用いた産業シーンテキストの検出 [全文訳有]

Industrial Scene Text Detection with Refined Feature-attentive Network ( http://arxiv.org/abs/2110.12663v1 )

ライセンス: CC BY 4.0
Tongkun Guan, Chaochen Gu, Changsheng Lu, Jingzheng Tu, Qi Feng, Kaijie Wu, Xinping Guan(参考訳) 産業用金属部品のマーキング文字の検出は、低視コントラスト、不均一照明、腐食文字構造、金属部品画像のぼやけた背景など、依然として困難である。 これらの要因によって、既存の方法によって生成されたバウンディングボックスは、低コントラストテキスト領域を不正確に見つける。 本稿では,不正確な局所化問題を解決するために,RFN(Feature-attenti ve Network)を提案する。 具体的には,マルチ解像度特徴から適応的な特徴表現を構築するための並列特徴統合機構を設計し,各スケールのテキストの知覚を高め,高品質な注目マップを生成する。 そして、注意マップにより注意細分化ネットワークを開発し、候補ボックスの位置ずれを補正する。 さらに、最適な整定位置のテキストボックスを選択するための再スコーリング機構も設計されている。 さらに,102156画像と1948809テキストインスタンスを含む2つの産業シーンテキストデータセットを構築し,様々な文字構造と金属部品について検討した。 我々のデータセットと4つの公開データセットに関する大規模な実験により、提案手法が最先端の性能を達成することを示す。

Detecting the marking characters of industrial metal parts remains challenging due to low visual contrast, uneven illumination, corroded character structures, and cluttered background of metal part images. Affected by these factors, bounding boxes generated by most existing methods locate low-contrast text areas inaccurately. In this paper, we propose a refined feature-attentive network (RFN) to solve the inaccurate localization problem. Specifically, we design a parallel feature integration mechanism to construct an adaptive feature representation from multi-resolution features, which enhances the perception of multi-scale texts at each scale-specific level to generate a high-quality attention map. Then, an attentive refinement network is developed by the attention map to rectify the location deviation of candidate boxes. In addition, a re-scoring mechanism is designed to select text boxes with the best rectified location. Moreover, we construct two industrial scene text datasets, including a total of 102156 images and 1948809 text instances with various character structures and metal parts. Extensive experiments on our dataset and four public datasets demonstrate that our proposed method achieves the state-of-the-art performance.
翻訳日:2021-10-27 03:47:49 公開日:2021-10-25
# (参考訳) Mlr3spatiotempcv:Rにおける機械学習のための時空間再サンプリング手法

Mlr3spatiotempcv: Spatiotemporal resampling methods for machine learning in R ( http://arxiv.org/abs/2110.12674v1 )

ライセンス: CC BY 4.0
Patrick Schratz, Marc Becker, Michel Lang and Alexander Brenning(参考訳) 空間的および時空間機械学習モデルは、誤差推定バイアスや過適合を避けるために、モデルアセスメント、モデル選択、ハイパーパラメータチューニングに適したフレームワークを必要とする。 この貢献は、空間的および時空間的cvの最先端をレビューし、機械学習フレームワーク \textbf{mlr3}の拡張パッケージとして、 \proglang{r}パッケージmlr3spatiotempcvを導入した。 現在、様々な時空間分割戦略を実装した \proglang{R} パッケージが存在する: \pkg{blockCV}, \pkg{CAST}, \pkg{kmeans}, \pkg{sperrorest}。 pkg{mlr3spatiotempcv} の目標は、利用可能な時空間再サンプリングメソッドを \proglang{R} に集め、シンプルで一般的なインターフェースでユーザに提供することである。 これは、パッケージを直接 \pkg{mlr3} 機械学習フレームワークに統合することで実現されている。 利点の1つは、パッケージ固有の構文に代えて、包括的な機械学習ツールキットで一貫した命名法を使用することで、ユーザーは様々な時空間再サンプリング方法を選択することができる。 このパッケージは、手前の予測タスク、データ内の自己相関、調査対象のサンプリング設計または地理的対象の空間構造に依存するため、実際に使用する方法を推奨することを避ける。

Spatial and spatiotemporal machine-learning models require a suitable framework for their model assessment, model selection, and hyperparameter tuning, in order to avoid error estimation bias and over-fitting. This contribution reviews the state-of-the-art in spatial and spatiotemporal CV, and introduces the \proglang{R} package mlr3spatiotempcv as an extension package of the machine-learning framework \textbf{mlr3}. Currently various \proglang{R} packages implementing different spatiotemporal partitioning strategies exist: \pkg{blockCV}, \pkg{CAST}, \pkg{kmeans} and \pkg{sperrorest}. The goal of \pkg{mlr3spatiotempcv} is to gather the available spatiotemporal resampling methods in \proglang{R} and make them available to users through a simple and common interface. This is made possible by integrating the package directly into the \pkg{mlr3} machine-learning framework, which already has support for generic non-spatiotemporal resampling methods such as random partitioning. One advantage is the use of a consistent nomenclature in an overarching machine-learning toolkit instead of a varying package-specific syntax, making it easier for users to choose from a variety of spatiotemporal resampling methods. This package avoids giving recommendations which method to use in practice as this decision depends on the predictive task at hand, the autocorrelation within the data, and the spatial structure of the sampling design or geographic objects being studied.
翻訳日:2021-10-27 03:24:38 公開日:2021-10-25
# (参考訳) 凸ポテンシャル流を有するスケーラブルなリプシッツ残差ネットワーク [全文訳有]

Scalable Lipschitz Residual Networks with Convex Potential Flows ( http://arxiv.org/abs/2110.12690v1 )

ライセンス: CC BY 4.0
Laurent Meunier, Blaise Delattre, Alexandre Araujo, Alexandre Allauzen(参考訳) ニューラルネットワークのリプシッツ定数は、敵の例に対するニューラルネットワークの堅牢性を強制する鍵となる性質として確立されている。 しかし、最近1ドルのLipschitz Neural Networksを構築しようとする試みは、いずれも制限を示しており、堅牢性は正確性とスケーラビリティのために交換する必要がある。 この研究において、残留ネットワーク勾配流における凸ポテンシャルの使用は、組込み1ドルLipschitz変換を提供することを示す。 この知見から,入力凸ニューラルネットワークの研究を活用し,この特性で効率的な層をパラメトリゼーションする。 cifar-10に関する包括的な実験のセットは、アーキテクチャのスケーラビリティと、$\ell_2$ provable defenseに対するアプローチのメリットを示しています。 実際、私たちは非常に深く広いニューラルネットワーク(最大1000ドルの層)をトレーニングし、標準および認定された精度、そして実証的な堅牢性の観点から、他の1ドルのLipschitzアーキテクチャと比較して、最先端の結果に到達する。

The Lipschitz constant of neural networks has been established as a key property to enforce the robustness of neural networks to adversarial examples. However, recent attempts to build $1$-Lipschitz Neural Networks have all shown limitations and robustness have to be traded for accuracy and scalability or vice versa. In this work, we first show that using convex potentials in a residual network gradient flow provides a built-in $1$-Lipschitz transformation. From this insight, we leverage the work on Input Convex Neural Networks to parametrize efficient layers with this property. A comprehensive set of experiments on CIFAR-10 demonstrates the scalability of our architecture and the benefit of our approach for $\ell_2$ provable defenses. Indeed, we train very deep and wide neural networks (up to $1000$ layers) and reach state-of-the-art results in terms of standard and certified accuracy, along with empirical robustness, in comparison with other $1$-Lipschitz architectures.
翻訳日:2021-10-27 03:23:21 公開日:2021-10-25
# (参考訳) ゆるく教師付き補助タスクによる自己教師付き知識伝達

Self-Supervised Knowledge Transfer via Loosely Supervised Auxiliary Tasks ( http://arxiv.org/abs/2110.12696v1 )

ライセンス: CC BY 4.0
Seungbum Hong, Jihun Yoon, Junmo Kim, Min-Kook Choi(参考訳) 畳み込みニューラルネットワーク(CNN)を用いた知識伝達は、より少ないパラメータでCNNを効率的に訓練したり、限られた監督下での一般化性能を最大化することができる。 緩和条件下での事前学習知識のより効率的な転送を可能にするために,ネットワーク構造や使用するデータセット,すなわち自己教師付き知識転送(sskt)に関する制約を伴わない,簡便で強力な知識伝達手法を提案する。 そこで本研究では,ソフトラベルを用いた自己スーパービジョンによる目標課題の補助タスクとして,学習済みの知識を現在の訓練プロセスに伝達するトレーニング手法を考案する。 SSKTはネットワーク構造やデータセットとは独立しており、既存の知識伝達方法と異なる訓練がなされているため、トレーニングプロセス中に様々なタスクから得られた先行知識を対象タスクに自然に移行できるという利点がある。 さらに、複数のソースネットワークから異なる問題領域間の知識転送を提案することにより、ほとんどのデータセットの一般化性能を向上させることができる。 SSKTは、様々な知識伝達環境下での実験を通じて、他の伝達学習方法(KD、DML、MAXL)より優れている。 ソースコードは一般公開される予定だ。

Knowledge transfer using convolutional neural networks (CNNs) can help efficiently train a CNN with fewer parameters or maximize the generalization performance under limited supervision. To enable a more efficient transfer of pretrained knowledge under relaxed conditions, we propose a simple yet powerful knowledge transfer methodology without any restrictions regarding the network structure or dataset used, namely self-supervised knowledge transfer (SSKT), via loosely supervised auxiliary tasks. For this, we devise a training methodology that transfers previously learned knowledge to the current training process as an auxiliary task for the target task through self-supervision using a soft label. The SSKT is independent of the network structure and dataset, and is trained differently from existing knowledge transfer methods; hence, it has an advantage in that the prior knowledge acquired from various tasks can be naturally transferred during the training process to the target task. Furthermore, it can improve the generalization performance on most datasets through the proposed knowledge transfer between different problem domains from multiple source networks. SSKT outperforms the other transfer learning methods (KD, DML, and MAXL) through experiments under various knowledge transfer settings. The source code will be made available to the public.
翻訳日:2021-10-27 03:06:49 公開日:2021-10-25
# (参考訳) ポイントプロセスのための局所独立試験 [全文訳有]

Local Independence Testing for Point Processes ( http://arxiv.org/abs/2110.12709v1 )

ライセンス: CC BY 4.0
Nikolaj Thams, Niels Richard Hansen(参考訳) 点過程に対する制約に基づく因果構造学習は、局所的な独立性の実証テストを必要とする。 既存のテストは強力なモデル仮定を必要とする。例えば、真のデータ生成モデルは、潜在する共同設立者がいないホークスプロセスである。 ホークスプロセスに注意を向ける場合でも、潜在的な共同創設者は、一般的にはホークスプロセス自体ではないため、技術的に大きな困難である。 限界強度を表すツールとしてvolterra expansionsに似た拡張を導入する。 我々の理論の主な結果は、そのような展開が任意の方法で真の辺限化強度を近似できることである。 そこで本研究では,実データとシミュレーションデータの局所的独立性テストを提案し,その特性について検討する。

Constraint based causal structure learning for point processes require empirical tests of local independence. Existing tests require strong model assumptions, e.g. that the true data generating model is a Hawkes process with no latent confounders. Even when restricting attention to Hawkes processes, latent confounders are a major technical difficulty because a marginalized process will generally not be a Hawkes process itself. We introduce an expansion similar to Volterra expansions as a tool to represent marginalized intensities. Our main theoretical result is that such expansions can approximate the true marginalized intensity arbitrarily well. Based on this we propose a test of local independence and investigate its properties in real and simulated data.
翻訳日:2021-10-27 03:05:49 公開日:2021-10-25
# (参考訳) SRT3D:現実世界におけるスパース領域に基づく3次元物体追跡手法 [全文訳有]

SRT3D: A Sparse Region-Based 3D Object Tracking Approach for the Real World ( http://arxiv.org/abs/2110.12715v1 )

ライセンス: CC BY 4.0
Manuel Stoiber, Martin Pfanne, Klaus H. Strobl, Rudolph Triebel, Alin Albu-Sch\"affer(参考訳) 領域ベースの手法は、乱雑なシーンにおけるテクスチャレスオブジェクトのモデルベース、モノクロの3d追跡にますます人気がある。 しかし、最新の結果が得られる一方で、ほとんどのメソッドは計算コストが高く、リアルタイムに実行するためにかなりのリソースを必要とする。 以下では、前回の作業に基づいて、このギャップを効率的に橋渡しする3dオブジェクトトラッキングに対するスパースなリージョンベースのアプローチであるsrt3dを開発した。 本手法では,物体の輪郭位置の確率をモデル化するいわゆる対応線に沿って画像情報を疎らに検討する。 これにより,技術の現状を改善し,大域的かつ局所的な不確実性を考慮したスムーズなステップ関数を導入する。 得られた確率的定式化のために、徹底的な分析を提供する。 最後に、事前レンダリングされたスパース視点モデルを用いて、オブジェクトのポーズの結合後確率を生成する。 この関数はティホノフ正則化による二階ニュートン最適化によって最大化される。 ポーズ推定では、ニュートン法で用いられる一階微分に対する新しい近似を用いて、大域的最適化と局所的最適化を区別する。 複数の実験において,本アルゴリズムは,実世界で遭遇するノイズの多い画像に対して特に良好に動作し,実行時と品質の両面で技術の現状を改善することを実証した。

Region-based methods have become increasingly popular for model-based, monocular 3D tracking of texture-less objects in cluttered scenes. However, while they achieve state-of-the-art results, most methods are computationally expensive, requiring significant resources to run in real-time. In the following, we build on our previous work and develop SRT3D, a sparse region-based approach to 3D object tracking that bridges this gap in efficiency. Our method considers image information sparsely along so-called correspondence lines that model the probability of the object's contour location. We thereby improve on the current state of the art and introduce smoothed step functions that consider a defined global and local uncertainty. For the resulting probabilistic formulation, a thorough analysis is provided. Finally, we use a pre-rendered sparse viewpoint model to create a joint posterior probability for the object pose. The function is maximized using second-order Newton optimization with Tikhonov regularization. During the pose estimation, we differentiate between global and local optimization, using a novel approximation for the first-order derivative employed in the Newton method. In multiple experiments, we demonstrate that the resulting algorithm improves the current state of the art both in terms of runtime and quality, performing particularly well for noisy and cluttered images encountered in the real world.
翻訳日:2021-10-27 02:43:00 公開日:2021-10-25
# (参考訳) 高効率自然画像マッティング [全文訳有]

Highly Efficient Natural Image Matting ( http://arxiv.org/abs/2110.12748v1 )

ライセンス: CC0 1.0
Yijie Zhong, Bo Li, Lv Tang, Hao Tang, Shouhong Ding(参考訳) ここ数年、ディープラーニングベースのアプローチは、自然な画像マッチングにおいて顕著に改善されてきた。 しかし、画像マッチングの広範な適用を妨げる欠点は、ユーザが提供するトリマップへの依存と、重いモデルサイズである。 本稿では,軽量モデルを用いたトリマップフリー自然画像マットリング手法を提案する。 セグメンテーションネットワーク(SN)は、十分なセマンティクスをキャプチャし、ピクセルを未知、前景、背景の領域に分類するように設計され、マッティングリファインネットワーク(MRN)は詳細なテクスチャ情報をキャプチャし、正確なアルファ値を回帰することを目的としている。 提案したクロスレベル融合モジュール(CFM)により、SNは計算コストの少ないマルチスケール機能を効率的に利用することができる。 MRNの効率的な非局所アテンションモジュール(ENA)は、異なるピクセル間の関係を効率的にモデル化し、高品質なアルファ値の回帰に役立つ。 これらの手法を利用して, 一般的な自然画像マットングベンチマークにおいて, 約1\%のパラメータ (344k) の大規模モデルと同等の性能を実現する, 極めて軽量なモデルを構築した。

Over the last few years, deep learning based approaches have achieved outstanding improvements in natural image matting. However, there are still two drawbacks that impede the widespread application of image matting: the reliance on user-provided trimaps and the heavy model sizes. In this paper, we propose a trimap-free natural image matting method with a lightweight model. With a lightweight basic convolution block, we build a two-stages framework: Segmentation Network (SN) is designed to capture sufficient semantics and classify the pixels into unknown, foreground and background regions; Matting Refine Network (MRN) aims at capturing detailed texture information and regressing accurate alpha values. With the proposed cross-level fusion Module (CFM), SN can efficiently utilize multi-scale features with less computational cost. Efficient non-local attention module (ENA) in MRN can efficiently model the relevance between different pixels and help regress high-quality alpha values. Utilizing these techniques, we construct an extremely light-weighted model, which achieves comparable performance with ~1\% parameters (344k) of large models on popular natural image matting benchmarks.
翻訳日:2021-10-27 02:10:09 公開日:2021-10-25
# (参考訳) スペクトルグラフウェーブレットを用いたグラフ上の適応ガウス過程 [全文訳有]

Adaptive Gaussian Processes on Graphs via Spectral Graph Wavelets ( http://arxiv.org/abs/2110.12752v1 )

ライセンス: CC BY 4.0
Felix L. Opolka, Yin-Cong Zhi, Pietro Li\`o, Xiaowen Dong(参考訳) グラフベースのモデルは、異なる大きさの近傍からグラフに情報を集約する必要がある。 特に、データがグラフ上で様々なレベルの滑らかさを示す場合、関連する情報をキャプチャするには、マルチスケールのアプローチが必要となる。 本研究では,スペクトルグラフウェーブレットを用いたガウス過程モデルを提案する。 モデルハイパーパラメータの最大極大最適化により、ウェーブレットはデータ内の異なる周波数に自動的に適応し、その結果、我々のモデルは低周波情報をキャプチャする以上のものとなる。 フィルタ関数のスペクトル適応多項式近似を用いて,グラフスペクトルの高密度領域における低近似誤差を求めることにより,より大きなグラフに対するスケーラビリティを実現する。 合成および実世界の実験は、グラフベースの学習タスクにおいて、我々のモデルが正確にスケールを推定し、最先端のモデルと競合する性能を得られることを示す。

Graph-based models require aggregating information in the graph from neighbourhoods of different sizes. In particular, when the data exhibit varying levels of smoothness on the graph, a multi-scale approach is required to capture the relevant information. In this work, we propose a Gaussian process model using spectral graph wavelets, which can naturally aggregate neighbourhood information at different scales. Through maximum likelihood optimisation of the model hyperparameters, the wavelets automatically adapt to the different frequencies in the data, and as a result our model goes beyond capturing low frequency information. We achieve scalability to larger graphs by using a spectrum-adaptive polynomial approximation of the filter function, which is designed to yield a low approximation error in dense areas of the graph spectrum. Synthetic and real-world experiments demonstrate the ability of our model to infer scales accurately and produce competitive performances against state-of-the-art models in graph-based learning tasks.
翻訳日:2021-10-27 01:58:01 公開日:2021-10-25
# (参考訳) SSMF: 季節行列因子のシフト [全文訳有]

SSMF: Shifting Seasonal Matrix Factorization ( http://arxiv.org/abs/2110.12763v1 )

ライセンス: CC BY 4.0
Koki Kawabata, Siddharth Bhatia, Rui Liu, Mohit Wadhwa, Bryan Hooi(参考訳) 出発地と目的地の情報をタクシーで数えると、その将来の需要をどうやって予測できるのか? 一般的に、時間とともに革新する季節パターンを持つイベントのデータストリームを考えると、将来のイベントを効果的かつ効率的に予測するにはどうすればよいのか? 本稿では,複数の季節パターン(レジームと呼ばれる)を適応的に学習し,それらを切り替えることのできる季節行列分解手法,すなわちSSMFを提案する。 提案手法は以下の特性を有する。 (a)データストリームの進化に伴う季節パターンの変動を検出することにより、将来の事象を正確に予測する。 (b)オンラインの設定、すなわち、各観察を一定の時間と記憶で処理する。 (c)ロスレスデータ圧縮方式を用いることで、人間の介入なしにシチュエーションシフトを効果的に実現する。 3つの実世界のデータストリーム上でのイベントを正確に予測することにより,アルゴリズムが最先端のベースライン手法を上回ることを実証する。

Given taxi-ride counts information between departure and destination locations, how can we forecast their future demands? In general, given a data stream of events with seasonal patterns that innovate over time, how can we effectively and efficiently forecast future events? In this paper, we propose Shifting Seasonal Matrix Factorization approach, namely SSMF, that can adaptively learn multiple seasonal patterns (called regimes), as well as switching between them. Our proposed method has the following properties: (a) it accurately forecasts future events by detecting regime shifts in seasonal patterns as the data stream evolves; (b) it works in an online setting, i.e., processes each observation in constant time and memory; (c) it effectively realizes regime shifts without human intervention by using a lossless data compression scheme. We demonstrate that our algorithm outperforms state-of-the-art baseline methods by accurately forecasting upcoming events on three real-world data streams.
翻訳日:2021-10-27 01:42:06 公開日:2021-10-25
# (参考訳) 神経話題モデルのためのコントラスト学習 [全文訳有]

Contrastive Learning for Neural Topic Model ( http://arxiv.org/abs/2110.12764v1 )

ライセンス: CC BY 4.0
Thong Nguyen, Anh Tuan Luu(参考訳) 最近の実証研究によれば、adversarial topic model (atm) は、文書と他の異なるサンプルを区別することで、文書の意味的パターンをうまく捉えることができる。 しかし、この判別生成型アーキテクチャを利用すると、2つの重要な欠点がある。(1)アーキテクチャは、類似した文書を関連づけておらず、敬語を同じ文書語で分配する。2) ニューラルネットワークのトピックモデルのトレーニングに有用であることが示されている、文書の感情のような外部情報を統合する能力を制限する。 これらの問題に対処するために, 数学的解析の観点から, 逆話題アーキテクチャを再考し, 判別目標を最適化問題として再定式化する新しいアプローチを提案し, 外部変数の統合を容易にする新しいサンプリング手法を設計する。 再編成は,類似したサンプル間の関係を組み込むことを奨励し,類似したサンプル間の類似性に制約を課す。一方,内部入力と再構成された出力に基づくサンプリング手法は,主話題に寄与する有意な単語のモデルに有用である。 実験の結果,本フレームワークは,様々なドメイン,語彙サイズ,文書の長さの3つの共通ベンチマークデータセットにおいて,トピックコヒーレンスの観点から,他の最先端のニューラルネットワークモデルよりも優れていた。

Recent empirical studies show that adversarial topic models (ATM) can successfully capture semantic patterns of the document by differentiating a document with another dissimilar sample. However, utilizing that discriminative-gener ative architecture has two important drawbacks: (1) the architecture does not relate similar documents, which has the same document-word distribution of salient words; (2) it restricts the ability to integrate external information, such as sentiments of the document, which has been shown to benefit the training of neural topic model. To address those issues, we revisit the adversarial topic architecture in the viewpoint of mathematical analysis, propose a novel approach to re-formulate discriminative goal as an optimization problem, and design a novel sampling method which facilitates the integration of external variables. The reformulation encourages the model to incorporate the relations among similar samples and enforces the constraint on the similarity among dissimilar ones; while the sampling method, which is based on the internal input and reconstructed output, helps inform the model of salient words contributing to the main topic. Experimental results show that our framework outperforms other state-of-the-art neural topic models in three common benchmark datasets that belong to various domains, vocabulary sizes, and document lengths in terms of topic coherence.
翻訳日:2021-10-27 01:28:35 公開日:2021-10-25
# (参考訳) 「あなたは面白いと思いますか?」:スタンドアップコメディのユーモアを評定する [全文訳有]

"So You Think You're Funny?": Rating the Humour Quotient in Standup Comedy ( http://arxiv.org/abs/2110.12765v1 )

ライセンス: CC BY 4.0
Anirudh Mittal, Pranav Jeevan, Prerak Gandhi, Diptesh Kanojia, Pushpak Bhattacharyya(参考訳) Computational Humour (CH) は自然言語処理と計算言語学のコミュニティの関心を集めている。 ユーモア商の自動測定のためのデータセットの作成は、複数の内容の解釈が可能なため困難である。 本研究では,スタンドアップコメディクリップを用いたマルチモーダルなユーモア注釈付きデータセット($40時間)を作成する。 そこで我々は,聴衆の笑い声を用いて,ユーモアに満ちたスコアでトレーニングデータをアノテートするための新しいスコアリング機構を考案した。 このユーモア係数スコアを5点スケール(0〜4)で算出するために、各クリップにおける笑いの正規化期間(笑い時間で割った笑い時間)を用いる。 手動の注釈付スコアと比較することによりスコアリング方法が検証され、二次重み付きkappaが0.6である。 このデータセットを使用して、オーディオとその対応するテキストから、5ポイントのスケールで「楽しい」スコアを提供するモデルをトレーニングします。 重み付きカッパ (QWK) を用いて, ユウアライジング作業のための様々なニューラルネットワークモデルを比較し, 精度0.813$を実現した。 私たちの"Open Mic"データセットは、コードとともにさらなる研究のためにリリースされています。

Computational Humour (CH) has attracted the interest of Natural Language Processing and Computational Linguistics communities. Creating datasets for automatic measurement of humour quotient is difficult due to multiple possible interpretations of the content. In this work, we create a multi-modal humour-annotated dataset ($\sim$40 hours) using stand-up comedy clips. We devise a novel scoring mechanism to annotate the training data with a humour quotient score using the audience's laughter. The normalized duration (laughter duration divided by the clip duration) of laughter in each clip is used to compute this humour coefficient score on a five-point scale (0-4). This method of scoring is validated by comparing with manually annotated scores, wherein a quadratic weighted kappa of 0.6 is obtained. We use this dataset to train a model that provides a "funniness" score, on a five-point scale, given the audio and its corresponding text. We compare various neural language models for the task of humour-rating and achieve an accuracy of $0.813$ in terms of Quadratic Weighted Kappa (QWK). Our "Open Mic" dataset is released for further research along with the code.
翻訳日:2021-10-27 01:10:52 公開日:2021-10-25
# (参考訳) 科学機械学習ベンチマーク [全文訳有]

Scientific Machine Learning Benchmarks ( http://arxiv.org/abs/2110.12773v1 )

ライセンス: CC BY 4.0
Jeyan Thiyagalingam, Mallikarjun Shankar, Geoffrey Fox, Tony Hey(参考訳) ディープラーニングニューラルネットワークのブレークスルーは、非常に大規模な実験データセットの分析にAIと機械学習技術の使用を変革した。 これらのデータセットは通常、国立研究所の大規模実験施設によって生成される。 科学の文脈では、scientific machine learningは、そのようなデータセットから有意義な科学的洞察を抽出するパターン、トレンド、異常を特定するためのトレーニングマシンに焦点を当てている。 新しい世代の実験施設では、データ生成率とデータボリュームのスケールは、より自動化されたデータ分析の使用をますます必要とします。 現在、任意の科学データセットの分析に最適な機械学習アルゴリズムを特定することは、科学者にとって依然として課題である。 これは、多くの異なる機械学習フレームワーク、コンピュータアーキテクチャ、機械学習モデルに起因する。 歴史的に、HPCシステム上でのモデリングとシミュレーションは、コンピュータアプリケーション、アルゴリズム、アーキテクチャのベンチマークによって解決されてきた。 このようなベンチマークアプローチを拡張して、機械学習手法を科学的データセットに適用するためのメトリクスを特定することは、科学者と計算機科学者の両方にとって新たな課題である。 本稿では、科学的機械学習ベンチマークの開発に関する我々のアプローチと、科学的機械学習ベンチマークの他のアプローチについて概説する。

The breakthrough in Deep Learning neural networks has transformed the use of AI and machine learning technologies for the analysis of very large experimental datasets. These datasets are typically generated by large-scale experimental facilities at national laboratories. In the context of science, scientific machine learning focuses on training machines to identify patterns, trends, and anomalies to extract meaningful scientific insights from such datasets. With a new generation of experimental facilities, the rate of data generation and the scale of data volumes will increasingly require the use of more automated data analysis. At present, identifying the most appropriate machine learning algorithm for the analysis of any given scientific dataset is still a challenge for scientists. This is due to many different machine learning frameworks, computer architectures, and machine learning models. Historically, for modelling and simulation on HPC systems such problems have been addressed through benchmarking computer applications, algorithms, and architectures. Extending such a benchmarking approach and identifying metrics for the application of machine learning methods to scientific datasets is a new challenge for both scientists and computer scientists. In this paper, we describe our approach to the development of scientific machine learning benchmarks and review other approaches to benchmarking scientific machine learning.
翻訳日:2021-10-27 01:01:03 公開日:2021-10-25
# (参考訳) マルチスピーカー環境における音声ナビゲーションと音源定位のための深層強化学習手法 [全文訳有]

A Deep Reinforcement Learning Approach for Audio-based Navigation and Audio Source Localization in Multi-speaker Environments ( http://arxiv.org/abs/2110.12778v1 )

ライセンス: CC BY 4.0
Petros Giannakopoulos, Aggelos Pikrakis, Yannis Cotronis(参考訳) 本研究は,3次元環境をナビゲートし,環境からの生音が唯一の情報である場合,環境に置かれる人間のリスナーが聞き取るように,人間の話者音声源の位置を推定する問題に対して,深層強化学習を適用する。 この目的のために,unityゲームエンジンを用いて2つの仮想環境を作成する。1つはオーディオベースのナビゲーション問題,もう1つはオーディオソースのローカライズ問題を示す。 また、PPOオンライン強化学習アルゴリズムに基づく自律エージェントを作成し、これらの環境を解決するためのトレーニングを試みる。 実験では, 限られたトレーニングデータや, 訓練中に遭遇しない方法で環境パラメータが変化する場合においても, 定量的測定により両環境において, 適切な性能と一般化能力が得られることを示す。 また,エージェントの知識伝達の程度が環境間で可能であることを示す。

In this work we apply deep reinforcement learning to the problems of navigating a three-dimensional environment and inferring the locations of human speaker audio sources within, in the case where the only available information is the raw sound from the environment, as a simulated human listener placed in the environment would hear it. For this purpose we create two virtual environments using the Unity game engine, one presenting an audio-based navigation problem and one presenting an audio source localization problem. We also create an autonomous agent based on PPO online reinforcement learning algorithm and attempt to train it to solve these environments. Our experiments show that our agent achieves adequate performance and generalization ability in both environments, measured by quantitative metrics, even when a limited amount of training data are available or the environment parameters shift in ways not encountered during training. We also show that a degree of agent knowledge transfer is possible between the environments.
翻訳日:2021-10-27 00:52:46 公開日:2021-10-25
# (参考訳) indic languages hasoc '21でヘイトフルコンテンツとの戦い [全文訳有]

Battling Hateful Content in Indic Languages HASOC '21 ( http://arxiv.org/abs/2110.12780v1 )

ライセンス: CC BY 4.0
Aditya Kadam, Anmol Goel, Jivitesh Jain, Jushaan Singh Kalra, Mallika Subramanian, Manvith Reddy, Prashant Kodali, T.H. Arjun, Manish Shrivastava, Ponnurangam Kumaraguru(参考訳) 多くの人々によるオンラインソーシャルメディア(osm)の広範な消費増加は、これらのプラットフォーム上での憎悪コンテンツの拡散を抑制する重要な問題となっている。 複数の言語でのOSMの使用の増加に伴い、ヘイトの検出と特徴付けのタスクはより複雑になる。 コードミックスされたテキストの微妙なバリエーションとスクリプトの切り替えは複雑さを増すだけだ。 本稿では,チームPreCog IIIT HyderabadによるHASOC 2021 Multilingual Twitter Hate-Speech Detectionの解を提案する。 我々は,多言語トランスフォーマーに基づくアプローチを採用し,課題の一部として6つのサブタスクのアーキテクチャを説明する。 すべてのサブタスクに参加した6チームの中で、私たちの応募は全体で3位でした。

The extensive rise in consumption of online social media (OSMs) by a large number of people poses a critical problem of curbing the spread of hateful content on these platforms. With the growing usage of OSMs in multiple languages, the task of detecting and characterizing hate becomes more complex. The subtle variations of code-mixed texts along with switching scripts only add to the complexity. This paper presents a solution for the HASOC 2021 Multilingual Twitter Hate-Speech Detection challenge by team PreCog IIIT Hyderabad. We adopt a multilingual transformer based approach and describe our architecture for all 6 sub-tasks as part of the challenge. Out of the 6 teams that participated in all the sub tasks, our submissions rank 3rd overall.
翻訳日:2021-10-27 00:40:03 公開日:2021-10-25
# (参考訳) 変分ガウス過程:機能解析の視点 [全文訳有]

Variational Gaussian Processes: A Functional Analysis View ( http://arxiv.org/abs/2110.12798v1 )

ライセンス: CC BY 4.0
Veit Wild and George Wynne(参考訳) 変分ガウス過程(GP)近似は高速GP推論における標準ツールとなっている。 このテクニックでは、ユーザは効率を高めるために変動特性を選択する必要がある。 これまでのところ、文学における一般的な選択は異なっており、一般性に欠ける。 我々は、GPをバナッハ空間に横たわると見なし、統一的な視点を促進することを提案する。 これは、既存の特徴間の関係を理解し、カーネルリッジ回帰と変分gp近似の関係を描くために使われる。

Variational Gaussian process (GP) approximations have become a standard tool in fast GP inference. This technique requires a user to select variational features to increase efficiency. So far the common choices in the literature are disparate and lacking generality. We propose to view the GP as lying in a Banach space which then facilitates a unified perspective. This is used to understand the relationship between existing features and to draw a connection between kernel ridge regression and variational GP approximations.
翻訳日:2021-10-27 00:24:02 公開日:2021-10-25
# (参考訳) クロスモーダルビデオ検索のためのマルチビュー埋め込みにおけるドメイン適応 [全文訳有]

Domain Adaptation in Multi-View Embedding for Cross-Modal Video Retrieval ( http://arxiv.org/abs/2110.12812v1 )

ライセンス: CC BY 4.0
Jonathan Munro, Michael Wray, Diane Larlus, Gabriela Csurka, Dima Damen(参考訳) 本論文は,未収録のビデオシーケンスのギャラリーを与えられた場合,未発見のテキストクエリとの関連性に基づいてビデオ検索を行う作業について検討する。 アノテーションの欠如を補うために、私たちは、ソースギャラリー(source Gallery)と呼ばれる、ビデオとターゲットギャラリーの間のドメインギャップがあるにもかかわらず、ビデオキャプチャペアで構成された関連ビデオギャラリーに頼る。 そこで我々は, クロスモーダルビデオ検索のための教師なしドメイン適応問題と, きめ細かい動作に関する新しいベンチマークを導入する。 擬似ラベリング対象ビデオとクロスドメイン(すなわちソースターゲット)ランキングを用いた新しい反復的ドメインアライメント手法を提案する。 提案手法は,組込み空間を目標ギャラリーに適応させ,ソースのみを一貫して上回り,限界アライメント法と条件アライメント法を併用する。

Given a gallery of uncaptioned video sequences, this paper considers the task of retrieving videos based on their relevance to an unseen text query. To compensate for the lack of annotations, we rely instead on a related video gallery composed of video-caption pairs, termed the source gallery, albeit with a domain gap between its videos and those in the target gallery. We thus introduce the problem of Unsupervised Domain Adaptation for Cross-modal Video Retrieval, along with a new benchmark on fine-grained actions. We propose a novel iterative domain alignment method by means of pseudo-labelling target videos and cross-domain (i.e. source-target) ranking. Our approach adapts the embedding space to the target gallery, consistently outperforming source-only as well as marginal and conditional alignment methods.
翻訳日:2021-10-27 00:00:06 公開日:2021-10-25
# (参考訳) 深層型アンサンブル学習ネットワークを用いたCT画像における新型肺炎病変の自動抽出 [全文訳有]

Automatic segmentation of novel coronavirus pneumonia lesions in CT images utilizing deep-supervised ensemble learning network ( http://arxiv.org/abs/2110.12827v1 )

ライセンス: CC BY 4.0
Yuanyuan Peng, Zixu Zhang, Hongbin Tu, Xiong Li(参考訳) 背景:2019年の新型コロナウイルス感染症(COVID-19)は世界中で広まり、人々の生活環境に大きな脅威をもたらしている。 目的:CT(Computerd tomography)画像では,COVID-19の病変の構造的特徴は複雑で,異なる症例で大きく異なる。 新型コロナウイルスの病変を正確に特定し、医師が最高の診断・治療計画を立案するのを助けるため、CT画像におけるCOVID-19病変のセグメンテーションのために、深く監督されたアンサンブル学習ネットワークが提示される。 方法:大量のCOVID-19 CT画像とそれに伴う病変アノテーションの取得が困難であるという事実を踏まえ,その欠点を補い,過度に適合する問題を緩和するために,転写学習戦略を採用する。 従来の単一ディープラーニングフレームワークでは、新型コロナウイルスの病変の特徴を効果的に抽出することは困難であり、一部の病変は検出されない可能性がある。 この問題を克服するために、深層教師付きアンサンブル学習ネットワークが提示され、COVID-19の病変セグメンテーションの局所的およびグローバル的特徴と組み合わせられる。 結果:提案手法の性能は,公開データセットを用いた実験で検証された。 手動アノテーションと比較すると,提案手法は0.7279のiou (high intersection over union) を得た。 結論:ct画像中の肺炎病変分画に対し,深層教師付きアンサンブル学習ネットワークが提示された。 提案手法の有効性を視覚的検査と定量的評価により検証した。 実験の結果,mehtodはcovid-19病巣の分画に最適であった。

Background: The 2019 novel coronavirus disease (COVID-19) has been spread widely in the world, causing a huge threat to people's living environment. Objective: Under computed tomography (CT) imaging, the structure features of COVID-19 lesions are complicated and varied greatly in different cases. To accurately locate COVID-19 lesions and assist doctors to make the best diagnosis and treatment plan, a deep-supervised ensemble learning network is presented for COVID-19 lesion segmentation in CT images. Methods: Considering the fact that a large number of COVID-19 CT images and the corresponding lesion annotations are difficult to obtained, a transfer learning strategy is employed to make up for the shortcoming and alleviate the overfitting problem. Based on the reality that traditional single deep learning framework is difficult to extract COVID-19 lesion features effectively, which may cause some lesions to be undetected. To overcome the problem, a deep-supervised ensemble learning network is presented to combine with local and global features for COVID-19 lesion segmentation. Results: The performance of the proposed method was validated in experiments with a publicly available dataset. Compared with manual annotations, the proposed method acquired a high intersection over union (IoU) of 0.7279. Conclusion: A deep-supervised ensemble learning network was presented for coronavirus pneumonia lesion segmentation in CT images. The effectiveness of the proposed method was verified by visual inspection and quantitative evaluation. Experimental results shown that the proposed mehtod has a perfect performance in COVID-19 lesion segmentation.
翻訳日:2021-10-26 23:42:12 公開日:2021-10-25
# (参考訳) 進化的アルゴリズムによるクレジット・スコーリングの悪用 [全文訳有]

Debiasing Credit Scoring using Evolutionary Algorithms ( http://arxiv.org/abs/2110.12838v1 )

ライセンス: CC BY-SA 4.0
Nigel Kingsman(参考訳) 本稿では,「バイアス目標」を考慮しつつ,現実のデータよりも信用決定モデルを訓練する際の機械学習の適用について検討する。 我々は、訓練されたモデルが所定のレベルを超えない個人集団に対して差別バイアスを示すという要求を記述するために「バイアス客観的」という用語を用いる。 本研究は,1つ以上のバイアス対象を含む競合モデルトレーニング目標間の緊張関係について,実証的研究を行った。 この研究は、信用力モデルに関連する当事者が同時に満たせない要件を持っているという観察に動機づけられている。 この研究は、すべての当事者の目的を満たすことの非現実性を強調し、「トレードオフ」を行う必要性を実証することを目的としている。 この論文で提示された結果と結論は、個人の信用能力を決定する意思決定プロセスの一部として人工知能(ai)モデルに依存するクレジットスコアリング業界内のすべての利害関係者にとって、特に重要である。 本稿では,複数のバイアス目標を同時に満たし,精度の許容レベルを維持しつつ,AIモデルを訓練することの難しさを解説する。 利害関係者は、この困難に気付き、多くの保護された特徴とバイアスの定式化を通じて、ある程度の差別バイアスは避けられないことを認めるべきである。

This paper investigates the application of machine learning when training a credit decision model over real, publicly available data whilst accounting for "bias objectives". We use the term "bias objective" to describe the requirement that a trained model displays discriminatory bias against a given groups of individuals that doesn't exceed a prescribed level, where such level can be zero. This research presents an empirical study examining the tension between competing model training objectives which in all cases include one or more bias objectives. This work is motivated by the observation that the parties associated with creditworthiness models have requirements that can not certainly be fully met simultaneously. The research herein seeks to highlight the impracticality of satisfying all parties' objectives, demonstrating the need for "trade-offs" to be made. The results and conclusions presented by this paper are of particular importance for all stakeholders within the credit scoring industry that rely upon artificial intelligence (AI) models as part of the decision-making process when determining the creditworthiness of individuals. This paper provides an exposition of the difficulty of training AI models that are able to simultaneously satisfy multiple bias objectives whilst maintaining acceptable levels of accuracy. Stakeholders should be aware of this difficulty and should acknowledge that some degree of discriminatory bias, across a number of protected characteristics and formulations of bias, cannot be avoided.
翻訳日:2021-10-26 23:25:29 公開日:2021-10-25
# (参考訳) 聴くことよりも口を傾ける行動:編集経験に基づく音楽スタイルの伝達の評価 [全文訳有]

Actions Speak Louder than Listening: Evaluating Music Style Transfer based on Editing Experience ( http://arxiv.org/abs/2110.12855v1 )

ライセンス: CC BY 4.0
Wei-Tsung Lu, Meng-Hsuan Wu, Yuh-Ming Chiu, Li Su(参考訳) 音楽生成手法の主観評価は, 楽曲構成, 編曲, サウンドトラック編集の視点を無視しながら, アンケートに基づく聴取テストによって行われている。 本稿では,音楽生成モデルのユーザによる編集経験を体系的に評価する編集テストを提案する。 そこで我々は,非時間的推論アーキテクチャ,自己回帰モデル,トランスフォーマーを組み合わせた新しい音楽スタイルのトランスファーモデルを設計し,同じスタイルのトランスファータスクにおけるベースラインモデルから改善する。 次に,2つのモデルの性能を従来の聴取テストと比較し,生成したサンプルの品質をユーザが音楽クリップを磨くのに要する作業量(キーボードとマウスの動作数など)によって評価する編集テストを提案する。 その結果, ベースラインモデルに対する改善は, 編集試験によって定量的に反映できることが示唆された。 また、編集テストは、通常のリスニングテストからアクセスできない深い洞察を提供する。 本研究の主な貢献は,編集テストとそれに対応する知見の体系的提示であり,また,最新のニューラルネットワークに基づく音楽スタイルの伝達モデルも貢献している。

The subjective evaluation of music generation techniques has been mostly done with questionnaire-based listening tests while ignoring the perspectives from music composition, arrangement, and soundtrack editing. In this paper, we propose an editing test to evaluate users' editing experience of music generation models in a systematic way. To do this, we design a new music style transfer model combining the non-chronological inference architecture, autoregressive models and the Transformer, which serves as an improvement from the baseline model on the same style transfer task. Then, we compare the performance of the two models with a conventional listening test and the proposed editing test, in which the quality of generated samples is assessed by the amount of effort (e.g., the number of required keyboard and mouse actions) spent by users to polish a music clip. Results on two target styles indicate that the improvement over the baseline model can be reflected by the editing test quantitatively. Also, the editing test provides profound insights which are not accessible from usual listening tests. The major contribution of this paper is the systematic presentation of the editing test and the corresponding insights, while the proposed music style transfer model based on state-of-the-art neural networks represents another contribution.
翻訳日:2021-10-26 23:12:44 公開日:2021-10-25
# (参考訳) チャンクサイズ適応を用いたコンセプトドリフトの克服 [全文訳有]

Employing chunk size adaptation to overcome concept drift ( http://arxiv.org/abs/2110.12881v1 )

ライセンス: CC BY 4.0
J\k{e}drzej Kozal, Filip Guzy, Micha{\l} Wo\'zniak(参考訳) 現代の分析システムは、ストリーミングデータを処理し、データの分散変化に正しく対応する必要がある。 データ分布の変化の現象は概念ドリフトと呼ばれ、使用済みモデルの品質に悪影響を及ぼす可能性がある。 さらに、概念ドリフトの出現の可能性により、使用されるアルゴリズムは、変化するデータ分布へのモデルの継続的な適応の準備ができなければならない。 本研究は,非定常データストリーム分類に着目し,分類器アンサンブルを用いる。 アンサンブルモデルを最新の状態に保つため、新しいベース分類器は入ってくるデータブロック上で訓練され、アンサンブルに追加されると同時に、古いモデルがアンサンブルから削除される。 このタイプのモデルの問題の1つは、データ分散の変化に対する高速な反応である。 我々は,任意のブロックベースデータストリーム分類アルゴリズムに適用可能な新しいチャンク適応修復フレームワークを提案する。 提案アルゴリズムは,概念ドリフト検出時のデータチャンクサイズを調整し,その変更が使用済みモデルの予測性能に与える影響を最小限に抑える。 統計的テストで裏付けられた実験により、チャンク適応修復はモデルの復元時間を著しく短縮できることが証明された。

Modern analytical systems must be ready to process streaming data and correctly respond to data distribution changes. The phenomenon of changes in data distributions is called concept drift, and it may harm the quality of the used models. Additionally, the possibility of concept drift appearance causes that the used algorithms must be ready for the continuous adaptation of the model to the changing data distributions. This work focuses on non-stationary data stream classification, where a classifier ensemble is used. To keep the ensemble model up to date, the new base classifiers are trained on the incoming data blocks and added to the ensemble while, at the same time, outdated models are removed from the ensemble. One of the problems with this type of model is the fast reaction to changes in data distributions. We propose a new Chunk Adaptive Restoration framework that can be adapted to any block-based data stream classification algorithm. The proposed algorithm adjusts the data chunk size in the case of concept drift detection to minimize the impact of the change on the predictive performance of the used model. The conducted experimental research, backed up with the statistical tests, has proven that Chunk Adaptive Restoration significantly reduces the model's restoration time.
翻訳日:2021-10-26 22:56:19 公開日:2021-10-25
# (参考訳) DECAF:Causally-Aware Generative Networksを用いた公正な合成データ生成 [全文訳有]

DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative Networks ( http://arxiv.org/abs/2110.12884v1 )

ライセンス: CC BY 4.0
Boris van Breugel, Trent Kyono, Jeroen Berrevoets, Mihaela van der Schaar(参考訳) 機械学習モデルはトレーニングデータの不公平なバイアスを反映しているとして批判されている。 公平な学習アルゴリズムを直接導入することでこの問題を解決する代わりに、下流の学習者が公正であるように、公正な合成データを生成することに重点を置いている。 不公平なデータから公正な合成データを生成することは、基礎となるデータ生成プロセス(dgp)に忠実なままです。 本稿では,表型データのための公正な合成データ生成装置であるDECAFを紹介する。 DECAFでは、DGPをジェネレータの入力層に明示的に構造因果モデルとして組み込み、各変数をその因果親に条件付きで再構成する。 この方法では、ユーザの定義した公平性要件を満たすために、バイアスのあるエッジを戦略的に除去することができる。 DECAFフレームワークは汎用的で、フェアネスの一般的な定義と互換性がある。 我々の実験では、DECAFは望ましくないバイアスを除去し、既存の手法とは対照的に高品質な合成データを生成できることが示されている。 さらに、発電機の収束と下流モデルの公平性に関する理論的保証を提供する。

Machine learning models have been criticized for reflecting unfair biases in the training data. Instead of solving for this by introducing fair learning algorithms directly, we focus on generating fair synthetic data, such that any downstream learner is fair. Generating fair synthetic data from unfair data - while remaining truthful to the underlying data-generating process (DGP) - is non-trivial. In this paper, we introduce DECAF: a GAN-based fair synthetic data generator for tabular data. With DECAF we embed the DGP explicitly as a structural causal model in the input layers of the generator, allowing each variable to be reconstructed conditioned on its causal parents. This procedure enables inference time debiasing, where biased edges can be strategically removed for satisfying user-defined fairness requirements. The DECAF framework is versatile and compatible with several popular definitions of fairness. In our experiments, we show that DECAF successfully removes undesired bias and - in contrast to existing methods - is capable of generating high-quality synthetic data. Furthermore, we provide theoretical guarantees on the generator's convergence and the fairness of downstream models.
翻訳日:2021-10-26 22:35:56 公開日:2021-10-25
# (参考訳) 前立腺mriの解剖学的および診断的ベイズ分節化は、異なる臨床目的に異なる損失機能を必要とするか? [全文訳有]

Anatomical and Diagnostic Bayesian Segmentation in Prostate MRI $-$Should Different Clinical Objectives Mandate Different Loss Functions? ( http://arxiv.org/abs/2110.12889v1 )

ライセンス: CC BY 4.0
Anindo Saha, Joeran Bosma, Jasper Linmans, Matin Hosseinzadeh, Henkjan Huisman(参考訳) 前立腺MRIにおける確率的ボクセルレベルの解剖・悪性度分類は、U-Netsを介してほぼ同一のセグメンテーションタスクとして扱われることが多いが、臨床目的に固有の違いがあるため、最適性能の損失関数が要求される。 ProstateXデータセットを用いて,200件の患者試験において,各タスクの分布,領域,境界に基づく損失関数について検討した。 評価のために, 前立腺解剖学の多クラス分別(whole-gland, transitional zone, peripheral zone)および臨床的に有意な前立腺癌の患者レベル診断および病変レベル検出に関して, モデル予測とキャリブレーションの徹底的な比較分析を行った。 特に、分布に基づく損失関数(特に焦点損失)は、病変検出などの診断や汎視的セグメンテーションに適しており、その主な原因は、キャリブレーションの改善による暗黙的な特性である。 一方、(焦点損失を除く)分布関数と領域/境界に基づく損失関数は、解剖学的または意味的セグメンテーションタスク(臓器の形状、サイズ、境界の定量化など)において等しく機能する。

We hypothesize that probabilistic voxel-level classification of anatomy and malignancy in prostate MRI, although typically posed as near-identical segmentation tasks via U-Nets, require different loss functions for optimal performance due to inherent differences in their clinical objectives. We investigate distribution, region and boundary-based loss functions for both tasks across 200 patient exams from the publicly-available ProstateX dataset. For evaluation, we conduct a thorough comparative analysis of model predictions and calibration, measured with respect to multi-class volume segmentation of the prostate anatomy (whole-gland, transitional zone, peripheral zone), as well as, patient-level diagnosis and lesion-level detection of clinically significant prostate cancer. Notably, we find that distribution-based loss functions (in particular, focal loss) are well-suited for diagnostic or panoptic segmentation tasks such as lesion detection, primarily due to their implicit property of inducing better calibration. Meanwhile, (with the exception of focal loss) both distribution and region/boundary-base d loss functions perform equally well for anatomical or semantic segmentation tasks, such as quantification of organ shape, size and boundaries.
翻訳日:2021-10-26 22:04:56 公開日:2021-10-25
# (参考訳) SILT:インシシット画像分解を用いた自己教師型照明伝達 [全文訳有]

SILT: Self-supervised Lighting Transfer Using Implicit Image Decomposition ( http://arxiv.org/abs/2110.12914v1 )

ライセンス: CC BY 4.0
Nikolina Kubiak, Armin Mustafa, Graeme Phillipson, Stephen Jolly, Simon Hadfield(参考訳) 本稿では,自己監督型インシシット照明伝達方式SILTを提案する。 シーンライティングに関する従来の研究とは異なり、任意の新しい照明構成をシーンに適用しようとはしない。 代わりに、他のシーンのデータベースから照明スタイルを転送して、入力に関係なく均一な照明スタイルを提供したいと考えています。 このソリューションは、まず任意の照明スタイルの入力画像を統一された領域にマッピングすることを目的として、2分岐ネットワークとして動作する。 次に、生成された出力とスタイル参照、すなわち所望の照明条件の画像を表示する判別器を用いて、この統一入力ドメインを再マップする。 本手法は,2つの異なるデータセットにまたがる教師ありリライトソリューションを,照明の監督を必要とせずに改善できることを示す。

We present SILT, a Self-supervised Implicit Lighting Transfer method. Unlike previous research on scene relighting, we do not seek to apply arbitrary new lighting configurations to a given scene. Instead, we wish to transfer the lighting style from a database of other scenes, to provide a uniform lighting style regardless of the input. The solution operates as a two-branch network that first aims to map input images of any arbitrary lighting style to a unified domain, with extra guidance achieved through implicit image decomposition. We then remap this unified input domain using a discriminator that is presented with the generated outputs and the style reference, i.e. images of the desired illumination conditions. Our method is shown to outperform supervised relighting solutions across two different datasets without requiring lighting supervision.
翻訳日:2021-10-26 21:55:25 公開日:2021-10-25
# (参考訳) 指数的確率測度に対する定量的ラプラス型収束結果と2つの応用について

On quantitative Laplace-type convergence results for some exponential probability measures, with two applications ( http://arxiv.org/abs/2110.12922v1 )

ライセンス: CC BY 4.0
Valentin De Bortoli, Agn\`es Desolneux(参考訳) laplace-typeの結果は、密度 w.r.t を持つ測度の列の極限である $(\pi_\varepsilon)_{\varepsilon >0}$ を特徴づける: ルベーグ測度 $(\mathrm{d} \pi_\varepsilon / \mathrm{d} \mathrm{leb})(x) \propto \exp[-u(x)/\varepsilon]$ 温度 $\varepsilon>0$ が 0$ に収束するとき、ルベーグ測度 $(\mathrm{d} \pi_\varepsilon / \mathrm{d} \mathrm{leb})(x) \propto \exp[-u(x)/\varepsilon]$。 制限分布 $\pi_0$ が存在するなら、潜在的$U$ の最小値に集中する。 古典的な結果は、そのような漸近性を確立するために$U$のヘッセンの可逆性を必要とする。 本研究では、ノルム様ポテンシャルの特定の場合である u$ について検討し、一般化ヤコビアンの可逆条件下でのワッサーシュタイン距離が 1 であるような $\pi_\varepsilon$ と $\pi_0$ w.r.t の間の定量的境界を確立する。 我々の証明の鍵となる要素は、コーリア式のような幾何測度理論ツールを使うことである。 本研究は, 極大エントロピーモデル(ミクロカノニカル/マクロカノニカル分布)の研究と, 非凸最小化のための低温における確率勾配ランジュバンダイナミクス(sgld)アルゴリズムのイテレートの収束に応用する。

Laplace-type results characterize the limit of sequence of measures $(\pi_\varepsilon)_{\varepsilon >0}$ with density w.r.t the Lebesgue measure $(\mathrm{d} \pi_\varepsilon / \mathrm{d} \mathrm{Leb})(x) \propto \exp[-U(x)/\varepsilon]$ when the temperature $\varepsilon>0$ converges to $0$. If a limiting distribution $\pi_0$ exists, it concentrates on the minimizers of the potential $U$. Classical results require the invertibility of the Hessian of $U$ in order to establish such asymptotics. In this work, we study the particular case of norm-like potentials $U$ and establish quantitative bounds between $\pi_\varepsilon$ and $\pi_0$ w.r.t. the Wasserstein distance of order $1$ under an invertibility condition of a generalized Jacobian. One key element of our proof is the use of geometric measure theory tools such as the coarea formula. We apply our results to the study of maximum entropy models (microcanonical/macr ocanonical distributions) and to the convergence of the iterates of the Stochastic Gradient Langevin Dynamics (SGLD) algorithm at low temperatures for non-convex minimization.
翻訳日:2021-10-26 21:42:25 公開日:2021-10-25
# (参考訳) CoProtector: データポリシによる無許可トレーニング使用に対するオープンソースコード保護 [全文訳有]

CoProtector: Protect Open-Source Code against Unauthorized Training Usage with Data Poisoning ( http://arxiv.org/abs/2110.12925v1 )

ライセンス: CC BY 4.0
Zhensu Sun, Xiaoning Du, Fu Song, Mingze Ni, Li Li(参考訳) 数十億行の公開コードをトレーニングしたGithub Copilotが、最近、コンピュータサイエンスの研究と実践コミュニティのバズワードになった。 開発者が安全で効果的なコードを実装するための強力なインテリジェンスを提供するように設計されているが、実践者や研究者は、倫理的およびセキュリティ上の問題に対する懸念を提起している。 これらの問題は、人工知能の急速な発展に必然的に伴うディープラーニングモデルを通じて、大規模なソースコードから知識を学ぶことを目的とした、Copilotや他の類似製品に重大な影響を与える。 このような影響を緩和するためには、ディープラーニングモデルがオープンソースコードを保護するための効果的なメカニズムを発明する必要があると論じる。 そこで我々は,このエクスプロイトを防御するために,armソースコードリポジトリにデータ中毒技術を利用するプロトタイプであるcoprotectorを設計し,実装する。 大規模実験の結果,CoProtectorはCopilotのような深層学習モデルの性能を著しく低減し,秘密に埋め込まれた透かしバックドアを安定的に明らかにすることができることがわかった。

Github Copilot, trained on billions of lines of public code, has recently become the buzzword in the computer science research and practice community. Although it is designed to provide powerful intelligence to help developers implement safe and effective code, practitioners and researchers raise concerns about its ethical and security problems, e.g., should the copyleft licensed code be freely leveraged or insecure code be considered for training in the first place? These problems pose a significant impact on Copilot and other similar products that aim to learn knowledge from large-scale source code through deep learning models, which are inevitably on the rise with the fast development of artificial intelligence. To mitigate such impacts, we argue that there is a need to invent effective mechanisms for protecting open-source code from being exploited by deep learning models. To this end, we design and implement a prototype, CoProtector, which utilizes data poisoning techniques to arm source code repositories for defending against such exploits. Our large-scale experiments empirically show that CoProtector is effective in achieving its purpose, significantly reducing the performance of Copilot-like deep learning models while being able to stably reveal the secretly embedded watermark backdoors.
翻訳日:2021-10-26 21:40:53 公開日:2021-10-25
# (参考訳) 致命的な自律兵器システムの規範的認識論 [全文訳有]

Normative Epistemology for Lethal Autonomous Weapons Systems ( http://arxiv.org/abs/2110.12935v1 )

ライセンス: CC BY 4.0
Susannah Kate Devitt(参考訳) 人間の情報システム、サイバネティックシステム、そしてますます自律的なシステムの台頭は、マシンや人間機械チームへの認識フレームワークの適用を必要とする。 本章では,認識モデルに基づく致命的な自律兵器システム(laws)の設計,評価,展開,イテレーションを導くための高次設計原則について論じる。 認識学は知識の研究である。 疫学モデルは、行動の正当化と知識の帰属における正確さ、可能性、信念、能力、能力、文脈、運の役割を考察する。 目的は、LAWSに対する倫理的正当性を提供するのではなく、将来のシステムの設計と展開を導くために、道徳的装置とともに認識論的なフレームワークをどのように利用できるかを説明することである。 本章で論じるモデルは, LAWSの系統的, 迅速, 評価可能な第36条のレビューを行うことを目的とする。 武力紛争法と国際人道法の要件を満たす不確実性の下で正当化された行動を可能にするため、ベイズ美徳認識論が提案されている。 疫学の概念は、倫理的AIの開発、評価、展開、レビューにおける説明可能性および透明性要件を満たすための装置の一部を提供することができる。

The rise of human-information systems, cybernetic systems, and increasingly autonomous systems requires the application of epistemic frameworks to machines and human-machine teams. This chapter discusses higher-order design principles to guide the design, evaluation, deployment, and iteration of Lethal Autonomous Weapons Systems (LAWS) based on epistemic models. Epistemology is the study of knowledge. Epistemic models consider the role of accuracy, likelihoods, beliefs, competencies, capabilities, context, and luck in the justification of actions and the attribution of knowledge. The aim is not to provide ethical justification for or against LAWS, but to illustrate how epistemological frameworks can be used in conjunction with moral apparatus to guide the design and deployment of future systems. The models discussed in this chapter aim to make Article 36 reviews of LAWS systematic, expedient, and evaluable. A Bayesian virtue epistemology is proposed to enable justified actions under uncertainty that meet the requirements of the Laws of Armed Conflict and International Humanitarian Law. Epistemic concepts can provide some of the apparatus to meet explainability and transparency requirements in the development, evaluation, deployment, and review of ethical AI.
翻訳日:2021-10-26 21:23:20 公開日:2021-10-25
# (参考訳) 最適モデル平均化:パーソナライズされた協調学習に向けて [全文訳有]

Optimal Model Averaging: Towards Personalized Collaborative Learning ( http://arxiv.org/abs/2110.12946v1 )

ライセンス: CC BY 4.0
Felix Grimberg (1), Mary-Anne Hartley (1), Sai P. Karimireddy (1), Martin Jaggi (1) ((1) EPFL)(参考訳) 連合学習では、参加ノード間のデータや目的の違いが、各ノードに対してパーソナライズされた機械学習モデルをトレーニングするためのアプローチを動機付ける。 そのようなアプローチの1つは、局所的に訓練されたモデルとグローバルモデルの間の重み付き平均化である。 本研究では,任意のスカラー平均推定問題の重み付きモデル平均化について,分布の最小仮定の下で検討する。 バイアス分散トレードオフの変種では、局所モデルが非ゼロ分散を持つ場合に限り、局所モデルに比べて期待される2乗誤差を減少させるモデル平均化の正の量が常に存在することが分かる。 さらに,重みモデル平均化の(おそらく負の)利点を,使用する重みと最適重みの関数として定量化する。 本研究は,協調学習におけるパーソナライゼーションの価値を定量化するためのアプローチを定式化し,多変量パラメータ推定および様々な仮定の下での結果をテストするための将来の研究の枠組みを提供する。

In federated learning, differences in the data or objectives between the participating nodes motivate approaches to train a personalized machine learning model for each node. One such approach is weighted averaging between a locally trained model and the global model. In this theoretical work, we study weighted model averaging for arbitrary scalar mean estimation problems under minimal assumptions on the distributions. In a variant of the bias-variance trade-off, we find that there is always some positive amount of model averaging that reduces the expected squared error compared to the local model, provided only that the local model has a non-zero variance. Further, we quantify the (possibly negative) benefit of weighted model averaging as a function of the weight used and the optimal weight. Taken together, this work formalizes an approach to quantify the value of personalization in collaborative learning and provides a framework for future research to test the findings in multivariate parameter estimation and under a range of assumptions.
翻訳日:2021-10-26 21:08:10 公開日:2021-10-25
# (参考訳) 微分レンダリングによる制御不能環境における形状・反射率復元 [全文訳有]

Shape and Reflectance Reconstruction in Uncontrolled Environments by Differentiable Rendering ( http://arxiv.org/abs/2110.12975v1 )

ライセンス: CC BY 4.0
Rui Li, Guangmin Zang, Miao Qi, Wolfgang Heidrich(参考訳) 非制御環境における幾何と反射特性の同時再構成は課題である。 本稿では,従来のハンドヘルドカメラを用いた多視点撮影からシーンの3次元形状と反射率を再構築する効率的な手法を提案する。 本手法は,実世界のシーンパラメータとほぼ一致する微分可能なレンダリングシステムにおいて仮想シーンを自動的に構築し,測光対象を交互かつ確率的に最小化することで最適化する。 最適なシーンパラメータを評価することで、様々な視角と距離のフォトリアリスティックな新しいビューを、我々のアプローチによって生成することができる。 複雑な形状と様々な反射型を持つ撮影シーンの結果を示す。 また,新しいビュー合成における最先端の代替手法と比較して,視覚的,定量的に優れた性能を示す。

Simultaneous reconstruction of geometry and reflectance properties in uncontrolled environments remains a challenging problem. In this paper, we propose an efficient method to reconstruct the scene's 3D geometry and reflectance from multi-view photography using conventional hand-held cameras. Our method automatically builds a virtual scene in a differentiable rendering system that roughly matches the real world's scene parameters, optimized by minimizing photometric objectives alternatingly and stochastically. With the optimal scene parameters evaluated, photo-realistic novel views for various viewing angles and distances can then be generated by our approach. We present the results of captured scenes with complex geometry and various reflection types. Our method also shows superior performance compared to state-of-the-art alternatives in novel view synthesis visually and quantitatively.
翻訳日:2021-10-26 20:48:23 公開日:2021-10-25
# (参考訳) Lyapunov-Stable Equilibrium Points を用いた対向攻撃に備えた安定ニューラルネットワーク [全文訳有]

Stable Neural ODE with Lyapunov-Stable Equilibrium Points for Defending Against Adversarial Attacks ( http://arxiv.org/abs/2110.12976v1 )

ライセンス: CC BY 4.0
Qiyu Kang, Yang Song, Qinxu Ding and Wee Peng Tay(参考訳) ディープニューラルネットワーク(dnn)は、悪意のある人間の知覚可能な摂動がディープネットワークへの入力に含まれる敵の攻撃に対して脆弱であることがよく知られている。 近年の研究では、神経性常微分方程式(ODE)は、バニラDNNと比較して本質的には敵の攻撃に対して堅牢であることが示された。 本研究では,Lyapunov-stable平衡点を持つ安定なニューラルODEを提案し,敵攻撃(SODEF)を防御する。 SODEFの一部として使われるODE溶液の平衡点がリャプノフ安定であることを保証することにより、小さな摂動を持つ入力に対するODE溶液は、未摂動入力と同じ解に収束する。 我々は、SODEFの安定性に関する洞察を与える理論的な結果と、その安定性を確保するための正則化器の選択を提供する。 解析の結果,提案した正則化器は抽出した特徴点をODEのリャプノフ安定平衡点の近傍に配置することを示唆した。 SODEFは多くの防御手法と互換性があり、あらゆるニューラルネットワークの最終回帰層に適用することで、敵攻撃に対する安定性を高めることができる。

Deep neural networks (DNNs) are well-known to be vulnerable to adversarial attacks, where malicious human-imperceptible perturbations are included in the input to the deep network to fool it into making a wrong classification. Recent studies have demonstrated that neural Ordinary Differential Equations (ODEs) are intrinsically more robust against adversarial attacks compared to vanilla DNNs. In this work, we propose a stable neural ODE with Lyapunov-stable equilibrium points for defending against adversarial attacks (SODEF). By ensuring that the equilibrium points of the ODE solution used as part of SODEF is Lyapunov-stable, the ODE solution for an input with a small perturbation converges to the same solution as the unperturbed input. We provide theoretical results that give insights into the stability of SODEF as well as the choice of regularizers to ensure its stability. Our analysis suggests that our proposed regularizers force the extracted feature points to be within a neighborhood of the Lyapunov-stable equilibrium points of the ODE. SODEF is compatible with many defense methods and can be applied to any neural network's final regressor layer to enhance its stability against adversarial attacks.
翻訳日:2021-10-26 20:30:49 公開日:2021-10-25
# (参考訳) MoDeRNN:時空間予測学習のための微粒な運動詳細を目指して [全文訳有]

MoDeRNN: Towards Fine-grained Motion Details for Spatiotemporal Predictive Learning ( http://arxiv.org/abs/2110.12978v1 )

ライセンス: CC BY 4.0
Zenghao Chai, Zhengzhuo Xu, Chun Yuan(参考訳) 時空間予測学習(ST-PL)は、観測された限られたシーケンスを通してその後のフレームを予測することを目的としており、現実世界に広く応用されている。 しかし,予測のための時空間的特徴の学習は困難である。 さらに,連続フレーム間のカオス不確実性は,長期予測の困難を増す。 本稿では,従来の状況と現在の状況との対応性を高めることにより,予測品質の向上に着目する。 詳細コンテキストブロック(dcb)を慎重に設計し,詳細情報を抽出し,上位コンテキスト状態と現在の入力状態との分離相関性を改善する。 我々は、DCBを標準のConvLSTMと統合し、運動詳細RNN(MoDeRNN)を導入し、微細な時空間的特徴を捉え、RNNの潜時状態の表現を改善し、大幅な品質を実現する。 MNISTとTyphoonデータセットの移動実験により,提案手法の有効性が示された。 modernnは、より低い計算負荷で、質的かつ定量的に既存の最先端技術を上回る。

Spatiotemporal predictive learning (ST-PL) aims at predicting the subsequent frames via limited observed sequences, and it has broad applications in the real world. However, learning representative spatiotemporal features for prediction is challenging. Moreover, chaotic uncertainty among consecutive frames exacerbates the difficulty in long-term prediction. This paper concentrates on improving prediction quality by enhancing the correspondence between the previous context and the current state. We carefully design Detail Context Block (DCB) to extract fine-grained details and improves the isolated correlation between upper context state and current input state. We integrate DCB with standard ConvLSTM and introduce Motion Details RNN (MoDeRNN) to capture fine-grained spatiotemporal features and improves the expression of latent states of RNNs to achieve significant quality. Experiments on Moving MNIST and Typhoon datasets demonstrate the effectiveness of the proposed method. MoDeRNN outperforms existing state-of-the-art techniques qualitatively and quantitatively with lower computation loads.
翻訳日:2021-10-26 20:05:57 公開日:2021-10-25
# (参考訳) 画像補間とスキャン変換のための確率的丸め法 [全文訳有]

Stochastic Rounding for Image Interpolation and Scan Conversion ( http://arxiv.org/abs/2110.12983v1 )

ライセンス: CC BY 4.0
Olivier Rukundo(参考訳) 確率的丸み (sr) 関数は、直近補間 (nni) における画像補間品質に及ぼす確率的丸み列と列サブスクリプトの影響を示すために導入された。 導入されたSR関数は擬似乱数に基づいており、非整数行と列サブスクリプトの擬似乱数が上下に丸められる。 また、SR関数は、特に高い補間スケーリング比において、擬似ランダム数に劣るサブスクリプト入力の任意のケースを、例外的に丸めることができる。 NNI-SR補間画像の品質は、スムース化およびシャープ化フィルタの適用前後の基準画像の品質に対して評価される。 NNI-SR補間走査変換ビデオフレームの品質は、78ミリ秒毎に10万ミリ秒毎に1フレームの品質に基準を当てることなく評価される。 関連する実験シミュレーション結果、議論、レコメンデーションも提供されている。

The stochastic rounding (SR) function is introduced to demonstrate the effects of stochastically rounding row and column subscripts on image interpolation quality in nearest neighbor interpolation (NNI). The introduced SR function is based on a pseudorandom number that enables the pseudorandom rounding up or down of any non-integer row and column subscripts. Also, the SR function exceptionally enables rounding up of any possible cases of subscript inputs that are inferior to a pseudorandom number - especially at a high interpolation scaling ratio. The quality of NNI-SR interpolated images is evaluated against the quality of reference images - before and after applying smoothing and sharpening filters, mentioned. The quality of NNI-SR interpolated scan conversion video frames is evaluated without using any references - focusing on the quality of one frame after every 78-milliseconds for 10 000 milliseconds. Relevant experimental simulation results, discussions, and recommendations are also provided.
翻訳日:2021-10-26 19:53:52 公開日:2021-10-25
# (参考訳) 疾患検出のための生成的残留注意ネットワーク [全文訳有]

Generative Residual Attention Network for Disease Detection ( http://arxiv.org/abs/2110.12984v1 )

ライセンス: CC BY 4.0
Euyoung Kim and Soochahn Lee and Kyoung Mu Lee(参考訳) 放射線画像からの異常の正確な同定と局所化は、コンピュータ支援診断(CAD)システムにおいて重要な役割を果たす。 高度に一般化可能なシステムを構築するには、疾患固有のグローバルおよびローカライゼーション情報を含む高品質なアノテーションを持つ大量のデータが必要となる。 しかし, 医用画像では, アノテーションの費用がかかるため, 高品質な画像やアノテーションは限られている。 本稿では、条件付き生成逆学習を用いて、X線における疾患発生の新しいアプローチを提案する。 具体的には、ソース領域から胸部X線画像が与えられた場合、患者の身元を保ちながら、対象領域に対応する放射線画像を生成する。 次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。 また,疾患の発生と局在を同時に行う統一フレームワークを提案する。我々は,米国放射線学会(rsna)が提供するx線画像データセットに対する提案手法を,最先端のベースライン検出アルゴリズムを上回って評価する。

Accurate identification and localization of abnormalities from radiology images serve as a critical role in computer-aided diagnosis (CAD) systems. Building a highly generalizable system usually requires a large amount of data with high-quality annotations, including disease-specific global and localization information. However, in medical images, only a limited number of high-quality images and annotations are available due to annotation expenses. In this paper, we explore this problem by presenting a novel approach for disease generation in X-rays using a conditional generative adversarial learning. Specifically, given a chest X-ray image from a source domain, we generate a corresponding radiology image in a target domain while preserving the identity of the patient. We then use the generated X-ray image in the target domain to augment our training to improve the detection performance. We also present a unified framework that simultaneously performs disease generation and localization.We evaluate the proposed approach on the X-ray image dataset provided by the Radiological Society of North America (RSNA), surpassing the state-of-the-art baseline detection algorithms.
翻訳日:2021-10-26 19:42:32 公開日:2021-10-25
# (参考訳) mlを用いたアルツハイマー病の予測における音声特徴の同定 [全文訳有]

ML-Based Analysis to Identify Speech Features Relevant in Predicting Alzheimer's Disease ( http://arxiv.org/abs/2110.13023v1 )

ライセンス: CC0 1.0
Yash Kumar, Piyush Maheshwari, Shreyansh Joshi and Veeky Baths(参考訳) アルツハイマー病(英: Alzheimer's disease, AD)は、世界中の5000万人近い人に影響を及ぼす神経変性疾患であり、世界規模の死因の1つである。 2050年までには、この病気の感染者は2倍以上になると予想されている。 その結果、技術の発展が疑問視され、より良く早期に診断するために、テクノロジーはアルツハイマー病を予測するのに使えるのだろうか? 本稿では,この問題に焦点をあてる。 具体的には、機械学習モデルとニューラルネットワークの両方を訓練し、参加者の音声パターンに基づいて予測と分類を行った。 DementiaBankのPitt Corpusは、複数の神経変性疾患の患者に対するインタビューの書き起こしからなるデータベースである。 次に、正常な老化や神経変性疾患と鑑別するために、二分分類器と多クラス分類器の両方を訓練した。 また、ADの開始を決定できる特定の音声要素間のリンクの確立にも取り組んでいる。 モデルの性能を比較するために、混乱行列と特徴重要グラフがモデルごとにプロットされています。 マルチクラス分類とバイナリ分類の両方において、ニューラルネットワークは、それぞれ76.44%と92.05%の精度で他のモデルより優れていることがわかった。 この特徴から,「%_presp」 (現在分詞) 「%_3s」 (3人目現在時制マーカー) は, 広告の予測において, 分類者にとって最も重要な音声特徴の2つであることがわかった。

Alzheimer's disease (AD) is a neurodegenerative disease that affects nearly 50 million individuals across the globe and is one of the leading causes of deaths globally. It is projected that by 2050, the number of people affected by the disease would more than double. Consequently, the growing advancements in technology beg the question, can technology be used to predict Alzheimer's for a better and early diagnosis? In this paper, we focus on this very problem. Specifically, we have trained both ML models and neural networks to predict and classify participants based on their speech patterns. We computed a number of linguistic variables using DementiaBank's Pitt Corpus, a database consisting of transcripts of interviews with subjects suffering from multiple neurodegenerative diseases. We then trained both binary classifiers, as well as multiclass classifiers to distinguish AD from normal aging and other neurodegenerative diseases. We also worked on establishing the link between specific speech factors that can help determine the onset of AD. Confusion matrices and feature importance graphs have been plotted model-wise to compare the performances of our models. In both multiclass and binary classification, neural networks were found to outperform the other models with a testing accuracy of 76.44% and 92.05% respectively. For the feature importance, it was concluded that '%_PRESP' (present participle), '%_3S' (3rd person present tense markers) were two of the most important speech features for our classifiers in predicting AD.
翻訳日:2021-10-26 19:33:53 公開日:2021-10-25
# (参考訳) fedを強奪する - 修正モデルによるフェデレーション学習における個人データを直接取得する [全文訳有]

Robbing the Fed: Directly Obtaining Private Data in Federated Learning with Modified Models ( http://arxiv.org/abs/2110.13057v1 )

ライセンス: CC BY 4.0
Liam Fowl, Jonas Geiping, Wojtek Czaja, Micah Goldblum, Tom Goldstein(参考訳) フェデレーション学習は、ユーザーのプライバシーと効率を高めるという約束で急速に人気を集めている。 以前の研究では、フェデレーションのグラデーション更新には、ある状況でユーザデータをほぼ復元するために使用できる情報が含まれていることが示されている。 これまでのユーザプライバシに対する攻撃はスコープが限られており、少数のデータポイントに集約された段階的な更新にはスケールしていない。 本研究では,共有モデルアーキテクチャの最小限ではあるが悪質な修正に基づく新たな脅威モデルを導入し,サーバが難解な逆問題を解くことなく,グラデーション更新からユーザデータの正確なコピーを直接取得できるようにする。 大規模なバッチ(以前の方法では意味のあるコンテンツの抽出に失敗した)に集約されたユーザデータでさえ、これらの最小限の変更モデルによって再構築することができる。

Federated learning has quickly gained popularity with its promises of increased user privacy and efficiency. Previous works have shown that federated gradient updates contain information that can be used to approximately recover user data in some situations. These previous attacks on user privacy have been limited in scope and do not scale to gradient updates aggregated over even a handful of data points, leaving some to conclude that data privacy is still intact for realistic training regimes. In this work, we introduce a new threat model based on minimal but malicious modifications of the shared model architecture which enable the server to directly obtain a verbatim copy of user data from gradient updates without solving difficult inverse problems. Even user data aggregated over large batches -- where previous methods fail to extract meaningful content -- can be reconstructed by these minimally modified models.
翻訳日:2021-10-26 19:23:02 公開日:2021-10-25
# (参考訳) 事前学習音楽モデルによる教師なし音源分離 [全文訳有]

Unsupervised Source Separation By Steering Pretrained Music Models ( http://arxiv.org/abs/2110.13071v1 )

ライセンス: CC BY 4.0
Ethan Manilow, Patrick O'Reilly, Prem Seetharaman, Bryan Pardo(参考訳) 本稿では、音源分離のための音楽生成や音楽タグ付けのために訓練されたディープモデルを再活用する教師なし手法を紹介する。 入力混合物に音声生成モデルを条件付けし、音声生成に用いる音声の潜時符号化を生成する。 この生成されたオーディオは、ソースラベルを生成する事前訓練された音楽タグに送られる。 生成音声のタグ分布と分離音源の予め定義された分布とのクロスエントロピー損失を用いて、生成モデルの(不変な)潜在空間における勾配上昇をガイドする。 このシステムは生成モデルやタグの重みを更新せず、生成モデルの潜在空間を移動して分離したソースを生成するのみに依存する。 プリトレーニングされた生成モデルとしてopenaiのjukeboxを使用し、プリトレーニングされた4種類の音楽タガー(2つのアーキテクチャと2つのタギングデータセット)を組み合わせる。 2つのソース分離データセットの実験結果から、この手法は、試験された教師なしシステムや教師なしシステムよりも幅広いソースの分離推定を導出できることを示した。 この研究は、ソース分離のようなオーディオとオーディオのタスクのための、大規模な事前訓練された音楽モデルの、これまでもなかった膨大な可能性を示している。

We showcase an unsupervised method that repurposes deep models trained for music generation and music tagging for audio source separation, without any retraining. An audio generation model is conditioned on an input mixture, producing a latent encoding of the audio used to generate audio. This generated audio is fed to a pretrained music tagger that creates source labels. The cross-entropy loss between the tag distribution for the generated audio and a predefined distribution for an isolated source is used to guide gradient ascent in the (unchanging) latent space of the generative model. This system does not update the weights of the generative model or the tagger, and only relies on moving through the generative model's latent space to produce separated sources. We use OpenAI's Jukebox as the pretrained generative model, and we couple it with four kinds of pretrained music taggers (two architectures and two tagging datasets). Experimental results on two source separation datasets, show this approach can produce separation estimates for a wider variety of sources than any tested supervised or unsupervised system. This work points to the vast and heretofore untapped potential of large pretrained music models for audio-to-audio tasks like source separation.
翻訳日:2021-10-26 19:03:22 公開日:2021-10-25
# (参考訳) 正規制約付き線形回帰のための量子アルゴリズムと下限

Quantum Algorithms and Lower Bounds for Linear Regression with Norm Constraints ( http://arxiv.org/abs/2110.13086v1 )

ライセンス: CC BY 4.0
Yanlin Chen (QuSoft, CWI) and Ronald de Wolf (QuSoft, CWI and Amsterdam)(参考訳) ラッソとリッジは機械学習と統計学の重要な最小化問題である。 これらは2乗損失を持つ線型回帰のバージョンで、ベクトル $\theta\in\mathbb{R}^d$ の係数は $\ell_1$-norm (Lasso) または $\ell_2$-norm (ridge) のどちらかで制約される。 これらの最小化問題に対する$\varepsilon$-minimi zersを求める量子アルゴリズムの複雑さについて検討する。 ラッソにとって、フランク・ウルフアルゴリズムの解法あたりのコストをスピードアップすることで、2次量子速度は$d$で得られるが、リッジにとっては最高の量子アルゴリズムは、古典的なアルゴリズムと同様に$d$で線形である。

Lasso and Ridge are important minimization problems in machine learning and statistics. They are versions of linear regression with squared loss where the vector $\theta\in\mathbb{R}^d$ of coefficients is constrained in either $\ell_1$-norm (for Lasso) or in $\ell_2$-norm (for Ridge). We study the complexity of quantum algorithms for finding $\varepsilon$-minimi zers for these minimization problems. We show that for Lasso we can get a quadratic quantum speedup in terms of $d$ by speeding up the cost-per-iteration of the Frank-Wolfe algorithm, while for Ridge the best quantum algorithms are linear in $d$, as are the best classical algorithms.
翻訳日:2021-10-26 18:51:10 公開日:2021-10-25
# Fair Enough: フェアネスの適切な対策を探る

Fair Enough: Searching for Sufficient Measures of Fairness ( http://arxiv.org/abs/2110.13029v1 )

ライセンス: Link先を確認
Suvodeep Majumder and Joymallya Chakraborty and Gina R. Bai and Kathryn T. Stolee and Tim Menzies(参考訳) 倫理バイアスのために機械学習ソフトウェアをテストすることは、現在差し迫った懸念となっている。 これに対して、最近の研究では、IBM AIF360ツールキットの数十の公正度測定値など、多数の新しい公正度測定値が提案されている。 どんな公平ツールがこのような多様な目標を満足させるにはどうすればよいのか? 公平性テストのタスクを完全に単純化することはできないが、問題を確実に軽減できる。 本稿では,これらの公平性指標の多くが,同じ尺度を効果的に測定していることを示す。 7つの実世界のデータセットを用いた実験から (a)26の分類基準は7つのグループに分類でき、 b) 4つのデータセットのメトリクスを3つのグループにまとめることができる。 さらに、それぞれの縮小集合は実際には異なるものを予測することができる。 したがって、公平なメトリクスをすべて満たすことはもはや必要(あるいは可能)ではない。 まとめると、フェアネステストの問題を単純化するために、(1) フェアネスのどのタイプが望ましいかを決定する(そして、そのようなタイプをいくつか提供する)、(2) クラスタ内のそれらのタイプを調べる、(3) クラスタ毎に1つの項目をテストする、という手順を推奨します。 この処理をサポートするため、すべてのスクリプト(およびデータセットの例)がhttps://github.com/r epoanonymous/fairnes s\_metricsで利用可能です。

Testing machine learning software for ethical bias has become a pressing current concern. In response, recent research has proposed a plethora of new fairness metrics, for example, the dozens of fairness metrics in the IBM AIF360 toolkit. This raises the question: How can any fairness tool satisfy such a diverse range of goals? While we cannot completely simplify the task of fairness testing, we can certainly reduce the problem. This paper shows that many of those fairness metrics effectively measure the same thing. Based on experiments using seven real-world datasets, we find that (a) 26 classification metrics can be clustered into seven groups, and (b) four dataset metrics can be clustered into three groups. Further, each reduced set may actually predict different things. Hence, it is no longer necessary (or even possible) to satisfy all fairness metrics. In summary, to simplify the fairness testing problem, we recommend the following steps: (1) determine what type of fairness is desirable (and we offer a handful of such types); then (2) lookup those types in our clusters; then (3) just test for one item per cluster. To support that processing, all our scripts (and example datasets) are available at https://github.com/R epoanonymous/Fairnes s\_Metrics.
翻訳日:2021-10-26 18:49:47 公開日:2021-10-25
# ニューラルフロー:ニューラルodeの効率的な代替

Neural Flows: Efficient Alternative to Neural ODEs ( http://arxiv.org/abs/2110.13040v1 )

ライセンス: Link先を確認
Marin Bilo\v{s}, Johanna Sommer, Syama Sundar Rangapuram, Tim Januschowski, Stephan G\"unnemann(参考訳) ニューラル常微分方程式は時間における値の変化を記述する。 これが、特に不規則な間隔で観測される場合、シーケンシャルなデータのモデリングの重要性を増した理由である。 本稿では,その解曲線(ODEの流れ)をニューラルネットワークで直接モデル化する手法を提案する。 これにより、ニューラルネットワークodeのモデリング能力を維持しながら、高価な数値解法の必要性がすぐになくなる。 本稿では,関数が有効なフローを定義する際の正確な条件を定め,異なるアプリケーションに適したフローアーキテクチャを提案する。 計算効率を別にすれば,時系列モデリング,予測,密度推定などの応用により,良好な一般化性能を示す実証的証拠を提供する。

Neural ordinary differential equations describe how values change in time. This is the reason why they gained importance in modeling sequential data, especially when the observations are made at irregular intervals. In this paper we propose an alternative by directly modeling the solution curves - the flow of an ODE - with a neural network. This immediately eliminates the need for expensive numerical solvers while still maintaining the modeling capability of neural ODEs. We propose several flow architectures suitable for different applications by establishing precise conditions on when a function defines a valid flow. Apart from computational efficiency, we also provide empirical evidence of favorable generalization performance via applications in time series modeling, forecasting, and density estimation.
翻訳日:2021-10-26 18:49:30 公開日:2021-10-25
# 科学における高速機械学習の応用と技術

Applications and Techniques for Fast Machine Learning in Science ( http://arxiv.org/abs/2110.13041v1 )

ライセンス: Link先を確認
Allison McCarn Deiana (coordinator), Nhan Tran (coordinator), Joshua Agar, Michaela Blott, Giuseppe Di Guglielmo, Javier Duarte, Philip Harris, Scott Hauck, Mia Liu, Mark S. Neubauer, Jennifer Ngadiuba, Seda Ogrenci-Memik, Maurizio Pierini, Thea Aarrestad, Steffen Bahr, Jurgen Becker, Anne-Sophie Berthold, Richard J. Bonventre, Tomas E. Muller Bravo, Markus Diefenthaler, Zhen Dong, Nick Fritzsche, Amir Gholami, Ekaterina Govorkova, Kyle J Hazelwood, Christian Herwig, Babar Khan, Sehoon Kim, Thomas Klijnsma, Yaling Liu, Kin Ho Lo, Tri Nguyen, Gianantonio Pezzullo, Seyedramin Rasoulinezhad, Ryan A. Rivera, Kate Scholberg, Justin Selig, Sougata Sen, Dmitri Strukov, William Tang, Savannah Thais, Kai Lukas Unger, Ricardo Vilalta, Belinavon Krosigk, Thomas K. Warburton, Maria Acosta Flechas, Anthony Aportela, Thomas Calvet, Leonardo Cristella, Daniel Diaz, Caterina Doglioni, Maria Domenica Galati, Elham E Khoda, Farah Fahim, Davide Giri, Benjamin Hawks, Duc Hoang, Burt Holzman, Shih-Chieh Hsu, Sergo Jindariani, Iris Johnson, Raghav Kansal, Ryan Kastner, Erik Katsavounidis, Jeffrey Krupa, Pan Li, Sandeep Madireddy, Ethan Marx, Patrick McCormack, Andres Meza, Jovan Mitrevski, Mohammed Attia Mohammed, Farouk Mokhtar, Eric Moreno, Srishti Nagu, Rohin Narayan, Noah Palladino, Zhiqiang Que, Sang Eon Park, Subramanian Ramamoorthy, Dylan Rankin, Simon Rothman, Ashish Sharma, Sioni Summers, Pietro Vischia, Jean-Roch Vlimant, Olivia Weng(参考訳) このコミュニティレビューレポートでは、科学における高速機械学習(ML)の応用と技術について論じる。科学的発見を加速するために、パワーMLメソッドをリアルタイムな実験データ処理ループに統合するという概念である。 このレポートの資料は、Fast ML for Scienceコミュニティが主催する2つのワークショップに基づいており、いくつかの科学分野にわたる高速MLの応用、パフォーマンスとリソース効率のよいMLアルゴリズムのトレーニングと実装のための技術、これらのアルゴリズムをデプロイするためのアーキテクチャ、プラットフォーム、技術という3つの分野をカバーする。 また、共通解が見つかる複数の科学的領域にまたがる重複する課題も提示する。 このコミュニティレポートは、統合および加速されたMLソリューションを通じて科学的発見のための多くの例とインスピレーションを提供することを目的としている。 続いて、高レベルな技術的進歩の概要と組織化が行われ、ソース素材へのポインタが豊富に含まれ、これらのブレークスルーが可能になる。

In this community review report, we discuss applications and techniques for fast machine learning (ML) in science -- the concept of integrating power ML methods into the real-time experimental data processing loop to accelerate scientific discovery. The material for the report builds on two workshops held by the Fast ML for Science community and covers three main areas: applications for fast ML across a number of scientific domains; techniques for training and implementing performant and resource-efficient ML algorithms; and computing architectures, platforms, and technologies for deploying these algorithms. We also present overlapping challenges across the multiple scientific domains where common solutions can be found. This community report is intended to give plenty of examples and inspiration for scientific discovery through integrated and accelerated ML solutions. This is followed by a high-level overview and organization of technical advances, including an abundance of pointers to source material, which can enable these breakthroughs.
翻訳日:2021-10-26 18:49:20 公開日:2021-10-25
# (参考訳) 鍵はどこだ? --長期にわたる効率的な検索のためのオブジェクトの時空間インスタンスの集約 [全文訳有]

Where were my keys? -- Aggregating Spatial-Temporal Instances of Objects for Efficient Retrieval over Long Periods of Time ( http://arxiv.org/abs/2110.13061v1 )

ライセンス: CC BY 4.0
Ifrah Idrees, Zahid Hasan, Steven P. Reiss, and Stefanie Tellex(参考訳) 状況認識を備えたロボットは、空間的・時間的構造を利用して、失われた物体を効率的に見つけるのに役立つ。 映像と画像検索の既存のアプローチは、環境を部分的に視野に入れた移動カメラによって課されるユニークな制約を考慮に入れていない。 本稿では,環境における一意なオブジェクトインスタンスの効率的なクエリ可能な空間-時間表現を実現するために,検出に基づく3レベル階層結合手法d3aを提案する。 D3Aはオンラインでインクリメンタルで階層的な学習を行い、環境内のユニークなオブジェクトを最もよく表すキーフレームを特定します。 これらのキーフレームは、空間的特徴と時間的特徴の両方に基づいて学習され、対応する空間的時間的情報をキーバリューデータベースに整理する。 D3Aは、以下の方法でオブジェクトを問合せするなど、さまざまなクエリパターンを可能にする。 1)特定の属性 2)他の物体との空間的関係,及び 3) 時間スライス。 与えられた150のクエリに対して、D3Aは、候補キーフレームの小さなセット(総感覚データの0.17%しか占めていない)を81.98\%の平均精度で11.7msで返す。これは47倍高速で、33%精度で、空間的時間的情報を関連付けることなく、データベースにオブジェクトマッチング(検出)をナビゲートするベースラインよりも正確である。

Robots equipped with situational awareness can help humans efficiently find their lost objects by leveraging spatial and temporal structure. Existing approaches to video and image retrieval do not take into account the unique constraints imposed by a moving camera with a partial view of the environment. We present a Detection-based 3-level hierarchical Association approach, D3A, to create an efficient query-able spatial-temporal representation of unique object instances in an environment. D3A performs online incremental and hierarchical learning to identify keyframes that best represent the unique objects in the environment. These keyframes are learned based on both spatial and temporal features and once identified their corresponding spatial-temporal information is organized in a key-value database. D3A allows for a variety of query patterns such as querying for objects with/without the following: 1) specific attributes, 2) spatial relationships with other objects, and 3) time slices. For a given set of 150 queries, D3A returns a small set of candidate keyframes (which occupy only 0.17% of the total sensory data) with 81.98\% mean accuracy in 11.7 ms. This is 47x faster and 33% more accurate than a baseline that naively stores the object matches (detections) in the database without associating spatial-temporal information.
翻訳日:2021-10-26 18:45:56 公開日:2021-10-25
# 直交分散に基づく侵入検知システムの特徴選択

Orthogonal variance-based feature selection for intrusion detection systems ( http://arxiv.org/abs/2110.12627v1 )

ライセンス: Link先を確認
Firuz Kamalov, Sherif Moussa, Ziad El Khatib, Adel Ben Mnaouer(参考訳) 本稿では,自動侵入検知システムを構築するために,融合機械学習手法を適用する。 具体的には,ネットワークトラフィックデータの関連する特徴を特定するために,直交分散分解手法を用いる。 選択された機能は、侵入検知のためのディープニューラルネットワークを構築するために使用される。 提案アルゴリズムは、DDoS攻撃の特定において100%検出精度を達成する。 実験結果は,提案手法の大きな可能性を示している。

In this paper, we apply a fusion machine learning method to construct an automatic intrusion detection system. Concretely, we employ the orthogonal variance decomposition technique to identify the relevant features in network traffic data. The selected features are used to build a deep neural network for intrusion detection. The proposed algorithm achieves 100% detection accuracy in identifying DDoS attacks. The test results indicate a great potential of the proposed method.
翻訳日:2021-10-26 18:25:04 公開日:2021-10-25
# ランクワン原子分解(ROAD)を用いた辞書学習

Dictionary Learning Using Rank-One Atomic Decomposition (ROAD) ( http://arxiv.org/abs/2110.12786v1 )

ライセンス: Link先を確認
Cheng Cheng and Wei Dai(参考訳) 辞書学習は、訓練データを疎に表現できる辞書を求めることを目的としている。 文献の方法は通常、辞書学習問題を2つの変数、すなわち辞書とスパース係数として定式化し、スパース符号と辞書更新の2つの段階を交互に交互に組み合わせて解決する。 この研究の重要な貢献は、ランク1の原子分解(road)形式であり、辞書学習をランク1の行列の集合である1つの変数の最適化w.r.t.としてキャストする。 結果として得られるアルゴリズムは単段である。 2段階のアルゴリズムと比較して、ROADは学習プロセス全体を通してデータ一貫性の制約を保ちながら係数の空間性を最小化する。 最適化問題を解くために乗算器の交互方向法(ADMM)を導出し、最適化定式化の非凸性にもかかわらず大域収束を保証するためにペナルティパラメータの下限を計算する。 実用的な観点からすると、ROADは他のベンチマークアルゴリズムに必要なチューニングパラメータの数を減らすことができる。 数値テストでは、特にトレーニングサンプルの数が少ない場合には、ロードが合成データと実データの両方のベンチマークアルゴリズムを上回っていることが示されている。

Dictionary learning aims at seeking a dictionary under which the training data can be sparsely represented. Methods in the literature typically formulate the dictionary learning problem as an optimization w.r.t. two variables, i.e., dictionary and sparse coefficients, and solve it by alternating between two stages: sparse coding and dictionary update. The key contribution of this work is a Rank-One Atomic Decomposition (ROAD) formulation where dictionary learning is cast as an optimization w.r.t. a single variable which is a set of rank one matrices. The resulting algorithm is hence single-stage. Compared with two-stage algorithms, ROAD minimizes the sparsity of the coefficients whilst keeping the data consistency constraint throughout the whole learning process. An alternating direction method of multipliers (ADMM) is derived to solve the optimization problem and the lower bound of the penalty parameter is computed to guarantees a global convergence despite non-convexity of the optimization formulation. From practical point of view, ROAD reduces the number of tuning parameters required in other benchmark algorithms. Numerical tests demonstrate that ROAD outperforms other benchmark algorithms for both synthetic data and real data, especially when the number of training samples is small.
翻訳日:2021-10-26 18:24:59 公開日:2021-10-25
# 領域分割仮説を用いた量子ブースティング

Quantum Boosting using Domain-Partitioning Hypotheses ( http://arxiv.org/abs/2110.12793v1 )

ライセンス: Link先を確認
Debajyoti Bera, Sagnik Chatterjee(参考訳) boostingは、弱い学習者をpac学習フレームワークの強力な学習者に変換するアンサンブル学習方法である。 Freund と Schapire は AdaBoost として知られる二項仮説の古典的ブースティングアルゴリズムを初めて提供し、最近 Arunachalam らによって量子ブースティングアルゴリズムに適応した。 量子ブースティングアルゴリズム(Q-AdaBoostと呼ぶ)は、弱い学習者の仮説クラスのVC次元の観点からは古典版よりも2次的に速いが、弱い学習者のバイアスでは多項式的に劣る。 本研究では,従来の量子ブースティングアルゴリズムよりもはるかに柔軟な領域分割仮説を用いた異なる量子ブースティングアルゴリズムを,マージン計算の観点から設計する。 我々のアルゴリズムQ-RealBoostは、オリジナルのAdaBoostアルゴリズムへの"Real AdaBoost"(別名RealBoost)拡張にインスパイアされている。 さらに,q-realboostは,弱学習者のバイアスと弱学習者が目標概念クラスを学ぶのにかかる時間の両方の観点から,q-adaboost上で多項式の高速化を提供することを示した。

Boosting is an ensemble learning method that converts a weak learner into a strong learner in the PAC learning framework. Freund and Schapire gave the first classical boosting algorithm for binary hypothesis known as AdaBoost, and this was recently adapted into a quantum boosting algorithm by Arunachalam et al. Their quantum boosting algorithm (which we refer to as Q-AdaBoost) is quadratically faster than the classical version in terms of the VC-dimension of the hypothesis class of the weak learner but polynomially worse in the bias of the weak learner. In this work we design a different quantum boosting algorithm that uses domain partitioning hypotheses that are significantly more flexible than those used in prior quantum boosting algorithms in terms of margin calculations. Our algorithm Q-RealBoost is inspired by the "Real AdaBoost" (aka. RealBoost) extension to the original AdaBoost algorithm. Further, we show that Q-RealBoost provides a polynomial speedup over Q-AdaBoost in terms of both the bias of the weak learner and the time taken by the weak learner to learn the target concept class.
翻訳日:2021-10-26 18:24:36 公開日:2021-10-25
# 境界探索と公平性による適応的データデバイアス

Adaptive Data Debiasing through Bounded Exploration and Fairness ( http://arxiv.org/abs/2110.13054v1 )

ライセンス: Link先を確認
Yifan Yang and Yang Liu and Parinaz Naghizadeh(参考訳) アルゴリズム決定ルールのトレーニングに使われる既存のデータセットのバイアスは、異なるグループの異なる扱いによる倫理的、社会的、経済的懸念を引き起こす可能性がある。 本稿では,適応型および境界型探索によるデータセットの逐次デバイアスアルゴリズムを提案する。 この文脈での探索は、時として、そして時として、決定者は(現在の)損失最小化規則から逸脱し、統計データのバイアスを減らすために、そうでなければ拒否されるであろう一部の個人を受け入れることを意味する。 提案したアルゴリズムには、データのバイアスを取り除くという最終的な目標 – 結果としてより正確で公平な決定につながる -- と、この目標を達成するための調査リスクとの間のバランスをとるために使用できるパラメータが含まれています。 解析的にも数値的にも、そのような探索が特定の分布におけるデータのデバイアスにどのように役立つかを示す。 さらに,このようなデータデバイアス対策と公平性対策の連携について検討する。

Biases in existing datasets used to train algorithmic decision rules can raise ethical, societal, and economic concerns due to the resulting disparate treatment of different groups. We propose an algorithm for sequentially debiasing such datasets through adaptive and bounded exploration. Exploration in this context means that at times, and to a judiciously-chosen extent, the decision maker deviates from its (current) loss-minimizing rule, and instead accepts some individuals that would otherwise be rejected, so as to reduce statistical data biases. Our proposed algorithm includes parameters that can be used to balance between the ultimate goal of removing data biases -- which will in turn lead to more accurate and fair decisions, and the exploration risks incurred to achieve this goal. We show, both analytically and numerically, how such exploration can help debias data in certain distributions. We further investigate how fairness measures can work in conjunction with such data debiasing efforts.
翻訳日:2021-10-26 18:23:07 公開日:2021-10-25
# 高次予算分類器の進化的最適化

Evolutionary Optimization of High-Coverage Budgeted Classifiers ( http://arxiv.org/abs/2110.13067v1 )

ライセンス: Link先を確認
Nolan H. Hamilton and Errin W. Fulp(参考訳) 分類器は、ラベルをすばやく入力に割り当てなければならない時間制限の設定でしばしば使用される。 これらのシナリオに対処するため、予算付き多段階分類器 (MSC) プロセス入力は、確実な予測ができるまで、部分的な特徴取得と早期終了オプションによる評価ステップを経る。 これにより、時間クリティカルなインスタンスで高価な不要な機能取得を防止することができる。 しかし、MSCの性能はいくつかの設計面に非常に敏感であり、これらのシステムの最適化は重要だが難しい問題である。 初期の難解な組合せ問題を近似するために、MSCの構成への現在のアプローチは、2つの主要な目的(処理コスト、エラー)を考慮に入れた十分なサロゲート損失関数に依存している。 これらのアプローチは多くのシナリオで有用であることが証明されているが、分析的な制約(凸性、滑らか性など)によって制限され、追加のパフォーマンス目標を管理することはない。 特に、このような手法は、リアルタイム検知システムにおいて重要な側面を明示的に説明していない -- リスク回避モニターによって課される信頼基準を満たす「受け入れ」予測の比率。 本稿では,不確定な予測のための端末拒否オプションを組み込んだ問題固有遺伝的アルゴリズムEMSCOを提案し,MSC設計を異なる目的(精度,コスト,カバレッジ)を持つ進化的最適化問題として扱う。 このアルゴリズムの設計は、一意なスカラー化による集約性能の概念を尊重しながら、パレート効率を強調している。 EMSCO が様々な Theta(k^n) の解空間でグローバルな最適性を見つける能力を示す実験が行われ、複数の実験により、EMSCO は代替予算のアプローチと競合することを示した。

Classifiers are often utilized in time-constrained settings where labels must be assigned to inputs quickly. To address these scenarios, budgeted multi-stage classifiers (MSC) process inputs through a sequence of partial feature acquisition and evaluation steps with early-exit options until a confident prediction can be made. This allows for fast evaluation that can prevent expensive, unnecessary feature acquisition in time-critical instances. However, performance of MSCs is highly sensitive to several design aspects -- making optimization of these systems an important but difficult problem. To approximate an initially intractable combinatorial problem, current approaches to MSC configuration rely on well-behaved surrogate loss functions accounting for two primary objectives (processing cost, error). These approaches have proven useful in many scenarios but are limited by analytic constraints (convexity, smoothness, etc.) and do not manage additional performance objectives. Notably, such methods do not explicitly account for an important aspect of real-time detection systems -- the ratio of "accepted" predictions satisfying some confidence criterion imposed by a risk-averse monitor. This paper proposes a problem-specific genetic algorithm, EMSCO, that incorporates a terminal reject option for indecisive predictions and treats MSC design as an evolutionary optimization problem with distinct objectives (accuracy, cost, coverage). The algorithm's design emphasizes Pareto efficiency while respecting a notion of aggregated performance via a unique scalarization. Experiments are conducted to demonstrate EMSCO's ability to find global optima in a variety of Theta(k^n) solution spaces, and multiple experiments show EMSCO is competitive with alternative budgeted approaches.
翻訳日:2021-10-26 18:22:52 公開日:2021-10-25
# 新たなスキーレンタル境界による複数状態の学習型動的電力管理

Learning-Augmented Dynamic Power Management with Multiple States via New Ski Rental Bounds ( http://arxiv.org/abs/2110.13116v1 )

ライセンス: Link先を確認
Antonios Antoniadis, Christian Coester, Marek Eli\'a\v{s}, Adam Polak, Bertrand Simon(参考訳) 複数の省電力状態を持つシステムにおける消費電力最小化のオンライン問題について検討する。 未知の長さのアイドル期間において、アルゴリズムは異なるエネルギー消費と覚醒コストの省電力状態を選択する必要がある。 アイドル期間の予測長に基づいて(潜在的に不正確な)決定を行う学習強化オンラインアルゴリズムを開発した。 アルゴリズムの性能は、予測が正確で、予測エラーの増加とともに優雅に劣化するときにほぼ最適であり、最悪の場合の保証は問題の最適古典的オンラインアルゴリズムとほぼ同じである。 提案手法の重要な要素は,予測誤差に強く依存した学習強化設定におけるオンラインスキーレンタル問題に対する新しいアルゴリズムである。 我々は実験で理論的な結果を支持する。

We study the online problem of minimizing power consumption in systems with multiple power-saving states. During idle periods of unknown lengths, an algorithm has to choose between power-saving states of different energy consumption and wake-up costs. We develop a learning-augmented online algorithm that makes decisions based on (potentially inaccurate) predicted lengths of the idle periods. The algorithm's performance is near-optimal when predictions are accurate and degrades gracefully with increasing prediction error, with a worst-case guarantee almost identical to the optimal classical online algorithm for the problem. A key ingredient in our approach is a new algorithm for the online ski rental problem in the learning augmented setting with tight dependence on the prediction error. We support our theoretical findings with experiments.
翻訳日:2021-10-26 18:22:21 公開日:2021-10-25
# 深層学習とB-Spline Explicit Active Surfaceによる対話型セグメンテーション

Interactive Segmentation via Deep Learning and B-Spline Explicit Active Surfaces ( http://arxiv.org/abs/2110.12939v1 )

ライセンス: Link先を確認
Helena Williams, Jo\~ao Pedrosa, Laura Cattani, Susanne Housmans, Tom Vercauteren, Jan Deprest, Jan D'hooge(参考訳) 畳み込みニューラルネットワーク(CNN)による医療画像の自動分割は有望な結果を示している。 しかし、臨床使用に十分な堅牢性が常に備わっているとは限らない。 サブオプティカルセグメンテーションでは、臨床医が手動でターゲットオブジェクトをデライン化する必要があるため、フラストレーションが発生する。 この問題に対処するために,新しい対話型cnnに基づくセグメンテーションフレームワークが提案されている。 目的は、B-spline explicit active surfaces (BEAS) を用いて、CNNセグメンテーションの輪郭をB-splineとして表現することである。 フレームワークのインタラクティブな要素により、ユーザはリアルタイムで輪郭を正確に編集することができ、BEASを利用することで、最終輪郭が滑らかで解剖学的に妥当であることを保証する。 この枠組みは, 2次元超音波画像からのレビターの2次元分割作業に適用され, 骨盤床障害クリニック (4dview, ge healthcare; zipf, austria) で使用されている現在の臨床用具と比較した。 実験の結果は 1)提案するフレームワークは,現在の最先端CNNよりも堅牢である。 2) nasa-tlx 指標で算出した作業負荷は, 従来の臨床ツールと比較して, 提案手法の半分以上削減された。 3) 提案ツールでは, 臨床ツールよりも少なくとも13秒未満の時間を要する(p=0.001)。

Automatic medical image segmentation via convolutional neural networks (CNNs) has shown promising results. However, they may not always be robust enough for clinical use. Sub-optimal segmentation would require clinician's to manually delineate the target object, causing frustration. To address this problem, a novel interactive CNN-based segmentation framework is proposed in this work. The aim is to represent the CNN segmentation contour as B-splines by utilising B-spline explicit active surfaces (BEAS). The interactive element of the framework allows the user to precisely edit the contour in real-time, and by utilising BEAS it ensures the final contour is smooth and anatomically plausible. This framework was applied to the task of 2D segmentation of the levator hiatus from 2D ultrasound (US) images, and compared to the current clinical tools used in pelvic floor disorder clinic (4DView, GE Healthcare; Zipf, Austria). Experimental results show that: 1) the proposed framework is more robust than current state-of-the-art CNNs; 2) the perceived workload calculated via the NASA-TLX index was reduced more than half for the proposed approach in comparison to current clinical tools; and 3) the proposed tool requires at least 13 seconds less user time than the clinical tools, which was significant (p=0.001).
翻訳日:2021-10-26 18:21:21 公開日:2021-10-25
# 多エージェント強化学習における共通情報に基づく近似状態表現

Common Information based Approximate State Representations in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2110.12603v1 )

ライセンス: Link先を確認
Hsu Kao, Vijay Subramanian(参考訳) 情報非対称性のため、分散部分可観測マルコフ決定過程(dec-pomdps)の最適方針を見つけることは、水平線の長さで2倍に指数関数的に増加する複雑さによって困難である。 この課題は、遷移確率、観察カーネル、報酬関数が不明なマルチエージェント強化学習(MARL)の設定において大きく増加する。 本稿では、分散化されたポリシーを構築可能な共通およびプライベートな状態表現を近似した汎用圧縮フレームワークを開発する。 近似誤差パラメータと残りの時間ステップから近似状態を用いて動的プログラミング(DP)を実行する際の最適性ギャップを導出する。 圧縮が正確であれば(エラーがない)、結果のDPは既存の作業のDPと等価である。 我々の一般的な枠組みは文献で提案される多くの手法を一般化する。 その結果,「集中学習分散実行」方式の下で,実用上有用な深層マールネットワーク構造の設計に光を当てた。

Due to information asymmetry, finding optimal policies for Decentralized Partially Observable Markov Decision Processes (Dec-POMDPs) is hard with the complexity growing doubly exponentially in the horizon length. The challenge increases greatly in the multi-agent reinforcement learning (MARL) setting where the transition probabilities, observation kernel, and reward function are unknown. Here, we develop a general compression framework with approximate common and private state representations, based on which decentralized policies can be constructed. We derive the optimality gap of executing dynamic programming (DP) with the approximate states in terms of the approximation error parameters and the remaining time steps. When the compression is exact (no error), the resulting DP is equivalent to the one in existing work. Our general framework generalizes a number of methods proposed in the literature. The results shed light on designing practically useful deep-MARL network structures under the "centralized learning distributed execution" scheme.
翻訳日:2021-10-26 18:18:30 公開日:2021-10-25
# DelightfulTTS: Blizzard Challenge 2021のためのMicrosoft音声合成システム

DelightfulTTS: The Microsoft Speech Synthesis System for Blizzard Challenge 2021 ( http://arxiv.org/abs/2110.12612v1 )

ライセンス: Link先を確認
Yanqing Liu, Zhihang Xu, Gang Wang, Kuan Chen, Bohan Li, Xu Tan, Jinzhu Li, Lei He, Sheng Zhao(参考訳) 本稿では、Microsoftのエンドツーエンドニューラルテキスト音声合成システム(TTS: DelightfulTTS for Blizzard Challenge 2021)について述べる。 この課題の目的は、テキストから自然および高品質な音声を合成することであり、まず、48kHzのサンプリングレートで波形を直接モデル化し、生成することであり、16kHzまたは24kHzのサンプリングレートで従来のシステムよりも高い知覚品質をもたらすことである。 具体的には、48kHzのメログラムを音響モデルで予測し、予測された16kHzのメログラムから直接48kHzの波形を生成するためのHiFiNetというボコーダを提案する。 我々は、明示的(話者ID、言語ID、ピッチと持続時間)と暗黙的(発話レベル、音素レベル)の両方の観点から、変動情報を体系的にモデル化する。 1) 話者と言語idには, 学習と推論にルックアップ埋め込みを用いる。 2) ピッチと継続時間について, 学習中のテキスト音声データから値を抽出し, 2つの予測器を用いて推定値を予測する。 3) 発話レベルと音素レベルの韻律では、2つの参照エンコーダを用いて訓練中の値を抽出し、2つの別々の予測器を用いて推論の値を予測する。 さらに,音響モデルの局所的および大域的依存性をモデル化するための改良されたコンフォーマーブロックを導入する。 タスクSH1の場合、DeffulTTSはMOSテストの4.17点、SMOSテストの4.35点を達成し、提案システムの有効性を示す。

This paper describes the Microsoft end-to-end neural text to speech (TTS) system: DelightfulTTS for Blizzard Challenge 2021. The goal of this challenge is to synthesize natural and high-quality speech from text, and we approach this goal in two perspectives: The first is to directly model and generate waveform in 48 kHz sampling rate, which brings higher perception quality than previous systems with 16 kHz or 24 kHz sampling rate; The second is to model the variation information in speech through a systematic design, which improves the prosody and naturalness. Specifically, for 48 kHz modeling, we predict 16 kHz mel-spectrogram in acoustic model, and propose a vocoder called HiFiNet to directly generate 48 kHz waveform from predicted 16 kHz mel-spectrogram, which can better trade off training efficiency, modelling stability and voice quality. We model variation information systematically from both explicit (speaker ID, language ID, pitch and duration) and implicit (utterance-level and phoneme-level prosody) perspectives: 1) For speaker and language ID, we use lookup embedding in training and inference; 2) For pitch and duration, we extract the values from paired text-speech data in training and use two predictors to predict the values in inference; 3) For utterance-level and phoneme-level prosody, we use two reference encoders to extract the values in training, and use two separate predictors to predict the values in inference. Additionally, we introduce an improved Conformer block to better model the local and global dependency in acoustic model. For task SH1, DelightfulTTS achieves 4.17 mean score in MOS test and 4.35 in SMOS test, which indicates the effectiveness of our proposed system
翻訳日:2021-10-26 18:18:15 公開日:2021-10-25
# (参考訳) sciclops: 手作業によるファクトチェックを支援する科学クレームの検出とコンテキスト化 [全文訳有]

SciClops: Detecting and Contextualizing Scientific Claims for Assisting Manual Fact-Checking ( http://arxiv.org/abs/2110.13090v1 )

ライセンス: CC BY 4.0
Panayiotis Smeros, Carlos Castillo, Karl Aberer(参考訳) 本稿では,オンライン科学の誤報に対処する手法であるSciClopsについて述べる。 近年,ファクトチェックの自動化が注目されているが,科学的文脈では,常に進化する科学文献に散在し,散在している既往の根拠が必要である。 既存の手法では、この文献を効果的に文脈化し、科学関連の誤信と戦うことはできない。 さらに、これらの手法は人間の介入をほとんど必要とせず、科学的誤報の複雑で重要な領域に不可欠である。 SciClopsは、オンラインニュース記事やソーシャルメディア投稿に見られる科学的主張を処理する3つの主要なステップである、抽出、クラスタリング、コンテキスト化である。 第一に、科学的クレームの抽出はドメイン固有の微調整トランスモデルを用いて行われる。 第二に、異質な情報源から抽出された類似の主張を、それらの内容とそれらの関係を利用する方法を用いて、関連科学文献とともに集約する。 第3のチェック価値のあるクレームは、人気で信頼性の低いソースによって放送され、関連する検証済みクレーム、ニュース記事、科学論文を含む、ファクトチェックのコンテキストが強化されている。 大規模な実験により、SciClopsはこれらの3つのステップに十分に取り組み、複雑な科学的クレームの検証において熟練していないファクトチェッカーを効果的に支援し、商業的なファクトチェッカーシステムより優れていることが示された。

This paper describes SciClops, a method to help combat online scientific misinformation. Although automated fact-checking methods have gained significant attention recently, they require pre-existing ground-truth evidence, which, in the scientific context, is sparse and scattered across a constantly-evolving scientific literature. Existing methods do not exploit this literature, which can effectively contextualize and combat science-related fallacies. Furthermore, these methods rarely require human intervention, which is essential for the convoluted and critical domain of scientific misinformation. SciClops involves three main steps to process scientific claims found in online news articles and social media postings: extraction, clustering, and contextualization. First, the extraction of scientific claims takes place using a domain-specific, fine-tuned transformer model. Second, similar claims extracted from heterogeneous sources are clustered together with related scientific literature using a method that exploits their content and the connections among them. Third, check-worthy claims, broadcasted by popular yet unreliable sources, are highlighted together with an enhanced fact-checking context that includes related verified claims, news articles, and scientific papers. Extensive experiments show that SciClops tackles sufficiently these three steps, and effectively assists non-expert fact-checkers in the verification of complex scientific claims, outperforming commercial fact-checking systems.
翻訳日:2021-10-26 18:16:32 公開日:2021-10-25
# 適応的構造的深層信念ネットワークを用いた衛星画像からの道路ネットワークの自動抽出

Automatic Extraction of Road Networks from Satellite Images by using Adaptive Structural Deep Belief Network ( http://arxiv.org/abs/2110.12684v1 )

ライセンス: Link先を確認
Shin Kamada, Takumi Ichimura(参考訳) 本研究では,限定ボルツマン機械(rbm)と深層信念ネットワーク(dbn)の適応的構造学習法を著明な深層学習モデルとして開発してきた。 RBMのニューロン生成消滅とDBNの層生成アルゴリズムは、学習中に与えられた入力に対して最適なネットワーク構造を作る。 本稿では,ロードトラッカーと呼ばれる道路ネットワークシステムの自動認識手法に適用する。 RoadTracerは航空写真データから地上の道路地図を生成することができる。 反復探索アルゴリズムでは、CNNは道路間のネットワークグラフ接続性を高い検出能力で検出するように訓練される。 しかし、システムは訓練フェーズだけでなく推論フェーズに対しても長い計算時間を要するため、高い精度が得られない可能性がある。 精度と計算時間を改善するため,我々のAdaptive DBNはCNNの代わりにRoadTracer上に実装された。 本研究では, 郊外の衛星画像を用いて, 開発したモデルの性能評価を行った。 適応DBNは,検出精度だけでなく,従来のCNNと比較して推定時間も有利であった。

In our research, an adaptive structural learning method of Restricted Boltzmann Machine (RBM) and Deep Belief Network (DBN) has been developed as one of prominent deep learning models. The neuron generation-annihilat ion in RBM and layer generation algorithms in DBN make an optimal network structure for given input during the learning. In this paper, our model is applied to an automatic recognition method of road network system, called RoadTracer. RoadTracer can generate a road map on the ground surface from aerial photograph data. In the iterative search algorithm, a CNN is trained to find network graph connectivities between roads with high detection capability. However, the system takes a long calculation time for not only the training phase but also the inference phase, then it may not realize high accuracy. In order to improve the accuracy and the calculation time, our Adaptive DBN was implemented on the RoadTracer instead of the CNN. The performance of our developed model was evaluated on a satellite image in the suburban area, Japan. Our Adaptive DBN had an advantage of not only the detection accuracy but also the inference time compared with the conventional CNN in the experiment results.
翻訳日:2021-10-26 17:44:25 公開日:2021-10-25
# SDNET2018を用いたコンクリート構造物における画像によるき裂検出のためのディープリーフネットワークの適応的構造学習

An Adaptive Structural Learning of Deep Belief Network for Image-based Crack Detection in Concrete Structures Using SDNET2018 ( http://arxiv.org/abs/2110.12700v1 )

ライセンス: Link先を確認
Shin Kamada, Takumi Ichimura, Takashi Iwasaki(参考訳) 我々は、学習中に最適なネットワーク構造を自己組織的に見つける適応型構造的Deep Belief Network(Adaptive DBN)を開発した。 適応dbnは階層アーキテクチャであり、各層は適応制限ボルツマン機械(適応rbm)を採用している。 Adaptive RBMは学習中に適切な数の隠れたニューロンを見つけることができる。 本手法は, ひび割れ検出のための具体的な画像ベンチマークデータセット SDNET2018 に適用した。 このデータセットには、ブリッジデッキ、壁、舗装道路の3種類のコンクリート構造物の約56,000枚のクラック画像が含まれている。 アダプティブDBNの微調整法は、3種類の構造に対して99.7%、99.7%、99.4%の分類精度を示すことができる。 しかし、このデータベースには、人間の専門家による画像から判断できない誤った注釈データが含まれていることがわかった。 本稿では,誤例の主な要因である財布の取扱いと,データセットからの逆例の除去について考察する。

We have developed an adaptive structural Deep Belief Network (Adaptive DBN) that finds an optimal network structure in a self-organizing manner during learning. The Adaptive DBN is the hierarchical architecture where each layer employs Adaptive Restricted Boltzmann Machine (Adaptive RBM). The Adaptive RBM can find the appropriate number of hidden neurons during learning. The proposed method was applied to a concrete image benchmark data set SDNET2018 for crack detection. The dataset contains about 56,000 crack images for three types of concrete structures: bridge decks, walls, and paved roads. The fine-tuning method of the Adaptive DBN can show 99.7%, 99.7%, and 99.4% classification accuracy for three types of structures. However, we found the database included some wrong annotated data which cannot be judged from images by human experts. This paper discusses consideration that purses the major factor for the wrong cases and the removal of the adversarial examples from the dataset.
翻訳日:2021-10-26 17:44:09 公開日:2021-10-25
# AffectNetのための適応構造深層ネットワークの蒸留学習モデル:顔表情画像データベース

A Distillation Learning Model of Adaptive Structural Deep Belief Network for AffectNet: Facial Expression Image Database ( http://arxiv.org/abs/2110.12717v1 )

ライセンス: Link先を確認
Takumi Ichimura, Shin Kamada(参考訳) Deep Learningには、入力パターンの複雑な特徴を表現する階層的なネットワークアーキテクチャがある。 我々は、ニューロン生成消滅アルゴリズムにより、制限ボルツマンマシン(RBM)において、与えられた入力データに対して最適な隠れニューロン数を発見できるDeep Belief Network(DBN)の適応的構造学習法を開発し、DBN内の隠蔽層数を適切に得ることができる。 本稿では,表情画像データセットであるAffectNetに適用する。 このシステムは従来のCNNよりも高い分類能力を持つ。 しかし, 顔画像の主観的判断が異なる2つ以上のアノテータによって, 人間の感情には多くの曖昧な特徴やパターンが含まれているため, テストケースを正しく分類できなかった。 そこで本研究では, 適応DBNの蒸留学習モデルについて検討した。 元の訓練されたモデルは親モデルと見なすことができ、いくつかの子モデルはいくつかの誤分類ケースのために訓練される。 親モデルと子モデルの違いについては、KL偏差をモニタし、KL偏差に基づいて親モデルにおける適切な新しいニューロンを生成し、分類精度を向上させる。 本研究では,提案手法により,分類精度が78.4%から91.3%に向上した。

Deep Learning has a hierarchical network architecture to represent the complicated feature of input patterns. We have developed the adaptive structure learning method of Deep Belief Network (DBN) that can discover an optimal number of hidden neurons for given input data in a Restricted Boltzmann Machine (RBM) by neuron generation-annihilat ion algorithm, and can obtain the appropriate number of hidden layers in DBN. In this paper, our model is applied to a facial expression image data set, AffectNet. The system has higher classification capability than the traditional CNN. However, our model was not able to classify some test cases correctly because human emotions contain many ambiguous features or patterns leading wrong answer by two or more annotators who have different subjective judgment for a facial image. In order to represent such cases, this paper investigated a distillation learning model of Adaptive DBN. The original trained model can be seen as a parent model and some child models are trained for some mis-classified cases. For the difference between the parent model and the child one, KL divergence is monitored and then some appropriate new neurons at the parent model are generated according to KL divergence to improve classification accuracy. In this paper, the classification accuracy was improved from 78.4% to 91.3% by the proposed method.
翻訳日:2021-10-26 17:43:51 公開日:2021-10-25
# 深層教師付き表現学習による銀河形態計測ツール

Practical Galaxy Morphology Tools from Deep Supervised Representation Learning ( http://arxiv.org/abs/2110.12735v1 )

ライセンス: Link先を確認
Mike Walmsley, Anna M. M. Scaife, Chris Lintott, Michelle Lochner, Verlon Etsebeth, Tobias G\'eron, Hugh Dickinson, Lucy Fortson, Sandor Kruk, Karen L. Masters, Kameswara Bharadwaj Mantha, Brooke D. Simmons(参考訳) 天文学者は通常、スクラッチから独自の表現を作成することで、教師付き機械学習の問題を解決する。 すべての銀河動物園に答えるように訓練された深層学習モデルは、モデルが訓練されなかった新しいタスクに有用である銀河の意味的な意味表現を学ぶ。 我々はこれらの表現を利用して、大きな銀河のサンプルを調べるために不可欠ないくつかの実践的なタスクにおいて、既存のアプローチを上回ります。 最初の課題は、クエリー銀河と類似した形態の銀河を識別することである。 1つの銀河が人間の自由テキストタグ(例えば『#diffuse』)を割り当てると、ほとんどのタグに一致する銀河を見つけることができる。 第二の課題は、ある研究者にとって最も興味深い異常を特定することである。 我々のアプローチは、最も興味深い100の異常(Galaxy Zoo 2のボランティアによって判断される)を特定するのに100%正確です。 第3の課題は、少数の新しい銀河を用いて新しい課題を解決するためにモデルを適用することである。 我々の表現から微調整されたモデルは、地上画像(ImageNet)から微調整されたモデルや、ゼロから訓練されたモデルよりも、リング銀河を識別できる。 各タスクは、非常に少数の新しいラベル(類似度探索用)または数百(異常検出や微調整用)で解決する。 これは、深層教師付き手法が天文学の実用化のために新しい大きなラベル付きデータセットを必要とするという長年の見解に挑戦している。 トレーニング済みのモデルからコミュニティの利益を得るために、私たちは、微調整のコードZoobotをリリースします。 Zoobotは、ディープラーニングの経験のない研究者が利用できる。

Astronomers have typically set out to solve supervised machine learning problems by creating their own representations from scratch. We show that deep learning models trained to answer every Galaxy Zoo DECaLS question learn meaningful semantic representations of galaxies that are useful for new tasks on which the models were never trained. We exploit these representations to outperform existing approaches at several practical tasks crucial for investigating large galaxy samples. The first task is identifying galaxies of similar morphology to a query galaxy. Given a single galaxy assigned a free text tag by humans (e.g. `#diffuse'), we can find galaxies matching that tag for most tags. The second task is identifying the most interesting anomalies to a particular researcher. Our approach is 100\% accurate at identifying the most interesting 100 anomalies (as judged by Galaxy Zoo 2 volunteers). The third task is adapting a model to solve a new task using only a small number of newly-labelled galaxies. Models fine-tuned from our representation are better able to identify ring galaxies than models fine-tuned from terrestrial images (ImageNet) or trained from scratch. We solve each task with very few new labels; either one (for the similarity search) or several hundred (for anomaly detection or fine-tuning). This challenges the longstanding view that deep supervised methods require new large labelled datasets for practical use in astronomy. To help the community benefit from our pretrained models, we release our fine-tuning code zoobot. Zoobot is accessible to researchers with no prior experience in deep learning.
翻訳日:2021-10-26 17:43:28 公開日:2021-10-25
# 条件付きGANを用いたRaw Bayerパターン画像合成

Raw Bayer Pattern Image Synthesis with Conditional GAN ( http://arxiv.org/abs/2110.12823v1 )

ライセンス: Link先を確認
Zhou Wei(参考訳) 本稿では,gans(generative adversarial network)を用いてbayerパターン画像を生成する手法を提案する。 GANsトレーニングにおける変換データの使用は、可逆変換と微分変換の2つの分布間のJensen Shannon(JS)の不変性により、元のデータ分布のジェネレータ学習を改善することができることが理論的に示されている。 既存の標準カラーデータセットをbayerドメインに変換することにより、変換をデモサイシングとして構成することで、ベイアーパターン画像を生成することができ、提案手法は、写真においても、inセンサまたは近接センサーコンピューティングにおいて、コンピュータビジョンタスクの最適なisp構成を見つけるようなアプリケーションにおいて有望である。 実験の結果,提案手法により生成された画像は,FIDスコア,PSNR,SSIMにおいて元のPix2PixHDモデルより優れ,トレーニングプロセスはより安定していることがわかった。 物体検出のためのセンサや近接センサに類似した状況では,提案手法を用いることで,画像センサの変更を伴わずにモデル性能を向上させることができる。

In this paper, we propose a method to generate Bayer pattern images by Generative adversarial network (GANs). It is shown theoretically that using the transformed data in GANs training is able to improve the generator learning of the original data distribution, owing to the invariant of Jensen Shannon(JS) divergence between two distributions under invertible and differentiable transformation. The Bayer pattern images can be generated by configuring the transformation as demosaicing, by converting the existing standard color datasets to Bayer domain, the proposed method is promising in the applications such as to find the optimal ISP configuration for computer vision tasks, in the in sensor or near sensor computing, even in photography. Experiments show that the images generated by our proposed method outperform the original Pix2PixHD model in FID score, PSNR, and SSIM, and the training process is more stable. For the situation similar to in sensor or near sensor computing for object detection, by using our proposed method, the model performance can be improved without the modification to the image sensor.
翻訳日:2021-10-26 17:43:00 公開日:2021-10-25
# MDPのリスク・アバース計画における条件値と期待値のレキシコグラフィー最適化

Lexicographic Optimisation of Conditional Value at Risk and Expected Value for Risk-Averse Planning in MDPs ( http://arxiv.org/abs/2110.12746v1 )

ライセンス: Link先を確認
Marc Rigter, Paul Duckworth, Bruno Lacerda, Nick Hawes(参考訳) マルコフ決定プロセス(MDP)の計画は通常、期待されるコストを最適化する。 しかしながら、予測を最適化することは、MPPの任意の実行において、受け取った総コストが許容できないほど高いリスクを考慮しない。 別のアプローチは、リスクの条件値(CVaR)のようなリスク-逆の目的を最適化するポリシーを見つけることである。 本稿では,最適CVaRを得るための複数のポリシーが存在することを示すことから始める。 我々は,総コストのCVaRが最適であるという制約の下で,期待されるコストを最小限に抑えるための語彙最適化問題を定式化する。 本稿では,この問題に対するアルゴリズムを提示し,実際の交通データに基づく道路ナビゲーションドメインを含む3つの領域に対するアプローチを評価する。 実験の結果, 最適なcvarを維持しつつ, 予測コストを向上できることがわかった。

Planning in Markov decision processes (MDPs) typically optimises the expected cost. However, optimising the expectation does not consider the risk that for any given run of the MDP, the total cost received may be unacceptably high. An alternative approach is to find a policy which optimises a risk-averse objective such as conditional value at risk (CVaR). In this work, we begin by showing that there can be multiple policies which obtain the optimal CVaR. We formulate the lexicographic optimisation problem of minimising the expected cost subject to the constraint that the CVaR of the total cost is optimal. We present an algorithm for this problem and evaluate our approach on three domains, including a road navigation domain based on real traffic data. Our experimental results demonstrate that our lexicographic approach attains improved expected cost while maintaining the optimal CVaR.
翻訳日:2021-10-26 17:40:55 公開日:2021-10-25
# 電力系統動的モデリングのためのニューラルODEとDAEモジュール

Neural ODE and DAE Modules for Power System Dynamic Modeling ( http://arxiv.org/abs/2110.12981v1 )

ライセンス: Link先を確認
Tannan Xiao, Ying Chen, Tirui He, and Huizhe Guan(参考訳) 時間領域シミュレーションは電力系統過渡安定解析の基本的なツールである。 正確で信頼性の高いシミュレーションは、正確な動的コンポーネントモデリングに依存している。 実用的な電力システムでは、動的部品モデリングは、特に再生可能発電と電力エレクトロニクスの急速な発展において、モデル決定とモデルキャリブレーションの課題に直面してきた。 本稿では,ニューラル常微分方程式(odes)の一般的な枠組みに基づいて,改良型ニューラルodeモジュールと,電力系統動的成分モデリングのためのニューラル微分代数方程式(daes)モジュールを提案する。 モジュールはオートエンコーダを採用し、状態変数の次元を高め、人工知能ニューラルネットワーク(ANN)でコンポーネントのダイナミクスをモデル化し、数値積分構造を維持する。 ニューラルDAEモジュールでは、追加のANNを使用して注入電流を算出する。 神経モデルは、時間領域シミュレーションに容易に統合できる。 入力変数と出力変数のサンプル曲線からなるデータセットを用いて、提案モジュールはパラメータ推論、物理データ統合モデリング、ブラックボックスモデリングなどのタスクを満足させ、電力系統の動的シミュレーションに容易に組み込むことができる。 IEEE-39システムでいくつかの簡単な数値実験を行い、提案モジュールの有効性と可能性を証明する。

The time-domain simulation is the fundamental tool for power system transient stability analysis. Accurate and reliable simulations rely on accurate dynamic component modeling. In practical power systems, dynamic component modeling has long faced the challenges of model determination and model calibration, especially with the rapid development of renewable generation and power electronics. In this paper, based on the general framework of neural ordinary differential equations (ODEs), a modified neural ODE module and a neural differential-algebra ic equations (DAEs) module for power system dynamic component modeling are proposed. The modules adopt an autoencoder to raise the dimension of state variables, model the dynamics of components with artificial neural networks (ANNs), and keep the numerical integration structure. In the neural DAE module, an additional ANN is used to calculate injection currents. The neural models can be easily integrated into time-domain simulations. With datasets consisting of sampled curves of input variables and output variables, the proposed modules can be used to fulfill the tasks of parameter inference, physics-data-integra ted modeling, black-box modeling, etc., and can be easily integrated into power system dynamic simulations. Some simple numerical tests are carried out in the IEEE-39 system and prove the validity and potentiality of the proposed modules.
翻訳日:2021-10-26 17:40:38 公開日:2021-10-25
# サンプル通信のためのアルゴリズム

Algorithms for the Communication of Samples ( http://arxiv.org/abs/2110.12805v1 )

ライセンス: Link先を確認
Lucas Theis, Noureldin Yosri(参考訳) 本稿では,ディジタルチャネル上のノイズチャネルを効率的にシミュレートする方法という,逆チャネル符号化の問題を考える。 従来の手法よりも実用上有利な2つの新しい符号化方式を提案する。 まず,従来の手法の符号化コストを重要度サンプリングに基づいて削減するために,単純なトリックを用いた順序付きランダム符号化(orc)を導入する。 我々の導出はまた、これらのスキームといわゆるポアソン汎函数表現の間の接続を照らしている。 第2に,ディザド量子化(dithered quantization)を応用したハイブリッド符号化方式について述べる。

We consider the problem of reverse channel coding, that is, how to simulate a noisy channel over a digital channel efficiently. We propose two new coding schemes with practical advantages over previous approaches. First, we introduce ordered random coding (ORC) which uses a simple trick to reduce the coding cost of previous approaches based on importance sampling. Our derivation also illuminates a connection between these schemes and the so-called Poisson functional representation. Second, we describe a hybrid coding scheme which uses dithered quantization to efficiently communicate samples from distributions with bounded support.
翻訳日:2021-10-26 17:40:17 公開日:2021-10-25
# 近隣住民による回帰等角予測を時系列データに適用する

Applying Regression Conformal Prediction with Nearest Neighbors to time series data ( http://arxiv.org/abs/2110.13031v1 )

ライセンス: Link先を確認
Samya Tajmouati, Bouazza El Wahbi and Mohammed Dakkoun(参考訳) 本稿では,時系列データに共形予測を適用する。 コンフォーマル予測は、信頼度の高い予測領域を生成する方法である。 領域出力は、交換可能性仮定の下で有効である。 しかし、過去、現在、将来の観測にリンクがあるため、この仮定は時系列データに留まらず、時系列データの問題に共形予測器を適用することの課題は、時系列の観測が依存しているという事実であり、したがって交換可能性の仮定を満たさないことである。 本稿では,時系列の文脈における共形予測器を用いて,信頼可能な予測区間を構築する方法を提案する。 重み付き近距離近傍 (fpto-wnn) 法における高速パラメータチューニング手法に基づく近距離近傍法を基礎アルゴリズムとして用いる。 データ分析は提案手法の有効性を示す。

In this paper, we apply conformal prediction to time series data. Conformal prediction isa method that produces predictive regions given a confidence level. The regions outputs arealways valid under the exchangeability assumption. However, this assumption does not holdfor the time series data because there is a link among past, current, and future observations.Consequ ently, the challenge of applying conformal predictors to the problem of time seriesdata lies in the fact that observations of a time series are dependent and therefore do notmeet the exchangeability assumption. This paper aims to present a way of constructingreliable prediction intervals by using conformal predictors in the context of time series. Weuse the nearest neighbors method based on the fast parameters tuning technique in theweighted nearest neighbors (FPTO-WNN) approach as the underlying algorithm. Dataanalysis demonstrates the effectiveness of the proposed approach.
翻訳日:2021-10-26 17:40:08 公開日:2021-10-25
# 半離散エントロピー最適輸送のための近位収束境界

Nearly Tight Convergence Bounds for Semi-discrete Entropic Optimal Transport ( http://arxiv.org/abs/2110.12678v1 )

ライセンス: Link先を確認
Alex Delalande (LMO, DATASHAPE)(参考訳) エントロピー半離散的最適輸送の解に対して、ほぼ厳密で非漸近収束境界を導出する。 これらの境界は正規化問題(シンクホーンポテンシャルと呼ばれることもある)の双対解の安定性を、正規化パラメータ w.r.t で定量化する。 このような事実は、正規化された半離散的最適輸送の数値解法に対するアニーリングの数学的正当化や$\eps$-scalingのヒューリスティックスへの第一歩かもしれない。 また, エントロピーと非正規化コストの差を非漸近的かつ厳密に拡大することを示した。

We derive nearly tight and non-asymptotic convergence bounds for solutions of entropic semi-discrete optimal transport. These bounds quantify the stability of the dual solutions of the regularized problem (sometimes called Sinkhorn potentials) w.r.t. the regularization parameter, for which we ensure a better than Lipschitz dependence. Such facts may be a first step towards a mathematical justification of annealing or $\eps$-scaling heuristics for the numerical resolution of regularized semi-discrete optimal transport. Our results also entail a non-asymptotic and tight expansion of the difference between the entropic and the unregularized costs.
翻訳日:2021-10-26 17:39:55 公開日:2021-10-25
# (参考訳) 認知症患者の放浪行動の検出 [全文訳有]

Detecting Wandering Behavior of People with Dementia ( http://arxiv.org/abs/2110.13128v1 )

ライセンス: CC BY 4.0
Nicklas Sindlev Andersen and Marco Chiarandini and Stefan J\"anicke and Panagiotis Tampakis and Arthur Zimek(参考訳) 放浪は認知症患者の問題行動であり、危険な状況につながる可能性がある。 この問題を軽減するため,私たちは,迷いのリアルタイム自動検出手法を設計した。 このアプローチはGPSデータに基づいて、動きの頻繁な位置とGPSデータをジオハッシュシーケンスに変換するステップを決定する。 これらは、履歴データから頻繁で正常な動きパターンを見つけ、新しい進行中のシーケンスが異常であるかどうかを判断するために使用できる。 合成データの実験を行い、頻繁な位置を見つけるためのアプローチの能力を検証し、それに代わる最先端のアプローチと比較する。 提案手法では, 頻繁な位置を同定し, 高い性能(パラメータ設定でAUC=0.99まで)を得ることができ, 最先端のアプローチよりも優れている。

Wandering is a problematic behavior in people with dementia that can lead to dangerous situations. To alleviate this problem we design an approach for the real-time automatic detection of wandering leading to getting lost. The approach relies on GPS data to determine frequent locations between which movement occurs and a step that transforms GPS data into geohash sequences. Those can be used to find frequent and normal movement patterns in historical data to then be able to determine whether a new on-going sequence is anomalous. We conduct experiments on synthetic data to test the ability of the approach to find frequent locations and to compare it against an alternative, state-of-the-art approach. Our approach is able to identify frequent locations and to obtain good performance (up to AUC = 0.99 for certain parameter settings) outperforming the state-of-the-art approach.
翻訳日:2021-10-26 17:36:01 公開日:2021-10-25
# 強化学習における動的アウェア報酬を用いた教師なしドメイン適応

Unsupervised Domain Adaptation with Dynamics-Aware Rewards in Reinforcement Learning ( http://arxiv.org/abs/2110.12997v1 )

ライセンス: Link先を確認
Jinxin Liu, Hao Shen, Donglin Wang, Yachen Kang, Qiangxing Tian(参考訳) 教師なし強化学習は、エージェントが目標を表現し、目標条件を学習するためのオープンな環境を自動で探索する、事前の目標表現なしでスキルを獲得することを目的としている。 しかし、この手順はしばしば時間がかかり、潜在的に高価なターゲット環境でのロールアウトを制限する。 他の相互作用に富んだ環境におけるトレーニングの直感的なアプローチは、ダイナミックスシフトによる目標環境におけるトレーニングスキルの再現性を阻害し、直接の転送を阻害する。 ソース環境への自由アクセスを仮定し、動的にスキルを識別し獲得するための教師なしドメイン適応手法を提案する。 特に,KLの正規化の対象は,スキルの出現を奨励し,エージェントにスキルの発見とダイナミックスシフトに関する行動の整合を報いる。 これは、ダイナミクス(ソースとターゲット)が報酬を形作り、適応スキルの学習を促進することを示唆している。 また,本手法が目標にスムーズに展開できるスキルを効果的に学習できることを実証する実験を行った。

Unsupervised reinforcement learning aims to acquire skills without prior goal representations, where an agent automatically explores an open-ended environment to represent goals and learn the goal-conditioned policy. However, this procedure is often time-consuming, limiting the rollout in some potentially expensive target environments. The intuitive approach of training in another interaction-rich environment disrupts the reproducibility of trained skills in the target environment due to the dynamics shifts and thus inhibits direct transferring. Assuming free access to a source environment, we propose an unsupervised domain adaptation method to identify and acquire skills across dynamics. Particularly, we introduce a KL regularized objective to encourage emergence of skills, rewarding the agent for both discovering skills and aligning its behaviors respecting dynamics shifts. This suggests that both dynamics (source and target) shape the reward to facilitate the learning of adaptive skills. We also conduct empirical experiments to demonstrate that our method can effectively learn skills that can be smoothly deployed in target.
翻訳日:2021-10-26 17:20:30 公開日:2021-10-25
# gophormer: ノード分類のためのegoグラフトランスフォーマー

Gophormer: Ego-Graph Transformer for Node Classification ( http://arxiv.org/abs/2110.13094v1 )

ライセンス: Link先を確認
Jianan Zhao, Chaozhuo Li, Qianlong Wen, Yiqi Wang, Yuming Liu, Hao Sun, Xing Xie and Yanfang Ye(参考訳) トランスフォーマーは、自然言語処理やコンピュータビジョンなど、無数の分野で目覚ましい性能を達成している。 しかしながら、グラフニューラルネットワーク(gnn)が支配的なパラダイムであるグラフマイニング領域に関しては、特にノード分類タスクにおいて、トランスフォーマーは競争性能を達成できていない。 既存のグラフトランスフォーマモデルでは、入力グラフ全体に完全に接続された注意機構を採用しているため、スケーラビリティの重大な問題が発生し、データ不足のケースではトレーニングが困難である。 そこで本研究では,egoグラフに完全グラフではなくトランスフォーマーを適用する新しいgophormerモデルを提案する。 具体的には、変圧器の入力としてエゴグラフをサンプリングするためにNode2Seqモジュールが提案され、スケーラビリティの課題を軽減し、モデルパフォーマンスを向上させる効果的なデータ拡張技術として機能する。 さらに,バニラ変圧器の特徴に基づく注意戦略とは異なり,細粒度構造バイアスを捉えるための近接注意機構を提案する。 さらに,エゴグラフサンプリングがもたらす不確実性に対処するために,安定トレーニングとテストのための整合正則化とマルチサンプル推論戦略を提案する。 6つのベンチマークデータセットに対する大規模な実験を行い、既存のグラフトランスフォーマーや人気のあるGNNよりもGophormerの方が優れていることを示した。

Transformers have achieved remarkable performance in a myriad of fields including natural language processing and computer vision. However, when it comes to the graph mining area, where graph neural network (GNN) has been the dominant paradigm, transformers haven't achieved competitive performance, especially on the node classification task. Existing graph transformer models typically adopt fully-connected attention mechanism on the whole input graph and thus suffer from severe scalability issues and are intractable to train in data insufficient cases. To alleviate these issues, we propose a novel Gophormer model which applies transformers on ego-graphs instead of full-graphs. Specifically, Node2Seq module is proposed to sample ego-graphs as the input of transformers, which alleviates the challenge of scalability and serves as an effective data augmentation technique to boost model performance. Moreover, different from the feature-based attention strategy in vanilla transformers, we propose a proximity-enhanced attention mechanism to capture the fine-grained structural bias. In order to handle the uncertainty introduced by the ego-graph sampling, we further propose a consistency regularization and a multi-sample inference strategy for stabilized training and testing, respectively. Extensive experiments on six benchmark datasets are conducted to demonstrate the superiority of Gophormer over existing graph transformers and popular GNNs, revealing the promising future of graph transformers.
翻訳日:2021-10-26 17:20:11 公開日:2021-10-25
# DaRE:ドメイン認識機能抽出とレビューエンコーダを備えたドメイン間リコメンダシステム

DaRE: A Cross-Domain Recommender System with Domain-aware Feature Extraction and Review Encoder ( http://arxiv.org/abs/2110.12648v1 )

ライセンス: Link先を確認
Yoonhyuk Choi, Jiho Choi, Taewook Ko, Chongkwon Kim(参考訳) 近年のレコメンデータシステム,特にテキスト支援手法やCDR(Cross-Domain Recommendation)の出現は,データスパーシビリティやコールドスタート問題を解く上で有望な結果をもたらす。 このような進歩にもかかわらず、事前アルゴリズムでは、ユーザの重複やドメイン認識機能抽出を無視する必要がある。 さらに、テキスト支援手法は、集約された文書を過度に強調し、個々のレビューに埋め込まれた詳細をキャプチャできない。 このような制約を克服するために,dare(domainaware feature extraction and review encoder)という,テキストベースの表現学習,ドメイン認識機能抽出,レビューエンコーダという,3つの重要なコンポーネントからなる包括的ソリューションを提案する。 ドメイン不変特徴とドメイン固有特徴を選択的逆訓練によって分離することで、dareはノイズを緩和する。 DaREは集約された文書から特徴を抽出し、レビューエンコーダは個々のレビューから抽出した特徴と整列することで表現を微調整する。 4つの実世界のデータセットの実験では、最先端の単一ドメインとクロスドメインの方法論よりもDaREの方が優れており、それぞれ9.2%と3.6%の改善が達成されている。 再現性のために実装(https://anonymous.4 open.science/r/dare- 9cc9/)をアップロードします。

Recent advent in recommender systems, especially text-aided methods and CDR (Cross-Domain Recommendation) leads to promising results in solving data-sparsity and cold-start problems. Despite such progress, prior algorithms either require user overlapping or ignore domain-aware feature extraction. In addition, text-aided methods exceedingly emphasize aggregated documents and fail to capture the specifics embedded in individual reviews. To overcome such limitations, we propose a novel method, named DaRE (Domainaware Feature Extraction and Review Encoder), a comprehensive solution that consists of three key components; text-based representation learning, domain-aware feature extraction, and a review encoder. DaRE debilitate noises by separating domain-invariant features from domain-specific features through selective adversarial training. DaRE extracts features from aggregated documents, and the review encoder fine-tunes the representations by aligning them with the features extracted from individual reviews. Experiments on four real-world datasets show the superiority of DaRE over state-ofthe-art single-domain and cross-domain methodologies, achieving 9.2 % and 3.6 % improvements, respectively. We upload our implementations (https://anonymous.4 open.science/r/DaRE- 9CC9/) for a reproducibility
翻訳日:2021-10-26 17:19:48 公開日:2021-10-25
# 戦略的サービス提供者エージェントの経時的調達のための最適オークション設計

Optimal Auction Design for the Gradual Procurement of Strategic Service Provider Agents ( http://arxiv.org/abs/2110.12846v1 )

ライセンス: Link先を確認
Farzaneh Farhadi, Maria Chli, Nicholas R. Jennings(参考訳) ソフトウェアエージェントが不確実性のあるプロバイダから複数のサービスを取得し、厳密な期限前に計算タスクを完了するというアウトソーシング問題を考える。 サービスコンシューマは、成功確率と起動コストの最適なバランスを達成する調達戦略を必要とします。 しかし、サービスプロバイダは自己利益があり、利益がある場合、プライベートコスト情報を誤って表現する可能性がある。 このような設定のために、我々は消費者に可能な限り高い収益を提供する新しい調達オークションを設計し、提供者にそのコストについて真実を伝える十分なインセンティブを与える。 このオークションは段階的なサービス調達計画を作成し、既に採用されているプロバイダの成功確率が時間に依存しない閾値を下回る場合にのみ、新たなプロバイダを募集することを提案している。 この競売インセンティブを両立させるため,全ての真理的メカニズムの中で最小額を支払う新しい重み付きしきい値支払い方式を提案する。 また、重み付き支払い方式を用いて、最適機構の計算複雑性を99%減らし、限界性能損失(1%未満)を減らした低複雑さ近最適オークションを設計する。 提案するオークションの有効性と強度をゲーム理論と数値解析の両方を通して実証する。 実験の結果,提案したオークションは,成功確率を79%まで上げ,実行コストを11%まで下げることにより,現状よりも59%向上していることがわかった。

We consider an outsourcing problem where a software agent procures multiple services from providers with uncertain reliabilities to complete a computational task before a strict deadline. The service consumer requires a procurement strategy that achieves the optimal balance between success probability and invocation cost. However, the service providers are self-interested and may misrepresent their private cost information if it benefits them. For such settings, we design a novel procurement auction that provides the consumer with the highest possible revenue, while giving sufficient incentives to providers to tell the truth about their costs. This auction creates a contingent plan for gradual service procurement that suggests recruiting a new provider only when the success probability of the already hired providers drops below a time-dependent threshold. To make this auction incentive compatible, we propose a novel weighted threshold payment scheme which pays the minimum among all truthful mechanisms. Using the weighted payment scheme, we also design a low-complexity near-optimal auction that reduces the computational complexity of the optimal mechanism by 99% with only marginal performance loss (less than 1%). We demonstrate the effectiveness and strength of our proposed auctions through both game theoretical and numerical analysis. The experiment results confirm that the proposed auctions exhibit 59% improvement in performance over the current state-of-the-art, by increasing success probability up to 79% and reducing invocation cost by up to 11%.
翻訳日:2021-10-26 17:19:24 公開日:2021-10-25
# 最適統計保証を用いた通信効率の良い分散量子回帰

Communication-Effici ent Distributed Quantile Regression with Optimal Statistical Guarantees ( http://arxiv.org/abs/2110.13113v1 )

ライセンス: Link先を確認
Heather Battey, Kean Ming Tan, and Wen-Xin Zhou(参考訳) 本稿では,厳密なスケーリング条件を伴わずに,分散分位数回帰における最適推論を実現する方法について論じる。 これは、既存の方法論の使用を無効にする量子回帰損失関数の非滑らかな性質のため、難しい。 この問題は、ローカル(各データソース)とグローバルな目的関数に適用される二重平滑化アプローチによって解決される。 局所的および大域的滑らか化パラメータの微妙な組み合わせに依存するにもかかわらず、量子回帰モデルは完全にパラメトリックであり、解釈を容易にする。 低次元のシステムでは、ウォルドの反転とスコア型テストとresam-pling法に基づいて、いくつかの代替信頼度集合の構成を議論・比較し、より極端な量子化係数に有効である改善を詳述する。 高次元ではスパースフレームワークが採用され、提案された2倍の目的関数は$\ell_1$-penaltyで補完される。 詳細なシミュレーション研究が我々の発見をさらに解明している。 最後に,高次元環境における分散分位回帰に対する推定理論と数値的研究を行った。

We address the problem of how to achieve optimal inference in distributed quantile regression without stringent scaling conditions. This is challenging due to the non-smooth nature of the quantile regression loss function, which invalidates the use of existing methodology. The difficulties are resolved through a double-smoothing approach that is applied to the local (at each data source) and global objective functions. Despite the reliance on a delicate combination of local and global smoothing parameters, the quantile regression model is fully parametric, thereby facilitating interpretation. In the low-dimensional regime, we discuss and compare several alternative confidence set constructions, based on inversion of Wald and score-type tests and resam-pling techniques, detailing an improvement that is effective for more extreme quantile coefficients. In high dimensions, a sparse framework is adopted, where the proposed doubly-smoothed objective function is complemented with an $\ell_1$-penalty. A thorough simulation study further elucidates our findings. Finally, we provide estimation theory and numerical studies for sparse quantile regression in the high-dimensional setting.
翻訳日:2021-10-26 17:16:36 公開日:2021-10-25
# (参考訳) 高次ベンガル語とヒンディー語モデリングのためのCNNの再検討 [全文訳有]

Revisiting CNN for Highly Inflected Bengali and Hindi Language Modeling ( http://arxiv.org/abs/2110.13032v1 )

ライセンス: CC BY 4.0
Chowdhury Rafeed Rahman, MD. Hasibur Rahman, Mohammad Rafsan, Samiha Zakir, Mohammed Eunus Ali, Rafsanjani Muhammod(参考訳) 近年、英語や中国語などの高資源言語のための言語モデリング(lm)が盛んに行われているが、ベンガル語やヒンディー語のような低資源言語については未調査のままである。 ベンガル語とヒンディー語の単語順応性や音韻的綴り誤りなど,特定の特徴を扱うために,エンドツーエンドの学習可能なメモリ効率の高いcnnアーキテクチャcocnnを提案する。 特に,単語と文レベルで学習可能な畳み込みサブモデル2つを導入する。 事前訓練されたbertを含む最先端(sota)トランスフォーマーモデルがベンガルやヒンディー語に最適な性能をもたらすとは限らない。 CoCNNは、トレーニング済みのBERTを16倍のパラメータで上回り、複数の実世界のデータセット上のSOTA LSTMモデルよりもはるかに優れたパフォーマンスを実現している。 これは、ベンガル語とヒンディー語の2つの広く使われている言語をモデル化するための畳み込み、リカレント、トランスフォーマーニューラルネットという3つのディープラーニングパラダイムから引き出された異なるアーキテクチャの有効性に関する最初の研究である。

Though there has been a large body of recent works in language modeling (LM) for high resource languages such as English and Chinese, the area is still unexplored for low resource languages like Bengali and Hindi. We propose an end to end trainable memory efficient CNN architecture named CoCNN to handle specific characteristics such as high inflection, morphological richness, flexible word order and phonetical spelling errors of Bengali and Hindi. In particular, we introduce two learnable convolutional sub-models at word and at sentence level that are end to end trainable. We show that state-of-the-art (SOTA) Transformer models including pretrained BERT do not necessarily yield the best performance for Bengali and Hindi. CoCNN outperforms pretrained BERT with 16X less parameters, and it achieves much better performance than SOTA LSTM models on multiple real-world datasets. This is the first study on the effectiveness of different architectures drawn from three deep learning paradigms - Convolution, Recurrent, and Transformer neural nets for modeling two widely used languages, Bengali and Hindi.
翻訳日:2021-10-26 17:10:35 公開日:2021-10-25
# インスタンス依存部分ラベル学習

Instance-Dependent Partial Label Learning ( http://arxiv.org/abs/2110.12911v1 )

ライセンス: Link先を確認
Ning Xu, Congyu Qiao, Xin Geng, Min-Ling Zhang(参考訳) 部分ラベル学習(pll)は典型的な弱い教師付き学習問題であり、各トレーニングサンプルは1つだけが真である候補ラベルの集合に関連付けられている。 既存のPLLアプローチの多くは、トレーニングサンプルの誤りラベルがランダムに候補ラベルとして選択されていると仮定している。 しかし、候補ラベルは常にインスタンス依存であるため、この仮定は現実的ではない。 本稿では,インスタンス依存型PLLについて考察し,各例が各ラベルの実数で構成された潜在ラベル分布と関連付けられていると仮定し,特徴を記述した各ラベルの次数を表す。 高いレベルの誤ラベルは、候補ラベルとして注釈付けされることが多い。 したがって、潜在ラベル分布は部分的にラベル付けされた例において必須ラベル情報であり、予測モデルトレーニングに活用する価値がある。 そこで本研究では,ラベル拡張(LE)プロセスとしてラベル分布を復元し,各エポックにおいて予測モデルを反復的に訓練する新しいPLL手法を提案する。 具体的には、潜在ラベル分布の真の後続密度は、推論モデルによりパラメータ化された変分近似ディリクレ密度を仮定する。 そして、推定モデルを最適化するために下限の証拠を導出し、変動後段から生成されたラベル分布を予測モデルのトレーニングに利用する。 ベンチマークおよび実世界のデータセットを用いた実験により,提案手法の有効性が検証された。 ソースコードはhttps://github.com/p alm-ml/valen.comで入手できる。

Partial label learning (PLL) is a typical weakly supervised learning problem, where each training example is associated with a set of candidate labels among which only one is true. Most existing PLL approaches assume that the incorrect labels in each training example are randomly picked as the candidate labels. However, this assumption is not realistic since the candidate labels are always instance-dependent. In this paper, we consider instance-dependent PLL and assume that each example is associated with a latent label distribution constituted by the real number of each label, representing the degree to each label describing the feature. The incorrect label with a high degree is more likely to be annotated as the candidate label. Therefore, the latent label distribution is the essential labeling information in partially labeled examples and worth being leveraged for predictive model training. Motivated by this consideration, we propose a novel PLL method that recovers the label distribution as a label enhancement (LE) process and trains the predictive model iteratively in every epoch. Specifically, we assume the true posterior density of the latent label distribution takes on the variational approximate Dirichlet density parameterized by an inference model. Then the evidence lower bound is deduced for optimizing the inference model and the label distributions generated from the variational posterior are utilized for training the predictive model. Experiments on benchmark and real-world datasets validate the effectiveness of the proposed method. Source code is available at https://github.com/p alm-ml/valen.
翻訳日:2021-10-26 16:50:25 公開日:2021-10-25
# フェデレーションエッジ学習のための最適化に基づくGenQSGD

Optimization-Based GenQSGD for Federated Edge Learning ( http://arxiv.org/abs/2110.12987v1 )

ライセンス: Link先を確認
Yangchen Li, Ying Cui, Vincent Lau(参考訳) フェデレーション学習(FL)のための最適アルゴリズム設計は未解決の問題である。 本稿では,作業者が異なる計算能力と通信能力を有し,サーバと作業者間で量子化された中間モデル更新が送信される,実用的なエッジコンピューティングシステムにおけるFLの可能性について検討する。 まず,大域的な反復数,全作業者の局所的な反復数,およびミニバッチサイズによってパラメータ化されるFLのための一般化並列最小バッチ確率勾配勾配(SGD)アルゴリズムを提案する。 また,アルゴリズムパラメータの任意の選択に対して収束誤差を解析する。 次に,時間制約および収束誤差制約の下でのエネルギーコストを最小化するアルゴリズムパラメータを最適化する。 最適化問題は、微分不能な制約関数を持つ非凸問題である。 高度な最適化手法を用いてKKT点を求める反復アルゴリズムを提案する。 計算結果は既存のflアルゴリズムに対するgenqsgdの有意な向上を示し、flアルゴリズムを最適に設計することの重要性を明らかにした。

Optimal algorithm design for federated learning (FL) remains an open problem. This paper explores the full potential of FL in practical edge computing systems where workers may have different computation and communication capabilities, and quantized intermediate model updates are sent between the server and workers. First, we present a general quantized parallel mini-batch stochastic gradient descent (SGD) algorithm for FL, namely GenQSGD, which is parameterized by the number of global iterations, the numbers of local iterations at all workers, and the mini-batch size. We also analyze its convergence error for any choice of the algorithm parameters. Then, we optimize the algorithm parameters to minimize the energy cost under the time constraint and convergence error constraint. The optimization problem is a challenging non-convex problem with non-differentiable constraint functions. We propose an iterative algorithm to obtain a KKT point using advanced optimization techniques. Numerical results demonstrate the significant gains of GenQSGD over existing FL algorithms and reveal the importance of optimally designing FL algorithms.
翻訳日:2021-10-26 16:50:02 公開日:2021-10-25
# (参考訳) トレーニングの難しさを徐々に増加させることによるモデル一般化の改善 [全文訳有]

Some like it tough: Improving model generalization via progressively increasing the training difficulty ( http://arxiv.org/abs/2110.13058v1 )

ライセンス: CC BY 4.0
Hannes Fassold(参考訳) 本研究では,ミニバッチトリミングと呼ばれる新しい戦略により,ニューラルネットワークモデルを学習する際のトレーニングの難しさを徐々に高めることを提案する。 この戦略により、オプティマイザは、後のトレーニングステージにおいて、より難しいサンプルに焦点を合わせます。 この戦略は既存のトレーニングパイプラインへの統合が非常に簡単であり、ネットワークモデルの変更を必要としない。 いくつかの画像分類問題に関する実験により、ミニバッチトリミングにより、訓練されたモデルの一般化能力(最終テストエラーによる測定)が向上できることが示されている。

In this work, we propose to progressively increase the training difficulty during learning a neural network model via a novel strategy which we call mini-batch trimming. This strategy makes sure that the optimizer puts its focus in the later training stages on the more difficult samples, which we identify as the ones with the highest loss in the current mini-batch. The strategy is very easy to integrate into an existing training pipeline and does not necessitate a change of the network model. Experiments on several image classification problems show that mini-batch trimming is able to increase the generalization ability (measured via final test error) of the trained model.
翻訳日:2021-10-26 16:47:14 公開日:2021-10-25
# UAVによる物体検出・追跡のための深層学習:サーベイ

Deep Learning for UAV-based Object Detection and Tracking: A Survey ( http://arxiv.org/abs/2110.12638v1 )

ライセンス: Link先を確認
Xin Wu, Wei Li, Danfeng Hong, Ran Tao, Qian Du(参考訳) 有効かつ柔軟なデータ取得のため、無人航空機(UAV)は近年、コンピュータビジョン(CV)とリモートセンシング(RS)の分野でホットスポットとなっている。 近年、深層学習(DL)の成功に触発されて、環境モニタリング、精密農業、交通管理など、様々なUAV関連のタスクに多くの高度な物体検出と追跡アプローチが適用されている。 本稿では, DLを用いたUAV物体検出・追跡手法の研究の進展と今後の展望について概説する。 具体的には,画像からの物体検出,ビデオからの物体検出,ビデオからの物体追跡という3つの研究トピックにおいて,DLモデルの観点からの課題,既存手法の統計について概説する。 uavが支配するオブジェクト検出とトラッキングに関連するオープンデータセットが枯渇し、いくつかの最先端手法を用いたパフォーマンス評価に4つのベンチマークデータセットが使用される。 最後に,今後の課題の展望と考察を概説する。 この調査は,dlベースのuav物体検出・追跡手法の概要と今後の展開について,リモートセンシング分野の研究者が支援できることが期待される。

Owing to effective and flexible data acquisition, unmanned aerial vehicle (UAV) has recently become a hotspot across the fields of computer vision (CV) and remote sensing (RS). Inspired by recent success of deep learning (DL), many advanced object detection and tracking approaches have been widely applied to various UAV-related tasks, such as environmental monitoring, precision agriculture, traffic management. This paper provides a comprehensive survey on the research progress and prospects of DL-based UAV object detection and tracking methods. More specifically, we first outline the challenges, statistics of existing methods, and provide solutions from the perspectives of DL-based models in three research topics: object detection from the image, object detection from the video, and object tracking from the video. Open datasets related to UAV-dominated object detection and tracking are exhausted, and four benchmark datasets are employed for performance evaluation using some state-of-the-art methods. Finally, prospects and considerations for the future work are discussed and summarized. It is expected that this survey can facilitate those researchers who come from remote sensing field with an overview of DL-based UAV object detection and tracking methods, along with some thoughts on their further developments.
翻訳日:2021-10-26 16:43:08 公開日:2021-10-25
# 骨髄細胞認識 : 新しいロス関数を用いた深部物体検出の訓練

Bone Marrow Cell Recognition: Training Deep Object Detection with A New Loss Function ( http://arxiv.org/abs/2110.12647v1 )

ライセンス: Link先を確認
Dehao Huang, Jintao Cheng, Rui Fan, Zhihao Su, Qiongxiong Ma, Jie Li(参考訳) 長い間、骨髄細胞の形態検査は血液疾患の診断に必須のツールであった。 しかし、依然として経験豊富な医師の主観的診断に主に依存しており、客観的な定量的基準はない。 そのため, 定量的自動解析システムのための頑健な骨髄細胞検出アルゴリズムの研究が重要である。 現在, 骨髄スミアおよび多種多様な細胞群の細胞分布が密集しているため, 骨髄細胞の検出は困難である。 既存の骨髄細胞検出アルゴリズムは、骨髄スミアの自動解析システムにはまだ不十分である。 本稿では,新規なロス関数を最小化して学習したYOLOv5ネットワークに基づく骨髄細胞検出アルゴリズムを提案する。 骨髄細胞検出タスクの分類法は,提案する新たな損失機能に基づく。 骨髄細胞はシリーズとステージによって分類されるため、隣の段階のクラスの一部は類似している。 提案する新しい損失関数は、骨髄細胞クラス間の類似性を考慮し、異種間の予測エラーのペナルティを増加させ、類似クラス間の予測エラーのペナルティを低減させる。 その結果,提案する損失関数はアルゴリズムの性能を効果的に改善し,提案する骨髄細胞検出アルゴリズムは他の細胞検出アルゴリズムよりも優れた性能を得た。

For a long time, bone marrow cell morphology examination has been an essential tool for diagnosing blood diseases. However, it is still mainly dependent on the subjective diagnosis of experienced doctors, and there is no objective quantitative standard. Therefore, it is crucial to study a robust bone marrow cell detection algorithm for a quantitative automatic analysis system. Currently, due to the dense distribution of cells in the bone marrow smear and the diverse cell classes, the detection of bone marrow cells is difficult. The existing bone marrow cell detection algorithms are still insufficient for the automatic analysis system of bone marrow smears. This paper proposes a bone marrow cell detection algorithm based on the YOLOv5 network, trained by minimizing a novel loss function. The classification method of bone marrow cell detection tasks is the basis of the proposed novel loss function. Since bone marrow cells are classified according to series and stages, part of the classes in adjacent stages are similar. The proposed novel loss function considers the similarity between bone marrow cell classes, increases the penalty for prediction errors between dissimilar classes, and reduces the penalty for prediction errors between similar classes. The results show that the proposed loss function effectively improves the algorithm's performance, and the proposed bone marrow cell detection algorithm has achieved better performance than other cell detection algorithms.
翻訳日:2021-10-26 16:42:46 公開日:2021-10-25
# 物体検出のためのインスタンス条件知識蒸留

Instance-Conditional Knowledge Distillation for Object Detection ( http://arxiv.org/abs/2110.12724v1 )

ライセンス: Link先を確認
Zijian Kang, Peizhen Zhang, Xiangyu Zhang, Jian Sun, Nanning Zheng(参考訳) 画像分類における知識蒸留(KD)の成功にもかかわらず、知識の特定が困難であるため、対象検出にKDを適用することは依然として困難である。 本稿では,所望の知識を求めるためのインスタンス条件蒸留フレームワークを提案する。 各インスタンスの知識を見つけるために、観測されたインスタンスを条件情報として使用し、検索プロセスをインスタンス条件復号プロセスとして定式化する。 具体的には、条件を指定した各インスタンスの情報をクエリとしてエンコードし、教師の情報をキーとして提示し、クエリとキー間の注意を使って、トランスフォーマーデコーダで定式化された相関を計測する。 このモジュールをガイドするために,検出の基本となるインスタンスのローカライゼーションと識別に向け,補助的なタスクを導入する。 本手法の有効性を示す大規模な実験を行い,各種条件下での顕著な改善を観察した。 特に、ResNet-50のバックボーンでRetinaNetを37.4から40.7mAP(+3.3)に1倍のスケジュールで強化し、3倍のスケジュールでResNet-101のバックボーンで教師(40.4mAP)を超越する。 コードはまもなくリリースされる。

Despite the success of Knowledge Distillation (KD) on image classification, it is still challenging to apply KD on object detection due to the difficulty in locating knowledge. In this paper, we propose an instance-conditional distillation framework to find desired knowledge. To locate knowledge of each instance, we use observed instances as condition information and formulate the retrieval process as an instance-conditional decoding process. Specifically, information of each instance that specifies a condition is encoded as query, and teacher's information is presented as key, we use the attention between query and key to measure the correlation, formulated by the transformer decoder. To guide this module, we further introduce an auxiliary task that directs to instance localization and identification, which are fundamental for detection. Extensive experiments demonstrate the efficacy of our method: we observe impressive improvements under various settings. Notably, we boost RetinaNet with ResNet-50 backbone from 37.4 to 40.7 mAP (+3.3) under 1x schedule, that even surpasses the teacher (40.4 mAP) with ResNet-101 backbone under 3x schedule. Code will be released soon.
翻訳日:2021-10-26 16:42:25 公開日:2021-10-25
# lae : ロングテール年齢推定

LAE : Long-tailed Age Estimation ( http://arxiv.org/abs/2110.12741v1 )

ライセンス: Link先を確認
Zenghao Bao, Zichang Tan, Yu Zhu, Jun Wan, Xibo Ma, Zhen Lei, Guodong Guo(参考訳) 顔年齢の推定はコンピュータビジョンにおいて重要だが非常に難しい問題である。 顔年齢推定の性能を向上させるために,まず,簡単な標準ベースラインを定式化し,事前トレーニングやデータ拡張,モデルアーキテクチャなどのトリックを収集することで,はるかに強力なベースラインを構築する。 標準ベースラインと比較して,提案手法は推定誤差を著しく低減する。 さらに、ロングテール認識は、顔年齢データセットにおいて重要なトピックであり、サンプルはしばしば高齢者や子供に欠落している。 バランスのある年齢推定器を訓練するために,long-tailed age estimation (lae) という2段階の学習法を提案し,学習手順を表現学習と分類に分解する。 提案手法の有効性は,2021年のGuess The Age Contestの主催者によるデータセット上で実証されている。

Facial age estimation is an important yet very challenging problem in computer vision. To improve the performance of facial age estimation, we first formulate a simple standard baseline and build a much strong one by collecting the tricks in pre-training, data augmentation, model architecture, and so on. Compared with the standard baseline, the proposed one significantly decreases the estimation errors. Moreover, long-tailed recognition has been an important topic in facial age datasets, where the samples often lack on the elderly and children. To train a balanced age estimator, we propose a two-stage training method named Long-tailed Age Estimation (LAE), which decouples the learning procedure into representation learning and classification. The effectiveness of our approach has been demonstrated on the dataset provided by organizers of Guess The Age Contest 2021.
翻訳日:2021-10-26 16:42:00 公開日:2021-10-25
# 高速かつスケーラブルなステレオマッチングのためのマルチスケール反復残差

Multi-scale Iterative Residuals for Fast and Scalable Stereo Matching ( http://arxiv.org/abs/2110.12769v1 )

ライセンス: Link先を確認
Kumail Raza, Ren\'e Schuster, Didier Stricker(参考訳) ステレオマッチングにおけるディープラーニングの顕著な進歩にもかかわらず、実際の応用に適したリアルタイムモデルと遅い最先端モデルの間には精度の差がある。 本稿では,このギャップを埋めるために,任意のステレオマッチングネットワークを導入し,高速で効率よく,かつスケーラブルな処理を実現する,反復的マルチスケール粗大化(iCFR)フレームワークを提案する。 マッチングの計算コストを削減するために,マルチスケールのワープ機能を用いて,差分残差を推定し,コスト容積の差分探索範囲を最小限に抑える。 最後に,マルチスケールアプローチに固有の精度の損失を回復するために,改良ネットワークを適用した。 我々は、最先端のGANetとAANetのマッチングネットワークを採用することで、iCFRフレームワークをテストする。 その結果は 49$\times$ GANetdeep と 4$\times$ より高速な推論時間となり、エラーは同等である。 私たちがfrsnetと呼んでいる最良のパフォーマンスネットワークは、gtx 1080tiの入力解像度6kまでスケーラブルで、推論時間は1秒以下で、aanet+と同等の精度です。 すべてのリアルタイムステレオメソッドを上回り、KITTIベンチマークで競合精度を達成する。

Despite the remarkable progress of deep learning in stereo matching, there exists a gap in accuracy between real-time models and slower state-of-the-art models which are suitable for practical applications. This paper presents an iterative multi-scale coarse-to-fine refinement (iCFR) framework to bridge this gap by allowing it to adopt any stereo matching network to make it fast, more efficient and scalable while keeping comparable accuracy. To reduce the computational cost of matching, we use multi-scale warped features to estimate disparity residuals and push the disparity search range in the cost volume to a minimum limit. Finally, we apply a refinement network to recover the loss of precision which is inherent in multi-scale approaches. We test our iCFR framework by adopting the matching networks from state-of-the art GANet and AANet. The result is 49$\times$ faster inference time compared to GANetdeep and 4$\times$ less memory consumption, with comparable error. Our best performing network, which we call FRSNet is scalable even up to an input resolution of 6K on a GTX 1080Ti, with inference time still below one second and comparable accuracy to AANet+. It out-performs all real-time stereo methods and achieves competitive accuracy on the KITTI benchmark.
翻訳日:2021-10-26 16:41:47 公開日:2021-10-25
# TPSNet:任意形状シーンテキスト検出のための薄膜スプライン表現

TPSNet: Thin-Plate-Spline Representation for Arbitrary Shape Scene Text Detection ( http://arxiv.org/abs/2110.12826v1 )

ライセンス: Link先を確認
Wei Wang(参考訳) 近年,シーンテキスト検出の研究の焦点は任意の形状のテキストへとシフトし,テキスト表現が根本的な問題となっている。 理想表現はコンパクトで完全で、積分的で、我々の意見ではその後の認識のために再利用可能なものであるべきである。 しかし、以前の表現は1つまたは複数の側面に苦しむ。 TPS変換はシーンテキスト認識において大きな成功を収めている。 これから着想を得て,TPSを任意の形状のテキスト検出のための精巧な表現として用いた。 TPS表現はコンパクトで完全かつ完全であり、予測されたTPSパラメータにより、検出されたテキスト領域を、後続の認識に有用な準水平領域に修正することができる。 キーポイントアノテーションを使わずにTPSトレーニングの監視問題を解決するために,境界セット損失と形状アライメント損失を含む2つの新たな損失を提案する。 いくつかの公開ベンチマークにおける広範囲な評価とアブレーションは,提案手法の有効性と優越性を示している。

The research focus of scene text detection has shifted to arbitrary shape text in recent years, in which text representation is a fundamental problem. An ideal representation should be compact, complete, integral, and reusable for subsequent recognition in our opinion. However, previous representations suffer from one or several aspects. Thin-Plate-Spline (TPS) transformation has achieved great success in scene text recognition. Inspired from this, we reversely think its usage and sophisticatedly take TPS as an exquisite representation for arbitrary shape text detection. The TPS representation is compact, complete and integral, and with the predicted TPS parameters, the detected text region can be rectified to near-horizontal one which is beneficial for subsequent recognition. To solve the supervision problem of TPS training without key point annotations, two novel losses including the boundary set loss and the shape alignment loss are proposed. Extensive evaluation and ablation on several public benchmarks demonstrate the effectiveness and superiority of the proposed method.
翻訳日:2021-10-26 16:41:22 公開日:2021-10-25
# 空間基底フィルタを用いたネットワーク圧縮と高速推論

Network compression and faster inference using spatial basis filters ( http://arxiv.org/abs/2110.12844v1 )

ライセンス: Link先を確認
Roy Miles and Krystian Mikolajczyk(参考訳) 本研究では,空間基底フィルタ(SBF)を用いた畳み込み層の効率的な代替手法を提案する。 SBF層は、深度にわたる畳み込みフィルタの空間的冗長性を利用して、密度の高いカウンター部分の最上端の精度を維持しながら、全体のモデル圧縮を実現する。 SBF-Netsのトレーニングは単純なプルーニング問題としてモデル化されるが、プルーニングチャネルをゼロにするのではなく、非プルーニング機能セットからの安価な変換に置き換えられる。 これらのSBFレイヤの採用を可能にするために、フレキシブルなトレーニングパイプラインと、レイテンシの低いCUDAでの効率的な実装を提供する。 これらのモデルの有効性をさらに実証するため, ベースラインネットワーク上での性能向上につながる半教師付き知識蒸留を適用した。 実験結果から,sbf-netはcifar10,cifar100,tin y-imagenet,ilscrc-20 12において,最先端技術に匹敵する性能,あるいは向上することが示された。

We present an efficient alternative to the convolutional layer through utilising spatial basis filters (SBF). SBF layers exploit the spatial redundancy in the convolutional filters across the depth to achieve overall model compression, while maintaining the top-end accuracy of their dense counter-parts. Training SBF-Nets is modelled as a simple pruning problem, but instead of zeroing out the pruned channels, they are replaced with inexpensive transformations from the set of non-pruned features. To enable an adoption of these SBF layers, we provide a flexible training pipeline and an efficient implementation in CUDA with low latency. To further demonstrate the effective capacity of these models, we apply semi-supervised knowledge distillation that leads to significant performance improvements over the baseline networks. Our experiments show that SBF-Nets are effective and achieve comparable or improved performance to state-of-the-art across CIFAR10, CIFAR100, Tiny-ImageNet, and ILSCRC-2012.
翻訳日:2021-10-26 16:39:44 公開日:2021-10-25
# doctr: 幾何学的乱れと照明補正のための文書画像トランスフォーマー

DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction ( http://arxiv.org/abs/2110.12942v1 )

ライセンス: Link先を確認
Hao Feng, Yuechen Wang, Wengang Zhou, Jiajun Deng, Houqiang Li(参考訳) 本研究では,文書画像の幾何学的問題と照明歪みに対処するため,DocTr(Document Image Transformer)と呼ばれる新しいフレームワークを提案する。 具体的には、DocTrは幾何学的アンワーピング変圧器と照明補正変圧器からなる。 学習したクエリの埋め込みセットを設定することにより、幾何学的アンウォーピング変換器は、文書画像のグローバルコンテキストを自己アテンション機構によりキャプチャし、画素単位の変位解をデコードして幾何学的歪みを補正する。 幾何学的アンワープの後、照明補正変圧器はシェーディングアーティファクトをさらに除去し、視覚的品質とOCR精度を向上させる。 いくつかのデータセットで広範な評価を行い、最先端の手法に対して優れた結果が報告されている。 私たちのDocTrは20.02%のキャラクタエラー率(CER)を実現しています。 さらに、実行時間とパラメータ数において高い効率を示す。 結果はhttps://github.com/f h2019ustc/doctrで確認できる。

In this work, we propose a new framework, called Document Image Transformer (DocTr), to address the issue of geometry and illumination distortion of the document images. Specifically, DocTr consists of a geometric unwarping transformer and an illumination correction transformer. By setting a set of learned query embedding, the geometric unwarping transformer captures the global context of the document image by self-attention mechanism and decodes the pixel-wise displacement solution to correct the geometric distortion. After geometric unwarping, our illumination correction transformer further removes the shading artifacts to improve the visual quality and OCR accuracy. Extensive evaluations are conducted on several datasets, and superior results are reported against the state-of-the-art methods. Remarkably, our DocTr achieves 20.02% Character Error Rate (CER), a 15% absolute improvement over the state-of-the-art methods. Moreover, it also shows high efficiency on running time and parameter count. The results will be available at https://github.com/f h2019ustc/DocTr for further comparison.
翻訳日:2021-10-26 16:38:58 公開日:2021-10-25
# イベントベースオブジェクト追跡のためのロバストモデルによるイベントデータアソシエーション

Event Data Association via Robust Model Fitting for Event-based Object Tracking ( http://arxiv.org/abs/2110.12962v1 )

ライセンス: Link先を確認
Haosheng Chen, Shuyuan Lin, David Suter, Yan Yan, Hanzi Wang(参考訳) バイオインスパイアされた非同期イベントカメラに基づくイベントベースのアプローチは、様々なコンピュータビジョンタスクで有望なパフォーマンスを達成した。 しかし、基本的なイベントデータアソシエーション問題の研究はまだ初期段階にある。 本稿では,新しいイベントデータアソシエーション手法(EDA)を提案し,データアソシエーションの問題に対処する。 提案したEDAは、統一データアソシエーションを実行するために、イベントデータに最も適したイベントトラジェクトリを求める。 EDAでは、まずその情報エントロピーに基づいてイベントデータを非同期に収集する。 次に,収集した事象からモデル仮説を効果的に生成し,対応する事象軌跡を表現する決定論的モデル仮説生成戦略を提案する。 その後,多構造幾何モデルフィッティングにより,生成したモデル仮説から真のモデルを頑健に重み付け,選択する2段階重み付けアルゴリズムを提案する。 また,真のモデルの数を自動的に決定する適応モデル選択手法を提案する。 最後に、選択された真のモデルを用いて、センサノイズや無関係な構造に影響されずにイベントデータを関連付ける。 オブジェクト追跡タスクにおいて提案するEDAの性能を評価する。 実験の結果, 高速, 動きのぼやき, 高ダイナミックレンジ条件などの困難なシナリオにおいて, edaの有効性が示された。

Event-based approaches, which are based on bio-inspired asynchronous event cameras, have achieved promising performance on various computer vision tasks. However, the study of the fundamental event data association problem is still in its infancy. In this paper, we propose a novel Event Data Association approach (called EDA) to explicitly address the data association problem. The proposed EDA seeks for event trajectories that best fit the event data, in order to perform unifying data association. In EDA, we first asynchronously gather the event data, based on its information entropy. Then, we introduce a deterministic model hypothesis generation strategy, which effectively generates model hypotheses from the gathered events, to represent the corresponding event trajectories. After that, we present a two-stage weighting algorithm, which robustly weighs and selects true models from the generated model hypotheses, through multi-structural geometric model fitting. Meanwhile, we also propose an adaptive model selection strategy to automatically determine the number of the true models. Finally, we use the selected true models to associate the event data, without being affected by sensor noise and irrelevant structures. We evaluate the performance of the proposed EDA on the object tracking task. The experimental results show the effectiveness of EDA under challenging scenarios, such as high speed, motion blur, and high dynamic range conditions.
翻訳日:2021-10-26 16:38:38 公開日:2021-10-25
# tapl:注意誘導部分定位による動的部分ベース視覚追跡

TAPL: Dynamic Part-based Visual Tracking via Attention-guided Part Localization ( http://arxiv.org/abs/2110.13027v1 )

ライセンス: Link先を確認
Wei han and Hantao Huang and Xiaoxi Yu(参考訳) ホロスティックオブジェクト表現に基づくトラッカーは、変形や閉塞といった大きな外観変化の下で性能低下に悩まされる。 本研究では,動的部分ベースのトラッカを提案し,対象部分の表現を常に更新して,オブジェクトの出現変化に適応させる。 さらに,対象部位の位置を直接予測し,対象部位の分布による最終境界ボックスを決定するために注意誘導部分位置決めネットワークを設計する。 提案したトラッカーは, VOT2018, OTB100, GOT-10k の様々なベンチマークで有望な結果が得られる。

Holistic object representation-based trackers suffer from performance drop under large appearance change such as deformation and occlusion. In this work, we propose a dynamic part-based tracker and constantly update the target part representation to adapt to object appearance change. Moreover, we design an attention-guided part localization network to directly predict the target part locations, and determine the final bounding box with the distribution of target parts. Our proposed tracker achieves promising results on various benchmarks: VOT2018, OTB100 and GOT-10k
翻訳日:2021-10-26 16:38:17 公開日:2021-10-25
# MVT:3次元物体認識のための多視点視覚変換器

MVT: Multi-view Vision Transformer for 3D Object Recognition ( http://arxiv.org/abs/2110.13083v1 )

ライセンス: Link先を確認
Shuo Chen, Tan Yu, Ping Li(参考訳) 画像認識においてCNNが達成した大きな成功にインスパイアされたビューベース手法は、投影されたビューを3次元オブジェクト理解のためにモデル化し、優れた性能を実現した。 にもかかわらず、マルチビューCNNモデルは異なるビューからのパッチ間の通信をモデル化することができず、3Dオブジェクト認識の有効性を制限している。 画像認識における視覚変換器の最近の成功に触発されて,3次元物体認識のための多視点視覚変換器(MVT)を提案する。 Transformerブロック内の各パッチ機能はグローバルな受信フィールドを持つため、異なるビューからのパッチ間の通信を自然に達成する。 一方、CNNと比べて誘導バイアスはずっと少ない。 有効性と効率の両面から,MVTのグローバルな局所構造を構築した。 ModelNet40 と ModelNet10 の2つの公開ベンチマーク実験では,MVT の競合性能が実証された。

Inspired by the great success achieved by CNN in image recognition, view-based methods applied CNNs to model the projected views for 3D object understanding and achieved excellent performance. Nevertheless, multi-view CNN models cannot model the communications between patches from different views, limiting its effectiveness in 3D object recognition. Inspired by the recent success gained by vision Transformer in image recognition, we propose a Multi-view Vision Transformer (MVT) for 3D object recognition. Since each patch feature in a Transformer block has a global reception field, it naturally achieves communications between patches from different views. Meanwhile, it takes much less inductive bias compared with its CNN counterparts. Considering both effectiveness and efficiency, we develop a global-local structure for our MVT. Our experiments on two public benchmarks, ModelNet40 and ModelNet10, demonstrate the competitive performance of our MVT.
翻訳日:2021-10-26 16:38:09 公開日:2021-10-25
# STransGAN : GANにおけるトランスフォーマーの実証研究

STransGAN: An Empirical Study on Transformer in GANs ( http://arxiv.org/abs/2110.13107v1 )

ライセンス: Link先を確認
Rui Xu, Xiangyu Xu, Kai Chen, Bolei Zhou, Chen Change Loy(参考訳) トランスフォーマーはコンピュータビジョン、特にハイレベルなビジョンタスクで普及する。 しかし、TransformerをGAN(Generative Adversarial Network)フレームワークにデプロイすることは、まだオープンだが難しい問題である。 本稿では,高忠実度画像合成のためのGANにおけるトランスフォーマーの内在特性について,総合的研究を行う。 分析では,画像生成における特徴局所性の重要性を強調する。 まず,地域的注意の効果的な実施方法について検討する。 次に,自己付着層における残留接続の影響を検証し,学習判別器や条件生成器に対する負の影響を低減する新しい方法を提案する。 本研究では,STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANのトランスフォーマーを新たに設計し,非条件画像生成と条件画像生成の両面で競合する結果を得た。 Transformerベースの識別器であるSTrans-Dは、CNNベースの識別器とのギャップを大幅に減らす。

Transformer becomes prevalent in computer vision, especially for high-level vision tasks. However, deploying Transformer in the generative adversarial network (GAN) framework is still an open yet challenging problem. In this paper, we conduct a comprehensive empirical study to investigate the intrinsic properties of Transformer in GAN for high-fidelity image synthesis. Our analysis highlights the importance of feature locality in image generation. We first investigate the effective ways to implement local attention. We then examine the influence of residual connections in self-attention layers and propose a novel way to reduce their negative impacts on learning discriminators and conditional generators. Our study leads to a new design of Transformers in GAN, a convolutional neural network (CNN)-free generator termed as STrans-G, which achieves competitive results in both unconditional and conditional image generations. The Transformer-based discriminator, STrans-D, also significantly reduces its gap against the CNN-based discriminators.
翻訳日:2021-10-26 16:37:54 公開日:2021-10-25
# ビデオ関係検出器における誤差の診断

Diagnosing Errors in Video Relation Detectors ( http://arxiv.org/abs/2110.13110v1 )

ライセンス: Link先を確認
Shuo Chen, Pascal Mettes, Cees G.M. Snoek(参考訳) 映像関係検出は、被験者とオブジェクトを時空間的に局所化する必要があるというコンピュータビジョンにおいて、新しく困難な問題を形成し、両者の相互作用がある場合に限り、述語ラベルを割り当てる必要がある。 近年のビデオ関係検出の進歩にもかかわらず、全体的な性能はいまだに限界であり、この問題を解決する上での鍵となる要素は未だ不明である。 対象検出と行動局在化の文献に設定された例に続いて,現在の映像関連検出手法の誤り診断を深く検討する。 本稿では,検出エラーの原因を分析する診断ツールを提案する。 本ツールでは,ビデオ関係検出に特有なエラータイプを定義して,平均平均精度の1つのスカラー基準を超える現在の手法を評価し,比較する。 さらに,関係長,対象/対象/述語インスタンス数,対象/対象サイズなど,偽陰性解析における性能への影響要因について検討した。 最後に,各エラータイプに対するoracle修正を検討する際のビデオ関連性能への影響について述べる。 2つのビデオ関係のベンチマークでは、現在のアプローチが優れている点と不足点が示され、フィールドにおける最も重要な将来方向を特定できる。 このツールは \url{https://github.com/s hanshuo/DiagnoseVRD} で入手できる。

Video relation detection forms a new and challenging problem in computer vision, where subjects and objects need to be localized spatio-temporally and a predicate label needs to be assigned if and only if there is an interaction between the two. Despite recent progress in video relation detection, overall performance is still marginal and it remains unclear what the key factors are towards solving the problem. Following examples set in the object detection and action localization literature, we perform a deep dive into the error diagnosis of current video relation detection approaches. We introduce a diagnostic tool for analyzing the sources of detection errors. Our tool evaluates and compares current approaches beyond the single scalar metric of mean Average Precision by defining different error types specific to video relation detection, used for false positive analyses. Moreover, we examine different factors of influence on the performance in a false negative analysis, including relation length, number of subject/object/predi cate instances, and subject/object size. Finally, we present the effect on video relation performance when considering an oracle fix for each error type. On two video relation benchmarks, we show where current approaches excel and fall short, allowing us to pinpoint the most important future directions in the field. The tool is available at \url{https://github.com/s hanshuo/DiagnoseVRD}.
翻訳日:2021-10-26 16:36:58 公開日:2021-10-25
# watermarked adversarial テキストの生成

Generating Watermarked Adversarial Texts ( http://arxiv.org/abs/2110.12948v1 )

ライセンス: Link先を確認
Mingjie Li, Hanzhou Wu and Xinpeng Zhang(参考訳) DNNモデルの堅牢性を改善するための優れたソリューションを見つける動機となるDNNの脆弱性を明らかにするために、深層ニューラルネットワーク(DNN)が生成した敵のサンプルを誤分類する可能性があるため、近年は敵のサンプル生成がホットスポットとなっている。 ソーシャルネットワーク上での自然言語の拡張性と高い流動性のため、様々な自然言語に基づく敵対的攻撃アルゴリズムが文献に提案されている。 これらのアルゴリズムは、高いセマンティック品質の逆テキスト例を生成する。 しかし、生成した敵対的テキストの例は悪意的あるいは違法に使用されることがある。 この問題に対処するために,透かし付き逆文例を生成するための一般的なフレームワークを提案する。 与えられたテキストの各単語に対して、候補単語の集合が決定され、集合内のすべての単語が秘密のビットを運ぶか、敵の例の構築を容易にするために使用できる。 単語レベル逆テキスト生成アルゴリズムを適用することにより、透かし付き逆テキスト例を最終的に生成することができる。 実験により,提案手法が生成する逆テキスト例は,先進的なdnnモデルを騙すだけでなく,その所有権を効果的に検証し,逆テキストの出所を追跡する透かしを持つことが示された。 さらに、ウォーターマークは、適用可能性と優位性を示す逆例生成アルゴリズムによって攻撃された後も生き残ることができる。

Adversarial example generation has been a hot spot in recent years because it can cause deep neural networks (DNNs) to misclassify the generated adversarial examples, which reveals the vulnerability of DNNs, motivating us to find good solutions to improve the robustness of DNN models. Due to the extensiveness and high liquidity of natural language over the social networks, various natural language based adversarial attack algorithms have been proposed in the literature. These algorithms generate adversarial text examples with high semantic quality. However, the generated adversarial text examples may be maliciously or illegally used. In order to tackle with this problem, we present a general framework for generating watermarked adversarial text examples. For each word in a given text, a set of candidate words are determined to ensure that all the words in the set can be used to either carry secret bits or facilitate the construction of adversarial example. By applying a word-level adversarial text generation algorithm, the watermarked adversarial text example can be finally generated. Experiments show that the adversarial text examples generated by the proposed method not only successfully fool advanced DNN models, but also carry a watermark that can effectively verify the ownership and trace the source of the adversarial examples. Moreover, the watermark can still survive after attacked with adversarial example generation algorithms, which has shown the applicability and superiority.
翻訳日:2021-10-26 16:36:38 公開日:2021-10-25
# 学習データの置換や補体としての人工テキストの生成

Generating artificial texts as substitution or complement of training data ( http://arxiv.org/abs/2110.13016v1 )

ライセンス: Link先を確認
Vincent Claveau, Antoine Chaffin, Ewa Kijak(参考訳) 人工的なテキストの品質は、トランスの出現によって大幅に向上した。 これらのモデルを使って教師付き学習タスクの学習データを生成するという問題は自然に発生する。 この記事では、この疑問を3つの側面で探求する。 i)人工データは効率的な補体か? (ii)使用できない場合や機密のために配布できない場合は、元のデータを置き換えることができるか? (iii)分類器の説明性を向上させることができるか? 製品レビューにおける感情分析やフェイクニュース検出など,Web関連の分類タスクにおいて,微調整GPT-2モデルを用いて人工的に生成されたデータを用いて異なる実験を行う。 以上の結果から,そのような人工データは一定の拡張で使用できるが,性能を著しく向上させるためには前処理が必要であることがわかった。 このようなデータ拡張の恩恵が最も大きいのは、back-of-wordアプローチである。

The quality of artificially generated texts has considerably improved with the advent of transformers. The question of using these models to generate learning data for supervised learning tasks naturally arises. In this article, this question is explored under 3 aspects: (i) are artificial data an efficient complement? (ii) can they replace the original data when those are not available or cannot be distributed for confidentiality reasons? (iii) can they improve the explainability of classifiers? Different experiments are carried out on Web-related classification tasks -- namely sentiment analysis on product reviews and Fake News detection -- using artificially generated data by fine-tuned GPT-2 models. The results show that such artificial data can be used in a certain extend but require pre-processing to significantly improve performance. We show that bag-of-word approaches benefit the most from such data augmentation.
翻訳日:2021-10-26 16:36:10 公開日:2021-10-25
# (参考訳) オフラインの安全なブリッジングとオンライン強化学習 [全文訳有]

Safely Bridging Offline and Online Reinforcement Learning ( http://arxiv.org/abs/2110.13060v1 )

ライセンス: CC BY 4.0
Wanqiao Xu, Kan Xu, Hamsa Bastani, Osbert Bastani(参考訳) 強化学習を実践する上で重要な課題は、安全に探索することだ。 我々は,保存的政策(現在観測されているすべてのデータから適応的に推定される)を上回って,エピソード探索予算まで,自然安全特性 -- \textit{uniformly} を提案する。 次に、UCB強化学習ポリシーを探索に用いたアルゴリズムを設計するが、高い確率で安全性を確保するために必要に応じてオーバライドする。 我々は, 敗血症治療の課題について検討を行い, 患者毎のベースライン・ポリシーと比較して, 良好な性能を確保しつつ, アルゴリズムが学習できることを実証した。

A key challenge to deploying reinforcement learning in practice is exploring safely. We propose a natural safety property -- \textit{uniformly} outperforming a conservative policy (adaptively estimated from all data observed thus far), up to a per-episode exploration budget. We then design an algorithm that uses a UCB reinforcement learning policy for exploration, but overrides it as needed to ensure safety with high probability. We experimentally validate our results on a sepsis treatment task, demonstrating that our algorithm can learn while ensuring good performance compared to the baseline policy for every patient.
翻訳日:2021-10-26 16:30:44 公開日:2021-10-25
# MUSE:相互情報と自己情報を用いた機能自己蒸留

MUSE: Feature Self-Distillation with Mutual Information and Self-Information ( http://arxiv.org/abs/2110.12606v1 )

ライセンス: Link先を確認
Yu Gong and Ye Yu and Gaurav Mittal and Greg Mori and Mei Chen(参考訳) 本稿では,深層畳み込みニューラルネットワーク(CNN)の特徴間の依存性を導入するための新しい情報理論手法を提案する。 提案手法の中核となる考え方は,CNNの異なる層から抽出した全ての特徴の表現性を,相互情報と自己情報を組み合わせることである。 追加情報と乗算情報という,MUSEの実現の2つのバリエーションを示す。 重要なことは、MUSEが他の特徴不一致関数と比較して、依存性を導入し、知識蒸留フレームワークにおける全ての特徴の表現性を効果的に改善するためのより機能的なプロキシであることを議論し、実証的に示すことである。 MUSEは、多種多様な人気アーキテクチャや、自己蒸留やオンライン蒸留における特徴差機能よりも優れた性能を発揮し、オフライン蒸留の最先端手法と競争的に機能する。 MUSEは明らかに汎用性があり、オブジェクト検出などの画像分類以外のタスクでCNNベースのモデルに容易に拡張できる。

We present a novel information-theoreti c approach to introduce dependency among features of a deep convolutional neural network (CNN). The core idea of our proposed method, called MUSE, is to combine MUtual information and SElf-information to jointly improve the expressivity of all features extracted from different layers in a CNN. We present two variants of the realization of MUSE -- Additive Information and Multiplicative Information. Importantly, we argue and empirically demonstrate that MUSE, compared to other feature discrepancy functions, is a more functional proxy to introduce dependency and effectively improve the expressivity of all features in the knowledge distillation framework. MUSE achieves superior performance over a variety of popular architectures and feature discrepancy functions for self-distillation and online distillation, and performs competitively with the state-of-the-art methods for offline distillation. MUSE is also demonstrably versatile that enables it to be easily extended to CNN-based models on tasks other than image classification such as object detection.
翻訳日:2021-10-26 16:00:55 公開日:2021-10-25
# 2相プライバシー保護によるフェデレーションテスト時間適応顔提示検出

Federated Test-Time Adaptive Face Presentation Attack Detection with Dual-Phase Privacy Preservation ( http://arxiv.org/abs/2110.12613v1 )

ライセンス: Link先を確認
Rui Shao, Bochao Zhang, Pong C. Yuen, Vishal M. Patel(参考訳) 顔提示攻撃検出(fPAD)は、現代の顔認識パイプラインにおいて重要な役割を果たす。 顔提示アタック検出モデルの一般化は,実世界の展開において重要な課題となっている。入力分布の異なる顔画像とspoof攻撃の異なるタイプをモデルで訓練することで,改善が期待できる。 実際、法的およびプライバシー上の問題により、トレーニングデータ(実際の顔画像と偽画像の両方)は、異なるデータソース間で直接共有することはできない。 本稿では、この課題を回避するために、データプライバシを保護しつつ、トレーニングおよびテストフェーズにおけるfPADモデルの一般化能力を向上することを目的とした、二重位相プライバシー保護フレームワークによるフェデレーションテスト時適応顔提示検出を提案する。 トレーニング段階において,提案するフレームワークは,異なるデータソースで利用可能な豊富なfPAD情報を,プライベートデータにアクセスすることなく,モデル更新を集約することで同時に活用するフェデレート学習技術を利用する。 テストフェーズにおいて、テストデータに対するfPADモデル予測のエントロピーを最小化し、トレーニングデータとテストデータのドメインギャップを軽減し、fPADモデルの一般化誤差を低減することにより、テスト時間適応のさらなる向上を図る。 本稿では,提案するフレームワークを評価するための実験環境について紹介し,fPADの手法に関する様々な知見を提供する。

Face presentation attack detection (fPAD) plays a critical role in the modern face recognition pipeline. The generalization ability of face presentation attack detection models to unseen attacks has become a key issue for real-world deployment, which can be improved when models are trained with face images from different input distributions and different types of spoof attacks. In reality, due to legal and privacy issues, training data (both real face images and spoof images) are not allowed to be directly shared between different data sources. In this paper, to circumvent this challenge, we propose a Federated Test-Time Adaptive Face Presentation Attack Detection with Dual-Phase Privacy Preservation framework, with the aim of enhancing the generalization ability of fPAD models in both training and testing phase while preserving data privacy. In the training phase, the proposed framework exploits the federated learning technique, which simultaneously takes advantage of rich fPAD information available at different data sources by aggregating model updates from them without accessing their private data. To further boost the generalization ability, in the testing phase, we explore test-time adaptation by minimizing the entropy of fPAD model prediction on the testing data, which alleviates the domain gap between training and testing data and thus reduces the generalization error of a fPAD model. We introduce the experimental setting to evaluate the proposed framework and carry out extensive experiments to provide various insights about the proposed method for fPAD.
翻訳日:2021-10-26 16:00:39 公開日:2021-10-25
# スペクトルレイアウトによる3次元オブジェクト処理の高速化

Accelerate 3D Object Processing via Spectral Layout ( http://arxiv.org/abs/2110.12621v1 )

ライセンス: Link先を確認
Yongyu Wang, Hang Su, Yue Wang(参考訳) 3次元画像処理はコンピュータビジョンとパターン認識の分野で重要な問題である。 2次元画像処理と比較すると、余剰次元のため計算の困難さとコストがはるかに高い。 そこで本研究では,3dオブジェクトの基本的な情報をスペクトルレイアウトにより2次元空間に埋め込む手法を提案する。 具体的には、3次元ボクセル格子の空間構造を捉える3次元隣接グラフを構築する。 次に、グラフラプラシアンの第2および第3の最小固有値に対応する固有ベクトルを計算し、各ボクセルを2次元直交座標平面内の画素にマッピングするためのスペクトルレイアウトを行う。 提案手法は3Dオブジェクトに対して高品質な2D表現を実現し,3Dオブジェクトの処理に2Dベースの手法を用いることができる。 実験の結果,本手法の有効性と有効性を示した。

3D image processing is an important problem in computer vision and pattern recognition fields. Compared with 2D image processing, its computation difficulty and cost are much higher due to the extra dimension. To fundamentally address this problem, we propose to embed the essential information in a 3D object into 2D space via spectral layout. Specifically, we construct a 3D adjacency graph to capture spatial structure of the 3D voxel grid. Then we calculate the eigenvectors corresponding to the second and third smallest eigenvalues of its graph Laplacian and perform spectral layout to map each voxel into a pixel in 2D Cartesian coordinate plane. The proposed method can achieve high quality 2D representations for 3D objects, which enables to use 2D-based methods to process 3D objects. The experimental results demonstrate the effectiveness and efficiency of our method.
翻訳日:2021-10-26 16:00:13 公開日:2021-10-25
# 超軽量OCRコンペティションレポート

Ultra Light OCR Competition Technical Report ( http://arxiv.org/abs/2110.12623v1 )

ライセンス: Link先を確認
Shuhan Zhang, Yuxin Zou, Tianhe Wang, Yichao Xiong(参考訳) ウルトラライトOCRコンペティション(Ultra Light OCRコンペティション)は、CSIG(China Society of Image and Graphics)とBaiduが共同で開催している中国のシーンテキスト認識コンペティションである。 長文長や大文字など,中国のシーンテキスト認識における共通問題に注目するだけでなく,モデルサイズ制限が10mであることから,モデルスケールと精度のトレードオフのバランスをとる必要がある。 データ、モデル、トレーニングなどの分野での実験から、中国のシーンテキスト認識の汎用的かつ効果的な方法を提案し、testbデータセットの精度0.817で100チーム以上で2位となった。 コードはhttps://aistudio.bai du.com/aistudio/proj ectdetail/2159102で入手できる。

Ultra Light OCR Competition is a Chinese scene text recognition competition jointly organized by CSIG (China Society of Image and Graphics) and Baidu, Inc. In addition to focusing on common problems in Chinese scene text recognition, such as long text length and massive characters, we need to balance the trade-off of model scale and accuracy since the model size limitation in the competition is 10M. From experiments in aspects of data, model, training, etc, we proposed a general and effective method for Chinese scene text recognition, which got us second place among over 100 teams with accuracy 0.817 in TestB dataset. The code is available at https://aistudio.bai du.com/aistudio/proj ectdetail/2159102.
翻訳日:2021-10-26 16:00:00 公開日:2021-10-25
# (参考訳) 回転同変森林分断とドライバ分類 [全文訳有]

Rotation Equivariant Deforestation Segmentation and Driver Classification ( http://arxiv.org/abs/2110.13097v1 )

ライセンス: CC BY 4.0
Joshua Mitton, Roderick Murray-Smith(参考訳) 森林破壊は気候変動に大きく寄与する要因となり、それによって、運転者の分類と森林破壊のセグメンテーションマップの予測の両方が大きな関心を集めている。 本研究では,回転同変畳み込みニューラルネットワークモデルを開発し,ランドサット8衛星画像からドライバを予測し,森林破壊イベントのセグメンテーションマップを生成する。 これにより、ドライバの分類や森林伐採のセグメンテーションマップの予測において従来の手法よりも優れ、分類精度は9%向上し、セグメンテーションマップの精度は7%向上した。 さらに,入力画像の回転下の安定なセグメンテーションマップを予測することにより,森林破壊の予測領域が衛星の回転方向に依存しないことを保証する。

Deforestation has become a significant contributing factor to climate change and, due to this, both classifying the drivers and predicting segmentation maps of deforestation has attracted significant interest. In this work, we develop a rotation equivariant convolutional neural network model to predict the drivers and generate segmentation maps of deforestation events from Landsat 8 satellite images. This outperforms previous methods in classifying the drivers and predicting the segmentation map of deforestation, offering a 9% improvement in classification accuracy and a 7% improvement in segmentation map accuracy. In addition, this method predicts stable segmentation maps under rotation of the input image, which ensures that predicted regions of deforestation are not dependent upon the rotational orientation of the satellite.
翻訳日:2021-10-26 15:58:17 公開日:2021-10-25
# ニューラルリライタブル参加型メディアレンダリング

Neural Relightable Participating Media Rendering ( http://arxiv.org/abs/2110.12993v1 )

ライセンス: Link先を確認
Quan Zheng, Gurprit Singh, Hans-Peter Seidel(参考訳) シーンのニューラルラディアンス場を学習することで、シーンのリアルな視点合成が可能になったが、元の固定照明条件下での合成に限られている。 したがって、リライト、シーン編集、シーン構成など、熱心に望まれるタスクには柔軟性がない。 この問題に対処するため, 放射場から反射率と照明を分離する手法が提案されている。 これらの方法は不透明な表面を持つ固体に対処できるが、媒体は無視される。 また、直接照明または最大1バウンドの間接照明のみを考慮に入れ、高次間接照明を無視してエネルギー損失を被る。 我々は,グローバル照明の完全なシミュレーションにより,参加メディアのニューラル表現を学ぶことを提案する。 我々は、レイトレーシングによる直接照明と球面調和による間接照明を推定する。 我々のアプローチは、長い間接バウンドの計算を避け、エネルギー損失に悩まされない。 複数の場面で行った実験では、最先端の手法に比べて優れた視覚品質と数値性能を達成でき、不透明な表面を持つ固体の処理も一般化できることを示した。

Learning neural radiance fields of a scene has recently allowed realistic novel view synthesis of the scene, but they are limited to synthesize images under the original fixed lighting condition. Therefore, they are not flexible for the eagerly desired tasks like relighting, scene editing and scene composition. To tackle this problem, several recent methods propose to disentangle reflectance and illumination from the radiance field. These methods can cope with solid objects with opaque surfaces but participating media are neglected. Also, they take into account only direct illumination or at most one-bounce indirect illumination, thus suffer from energy loss due to ignoring the high-order indirect illumination. We propose to learn neural representations for participating media with a complete simulation of global illumination. We estimate direct illumination via ray tracing and compute indirect illumination with spherical harmonics. Our approach avoids computing the lengthy indirect bounces and does not suffer from energy loss. Our experiments on multiple scenes show that our approach achieves superior visual quality and numerical performance compared to state-of-the-art methods, and it can generalize to deal with solid objects with opaque surfaces as well.
翻訳日:2021-10-26 15:47:23 公開日:2021-10-25
# CT画像における肺結節検出の偽陽性率を最小化するデュアルスキップ接続

Dual Skip Connections Minimize the False Positive Rate of Lung Nodule Detection in CT images ( http://arxiv.org/abs/2110.13036v1 )

ライセンス: Link先を確認
Jiahua Xu, Philipp Ernst, Tung Lung Liu, Andreas N\"urnberger(参考訳) 肺がんは最も一般的に診断され致命的ながんの1つであり、しばしばCTで偶然に診断される。 肺結節の自動検出は、コンピュータ支援診断の重要な部分であり、正確な結節の位置を迅速かつ正確に特定するための大きな課題と困難に直面している。 本稿では,偽陽性率を最小化し,結節病変の検出感度を最大化することを目的とした,u-net構造におけるデュアルパスネットワークに基づくデュアルスキップ接続アップサンプリング戦略を提案する。 その結果,新しいアップサンプリング方式では,画像あたりの感度が85.3%,通常のアップサンプリング戦略が84.2%,vgg16ベースのfast-r-cnnが81.2%であった。

Pulmonary cancer is one of the most commonly diagnosed and fatal cancers and is often diagnosed by incidental findings on computed tomography. Automated pulmonary nodule detection is an essential part of computer-aided diagnosis, which is still facing great challenges and difficulties to quickly and accurately locate the exact nodules' positions. This paper proposes a dual skip connection upsampling strategy based on Dual Path network in a U-Net structure generating multiscale feature maps, which aims to minimize the ratio of false positives and maximize the sensitivity for lesion detection of nodules. The results show that our new upsampling strategy improves the performance by having 85.3% sensitivity at 4 FROC per image compared to 84.2% for the regular upsampling strategy or 81.2% for VGG16-based Faster-R-CNN.
翻訳日:2021-10-26 15:47:05 公開日:2021-10-25
# リレーショナルチェイン推論の導入による組込み知識グラフマルチホップ質問応答の改善

Improving Embedded Knowledge Graph Multi-hop Question Answering by introducing Relational Chain Reasoning ( http://arxiv.org/abs/2110.12679v1 )

ライセンス: Link先を確認
Weiqiang Jin, Hang Yu, Xi Tao, Ruiping Yin(参考訳) KBQA(Knowledge Base Question Answering)は、トピックエンティティと回答の間の推論を識別することによって、知識ベース(KB)からのユーザ要求に答えることを目的としている。 KBQAの複雑な分岐タスクであるマルチホップKGQAでは、KGに保存されているマルチホップリレーショナルチェーンの推論が正しい解に到達する必要があるが、近年の成功にもかかわらず、既存のマルチホップ複素問題への回答は以下の課題に直面している。 一 明示的関係連鎖順序の無視及び関係型が不使用者質問を反映していることによる業績の悪化 二 部分グラフ検索に基づくアルゴリズムにおいて、近傍の制限が限られているため、構成されたKGに暗黙の関係を考慮できないこと。 マルチホップKGQAにおけるこれらの問題に対処するため,本論文では,自然言語問題に記述された明示的関係鎖と構造化KGに格納された暗黙的関係鎖を同時に利用するリレーショナルチェインベースの埋め込みKGQA(Rce-KGQA)という新しいモデルを提案する。 2つのオープンドメインベンチマークに関する広範囲な実証研究により,wemethod が graftnet,pullnet,emb edkgqa といった最先端のベンチマークを有意に上回っていることが証明された。 包括的アブレーション実験では,マルチホップKGQAタスクに対する本手法の有効性も検証した。 私たちは、私たちのモデルのソースコードをGithubで公開しました。

Knowledge Base Question Answering (KBQA) aims to answer userquestions from a knowledge base (KB) by identifying the reasoningrelations between topic entity and answer. As a complex branchtask of KBQA, multi-hop KGQA requires reasoning over multi-hop relational chains preserved in KG to arrive at the right answer.Despite the successes made in recent years, the existing works onanswering multi-hop complex question face the following challenges: i) suffering from poor performances due to the neglect of explicit relational chain order and its relational types reflected inuser questions; ii) failing to consider implicit relations between thetopic entity and the answer implied in structured KG because oflimited neighborhood size constraints in subgraph retrieval based algorithms. To address these issues in multi-hop KGQA, we proposea novel model in this paper, namely Relational Chain-based Embed-ded KGQA (Rce-KGQA), which simultaneously utilizes the explicitrelational chain described in natural language questions and the implicit relational chain stored in structured KG. Our extensiveempirical study on two open-domain benchmarks proves that ourmethod significantly outperforms the state-of-the-art counterpartslike GraftNet, PullNet and EmbedKGQA. Comprehensive ablation experiments also verify the effectiveness of our method for multi-hop KGQA tasks. We have made our model's source code availableat Github: https://github.com/a lbert-jin/Rce-KGQA.
翻訳日:2021-10-26 15:41:45 公開日:2021-10-25
# (参考訳) AutoMTL: マルチタスク学習自動化のためのプログラミングフレームワーク [全文訳有]

AutoMTL: A Programming Framework for Automated Multi-Task Learning ( http://arxiv.org/abs/2110.13076v1 )

ライセンス: CC BY 4.0
Lijun Zhang, Xiao Liu, Hui Guan(参考訳) マルチタスク学習(MTL)は、一連のタスクを共同で学習する。 多くのコンピュータビジョンタスクの予測精度と一般化性能を改善しつつ、トレーニングや推論時間、ストレージコストの削減に期待できるアプローチである。 しかし、MTLの普及を妨げている大きな障壁は、タスクセットによってコンパクトなマルチタスクモデルを開発するための体系的なサポートがないことである。 本稿では,MTLモデル開発を自動化する最初のプログラミングフレームワークであるAutoMTLを開発することにより,その障壁を取り除くことを目的とする。 automtlは任意のバックボーン畳み込みニューラルネットワークと学習すべきタスクのセットを入力として、高い精度を実現し、メモリフットプリントの少ないマルチタスクモデルを自動的に生成する。 プログラミングフレームワークとして、AutoMTLはMTL対応コンピュータビジョンアプリケーションの開発を容易にし、タスク性能をさらに向上させることができる。 AutoMTLのコードはhttps://github.com/z hanglijun95/AutoMTLで入手できる。

Multi-task learning (MTL) jointly learns a set of tasks. It is a promising approach to reduce the training and inference time and storage costs while improving prediction accuracy and generalization performance for many computer vision tasks. However, a major barrier preventing the widespread adoption of MTL is the lack of systematic support for developing compact multi-task models given a set of tasks. In this paper, we aim to remove the barrier by developing the first programming framework AutoMTL that automates MTL model development. AutoMTL takes as inputs an arbitrary backbone convolutional neural network and a set of tasks to learn, then automatically produce a multi-task model that achieves high accuracy and has small memory footprint simultaneously. As a programming framework, AutoMTL could facilitate the development of MTL-enabled computer vision applications and even further improve task performance. Code of AutoMTL will be available at https://github.com/z hanglijun95/AutoMTL
翻訳日:2021-10-26 15:39:17 公開日:2021-10-25
# オープンセット領域適応のための擬似ラベル標本の段階的選択と拒絶

Progressively Select and Reject Pseudo-labelled Samples for Open-Set Domain Adaptation ( http://arxiv.org/abs/2110.12635v1 )

ライセンス: Link先を確認
Qian Wang, Fanlin Meng, Toby P. Breckon(参考訳) 領域適応は、ラベル付きソースデータとラベルなしターゲットデータを利用して、対象領域の画像分類問題を解決する。 通常、ソースとターゲットドメインは同じクラスのセットを共有します。 特別な場合として、Open-Set Domain Adaptation (OSDA)は、ターゲットドメインには追加のクラスがあるが、ソースドメインには存在しないと仮定する。 このような領域適応問題を解決するため,提案手法は,新しいOSLPPアルゴリズムを用いて,ソース領域とターゲット領域の識別的共通部分空間を学習する。 ソースとターゲットのドメインデータは、学習された共通空間にクラス的に整列される。 オープンセットの分類問題に対処するため, 未知のクラスから検出された場合, 対象のサンプルを擬似ラベル付きクラスとして順次選択し, 異常値の除去を行う。 共通部分空間学習アルゴリズムOSLPPは、ラベル付きソースデータと擬似ラベル付きターゲットデータとを、既知のクラスから同時に調整し、削除されたターゲットデータを既知のクラスから切り離す。 共通部分空間学習と擬似ラベル付きサンプル選択/退避は反復学習フレームワークにおいて互いに促進し、平均HOS87.4%と67.0%のベンチマークデータセットであるOffice-31とOffice-Homeの最先端性能を達成する。

Domain adaptation solves image classification problems in the target domain by taking advantage of the labelled source data and unlabelled target data. Usually, the source and target domains share the same set of classes. As a special case, Open-Set Domain Adaptation (OSDA) assumes there exist additional classes in the target domain but not present in the source domain. To solve such a domain adaptation problem, our proposed method learns discriminative common subspaces for the source and target domains using a novel Open-Set Locality Preserving Projection (OSLPP) algorithm. The source and target domain data are aligned in the learned common spaces class-wisely. To handle the open-set classification problem, our method progressively selects target samples to be pseudo-labelled as known classes and rejects the outliers if they are detected as from unknown classes. The common subspace learning algorithm OSLPP simultaneously aligns the labelled source data and pseudo-labelled target data from known classes and pushes the rejected target data away from the known classes. The common subspace learning and the pseudo-labelled sample selection/rejection facilitate each other in an iterative learning framework and achieves state-of-the-art performance on benchmark datasets Office-31 and Office-Home with the average HOS of 87.4% and 67.0% respectively.
翻訳日:2021-10-26 15:18:47 公開日:2021-10-25
# カーネル密度推定に基づくニューラルネットワーク分類のためのサンプリング

Kernel density estimation-based sampling for neural network classification ( http://arxiv.org/abs/2110.12644v1 )

ライセンス: Link先を確認
Firuz Kamalov, Ashraf Elnagar(参考訳) 不均衡なデータは幅広いシナリオで発生する。 対象変数の歪分布は、機械学習アルゴリズムのバイアスを誘発する。 不均衡なデータと戦う一般的な方法の1つは、再サンプリングを通じてデータを人工的にバランスをとることである。 本稿では,最近提案されたカーネル密度推定(kde)手法の有効性を,ニューラルネットワークの文脈で比較する。 KDEサンプリング手法を2つのベースサンプリング手法と比較し、8つのデータセットと3つのニューラルネットワークアーキテクチャを用いて比較実験を行った。 その結果、KDEサンプリングは8つのデータセットのうち6つで最高の性能が得られることがわかった。 しかし、画像データセットに注意して使用する必要がある。 KDEサンプリングはニューラルネットワークの性能を大幅に向上させることができると結論付けている。

Imbalanced data occurs in a wide range of scenarios. The skewed distribution of the target variable elicits bias in machine learning algorithms. One of the popular methods to combat imbalanced data is to artificially balance the data through resampling. In this paper, we compare the efficacy of a recently proposed kernel density estimation (KDE) sampling technique in the context of artificial neural networks. We benchmark the KDE sampling method against two base sampling techniques and perform comparative experiments using 8 datasets and 3 neural networks architectures. The results show that KDE sampling produces the best performance on 6 out of 8 datasets. However, it must be used with caution on image datasets. We conclude that KDE sampling is capable of significantly improving the performance of neural networks.
翻訳日:2021-10-26 15:18:23 公開日:2021-10-25
# ZerO初期化:ゼロと1しか持たない残留ネットワークの初期化

ZerO Initialization: Initializing Residual Networks with only Zeros and Ones ( http://arxiv.org/abs/2110.12661v1 )

ライセンス: Link先を確認
Jiawei Zhao, Florian Sch\"afer, Anima Anandkumar(参考訳) ディープニューラルネットワークは通常ランダムウェイトで初期化され、トレーニング中に安定した信号伝搬を保証するために適切に選択された初期分散を持つ。 しかし、ばらつきの選択方法にはコンセンサスがなく、特にレイヤーの数が増えるにつれて、これは難しくなります。 本研究では,0と1のみの残差ネットワークを初期化する完全決定論的初期化スキーム 0 で,広く用いられているランダム重み初期化を置き換えた。 数回のスキップ接続とHadamard変換で標準のResNetアーキテクチャを拡張することで、ZerOはゼロから完全にトレーニングを開始することができます。 これには、再現性の改善(異なる実験実行に対するばらつきを減らすことで)や、バッチの正規化なしにネットワークトレーニングを可能にするなど、多くのメリットがある。 驚くべきことに、zeroはimagenetを含む様々な画像分類データセットに対して最先端のパフォーマンスを達成している。

Deep neural networks are usually initialized with random weights, with adequately selected initial variance to ensure stable signal propagation during training. However, there is no consensus on how to select the variance, and this becomes challenging especially as the number of layers grows. In this work, we replace the widely used random weight initialization with a fully deterministic initialization scheme ZerO, which initializes residual networks with only zeros and ones. By augmenting the standard ResNet architectures with a few extra skip connections and Hadamard transforms, ZerO allows us to start the training from zeros and ones entirely. This has many benefits such as improving reproducibility (by reducing the variance over different experimental runs) and allowing network training without batch normalization. Surprisingly, we find that ZerO achieves state-of-the-art performance over various image classification datasets, including ImageNet, which suggests random weights may be unnecessary for modern network initialization.
翻訳日:2021-10-26 15:18:15 公開日:2021-10-25
# 生物多様性の展望:野生生物保護のための機械学習の視点

Seeing biodiversity: perspectives in machine learning for wildlife conservation ( http://arxiv.org/abs/2110.12951v1 )

ライセンス: Link先を確認
Devis Tuia, Benjamin Kellenberger, Sara Beery, Blair R. Costelloe, Silvia Zuffi, Benjamin Risse, Alexander Mathis, Mackenzie W. Mathis, Frank van Langevelde, Tilo Burghardt, Roland Kays, Holger Klinck, Martin Wikelski, Iain D. Couzin, Grant van Horn, Margaret C. Crofoot, Charles V. Stewart, and Tanya Berger-Wolf(参考訳) 動物生態学のデータ取得は、スマートフォン、ドローン、衛星、オーディオレコーダー、バイオログデバイスなどの安価でアクセス可能なセンサーによって急速に加速している。 これらの新しい技術とそれらが生み出すデータは、大規模な環境モニタリングと理解に大きな可能性を秘めているが、現在のデータ処理アプローチによって制限されている。 我々は、機械学習、特に深層学習アプローチが、野生生物種の理解、モニタリング能力、保護を強化するためにこの分析的課題を満たすことができると主張している。 エコロジーワークフローに機械学習を組み込むことで、人口と行動モデルのインプットが改善され、最終的にはハイブリッドモデリングツールが統合され、エコロジカルモデルが機械学習モデルの制約となり、後者がデータ支援の洞察を提供する。 本質的には、新しい機械学習アプローチとエコロジー分野の知識を組み合わせることで、動物生態学者は、人口を確実に推定し、動物行動を研究し、人間と野生生物の衝突を緩和するために、現代のセンサー技術によって生成されるデータの豊富さを活かすことができる。 このアプローチを成功させるためには、機械学習のアプローチの品質を確保し、新しい世代のデータサイエンティストを生態学と保存学で訓練するために、コンピュータ科学と動物生態学のコミュニティ間の緊密な協力と学際的な教育が必要である。

Data acquisition in animal ecology is rapidly accelerating due to inexpensive and accessible sensors such as smartphones, drones, satellites, audio recorders and bio-logging devices. These new technologies and the data they generate hold great potential for large-scale environmental monitoring and understanding, but are limited by current data processing approaches which are inefficient in how they ingest, digest, and distill data into relevant information. We argue that machine learning, and especially deep learning approaches, can meet this analytic challenge to enhance our understanding, monitoring capacity, and conservation of wildlife species. Incorporating machine learning into ecological workflows could improve inputs for population and behavior models and eventually lead to integrated hybrid modeling tools, with ecological models acting as constraints for machine learning models and the latter providing data-supported insights. In essence, by combining new machine learning approaches with ecological domain knowledge, animal ecologists can capitalize on the abundance of data generated by modern sensor technologies in order to reliably estimate population abundances, study animal behavior and mitigate human/wildlife conflicts. To succeed, this approach will require close collaboration and cross-disciplinary education between the computer science and animal ecology communities in order to ensure the quality of machine learning approaches and train a new generation of data scientists in ecology and conservation.
翻訳日:2021-10-26 15:17:56 公開日:2021-10-25
# Logsig-RNN: 堅牢で効率的な骨格に基づく行動認識のための新しいネットワーク

Logsig-RNN: a novel network for robust and efficient skeleton-based action recognition ( http://arxiv.org/abs/2110.13008v1 )

ライセンス: Link先を確認
Shujian Liao, Terry Lyons, Weixin Yang, Kevin Schlegel, Hao Ni(参考訳) 本稿では,ビデオにおける骨格に基づく人間行動認識の課題に寄与する。 鍵となるステップは、時空間スケルトンデータの識別特徴を抽出する汎用ネットワークアーキテクチャを開発することである。 本稿では,ログ署名層とリカレント型ニューラルネットワーク(RNN)を組み合わせた新しいモジュールであるLogsig-RNNを提案する。 前者は、ストリームデータの表現としてシグネチャとログシグネチャの数学的原理に基づく技術で、高いサンプリングレートストリーム、非一様サンプリング、可変長の時系列を管理することができる。 これはリカレント層の拡張として機能し、ニューラルネットワークに便利に接続することができる。 さらに,logsig-rnnモジュールに供給される必須情報を保持しつつ,経路寸法を大幅に削減する2つの経路変換層を提案する。 最後に,SOTAネットワークにおけるRNNモジュールをLogsig-RNNモジュールで置き換えることにより,ChalearnジェスチャデータとNTU RGB+D 120アクションデータの性能を精度とロバスト性の観点から一貫して向上させることを示す。 特に,簡単な経路変換層とLogsig-RNNを組み合わせることで,Chalearn2013ジェスチャデータの最先端精度を実現する。 コードは \url{https://github.com/s teveliao93/gcn_logsi grnn} で入手できる。

This paper contributes to the challenge of skeleton-based human action recognition in videos. The key step is to develop a generic network architecture to extract discriminative features for the spatio-temporal skeleton data. In this paper, we propose a novel module, namely Logsig-RNN, which is the combination of the log-signature layer and recurrent type neural networks (RNNs). The former one comes from the mathematically principled technology of signatures and log-signatures as representations for streamed data, which can manage high sample rate streams, non-uniform sampling and time series of variable length. It serves as an enhancement of the recurrent layer, which can be conveniently plugged into neural networks. Besides we propose two path transformation layers to significantly reduce path dimension while retaining the essential information fed into the Logsig-RNN module. Finally, numerical results demonstrate that replacing the RNN module by the Logsig-RNN module in SOTA networks consistently improves the performance on both Chalearn gesture data and NTU RGB+D 120 action data in terms of accuracy and robustness. In particular, we achieve the state-of-the-art accuracy on Chalearn2013 gesture data by combining simple path transformation layers with the Logsig-RNN. Codes are available at \url{https://github.com/s teveliao93/GCN_Logsi gRNN}.
翻訳日:2021-10-26 15:17:31 公開日:2021-10-25
# 異常検出とクラスインクリメンタル学習のための潜在非感性オートエンコーダ

Latent-Insensitive Autoencoders for Anomaly Detection and Class-Incremental Learning ( http://arxiv.org/abs/2110.13101v1 )

ライセンス: Link先を確認
Muhammad S. Battikh, Artem A. Lenskiy(参考訳) リコンストラクションに基づくアノマリー検出のアプローチは、高いクラス間分散を持つターゲットクラスを持つ複雑なデータセットに適用されると不足する傾向がある。 転送学習で使われる自己学習の考え方と同様に、多くのドメインは、分散サンプルのプロキシとして活用できる、ラベル付きデータセット \textit{ similar} に富んでいる。 本稿では、類似ドメインからのラベルなしデータを負の例として用いて、通常のオートエンコーダの潜在層(ブートネック)を1つのタスクしか再構築できないように形成するLatent-Insensitive Autoencoder(LIS-AE)を提案する。 LIS-AEの基本的な目標は、流通中のサンプルを再構築することであり、これはクラス増分学習の領域に自然に適用できる。 本稿では,クラス毎に異なる潜在層を追加して,クラス増分学習を複数の異常検出タスクとして扱うとともに,クラス増分学習を負の例として,各潜在層を形作る。 我々は,複数の異常検出とクラス増分設定において,異常検出とクラス増分学習の両面において,モデルの精度と柔軟性を示す定量的・質的な分析を行った。

Reconstruction-based approaches to anomaly detection tend to fall short when applied to complex datasets with target classes that possess high inter-class variance. Similar to the idea of self-taught learning used in transfer learning, many domains are rich with \textit{similar} unlabeled datasets that could be leveraged as a proxy for out-of-distribution samples. In this paper we introduce Latent-Insensitive Autoencoder (LIS-AE) where unlabeled data from a similar domain is utilized as negative examples to shape the latent layer (bottleneck) of a regular autoencoder such that it is only capable of reconstructing one task. Since the underlying goal of LIS-AE is to only reconstruct in-distribution samples, this makes it naturally applicable in the domain of class-incremental learning. We treat class-incremental learning as multiple anomaly detection tasks by adding a different latent layer for each class and use other available classes in task as negative examples to shape each latent layer. We test our model in multiple anomaly detection and class-incremental settings presenting quantitative and qualitative analysis showcasing the accuracy and the flexibility of our model for both anomaly detection and class-incremental learning.
翻訳日:2021-10-26 15:17:07 公開日:2021-10-25
# 心血管疾患検出による深達度学習による予期せぬ診断像の検索

Revealing unforeseen diagnostic image features with deep learning by detecting cardiovascular diseases from apical four-chamber ultrasounds ( http://arxiv.org/abs/2110.12915v1 )

ライセンス: Link先を確認
Li-Hsin Cheng, Pablo B.J. Bosch, Rutger F.H. Hofman, Timo B. Brakenhoff, Eline F. Bruggemans, Rob J. van der Geest, Eduard R. Holman(参考訳) 背景。 高ポータブル、ワイヤレス、低コストの超音波デバイスと自動超音波取得技術が台頭し、入力として限られたビューのみを必要とする自動解釈法により、予備的な心血管疾患の診断が容易になった。 本研究では,心尖部四チャンバー(a4c)超音波シネループから左室機能障害(lv)と大動脈弁(av)の弁逆流を自動検出する深層学習(dl)法を考案し,dlモデルに最も関連のある解剖学的構造や時間的枠組みがどのような情報を提供し,疾患分類を可能にするかを検討した。 方法と結果。 心肺機能障害 (n=928), AV閉鎖不全 (n=738), あるいは有意な異常 (n=1,888), の3,554例からA4C超音波を抽出した。 2つの畳み込みニューラルネットワーク(CNN)を個別に訓練し,各疾患の正常症例に対する分類を行った。 lv機能検出モデルの全体的な分類精度は86%であり,avリグルゲーション検出モデルの分類精度は83%であった。 LV心筋と僧帽弁は損傷したLV機能を検出するのに重要であり,開開中は僧帽弁前葉の先端がAV再灌流を検出するのに重要であると考えられた。 結論だ 提案手法は,A4C超音波シネループを用いた3次元CNNによるLV機能障害検出とAV再生の実現可能性を示した。 最近の研究では、dl法は従来の方法と異なる方法で病気を検出するために大きなトレーニングデータを利用することができ、予期せぬ診断画像の特徴が明らかにされる可能性がある。

Background. With the rise of highly portable, wireless, and low-cost ultrasound devices and automatic ultrasound acquisition techniques, an automated interpretation method requiring only a limited set of views as input could make preliminary cardiovascular disease diagnoses more accessible. In this study, we developed a deep learning (DL) method for automated detection of impaired left ventricular (LV) function and aortic valve (AV) regurgitation from apical four-chamber (A4C) ultrasound cineloops and investigated which anatomical structures or temporal frames provided the most relevant information for the DL model to enable disease classification. Methods and Results. A4C ultrasounds were extracted from 3,554 echocardiograms of patients with either impaired LV function (n=928), AV regurgitation (n=738), or no significant abnormalities (n=1,888). Two convolutional neural networks (CNNs) were trained separately to classify the respective disease cases against normal cases. The overall classification accuracy of the impaired LV function detection model was 86%, and that of the AV regurgitation detection model was 83%. Feature importance analyses demonstrated that the LV myocardium and mitral valve were important for detecting impaired LV function, while the tip of the mitral valve anterior leaflet, during opening, was considered important for detecting AV regurgitation. Conclusion. The proposed method demonstrated the feasibility of a 3D CNN approach in detection of impaired LV function and AV regurgitation using A4C ultrasound cineloops. The current research shows that DL methods can exploit large training data to detect diseases in a different way than conventionally agreed upon methods, and potentially reveal unforeseen diagnostic image features.
翻訳日:2021-10-26 15:15:26 公開日:2021-10-25
# DP-XGBoost: 大規模でプライベートな機械学習

DP-XGBoost: Private Machine Learning at Scale ( http://arxiv.org/abs/2110.12770v1 )

ライセンス: Link先を確認
Nicolas Grislain, Joan Gonzalvez(参考訳) 10年前に発表されたビッグデータ革命は、期待された規模で完全には起こらなかったようだ。 これに対する大きな障害の1つは、データ循環の欠如である。 そして、人々や組織が予想以上に共有しなかった多くの理由の1つは、データ共有オペレーションに関連するプライバシーリスクである。 ディファレンシャルプライバシ(dp)を用いた統計クエリを計算するための実用的なシステムには多くの研究がある。 DPでニューラルネットワークをトレーニングするシステムの実践的な実装もあるが、DPの保証を提供するスケーラブルな古典的機械学習(ML)モデルを設計するための取り組みはほとんど行われていない。 本研究では,戦闘試験MLモデルのDPフォークであるXGBoostを記述し,実装する。 当社のアプローチは、所定のプライバシー予算で達成された正確性の観点から、タスクに対する以前の大きなマージンの試行に勝っている。 また、ビッグデータにスケールし、Kubernetes、Dask、Apache Sparkなどの分散環境で実行できる、強化されたツリーの唯一のDP実装でもある。

The big-data revolution announced ten years ago does not seem to have fully happened at the expected scale. One of the main obstacle to this, has been the lack of data circulation. And one of the many reasons people and organizations did not share as much as expected is the privacy risk associated with data sharing operations. There has been many works on practical systems to compute statistical queries with Differential Privacy (DP). There have also been practical implementations of systems to train Neural Networks with DP, but relatively little efforts have been dedicated to designing scalable classical Machine Learning (ML) models providing DP guarantees. In this work we describe and implement a DP fork of a battle tested ML model: XGBoost. Our approach beats by a large margin previous attempts at the task, in terms of accuracy achieved for a given privacy budget. It is also the only DP implementation of boosted trees that scales to big data and can run in distributed environments such as: Kubernetes, Dask or Apache Spark.
翻訳日:2021-10-26 15:13:57 公開日:2021-10-25
# 多目的強化学習のためのゴール対応クロスエントロピー

Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning ( http://arxiv.org/abs/2110.12985v1 )

ライセンス: Link先を確認
Kibeom Kim, Min Whoo Lee, Yoonsung Kim, Je-Hwan Ryu, Minsu Lee, Byoung-Tak Zhang(参考訳) 対象に関する事前知識のないマルチターゲット環境で学習するには,大量のサンプルが必要となるため,一般化が困難になる。 この問題を解決するには、意味理解を通じて目標を判別することが重要である。 本稿では,強化学習と共に自動ラベルされた目標状態を用いて自己教師あり方式で活用できる目標認識クロスエントロピー(gace)損失を提案する。 この損失に基づいて、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。 マルチターゲット環境下での視覚ナビゲーションとロボットアーム操作タスクに関する提案手法を評価し,タスク成功率,サンプル効率,一般化の観点から,GDANが最先端の手法より優れていることを示す。 さらに質的分析により,提案手法はエージェントが与えられた指示を明確に認識し,目標指向行動を促進するのに役立つことを示した。

Learning in a multi-target environment without prior knowledge about the targets requires a large amount of samples and makes generalization difficult. To solve this problem, it is important to be able to discriminate targets through semantic understanding. In this paper, we propose goal-aware cross-entropy (GACE) loss, that can be utilized in a self-supervised way using auto-labeled goal states alongside reinforcement learning. Based on the loss, we then devise goal-discriminative attention networks (GDAN) which utilize the goal-relevant information to focus on the given instruction. We evaluate the proposed methods on visual navigation and robot arm manipulation tasks with multi-target environments and show that GDAN outperforms the state-of-the-art methods in terms of task success ratio, sample efficiency, and generalization. Additionally, qualitative analyses demonstrate that our proposed method can help the agent become aware of and focus on the given instruction clearly, promoting goal-directed behavior.
翻訳日:2021-10-26 15:11:50 公開日:2021-10-25
# 機構設計に適合するレコメンダシステム

Recommender Systems meet Mechanism Design ( http://arxiv.org/abs/2110.12558v1 )

ライセンス: Link先を確認
Yang Cai, Constantinos Daskalakis(参考訳) 機械学習は、構造を持つ高次元分布を学習し表現するための様々なツールを開発した。 近年、マルチイテム機構の設計にも大きな進歩があった。 しかし、オーバーフィッティングと同様に、これらのメカニズムは対象とする前のベイズ系に対して非常に敏感であり、それがほぼ知られている場合に問題となる。 提案手法では,入札者の価値分布をトピックモデルで近似できる多項目機構の設計問題を考察する。 提案手法は,Brustleらによる最近のロバスト化フレームワークを基盤として,多次元先行推定の統計的課題を,優れたメカニズムを設計する作業から切り離し,後者の性能を前者の推定誤差に対して強固化するものである。 このフレームワークの拡張により、話題モデルの表現力を利用して、メカニズム設計問題の効果的な次元性を低減することができる。

Machine learning has developed a variety of tools for learning and representing high-dimensional distributions with structure. Recent years have also seen big advances in designing multi-item mechanisms. Akin to overfitting, however, these mechanisms can be extremely sensitive to the Bayesian prior that they target, which becomes problematic when that prior is only approximately known. We consider a multi-item mechanism design problem where the bidders' value distributions can be approximated by a topic model. Our solution builds on a recent robustification framework by Brustle et al., which disentangles the statistical challenge of estimating a multi-dimensional prior from the task of designing a good mechanism for it, robustifying the performance of the latter against the estimation error of the former. We provide an extension of the framework that allows us to exploit the expressive power of topic models to reduce the effective dimensionality of the mechanism design problem.
翻訳日:2021-10-26 15:09:42 公開日:2021-10-25
# 線形関数近似を用いた確率的最短経路の学習

Learning Stochastic Shortest Path with Linear Function Approximation ( http://arxiv.org/abs/2110.12727v1 )

ライセンス: Link先を確認
Yifei Min and Jiafan He and Tianhao Wang and Quanquan Gu(参考訳) 線形関数近似を用いた強化学習における確率的短経路 (ssp) 問題について検討し, 遷移核は未知モデルの線形混合として表現される。 このようなSSP問題を線形混合SSPと呼ぶ。 線形混合SSPを学習するための新しいアルゴリズムを提案し、これは$\tilde O(d B_{\star}^{1.5}\sqrt{K/c_{\min}})$ regretに達することができる。 ここで、$k$ はエピソード数、$d$ は混合モデルのフィーチャマッピングの次元、$b_{\star}$ は最適なポリシーの期待される累積コスト、$c_{\min}>0$ はコスト関数の下限である。 このアルゴリズムはまた、$c_{\min} = 0$の場合にも適用でき、$\tilde O(K^{2/3})$ regretが保証される。 我々の知る限り、これは線形混合SSPを学習するためのサブ線形後悔保証を持つ最初のアルゴリズムである。 後悔の上限を補うために、上限にほぼ一致する$\omega(d b_{\star} \sqrt{k})$という下限も証明する。

We study the stochastic shortest path (SSP) problem in reinforcement learning with linear function approximation, where the transition kernel is represented as a linear mixture of unknown models. We call this class of SSP problems the linear mixture SSP. We propose a novel algorithm for learning the linear mixture SSP, which can attain a $\tilde O(d B_{\star}^{1.5}\sqrt{K/c_{\min}})$ regret. Here $K$ is the number of episodes, $d$ is the dimension of the feature mapping in the mixture model, $B_{\star}$ bounds the expected cumulative cost of the optimal policy, and $c_{\min}>0$ is the lower bound of the cost function. Our algorithm also applies to the case when $c_{\min} = 0$, where a $\tilde O(K^{2/3})$ regret is guaranteed. To the best of our knowledge, this is the first algorithm with a sublinear regret guarantee for learning linear mixture SSP. In complement to the regret upper bounds, we also prove a lower bound of $\Omega(d B_{\star} \sqrt{K})$, which nearly matches our upper bound.
翻訳日:2021-10-26 15:09:09 公開日:2021-10-25
# 高速勾配非符号法

Fast Gradient Non-sign Methods ( http://arxiv.org/abs/2110.12734v1 )

ライセンス: Link先を確認
Yaya Cheng, Xiaosu Zhu, Qilong Zhang, Lianli Gao, Jingkuan Song(参考訳) 敵攻撃は‘enquote{fooling} DNNsで成功し、その中でも勾配ベースのアルゴリズムが主流となっている。 線型性仮説~\cite{fgsm} に基づき、$\ell_\infty$ 制約の下で、勾配に適用された$sign$ 演算は摂動を生成するのによい選択である。 しかし、そのような操作による副作用は、実際の勾配と摂動の間の方向のバイアスをもたらすため存在する。 言い換えれば、現在の手法は実際の勾配と実際の雑音の間にギャップがあり、バイアスと非効率な攻撃をもたらす。 そこで本研究では,Taylor展開に基づいて理論的にバイアスを解析し,FGNM法($\sign$, \ie, Fast Gradient Non-sign Method)の補正を提案する。 特に、FGNMは一般的なルーチンであり、勾配ベースの攻撃における従来の$sign$演算を無視できる余分な計算コストでシームレスに置き換えることができる。 広範な実験により本手法の有効性が実証された。 具体的には、最大で \textbf{27.5\%} 、平均で \textbf{9.5\%} でそれらを上回る。 匿名コードは、 \url{https://git.io/mm-fg nm} で公開されている。

Adversarial attacks make their success in \enquote{fooling} DNNs and among them, gradient-based algorithms become one of the mainstreams. Based on the linearity hypothesis~\cite{fgsm}, under $\ell_\infty$ constraint, $sign$ operation applied to the gradients is a good choice for generating perturbations. However, the side-effect from such operation exists since it leads to the bias of direction between the real gradients and the perturbations. In other words, current methods contain a gap between real gradients and actual noises, which leads to biased and inefficient attacks. Therefore in this paper, based on the Taylor expansion, the bias is analyzed theoretically and the correction of $\sign$, \ie, Fast Gradient Non-sign Method (FGNM), is further proposed. Notably, FGNM is a general routine, which can seamlessly replace the conventional $sign$ operation in gradient-based attacks with negligible extra computational cost. Extensive experiments demonstrate the effectiveness of our methods. Specifically, ours outperform them by \textbf{27.5\%} at most and \textbf{9.5\%} on average. Our anonymous code is publicly available: \url{https://git.io/mm-fg nm}.
翻訳日:2021-10-26 15:08:02 公開日:2021-10-25
# (参考訳) データクラスタリングにおけるペアワイズ類似性のシフト [全文訳有]

Shift of Pairwise Similarities for Data Clustering ( http://arxiv.org/abs/2110.13103v1 )

ライセンス: CC BY 4.0
Morteza Haghir Chehreghani(参考訳) いくつかのクラスタリング手法(例えば正規化カットと比率カット)は、よりバランスの取れた分割を生成するために、ミンカットコスト関数をクラスタに依存した係数(例えば、クラスタのサイズや程度)で分割する。 代わりに、原価関数にそのような正規化を加えることを検討する。 まず、正則化項がクラスタの正方形の大きさの和である場合を考え、それからペアの類似性の適応正則化に一般化する。 これにより、ペア間の類似性が(適応的に)シフトし、それらのいくつかが否定的になる可能性がある。 次に,この手法の相関クラスタリングへの接続について検討し,高速な理論的収束率を持つ効率的な局所探索最適化アルゴリズムを提案する。 本稿では,いくつかの共通クラスタリング手法におけるペアワイズ類似性の変化について検討し,さらに,異なるデータセットに対する広範な実験により,提案手法の優れた性能を示す。

Several clustering methods (e.g., Normalized Cut and Ratio Cut) divide the Min Cut cost function by a cluster-dependent factor (e.g., the size or the degree of the clusters), in order to yield a more balanced partitioning. We, instead, investigate adding such regularizations to the original cost function. We first consider the case where the regularization term is the sum of the squared size of the clusters, and then generalize it to adaptive regularization of the pairwise similarities. This leads to shifting (adaptively) the pairwise similarities which might make some of them negative. We then study the connection of this method to Correlation Clustering and then propose an efficient local search optimization algorithm with fast theoretical convergence rate to solve the new clustering problem. In the following, we investigate the shift of pairwise similarities on some common clustering methods, and finally, we demonstrate the superior performance of the method by extensive experiments on different datasets.
翻訳日:2021-10-26 15:07:11 公開日:2021-10-25
# 覚えるべきことの学習--本質的な動機を用いた部分観察型強化学習における有用記憶の形成

Learning What to Memorize: Using Intrinsic Motivation to Form Useful Memory in Partially Observable Reinforcement Learning ( http://arxiv.org/abs/2110.12810v1 )

ライセンス: Link先を確認
Alper Demir(参考訳) 強化学習は、長期的な依存関係を持つ部分観測環境において、重要な課題に直面している。 曖昧な環境で学ぶためには、エージェントは以前の認識をメモリに保持する必要がある。 以前のメモリベースのアプローチでは、固定されたメソッドを使用して、メモリに何を保持するかを決定する。 本研究では,エージェントにメモリ交換動作を行うことで,エージェントにメモリの制御を与えるという考え方に従う。 この学習メカニズムは、エージェントが環境における状態を曖昧にするのに役立つ希少な観察を記憶する本質的な動機によって支えられている。 本手法は, 長期依存のある部分可観測タスクを実験し, 解析し, 他のメモリベース手法と比較した。

Reinforcement Learning faces an important challenge in partial observable environments that has long-term dependencies. In order to learn in an ambiguous environment, an agent has to keep previous perceptions in a memory. Earlier memory based approaches use a fixed method to determine what to keep in the memory, which limits them to certain problems. In this study, we follow the idea of giving the control of the memory to the agent by allowing it to have memory-changing actions. This learning mechanism is supported by an intrinsic motivation to memorize rare observations that can help the agent to disambiguate its state in the environment. Our approach is experimented and analyzed on several partial observable tasks with long-term dependencies and compared with other memory based methods.
翻訳日:2021-10-26 14:45:36 公開日:2021-10-25
# KL差分データに対するFast Rank-1 NMF

Fast Rank-1 NMF for Missing Data with KL Divergence ( http://arxiv.org/abs/2110.12595v1 )

ライセンス: Link先を確認
Kazu Ghalamkari, Mahito Sugiyama(参考訳) 入力行列から再構成された rank-1 行列への kl の発散を最小化する a1gm と呼ばれる欠落データに対する rank-1 非負行列因子分解 (nmf) の高速非勾配法を提案する。 本手法は,NMF の多種多元行列分解法 (NMMF) の最適ランク1非負行列分解法 (NMMF) の解析的閉形式を新たに発見したことに基づく。 NMMF は、不足値の位置が一定の条件を満たす場合、NMF を正確に解き、A1GM は与えられた行列を NMMF に対する解析解を適用することができるように変換する。 A1GMは競合する再構成誤差を持つ勾配法よりも効率的であることを示す。

We propose a fast non-gradient based method of rank-1 non-negative matrix factorization (NMF) for missing data, called A1GM, that minimizes the KL divergence from an input matrix to the reconstructed rank-1 matrix. Our method is based on our new finding of an analytical closed-formula of the best rank-1 non-negative multiple matrix factorization (NMMF), a variety of NMF. NMMF is known to exactly solve NMF for missing data if positions of missing values satisfy a certain condition, and A1GM transforms a given matrix so that the analytical solution to NMMF can be applied. We empirically show that A1GM is more efficient than a gradient method with competitive reconstruction errors.
翻訳日:2021-10-26 14:42:23 公開日:2021-10-25
# 敵対的腐敗を伴う線形文脈的バンディット

Linear Contextual Bandits with Adversarial Corruptions ( http://arxiv.org/abs/2110.12615v1 )

ライセンス: Link先を確認
Heyang Zhao and Dongruo Zhou and Quanquan Gu(参考訳) 各ラウンドにおける最大の報酬変更の合計によって測定された損失レベル$C$までの報酬を汚すことができる敵によって、プレイヤーと潜在的に無限の判定セットとの相互作用が汚染されるような、敵の汚職の存在下での線形文脈的包帯問題について検討する。 本研究では, 逆汚染レベル$c$に適応した分散認識アルゴリズムを提案する。 鍵となるアルゴリズム設計は、(1)観測データの多レベル分割スキーム、(2)腐敗のレベルに適応した信頼セットのカスケード、(3)低分散報酬を活用可能な分散認識信頼セット構成を含む。 さらに、提案アルゴリズムの後悔は$\tilde{O}(C^2d\sqrt{\sum_{t = 1}^T \sigma_t^2} + C^2R\sqrt{dT})$であり、$d$は文脈ベクトルの次元、$T$はラウンドの数、$R$はノイズの範囲、$\sigma_t^2,t=1\ldots,T$は即時報酬の分散であることを示す。 また,提案アルゴリズムはインスタンス依存であり,より実用的なインスタンスの性能向上に繋がる,ギャップ依存の後悔を証明した。 我々の知る限りでは、このアルゴリズムは文脈的盗賊のための初めての分散対応汚職処理アルゴリズムである。 合成データの実験は我々の理論を裏付ける。

We study the linear contextual bandit problem in the presence of adversarial corruption, where the interaction between the player and a possibly infinite decision set is contaminated by an adversary that can corrupt the reward up to a corruption level $C$ measured by the sum of the largest alteration on rewards in each round. We present a variance-aware algorithm that is adaptive to the level of adversarial contamination $C$. The key algorithmic design includes (1) a multi-level partition scheme of the observed data, (2) a cascade of confidence sets that are adaptive to the level of the corruption, and (3) a variance-aware confidence set construction that can take advantage of low-variance reward. We further prove that the regret of the proposed algorithm is $\tilde{O}(C^2d\sqrt{\sum_{t = 1}^T \sigma_t^2} + C^2R\sqrt{dT})$, where $d$ is the dimension of context vectors, $T$ is the number of rounds, $R$ is the range of noise and $\sigma_t^2,t=1\ldots,T$ are the variances of instantaneous reward. We also prove a gap-dependent regret bound for the proposed algorithm, which is instance-dependent and thus leads to better performance on good practical instances. To the best of our knowledge, this is the first variance-aware corruption-robust algorithm for contextual bandits. Experiments on synthetic data corroborate our theory.
翻訳日:2021-10-26 14:42:07 公開日:2021-10-25
# 連続学習のための混合変量実験

Mixture-of-Variation al-Experts for Continual Learning ( http://arxiv.org/abs/2110.12667v1 )

ライセンス: Link先を確認
Heinke Hihn and Daniel A. Braun(参考訳) 機械学習の重大な欠点の1つは、獲得した知識を忘れずに、新しい問題を解決するモデルの能力不足である。 この問題をよりよく理解するために、連続学習は、一連のタスクによって生成されたサンプルを逐次観察する学習プロトコルを体系的に研究する。 まず,学習と学習のトレードオフを容易にする最適性原理を提案する。 本稿では,この原理を有界有理性情報理論の定式化から導き,他の連続学習手法との関係を示す。 第二に,この原則に基づき,新しいタスクへの知識の有益な伝達を可能にしつつ,忘れを緩和する「mixed-of-variational -experts(move)」と呼ばれる,連続学習のためのニューラルネットワーク層を提案する。 MNISTおよびCIFAR10データセットの変種に関する実験は、最先端のアプローチと比較してMoVE層の競合性能を示す。

One significant shortcoming of machine learning is the poor ability of models to solve new problems quicker and without forgetting acquired knowledge. To better understand this issue, continual learning has emerged to systematically investigate learning protocols where the model sequentially observes samples generated by a series of tasks. First, we propose an optimality principle that facilitates a trade-off between learning and forgetting. We derive this principle from an information-theoreti c formulation of bounded rationality and show its connections to other continual learning methods. Second, based on this principle, we propose a neural network layer for continual learning, called Mixture-of-Variation al-Experts (MoVE), that alleviates forgetting while enabling the beneficial transfer of knowledge to new tasks. Our experiments on variants of the MNIST and CIFAR10 datasets demonstrate the competitive performance of MoVE layers when compared to state-of-the-art approaches.
翻訳日:2021-10-26 14:41:33 公開日:2021-10-25
# テンディング・トゥ・ゼロ・スケールパラメータを用いた最大コレントロピー基準回帰モデル

Maximum Correntropy Criterion Regression models with tending-to-zero scale parameters ( http://arxiv.org/abs/2110.12751v1 )

ライセンス: Link先を確認
Ying Jing, Lianqiang Yang(参考訳) 最大コレントロピー基準回帰(MCCR)モデルは、スケールパラメータが固定値を取るか無限大に進むとき、統計的学習の枠組みの中でよく研究されている。 本稿では,MCCRモデルと傾向-ゼロスケールパラメータについて検討する。 mccrモデルの最適学習速度は、サンプルサイズ$n$が無限大になると漸近的な意味で${\mathcal{o}}(n^{-1})$であることが判明した。 有限サンプルの場合, MCCR, Huber, および最小2乗回帰モデルのロバスト性に関する性能を比較する。 実データに対するこれら3つの方法の応用も表示される。

Maximum correntropy criterion regression (MCCR) models have been well studied within the frame of statistical learning when the scale parameters take fixed values or go to infinity. This paper studies the MCCR models with tending-to-zero scale parameters. It is revealed that the optimal learning rate of MCCR models is ${\mathcal{O}}(n^{-1})$ in the asymptotic sense when the sample size $n$ goes to infinity. In the case of finite samples, the performances on robustness of MCCR, Huber and the least square regression models are compared. The applications of these three methods on real data are also displayed.
翻訳日:2021-10-26 14:41:18 公開日:2021-10-25
# 緩慢な非定常バンディットについて

On Slowly-varying Non-stationary Bandits ( http://arxiv.org/abs/2110.12916v1 )

ライセンス: Link先を確認
Ramakrishnan Krishnamurthy, Aditya Gopalan(参考訳) 緩やかに変化する特性を有する非定常バンディットにおける動的後悔の最小化を検討する。 すなわち、アームの報酬は時間とともに確率的かつ独立であると仮定するが、任意の2つの連続するタイムステップにおける任意のアームの報酬の絶対差は、ドリフト極限$\delta > 0$である。 過去に十分な注意を払わなかったこの設定に対しては、よく知られた逐次除去アルゴリズムを非定常帯域設定に自然に拡張する新しいアルゴリズムを提案する。 我々は、ゆっくりと変化する非定常帯域に対する最初のインスタンス依存後悔上限を確立する。 この分析は、予想される腕の報酬差に依存する検出可能なギャッププロファイルとして、インスタンスの新たな特徴に依存している。 また、この問題に対する最初のミニマックス後悔の最小境界を提供し、アルゴリズムが本質的にミニマックス最適であることを示す。 また、この下界は、より一般的な総変量予算のバンディット問題と一致し、一見簡単な以前の問題は、ミニマックス感覚のより一般的な後者問題と同程度に困難であることを示す。 我々は実験的なイラストで理論結果を補完する。

We consider minimisation of dynamic regret in non-stationary bandits with a slowly varying property. Namely, we assume that arms' rewards are stochastic and independent over time, but that the absolute difference between the expected rewards of any arm at any two consecutive time-steps is at most a drift limit $\delta > 0$. For this setting that has not received enough attention in the past, we give a new algorithm which extends naturally the well-known Successive Elimination algorithm to the non-stationary bandit setting. We establish the first instance-dependent regret upper bound for slowly varying non-stationary bandits. The analysis in turn relies on a novel characterization of the instance as a detectable gap profile that depends on the expected arm reward differences. We also provide the first minimax regret lower bound for this problem, enabling us to show that our algorithm is essentially minimax optimal. Also, this lower bound we obtain matches that of the more general total variation-budgeted bandits problem, establishing that the seemingly easier former problem is at least as hard as the more general latter problem in the minimax sense. We complement our theoretical results with experimental illustrations.
翻訳日:2021-10-26 14:41:07 公開日:2021-10-25
# 勾配に基づく擬似多形分離

Gradient-based Quadratic Multiform Separation ( http://arxiv.org/abs/2110.13006v1 )

ライセンス: Link先を確認
Wen-Teng Chang(参考訳) 教師付き学習概念としての分類は、機械学習において重要なコンテンツである。 データのセットをクラスに分類することを目的としている。 現在、k-アネレスト隣人、ランダムフォレスト、サポートベクターマシンなどの一般的な分類方法がいくつかある。 それぞれに独自の長所と短所があり、あらゆる種類の問題に対して無敵ではない。 本稿では,Michael Fan et al. (2019) が最近提案した分類法である Quadratic Multiform separation (QMS) に焦点を当てる。 その新しい概念、リッチな数学的構造、および損失関数の革新的な定義は、既存の分類法とは分離した。 QMSにインスパイアされた我々は、QMS固有の損失関数を最小限に抑える分類器を得るために勾配に基づく最適化手法Adamを提案する。 さらに,ハイパーパラメータとアキュラティシーの関係を探究し,モデルチューニングに関する提案を行う。 実験の結果,QMSは精度の点で,ほとんどの分類法に匹敵する性能を示した。 優れたパフォーマンスは、大規模な機械学習コンペで優勝した勾配向上アルゴリズムにほぼ匹敵する。

Classification as a supervised learning concept is an important content in machine learning. It aims at categorizing a set of data into classes. There are several commonly-used classification methods nowadays such as k-nearest neighbors, random forest, and support vector machine. Each of them has its own pros and cons, and none of them is invincible for all kinds of problems. In this thesis, we focus on Quadratic Multiform Separation (QMS), a classification method recently proposed by Michael Fan et al. (2019). Its fresh concept, rich mathematical structure, and innovative definition of loss function set it apart from the existing classification methods. Inspired by QMS, we propose utilizing a gradient-based optimization method, Adam, to obtain a classifier that minimizes the QMS-specific loss function. In addition, we provide suggestions regarding model tuning through explorations of the relationships between hyperparameters and accuracies. Our empirical result shows that QMS performs as good as most classification methods in terms of accuracy. Its superior performance almost comparable to those of gradient boosting algorithms that win massive machine learning competitions.
翻訳日:2021-10-26 14:39:40 公開日:2021-10-25
# 信頼すべきモデル:連続制御タスクの強化学習アルゴリズムの性能に及ぼすモデルの影響を評価する

Which Model To Trust: Assessing the Influence of Models on the Performance of Reinforcement Learning Algorithms for Continuous Control Tasks ( http://arxiv.org/abs/2110.13079v1 )

ライセンス: Link先を確認
Giacomo Arcieri, David W\"olfle, Eleni Chatzi(参考訳) 数トライアルで強化学習(RL)問題を解決するアルゴリズムの必要性は、モデルベースのRL手法の出現を動機付けている。 近年,モデルベースアルゴリズムの性能は劇的に向上している。 しかし、アルゴリズムの改善やモデルの改善による最近の進歩の程度は明らかになっていない。 モデルベースのアプローチを適用する場合、異なるモデリングオプションが選択できるが、異なるモデルの識別特性と特定の強みは明確ではない。 この研究の主な貢献は、RLアルゴリズムの性能に対するモデルの影響を正確に評価することにある。 モデル比較を目的としたモデルセットが一般的である。 ニューラルネットワーク(NN)、NNのアンサンブル、ベイジアンNN(BNN)の2つの異なる近似、すなわちコンクリートドロップアウトNNとアンコレッドエンセブリング(Anchored Ensembling)、ガウスアンプロセス(GP)などがある。 モデルの比較は一連の連続制御ベンチマークタスクで評価される。 その結果,モデルの性能に有意な差があることが判明した。 コンクリート投棄NNは、持続的に優れた性能を報告している。 これらの違いをモデラーの利益のために要約し、モデルの選択が各特定のアプリケーションに必要な標準に合わせて調整されていることを示唆する。

The need for algorithms able to solve Reinforcement Learning (RL) problems with few trials has motivated the advent of model-based RL methods. The reported performance of model-based algorithms has dramatically increased within recent years. However, it is not clear how much of the recent progress is due to improved algorithms or due to improved models. While different modeling options are available to choose from when applying a model-based approach, the distinguishing traits and particular strengths of different models are not clear. The main contribution of this work lies precisely in assessing the model influence on the performance of RL algorithms. A set of commonly adopted models is established for the purpose of model comparison. These include Neural Networks (NNs), ensembles of NNs, two different approximations of Bayesian NNs (BNNs), that is, the Concrete Dropout NN and the Anchored Ensembling, and Gaussian Processes (GPs). The model comparison is evaluated on a suite of continuous control benchmarking tasks. Our results reveal that significant differences in model performance do exist. The Concrete Dropout NN reports persistently superior performance. We summarize these differences for the benefit of the modeler and suggest that the model choice is tailored to the standards required by each specific application.
翻訳日:2021-10-26 14:39:24 公開日:2021-10-25
# (参考訳) 生成対話による個人認証 [全文訳有]

Persona Authentication through Generative Dialogue ( http://arxiv.org/abs/2110.12949v1 )

ライセンス: CC BY 4.0
Fengyi Tang, Lifan Zeng, Fei Wang, Jiayu Zhou(参考訳) 本稿では,ペルソナモデルの整合性を検証するための会話ポリシーの学習という,emph{persona authentication}の問題を定義し,検討する。 学習目標を提案し,この目的の下で訓練された局所密度推定器がペルソナ情報と対話軌道の相互情報を最大化することを示す。 提案した目的に基づき,マルチターン会話を通じて,パーソナライズされた質問を適応的に出力し,相手の身元を明らかにする認証モデルを学習する手法を開発した。 実験により,本手法は,未確認のペルソナプロファイルに一般化する有効な質問列を検出する。

In this paper we define and investigate the problem of \emph{persona authentication}: learning a conversational policy to verify the consistency of persona models. We propose a learning objective and prove (under some mild assumptions) that local density estimators trained under this objective maximize the mutual information between persona information and dialog trajectory. Based on the proposed objective, we develop a method of learning an authentication model that adaptively outputs personalized questions to reveal the underlying persona of its partner throughout the course of multi-turn conversation. Experiments show that our authentication method discovers effective question sequences that generalize to unseen persona profiles.
翻訳日:2021-10-26 14:35:42 公開日:2021-10-25
# Myelin: 極端なディープラーニングのための非同期メッセージ駆動並列フレームワーク

Myelin: An asynchronous, message-driven parallel framework for extreme-scale deep learning ( http://arxiv.org/abs/2110.13005v1 )

ライセンス: Link先を確認
Siddharth Singh, Abhinav Bhatele(参考訳) ここ数年、最先端のニューラルネットワークをトレーニングするためのメモリ要件は、現代のハードウェアアクセラレーターのDRAM能力を大きく超えてきた。 これにより、大規模なGPUベースのクラスタ上でこれらのニューラルネットワークを並列にトレーニングする効率的なアルゴリズムの開発が必要になった。 現代のgpuでは計算コストは比較的安価であるため、並列トレーニングアルゴリズムにおける極めて効率的な通信の設計と実装は、最大性能の抽出に不可欠である。 本稿では、各gpu上でのニューラルネットワーク操作をスケジュールするために、非同期およびメッセージ駆動実行を利用する並列ディープラーニングフレームワークmyelinを提案する。 トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、MyelinはGPUメモリ使用量を4倍削減することができる。 これにより、GPUあたりのパラメータ数を4倍に増やすことができ、通信量と性能を13%以上向上させることができる。 48--384 NVIDIA Tesla V100 GPU上で12-100億のパラメータを持つ大きなトランスフォーマーモデルに対してテストすると、Myelinは理論ピークの49.4-54.78%のGPU当たりのスループットを達成し、最先端と比較して22-37日(15--25%のスピードアップ)のトレーニング時間を短縮する。

In the last few years, the memory requirements to train state-of-the-art neural networks have far exceeded the DRAM capacities of modern hardware accelerators. This has necessitated the development of efficient algorithms to train these neural networks in parallel on large-scale GPU-based clusters. Since computation is relatively inexpensive on modern GPUs, designing and implementing extremely efficient communication in these parallel training algorithms is critical for extracting the maximum performance. This paper presents Myelin, a parallel deep learning framework that exploits asynchrony and message-driven execution to schedule neural network operations on each GPU, thereby reducing GPU idle time and maximizing hardware efficiency. By using the CPU memory as a scratch space for offloading data periodically during training, Myelin is able to reduce GPU memory consumption by four times. This allows us to increase the number of parameters per GPU by four times, thus reducing the amount of communication and increasing performance by over 13%. When tested against large transformer models with 12--100 billion parameters on 48--384 NVIDIA Tesla V100 GPUs, Myelin achieves a per-GPU throughput of 49.4--54.78% of theoretical peak and reduces the training time by 22-37 days (15--25% speedup) as compared to the state-of-the-art.
翻訳日:2021-10-26 14:15:56 公開日:2021-10-25
# Q-Learningはアドバイスで改善できるか?

Can Q-Learning be Improved with Advice? ( http://arxiv.org/abs/2110.13052v1 )

ライセンス: Link先を確認
Noah Golowich, Ankur Moitra(参考訳) 過去数年間、理論強化学習(RL)が急速に進歩したにもかかわらず、既知の保証のほとんどは本質的に最悪のケースであり、与えられたRL問題に先立って知られていた構造を活用できない。 本稿では,マルコフ決定過程(mdps)のオンライン学習における後悔に対する最悪の下限が,mdpに関する情報が最適な$q$-value関数に関する予測の形でアルゴリズムに与えられれば回避できるかどうかという問題に対処する。 最適な$q$-値関数に関する予測が蒸留と呼ばれる合理的な弱条件を満たすと、状態-作用ペアのセットを、予測が著しく不正確である状態-作用ペアのセットに置き換えることで、後悔の境界を改善することができることを示す。 この改善は、均一な後悔境界とギャップベースの両方に当てはまる。 さらに、任意の予測(蒸留でないものでさえも)を与えられたときのサブ線形後悔を実現するアルゴリズムにより、この特性を達成することができる。 私たちの研究は、キャッシュやスケジューリングといった単純なオンライン問題に焦点を当てた予測アルゴリズムに関する最近の作業から、強化学習のより複雑で一般的な問題へと拡張しています。

Despite rapid progress in theoretical reinforcement learning (RL) over the last few years, most of the known guarantees are worst-case in nature, failing to take advantage of structure that may be known a priori about a given RL problem at hand. In this paper we address the question of whether worst-case lower bounds for regret in online learning of Markov decision processes (MDPs) can be circumvented when information about the MDP, in the form of predictions about its optimal $Q$-value function, is given to the algorithm. We show that when the predictions about the optimal $Q$-value function satisfy a reasonably weak condition we call distillation, then we can improve regret bounds by replacing the set of state-action pairs with the set of state-action pairs on which the predictions are grossly inaccurate. This improvement holds for both uniform regret bounds and gap-based ones. Further, we are able to achieve this property with an algorithm that achieves sublinear regret when given arbitrary predictions (i.e., even those which are not a distillation). Our work extends a recent line of work on algorithms with predictions, which has typically focused on simple online problems such as caching and scheduling, to the more complex and general problem of reinforcement learning.
翻訳日:2021-10-26 14:15:14 公開日:2021-10-25
# TODSum: 状態追跡によるタスク指向対話要約

TODSum: Task-Oriented Dialogue Summarization with State Tracking ( http://arxiv.org/abs/2110.12680v1 )

ライセンス: Link先を確認
Lulu Zhao, Fujia Zheng, Keqing He, Weihao Zeng, Yuejie Lei, Huixing Jiang, Wei Wu, Weiran Xu, Jun Guo, Fanyu Meng(参考訳) 従来の対話要約データセットは主にオープンドメインのchitchatダイアログに焦点を当てていたが、広く使われているタスク指向ダイアログの要約データセットはまだ検討されていない。 このようなタスク指向の対話を自動的に要約することは、ビジネスの収集とレビューがサービスを改善するのに役立つ。 さらに、従来のデータセットは高いROUGEスコアを持つ優れた要約を生成するためにより注意を払うが、対話の構造情報をほとんど理解せず、要約の事実性を無視する。 本稿では,公開タスク指向の対話要約データセットであるtodsumについて紹介する。 既存の作業と比較すると、TODSumは深刻な分散情報問題に悩まされており、厳密な事実整合性を必要とするため、最近の対話要約モデルを直接適用することは困難である。 そこで我々は,生成した要約の忠実度を高めるために,TODSumのための対話状態知識を導入する。 会話内容の理解を深めることで、要約モデルが簡潔で一貫性のある要約を生成することを期待する。 一方,TODSumの総合ベンチマークを構築し,対話状態情報と対話履歴を統合するための状態認識型構造化対話要約モデルを提案する。 実験と質的分析により,対話構造指導の有効性が証明された。 最後に,TODSumの現状と今後の開発方向性について論じる。

Previous dialogue summarization datasets mainly focus on open-domain chitchat dialogues, while summarization datasets for the broadly used task-oriented dialogue haven't been explored yet. Automatically summarizing such task-oriented dialogues can help a business collect and review needs to improve the service. Besides, previous datasets pay more attention to generate good summaries with higher ROUGE scores, but they hardly understand the structured information of dialogues and ignore the factuality of summaries. In this paper, we introduce a large-scale public Task-Oriented Dialogue Summarization dataset, TODSum, which aims to summarize the key points of the agent completing certain tasks with the user. Compared to existing work, TODSum suffers from severe scattered information issues and requires strict factual consistency, which makes it hard to directly apply recent dialogue summarization models. Therefore, we introduce additional dialogue state knowledge for TODSum to enhance the faithfulness of generated summaries. We hope a better understanding of conversational content helps summarization models generate concise and coherent summaries. Meanwhile, we establish a comprehensive benchmark for TODSum and propose a state-aware structured dialogue summarization model to integrate dialogue state information and dialogue history. Exhaustive experiments and qualitative analysis prove the effectiveness of dialogue structure guidance. Finally, we discuss the current issues of TODSum and potential development directions for future work.
翻訳日:2021-10-26 14:14:53 公開日:2021-10-25
# 復元からの復元:シングルイメージインペインティング

Restore from Restored: Single-image Inpainting ( http://arxiv.org/abs/2110.12822v1 )

ライセンス: Link先を確認
Eunhye Lee, Jeongmu Kim, Jisu Kim, Tae Hyun Kim(参考訳) 近年のイメージインペインティング手法は,大規模なトレーニングデータセットから得られる外部情報を探索する深層学習の力によって,有望な結果を示している。 しかし、最先端のインペインティングネットワークの多くは、テスト時に与えられた入力画像で利用可能な内部情報を活用できない。 この問題を緩和するために, 地中目標画像を用いることなく, 完全に事前学習された塗装網のパラメータを適応できる, 新規で効率的な自己教師型微調整アルゴリズムを提案する。 入力画像中の既存の自己相似パッチ(例えば、自己例パッチ)をネットワークアーキテクチャを変更することなく利用することにより、事前学習した最先端の塗装ネットワークのパラメータを更新し、大きなマージンで塗装品質を向上する。 定性的かつ定量的な実験結果は,提案アルゴリズムの優位性を証明し,公開ベンチマークデータセットの最先端の塗装結果を得る。

Recent image inpainting methods have shown promising results due to the power of deep learning, which can explore external information available from the large training dataset. However, many state-of-the-art inpainting networks are still limited in exploiting internal information available in the given input image at test time. To mitigate this problem, we present a novel and efficient self-supervised fine-tuning algorithm that can adapt the parameters of fully pre-trained inpainting networks without using ground-truth target images. We update the parameters of the pre-trained state-of-the-art inpainting networks by utilizing existing self-similar patches (i.e., self-exemplars) within the given input image without changing the network architecture and improve the inpainting quality by a large margin. Qualitative and quantitative experimental results demonstrate the superiority of the proposed algorithm, and we achieve state-of-the-art inpainting results on publicly available benchmark datasets.
翻訳日:2021-10-26 14:12:15 公開日:2021-10-25
# 爆発的冗長性: リーグループ上の分離可能なグループ畳み込みネットワーク

Exploiting Redundancy: Separable Group Convolutional Networks on Lie Groups ( http://arxiv.org/abs/2110.13059v1 )

ライセンス: Link先を確認
David M. Knigge, David W. Romero, Erik J. Bekkers(参考訳) 群畳み込みニューラルネットワーク(G-CNN)は、幾何学的帰納バイアスを取り入れることでパラメータ効率とモデルの精度を向上させることが示されている。 本研究では,正規G-CNNによって学習された表現の性質について検討し,グループ畳み込みカーネルにおけるパラメータ冗長性を示す。 この発見は、部分群上で畳み込み核を共有することによってさらなる重み付けを動機付ける。 この目的のために、サブグループとチャネル次元で分離可能な畳み込みカーネルを導入する。 任意のアフィンリー群への同値を得るために、分離可能な畳み込み核の連続パラメタライゼーションを提供する。 いくつかのビジョンデータセットにまたがるアプローチを評価し,重み付けが性能と計算効率の向上につながることを示す。 多くの設定では、分離不能なG-CNNは、トレーニング時間の一部を使用しながら、分離不能なG-CNNよりも優れています。 加えて、計算効率の増大により、$\mathrm{sim(2)}$ 群(拡張、回転、変換の群)に g-cnns を同値に実装できる。 $\mathrm{Sim(2)}$-equivarianceは考慮されたすべてのタスクのパフォーマンスをさらに改善します。

Group convolutional neural networks (G-CNNs) have been shown to increase parameter efficiency and model accuracy by incorporating geometric inductive biases. In this work, we investigate the properties of representations learned by regular G-CNNs, and show considerable parameter redundancy in group convolution kernels. This finding motivates further weight-tying by sharing convolution kernels over subgroups. To this end, we introduce convolution kernels that are separable over the subgroup and channel dimensions. In order to obtain equivariance to arbitrary affine Lie groups we provide a continuous parameterisation of separable convolution kernels. We evaluate our approach across several vision datasets, and show that our weight sharing leads to improved performance and computational efficiency. In many settings, separable G-CNNs outperform their non-separable counterpart, while only using a fraction of their training time. In addition, thanks to the increase in computational efficiency, we are able to implement G-CNNs equivariant to the $\mathrm{Sim(2)}$ group; the group of dilations, rotations and translations. $\mathrm{Sim(2)}$-equivariance further improves performance on all tasks considered.
翻訳日:2021-10-26 14:11:32 公開日:2021-10-25
# 第2位SoDA10Mチャレンジ2021 - 連続検出トラック

2nd Place Solution for SODA10M Challenge 2021 -- Continual Detection Track ( http://arxiv.org/abs/2110.13064v1 )

ライセンス: Link先を確認
Manoj Acharya, Christopher Kanan(参考訳) 本報告では,soda10mチャレンジの連続的物体検出トラックに対するアプローチについて述べる。 ResNet50-FPNをベースラインとして採用し、最終的な提案モデルのいくつかの改善を試みる。 我々は,タスク固有のリプレイスキーム,学習率スケジューリング,モデルキャリブレーション,およびオリジナル画像スケールの使用が,画像内の大小いずれのオブジェクトのパフォーマンス向上に役立つことを見出した。 我々のチーム「hypertune28」は52人中2番目のポジションを確保した。 この研究はICCV 2021 Workshop on Self-supervised Learning for Next-Generation Industry-level Autonomous Driving (SSLAD)で発表される。

In this technical report, we present our approaches for the continual object detection track of the SODA10M challenge. We adapt ResNet50-FPN as the baseline and try several improvements for the final submission model. We find that task-specific replay scheme, learning rate scheduling, model calibration, and using original image scale helps to improve performance for both large and small objects in images. Our team `hypertune28' secured the second position among 52 participants in the challenge. This work will be presented at the ICCV 2021 Workshop on Self-supervised Learning for Next-Generation Industry-level Autonomous Driving (SSLAD).
翻訳日:2021-10-26 14:11:14 公開日:2021-10-25
# (参考訳) 自己整合モデルと価値 [全文訳有]

Self-Consistent Models and Values ( http://arxiv.org/abs/2110.12840v1 )

ライセンス: CC BY 4.0
Gregory Farquhar, Kate Baumli, Zita Marinho, Angelos Filos, Matteo Hessel, Hado van Hasselt, David Silver(参考訳) 環境の学習モデルは、環境に関する予測を行う柔軟な方法を備えた強化学習(RL)エージェントを提供する。 特に、モデルにより、さらなる環境相互作用を必要とせず、より多くの計算を使って価値関数やポリシーを改善することができる。 本研究では,学習モデルと値関数を併用して,モデルベースRLを増強する方法について検討する。 このアプローチはdynaのような従来の計画手法と異なり、モデルに一貫性を持たせるために値を更新するだけである。 複数の自己整合性更新を提案し、これらを表と関数の近似設定で評価し、適切な選択により、自己整合性はポリシー評価と制御の両方に役立つことを確かめる。

Learned models of the environment provide reinforcement learning (RL) agents with flexible ways of making predictions about the environment. In particular, models enable planning, i.e. using more computation to improve value functions or policies, without requiring additional environment interactions. In this work, we investigate a way of augmenting model-based RL, by additionally encouraging a learned model and value function to be jointly \emph{self-consistent}. Our approach differs from classic planning methods such as Dyna, which only update values to be consistent with the model. We propose multiple self-consistency updates, evaluate these in both tabular and function approximation settings, and find that, with appropriate choices, self-consistency helps both policy evaluation and control.
翻訳日:2021-10-26 14:06:46 公開日:2021-10-25
# (参考訳) 希少事象データを用いた非一様負サンプリングとログオッズ補正

Nonuniform Negative Sampling and Log Odds Correction with Rare Events Data ( http://arxiv.org/abs/2110.13048v1 )

ライセンス: CC BY 4.0
HaiYing Wang, Aonan Zhang, Chong Wang(参考訳) 不均衡データに対する非一様負サンプリングによるパラメータ推定の問題について検討する。 まず、不均衡なデータを用いて、未知のパラメータに関する利用可能な情報は、負のサンプリングの使用を正当化する、比較的少数の正のインスタンスにのみ結びつくことを証明します。 しかし、もし負のインスタンスが正のケースの同じレベルにサブサンプリングされると、情報損失が発生する。 より詳細な情報を維持するため、一般逆確率重み付き(IPW)推定器の漸近分布を導出し、その分散を最小化する最適なサンプリング確率を得る。 IPW法よりも高い推定効率向上を図るため,サンプルデータのログオッズを補正した確率ベース推定器を提案し,改良された推定器が大規模な推定器群の中で最小の漸近分散を有することを証明する。 また、パイロットの誤特定よりも頑丈である。 シミュレーションデータに対するアプローチと、0.3兆インスタンス以上の実際のクリックスルー率データセットが1ヶ月にわたって収集されたことを検証した。 理論と実験の結果から,本手法の有効性が示された。

We investigate the issue of parameter estimation with nonuniform negative sampling for imbalanced data. We first prove that, with imbalanced data, the available information about unknown parameters is only tied to the relatively small number of positive instances, which justifies the usage of negative sampling. However, if the negative instances are subsampled to the same level of the positive cases, there is information loss. To maintain more information, we derive the asymptotic distribution of a general inverse probability weighted (IPW) estimator and obtain the optimal sampling probability that minimizes its variance. To further improve the estimation efficiency over the IPW method, we propose a likelihood-based estimator by correcting log odds for the sampled data and prove that the improved estimator has the smallest asymptotic variance among a large class of estimators. It is also more robust to pilot misspecification. We validate our approach on simulated data as well as a real click-through rate dataset with more than 0.3 trillion instances, collected over a period of a month. Both theoretical and empirical results demonstrate the effectiveness of our method.
翻訳日:2021-10-26 13:43:07 公開日:2021-10-25
# (参考訳) 英語とマラーティー語におけるヘイト・アパルト・プロパンコンテンツ検出のための事前学習トランスフォーマーの微調整 [全文訳有]

Fine-tuning of Pre-trained Transformers for Hate, Offensive, and Profane Content Detection in English and Marathi ( http://arxiv.org/abs/2110.12687v1 )

ライセンス: CC BY 4.0
Anna Glazkova, Michael Kadantsev and Maksim Glazkov(参考訳) 本稿では,Hate Speech and Offensive Content Identification in English and Indo-Aryan Languages Shared Task 2021について述べる。 neuro-utmn-thalesというチームは、ヘイト、アグレッシブ、プロパンを含む英語ツイートのバイナリときめ細かい分類(英語サブタスクa&b)と、マラティ(marathiサブタスクa)における問題コンテンツの識別に関する2つのタスクに参加しました。 英語のサブタスクに対して,ヘイトスピーチ検出のための追加コーパスが微調整変圧器モデルに与える影響について検討する。 また、Twitter-RoBERTaをベースとしたワンストップアプローチをヘイト、プロファン、攻撃的な投稿の差別にも適用します。 我々のモデルは、F1スコアが81.99%、F1スコアが65.77%の英語Subtask Bで3位となった。 Marathiタスクに対しては,Language-Agnostic BERT Sentence Embedding (LaBSE)に基づくシステムを提案する。 このモデルはマラティサブタスクaの2番目の結果を達成し、88.08%のf1を得た。

This paper describes neural models developed for the Hate Speech and Offensive Content Identification in English and Indo-Aryan Languages Shared Task 2021. Our team called neuro-utmn-thales participated in two tasks on binary and fine-grained classification of English tweets that contain hate, offensive, and profane content (English Subtasks A & B) and one task on identification of problematic content in Marathi (Marathi Subtask A). For English subtasks, we investigate the impact of additional corpora for hate speech detection to fine-tune transformer models. We also apply a one-vs-rest approach based on Twitter-RoBERTa to discrimination between hate, profane and offensive posts. Our models ranked third in English Subtask A with the F1-score of 81.99% and ranked second in English Subtask B with the F1-score of 65.77%. For the Marathi tasks, we propose a system based on the Language-Agnostic BERT Sentence Embedding (LaBSE). This model achieved the second result in Marathi Subtask A obtaining an F1 of 88.08%.
翻訳日:2021-10-26 13:37:27 公開日:2021-10-25
# 効率のミスノマー

The Efficiency Misnomer ( http://arxiv.org/abs/2110.12894v1 )

ライセンス: Link先を確認
Mostafa Dehghani and Anurag Arnab and Lucas Beyer and Ashish Vaswani and Yi Tay(参考訳) モデル効率は、機械学習モデルの開発とデプロイの重要な側面である。 推論時間とレイテンシはユーザエクスペリエンスに直接影響を与えます。 推論コストに加えて、モデルトレーニングは財政や環境に直接影響を与える。 モデル効率を測定するための確立されたメトリクス(コスト指標)は数多く存在するが、研究者や実践者はこれらのメトリクスが相互に相関していると考え、報告するのはごくわずかである。 本稿では,共通コスト指標,それらの利点とデメリット,相互矛盾の可能性について徹底的に考察する。 コスト指標の不完全な報告が部分的な結論と異なるモデルの実用的考察のぼやけた、あるいは不完全な図にどのようにつながるかを実証する。 さらに,効率指標の報告を改善するための提案を行う。

Model efficiency is a critical aspect of developing and deploying machine learning models. Inference time and latency directly affect the user experience, and some applications have hard requirements. In addition to inference costs, model training also have direct financial and environmental impacts. Although there are numerous well-established metrics (cost indicators) for measuring model efficiency, researchers and practitioners often assume that these metrics are correlated with each other and report only few of them. In this paper, we thoroughly discuss common cost indicators, their advantages and disadvantages, and how they can contradict each other. We demonstrate how incomplete reporting of cost indicators can lead to partial conclusions and a blurred or incomplete picture of the practical considerations of different models. We further present suggestions to improve reporting of efficiency metrics.
翻訳日:2021-10-26 13:25:46 公開日:2021-10-25
# 未確認深層構造のパラメータ予測

Parameter Prediction for Unseen Deep Architectures ( http://arxiv.org/abs/2110.13100v1 )

ライセンス: Link先を確認
Boris Knyazev, Michal Drozdzal, Graham W. Taylor, Adriana Romero-Soriano(参考訳) ディープラーニングは、機械学習パイプラインにおける機能設計の自動化に成功している。 しかし、ニューラルネットワークパラメータを最適化するアルゴリズムは、手作業で設計され、計算的に非効率である。 我々は,過去のネットワークトレーニングの知識を活用して,これらのパラメータを直接予測するためにディープラーニングを利用することができるか検討する。 我々は、ニューラルネットワークの多様な計算グラフの大規模データセットDeepNets-1Mを導入し、CIFAR-10とImageNetのパラメータ予測に利用した。 グラフニューラルネットワークの進歩を活用することで,CPU上でも1秒の間隔で1回のフォワードパスでパフォーマンスパラメータを予測できるハイパーネットワークを提案する。 提案したモデルは、目に見えない多様なネットワーク上で驚くほど優れた性能を達成する。 例えば、cifar-10で60%の精度を達成するresnet-50の2400万のパラメータすべてを予測することができる。 ImageNetでは、一部のネットワークでトップ5の精度が50%に近づいている。 我々の課題とモデルと結果は、トレーニングネットワークの新しい、より計算効率の良いパラダイムにつながる可能性がある。 私たちのモデルは、分析を可能にするニューラルネットワークアーキテクチャの強力な表現も学んでいます。

Deep learning has been successful in automating the design of features in machine learning pipelines. However, the algorithms optimizing neural network parameters remain largely hand-designed and computationally inefficient. We study if we can use deep learning to directly predict these parameters by exploiting the past knowledge of training other networks. We introduce a large-scale dataset of diverse computational graphs of neural architectures - DeepNets-1M - and use it to explore parameter prediction on CIFAR-10 and ImageNet. By leveraging advances in graph neural networks, we propose a hypernetwork that can predict performant parameters in a single forward pass taking a fraction of a second, even on a CPU. The proposed model achieves surprisingly good performance on unseen and diverse networks. For example, it is able to predict all 24 million parameters of a ResNet-50 achieving a 60% accuracy on CIFAR-10. On ImageNet, top-5 accuracy of some of our networks approaches 50%. Our task along with the model and results can potentially lead to a new, more computationally efficient paradigm of training networks. Our model also learns a strong representation of neural architectures enabling their analysis.
翻訳日:2021-10-26 13:25:34 公開日:2021-10-25
# ジミニー・クリケットはどうする? 道徳的に振る舞うエージェントへ

What Would Jiminy Cricket Do? Towards Agents That Behave Morally ( http://arxiv.org/abs/2110.13136v1 )

ライセンス: Link先を確認
Dan Hendrycks, Mantas Mazeika, Andy Zou, Sahil Patel, Christine Zhu, Jesus Navarro, Dawn Song, Bo Li, Jacob Steinhardt(参考訳) 日々の意思決定を行うとき、人々は自身の良心、すなわち内なる善悪の感覚によって導かれる。 対照的に、現在人工エージェントには道徳的な意味が与えられていない。 その結果、暴力的なビデオゲームのような道徳的懸念を無視した環境で訓練すると、不道徳に振る舞うようになる。 多くの環境で事前訓練を行う一般的な有能なエージェントが出現すると、不道徳な行動を教える環境から遺伝バイアスを緩和する必要がある。 意図的な害を起こさないエージェントの開発を容易にするために,我々は,多様で道徳的にサルエントなシナリオの多様さを持つ25のテキストベースのアドベンチャーゲームからなる環境スイートであるjiminy cricketを紹介する。 あらゆる可能なゲーム状態を注釈することにより、ジム・クリケット環境は、エージェントが報酬を最大化しながら道徳的に行動できるかどうかをロバストに評価する。 常識的道徳的知識を持つモデルを用いて,エージェントを評価・指導する基礎的人工的良心を創出する。 広範な実験において, 人工良心アプローチは, 性能を犠牲にすることなく, 道徳的行動にエージェントを向けることができることがわかった。

When making everyday decisions, people are guided by their conscience, an internal sense of right and wrong. By contrast, artificial agents are currently not endowed with a moral sense. As a consequence, they may learn to behave immorally when trained on environments that ignore moral concerns, such as violent video games. With the advent of generally capable agents that pretrain on many environments, it will become necessary to mitigate inherited biases from environments that teach immoral behavior. To facilitate the development of agents that avoid causing wanton harm, we introduce Jiminy Cricket, an environment suite of 25 text-based adventure games with thousands of diverse, morally salient scenarios. By annotating every possible game state, the Jiminy Cricket environments robustly evaluate whether agents can act morally while maximizing reward. Using models with commonsense moral knowledge, we create an elementary artificial conscience that assesses and guides agents. In extensive experiments, we find that the artificial conscience approach can steer agents towards moral behavior without sacrificing performance.
翻訳日:2021-10-26 13:24:57 公開日:2021-10-25
# (参考訳) 二元化深層ニューラルネットワークの学習のための効率的・ロバスト混合整数最適化法 [全文訳有]

Efficient and Robust Mixed-Integer Optimization Methods for Training Binarized Deep Neural Networks ( http://arxiv.org/abs/2110.11382v2 )

ライセンス: CC BY 4.0
Jannis Kurtz and Bubacarr Bah(参考訳) 古典的なディープニューラルネットワークと比較して、2項化されたバージョンは、メモリ消費と計算要求の減少のためにリソース制限されたデバイスに応用するのに有用である。 本研究では,二元活性化関数と連続あるいは整数重み付きディープニューラルネットワーク(BDNN)について検討する。 本稿では,bdnnを,古典的混合整数計画解法によって大域的最適性に解く有界重み空間を持つ混合整数線形プログラムとして再構成できることを示す。 さらに、局所探索ヒューリスティックが示され、局所最適ネットワークを計算する。 さらに,k-mean法を用いてトレーニングセットを小さなサブセットに反復的に分割する反復的データ分割ヒューリスティックを提案する。 その後、与えられたサブセット内のすべてのデータポイントは同じアクティベーションパターンに従わざるを得なくなり、それによって混合整数プログラミングの定式化における整数変数の数がはるかに少なくなり、計算上の改善がもたらされる。 最後に、トレーニング中にBDNNの堅牢性を強制するロバストモデルが、初めて提示される。 すべてのメソッドはランダムかつ実際のデータセット上でテストされ、この結果は、メモリや計算能力に制限のあるアプリケーションの実行可能性を確認する小さなネットワークアーキテクチャ上で、すべてのモデルが古典的なdnnと競ったり、より優れていたりすることを示している。

Compared to classical deep neural networks its binarized versions can be useful for applications on resource-limited devices due to their reduction in memory consumption and computational demands. In this work we study deep neural networks with binary activation functions and continuous or integer weights (BDNN). We show that the BDNN can be reformulated as a mixed-integer linear program with bounded weight space which can be solved to global optimality by classical mixed-integer programming solvers. Additionally, a local search heuristic is presented to calculate locally optimal networks. Furthermore to improve efficiency we present an iterative data-splitting heuristic which iteratively splits the training set into smaller subsets by using the k-mean method. Afterwards all data points in a given subset are forced to follow the same activation pattern, which leads to a much smaller number of integer variables in the mixed-integer programming formulation and therefore to computational improvements. Finally for the first time a robust model is presented which enforces robustness of the BDNN during training. All methods are tested on random and real datasets and our results indicate that all models can often compete with or even outperform classical DNNs on small network architectures confirming the viability for applications having restricted memory or computing power.
翻訳日:2021-10-26 13:01:25 公開日:2021-10-25
# (参考訳) ガーシュゴリンディスクアライメントを用いた短いビデオ要約のための高速グラフサンプリング [全文訳有]

Fast Graph Sampling for Short Video Summarization using Gershgorin Disc Alignment ( http://arxiv.org/abs/2110.11420v2 )

ライセンス: CC BY 4.0
Sadid Sahami, Gene Cheung, Chia-Wen Lin(参考訳) 本研究では,短い映像を複数のキーフレームに効率的に要約し,近年の高速グラフサンプリングの進歩を生かした。 具体的には、まず、グラフラプラシア行列 $\mathbf{L}$ で表される類似性パスグラフ (SPG) $\mathcal{G}$ を構築し、隣り合うフレーム間の類似性を正のエッジ重みとしてエンコードする。 係数行列 $\mathbf{b} = \text{diag}(\mathbf{a}) + \mu \mathbf{l}$ の最小固有値 $\lambda_{\min}(\mathbf{b})$ を最大化することは、最悪の場合の信号再構成エラーを最小化することと同値である。 我々は、$\mathcal{G}$を$Q$部分グラフ $\{\mathcal{G}^q\}^Q_{q=1}$に分割した後、最小のガーシュゴリン円定理(GCT)下界の$Q$対応係数行列 --$\min_q \lambda^-_{\min}(\mathbf{B}^q)$ -- が$\lambda_{\min}(\mathbf{B})$の下界であることを証明する。 これにより、高速グラフサンプリングアルゴリズムが反復的に$\mathcal{G}$を$Q$サンプル(キーフレーム)を使用して$Q$サブグラフに分割し、各サブグラフ$\mathcal{G}^q$に対して$\lambda^-_{\min}(\mathbf{B}^q)$を最大化する。 実験結果から,本アルゴリズムは最先端手法と同等の映像要約性能を実現し,複雑さを大幅に低減した。

We study the problem of efficiently summarizing a short video into several keyframes, leveraging recent progress in fast graph sampling. Specifically, we first construct a similarity path graph (SPG) $\mathcal{G}$, represented by graph Laplacian matrix $\mathbf{L}$, where the similarities between adjacent frames are encoded as positive edge weights. We show that maximizing the smallest eigenvalue $\lambda_{\min}(\mathbf{B})$ of a coefficient matrix $\mathbf{B} = \text{diag}(\mathbf{a}) + \mu \mathbf{L}$, where $\mathbf{a}$ is the binary keyframe selection vector, is equivalent to minimizing a worst-case signal reconstruction error. We prove that, after partitioning $\mathcal{G}$ into $Q$ sub-graphs $\{\mathcal{G}^q\}^Q_{q=1}$, the smallest Gershgorin circle theorem (GCT) lower bound of $Q$ corresponding coefficient matrices -- $\min_q \lambda^-_{\min}(\mathbf{B}^q)$ -- is a lower bound for $\lambda_{\min}(\mathbf{B})$. This inspires a fast graph sampling algorithm to iteratively partition $\mathcal{G}$ into $Q$ sub-graphs using $Q$ samples (keyframes), while maximizing $\lambda^-_{\min}(\mathbf{B}^q)$ for each sub-graph $\mathcal{G}^q$. Experimental results show that our algorithm achieves comparable video summarization performance as state-of-the-art methods, at a substantially reduced complexity.
翻訳日:2021-10-26 12:37:08 公開日:2021-10-25
# (参考訳) アンチバックドア学習:中毒データによるクリーンモデルのトレーニング [全文訳有]

Anti-Backdoor Learning: Training Clean Models on Poisoned Data ( http://arxiv.org/abs/2110.11571v2 )

ライセンス: CC BY 4.0
Yige Li, Xixiang Lyu, Nodens Koren, Lingjuan Lyu, Bo Li, Xingjun Ma(参考訳) バックドア攻撃はディープニューラルネットワーク(DNN)に対する主要なセキュリティ脅威として浮上している。 既存の防衛法はバックドアの検出や消去に有望な結果を示してきたが、そもそもバックドアトリガーがトレーニングモデルに注入されるのを防ぐためにロバストな訓練方法が考案できるかどうかは定かではない。 本稿では,バックドア・ポゾンデータから得られるemph{clean}モデルをトレーニングすることを目的とした,emph{anti-backdoor learning}の概念を紹介する。 学習プロセス全体を、データの「emph{clean}」と「emph{backdoor}」の2つのタスクとして構成する。 この観点から、バックドア攻撃の2つの特徴を弱点として認識する。 1) モデルは、クリーンなデータで学習するよりもバックドアドデータを学習し、攻撃が強くなればなるほど、バックドアドデータにモデルが収束する。 2) バックドアタスクは特定のクラス(バックドアターゲットクラス)に結び付けられます。 これら2つの弱点に基づき、トレーニング中のバックドア攻撃を自動的に防止する一般的な学習手法であるアンチバックドア学習(ABL)を提案する。 ABLは標準トレーニングのための2段階のemph{gradient Ascent}メカニズムを導入した 1)早期研修段階におけるバックドア事例の分離を支援し, 2)後段の訓練段階において,バックドア例と対象クラスとの相関関係を破る。 10回の最先端攻撃に対する複数のベンチマークデータセットの広範囲な実験を通じて、ablで訓練されたモデルが純粋にクリーンなデータでトレーニングされたデータと同等のパフォーマンスを達成できることを実証的に示した。 コードは \url{https://github.com/b boylyg/ABL} で入手できる。

Backdoor attack has emerged as a major security threat to deep neural networks (DNNs). While existing defense methods have demonstrated promising results on detecting or erasing backdoors, it is still not clear whether robust training methods can be devised to prevent the backdoor triggers being injected into the trained model in the first place. In this paper, we introduce the concept of \emph{anti-backdoor learning}, aiming to train \emph{clean} models given backdoor-poisoned data. We frame the overall learning process as a dual-task of learning the \emph{clean} and the \emph{backdoor} portions of data. From this view, we identify two inherent characteristics of backdoor attacks as their weaknesses: 1) the models learn backdoored data much faster than learning with clean data, and the stronger the attack the faster the model converges on backdoored data; 2) the backdoor task is tied to a specific class (the backdoor target class). Based on these two weaknesses, we propose a general learning scheme, Anti-Backdoor Learning (ABL), to automatically prevent backdoor attacks during training. ABL introduces a two-stage \emph{gradient ascent} mechanism for standard training to 1) help isolate backdoor examples at an early training stage, and 2) break the correlation between backdoor examples and the target class at a later training stage. Through extensive experiments on multiple benchmark datasets against 10 state-of-the-art attacks, we empirically show that ABL-trained models on backdoor-poisoned data achieve the same performance as they were trained on purely clean data. Code is available at \url{https://github.com/b boylyg/ABL}.
翻訳日:2021-10-26 12:23:53 公開日:2021-10-25
# (参考訳) 形状表現を用いた知識グラフサブセットの作成

Creating Knowledge Graphs Subsets using Shape Expressions ( http://arxiv.org/abs/2110.11709v2 )

ライセンス: CC BY 4.0
Jose Emilio Labra Gayo(参考訳) Googleとその後の大企業による知識グラフの導入は、その採用と人気を高めている。 本稿では,rdfベースのグラフ,プロパティグラフ,wikibaseグラフと呼ばれる3種類の知識グラフの形式モデルを提案する。 知識グラフの質を高めるために、いくつかのアプローチでその内容の説明と検証がなされている。 形状表現(ShEx)はRDF検証のための簡潔な言語として提案されている。 本稿では、ShExの簡単な紹介と、プロパティグラフ(PShEx)とwikibaseグラフ(WShEx)の記述および検証に使用できる2つの拡張について述べる。 知識グラフの1つの問題は、それらに含まれる大量のデータである。 この問題を緩和するために、ある領域の知識グラフのサブセットを作成するというアプローチがある。 エンティティマッチング、単純なマッチング、ShExマッチング、ShExプラスSlurpおよびShExプラスPregelは、いくつかのコンテンツまたはシェイプ式を一致させることで、サブセットを宣言的に定義する。 最後のアプローチは、ビッグデータグラフを処理でき、Apache Spark GraphXに実装されているPregelアルゴリズムに基づいた、ShExの新たなバリデーションアルゴリズムに基づいている。

The initial adoption of knowledge graphs by Google and later by big companies has increased their adoption and popularity. In this paper we present a formal model for three different types of knowledge graphs which we call RDF-based graphs, property graphs and wikibase graphs. In order to increase the quality of Knowledge Graphs, several approaches have appeared to describe and validate their contents. Shape Expressions (ShEx) has been proposed as concise language for RDF validation. We give a brief introduction to ShEx and present two extensions that can also be used to describe and validate property graphs (PShEx) and wikibase graphs (WShEx). One problem of knowledge graphs is the large amount of data they contain, which jeopardizes their practical application. In order to palliate this problem, one approach is to create subsets of those knowledge graphs for some domains. We propose the following approaches to generate those subsets: Entity-matching, simple matching, ShEx matching, ShEx plus Slurp and ShEx plus Pregel which are based on declaratively defining the subsets by either matching some content or by Shape Expressions. The last approach is based on a novel validation algorithm for ShEx based on the Pregel algorithm that can handle big data graphs and has been implemented on Apache Spark GraphX.
翻訳日:2021-10-26 12:00:13 公開日:2021-10-25
# 学習画像再構成のための条件変動オートエンコーダ

Conditional Variational Autoencoder for Learned Image Reconstruction ( http://arxiv.org/abs/2110.11681v2 )

ライセンス: Link先を確認
Chen Zhang and Riccardo Barbano and Bangti Jin(参考訳) 深層ニューラルネットワークを用いた学習画像再構成技術が最近人気を集め、有望な実験結果を提供している。 しかし、ほとんどのアプローチは観測毎に1つのリカバリに焦点を合わせ、不確実性情報を無視する。 本研究では,各問合せ観察における未知画像の後方分布を近似する新しい計算フレームワークを開発した。 暗黙のノイズモデルと事前処理を処理し、データ形成プロセス(すなわちフォワード演算子)を組み込んで、学習した再構築特性を異なるデータセット間で転送可能にする。 条件付き変分オートエンコーダ損失を用いてネットワークを訓練すると、フィードフォワード伝播による近似後続分布に対する計算効率の高いサンプリング器が提供され、生成されたサンプルの集計統計は点推定と不確実性定量の両方に使用される。 ポジトロン放射トモグラフィー(中等度・低数レベル)の広範な数値実験により,本フレームワークが最先端の手法と比較して高品質な試料を生成することを示す。

Learned image reconstruction techniques using deep neural networks have recently gained popularity, and have delivered promising empirical results. However, most approaches focus on one single recovery for each observation, and thus neglect the uncertainty information. In this work, we develop a novel computational framework that approximates the posterior distribution of the unknown image at each query observation. The proposed framework is very flexible: It handles implicit noise models and priors, it incorporates the data formation process (i.e., the forward operator), and the learned reconstructive properties are transferable between different datasets. Once the network is trained using the conditional variational autoencoder loss, it provides a computationally efficient sampler for the approximate posterior distribution via feed-forward propagation, and the summarizing statistics of the generated samples are used for both point-estimation and uncertainty quantification. We illustrate the proposed framework with extensive numerical experiments on positron emission tomography (with both moderate and low count levels) showing that the framework generates high-quality samples when compared with state-of-the-art methods.
翻訳日:2021-10-26 11:57:26 公開日:2021-10-25
# (参考訳) 3次元物体に対するマルチモーダル半教師付き学習 [全文訳有]

Multimodal Semi-Supervised Learning for 3D Objects ( http://arxiv.org/abs/2110.11601v2 )

ライセンス: CC BY 4.0
Zhimin Chen, Longlong Jing, Yang Liang, YingLi Tian, Bing Li(参考訳) 近年、半教師付き学習が広く研究され、2次元データに優れたデータ効率が示されている。 ラベル付き3Dデータの不足により、3Dタスクのデータ効率を改善する必要性が高まっている。 本稿では,3次元データの異なるモデル(ポイントクラウド,イメージ,メッシュなど)のコヒーレンスを用いて,3次元分類および検索作業におけるデータ効率を向上させる方法について検討する。 本稿では,インスタンスレベルの一貫性制約を導入した新しいマルチモーダル半教師付き学習フレームワークと,新しいマルチモーダルコントラストプロトタイプ(m2cp)損失を提案する。 インスタンスレベルの一貫性は、そのモダリティに関係なく、同じオブジェクトのマルチモーダルデータの一貫性のある表現を生成するようにネットワークを強制する。 m2cpは、各クラスのマルチモーダルプロトタイプを維持し、各オブジェクトとプロトタイプの特徴距離を最小化し、他との距離を最大化することで、小さなクラス内バリエーションで特徴を学習する。 提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。

In recent years, semi-supervised learning has been widely explored and shows excellent data efficiency for 2D data. There is an emerging need to improve data efficiency for 3D tasks due to the scarcity of labeled 3D data. This paper explores how the coherence of different modelities of 3D data (e.g. point cloud, image, and mesh) can be used to improve data efficiency for both 3D classification and retrieval tasks. We propose a novel multimodal semi-supervised learning framework by introducing instance-level consistency constraint and a novel multimodal contrastive prototype (M2CP) loss. The instance-level consistency enforces the network to generate consistent representations for multimodal data of the same object regardless of its modality. The M2CP maintains a multimodal prototype for each class and learns features with small intra-class variations by minimizing the feature distance of each object to its prototype while maximizing the distance to the others. Our proposed framework significantly outperforms all the state-of-the-art counterparts for both classification and retrieval tasks by a large margin on the modelNet10 and ModelNet40 datasets.
翻訳日:2021-10-26 11:56:15 公開日:2021-10-25
# SciCap: 科学的フィギュアのキャプションの生成

SciCap: Generating Captions for Scientific Figures ( http://arxiv.org/abs/2110.11624v2 )

ライセンス: Link先を確認
Ting-Yao Hsu, C. Lee Giles, Ting-Hao 'Kenneth' Huang(参考訳) 研究者は、科学論文でリッチで複雑な情報を伝えるために数字を使う。 これらの数字のキャプションは効果的なメッセージを伝えるのに不可欠である。 しかし、低品質の字幕は科学記事によく現れ、理解を減少させる可能性がある。 本稿では,科学的人物に対する情報的,高品質なキャプションを自動生成するエンドツーエンドのニューラルネットワークフレームワークを提案する。 この目的のために,2010年から2020年にかけて発行されたコンピュータサイエンスarXiv論文に基づく大規模フィギュアキャプチャーデータセットであるSCICAPを紹介する。 フィギュアタイプ分類、サブフィギュア識別、テキスト正規化、キャプションテキスト選択を含む前処理の後、SCICAPは290,000以上の論文から200万以上の数字を抽出した。 次に、主観的な(19.2%)図型であるキャプショングラフプロットのベースラインモデルを構築した。 実験結果から, 科学的数字のキャプション生成の機会と急激な課題が示された。

Researchers use figures to communicate rich, complex information in scientific papers. The captions of these figures are critical to conveying effective messages. However, low-quality figure captions commonly occur in scientific articles and may decrease understanding. In this paper, we propose an end-to-end neural framework to automatically generate informative, high-quality captions for scientific figures. To this end, we introduce SCICAP, a large-scale figure-caption dataset based on computer science arXiv papers published between 2010 and 2020. After pre-processing - including figure-type classification, sub-figure identification, text normalization, and caption text selection - SCICAP contained more than two million figures extracted from over 290,000 papers. We then established baseline models that caption graph plots, the dominant (19.2%) figure type. The experimental results showed both opportunities and steep challenges of generating captions for scientific figures.
翻訳日:2021-10-26 11:41:48 公開日:2021-10-25
# ヒト行動合成のための生成逆グラフ畳み込みネットワーク

Generative Adversarial Graph Convolutional Networks for Human Action Synthesis ( http://arxiv.org/abs/2110.11191v3 )

ライセンス: Link先を確認
Bruno Degardin, Jo\~ao Neves, Vasco Lopes, Jo\~ao Brito, Ehsan Yaghoubi and Hugo Proen\c{c}a(参考訳) 人体骨格の空間的および時間的ダイナミクスの合成は、生成した形状の品質だけでなく、その多様性、特に特定の作用の現実的な身体運動(アクションコンディショニング)を合成する上でも、依然として困難な課題である。 本稿では,人体の運動を合成するために,生成的敵対ネットワークとグラフ畳み込みネットワークの利点を利用する新しいアーキテクチャであるKineetic-GANを提案する。 提案する敵対的アーキテクチャは, 潜在空間のばらつきや確率的変動によるサンプル品質と多様性を改善しつつ, 局所的およびグローバルな身体運動に対して最大120の異なるアクションを条件付けることができる。 実験は,3つのよく知られたデータセットで実施され,キネティック-ganは分散品質指標において最先端の手法を特に上回り,異なるアクションの数について1桁以上の大きさの合成が可能であった。 私たちのコードとモデルはhttps://github.com/D egardinBruno/Kinetic -GAN.comで公開されています。

Synthesising the spatial and temporal dynamics of the human body skeleton remains a challenging task, not only in terms of the quality of the generated shapes, but also of their diversity, particularly to synthesise realistic body movements of a specific action (action conditioning). In this paper, we propose Kinetic-GAN, a novel architecture that leverages the benefits of Generative Adversarial Networks and Graph Convolutional Networks to synthesise the kinetics of the human body. The proposed adversarial architecture can condition up to 120 different actions over local and global body movements while improving sample quality and diversity through latent space disentanglement and stochastic variations. Our experiments were carried out in three well-known datasets, where Kinetic-GAN notably surpasses the state-of-the-art methods in terms of distribution quality metrics while having the ability to synthesise more than one order of magnitude regarding the number of different actions. Our code and models are publicly available at https://github.com/D egardinBruno/Kinetic -GAN.
翻訳日:2021-10-26 11:41:35 公開日:2021-10-25
# オープン集合認識のための空間的位置制約型プロトタイプロス

Spatial Location Constraint Prototype Loss for Open Set Recognition ( http://arxiv.org/abs/2110.11013v2 )

ライセンス: Link先を確認
Ziheng Xia, Ganggang Dong, Penghui Wang, Hongwei Liu(参考訳) パターン認識の課題の1つはオープンセット認識である。 クローズドセット認識と比較すると,オープンセット認識は経験的リスクだけでなくオープンスペースリスクも減少させる必要があり,これら2つのリスクの低減は既知のクラスを分類し,未知のクラスを識別することに相当する。 オープンスペースのリスクを軽減する方法がオープンセット認識の鍵です。 本稿では,未知のクラスの特徴の分布を分析し,オープンスペースリスクの起源を考察する。 そこで,この2つのリスクを同時に低減するために,空間的位置制約プロトタイプ損失関数を提案する。 複数のベンチマークデータセットに対する大規模な実験と多くの可視化結果は、我々の手法が既存のアプローチよりも優れていることを示している。

One of the challenges in pattern recognition is open set recognition. Compared with closed set recognition, open set recognition needs to reduce not only the empirical risk, but also the open space risk, and the reduction of these two risks corresponds to classifying the known classes and identifying the unknown classes respectively. How to reduce the open space risk is the key of open set recognition. This paper explores the origin of the open space risk by analyzing the distribution of known and unknown classes features. On this basis, the spatial location constraint prototype loss function is proposed to reduce the two risks simultaneously. Extensive experiments on multiple benchmark datasets and many visualization results indicate that our methods is superior to most existing approaches.
翻訳日:2021-10-26 11:40:53 公開日:2021-10-25
# aei: 時間的行動提案生成のための適応的注意を伴うアクタ-環境相互作用

AEI: Actors-Environment Interaction with Adaptive Attention for Temporal Action Proposals Generation ( http://arxiv.org/abs/2110.11474v2 )

ライセンス: Link先を確認
Khoa Vo, Hyekang Joo, Kashu Yamazaki, Sang Truong, Kris Kitani, Minh-Triet Tran, Ngan Le(参考訳) 人間は通常、俳優と周囲の環境との相互作用を通じて、ビデオ内のアクションの確立を認識する。 アクションは、ビデオ内のメインアクタが環境と対話し始めるときにのみ始まり、メインアクタがインタラクションを停止すると終了する。 時間的行動提案生成の大きな進歩にもかかわらず、既存の作品の多くは前述の事実を無視し、ブラックボックスとしてアクションを提案するためのモデル学習を残している。 本稿では,アクタ環境インタラクション(aei)ネットワークを提案し,時間的行動提案生成のための映像表現を改善することで,その能力をシミュレートする試みを行う。 AEIには、知覚に基づく視覚表現(PVR)と境界マッチングモジュール(BMM)の2つのモジュールが含まれている。 PVRは、人間の人間関係と人間環境関係を適応的注意機構を用いて考慮し、各ビデオスニペットを表現している。 そして、映像表現をBMMに取り込み、アクション提案を生成する。 AEIは、ActivityNet-1.3とTHUMOS-14データセットにおいて、時間的アクションの提案と検出タスクに基づいて、2つの境界マッチングアーキテクチャ(CNNベースとGCNベース)と2つの分類器(UnetとP-GCN)で包括的に評価されている。 我々のAEIは、時間的行動提案生成と時間的行動検出の両方において、顕著な性能と一般化で最先端の手法を頑健に上回ります。

Humans typically perceive the establishment of an action in a video through the interaction between an actor and the surrounding environment. An action only starts when the main actor in the video begins to interact with the environment, while it ends when the main actor stops the interaction. Despite the great progress in temporal action proposal generation, most existing works ignore the aforementioned fact and leave their model learning to propose actions as a black-box. In this paper, we make an attempt to simulate that ability of a human by proposing Actor Environment Interaction (AEI) network to improve the video representation for temporal action proposals generation. AEI contains two modules, i.e., perception-based visual representation (PVR) and boundary-matching module (BMM). PVR represents each video snippet by taking human-human relations and humans-environment relations into consideration using the proposed adaptive attention mechanism. Then, the video representation is taken by BMM to generate action proposals. AEI is comprehensively evaluated in ActivityNet-1.3 and THUMOS-14 datasets, on temporal action proposal and detection tasks, with two boundary-matching architectures (i.e., CNN-based and GCN-based) and two classifiers (i.e., Unet and P-GCN). Our AEI robustly outperforms the state-of-the-art methods with remarkable performance and generalization for both temporal action proposal generation and temporal action detection.
翻訳日:2021-10-26 11:40:43 公開日:2021-10-25