このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210528となっている論文です。

PDF登録状況(公開日: 20210528)

TitleAuthorsAbstract論文公表日・翻訳日
# 画像分割と構造化データを用いた屋上太陽電位予測

Predicting the Solar Potential of Rooftops using Image Segmentation and Structured Data ( http://arxiv.org/abs/2106.15268v1 )

ライセンス: Link先を確認
Daniel de Barros Soares (1), Fran\c{c}ois Andrieux (1), Bastien Hell (1), Julien Lenhardt (1 and 2), Jordi Badosa (3), Sylvain Gavoille (1), St\'ephane Gaiffas (1, 4 and 5), Emmanuel Bacry (1 and 6), ((1) namR, Paris, France, (2) ENSTA Paris, France, (3) LMD, Ecole polytechnique, IP Paris, Palaiseau, France, (4) LPSM, Universit\'e de Paris, France, (5) DMA, Ecole normale sup\'erieure, Paris, France, (6) CEREMADE, Universit\'e Paris Dauphine, Paris, France)(参考訳) 屋上太陽光発電システムで発電できる電力量を推定することは、現場での計測を必要とする時間のかかるプロセスであり、大規模に達成するのは難しい。 本稿では, 屋根上の太陽ポテンシャルをその位置と建築的特性, 年々受ける太陽放射量に基づいて推定する方法を提案する。 提案手法では,屋根断面と屋根物体のセマンティックセグメンテーションをコンピュータビジョンを用いて実現し,その一方で屋根ピッチ予測のための構造的建築特徴に基づく機械学習モデルを構築する。 次に、幾何学的なアプローチで屋上に設置できるアジマスと最大数のソーラーパネルを計算する。 最後に, 正確な遮蔽マスクを計算し, 太陽光照射データと組み合わせることで, 屋根上面の年間太陽ポテンシャルを推定する。

Estimating the amount of electricity that can be produced by rooftop photovoltaic systems is a time-consuming process that requires on-site measurements, a difficult task to achieve on a large scale. In this paper, we present an approach to estimate the solar potential of rooftops based on their location and architectural characteristics, as well as the amount of solar radiation they receive annually. Our technique uses computer vision to achieve semantic segmentation of roof sections and roof objects on the one hand, and a machine learning model based on structured building features to predict roof pitch on the other hand. We then compute the azimuth and maximum number of solar panels that can be installed on a rooftop with geometric approaches. Finally, we compute precise shading masks and combine them with solar irradiation data that enables us to estimate the yearly solar potential of a rooftop.
翻訳日:2021-07-04 19:34:20 公開日:2021-05-28
# (参考訳) クエリ駆動トピックモデル [全文訳有]

Query-Driven Topic Model ( http://arxiv.org/abs/2106.07346v1 )

ライセンス: CC BY 4.0
Zheng Fang, Yulan He and Rob Procter(参考訳) トピックモデリングはコーパスの隠された意味構造を明らかにする教師なしの手法である。 社会科学の道具として広く採用され、政治科学、デジタル人文科学、社会学全般の研究が盛んに行われている。 トピックモデルの望ましい特性の1つは、ユーザがコーパスの特定の側面を記述するトピックを見つけることを可能にすることである。 可能な解決策は、トピックモデリングにドメイン固有の知識を組み込むことだが、これはドメインエキスパートの仕様を必要とする。 本稿では,キーワードやフレーズで簡単なクエリを指定し,クエリ関連トピックを返却できる新しいクエリ駆動トピックモデルを提案する。 提案手法は,テキストコーパスにおいてユーザ指定クエリが低い場合に特に魅力的であり,単語共起パターンに基づく従来のトピックモデルでは関連トピックの特定が困難である。 実験の結果,従来のトピックモデルとニューラルトピックモデルとの比較により,モデルの有効性が示された。

Topic modeling is an unsupervised method for revealing the hidden semantic structure of a corpus. It has been increasingly widely adopted as a tool in the social sciences, including political science, digital humanities and sociological research in general. One desirable property of topic models is to allow users to find topics describing a specific aspect of the corpus. A possible solution is to incorporate domain-specific knowledge into topic modeling, but this requires a specification from domain experts. We propose a novel query-driven topic model that allows users to specify a simple query in words or phrases and return query-related topics, thus avoiding tedious work from domain experts. Our proposed approach is particularly attractive when the user-specified query has a low occurrence in a text corpus, making it difficult for traditional topic models built on word cooccurrence patterns to identify relevant topics. Experimental results demonstrate the effectiveness of our model in comparison with both classical topic models and neural topic models.
翻訳日:2021-06-20 21:57:11 公開日:2021-05-28
# 機械学習を用いた高品質測定

Using Machine Learning to Select High-Quality Measurements ( http://arxiv.org/abs/2106.08891v1 )

ライセンス: Link先を確認
Andrew Edmonds, David Brown, Luciano Vinas, Samantha Pagan(参考訳) 機械学習アルゴリズムを用いて,Mu2e実験の高品質な測定方法を選択する。 この手法は測定誤差に起因する背景実験において重要である。 アルゴリズムは、測定品質に敏感な複数の補助情報を使用して、高品質と低品質の測定を分離する。

We describe the use of machine learning algorithms to select high-quality measurements for the Mu2e experiment. This technique is important for experiments with backgrounds that arise due to measurement errors. The algorithms use multiple pieces of ancillary information that are sensitive to measurement quality to separate high-quality and low-quality measurements.
翻訳日:2021-06-20 16:02:35 公開日:2021-05-28
# 高度診断画像検査のプロトコル自動定義のためのディープラーニングツール

Deep-learning based Tools for Automated Protocol Definition of Advanced Diagnostic Imaging Exams ( http://arxiv.org/abs/2106.08963v1 )

ライセンス: Link先を確認
Andrew S. Nencka, Mohammad Sherafati, Timothy Goebel, Parag Tolat, Kevin M. Koch(参考訳) 目的: 自然言語処理 (NLP) とディープラーニング (DL) を用いたMRI検査において, 自動順序ベースのプロトコル割り当ての有効性と効果について検討した。 方法: NLP ツールは 116,000 以上のMRI 試験から 200 種類の部分特殊化プロトコル (ローカルプロトコルクラス) を振り返り処理するために適用された。 分離したdlモデルは、"ローカル"プロトコルおよび93のamerican college of radiology(acr)プロトコルおよび48の"general"プロトコルで処理されたデータの70\%で訓練された。 dlモデルは"auto-protocoling (ap)"推論モードで評価され、トップレコメンデーションを返し、"clinical decision support (cds)"推論モードでは放射線科医のレビューのために最大10のプロトコルを返す。 各プロトコルレコメンデーションの精度を計算し、上位2つのレコメンデーションに対して対応するニューラルネットワークの正規化出力スコアの差に基づいて解析した。 結果:apモードにおける上位予測プロトコルはそれぞれ82.8%,73.8%,69.3%の"general","acr","local"プロトコルクラスで正しかった。 CDSモードでは,全てのプロトコルクラスに対して96%以上の精度が得られた。 しかし、現在の検証性能レベルでは、提案されたモデルは、大規模イメージングネットワークに控えめで、ポジティブで、経済的に影響を及ぼす。 結論: dlベースのプロトコル自動化は実現可能であり、より一般的なプロトコルで高い精度で、自動プロトコリングのための試験のかなりの一部をルートするように調整できる。 テストアルゴリズムの経済分析から, アルゴリズム性能の向上が, サブスペシャライズド画像検診における実用的オートプロトコールツールの確立に必要であることが示唆された。

Purpose: This study evaluates the effectiveness and impact of automated order-based protocol assignment for magnetic resonance imaging (MRI) exams using natural language processing (NLP) and deep learning (DL). Methods: NLP tools were applied to retrospectively process orders from over 116,000 MRI exams with 200 unique sub-specialized protocols ("Local" protocol class). Separate DL models were trained on 70\% of the processed data for "Local" protocols as well as 93 American College of Radiology ("ACR") protocols and 48 "General" protocols. The DL Models were assessed in an "auto-protocoling (AP)" inference mode which returns the top recommendation and in a "clinical decision support (CDS)" inference mode which returns up to 10 protocols for radiologist review. The accuracy of each protocol recommendation was computed and analyzed based on the difference between the normalized output score of the corresponding neural net for the top two recommendations. Results: The top predicted protocol in AP mode was correct for 82.8%, 73.8%, and 69.3% of the test cases for "General", "ACR", and "Local" protocol classes, respectively. Higher levels of accuracy over 96% were obtained for all protocol classes in CDS mode. However, at current validation performance levels, the proposed models offer modest, positive, financial impact on large-scale imaging networks. Conclusions: DL-based protocol automation is feasible and can be tuned to route substantial fractions of exams for auto-protocoling, with higher accuracy with more general protocols. Economic analyses of the tested algorithms indicate that improved algorithm performance is required to yield a practical exam auto-protocoling tool for sub-specialized imaging exams.
翻訳日:2021-06-20 16:02:30 公開日:2021-05-28
# (参考訳) scifive: 生物医学のためのテキストからテキストへのトランスフォーマーモデル [全文訳有]

SciFive: a text-to-text transformer model for biomedical literature ( http://arxiv.org/abs/2106.03598v1 )

ライセンス: CC BY 4.0
Long N. Phan, James T. Anibal, Hieu Tran, Shaurya Chanana, Erol Bahadroglu, Alec Peltekian, Gr\'egoire Altan-Bonnet(参考訳) 本稿では,大規模バイオメディカルコーパスで事前学習したドメイン固有T5モデルであるSciFiveを紹介する。 我々のモデルは現在のSOTA法(すなわち)より優れている。 BERT, BioBERT, Base T5) 名前付きエンティティ関係、関係抽出、自然言語推論、質問応答のタスク。 テキスト生成法は, バイオメディカルなNLPタスク, 特に, より長い複雑な出力を必要とするタスクにおいて, 有意な可能性を秘めている。 本研究は,テキスト生成作業の難易度向上と新たな手法開発を支援するものである。

In this report, we introduce SciFive, a domain-specific T5 model that has been pre-trained on large biomedical corpora. Our model outperforms the current SOTA methods (i.e. BERT, BioBERT, Base T5) on tasks in named entity relation, relation extraction, natural language inference, and question-answering. We show that text-generation methods have significant potential in a broad array of biomedical NLP tasks, particularly those requiring longer, more complex outputs. Our results support the exploration of more difficult text generation tasks and the development of new methods in this area
翻訳日:2021-06-15 14:31:13 公開日:2021-05-28
# キャパシティ市場におけるリスク意識型参加のための確率論的予測型戦略

A Probabilistic Forecast-Driven Strategy for a Risk-Aware Participation in the Capacity Firming Market ( http://arxiv.org/abs/2105.13801v1 )

ライセンス: Link先を確認
Jonathan Dumas, Colin Cointe, Antoine Wehenkel, Antonio Sutera, Xavier Fettweis, and Bertrand Corn\'elusse(参考訳) 本稿では,小型非連系電力網における再生可能発電施設の推進を目的として,電池エネルギー貯蔵装置と組み合わされた電力貯蔵装置の電力管理について述べる。 近年開発された「正規化フロー」と呼ばれる深層学習モデルを用いて再生可能生成の定量的予測を生成する。 それらは表現的確率分布を定義するための一般的なメカニズムを提供し、基底分布と一連の単射変換の仕様のみを必要とする。 次に、確率的予測駆動戦略を設計、再帰を伴うmin-max-minロバスト最適化問題としてモデル化し、ベンダー分解を用いて解く。 収束性は、ドメイン知識から導かれた最初のカットセットを構築することで改善される。 ロバスト最適化は、最悪のケース生成シナリオを含む不確実性セットを使用して生成ランダム性をモデル化し、このシナリオを最小限のコストで保護する。 このアプローチは、保守的な政策とリスクを問う政策の間のトレードオフを見出すことによって、名目上のポイント予測による決定論的アプローチよりも結果を改善する。 最後に、量子量予測分布に基づく動的リスク逆パラメータ選択戦略により、さらなるゲインが得られる。 ケーススタディでは,ベルギーのリエージュ大学 (ULi\`ege) の現場で観測された太陽光発電を利用した。

This paper addresses the energy management of a grid-connected renewable generation plant coupled with a battery energy storage device in the capacity firming market, designed to promote renewable power generation facilities in small non-interconnected grids. A recently developed deep learning model known as normalizing flows is used to generate quantile forecasts of renewable generation. They provide a general mechanism for defining expressive probability distributions, only requiring the specification of a base distribution and a series of bijective transformations. Then, a probabilistic forecast-driven strategy is designed, modeled as a min-max-min robust optimization problem with recourse, and solved using a Benders decomposition. The convergence is improved by building an initial set of cuts derived from domain knowledge. Robust optimization models the generation randomness using an uncertainty set that includes the worst-case generation scenario and protects this scenario under the minimal increment of costs. This approach improves the results over a deterministic approach with nominal point forecasts by finding a trade-off between conservative and risk-seeking policies. Finally, a dynamic risk-averse parameters selection strategy based on the quantile forecasts distribution provides an additional gain. The case study uses the photovoltaic generation monitored on-site at the University of Li\`ege (ULi\`ege), Belgium.
翻訳日:2021-06-13 13:58:01 公開日:2021-05-28
# (参考訳) AIに基づくロボット発射発射モデルのためのアルゴリズム力係数推定によるデータ生成 [全文訳有]

Simulated Data Generation Through Algorithmic Force Coefficient Estimation for AI-Based Robotic Projectile Launch Modeling ( http://arxiv.org/abs/2105.12833v2 )

ライセンス: CC BY 4.0
Sajiv Shah, Ayaan Haque, Fei Liu(参考訳) 非剛性物体の発射と操作のモデリングは、軌道に影響を与える幅広いダイナミクスを考慮すると複雑である。 物理モデルを使うことは、未知の要因や、発射時の物体の変形の影響を考慮できないため不正確であり、また、これらのモデルに対する力係数の導出は、広範囲の実験試験なしでは不可能である。 近年,データ駆動型人工知能の進歩により,学習可能なモデルやシステムが出現している。 ディープニューラルネットワークは計測不能なダイナミクスを考慮できるため、ロボットの打ち上げ予測のためのモデルを訓練することが望ましい。 しかし、大量の実験データを収集できないため、ディープニューラルネットワークの性能は低下する。 力係数を推定することにより、受理された物理モデルを利用して十分な補足データを生成し、トレーニングセットのサイズを人工的に増加させ、改良されたニューラルネットワークが得られる。 本稿では,非剛性物体の立ち上がりに対する力係数をアルゴリズム的に推定し,他の領域に一般化し,大規模データセットを生成するための新しい枠組みを提案する。 我々は,非剛体物体の発射軌道を正確にモデル化し,それらが一連の目標に達するかどうかを予測するための,新しいトレーニングアルゴリズムと目的を実装した。 実験結果は,力係数推定によるシミュレーションデータの有効性を示し,ニューラルネットワークの学習におけるシミュレーションデータの重要性を示す。

Modeling of non-rigid object launching and manipulation is complex considering the wide range of dynamics affecting trajectory, many of which may be unknown. Using physics models can be inaccurate because they cannot account for unknown factors and the effects of the deformation of the object as it is launched; moreover, deriving force coefficients for these models is not possible without extensive experimental testing. Recently, advancements in data-powered artificial intelligence methods have allowed learnable models and systems to emerge. It is desirable to train a model for launch prediction on a robot, as deep neural networks can account for immeasurable dynamics. However, the inability to collect large amounts of experimental data decreases performance of deep neural networks. Through estimating force coefficients, the accepted physics models can be leveraged to produce adequate supplemental data to artificially increase the size of the training set, yielding improved neural networks. In this paper, we introduce a new framework for algorithmic estimation of force coefficients for non-rigid object launching, which can be generalized to other domains, in order to generate large datasets. We implement a novel training algorithm and objective for our deep neural network to accurately model launch trajectory of non-rigid objects and predict whether they will hit a series of targets. Our experimental results demonstrate the effectiveness of using simulated data from force coefficient estimation and shows the importance of simulated data for training an effective neural network.
翻訳日:2021-06-06 11:55:27 公開日:2021-05-28
# 経済リスクを最小化する自律トラックの短期保守計画

Short-term Maintenance Planning of Autonomous Trucks for Minimizing Economic Risk ( http://arxiv.org/abs/2106.01871v1 )

ライセンス: Link先を確認
Xin Tao, Jonas M{\aa}rtensson, H{\aa}kan Warnquist, Anna Pernest{\aa}l(参考訳) 新しい自動運転技術が毎日登場しており、そのいくつかは現実世界で商業的に利用されている。 これらの技術から恩恵を受ける一方で、自律トラックは短期の保守計画において新たな課題に直面しており、これはトラックオペレーターの利益に直接影響を及ぼす。 本稿では、輸送ミッションにおける自律トラックの保守計画問題に対処することにより、車両の健康管理システムを実現する。 また,リスクに基づく意思決定手法を用いて,トラック会社の経済リスクを最小限に抑えたメンテナンス計画モデルを提案する。 経済リスクを評価する際に、可用性損失とメンテナンスコストの両方を考慮する。 実世界のシナリオを実証する数値実験により,提案手法を実証する。 実験では,3つの基準法と比較して,提案手法の経済リスクを最大4,7 %まで低減した。 また、異なるモデルパラメータの感度解析を行う。 分析の結果, 生活継続量の推定精度, 注文キャンセル前の配送遅延の最大許容時間, ワークショップ数の増加により, 経済リスクは著しく低下した。 この実験結果は、経済的観点から自律走行トラックの今後の研究と開発への注目を特定するのに寄与する。

New autonomous driving technologies are emerging every day and some of them have been commercially applied in the real world. While benefiting from these technologies, autonomous trucks are facing new challenges in short-term maintenance planning, which directly influences the truck operator's profit. In this paper, we implement a vehicle health management system by addressing the maintenance planning issues of autonomous trucks on a transport mission. We also present a maintenance planning model using a risk-based decision-making method, which identifies the maintenance decision with minimal economic risk of the truck company. Both availability losses and maintenance costs are considered when evaluating the economic risk. We demonstrate the proposed model by numerical experiments illustrating real-world scenarios. In the experiments, compared to three baseline methods, the expected economic risk of the proposed method is reduced by up to $47\%$. We also conduct sensitivity analyses of different model parameters. The analyses show that the economic risk significantly decreases when the estimation accuracy of remaining useful life, the maximal allowed time of delivery delay before order cancellation, or the number of workshops increases. The experiment results contribute to identifying future research and development attentions of autonomous trucks from an economic perspective.
翻訳日:2021-06-06 08:55:34 公開日:2021-05-28
# (参考訳) 早産児の脳波発作検出のための深層学習 [全文訳有]

Deep Learning for EEG Seizure Detection in Preterm Infants ( http://arxiv.org/abs/2106.00611v1 )

ライセンス: CC BY 4.0
Alison OShea, Rehan Ahmed, Gordon Lightbody, Sean Mathieson, Elena Pavlidis, Rhodri Lloyd, Francesco Pisani, Willian Marnane, Geraldine Boylan, Andriy Temko(参考訳) eegは新生児の発作検出のための金の標準であるが、初期群における脳波の解釈は特に困難であり、訓練された専門家は不足しており、脳波をリアルタイムで解釈する作業は困難である。 早期の乳児は、長期の乳児に比べて発作の発生率が高いと報告されている。 脳波の短期的形態は、幼児期と異なり、脳波で訓練された発作検出アルゴリズムが適切でない可能性がある。 事前特定アルゴリズムを開発するタスクは、注釈付き事前脳波データの限られた量を考慮すれば、余計に複雑になる。 本稿では,乳幼児の新生児発作検出のための新しい深層学習(DL)アーキテクチャについて検討する。 この研究は、この問題に対処するためのいくつかのアプローチをテストし比較する: フルタイムの幼児のデータに関するトレーニング、プレタイムの幼児のデータに関するトレーニング、年齢固有の事前データに関するトレーニング、トランスファーラーニング。 持続時間575hの連続脳波記録の大規模なデータベース上でシステム性能を評価する。 支援ベクターマシン分類器に基づく検証された脳波発作検出アルゴリズムの精度は, 未熟児でのテストでは, 実児で達成した性能にかなり及ばないことが示された。 早期脳波検査では88.3%が得られたが、短期脳波検査では96.6%が得られた。 初期脳波で再訓練すると、パフォーマンスはわずかに89.7%向上する。 代替のDLアプローチは、事前のコホートでテストする際のより安定した傾向を示し、項訓練されたアルゴリズムのAUCは93.3%から始まり、利用可能な事前データを使用して用語モデルからの移行学習によって95.0%に達する。

EEG is the gold standard for seizure detection in the newborn infant, but EEG interpretation in the preterm group is particularly challenging; trained experts are scarce and the task of interpreting EEG in real-time is arduous. Preterm infants are reported to have a higher incidence of seizures compared to term infants. Preterm EEG morphology differs from that of term infants, which implies that seizure detection algorithms trained on term EEG may not be appropriate. The task of developing preterm specific algorithms becomes extra-challenging given the limited amount of annotated preterm EEG data available. This paper explores novel deep learning (DL) architectures for the task of neonatal seizure detection in preterm infants. The study tests and compares several approaches to address the problem: training on data from full-term infants; training on data from preterm infants; training on age-specific preterm data and transfer learning. The system performance is assessed on a large database of continuous EEG recordings of 575h in duration. It is shown that the accuracy of a validated term-trained EEG seizure detection algorithm, based on a support vector machine classifier, when tested on preterm infants falls well short of the performance achieved for full-term infants. An AUC of 88.3% was obtained when tested on preterm EEG as compared to 96.6% obtained when tested on term EEG. When re-trained on preterm EEG, the performance marginally increases to 89.7%. An alternative DL approach shows a more stable trend when tested on the preterm cohort, starting with an AUC of 93.3% for the term-trained algorithm and reaching 95.0% by transfer learning from the term model using available preterm data.
翻訳日:2021-06-06 08:05:32 公開日:2021-05-28
# (参考訳) KVT: ビジョン変換器の強化のためのk-NNアテンション [全文訳有]

KVT: k-NN Attention for Boosting Vision Transformers ( http://arxiv.org/abs/2106.00515v1 )

ライセンス: CC BY 4.0
Pichao Wang and Xue Wang and Fan Wang and Ming Lin and Shuning Chang and Wen Xie and Hao Li and Rong Jin(参考訳) 畳み込みニューラルネットワーク(CNN)は、局所性と翻訳不変性を捉える能力のため、コンピュータビジョンを支配してきた。 近年,視覚トランスフォーマーアーキテクチャが提案され,有望な性能を示している。 vision transformersの重要なコンポーネントは、長距離依存関係のモデリングにおいてcnnよりも強力な、完全接続されたセルフアテンションである。 しかし、現在の密集した自己注意は注意行列を計算するためにすべてのイメージパッチ(トークン)を使用するため、画像パッチの局所性を無視し、ノイズの多いトークン(例えば、背景や閉塞)を伴い、訓練プロセスが遅くなり、性能が低下する可能性がある。 これらの問題に対処するため,我々は視覚トランスフォーマーを増加させるために,k-nn attention と呼ばれる分散注意スキームを提案する。 具体的には、アテンション行列計算のためのトークンを全て含む代わりに、各クエリのキーからトップkの類似トークンを選択してアテンションマップを計算する。 提案したk-NNの注意は、近くのトークンが他のトークンと似ている傾向があるため、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。 さらに、k-nnの注意は、長距離相関の探索を可能にすると同時に、画像全体から最も類似したトークンを選択することで、無関係なトークンをフィルタリングする。 その単純さにもかかわらず、理論的にも経験的にも、$k$-NNの注意は入力トークンからのノイズの蒸留やトレーニングの高速化に強力である。 10種類の異なる視覚トランスフォーマーアーキテクチャを用いて、提案するk-nnの注意が既存のトランスフォーマーアーキテクチャと動作し、予測性能を向上させることを検証した。

Convolutional Neural Networks (CNNs) have dominated computer vision for years, due to its ability in capturing locality and translation invariance. Recently, many vision transformer architectures have been proposed and they show promising performance. A key component in vision transformers is the fully-connected self-attention which is more powerful than CNNs in modelling long range dependencies. However, since the current dense self-attention uses all image patches (tokens) to compute attention matrix, it may neglect locality of images patches and involve noisy tokens (e.g., clutter background and occlusion), leading to a slow training process and potentially degradation of performance. To address these problems, we propose a sparse attention scheme, dubbed k-NN attention, for boosting vision transformers. Specifically, instead of involving all the tokens for attention matrix calculation, we only select the top-k similar tokens from the keys for each query to compute the attention map. The proposed k-NN attention naturally inherits the local bias of CNNs without introducing convolutional operations, as nearby tokens tend to be more similar than others. In addition, the k-NN attention allows for the exploration of long range correlation and at the same time filter out irrelevant tokens by choosing the most similar tokens from the entire image. Despite its simplicity, we verify, both theoretically and empirically, that $k$-NN attention is powerful in distilling noise from input tokens and in speeding up training. Extensive experiments are conducted by using ten different vision transformer architectures to verify that the proposed k-NN attention can work with any existing transformer architectures to improve its prediction performance.
翻訳日:2021-06-06 05:10:13 公開日:2021-05-28
# (参考訳) 2ストリーム畳み込みオートエンコーダを用いたマウス行動異常の教師なし検出 [全文訳有]

Unsupervised detection of mouse behavioural anomalies using two-stream convolutional autoencoders ( http://arxiv.org/abs/2106.00598v1 )

ライセンス: CC BY 4.0
Ezechukwu I Nwokedi, Rasneer S Bains, Luc Bidaut, Sara Wells, Xujiong Ye, James M Brown(参考訳) 本稿では,教師なし学習のマウスビデオデータにおける異常検出への応用について検討する。 この論文で提示された2つのモデルは、デュアルストリーム、3d畳み込みオートエンコーダ(残留接続付き)とデュアルストリームの2d畳み込みオートエンコーダである。 ここで使用される公開データセットには、フレームレベルのアノテーションとともに、シングルホームケージマウスの12のビデオが含まれている。 オートエンコーダが通常のイベントのみを見るという前提の下で、ビデオデータは、各動作を擬似異常として扱うために手作りされ、トレーニング中に他の事象から排除された。 結果は1つの目立たない行動(hang)と1つの目立たない行動(groom)に対して示される。 これらのモデルのパフォーマンスは、カスタムcaeに基づいた単一のストリームオートエンコーダと教師付き学習モデルと比較される。 どちらのモデルもCUHK Avenueデータセットでテストされ、いくつかの最先端アーキテクチャと同様に動作することが判明した。

This paper explores the application of unsupervised learning to detecting anomalies in mouse video data. The two models presented in this paper are a dual-stream, 3D convolutional autoencoder (with residual connections) and a dual-stream, 2D convolutional autoencoder. The publicly available dataset used here contains twelve videos of single home-caged mice alongside frame-level annotations. Under the pretext that the autoencoder only sees normal events, the video data was handcrafted to treat each behaviour as a pseudo-anomaly thereby eliminating them from the others during training. The results are presented for one conspicuous behaviour (hang) and one inconspicuous behaviour (groom). The performance of these models is compared to a single stream autoencoder and a supervised learning model, which are both based on the custom CAE. Both models are also tested on the CUHK Avenue dataset were found to perform as well as some state-of-the-art architectures.
翻訳日:2021-06-06 04:19:07 公開日:2021-05-28
# (参考訳) ダークマシンの異常スコア問題:大型ハドロン衝突型加速器のベンチマークデータとモデル独立イベント分類

The Dark Machines Anomaly Score Challenge: Benchmark Data and Model Independent Event Classification for the Large Hadron Collider ( http://arxiv.org/abs/2105.14027v1 )

ライセンス: CC BY 4.0
T. Aarrestad, M. van Beekveld, M. Bona, A. Boveia, S. Caron, J. Davies, A. De Simone, C. Doglioni, J.M. Duarte, A. Farbin, H. Gupta, L. Hendriks, L. Heinrich, J. Howarth, P. Jawahar, A. Jueid, J. Lastow, A. Leinweber, J. Mamuzic, E. Mer\'enyi, A. Morandini, P. Moskvitina, C. Nellist, J. Ngadiuba, B. Ostdiek, M. Pierini, B. Ravina, R. Ruiz de Austri, S. Sekmen, M. Touranakou, M. Va\v{s}kevi\v{c}i\=ute, R. Vilalta, J.R. Vlimant, R. Verheyen, M. White, E. Wulff, E. Wallin, K.A. Wozniak, Z. Zhang(参考訳) 我々は、Dark Machines InitiativeとLes Houches 2019 Workshop on Physics at TeV Colllidersで実施されたデータチャレンジの結果について説明する。 この課題は、教師なし機械学習アルゴリズムを使用してLHCで新しい物理信号を検出することを目的としている。 まず,lhc探索におけるモデル非依存な信号領域を定義するために,異常スコアをどのように実装するかを提案する。 10~\rm{fb}^{-1}$の陽子-陽子衝突に対応する10億以上のlhcを13tevの中心エネルギーでシミュレートした、大規模なベンチマークデータセットを定義し、記述する。 次に,データ課題の文脈で開発された様々な異常検出および密度推定アルゴリズムを概説し,現実的な分析環境においてそれらの性能を測定する。 我々は、LHCの第3回実施中に、教師なしの新しい物理探索の開発に役立つ有用な結論を数多く導き、将来の研究のためのベンチマークデータセットをhttps://www.phenoMLd ata.orgで提供している。 解析を再現するコードはhttps://github.com/b ostdiek/DarkMachines -UnsupervisedChallen geにある。

We describe the outcome of a data challenge conducted as part of the Dark Machines Initiative and the Les Houches 2019 workshop on Physics at TeV colliders. The challenged aims at detecting signals of new physics at the LHC using unsupervised machine learning algorithms. First, we propose how an anomaly score could be implemented to define model-independent signal regions in LHC searches. We define and describe a large benchmark dataset, consisting of >1 Billion simulated LHC events corresponding to $10~\rm{fb}^{-1}$ of proton-proton collisions at a center-of-mass energy of 13 TeV. We then review a wide range of anomaly detection and density estimation algorithms, developed in the context of the data challenge, and we measure their performance in a set of realistic analysis environments. We draw a number of useful conclusions that will aid the development of unsupervised new physics searches during the third run of the LHC, and provide our benchmark dataset for future studies at https://www.phenoMLd ata.org. Code to reproduce the analysis is provided at https://github.com/b ostdiek/DarkMachines -UnsupervisedChallen ge.
翻訳日:2021-06-06 04:14:18 公開日:2021-05-28
# (参考訳) 大規模ランク1半定緩和のためのスペクトル頂点に沿ったSTRIDE [全文訳有]

STRIDE along Spectrahedral Vertices for Solving Large-Scale Rank-One Semidefinite Relaxations ( http://arxiv.org/abs/2105.14033v1 )

ライセンス: CC BY 4.0
Heng Yang, Ling Liang, Kim-Chuan Toh, Luca Carlone(参考訳) 階数1の最適解を持つ非凸多項式最適化問題(POP)の高次半定値プログラミング(SDP)緩和を考察する。 POPから独立してSDPを解く既存のアプローチは、そのようなSDPの典型的な退化によって、大きな問題にスケールできないか、あるいは緩やかな収束に苦しむことができない。 本稿では,非凸POP上の高速局所探索と凸SDP上のグローバル降下をブレンドする,SpecTrahedral pRoximal gradIent Descent along vErtices (STRIDE)と呼ばれる新しいアルゴリズムフレームワークを提案する。 具体的には、SDPを解くための近位勾配法(PGM)によって駆動されるグローバルな収束軌道に従っており、同時にPOP上の高速非線形プログラミングアルゴリズムによって生成される、長いが安全に守られたランクワンの「ストライド」を探索して、高速降下を求める。 我々はSTRIDEがグローバルに収束していることを証明する。 与えられた点をSDPの実行可能な集合に投影するサブプロブレムを解決するため、連続的な微分不可能な最適化としてプロジェクションステップを再構成し、限られたメモリBFGS法を適用してスケーラビリティと精度を両立させる。 機械学習とコンピュータビジョンの2つの重要な応用から生じる2次SDP緩和を解くための数値実験を行う。 STRIDEは5つの既存のSDP解決器の多種多様な集合を支配しており、数百万の等式制約が存在する場合でも、階数1のSDPを高精度に解ける唯一の解法である(KKT残基は1e-9以下)。

We consider solving high-order semidefinite programming (SDP) relaxations of nonconvex polynomial optimization problems (POPs) that admit rank-one optimal solutions. Existing approaches, which solve the SDP independently from the POP, either cannot scale to large problems or suffer from slow convergence due to the typical degeneracy of such SDPs. We propose a new algorithmic framework, called SpecTrahedral pRoximal gradIent Descent along vErtices (STRIDE), that blends fast local search on the nonconvex POP with global descent on the convex SDP. Specifically, STRIDE follows a globally convergent trajectory driven by a proximal gradient method (PGM) for solving the SDP, while simultaneously probing long, but safeguarded, rank-one "strides", generated by fast nonlinear programming algorithms on the POP, to seek rapid descent. We prove STRIDE has global convergence. To solve the subproblem of projecting a given point onto the feasible set of the SDP, we reformulate the projection step as a continuously differentiable unconstrained optimization and apply a limited-memory BFGS method to achieve both scalability and accuracy. We conduct numerical experiments on solving second-order SDP relaxations arising from two important applications in machine learning and computer vision. STRIDE dominates a diverse set of five existing SDP solvers and is the only solver that can solve degenerate rank-one SDPs to high accuracy (e.g., KKT residuals below 1e-9), even in the presence of millions of equality constraints.
翻訳日:2021-06-06 04:12:56 公開日:2021-05-28
# (参考訳) プログラムグラフをプログレッシブコードに拡張する学習 [全文訳有]

Learning to Extend Program Graphs to Work-in-Progress Code ( http://arxiv.org/abs/2105.14038v1 )

ライセンス: CC BY 4.0
Xuechen Li, Chris J. Maddison, Daniel Tarlow(参考訳) ソースコードは、ほとんどの時間を、ソフトウェア開発中に壊れ、あるいは不完全な状態で過ごします。 ハイパフォーマンスモデルは通常、従来のプログラム分析から派生したプログラムのグラフ構造化表現に依存するため、コードに対する機械学習の課題が提示される。 このような解析は、壊れているコードや不完全なコードについては定義できない。 プログラムグラフの概念をワークインプログレッシブコードに拡張し,トークン間のエッジ関係を予測し,トレーニングを行い,ワークインプログレッシブコードに移行する。 作業中のシナリオにおいて、コード補完のタスクと変数の不正使用のローカライズと修復について検討する。 エッジを微調整したリレーショナルアウェアモデルでは,両タスクにおけるパフォーマンスが一貫して向上することを示す。

Source code spends most of its time in a broken or incomplete state during software development. This presents a challenge to machine learning for code, since high-performing models typically rely on graph structured representations of programs derived from traditional program analyses. Such analyses may be undefined for broken or incomplete code. We extend the notion of program graphs to work-in-progress code by learning to predict edge relations between tokens, training on well-formed code before transferring to work-in-progress code. We consider the tasks of code completion and localizing and repairing variable misuse in a work-in-process scenario. We demonstrate that training relation-aware models with fine-tuned edges consistently leads to improved performance on both tasks.
翻訳日:2021-06-06 03:45:31 公開日:2021-05-28
# (参考訳) 圧縮による公平表現 [全文訳有]

Fair Representations by Compression ( http://arxiv.org/abs/2105.14044v1 )

ライセンス: CC BY 4.0
Xavier Gitiaux, Huzefa Rangwala(参考訳) データの収集と販売を行う組織は、データの差別的利用に対する精査が増えている。 本研究では,機密属性に依存しない圧縮バイナリ表現へ変換する新しい教師なし手法を提案する。 情報ボトルネックの枠組みでは,機密属性に関する情報をデコーダに直接提供した場合,情報表現がフィルタリングすべきであることを示す。 実験の結果,提案手法は最先端の精度・公正トレードオフを実現する。 表現ビットストリームのエントロピーの明示的な制御により、ユーザはレート歪みとレートフェアネス曲線の両方に沿ってスムーズに同時に移動することができる。 \end{abstract}

Organizations that collect and sell data face increasing scrutiny for the discriminatory use of data. We propose a novel unsupervised approach to transform data into a compressed binary representation independent of sensitive attributes. We show that in an information bottleneck framework, a parsimonious representation should filter out information related to sensitive attributes if they are provided directly to the decoder. Empirical results show that the proposed method, \textbf{FBC}, achieves state-of-the-art accuracy-fairness trade-off. Explicit control of the entropy of the representation bit stream allows the user to move smoothly and simultaneously along both rate-distortion and rate-fairness curves. \end{abstract}
翻訳日:2021-06-06 03:25:37 公開日:2021-05-28
# (参考訳) 対称性駆動グラフニューラルネットワーク [全文訳有]

Symmetry-driven graph neural networks ( http://arxiv.org/abs/2105.14058v1 )

ライセンス: CC BY 4.0
Francesco Farina, Emma Slade(参考訳) データの爆発的対称性と不変性は、より効率的でより良い一般化を実現するための、強力だが完全には利用されていない方法である。 本稿では,ノード座標に影響を及ぼす数種類の変換に等価な2つのグラフネットワークアーキテクチャを提案する。 まず、近傍ノード間の距離を保つ座標埋め込みの任意の変換に同分散を構築し、ユークリッド群への同分散を可能にする。 次に、任意の角度保存変換(つまり共形群)に対する同値性を構築するために角度属性を導入する。 それらの同値性のおかげで、提案モデルは古典的なグラフアーキテクチャに対してはるかに効率的なデータとなり、本質的にはより優れた帰納バイアスと一般化の精度を備える。 n$-d の幾何学的対象からなる合成データセットでこれらの能力を示す。 さらに、(正しい)対称性がデータに存在しない場合の制限の例を示す。

Exploiting symmetries and invariance in data is a powerful, yet not fully exploited, way to achieve better generalisation with more efficiency. In this paper, we introduce two graph network architectures that are equivariant to several types of transformations affecting the node coordinates. First, we build equivariance to any transformation in the coordinate embeddings that preserves the distance between neighbouring nodes, allowing for equivariance to the Euclidean group. Then, we introduce angle attributes to build equivariance to any angle preserving transformation - thus, to the conformal group. Thanks to their equivariance properties, the proposed models can be vastly more data efficient with respect to classical graph architectures, intrinsically equipped with a better inductive bias and better at generalising. We demonstrate these capabilities on a synthetic dataset composed of $n$-dimensional geometric objects. Additionally, we provide examples of their limitations when (the right) symmetries are not present in the data.
翻訳日:2021-06-06 03:07:42 公開日:2021-05-28
# (参考訳) TransCamP: 6-DoFカメラポース推定用グラフ変換器 [全文訳有]

TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation ( http://arxiv.org/abs/2105.14065v1 )

ライセンス: CC BY 4.0
Xinyi Li, Haibin Ling(参考訳) カメラのポーズ推定やカメラの再ローカライズは、視覚のオドメトリ、運動による構造(sfm)、スラムなど多くのコンピュータビジョンタスクの中心である。 本稿では,カメラ再配置問題に対処するために,グラフトランスフォーマーバックボーン,すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。 ポーズ回帰が主に測光一貫性によって導かれる以前の作業とは対照的に、TransCamPは画像特徴、カメラポーズ情報、フレーム間カメラモーションを符号化されたグラフ属性に効果的に融合し、代わりにグラフの一貫性と精度に向けて訓練し、計算効率を大幅に向上させる。 グラフトランスフォーマー層をエッジ特性で利用し、テンソル化した隣接行列を有効にすることにより、TransCamPはグローバルな注目を動的に捕捉し、ポーズグラフに進化する構造を付与し、堅牢性と精度の向上を実現する。 さらに、任意の時間変換器層は、逐次入力の時空間間関係を積極的に強化する。 提案したネットワークの評価は,TransCamPが最先端のアプローチより優れていることを示す。

Camera pose estimation or camera relocalization is the centerpiece in numerous computer vision tasks such as visual odometry, structure from motion (SfM) and SLAM. In this paper we propose a neural network approach with a graph transformer backbone, namely TransCamP, to address the camera relocalization problem. In contrast with prior work where the pose regression is mainly guided by photometric consistency, TransCamP effectively fuses the image features, camera pose information and inter-frame relative camera motions into encoded graph attributes and is trained towards the graph consistency and accuracy instead, yielding significantly higher computational efficiency. By leveraging graph transformer layers with edge features and enabling tensorized adjacency matrix, TransCamP dynamically captures the global attention and thus endows the pose graph with evolving structures to achieve improved robustness and accuracy. In addition, optional temporal transformer layers actively enhance the spatiotemporal inter-frame relation for sequential inputs. Evaluation of the proposed network on various public benchmarks demonstrates that TransCamP outperforms state-of-the-art approaches.
翻訳日:2021-06-06 02:37:52 公開日:2021-05-28
# (参考訳) UCPhrase:unsupervise d Context-aware Quality Phrase Tagging [全文訳有]

UCPhrase: Unsupervised Context-aware Quality Phrase Tagging ( http://arxiv.org/abs/2105.14078v1 )

ライセンス: CC BY 4.0
Xiaotao Gu, Zihan Wang, Zhenyu Bi, Yu Meng, Liyuan Liu, Jiawei Han, Jingbo Shang(参考訳) テキストマイニングでは,コンテキストから品質フレーズを識別し理解することが基本課題である。 このタスクの最も難しい部分は、おそらく、珍しい、新しい、ドメイン固有のフレーズにある。 これらの句の頻度の低い性質は、入力コーパスで十分なフレーズ発生に依存するフレーズマイニング手法の性能を著しく損なう。 文脈対応のタグ付けモデルは、頻度に制限されないが、大量の文レベルの金のラベルや手作りのガゼッタにドメインの専門家に大きく依存している。 本研究では,新しい教師なし文脈認識型文タガー ucphrase を提案する。 具体的には、各文書内の単語列を一貫して共起させることにより、高品質なフレーズを銀ラベルとして表現する。 既存の知識ベース(KB)に基づく一般的な文脈非依存の遠隔監視と比較すると、銀ラベルは入力領域と文脈に深く根付いており、文脈完全性を保ち、出現しないKB句をキャプチャするという点でユニークな利点がある。 銀ラベルに基づく従来のニューラルタグのトレーニングは通常、フレーズ表面の名前が過度に適合するリスクに直面している。 また,トランスフォーマティブ・ニューラル・ランゲージ・モデルから生成された文脈対応アテンション・マップは,単語間の接続を表面非依存的に効果的に明らかにする。 そこで,このような注目マップを銀ラベルと組み合わせて軽量なスパン予測モデルを訓練し,新しい入力に適用して,その表面の名前や頻度に関わらず,(目に見えない)品質フレーズを認識する。 コーパスレベルのフレーズランキング、文書レベルのキーフレーズ抽出、文レベルのフレーズタグ付けなど、さまざまなタスクやデータセットに関する詳細な実験は、最先端の事前訓練、教師なし、遠隔管理手法よりも設計が優れていることを示す。

Identifying and understanding quality phrases from context is a fundamental task in text mining. The most challenging part of this task arguably lies in uncommon, emerging, and domain-specific phrases. The infrequent nature of these phrases significantly hurts the performance of phrase mining methods that rely on sufficient phrase occurrences in the input corpus. Context-aware tagging models, though not restricted by frequency, heavily rely on domain experts for either massive sentence-level gold labels or handcrafted gazetteers. In this work, we propose UCPhrase, a novel unsupervised context-aware quality phrase tagger. Specifically, we induce high-quality phrase spans as silver labels from consistently co-occurring word sequences within each document. Compared with typical context-agnostic distant supervision based on existing knowledge bases (KBs), our silver labels root deeply in the input domain and context, thus having unique advantages in preserving contextual completeness and capturing emerging, out-of-KB phrases. Training a conventional neural tagger based on silver labels usually faces the risk of overfitting phrase surface names. Alternatively, we observe that the contextualized attention maps generated from a transformer-based neural language model effectively reveal the connections between words in a surface-agnostic way. Therefore, we pair such attention maps with the silver labels to train a lightweight span prediction model, which can be applied to new input to recognize (unseen) quality phrases regardless of their surface names or frequency. Thorough experiments on various tasks and datasets, including corpus-level phrase ranking, document-level keyphrase extraction, and sentence-level phrase tagging, demonstrate the superiority of our design over state-of-the-art pre-trained, unsupervised, and distantly supervised methods.
翻訳日:2021-06-06 02:21:02 公開日:2021-05-28
# (参考訳) Bh\=a$\unicode{x1E63}$\=acitra: 南アジアの方言地理を視覚化する [全文訳有]

Bh\=a$\unicode{x1E63}$\=acitra: Visualising the dialect geography of South Asia ( http://arxiv.org/abs/2105.14082v1 )

ライセンス: CC BY-SA 4.0
Aryaman Arora, Adam Farris, Gopalakrishnan R, Samopriya Basu(参考訳) Bh\=a$\unicode{x1E63}$\=acitraは、トピックや位置情報に注釈を付けた地域の言語研究のデータベース上に構築された南アジアの方言マッピングシステムである。 我々は、言語カバレッジを分析し、サンプルデータセットを視覚化することで、型論への応用に目を向ける。 このアプリケーションは、機能マッピングに有用であるだけでなく、南アジア言語の言語学者のための新しい種類のインタラクティブな書誌としても機能する。

We present Bh\=a$\unicode{x1E63}$\=acitra, a dialect mapping system for South Asia built on a database of linguistic studies of languages of the region annotated for topic and location data. We analyse language coverage and look towards applications to typology by visualising example datasets. The application is not only meant to be useful for feature mapping, but also serves as a new kind of interactive bibliography for linguists of South Asian languages.
翻訳日:2021-06-06 01:50:42 公開日:2021-05-28
# (参考訳) 支持ベクトルマシンと線形回帰は非常に高次元的特徴に一致する

Support vector machines and linear regression coincide with very high-dimensional features ( http://arxiv.org/abs/2105.14084v1 )

ライセンス: CC BY 4.0
Navid Ardeshir, Clayton Sanford, Daniel Hsu(参考訳) サポートベクトルマシン (svm) と最小ユークリッドノルム最小二乗回帰 (minimum euclidean norm least squares regression) は、線形モデルに適合する基本的な2つのアプローチであるが、最近は、svmに適合するトレーニング例がサポートベクトルとなるサポートベクトル増殖現象を通じて、非常に高次元データのためのモデルに接続されている。 本稿では,この現象の一般性を調査し,以下の貢献を行う。 まず、独立特徴モデルにおけるベクトル拡散を支援するために必要となる次元(サンプルサイズの観点から)の超線形下界を証明し、以前の研究から得られる上限と一致する。 さらに,ガウス特徴モデルの鋭い相転移を同定し,この転移の幅を限定し,その普遍性を実験的に支援する。 最後に、この相転移はsvmの$\ell_1$変種において非常に高次元な設定でのみ起こると仮定し、一般的な$\ell_p$の場合においてこの現象を解明する新たな幾何学的特徴付けを提案する。

The support vector machine (SVM) and minimum Euclidean norm least squares regression are two fundamentally different approaches to fitting linear models, but they have recently been connected in models for very high-dimensional data through a phenomenon of support vector proliferation, where every training example used to fit an SVM becomes a support vector. In this paper, we explore the generality of this phenomenon and make the following contributions. First, we prove a super-linear lower bound on the dimension (in terms of sample size) required for support vector proliferation in independent feature models, matching the upper bounds from previous works. We further identify a sharp phase transition in Gaussian feature models, bound the width of this transition, and give experimental support for its universality. Finally, we hypothesize that this phase transition occurs only in much higher-dimensional settings in the $\ell_1$ variant of the SVM, and we present a new geometric characterization of the problem that may elucidate this phenomenon for the general $\ell_p$ case.
翻訳日:2021-06-06 01:43:26 公開日:2021-05-28
# (参考訳) Cloud Collectives: ランクリオーダを備えたMLワークロードのためのクラウド対応コレクタ [全文訳有]

Cloud Collectives: Towards Cloud-aware Collectives forML Workloads with Rank Reordering ( http://arxiv.org/abs/2105.14088v1 )

ライセンス: CC BY 4.0
Liang Luo, Jacob Nelson, Arvind Krishnamurthy, Luis Ceze(参考訳) MLワークロードは、クラウドでますます人気が高まっている。 優れたクラウドトレーニング性能は、VM間の効率的なパラメータ交換に依存している。 We find that Collectives, the widely used distributed communication algorithms, cannot perform optimally out of the box due to the hierarchical topology of datacenter networks and multi-tenancy nature of the cloudenvironment.In this paper, we present Cloud Collectives , a prototype that accelerates collectives by reordering theranks of participating VMs such that the communication pattern dictated by the selected collectives operation best exploits the locality in the network.Collectives is non-intrusive, requires no code changes nor rebuild of an existing application, and runs without support from cloud providers. パブリッククラウドにおけるallreduce操作に対するクラウド集団の予備的適用により、複数のマイクロベンチマークで最大3.7倍、ディープニューラルネットワークの分散トレーニングで実世界のワークロードで1.3倍、最先端のフレームワークを使用して勾配強化決定木で最大3.7倍のスピードアップを実現しています。

ML workloads are becoming increasingly popular in the cloud. Good cloud training performance is contingent on efficient parameter exchange among VMs. We find that Collectives, the widely used distributed communication algorithms, cannot perform optimally out of the box due to the hierarchical topology of datacenter networks and multi-tenancy nature of the cloudenvironment.In this paper, we present Cloud Collectives , a prototype that accelerates collectives by reordering theranks of participating VMs such that the communication pattern dictated by the selected collectives operation best exploits the locality in the network.Collectives is non-intrusive, requires no code changes nor rebuild of an existing application, and runs without support from cloud providers. Our preliminary application of Cloud Collectives on allreduce operations in public clouds results in a speedup of up to 3.7x in multiple microbenchmarks and 1.3x in real-world workloads of distributed training of deep neural networks and gradient boosted decision trees using state-of-the-art frameworks.
翻訳日:2021-06-06 01:41:35 公開日:2021-05-28
# (参考訳) Few-Shot Meta-Learningにおける実践とPAC-Bayes理論のギャップを埋める [全文訳有]

Bridging the Gap Between Practice and PAC-Bayes Theory in Few-Shot Meta-Learning ( http://arxiv.org/abs/2105.14099v1 )

ライセンス: CC BY 4.0
Nan Ding, Xi Chen, Tomer Levinboim, Sebastian Goodman, Radu Soricut(参考訳) 近年の理論的理解の進歩にもかかわらず、メタラーニングにおける既存のPAC-ベイジアン理論が、目標タスクにおけるトレーニング例の数が著しく制限されている、数ショット学習環境でのパフォーマンス改善を説明する能力には、依然として大きなギャップがある。 このギャップは、観測されたタスクのトレーニングサンプル数と対象タスクのトレーニングサンプル数とが同じ分布に従うという、実際にはほとんど持たない仮定を前提とする、既存の理論の仮定に由来する。 この仮定を緩和することにより、数ショットの学習環境に適した2つのPAC-Bayesian境界を開発し、既存の2つのメタ学習アルゴリズム(MAMLとReptile)が我々の境界から導出可能であることを示す。 さらに,計算効率のよいPACMAMLアルゴリズムを考案し,既存のメタ学習アルゴリズムよりも優れていることを示す。

Despite recent advances in its theoretical understanding, there still remains a significant gap in the ability of existing PAC-Bayesian theories on meta-learning to explain performance improvements in the few-shot learning setting, where the number of training examples in the target tasks is severely limited. This gap originates from an assumption in the existing theories which supposes that the number of training examples in the observed tasks and the number of training examples in the target tasks follow the same distribution, an assumption that rarely holds in practice. By relaxing this assumption, we develop two PAC-Bayesian bounds tailored for the few-shot learning setting and show that two existing meta-learning algorithms (MAML and Reptile) can be derived from our bounds, thereby bridging the gap between practice and PAC-Bayesian theories. Furthermore, we derive a new computationally-effi cient PACMAML algorithm, and show it outperforms existing meta-learning algorithms on several few-shot benchmark datasets.
翻訳日:2021-06-06 01:26:40 公開日:2021-05-28
# (参考訳) more is better: rehearsal-based continual learningにおけるインスタンス量/品質トレードオフの分析 [全文訳有]

More Is Better: An Analysis of Instance Quantity/Quality Trade-off in Rehearsal-based Continual Learning ( http://arxiv.org/abs/2105.14106v1 )

ライセンス: CC BY 4.0
Francesco Pelosin and Andrea Torsello(参考訳) 動的に変化する環境で学習できる機械やアルゴリズムの設計は、学習システムで利用可能なデータのサイズと不均一性の増加によって、ますます話題となっている。 結果として、連続学習の重要な問題は、それまでの知識を忘れずにモデルを適応する必要があるため、コネクショナリストシステムの安定性と塑性のジレンマに対処することにある。 この文脈内では、学習者が過去のデータを再考するためにメモリを利用するソリューションであるリハーサルベースの手法が極めて有効であることが証明され、最先端のパフォーマンスが向上した。 本研究では,メモリに格納可能なインスタンス数を増やすために,様々なデータ削減手法を用いたメモリ量/品質トレードオフの分析を行った。 特に,ディープエンコーダなどの複雑なインスタンス圧縮手法について検討すると同時に,画像のリサイズや線形次元の縮小といった簡単な手法も検討する。 以上の結果から, 最適トレードオフは, 複数インスタンスを圧縮したリハーサルアプローチが, 処理時に同じメモリ量で容易に達成できることが示唆された。 さらに、高メモリ構成では、空間構造を抽出し、極端なリサイズ(8\times 8$画像のオーダー)と組み合わせることで、最高の結果が得られる一方、トレーニングにおけるメモリ要求のためにディープアプローチが使用できないメモリ制約構成では、エクストリームラーニングマシン(ELM)が明らかに有利である。

The design of machines and algorithms capable of learning in a dynamically changing environment has become an increasingly topical problem with the increase of the size and heterogeneity of data available to learning systems. As a consequence, the key issue of Continual Learning has become that of addressing the stability-plasticity dilemma of connectionist systems, as they need to adapt their model without forgetting previously acquired knowledge. Within this context, rehearsal-based methods i.e., solutions in where the learner exploits memory to revisit past data, has proven to be very effective, leading to performance at the state-of-the-art. In our study, we propose an analysis of the memory quantity/quality trade-off adopting various data reduction approaches to increase the number of instances storable in memory. In particular, we investigate complex instance compression techniques such as deep encoders, but also trivial approaches such as image resizing and linear dimensionality reduction. Our findings suggest that the optimal trade-off is severely skewed toward instance quantity, where rehearsal approaches with several heavily compressed instances easily outperform state-of-the-art approaches with the same amount of memory at their disposal. Further, in high memory configurations, deep approaches extracting spatial structure combined with extreme resizing (of the order of $8\times8$ images) yield the best results, while in memory-constrained configurations where deep approaches cannot be used due to their memory requirement in training, Extreme Learning Machines (ELM) offer a clear advantage.
翻訳日:2021-06-06 00:53:30 公開日:2021-05-28
# (参考訳) モジュール型タスクプリミティブを持つ脳における効率的かつ堅牢なマルチタスク学習 [全文訳有]

Efficient and robust multi-task learning in the brain with modular task primitives ( http://arxiv.org/abs/2105.14108v1 )

ライセンス: CC BY 4.0
Christian David Marton, Guillaume Lajoie, Kanaka Rajan(参考訳) 現実世界では、生物エージェントは新しいことを学ぶための無限の資源を持っていない。 したがって、複数の新しいスキルを素早く、よりリソース集約的に獲得できる方法で、以前獲得した知識をリサイクルするのに役立つ。 脳内のニューラルネットワークは、新しいタスクで完全に再訓練されるわけではないが、新しいタスクを学ぶために既存の計算をどのように活用するかはよく理解されていない。 本研究では,よく用いられる神経科学のパラダイムに基づいて学習したニューラルネットワークを用いて,この問題を考察する。 マルチタスク学習文献の最近の研究に基づいて,(1)ネットワークモジュール性,(2)学習タスクプリミティブの2つの要素を提案する。 これらの成分は、それぞれ構造的および機能的と呼ばれる誘導バイアスを形成する。 9つの異なるタスクのコーパスを使用して、タスクプリミティブを備えたモジュールネットワークは、パラメータ数や更新を低く保ちながら、複数のタスクをうまく学習できることを示します。 また,本手法により得られたスキルは,他のマルチタスク学習戦略に比べて幅広い摂動に対してより堅牢であることを示す。 この研究は、脳内で効率的なマルチタスク学習を実現するための新しい視点を提供し、解空間を探索するために標的摂動を用いる新しい神経科学実験のための予測を行う。

In a real-world setting biological agents do not have infinite resources to learn new things. It is thus useful to recycle previously acquired knowledge in a way that allows for faster, less resource-intensive acquisition of multiple new skills. Neural networks in the brain are likely not entirely re-trained with new tasks, but how they leverage existing computations to learn new tasks is not well understood. In this work, we study this question in artificial neural networks trained on commonly used neuroscience paradigms. Building on recent work from the multi-task learning literature, we propose two ingredients: (1) network modularity, and (2) learning task primitives. Together, these ingredients form inductive biases we call structural and functional, respectively. Using a corpus of nine different tasks, we show that a modular network endowed with task primitives allows for learning multiple tasks well while keeping parameter counts, and updates, low. We also show that the skills acquired with our approach are more robust to a broad range of perturbations compared to those acquired with other multi-task learning strategies. This work offers a new perspective on achieving efficient multi-task learning in the brain, and makes predictions for novel neuroscience experiments in which targeted perturbations are employed to explore solution spaces.
翻訳日:2021-06-06 00:34:54 公開日:2021-05-28
# (参考訳) 深層強化学習における客観的ロバスト性 [全文訳有]

Objective Robustness in Deep Reinforcement Learning ( http://arxiv.org/abs/2105.14111v1 )

ライセンス: CC BY 4.0
Jack Koch, Lauro Langosco, Jacob Pfau, James Le, Lee Sharkey(参考訳) 強化学習(RL)における客観的頑健性障害(out-of-distribution robustness failures)について検討した。 目標のロバスト性障害は、rlエージェントがその能力のオフ分散を維持しながら間違った目標を追求するときに発生する。 我々は、客観的な堅牢性障害の最初の明示的な実証を行い、この種の障害は対処に不可欠であると主張する。

We study objective robustness failures, a type of out-of-distribution robustness failure in reinforcement learning (RL). Objective robustness failures occur when an RL agent retains its capabilities off-distribution yet pursues the wrong objective. We provide the first explicit empirical demonstrations of objective robustness failures and argue that this type of failure is critical to address.
翻訳日:2021-06-06 00:10:36 公開日:2021-05-28
# (参考訳) 予測から最適に吸収する [全文訳有]

Towards optimally abstaining from prediction ( http://arxiv.org/abs/2105.14119v1 )

ライセンス: CC BY 4.0
Adam Tauman Kalai, Varun Kanade(参考訳) 機械学習のあらゆる領域に共通する課題は、自然なシフトや"盲点"、あるいは敵の例のために、トレーニングデータがテストデータのように分散されていないことだ。 一定のコストで予測を控えるモデルを考える。 特に,提案アルゴリズムはラベル付きトレーニング例とラベルなしテスト例を入力として,最適な予測損失保証を備えた予測を行う。 損失境界は、テスト例が i.i.d であるときの標準一般化境界と一致する。 トレーニング分布から見て、列車とテスト分布の間の統計的距離(あるいは敵の例のごく一部)を短縮するコストとして追加用語を加える。 線形回帰では,celis-dennis-tapia最適化アルゴリズムに基づく多項式時間アルゴリズムを提案する。 二項分類では、興味のあるクラスに対して適切な学習者(経験的リスク最小化器)を用いて効果的に実装する方法を示す。 本研究は,最近のgoldwasser,kalais,mo ntasser(2020)の帰納的二元分類のためのアブステンションアルゴリズムに基づいている。

A common challenge across all areas of machine learning is that training data is not distributed like test data, due to natural shifts, "blind spots," or adversarial examples. We consider a model where one may abstain from predicting, at a fixed cost. In particular, our transductive abstention algorithm takes labeled training examples and unlabeled test examples as input, and provides predictions with optimal prediction loss guarantees. The loss bounds match standard generalization bounds when test examples are i.i.d. from the training distribution, but add an additional term that is the cost of abstaining times the statistical distance between the train and test distribution (or the fraction of adversarial examples). For linear regression, we give a polynomial-time algorithm based on Celis-Dennis-Tapia optimization algorithms. For binary classification, we show how to efficiently implement it using a proper agnostic learner (i.e., an Empirical Risk Minimizer) for the class of interest. Our work builds on a recent abstention algorithm of Goldwasser, Kalais, and Montasser (2020) for transductive binary classification.
翻訳日:2021-06-05 23:58:03 公開日:2021-05-28
# (参考訳) 不完全情報を用いたデータ駆動組合せ最適化:分布的ロバスト最適化アプローチ

Data-Driven Combinatorial Optimization with Incomplete Information: a Distributionally Robust Optimization Approach ( http://arxiv.org/abs/2105.14139v1 )

ライセンス: CC BY 4.0
Sergey S. Ketkov, Andrei S. Shilov, Oleg A. Prokopyev(参考訳) 本研究では,コストベクトルが事前に分かっていないが有限データセットを通してしか観測できない線形組合せ最適化問題を解析する。 関連する研究とは対照的に、コストベクトルの特定の成分に関する観測回数は異なる可能性があると仮定する。 目的は、データセットを対象関数(予測規則と呼ばれる)の期待値の推定値に変換する手順と、候補決定(処方則と呼ばれる)を取得する手順を見つけることである。 我々は,特定の漸近的保証を満たす控えめな予測と処方規則を見つけることを目指している。 得られたベクトル最適化問題は、分布的に堅牢な最適化問題を解くことで得られる弱最適解を許容することを示した。 具体的には、各確率分布における最悪の損失を、経験的辺縁分布から所定の成分的相対エントロピー距離で最適化することができる。 最後に,提案手法のサンプル外性能を解析するための数値実験を行った。

In this study we analyze linear combinatorial optimization problems where the cost vector is not known a priori, but is only observable through a finite data set. In contrast to the related studies, we presume that the number of observations with respect to particular components of the cost vector may vary. The goal is to find a procedure that transforms the data set into an estimate of the expected value of the objective function (which is referred to as a prediction rule) and a procedure that retrieves a candidate decision (which is referred to as a prescription rule). We aim at finding the least conservative prediction and prescription rules, which satisfy some specified asymptotic guarantees. We demonstrate that the resulting vector optimization problems admit a weakly optimal solution, which can be obtained by solving a particular distributionally robust optimization problem. Specifically, the decision-maker may optimize the worst-case expected loss across all probability distributions with given component-wise relative entropy distances from the empirical marginal distributions. Finally, we perform numerical experiments to analyze the out-of-sample performance of the proposed solution approach.
翻訳日:2021-06-05 23:24:12 公開日:2021-05-28
# マルチモーダル感情分析によるコメディビデオのハイライトタイムスタンプ検出モデル

Highlight Timestamp Detection Model for Comedy Videos via Multimodal Sentiment Analysis ( http://arxiv.org/abs/2106.00451v1 )

ライセンス: Link先を確認
Fan Huang(参考訳) 現在、インターネット上のビデオが普及している。 ビデオの正確かつ詳細な理解は、プラットフォームと研究者双方にとって難しいが価値のある問題だ。 既存のビデオは、オブジェクト認識のタスクでうまく機能するが、コメディビデオのハイライトユーモアフレームのような抽象的かつ文脈的な機能はまだ理解できない。 現在の産業作品は、主に対象物の外観に基づく基本的な分類課題に焦点が当てられている。 抽象カテゴリの特徴検出方法は空白のままである。 ビデオフレーム、オーディオスペクトル、テキストの情報を含むデータ構造は、探索するための新しい方向を提供する。 マルチモーダルモデルは、この深層ビデオ理解ミッションを可能にするために提案されている。 本稿では,ビデオの抽象的理解の難しさを解析し,この分野での最先端性能を得るためのマルチモーダル構造を提案する。 次に,マルチモーダルビデオ理解のためのベンチマークをいくつか選択し,最良性能を求めるために最も適したモデルを適用する。 最後に,本論文におけるモデルと手法の全体的なスポットライトと欠点を評価し,さらなる改善に向けた可能性を示す。

Nowadays, the videos on the Internet are prevailing. The precise and in-depth understanding of the videos is a difficult but valuable problem for both platforms and researchers. The existing video understand models do well in object recognition tasks but currently still cannot understand the abstract and contextual features like highlight humor frames in comedy videos. The current industrial works are also mainly focused on the basic category classification task based on the appearances of objects. The feature detection methods for the abstract category remains blank. A data structure that includes the information of video frames, audio spectrum and texts provide a new direction to explore. The multimodal models are proposed to make this in-depth video understanding mission possible. In this paper, we analyze the difficulties in abstract understanding of videos and propose a multimodal structure to obtain state-of-the-art performance in this field. Then we select several benchmarks for multimodal video understanding and apply the most suitable model to find the best performance. At last, we evaluate the overall spotlights and drawbacks of the models and methods in this paper and point out the possible directions for further improvements.
翻訳日:2021-06-02 14:44:46 公開日:2021-05-28
# シフトバッチNormalizationに基づく整数オンリーニューラルネットワーク量子化スキーム

Integer-Only Neural Network Quantization Scheme Based on Shift-Batch-Normaliz ation ( http://arxiv.org/abs/2106.00127v1 )

ライセンス: Link先を確認
Qingyu Guo, Yuan Wang, Xiaoxin Cui(参考訳) ニューラルネットワークは多くの分野で非常に人気があるが、計算の複雑さが大きいため、限られたリソースを持つデバイス上でのニューラルネットワークの実行は困難である。 この問題に対処するため、量子化手法はモデルのサイズと計算コストを削減し、組み込みプラットフォームやモバイルデバイスでニューラルネットワークを使うことができる。 本稿では,整数のみの量子化スキームを導入する。 このスキームはシフトベースのバッチ正規化と均一な量子化を組み合わせて4ビット整数のみの推論を実装する。 整数乗算(従来の整数のみの量子化法で使用される)がなければ、このスキームは優れたパワーと遅延効率を達成でき、特に共同設計のハードウェアプラットフォームにデプロイするのに適している。 テストは、このスキームが簡単なタスクで非常にうまく機能することを証明した。 そして、厳しいタスクでは、その推論効率のためにパフォーマンス損失を許容することができる。 私たちの作業はgithub.com/hguq/Inte gerNet.comで公開されています。

Neural networks are very popular in many areas, but great computing complexity makes it hard to run neural networks on devices with limited resources. To address this problem, quantization methods are used to reduce model size and computation cost, making it possible to use neural networks on embedded platforms or mobile devices. In this paper, an integer-only-quantiz ation scheme is introduced. This scheme uses one layer that combines shift-based batch normalization and uniform quantization to implement 4-bit integer-only inference. Without big integer multiplication(which is used in previous integer-only-quantiz ation methods), this scheme can achieve good power and latency efficiency, and is especially suitable to be deployed on co-designed hardware platforms. Tests have proved that this scheme works very well for easy tasks. And for tough tasks, performance loss can be tolerated for its inference efficiency. Our work is available on github: https://github.com/h guq/IntegerNet.
翻訳日:2021-06-02 14:14:30 公開日:2021-05-28
# プライベートな学習部分空間

Privately Learning Subspaces ( http://arxiv.org/abs/2106.00001v1 )

ライセンス: Link先を確認
Vikrant Singhal, Thomas Steinke(参考訳) プライベートデータ分析は次元性の高価な呪いに苦しむ。 しかし、データは下層の低次元構造を持つことが多い。 例えば、勾配降下による最適化では、勾配はしばしば低次元部分空間内または近辺にある。 もしその低次元構造が特定できれば、高環境次元に対する(プライバシーや正確性の観点から)支払いを避けることができる。 低次元線形部分空間からサンプリングされた入力データを(おそらく少量の誤差で)取得し、その部分空間(あるいは近似値)を出力する微分プライベートアルゴリズムを提案する。 これらのアルゴリズムは、他の手順の前処理ステップとして機能することができる。

Private data analysis suffers a costly curse of dimensionality. However, the data often has an underlying low-dimensional structure. For example, when optimizing via gradient descent, the gradients often lie in or near a low-dimensional subspace. If that low-dimensional structure can be identified, then we can avoid paying (in terms of privacy or accuracy) for the high ambient dimension. We present differentially private algorithms that take input data sampled from a low-dimensional linear subspace (possibly with a small amount of error) and output that subspace (or an approximation to it). These algorithms can serve as a pre-processing step for other procedures.
翻訳日:2021-06-02 14:03:28 公開日:2021-05-28
# クロスタスク学習のための重み付きトレーニング

Weighted Training for Cross-Task Learning ( http://arxiv.org/abs/2105.14095v1 )

ライセンス: Link先を確認
Shuxiao Chen, Koby Crammer, Hangfeng He, Dan Roth, Weijie J. Su(参考訳) 本稿では,ソースと対象タスク間の表現ベースタスク距離を最小化することに基づく,クロスタスク学習のための重み付けトレーニングアルゴリズムであるtarget-aware weighted training (tawt)を提案する。 TAWTは実装が容易で、計算効率が高く、ハイパーパラメータチューニングがほとんど必要とせず、漸近的でない学習理論の保証を享受できることを示す。 TAWTの有効性は、自然言語処理(NLP)における4つのシーケンスタギングタスクに対するBERTによる広範囲な実験によって裏付けられ、例えば、部分音声タグ付け(PoS)、チャンキング、述語検出、名前付きエンティティ認識(NER)などである。 副産物として提案された表現に基づくタスク距離は、ソースデータの選択や微調整の影響など、クロスタスク学習のいくつかの重要な側面について理論的に原理化された方法で推論することができる。

In this paper, we introduce Target-Aware Weighted Training (TAWT), a weighted training algorithm for cross-task learning based on minimizing a representation-based task distance between the source and target tasks. We show that TAWT is easy to implement, is computationally efficient, requires little hyperparameter tuning, and enjoys non-asymptotic learning-theoretic guarantees. The effectiveness of TAWT is corroborated through extensive experiments with BERT on four sequence tagging tasks in natural language processing (NLP), including part-of-speech (PoS) tagging, chunking, predicate detection, and named entity recognition (NER). As a byproduct, the proposed representation-based task distance allows one to reason in a theoretically principled way about several critical aspects of cross-task learning, such as the choice of the source data and the impact of fine-tuning
翻訳日:2021-06-01 17:54:26 公開日:2021-05-28
# 注意自由変換器

An Attention Free Transformer ( http://arxiv.org/abs/2105.14103v1 )

ライセンス: Link先を確認
Shuangfei Zhai, Walter Talbott, Nitish Srivastava, Chen Huang, Hanlin Goh, Ruixiang Zhang, Josh Susskind(参考訳) 我々は,ドット製品の自己注意を不要にするトランスフォーマーの効率的な変種であるAttention Free Transformer (AFT)を導入する。 AFT層では、キーと値がまず学習された位置バイアスのセットと結合され、その結果を要素的な方法でクエリに乗じる。 この新しい操作はメモリの複雑さが線形な w.r.t を持つ。 コンテキストサイズと機能の次元の両方があり、大きな入力サイズとモデルサイズの両方と互換性がある。 AFT-local と AFT-conv も導入し,グローバルな接続性を維持しつつ,局所性と空間的重み共有の考え方を生かしたモデルである。 本研究では,2つの自己回帰モデルタスク(CIFAR10とEnwik8)と画像認識タスク(ImageNet-1K分類)について広範な実験を行った。 aftがすべてのベンチマークで競争性能を示すと同時に、優れた効率を提供することを示した。

We introduce Attention Free Transformer (AFT), an efficient variant of Transformers that eliminates the need for dot product self attention. In an AFT layer, the key and value are first combined with a set of learned position biases, the result of which is multiplied with the query in an element-wise fashion. This new operation has a memory complexity linear w.r.t. both the context size and the dimension of features, making it compatible to both large input and model sizes. We also introduce AFT-local and AFT-conv, two model variants that take advantage of the idea of locality and spatial weight sharing while maintaining global connectivity. We conduct extensive experiments on two autoregressive modeling tasks (CIFAR10 and Enwik8) as well as an image recognition task (ImageNet-1K classification). We show that AFT demonstrates competitive performance on all the benchmarks, while providing excellent efficiency at the same time.
翻訳日:2021-06-01 17:54:09 公開日:2021-05-28
# Gottaがスコアベースモデルでデータ生成を高速化

Gotta Go Fast When Generating Data with Score-Based Models ( http://arxiv.org/abs/2105.14080v1 )

ライセンス: Link先を確認
Alexia Jolicoeur-Martineau, Ke Li, R\'emi Pich\'e-Taillefer, Tal Kachman, Ioannis Mitliagkas(参考訳) スコアベースの生成モデルは、最近、リアルで多様なデータを生成することに成功しています。 これらのアプローチは、データをノイズに変換し、(ノイズからデータへ)反転することでデータを生成するための前方拡散プロセスを定義する。 残念ながら、現在のスコアベースモデルは、数値SDEソルバが要求するスコアネットワーク評価の数が多いため、データを非常にゆっくりと生成する。 本研究では,より効率的なSDEソルバの開発により,このプロセスの高速化を目指す。 既存のアプローチは、固定ステップサイズを使用するEuler-Maruyama (EM)ソルバに依存している。 その結果,SDEを他のSDEソルバに代用すると,低品質のサンプルが得られるか,EMよりも遅くなることがわかった。 この問題に対処するために、スコアベース生成モデルに適した適応的なステップサイズを持つSDEソルバを慎重に考案する。 我々の解法は2つのスコア関数の評価しか必要とせず、ほとんどサンプルを拒絶せず、高品質なサンプルにつながる。 提案手法はemより2倍から10倍高速で,良好なサンプル品質を実現している。 高精細画像の場合,本手法はテスト対象の他の方法よりもはるかに高品質なサンプルが得られる。 我々のSDEソルバはステップサイズのチューニングを必要としないという利点がある。

Score-based (denoising diffusion) generative models have recently gained a lot of success in generating realistic and diverse data. These approaches define a forward diffusion process for transforming data to noise and generate data by reversing it (thereby going from noise to data). Unfortunately, current score-based models generate data very slowly due to the sheer number of score network evaluations required by numerical SDE solvers. In this work, we aim to accelerate this process by devising a more efficient SDE solver. Existing approaches rely on the Euler-Maruyama (EM) solver, which uses a fixed step size. We found that naively replacing it with other SDE solvers fares poorly - they either result in low-quality samples or become slower than EM. To get around this issue, we carefully devise an SDE solver with adaptive step sizes tailored to score-based generative models piece by piece. Our solver requires only two score function evaluations, rarely rejects samples, and leads to high-quality samples. Our approach generates data 2 to 10 times faster than EM while achieving better or equal sample quality. For high-resolution images, our method leads to significantly higher quality samples than all other methods tested. Our SDE solver has the benefit of requiring no step size tuning.
翻訳日:2021-06-01 17:51:15 公開日:2021-05-28
# スケッチ監督による制御可能な抽象対話要約

Controllable Abstractive Dialogue Summarization with Sketch Supervision ( http://arxiv.org/abs/2105.14064v1 )

ライセンス: Link先を確認
Chien-Sheng Wu and Linqing Liu and Wenhao Liu and Pontus Stenetorp and Caiming Xiong(参考訳) 本稿では,抽象対話の要約品質の向上と,粒度制御の実現を目的としている。 モデルには2つの主要要素と段階がある: 1) 最終要約の基礎となる予備要約スケッチを生成する2段階生成戦略。 この要約スケッチは、疑似ラベル付き疑問代名詞カテゴリと、選挙区パーサを用いて抽出されたキーフレーズの形式で弱教師付き信号を提供する。 2)最終要約の粒度を制御するための簡単な戦略として,本モデルでは,原文から異なるテキストを予測・ハイライトすることで,与えられた対話文の要約文数を自動決定・制御することができる。 本モデルは,最大50.79のROUGE-Lスコアを持つ最大対話要約コーパスSAMSumの最先端性能を実現する。 また,本研究の事例として,人間による評価結果と,注釈付き要約に対する制御性を示す。

In this paper, we aim to improve abstractive dialogue summarization quality and, at the same time, enable granularity control. Our model has two primary components and stages: 1) a two-stage generation strategy that generates a preliminary summary sketch serving as the basis for the final summary. This summary sketch provides a weakly supervised signal in the form of pseudo-labeled interrogative pronoun categories and key phrases extracted using a constituency parser. 2) A simple strategy to control the granularity of the final summary, in that our model can automatically determine or control the number of generated summary sentences for a given dialogue by predicting and highlighting different text spans from the source text. Our model achieves state-of-the-art performance on the largest dialogue summarization corpus SAMSum, with as high as 50.79 in ROUGE-L score. In addition, we conduct a case study and show competitive human evaluation results and controllability to human-annotated summaries.
翻訳日:2021-06-01 17:50:30 公開日:2021-05-28
# 検出器によるアンカーの増強

Augmenting Anchors by the Detector Itself ( http://arxiv.org/abs/2105.14086v1 )

ライセンス: Link先を確認
Xiaopei Wan, Shengjie Chen, Yujiu Yang, Zhenhua Guo, Fangbo Tao(参考訳) アンカーベース物体検出法におけるアンカーのスケールとアスペクト比を決定することは困難である。 現在の最先端のオブジェクト検出器は、データセットのオブジェクトの形状とスケールに応じてアンカーパラメータを決定するか、あるいはアンカーフリーの手法を利用してこの問題を回避する。 本稿では,検出器自体によるアンカーの増大を意味するaadiと呼ばれる勾配フリーアンカー拡張法を提案する。 AADIはアンカー自由法ではないが、アンカーのスケールとアスペクト比を連続空間から離散空間に変換し、アンカーの指定の問題を大幅に緩和する。 さらに、aadiはパラメータやハイパーパラメータを追加していないため、将来の研究やダウンストリームタスクに有用である。 COCOデータセットの大規模な実験によると、AADIは2段法と1段法の両方に明らかな利点がある。具体的には、AADIはResNet-50モデルを用いて、より高速なR-CNNで少なくとも2.1AP改善、RetinaNetで1.6AP改善を達成している。 このシンプルでコスト効率のよい手法が、物体検出に広く応用できることを願っている。

It is difficult to determine the scale and aspect ratio of anchors for anchor-based object detection methods. Current state-of-the-art object detectors either determine anchor parameters according to objects' shape and scale in a dataset, or avoid this problem by utilizing anchor-free method. In this paper, we propose a gradient-free anchor augmentation method named AADI, which means Augmenting Anchors by the Detector Itself. AADI is not an anchor-free method, but it converts the scale and aspect ratio of anchors from a continuous space to a discrete space, which greatly alleviates the problem of anchors' designation. Furthermore, AADI does not add any parameters or hyper-parameters, which is beneficial for future research and downstream tasks. Extensive experiments on COCO dataset show that AADI has obvious advantages for both two-stage and single-stage methods, specifically, AADI achieves at least 2.1 AP improvements on Faster R-CNN and 1.6 AP improvements on RetinaNet, using ResNet-50 model. We hope that this simple and cost-efficient method can be widely used in object detection.
翻訳日:2021-06-01 17:47:28 公開日:2021-05-28
# Transformer-based Source-free Domain Adaptation

Transformer-Based Source-Free Domain Adaptation ( http://arxiv.org/abs/2105.14138v1 )

ライセンス: Link先を確認
Guanglei Yang, Hao Tang, Zhun Zhong, Mingli Ding, Ling Shao, Nicu Sebe, Elisa Ricci(参考訳) 本稿では,ソースフリードメイン適応(sfda,source-free domain adaptation)の課題について検討する。 SFDAの以前の研究は、主にクロスドメイン分布の整合性に焦点を当てていた。 しかし、彼らは事前学習されたソースモデルの一般化能力を無視し、ターゲット適応段階に不可欠な最初のターゲット出力に大きく影響する。 そこで本研究では,画像中の物体に注意が集中しているか否かに,モデル精度が高い相関関係があることを考察する。 そこで本研究では,FDA の汎用モデルを学ぶための Transformer に基づく汎用的で効果的なフレームワーク TransDA を提案する。 具体的には、Transformerをアテンションモジュールとして適用し、畳み込みネットワークに注入する。 これにより、モデルが対象領域に注意を向けることが奨励され、対象領域におけるモデルの一般化能力が効果的に向上する。 さらに, 自己教師付き知識蒸留法を提案することで, トランスフォーマーを標的擬似ラベルに適応させることにより, ネットワークが対象領域に集中するよう促す。 クローズドセット、部分セット、オープンセット適応を含む3つの領域適応タスクの実験は、TransDAが適応精度を大幅に改善し、最先端の結果が得られることを示した。 ソースコードとトレーニングされたモデルはhttps://github.com/y gjwd12345/transdaで入手できる。

In this paper, we study the task of source-free domain adaptation (SFDA), where the source data are not available during target adaptation. Previous works on SFDA mainly focus on aligning the cross-domain distributions. However, they ignore the generalization ability of the pretrained source model, which largely influences the initial target outputs that are vital to the target adaptation stage. To address this, we make the interesting observation that the model accuracy is highly correlated with whether or not attention is focused on the objects in an image. To this end, we propose a generic and effective framework based on Transformer, named TransDA, for learning a generalized model for SFDA. Specifically, we apply the Transformer as the attention module and inject it into a convolutional network. By doing so, the model is encouraged to turn attention towards the object regions, which can effectively improve the model's generalization ability on the target domains. Moreover, a novel self-supervised knowledge distillation approach is proposed to adapt the Transformer with target pseudo-labels, thus further encouraging the network to focus on the object regions. Experiments on three domain adaptation tasks, including closed-set, partial-set, and open-set adaption, demonstrate that TransDA can greatly improve the adaptation accuracy and produce state-of-the-art results. The source code and trained models are available at https://github.com/y gjwd12345/TransDA.
翻訳日:2021-06-01 17:47:02 公開日:2021-05-28
# オンラインシーケンス変換のための強化学習

Reinforcement Learning for on-line Sequence Transformation ( http://arxiv.org/abs/2105.14097v1 )

ライセンス: Link先を確認
Grzegorz Rype\'s\'c, {\L}ukasz Lepak, Pawe{\l} Wawrzy\'nski(参考訳) 音声と自然言語の処理における多くの問題と他の領域の問題は、入力シーケンスを同時に読み取ることと、一般的に異なる長さの出力シーケンスを書くことに還元することができる。 完全に既知の入力に基づいて出力シーケンスを生成する方法がよく開発されている。 しかし、オンライン変換を可能にする効率的な方法は存在しない。 本稿では,トークンを読み込むか,あるいは別のトークンを書くかを判断するために,強化で学習するアーキテクチャを紹介する。 このアーキテクチャは、潜在的無限列をオンラインに変換することができる。 実験では、ニューラルマシン翻訳の最先端手法と比較する。 Transformerより若干悪い翻訳を生成するが、私たちのアーキテクチャはオンラインでテキストを翻訳するので、両方の参照メソッドよりも難しい問題を解決する。

A number of problems in the processing of sound and natural language, as well as in other areas, can be reduced to simultaneously reading an input sequence and writing an output sequence of generally different length. There are well developed methods that produce the output sequence based on the entirely known input. However, efficient methods that enable such transformations on-line do not exist. In this paper we introduce an architecture that learns with reinforcement to make decisions about whether to read a token or write another token. This architecture is able to transform potentially infinite sequences on-line. In an experimental study we compare it with state-of-the-art methods for neural machine translation. While it produces slightly worse translations than Transformer, it outperforms the autoencoder with attention, even though our architecture translates texts on-line thereby solving a more difficult problem than both reference methods.
翻訳日:2021-06-01 17:45:23 公開日:2021-05-28
# ARMS: 両変数に対する抗レセンスト・マルチサンプルグラディエント

ARMS: Antithetic-REINFORCE -Multi-Sample Gradient for Binary Variables ( http://arxiv.org/abs/2105.14141v1 )

ライセンス: Link先を確認
Alek Dimitriev and Mingyuan Zhou(参考訳) バイナリ変数の勾配の推定は、離散潜在変数モデルのトレーニングなど、さまざまなドメインで頻繁に発生するタスクである。 一般的に用いられているのは、ReINFORCEに基づくモンテカルロ推定法であり、独立サンプルまたは負相関サンプルのペアを用いる。 2つ以上のサンプルをよりよく活用するために,ARMS(Antithetic REINFORCE-based Multi-Sample gradient estimator)を提案する。 ARMSはコプラを用いて、相互に抗合成サンプルを生成する。 偏りがなく、ばらつきが低く、2つのサンプルを持つアームである非武装と、非相関なサンプルを持つアームであるレフトワンアウト強化(loorf)推定器の両方を一般化する。 生成モデルを訓練するための複数のデータセット上でARMSを評価し,実験結果から競合する手法よりも優れた結果が得られた。 また、マルチサンプル変動境界を最適化するためのARMSのバージョンを開発し、VIMCOとDisARMの双方より優れていることを示す。 コードは公開されている。

Estimating the gradients for binary variables is a task that arises frequently in various domains, such as training discrete latent variable models. What has been commonly used is a REINFORCE based Monte Carlo estimation method that uses either independent samples or pairs of negatively correlated samples. To better utilize more than two samples, we propose ARMS, an Antithetic REINFORCE-based Multi-Sample gradient estimator. ARMS uses a copula to generate any number of mutually antithetic samples. It is unbiased, has low variance, and generalizes both DisARM, which we show to be ARMS with two samples, and the leave-one-out REINFORCE (LOORF) estimator, which is ARMS with uncorrelated samples. We evaluate ARMS on several datasets for training generative models, and our experimental results show that it outperforms competing methods. We also develop a version of ARMS for optimizing the multi-sample variational bound, and show that it outperforms both VIMCO and DisARM. The code is publicly available.
翻訳日:2021-06-01 17:42:02 公開日:2021-05-28
# 誘導バイアスに対するバイアスについて

On the Bias Against Inductive Biases ( http://arxiv.org/abs/2105.14077v1 )

ライセンス: Link先を確認
George Cazenavette, Simon Lucey(参考訳) 自然言語処理の分野に革命をもたらしたトランスフォーマーモデルから、視覚タスクのための自己教師型特徴学習もまた、非常に深い等方性ネットワークを使って最先端の成功を収めた。 しかし、典型的なai研究者は、数十億のパラメータと二次的な自己アテンションアクティベーションを持つモデルを評価するリソースを持っていません。 さらなる研究を容易にするためには、典型的な研究者が適切に研究できる巨大なトランスフォーマーモデルの特徴を理解する必要がある。 これらの変圧器モデルの興味深い特徴の1つは、古典的畳み込みネットワークに存在する帰納的バイアスの大半を取り除くことである。 本研究では,これらの帰納バイアスが,教師なし視覚特徴学習に使用される小型・中規模等方性ネットワークに与える影響を分析し,その除去が必ずしも理想的ではないことを示す。

Borrowing from the transformer models that revolutionized the field of natural language processing, self-supervised feature learning for visual tasks has also seen state-of-the-art success using these extremely deep, isotropic networks. However, the typical AI researcher does not have the resources to evaluate, let alone train, a model with several billion parameters and quadratic self-attention activations. To facilitate further research, it is necessary to understand the features of these huge transformer models that can be adequately studied by the typical researcher. One interesting characteristic of these transformer models is that they remove most of the inductive biases present in classical convolutional networks. In this work, we analyze the effect of these and more inductive biases on small to moderately-sized isotropic networks used for unsupervised visual feature learning and show that their removal is not always ideal.
翻訳日:2021-06-01 17:39:25 公開日:2021-05-28
# メンタルタイムトラベルに向けて:強化学習エージェントのための階層記憶

Towards mental time travel: a hierarchical memory for reinforcement learning agents ( http://arxiv.org/abs/2105.14039v1 )

ライセンス: Link先を確認
Andrew Kyle Lampinen, Stephanie C.Y. Chan, Andrea Banino, Felix Hill(参考訳) 強化学習エージェントは、特に遅延や邪魔なタスクの後、過去の詳細を忘れることが多い。 共通のメモリアーキテクチャを持つエージェントは、過去のイベントの複数のタイムステップを思い出したり、統合したりするのに苦労しています。 これらの制約に対処するために,エージェントが過去を詳細に記憶するのに役立つ階層型トランスフォーマーメモリ(HTM)を提案する。 htmは過去をチャンクに分割して記憶を保存し、まずチャンクの粗い要約に対してハイレベルな注意を払い、次に最も関連するチャンクのみに詳細な注意を払う。 したがって、htmを持つエージェントは、すべての介入イベントに出席せずに、過去の出来事を詳細に記憶して、"メントリータイムトラベリング"することができる。 HTMのエージェントは、長期のリコール、保持、またはメモリ上の推論を必要とするタスクにおいて、他のメモリアーキテクチャのエージェントよりも大幅に優れていた。 例えば、オブジェクトが3d環境に隠れている場所をリコールしたり、新しい近所で効率的にナビゲートするために素早く学習したり、新しいオブジェクト名を素早く学習したり保持したりする。 HTMのエージェントは、トレーニング対象よりも桁違い長いタスクシーケンスに外挿することができ、メタラーニング環境からゼロショットを一般化してエピソード間の知識を維持することもできる。 HTMはエージェントサンプル効率、一般化、一般化(以前は特殊なアーキテクチャを必要としていたタスクの解決)を改善している。 私たちの仕事は、複雑で時間的に拡張された環境で学習し、相互作用し、適応できるエージェントへの一歩です。

Reinforcement learning agents often forget details of the past, especially after delays or distractor tasks. Agents with common memory architectures struggle to recall and integrate across multiple timesteps of a past event, or even to recall the details of a single timestep that is followed by distractor tasks. To address these limitations, we propose a Hierarchical Transformer Memory (HTM), which helps agents to remember the past in detail. HTM stores memories by dividing the past into chunks, and recalls by first performing high-level attention over coarse summaries of the chunks, and then performing detailed attention within only the most relevant chunks. An agent with HTM can therefore "mentally time-travel" -- remember past events in detail without attending to all intervening events. We show that agents with HTM substantially outperform agents with other memory architectures at tasks requiring long-term recall, retention, or reasoning over memory. These include recalling where an object is hidden in a 3D environment, rapidly learning to navigate efficiently in a new neighborhood, and rapidly learning and retaining new object names. Agents with HTM can extrapolate to task sequences an order of magnitude longer than they were trained on, and can even generalize zero-shot from a meta-learning setting to maintaining knowledge across episodes. HTM improves agent sample efficiency, generalization, and generality (by solving tasks that previously required specialized architectures). Our work is a step towards agents that can learn, interact, and adapt in complex and temporally-extended environments.
翻訳日:2021-06-01 17:36:43 公開日:2021-05-28
# 部分情報に基づくタスクガイド型逆強化学習

Task-Guided Inverse Reinforcement Learning Under Partial Information ( http://arxiv.org/abs/2105.14073v1 )

ライセンス: Link先を確認
Franck Djeumou, Murat Cubuktepe, Craig Lennon, Ufuk Topcu(参考訳) 本研究では, 学習エージェントが評価関数を回復する逆強化学習(irl)の問題について, 実演を用いて検討する。 既存のIRL技術のほとんどは、エージェントが環境に関する完全な情報にアクセスできることをしばしば非現実的に仮定する。 我々は、エージェントがPOMDPの現在の状態を直接観察できない部分観測可能なマルコフ決定プロセス(POMDP)においてIRLのアルゴリズムを開発することにより、この仮定を除去する。 このアルゴリズムは、専門家とエージェントの間の \emph{information asymmetry} を考慮しない既存の技術のいくつかの制限に対処する。 まず、既存のほとんどのIRL技法のエントロピーとは対照的に、因果エントロピーを専門家によるデモンストレーションの可能性の尺度として採用し、アルゴリズムの複雑さの共通源を避ける。 第2に、時間論理で表現されたタスク仕様をIRLに組み込む。 このような仕様は、デモンストレーションに加えて学習者aの事前情報として解釈することができ、専門家とエージェント間の情報非対称性を低減できる。 それにもかかわらず、結果の定式化は、pomdps において、いわゆる \emph{forward problem} の本質的な非凸性、すなわち、報奨関数が与えられた最適ポリシーを計算するため、まだ非凸である。 逐次凸プログラミングを通じてこの非凸性に対処し,スケーラブルに前方問題を解決するための拡張をいくつか導入する。 このスケーラビリティにより、追加の計算コストを犠牲にしてメモリを組み込みながら、メモリレスポリシよりも高いパフォーマンスを実現するコンピューティングポリシが可能になる。 極めて限られたデータであっても、アルゴリズムはタスクを満たす報酬関数やポリシーを学習し、サイド情報を活用してそのポリシーにメモリを組み込むことで、専門家と同じような振る舞いを誘発することを示した。

We study the problem of inverse reinforcement learning (IRL), where the learning agent recovers a reward function using expert demonstrations. Most of the existing IRL techniques make the often unrealistic assumption that the agent has access to full information about the environment. We remove this assumption by developing an algorithm for IRL in partially observable Markov decision processes (POMDPs), where an agent cannot directly observe the current state of the POMDP. The algorithm addresses several limitations of existing techniques that do not take the \emph{information asymmetry} between the expert and the agent into account. First, it adopts causal entropy as the measure of the likelihood of the expert demonstrations as opposed to entropy in most existing IRL techniques and avoids a common source of algorithmic complexity. Second, it incorporates task specifications expressed in temporal logic into IRL. Such specifications may be interpreted as side information available to the learner a priori in addition to the demonstrations, and may reduce the information asymmetry between the expert and the agent. Nevertheless, the resulting formulation is still nonconvex due to the intrinsic nonconvexity of the so-called \emph{forward problem}, i.e., computing an optimal policy given a reward function, in POMDPs. We address this nonconvexity through sequential convex programming and introduce several extensions to solve the forward problem in a scalable manner. This scalability allows computing policies that incorporate memory at the expense of added computational cost yet also achieves higher performance compared to memoryless policies. We demonstrate that, even with severely limited data, the algorithm learns reward functions and policies that satisfy the task and induce a similar behavior to the expert by leveraging the side information and incorporating memory into the policy.
翻訳日:2021-06-01 17:36:16 公開日:2021-05-28
# バイレベル計画のためのニューロシンボリック関係遷移モデルの学習

Learning Neuro-Symbolic Relational Transition Models for Bilevel Planning ( http://arxiv.org/abs/2105.14074v1 )

ライセンス: Link先を確認
Rohan Chitnis, Tom Silver, Joshua B. Tenenbaum, Tomas Lozano-Perez, Leslie Pack Kaelbling(参考訳) 近年、モデルに基づく強化学習と記号幾何学的ロボット計画の統合が独立した進歩を遂げているにもかかわらず、これらの手法の合成は異なる仮定と強みのために難しいままである。 本研究では,このギャップをニューロシンボリック・リレーショナル・トランジション・モデル(nsrts)と橋渡しする。これは,学習に効率的で,強力なロボット計画手法に適合し,オブジェクト上で一般化可能な,新たなトランジッション・モデルである。 NSRTはシンボリックコンポーネントとニューラルコンポーネントの両方を持ち、外ループにおけるシンボリックAI計画がインナーループ内のニューラルモデルによる継続的な計画をガイドするバイレベルプランニングスキームを可能にする。 4つのロボット計画領域での実験では、nsrtは数十から数百のトレーニングエピソードの後に学習でき、ゴールに到達するのに最大60のアクションが必要で、トレーニング中に見られた多くのオブジェクトを含む新しいタスクの高速計画に使うことができる。 ビデオ: https://tinyurl.com/ chitnis-nsrts

Despite recent, independent progress in model-based reinforcement learning and integrated symbolic-geometric robotic planning, synthesizing these techniques remains challenging because of their disparate assumptions and strengths. In this work, we take a step toward bridging this gap with Neuro-Symbolic Relational Transition Models (NSRTs), a novel class of transition models that are data-efficient to learn, compatible with powerful robotic planning methods, and generalizable over objects. NSRTs have both symbolic and neural components, enabling a bilevel planning scheme where symbolic AI planning in an outer loop guides continuous planning with neural models in an inner loop. Experiments in four robotic planning domains show that NSRTs can be learned after only tens or hundreds of training episodes, and then used for fast planning in new tasks that require up to 60 actions to reach the goal and involve many more objects than were seen during training. Video: https://tinyurl.com/ chitnis-nsrts
翻訳日:2021-06-01 17:35:45 公開日:2021-05-28
# ノイズラベルモデルの再考: ラベル依存雑音と敵対的認識

Rethinking Noisy Label Models: Labeler-Dependent Noise with Adversarial Awareness ( http://arxiv.org/abs/2105.14083v1 )

ライセンス: Link先を確認
Glenn Dawson, Robi Polikar(参考訳) ノイズラベルから学習するほとんどの研究は、i.i.dの非現実的なモデルに依存している。 クラス条件遷移行列のようなラベルノイズ。 インスタンス依存ノイズモデルに関する最近の研究はより現実的であるが、データセット全体にわたるラベルノイズの単一の生成プロセスを想定している。 本稿では,近年のデータセットが分散クラウドソーシング手法でアノテートされるという観測に基づいて,複数のラベラーに対してインスタンス依存ノイズを一般化するラベルノイズのより原則的なモデルを提案する。 ラベラーに依存したモデルでは、ラベルノイズは善良なラベルの自然な誤りと悪質なアクターによって提供される敵対的なラベルの2つのモードの下に現れる。 本稿では,実世界において遭遇する可能性のあるラベルノイズをより正確に反映する2つの敵攻撃ベクトルを示し,マルチモーダルノイズラベルモデルにおいて,ノイズラベルから学習する最新手法が,敵ラベル攻撃によって破られることを示す。 最後に,データ分割がどのラベラーによってラベル付けされたかという知識を活用し,ノイズラベルを確実にフィルタリングするマルチステージラベラー対応モデル非依存フレームワークを提案する。

Most studies on learning from noisy labels rely on unrealistic models of i.i.d. label noise, such as class-conditional transition matrices. More recent work on instance-dependent noise models are more realistic, but assume a single generative process for label noise across the entire dataset. We propose a more principled model of label noise that generalizes instance-dependent noise to multiple labelers, based on the observation that modern datasets are typically annotated using distributed crowdsourcing methods. Under our labeler-dependent model, label noise manifests itself under two modalities: natural error of good-faith labelers, and adversarial labels provided by malicious actors. We present two adversarial attack vectors that more accurately reflect the label noise that may be encountered in real-world settings, and demonstrate that under our multimodal noisy labels model, state-of-the-art approaches for learning from noisy labels are defeated by adversarial label attacks. Finally, we propose a multi-stage, labeler-aware, model-agnostic framework that reliably filters noisy labels by leveraging knowledge about which data partitions were labeled by which labeler, and show that our proposed framework remains robust even in the presence of extreme adversarial label noise.
翻訳日:2021-06-01 17:35:24 公開日:2021-05-28
# ポリシー勾配に基づくアルゴリズムを用いた多目的強化学習の協調最適化

Joint Optimization of Multi-Objective Reinforcement Learning with Policy Gradient Based Algorithm ( http://arxiv.org/abs/2105.14125v1 )

ライセンス: Link先を確認
Qinbo Bai and Mridul Agarwal and Vaneet Aggarwal(参考訳) 多くの工学的問題には複数の目的があり、全体的な目的はこれらの目的の非線形関数を最適化することである。 本稿では,複数の長期目標の非線形凹関数を最大化する問題を定式化する。 この問題に対して,ポリシー勾配に基づくモデルフリーアルゴリズムを提案する。 勾配の推定値を計算するため,偏り推定器を提案する。 提案アルゴリズムは,$\mathcal{o}(\frac{m^4\sigma^2}{(1-\gamma)^8\epsilon^4})$トラジェクタにおいて$\gamma$がディスカウント係数であり,$m$がエージェント数であるような場合,標準強化学習のためのポリシー勾配アルゴリズムである$\epsilon$への依存度が得られるようにして,グローバルオプティマの$\epsilon$内に収束することを示す。

Many engineering problems have multiple objectives, and the overall aim is to optimize a non-linear function of these objectives. In this paper, we formulate the problem of maximizing a non-linear concave function of multiple long-term objectives. A policy-gradient based model-free algorithm is proposed for the problem. To compute an estimate of the gradient, a biased estimator is proposed. The proposed algorithm is shown to achieve convergence to within an $\epsilon$ of the global optima after sampling $\mathcal{O}(\frac{M^4\sigma^2}{(1-\gamma)^8\epsilon^4})$ trajectories where $\gamma$ is the discount factor and $M$ is the number of the agents, thus achieving the same dependence on $\epsilon$ as the policy gradient algorithm for the standard reinforcement learning.
翻訳日:2021-06-01 17:35:02 公開日:2021-05-28
# 後継機能を用いた強化学習におけるリスク・アウェア・トランスファー

Risk-Aware Transfer in Reinforcement Learning using Successor Features ( http://arxiv.org/abs/2105.14127v1 )

ライセンス: Link先を確認
Michael Gimelfarb, Andr\'e Barreto, Scott Sanner, Chi-Guhn Lee(参考訳) サンプル効率とリスク認識は、複雑な意思決定のための実践的強化学習(RL)の開発の中心である。 前者は転送学習によって対処でき、後者はリターンのユーティリティ関数を最適化することで対処できる。 しかし、リスクを意識した技術移転の問題は十分に理解されていない。 本稿では,共通領域におけるタスク間のリスク認識型ポリシー伝達の問題点について,報酬ストリームのばらつきによってリスクを計測する報奨機能のみが異なる問題について論じる。 我々のアプローチは、エントロピー的ユーティリティを最大化するために一般化された政策改善の考え方を拡張し、ダイナミックプログラミングによる政策改善を一連の政策とリスク回避レベルにまで拡張することから始まります。 次に、報酬から環境ダイナミクスを分離する値関数表現である後継機能(SF)の考え方を拡張し、リターンの分散を捉える。 我々のリスク認識後継機能(RaSF)は、RLフレームワークにシームレスに統合され、SFの優れたタスク一般化能力を継承し、リスク認識を意思決定に組み込む。 個別のナビゲーション領域の実験とシミュレーションされたロボットアームの制御は、学習されたポリシーのリスクを考慮すると、RaSFがSFを含む代替手法より優れていることを示す。

Sample efficiency and risk-awareness are central to the development of practical reinforcement learning (RL) for complex decision-making. The former can be addressed by transfer learning and the latter by optimizing some utility function of the return. However, the problem of transferring skills in a risk-aware manner is not well-understood. In this paper, we address the problem of risk-aware policy transfer between tasks in a common domain that differ only in their reward functions, in which risk is measured by the variance of reward streams. Our approach begins by extending the idea of generalized policy improvement to maximize entropic utilities, thus extending policy improvement via dynamic programming to sets of policies and levels of risk-aversion. Next, we extend the idea of successor features (SF), a value function representation that decouples the environment dynamics from the rewards, to capture the variance of returns. Our resulting risk-aware successor features (RaSF) integrate seamlessly within the RL framework, inherit the superior task generalization ability of SFs, and incorporate risk-awareness into the decision-making. Experiments on a discrete navigation domain and control of a simulated robotic arm demonstrate the ability of RaSFs to outperform alternative methods including SFs, when taking the risk of the learned policies into account.
翻訳日:2021-06-01 17:34:39 公開日:2021-05-28
# DeepMoM:Median-of-Me ansによるロバストなディープラーニング

DeepMoM: Robust Deep Learning With Median-of-Means ( http://arxiv.org/abs/2105.14035v1 )

ライセンス: Link先を確認
Shih-Ting Huang and Johannes Lederer(参考訳) ディープラーニングで使用されるデータは、悪名高い問題である。 例えば、データは、通常、さまざまなソースから結合され、ほとんどきれいにされ、徹底的に処理され、時には故意に腐敗する。 アルゴリズムの弱点を狙った意図的腐敗は「敵対的攻撃」というラベルで広く研究されている。 対照的に、データの限られた品質を反映した汚職のケースは、はるかに少ない研究がなされている。 このような"ランダム"な腐敗は、測定エラー、信頼性の低いソース、コンビニエンスサンプリングなどによるものだ。 なぜなら、データは厳密なプロトコルに従って収集されることは滅多になく、古典的な統計のいくつかの部分における形式化されたデータ収集とは対照的である。 この論文はそのような腐敗を懸念する。 我々は,中道値とル・カムの原理に関する最近の知見に動機づけられたアプローチを導入し,そのアプローチが容易に実装可能であることを示すとともに,実際に非常によく動作することを示す。 結論として,本手法は,最小二乗とクロスエントロピー損失に基づく標準パラメータトレーニングに代わる,非常に有望な手法であると考える。

Data used in deep learning is notoriously problematic. For example, data are usually combined from diverse sources, rarely cleaned and vetted thoroughly, and sometimes corrupted on purpose. Intentional corruption that targets the weak spots of algorithms has been studied extensively under the label of "adversarial attacks." In contrast, the arguably much more common case of corruption that reflects the limited quality of data has been studied much less. Such "random" corruptions are due to measurement errors, unreliable sources, convenience sampling, and so forth. These kinds of corruption are common in deep learning, because data are rarely collected according to strict protocols -- in strong contrast to the formalized data collection in some parts of classical statistics. This paper concerns such corruption. We introduce an approach motivated by very recent insights into median-of-means and Le Cam's principle, we show that the approach can be readily implemented, and we demonstrate that it performs very well in practice. In conclusion, we believe that our approach is a very promising alternative to standard parameter training based on least-squares and cross-entropy loss.
翻訳日:2021-06-01 17:31:48 公開日:2021-05-28
# 重み付き情報による漸近的最適帯域

Asymptotically Optimal Bandits under Weighted Information ( http://arxiv.org/abs/2105.14114v1 )

ライセンス: Link先を確認
Matias I. M\"uller and Cristian R. Rojas(参考訳) 本研究では,通常1本の腕に割り当てられる資源を分散させることで,エージェントが各ラウンドで複数の腕を演奏できるマルチアームバンディット装置における後悔の最小化問題について検討する。 各イテレーションで、エージェントは正規化されたパワープロファイルを選択し、結果としてガウスベクトルを受け取り、そこでは各サンプルの未知の分散が、そのアームに割り当てられたパワーに逆比例する。 報酬は、電力プロファイルと結果の線形結合に対応しており、線形バンディットに似ている。 パワーを広げることで、エージェントは、サンプルの精度を下げる価格で、従来のマルチアームバンディットよりもはるかに早く情報を集めることができる。 この設定は、線形バンディットとは根本的に異なる - この後悔は、線形バンディットに対して$\Theta(\sqrt{T})$としてスケールすることが知られているが、この設定では、エージェントはより詳細なフィードバックを受け、そこでは、厳密な$\log(T)$問題依存ローバウンドを導出する。 Weighted Thompson Sampling (\WTS) と呼ばれるThompson-Sampling ベースの戦略を提案し、各アームが最適アームであることを示す後続の信念としてパワープロファイルを設計し、その上限が導出した対数下界と一致することを示す。 最後に、この戦略を制御とシステム同定の問題に適用し、入出力サンプルのバッチに基づいて線形力学系の最大ゲイン($\mathcal{h}_\infty$-normとも呼ばれる)を推定する。

We study the problem of regret minimization in a multi-armed bandit setup where the agent is allowed to play multiple arms at each round by spreading the resources usually allocated to only one arm. At each iteration the agent selects a normalized power profile and receives a Gaussian vector as outcome, where the unknown variance of each sample is inversely proportional to the power allocated to that arm. The reward corresponds to a linear combination of the power profile and the outcomes, resembling a linear bandit. By spreading the power, the agent can choose to collect information much faster than in a traditional multi-armed bandit at the price of reducing the accuracy of the samples. This setup is fundamentally different from that of a linear bandit -- the regret is known to scale as $\Theta(\sqrt{T})$ for linear bandits, while in this setup the agent receives a much more detailed feedback, for which we derive a tight $\log(T)$ problem-dependent lower-bound. We propose a Thompson-Sampling-ba sed strategy, called Weighted Thompson Sampling (\WTS), that designs the power profile as its posterior belief of each arm being the best arm, and show that its upper bound matches the derived logarithmic lower bound. Finally, we apply this strategy to a problem of control and system identification, where the goal is to estimate the maximum gain (also called $\mathcal{H}_\infty$-norm) of a linear dynamical system based on batches of input-output samples.
翻訳日:2021-06-01 17:31:33 公開日:2021-05-28
# ディープフェア判別クラスタリング

Deep Fair Discriminative Clustering ( http://arxiv.org/abs/2105.14146v1 )

ライセンス: Link先を確認
Hongjing Zhang, Ian Davidson(参考訳) ディープクラスタリングは強力な表現を学習する可能性があり、k$-meansやspectral clusteringといった従来のクラスタリング手法と比較して、クラスタリングのパフォーマンスが向上する。 しかし,この強力な表現学習能力は,実験で実証的に示す保護情報に対するサロゲートの発見によって,クラスタリングを不公平にする可能性がある。 本研究では,二元的および多状態的に保護された状態変数(PSV)に対するグループレベルの公平性の一般的な概念について検討する。 まず,完全一様制約行列が線形プログラミングによって効率よく解けるという,整数線形プログラミングの定式化として群レベル公正問題を定式化することから始める。 そこで我々は,この解法を識別的深層クラスタリングのバックボーンに注入する方法を示し,クラスタリング目標とフェアネス目標を組み合わさって公正クラスタを適応的に学習する改良学習アルゴリズムを提案する。 実世界のデータセットにおける実験結果は、我々のモデルが最先端のフェアクラスタリングアルゴリズムを一貫して上回っていることを示している。 本フレームワークは,フレキシブルフェアネス制約,マルチステートpsv,予測クラスタリングなど,新たなクラスタリングタスクに有望な結果を示す。

Deep clustering has the potential to learn a strong representation and hence better clustering performance compared to traditional clustering methods such as $k$-means and spectral clustering. However, this strong representation learning ability may make the clustering unfair by discovering surrogates for protected information which we empirically show in our experiments. In this work, we study a general notion of group-level fairness for both binary and multi-state protected status variables (PSVs). We begin by formulating the group-level fairness problem as an integer linear programming formulation whose totally unimodular constraint matrix means it can be efficiently solved via linear programming. We then show how to inject this solver into a discriminative deep clustering backbone and hence propose a refinement learning algorithm to combine the clustering goal with the fairness objective to learn fair clusters adaptively. Experimental results on real-world datasets demonstrate that our model consistently outperforms state-of-the-art fair clustering algorithms. Our framework shows promising results for novel clustering tasks including flexible fairness constraints, multi-state PSVs and predictive clustering.
翻訳日:2021-06-01 17:31:03 公開日:2021-05-28
# 深部空間モデルを用いたMR画像における脳腫瘍の分類

Classification of Brain Tumours in MR Images using Deep Spatiospatial Models ( http://arxiv.org/abs/2105.14071v1 )

ライセンス: Link先を確認
Soumick Chatterjee, Faraz Ahmed Nizamani, Andreas N\"urnberger and Oliver Speck(参考訳) 脳腫瘍は脳内の異常な細胞の塊または集合体であり、近隣の組織に侵入し転移を形成できるため、生命を脅かす可能性がある。 正確な診断は治療計画の成功に不可欠であり、磁気共鳴イメージングは脳腫瘍の診断における主要な画像モダリティである。 コンピュータビジョンアプリケーションにおけるディープラーニングの手法は、近年大きく改善されており、そのほとんどは、モデルのトレーニングに大量のデータが利用できるという事実と、教師あり設定でより良い近似をもたらすモデルアーキテクチャの改善によるものである。 このようなディープラーニング手法による腫瘍の分類は、信頼できるアノテーションを備えたオープンデータセットが利用可能になったことで大きな進歩を遂げている。 通常、これらの手法は3次元のボリュームMRIを使用する3Dモデルか、あるいはそれぞれのスライスを別々に検討する2Dモデルである。 しかし,スライス空間次元を別々に扱うことで,空間空間モデルとして時空間モデルを用いることができる。 これらのモデルには、計算コストを削減しつつ、特定の空間的および時間的関係を学習する能力がある。 本稿では、ResNet (2+1)DとResNet Mixed Convolutionの2つの時空間モデルを用いて、異なる種類の脳腫瘍を分類する。 両モデルとも純粋な3次元畳み込みモデルであるResNet18よりも優れていた。 さらに,腫瘍分類の課題を訓練する前に,異なる,あるいは無関係なデータセット上でモデルを事前トレーニングすることで,パフォーマンスが向上するのが観察された。 最後に、事前訓練された ResNet Mixed Convolution がこれらの実験で最良のモデルであることが観察され、マクロF1スコアが0.93、テスト精度が96.98\%となり、同時に計算コストが最小のモデルとなった。

A brain tumour is a mass or cluster of abnormal cells in the brain, which has the possibility of becoming life-threatening because of its ability to invade neighbouring tissues and also form metastases. An accurate diagnosis is essential for successful treatment planning and magnetic resonance imaging is the principal imaging modality for diagnostic of brain tumours and their extent. Deep Learning methods in computer vision applications have shown significant improvement in recent years, most of which can be credited to the fact that a sizeable amount of data is available to train models on, and the improvements in the model architectures yielding better approximations in a supervised setting. Classifying tumours using such deep learning methods has made significant progress with the availability of open datasets with reliable annotations. Typically those methods are either 3D models, which use 3D volumetric MRIs or even 2D models considering each slice separately. However, by treating the slice spatial dimension separately, spatiotemporal models can be employed as spatiospatial models for this task. These models have the capabilities of learning specific spatial and temporal relationship, while reducing computational costs. This paper uses two spatiotemporal models, ResNet (2+1)D and ResNet Mixed Convolution, to classify different types of brain tumours. It was observed that both these models performed superior to the pure 3D convolutional model, ResNet18. Furthermore, it was also observed that pre-training the models on a different, even unrelated dataset before training them for the task of tumour classification improves the performance. Finally, Pre-trained ResNet Mixed Convolution was observed to be the best model in these experiments, achieving a macro F1-score of 0.93 and a test accuracy of 96.98\%, while at the same time being the model with the least computational cost.
翻訳日:2021-06-01 17:28:40 公開日:2021-05-28
# より公平な質問応答システムに向けて:どのくらいのデータが必要ですか?

Towards More Equitable Question Answering Systems: How Much More Data Do You Need? ( http://arxiv.org/abs/2105.14115v1 )

ライセンス: Link先を確認
Arnab Debnath, Navid Rajabi, Fardina Fathmiul Alam, Antonios Anastasopoulos(参考訳) 英語での質問応答(QA)は広く研究されているが、多言語データセットは比較的新しいもので、翻訳と言語間移動によるデータ拡張による高リソース言語と低リソース言語のギャップを埋めようとしている。 このプロジェクトでは、多くの言語でQAシステムを生成するために、既存のリソースを最大限に活用できるアプローチを一歩引いて検討する。 具体的には,コンテキスト・クエスチョン・アンワーペアの自動翻訳と置換によって拡張された少数ショットアプローチの有効性を測定するために,広範囲な分析を行う。 さらに,qaデータセットやシステムの言語カバレッジ向上を目標として,固定アノテーション予算をより有効に活用する,今後のデータセット開発の取り組みについて提案する。 実験を再現するためのコードとデータは、ここで入手できる。

Question answering (QA) in English has been widely explored, but multilingual datasets are relatively new, with several methods attempting to bridge the gap between high- and low-resourced languages using data augmentation through translation and cross-lingual transfer. In this project, we take a step back and study which approaches allow us to take the most advantage of existing resources in order to produce QA systems in many languages. Specifically, we perform extensive analysis to measure the efficacy of few-shot approaches augmented with automatic translations and permutations of context-question-ans wer pairs. In addition, we make suggestions for future dataset development efforts that make better use of a fixed annotation budget, with a goal of increasing the language coverage of QA datasets and systems. Code and data for reproducing our experiments are available here: https://github.com/N avidRajabi/EMQA.
翻訳日:2021-06-01 17:25:04 公開日:2021-05-28
# mixergan: 画像対画像変換のためのmlpベースのアーキテクチャ

MixerGAN: An MLP-Based Architecture for Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2105.14110v1 )

ライセンス: Link先を確認
George Cazenavette, Manuel Ladron De Guevara(参考訳) 注意に基づくトランスフォーマーネットワークは、ほぼ全ての言語タスクにおいて例外なく成功を収める一方で、2次アクティベーションメモリ使用量と結びついた大量のトークンは、視覚タスクでは禁止される。 このように、言語間翻訳はトランスフォーマーモデルによって革新されているが、畳み込みネットワークは画像間翻訳のデファクトソリューションのままである。 最近提案されたmlp-mixerアーキテクチャは、トランスフォーマーモデルが望ましい長距離接続を維持しながら、注意に基づくネットワークに関連する速度とメモリの問題を軽減する。 そこで本研究では,MixerGANという,高コストな注意機構を必要とせず,画素間の長距離関係を考慮し,よりシンプルなMLPベースのアーキテクチャを提案する。 定量的および定性的な分析により、MixerGANは従来の畳み込みに基づく手法と比較して競争的な結果が得られることが示された。

While attention-based transformer networks achieve unparalleled success in nearly all language tasks, the large number of tokens coupled with the quadratic activation memory usage makes them prohibitive for visual tasks. As such, while language-to-language translation has been revolutionized by the transformer model, convolutional networks remain the de facto solution for image-to-image translation. The recently proposed MLP-Mixer architecture alleviates some of the speed and memory issues associated with attention-based networks while still retaining the long-range connections that make transformer models desirable. Leveraging this efficient alternative to self-attention, we propose a new unpaired image-to-image translation model called MixerGAN: a simpler MLP-based architecture that considers long-distance relationships between pixels without the need for expensive attention mechanisms. Quantitative and qualitative analysis shows that MixerGAN achieves competitive results when compared to prior convolutional-based methods.
翻訳日:2021-06-01 17:18:47 公開日:2021-05-28
# 明示的分散最小化について:限られたデータアノテーションによる医用画像のためのニューラルネットワークの訓練

About Explicit Variance Minimization: Training Neural Networks for Medical Imaging With Limited Data Annotations ( http://arxiv.org/abs/2105.14117v1 )

ライセンス: Link先を確認
Dmitrii Shubin, Danny Eytan, Sebastian D. Goodfellow(参考訳) コンピュータビジョンのための自己教師付き学習手法は、事前学習された特徴表現の有効性を示し、注釈付きデータが制限されても、十分に一般化される。 しかしながら、表現学習技術はモデルトレーニングにかなりの時間を要するため、ほとんどの時間は正確なハイパーパラメータ最適化と拡張技術の選択に費やされる。 注釈付きデータセットが、例えば組織神話の保存された類似性のため、一般的な人口を捉えるのに十分な形態的多様性を持っていると仮定すると、トレーニングされたモデルの分散誤差は、バイアス・ヴァリタンストレードオフの一般的な構成要素である。 本稿では,分散誤差をモデル損失関数に導入することにより,この特性を利用した分散意識訓練(VAT)手法を提案する。 さらに,提案手法の理論的定式化と証明を行い,その方法の解釈を支援する。 本手法では,ハイパーパラメータを1つだけ選択し,gpuのトレーニング時間の桁違いな削減を実現しつつ,自己教師ありメソッドの最先端性能と一致あるいは改善することができた。 各種領域の医用画像データセットと各種学習目標を用いたVATの有効性を検証した。 その中には、心的セグメンテーションのためのMRIデータセット(MICCAI 2017 ACDC Challenge)、糖尿病性網膜症進行の正常回帰のための基礎写真データセット(Kaggle 2019 APTOS Blindness Detection Challenge)、リンパ節領域の病理組織学的スキャン(PatchCamelyon dataset)が含まれる。

Self-supervised learning methods for computer vision have demonstrated the effectiveness of pre-training feature representations, resulting in well-generalizing Deep Neural Networks, even if the annotated data are limited. However, representation learning techniques require a significant amount of time for model training, with most of it time spent on precise hyper-parameter optimization and selection of augmentation techniques. We hypothesized that if the annotated dataset has enough morphological diversity to capture the general population's as is common in medical imaging, for example, due to conserved similarities of tissue mythologies, the variance error of the trained model is the prevalent component of the Bias-Variance Trade-off. We propose the Variance Aware Training (VAT) method that exploits this property by introducing the variance error into the model loss function, i.e., enabling minimizing the variance explicitly. Additionally, we provide the theoretical formulation and proof of the proposed method to aid in interpreting the approach. Our method requires selecting only one hyper-parameter and was able to match or improve the state-of-the-art performance of self-supervised methods while achieving an order of magnitude reduction in the GPU training time. We validated VAT on three medical imaging datasets from diverse domains and various learning objectives. These included a Magnetic Resonance Imaging (MRI) dataset for the heart semantic segmentation (MICCAI 2017 ACDC challenge), fundus photography dataset for ordinary regression of diabetic retinopathy progression (Kaggle 2019 APTOS Blindness Detection challenge), and classification of histopathologic scans of lymph node sections (PatchCamelyon dataset).
翻訳日:2021-06-01 17:18:30 公開日:2021-05-28
# openmatch: 異常値を持つ半教師付き学習のためのオープンセット一貫性正規化

OpenMatch: Open-set Consistency Regularization for Semi-supervised Learning with Outliers ( http://arxiv.org/abs/2105.14148v1 )

ライセンス: Link先を確認
Kuniaki Saito, Donghyun Kim, Kate Saenko(参考訳) 半教師付き学習(SSL)は、ラベルのないデータを有効活用してモデルの性能を向上させる方法である。 FixMatchのような一般的なSSLメソッドは、ラベル付きとラベルなしのデータは同じラベル空間を共有していると仮定する。 しかし実際には、ラベル付きデータにはラベル付きセット、すなわち外れ値のカテゴリが含まれており、sslアルゴリズムのパフォーマンスを著しく損なう可能性がある。 この問題に対処するために,OpenMatch と呼ばれる新しい Open-set Semi-Supervised Learning (OSSL) アプローチを提案する。 OSSLの成功には、不整合を拒絶しながら不整合の表現を学習することが不可欠である。 この目的のためにOpenMatchは、1-vs-all(OVA)分類器に基づいた新規検出とFixMatchを統一する。 OVA分類器は、異常値であるサンプルの信頼スコアを出力し、異常値を検出する閾値を提供する。 もう一つの重要な貢献はオープンセットのソフトコンシスタンス正規化損失であり、入力変換に関してova分類器の滑らかさを高め、異常検出を大幅に改善する。 OpenMatchは3つのデータセットで最先端のパフォーマンスを実現し、CIFAR10の未ラベルデータで見えないアウトリーチを検出する上で、完全に教師付きモデルよりも優れています。

Semi-supervised learning (SSL) is an effective means to leverage unlabeled data to improve a model's performance. Typical SSL methods like FixMatch assume that labeled and unlabeled data share the same label space. However, in practice, unlabeled data can contain categories unseen in the labeled set, i.e., outliers, which can significantly harm the performance of SSL algorithms. To address this problem, we propose a novel Open-set Semi-Supervised Learning (OSSL) approach called OpenMatch. Learning representations of inliers while rejecting outliers is essential for the success of OSSL. To this end, OpenMatch unifies FixMatch with novelty detection based on one-vs-all (OVA) classifiers. The OVA-classifier outputs the confidence score of a sample being an inlier, providing a threshold to detect outliers. Another key contribution is an open-set soft-consistency regularization loss, which enhances the smoothness of the OVA-classifier with respect to input transformations and greatly improves outlier detection. OpenMatch achieves state-of-the-art performance on three datasets, and even outperforms a fully supervised model in detecting outliers unseen in unlabeled data on CIFAR10.
翻訳日:2021-06-01 17:18:00 公開日:2021-05-28
# 因果構造学習のための近接最適多重摂動実験設計

Near-Optimal Multi-Perturbation Experimental Design for Causal Structure Learning ( http://arxiv.org/abs/2105.14024v1 )

ライセンス: Link先を確認
Scott Sussex (1), Andreas Krause (1), Caroline Uhler (2) ((1) Department of Computer Science, ETH Z\"urich, (2) Laboratory for Information & Decision Systems, Massachusetts Institute of Technology)(参考訳) 因果構造学習は多くの領域において重要な問題である。 因果構造は、興味のあるシステムで実験を行うことで学べる。 我々は、複数の変数に同時に介入する実験を設計するという、ほとんど未解決の問題に対処する。 一般的に考えられている単一変数の介入よりも潜在的に有益であるが、複合的介入の集合に対する二重指数組合せ探索空間のため、そのような介入を選択することはアルゴリズム的にはるかに困難である。 本稿では,実験のインフォマティビティを定量化する目的関数を最適化する効率的なアルゴリズムを開発する。 これらの目的の新たな部分モジュラリティ特性を確立することにより、アルゴリズムの近似保証を提供する。 我々のアルゴリズムは、ランダムな介入と、単一変数の介入のみを選択するアルゴリズムの両方よりも経験的に優れている。

Causal structure learning is a key problem in many domains. Causal structures can be learnt by performing experiments on the system of interest. We address the largely unexplored problem of designing experiments that simultaneously intervene on multiple variables. While potentially more informative than the commonly considered single-variable interventions, selecting such interventions is algorithmically much more challenging, due to the doubly-exponential combinatorial search space over sets of composite interventions. In this paper, we develop efficient algorithms for optimizing different objective functions quantifying the informativeness of experiments. By establishing novel submodularity properties of these objectives, we provide approximation guarantees for our algorithms. Our algorithms empirically perform superior to both random interventions and algorithms that only select single-variable interventions.
翻訳日:2021-06-01 17:05:50 公開日:2021-05-28
# ビッグデータとビジネス分析における2つのアプローチの比較とApache Sparkの活用方法を中心に

Comparing Two Different Approaches in Big Data and Business Analysis for Churn Prediction with the Focus on How Apache Spark Employed ( http://arxiv.org/abs/2105.15147v1 )

ライセンス: Link先を確認
Mohammad Sina Kiarostami(参考訳) ビッグデータ分析の重要さ、特にサービスの改善、潜在的な顧客の発見、収益と費用を管理するための実践的なアプローチの選択など、ビジネス関連のトピックにおいて、多くの企業が科学者と協力し、分析の方法、理由、そして何を見つけ出そうと試みている。 本研究では、ビッグデータにおけるビジネス分析のトピックに採用されている2つの異なるアプローチを比較し、議論し、Sparkの利用方法についてより深く検討する。 どちらの研究もcharnの予測をケーススタディとして検討しており、ビジネス分析において顧客がサービスの利用をやめる意図を認識すべき重要なトピックであるためである。 近年,大量のデータを効率的に処理するためのソリューションがいくつか提供されているので,ここではApache Sparkに注目します。 sparkのこの機能により、ビッグデータ問題、特に時間とリソースの懸念に対処できる、最も堅牢な候補ツールの1つがsparkだ。

Due to the significant importance of Big Data analysis, especially in business-related topics such as improving services, finding potential customers, and selecting practical approaches to manage income and expenses, many companies attempt to collaborate with scientists to find how, why, and what they should analysis. In this work, we would like to compare and discuss two different approaches that employed in business analysis topic in Big Data with more consideration on how they utilized Spark. Both studies have investigated Churn Prediction as their case study for their proposed approaches since it is an essential topic in business analysis for companies to recognize a customer intends to leave or stop using their services. Here, we focus on Apache Spark since it has provided several solutions to handle a massive amount of data in recent years efficiently. This feature in Spark makes it one of the most robust candidate tools to upfront with a Big Data problem, particularly time and resource are concerns.
翻訳日:2021-06-01 17:02:10 公開日:2021-05-28
# チームベースバトルロイヤルゲームにおけるレーティングシステムの評価

The Evaluation of Rating Systems in Team-based Battle Royale Games ( http://arxiv.org/abs/2105.14069v1 )

ライセンス: Link先を確認
Arman Dehpanah, Muheeb Faizan Ghori, Jonathan Gemmell, Bamshad Mobasher(参考訳) オンライン競争ゲームは主流のエンターテイメントプラットフォームになっている。 公平でエキサイティングな体験を生み出すために、これらのゲームはレーティングシステムを使用してプレイヤーに類似したスキルをマッチさせる。 これらのシステムの性能改善に関する研究が増えているが、その性能評価にはあまり注意が払われていない。 本稿では,チームバトルロイヤルマッチ25,000以上の実世界データセット上で,人気のある3つのレーティングシステムを評価するための,いくつかの指標の有用性について検討する。 その結果,評価パターンにかなりの違いが認められた。 いくつかの指標は、新しいプレイヤーの追加によって大きな影響を受けました。 多くのプレイヤーは特定のグループ間の実際の違いを捉えられなかった。 その結果,正規化割引累積ゲイン(NDCG)は信頼性が高く,柔軟性が向上した。 他のメトリクスが直面する課題の大部分を緩和し、異なるプレイヤーグループに対する評価の焦点を調整する自由を追加した。

Online competitive games have become a mainstream entertainment platform. To create a fair and exciting experience, these games use rating systems to match players with similar skills. While there has been an increasing amount of research on improving the performance of these systems, less attention has been paid to how their performance is evaluated. In this paper, we explore the utility of several metrics for evaluating three popular rating systems on a real-world dataset of over 25,000 team battle royale matches. Our results suggest considerable differences in their evaluation patterns. Some metrics were highly impacted by the inclusion of new players. Many could not capture the real differences between certain groups of players. Among all metrics studied, normalized discounted cumulative gain (NDCG) demonstrated more reliable performance and more flexibility. It alleviated most of the challenges faced by the other metrics while adding the freedom to adjust the focus of the evaluations on different groups of players.
翻訳日:2021-06-01 17:01:14 公開日:2021-05-28
# 3d u-netr: 深層学習と3次元畳み込みによる低線量ct再構成

3D U-NetR: Low Dose Computed Tomography Reconstruction via Deep Learning and 3 Dimensional Convolutions ( http://arxiv.org/abs/2105.14130v1 )

ライセンス: Link先を確認
Doga Gunduzalp, Batuhan Cengiz, Mehmet Ozan Unal, Isa Yildirim(参考訳) 本稿では,2次元低線量CT画像の相関を考慮し,すべての3次元の相関関係を用いた新しい深層学習に基づく再構成手法を提案する。 スパース・ノイズ・シングラムはFBP操作で画像領域に投影され、3D U-NetRと呼ばれるU-Netのような3次元ネットワークで復調処理が適用される。 提案するネットワークは合成および実際の胸部CT画像で訓練され、2D U-Netは3次元の重要性を証明するために同じデータセットで訓練される。 提案するネットワークは、SSIMとPSNRでより定量的な性能を示す。 さらに重要なのは、3D U-NetRは、2Dネットワークで可視化できない、医療的に重要な視覚的詳細をキャプチャする。

In this paper, we introduced a novel deep learning based reconstruction technique using the correlations of all 3 dimensions with each other by taking into account the correlation between 2-dimensional low-dose CT images. Sparse or noisy sinograms are back projected to the image domain with FBP operation, then denoising process is applied with a U-Net like 3 dimensional network called 3D U-NetR. Proposed network is trained with synthetic and real chest CT images, and 2D U-Net is also trained with the same dataset to prove the importance of the 3rd dimension. Proposed network shows better quantitative performance on SSIM and PSNR. More importantly, 3D U-NetR captures medically critical visual details that cannot be visualized by 2D network.
翻訳日:2021-06-01 17:00:29 公開日:2021-05-28
# 対象とするディープラーニング:フレームワーク、方法、アプリケーション

Targeted Deep Learning: Framework, Methods, and Applications ( http://arxiv.org/abs/2105.14052v1 )

ライセンス: Link先を確認
Shih-Ting Huang and Johannes Lederer(参考訳) ディープラーニングシステムは一般的に、幅広いテスト入力を実行するように設計されている。 例えば、自動運転車のディープラーニングシステムは、特に訓練されていない交通状況に対処する必要がある。 一般に、目に見えないテスト入力の幅広いスペクトルに対処する能力は一般化と呼ばれる。 一般化は、テスト入力が知られているが、豊富か、あるいは単に不明なアプリケーションでは間違いなく重要であるが、可能入力がほとんどラベルが付けられておらず、事前に知られている場合もある。 例えば、現在、医療は個々の患者に対する治療のターゲティングに関心があり、任意の時間における患者の数は通常小さい(典型的には1人)が、診断/応答/...はまだ不明であるが、その一般的な特徴(ゲノム情報、血液のタンパク質レベルなど)は治療前に知られている。 深層学習を対象とするアプリケーションにおいて,ディープラーニングと呼ぶことを提案する。 本稿では,対象とする深層学習のためのフレームワークを紹介し,対象とする深層学習の要件に標準パイプラインを適用するためのアプローチを考案し,テストする。 このアプローチはとても一般的なものですが、使いやすく、単純なデータ前処理のステップとして実装できます。 テスト入力が事前に分かっている場合に、我々のアプローチが標準ディープラーニングを高速かつ正確にレンダリングできる、さまざまな実世界のデータを実証する。

Deep learning systems are typically designed to perform for a wide range of test inputs. For example, deep learning systems in autonomous cars are supposed to deal with traffic situations for which they were not specifically trained. In general, the ability to cope with a broad spectrum of unseen test inputs is called generalization. Generalization is definitely important in applications where the possible test inputs are known but plentiful or simply unknown, but there are also cases where the possible inputs are few and unlabeled but known beforehand. For example, medicine is currently interested in targeting treatments to individual patients; the number of patients at any given time is usually small (typically one), their diagnoses/responses/ ... are still unknown, but their general characteristics (such as genome information, protein levels in the blood, and so forth) are known before the treatment. We propose to call deep learning in such applications targeted deep learning. In this paper, we introduce a framework for targeted deep learning, and we devise and test an approach for adapting standard pipelines to the requirements of targeted deep learning. The approach is very general yet easy to use: it can be implemented as a simple data-preprocessing step. We demonstrate on a variety of real-world data that our approach can indeed render standard deep learning faster and more accurate when the test inputs are known beforehand.
翻訳日:2021-06-01 16:55:32 公開日:2021-05-28
# モデルオーダー削減によるニューラルodeの高速化

Accelerating Neural ODEs Using Model Order Reduction ( http://arxiv.org/abs/2105.14070v1 )

ライセンス: Link先を確認
Mikko Lehtim\"aki, Lassi Paunonen, Marja-Leena Linne(参考訳) 非線形力学系を人工ニューラルネットワークに埋め込むことは、機械学習の強力な新しい形式である。 通常の微分方程式(ODE)をニューラルネットワーク層としてパラメータ化することにより、これらのニューラルODEはトレーニングにメモリ効率が高く、時系列を自然に処理し、物理系の知識をディープラーニングモデルに組み込む。 しかし、組み込みode層の出力は計算上必要となる微分方程式解法で数値計算されるため、ニューラルネットワークodeの実用的応用は長い推論時間によって制限される。 本稿では,低次元部分空間における連続非線形ダイナミクスを正確にシミュレートすることにより,ニューラルネットワークの圧縮と高速化に数学的モデルオーダー削減法が利用できることを示す。 我々は,必要な部分空間投影と補間操作をニューラルネットワークの層として統合したニューラルodeを開発した。 文献から得られた2つの定式化手法との比較により, モデル縮小手法の有効性を検証した。 畳み込みおよび繰り返しのニューラルODEアーキテクチャを圧縮する場合、他の2つの加速度法と比較して、速度と精度のバランスが良い。 この結果に基づき,モデルオーダーの削減とニューラルodeの統合により,リソース制約付きアプリケーションにおける効率的な動的システム駆動型深層学習が容易になる。

Embedding nonlinear dynamical systems into artificial neural networks is a powerful new formalism for machine learning. By parameterizing ordinary differential equations (ODEs) as neural network layers, these Neural ODEs are memory-efficient to train, process time-series naturally and incorporate knowledge of physical systems into deep learning models. However, the practical applications of Neural ODEs are limited due to long inference times, because the outputs of the embedded ODE layers are computed numerically with differential equation solvers that can be computationally demanding. Here we show that mathematical model order reduction methods can be used for compressing and accelerating Neural ODEs by accurately simulating the continuous nonlinear dynamics in low-dimensional subspaces. We implement our novel compression method by developing Neural ODEs that integrate the necessary subspace-projection and interpolation operations as layers of the neural network. We validate our model reduction approach by comparing it to two established acceleration methods from the literature in two classification asks. In compressing convolutional and recurrent Neural ODE architectures, we achieve the best balance between speed and accuracy when compared to the other two acceleration methods. Based on our results, our integration of model order reduction with Neural ODEs can facilitate efficient, dynamical system-driven deep learning in resource-constrained applications.
翻訳日:2021-06-01 16:55:09 公開日:2021-05-28
# 逆摂動入力の可視化表現

Visualizing Representations of Adversarially Perturbed Inputs ( http://arxiv.org/abs/2105.14116v1 )

ライセンス: Link先を確認
Daniel Steinberg, Paul Munro(参考訳) ディープラーニングモデルは敵の攻撃に弱いことが示されている。 我々は,ニューラルネットワークの中間活性化に対する攻撃の影響をさらに理解しようと試みている。 逆摂動入力の視覚的表現の文脈において,N次元へのデータ投影の有効性を評価する評価指標POP-Nを提案する。 我々はcifar-10を用いて,様々な敵の攻撃に対して,複数の次元化アルゴリズムのpop-2スコアを比較する実験を行った。 最後に,高POP-2スコアに対応する2次元データを用いて実例視覚化を行う。

It has been shown that deep learning models are vulnerable to adversarial attacks. We seek to further understand the consequence of such attacks on the intermediate activations of neural networks. We present an evaluation metric, POP-N, which scores the effectiveness of projecting data to N dimensions under the context of visualizing representations of adversarially perturbed inputs. We conduct experiments on CIFAR-10 to compare the POP-2 score of several dimensionality reduction algorithms across various adversarial attacks. Finally, we utilize the 2D data corresponding to high POP-2 scores to generate example visualizations.
翻訳日:2021-06-01 16:54:49 公開日:2021-05-28
# Galerkin Neural Networks:誤差制御による変分方程式の近似フレームワーク

Galerkin Neural Networks: A Framework for Approximating Variational Equations with Error Control ( http://arxiv.org/abs/2105.14094v1 )

ライセンス: Link先を確認
Mark Ainsworth and Justin Dong(参考訳) 本稿では,基底関数がニューラルネットワーク列の実現である有限次元部分空間列の適応的構成に基づいて,変動方程式の解を近似するためにニューラルネットワークを用いる新しい手法を提案する。 有限次元部分空間は変分方程式の標準ガレルキン近似を定義するために用いられる。 This approach enjoys a number of advantages, including: the sequential nature of the algorithm offers a systematic approach to enhancing the accuracy of a given approximation; the sequential enhancements provide a useful indicator for the error that can be used as a criterion for terminating the sequential updates; the basic approach is largely oblivious to the nature of the partial differential equation under consideration; and, some basic theoretical results are presented regarding the convergence (or otherwise) of the method which are used to formulate basic guidelines for applying the method.

We present a new approach to using neural networks to approximate the solutions of variational equations, based on the adaptive construction of a sequence of finite-dimensional subspaces whose basis functions are realizations of a sequence of neural networks. The finite-dimensional subspaces are then used to define a standard Galerkin approximation of the variational equation. This approach enjoys a number of advantages, including: the sequential nature of the algorithm offers a systematic approach to enhancing the accuracy of a given approximation; the sequential enhancements provide a useful indicator for the error that can be used as a criterion for terminating the sequential updates; the basic approach is largely oblivious to the nature of the partial differential equation under consideration; and, some basic theoretical results are presented regarding the convergence (or otherwise) of the method which are used to formulate basic guidelines for applying the method.
翻訳日:2021-06-01 16:50:31 公開日:2021-05-28
# 強化学習は活性粒子の混合の基本的限界を明らかにする

Reinforcement Learning reveals fundamental limits on the mixing of active particles ( http://arxiv.org/abs/2105.14105v1 )

ライセンス: Link先を確認
Dominik Schildknecht, Anastasia N. Popova, Jack Stellwagen, Matt Thomson(参考訳) 物理システムの制御方針を導出するための強化学習(RL)戦略の適用分野として,活性物質を含む非平衡物理系の制御が重要視されている。 活性物質では、非線形ダイナミクスと粒子間の長距離相互作用は系のダイナミクスの閉形式記述を禁止し、最適制御問題に対する明示的な解を防止している。 明示的な制御戦略の解決における根本的な課題により、RLは非平衡な活性物質系の制御戦略を導出するアプローチとして登場した。 しかしながら、重要な疑問は、アクティブマター系の数学的構造と物理的性質が、学習制御政策におけるrlの扱い可能性を決定するかである。 本研究では, 粒子間相互作用を惹起する系の混合という正準活性物質問題に対して, rlは適切な戦略しか見つけられないことを示す。 力学系理論の数学的結果を用いて, 相互作用型と双曲力学の存在, rlによる均質混合戦略の探索能力との関係を明らかにした。 特に, 抵抗支配型翻訳不変粒子系では, 双曲力学と混合は魅力的な相互作用と反発相互作用を組み合わせなければならないことを示す。 本研究は,動的システムの物理的および数学的性質が強化学習に基づく制御をいかに可能にするか,あるいは制約するかを示す。

The control of far-from-equilibrium physical systems, including active materials, has emerged as an important area for the application of reinforcement learning (RL) strategies to derive control policies for physical systems. In active materials, non-linear dynamics and long-range interactions between particles prohibit closed-form descriptions of the system's dynamics and prevent explicit solutions to optimal control problems. Due to fundamental challenges in solving for explicit control strategies, RL has emerged as an approach to derive control strategies for far-from-equilibrium active matter systems. However, an important open question is how the mathematical structure and the physical properties of the active matter systems determine the tractability of RL for learning control policies. In this work, we show that RL can only find good strategies to the canonical active matter task of mixing for systems that combine attractive and repulsive particle interactions. Using mathematical results from dynamical systems theory, we relate the availability of both interaction types with the existence of hyperbolic dynamics and the ability of RL to find homogeneous mixing strategies. In particular, we show that for drag-dominated translational-invari ant particle systems, hyperbolic dynamics and, therefore, mixing requires combining attractive and repulsive interactions. Broadly, our work demonstrates how fundamental physical and mathematical properties of dynamical systems can enable or constrain reinforcement learning-based control.
翻訳日:2021-06-01 16:50:19 公開日:2021-05-28
# 大規模ランダムグラフ上のグラフニューラルネットワークの普遍性について

On the Universality of Graph Neural Networks on Large Random Graphs ( http://arxiv.org/abs/2105.13099v2 )

ライセンス: Link先を確認
Nicolas Keriven, Alberto Bietti, Samuel Vaiter(参考訳) グラフニューラルネットワーク(GNN)の潜在位置ランダムグラフに対する近似能力について検討する。 大きなグラフ極限では、GNNはc-GNNとして知られるある種の「連続」モデルに収束することが知られており、ランダムグラフモデルに対する近似力を直接的に研究することができる。 しかし、入力ノード機能がない場合、Weisfeiler-Lehman同型テストによってGNNが制限されるのと同様に、c-GNNは単純なランダムグラフモデルに対して著しく制限される。 例えば、定次関数を持つよく分離された確率ブロックモデル(sbm)のコミュニティを区別できない。 そこで本稿では,GNNをユニークなノード識別子で拡張するアーキテクチャについて考察する。 本研究では,ノード識別子の新たな条件下で,SGNNとC-SGNNとの収束性について検討する。 次に、c-sgnn は連続極限において c-gnn よりも厳密に強く、多くの sbms や大きなランダム幾何グラフを含むいくつかのランダムグラフモデル上でそれらの普遍性を証明する。 この結果は置換不変量と置換同値なアーキテクチャの両方をカバーする。

We study the approximation power of Graph Neural Networks (GNNs) on latent position random graphs. In the large graph limit, GNNs are known to converge to certain "continuous" models known as c-GNNs, which directly enables a study of their approximation power on random graph models. In the absence of input node features however, just as GNNs are limited by the Weisfeiler-Lehman isomorphism test, c-GNNs will be severely limited on simple random graph models. For instance, they will fail to distinguish the communities of a well-separated Stochastic Block Model (SBM) with constant degree function. Thus, we consider recently proposed architectures that augment GNNs with unique node identifiers, referred to as Structural GNNs here (SGNNs). We study the convergence of SGNNs to their continuous counterpart (c-SGNNs) in the large random graph limit, under new conditions on the node identifiers. We then show that c-SGNNs are strictly more powerful than c-GNNs in the continuous limit, and prove their universality on several random graph models of interest, including most SBMs and a large class of random geometric graphs. Our results cover both permutation-invarian t and permutation-equivari ant architectures.
翻訳日:2021-06-01 11:42:39 公開日:2021-05-28
# 共同表現学習とオンラインクラスタリングによる教師なしアクティビティセグメンテーション

Unsupervised Activity Segmentation by Joint Representation Learning and Online Clustering ( http://arxiv.org/abs/2105.13353v2 )

ライセンス: Link先を確認
Sateesh Kumar, Sanjay Haresh, Awais Ahmed, Andrey Konin, M. Zeeshan Zia, Quoc-Huy Tran(参考訳) 本稿では,ビデオフレームクラスタリングをプリテキストタスクとして使用し,表現学習とオンラインクラスタリングを同時に行う,教師なしアクティビティセグメンテーションのための新しいアプローチを提案する。 これは、表現学習やクラスタリングが連続的に行われる先行研究とは対照的である。 我々は時間的最適輸送と時間的コヒーレンス損失を利用してビデオの時間的情報を活用する。 特に、時間的正規化項を標準最適輸送モジュールに組み込むことにより、アクティビティの時間的順序を保ち、擬似ラベルクラスタ割り当てを計算する時間的最適輸送モジュールが得られる。 次に、時間的コヒーレンス損失により、隣接するビデオフレームを近くのポイントにマッピングし、遠方のビデオフレームを埋め込み空間内の遠く離れたポイントにマッピングする。 これら2つのコンポーネントの組み合わせは、教師なしアクティビティセグメンテーションの効果的な表現をもたらす。 さらに、従来の方法では、オフラインでクラスタ化する前にデータセット全体の学習機能を格納する必要がありますが、当社のアプローチでは、一度にひとつのミニバッチをオンライン形式で処理します。 3つの公開データセットの大規模な評価 50-Salads、YouTube Instructions、Breakfast、および私たちのデータセット、すなわちDesktop Assemblyは、メモリ制約が大幅に少ないにもかかわらず、これまでの教師なしアクティビティセグメンテーションの方法と同等かそれ以上のパフォーマンスを示す。

We present a novel approach for unsupervised activity segmentation, which uses video frame clustering as a pretext task and simultaneously performs representation learning and online clustering. This is in contrast with prior works where representation learning and clustering are often performed sequentially. We leverage temporal information in videos by employing temporal optimal transport and temporal coherence loss. In particular, we incorporate a temporal regularization term into the standard optimal transport module, which preserves the temporal order of the activity, yielding the temporal optimal transport module for computing pseudo-label cluster assignments. Next, the temporal coherence loss encourages neighboring video frames to be mapped to nearby points while distant video frames are mapped to farther away points in the embedding space. The combination of these two components results in effective representations for unsupervised activity segmentation. Furthermore, previous methods require storing learned features for the entire dataset before clustering them in an offline manner, whereas our approach processes one mini-batch at a time in an online manner. Extensive evaluations on three public datasets, i.e. 50-Salads, YouTube Instructions, and Breakfast, and our dataset, i.e., Desktop Assembly, show that our approach performs on par or better than previous methods for unsupervised activity segmentation, despite having significantly less memory constraints.
翻訳日:2021-06-01 11:41:36 公開日:2021-05-28
# (参考訳) 多関節帯域調整による確率勾配MCMC [全文訳有]

Stochastic Gradient MCMC with Multi-Armed Bandit Tuning ( http://arxiv.org/abs/2105.13059v2 )

ライセンス: CC BY 4.0
Jeremie Coullon, Leah South, Christopher Nemeth(参考訳) 確率的勾配マルコフ連鎖モンテカルロ(sgmcmc)はスケーラブルベイズ推定のための一般的なアルゴリズムである。 しかしながら、これらのアルゴリズムは、得られたサンプルに基づいて推定器の精度に影響を与えるステップサイズやバッチサイズなどのハイパーパラメータを含む。 結果として、これらのハイパーパラメータは実践者によってチューニングされなければならず、現在それらをチューニングするための原則と自動化された方法は存在しない。 受け入れ率に基づく標準MCMCチューニング手法は、SGMCMCでは使用できないため、代替ツールや診断が必要である。 sgmcmcハイパーパラメータをチューニングし,kernel stein discrepancy (ksd) を最小化することにより後続近似の精度を最大化するbanditに基づく新しいアルゴリズムを提案する。 このアプローチを支持する理論的結果を提供し、KSDの代替指標を評価する。 シミュレーションと実データの両方で実験を行い,本手法が広範囲の応用分野に適用可能であることを確認した。

Stochastic gradient Markov chain Monte Carlo (SGMCMC) is a popular class of algorithms for scalable Bayesian inference. However, these algorithms include hyperparameters such as step size or batch size that influence the accuracy of estimators based on the obtained samples. As a result, these hyperparameters must be tuned by the practitioner and currently no principled and automated way to tune them exists. Standard MCMC tuning methods based on acceptance rates cannot be used for SGMCMC, thus requiring alternative tools and diagnostics. We propose a novel bandit-based algorithm that tunes SGMCMC hyperparameters to maximize the accuracy of the posterior approximation by minimizing the kernel Stein discrepancy (KSD). We provide theoretical results supporting this approach and assess alternative metrics to KSD. We support our results with experiments on both simulated and real datasets, and find that this method is practical for a wide range of application areas.
翻訳日:2021-06-01 03:13:44 公開日:2021-05-28
# (参考訳) 強化学習による因果推論に対する確率的介入 [全文訳有]

Stochastic Intervention for Causal Inference via Reinforcement Learning ( http://arxiv.org/abs/2105.13514v1 )

ライセンス: CC BY 4.0
Tri Dung Duong, Qian Li, Guandong Xu(参考訳) 因果推論法は、精密医療、最適政策、経済学など様々な意思決定領域に広く適用されている。 因果推論の中心は、薬物投与の変化や財政援助の増加といった介入戦略の処置効果の推定である。 既存の方法は主に決定論的治療に制限され、異なる治療下での結果を比較する。 しかし、確率的治療における治療効果推定の実質的な関心、例えば「50 %の線量削減を採用すると、すべてのユニットの健康状態がどう変わるか」には対処できない。 言い換えれば、音質決定を支援するためのきめ細かい処理効果を推定する能力は欠如している。 本研究では,確率的介入に対する治療効果を推定するための新しい有効な枠組みを提案し,因果推論研究を進める。 特に,非パラメトリックな影響関数に基づく確率的介入効果推定器(sie)を開発し,ロバスト性と高速収束率を理論的に保証する。 さらに,ランダム探索ソルバに基づくカスタマイズ強化学習アルゴリズムを構築し,意思決定プロセスにおいて最も期待される結果を生成するための最適方針を効果的に見つける。 最後に、我々のフレームワークが最先端のベースラインと比較して大きなパフォーマンスを達成できることを正当化する実証的研究を行う。

Causal inference methods are widely applied in various decision-making domains such as precision medicine, optimal policy and economics. Central to causal inference is the treatment effect estimation of intervention strategies, such as changes in drug dosing and increases in financial aid. Existing methods are mostly restricted to the deterministic treatment and compare outcomes under different treatments. However, they are unable to address the substantial recent interest of treatment effect estimation under stochastic treatment, e.g., "how all units health status change if they adopt 50\% dose reduction". In other words, they lack the capability of providing fine-grained treatment effect estimation to support sound decision-making. In our study, we advance the causal inference research by proposing a new effective framework to estimate the treatment effect on stochastic intervention. Particularly, we develop a stochastic intervention effect estimator (SIE) based on nonparametric influence function, with the theoretical guarantees of robustness and fast convergence rates. Additionally, we construct a customised reinforcement learning algorithm based on the random search solver which can effectively find the optimal policy to produce the greatest expected outcomes for the decision-making process. Finally, we conduct an empirical study to justify that our framework can achieve significant performance in comparison with state-of-the-art baselines.
翻訳日:2021-05-31 22:31:24 公開日:2021-05-28
# (参考訳) セマンティクスセグメンテーションタスクのためのマルチタスク砂時計モデルの実験的研究 [全文訳有]

Empirical Study of Multi-Task Hourglass Model for Semantic Segmentation Task ( http://arxiv.org/abs/2105.13531v1 )

ライセンス: CC BY 4.0
Darwin Saire and Ad\'in Ram\'irez Rivera(参考訳) セマンティックセグメンテーション(ss)タスクは、画像に存在する各オブジェクトのピクセルレベルでラベル付けすることで、密集した分類を作成することを目的としている。 畳み込みニューラルネットワーク(CNN)アプローチは広く使われており、このタスクで最高の結果を示している。 しかし,この結果に対する空間精度の低下は,解決されていない主な欠点である。 本研究では, エッジ検出, 意味輪郭, 距離変換タスクを用いて, セマンティクスセグメント化タスクを補完するマルチタスク手法を提案する。 共通な潜在空間を共有することで、補完的なタスクはより堅牢な表現を生成し、セマンティックなラベルを強化することができる。 本稿では,輪郭型タスクが潜在空間に与える影響と,SSの最終結果に与える影響について検討する。 本研究では,都市景観,カムビッド,フライブルクの森林データセットにおける砂時計モデルにおけるマルチタスク環境における学習の有効性を示す。

The semantic segmentation (SS) task aims to create a dense classification by labeling at the pixel level each object present on images. Convolutional neural network (CNN) approaches have been widely used, and exhibited the best results in this task. However, the loss of spatial precision on the results is a main drawback that has not been solved. In this work, we propose to use a multi-task approach by complementing the semantic segmentation task with edge detection, semantic contour, and distance transform tasks. We propose that by sharing a common latent space, the complementary tasks can produce more robust representations that can enhance the semantic labels. We explore the influence of contour-based tasks on latent space, as well as their impact on the final results of SS. We demonstrate the effectiveness of learning in a multi-task setting for hourglass models in the Cityscapes, CamVid, and Freiburg Forest datasets by improving the state-of-the-art without any refinement post-processing.
翻訳日:2021-05-31 22:19:07 公開日:2021-05-28
# (参考訳) 人間の行動認識のための画像符号化のための慣性センサデータ [全文訳有]

Inertial Sensor Data To Image Encoding For Human Action Recognition ( http://arxiv.org/abs/2105.13533v1 )

ライセンス: CC BY 4.0
Zeeshan Ahmad, Naimul Khan(参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンの分野で成功したディープラーニングモデルである。 本稿では,慣性センサデータを用いた人間行動認識(HAR)のためのCNNモデルの最大限の利点を得るために,慣性センサデータを活動画像に変換するための空間領域法を4種類使用し,それを新しい融合フレームワークで活用する。 これら4種類のアクティビティイメージは、Signal Images (SI)、Gramian Angular Field (GAF) Images、Markov Transition Field (MTF) Images、Recurrence Plot (RP) Imagesである。 さらに,マルチモーダル融合フレームワークの作成と活動画像の活用のために,プリウィットフィルタとハイブーストフィルタの2つの空間領域フィルタを畳み込み,各タイプの活動画像のマルチモーダル化を行った。 CNNモデルであるResnet-18は、マルチモーダルから深い特徴を学ぶために使用される。 各ReNetの最終プーリング層から学習した特徴を抽出し、標準相関ベース融合(CCF)により融合し、人間の行動認識の精度を向上させる。 これらの高情報機能は、マルチクラスサポートベクトルマシン(SVM)への入力として提供される。 3つの公開慣性データセットの実験結果から,提案手法が現状よりも優れていることが示された。

Convolutional Neural Networks (CNNs) are successful deep learning models in the field of computer vision. To get the maximum advantage of CNN model for Human Action Recognition (HAR) using inertial sensor data, in this paper, we use 4 types of spatial domain methods for transforming inertial sensor data to activity images, which are then utilized in a novel fusion framework. These four types of activity images are Signal Images (SI), Gramian Angular Field (GAF) Images, Markov Transition Field (MTF) Images and Recurrence Plot (RP) Images. Furthermore, for creating a multimodal fusion framework and to exploit activity image, we made each type of activity images multimodal by convolving with two spatial domain filters : Prewitt filter and High-boost filter. Resnet-18, a CNN model, is used to learn deep features from multi-modalities. Learned features are extracted from the last pooling layer of each ReNet and then fused by canonical correlation based fusion (CCF) for improving the accuracy of human action recognition. These highly informative features are served as input to a multiclass Support Vector Machine (SVM). Experimental results on three publicly available inertial datasets show the superiority of the proposed method over the current state-of-the-art.
翻訳日:2021-05-31 21:44:29 公開日:2021-05-28
# (参考訳) マルチモーダル画像融合を用いた心電図心拍分類 [全文訳有]

ECG Heart-beat Classification Using Multimodal Image Fusion ( http://arxiv.org/abs/2105.13536v1 )

ライセンス: CC BY 4.0
Zeeshan Ahmad, Anika Tabassum, Naimul Khan, Ling Guan(参考訳) 本稿では,手動の特徴抽出や1次元生ECG信号の直接利用に依存する既存の機械学習技術の弱点を克服するために,心電図心電図分類のための新しい画像融合モデル(IFM)を提案する。 In the input of IFM, we convert the heart beats of ECG into three different image using Gramian Angular Field (GAF), Recurrence Plot (RP), and Markov Transition Field (MTF) then fuse these image to create a single imaging modality。 特徴抽出と分類にはAlexNetを使用し、エンドツーエンドのディープラーニングを採用しています。 我々は,aami ec57標準とptb診断データセットを用いて,5種類の不整脈に対する理学的なmit-bihデータセットについて実験を行った。 我々は,予測精度,精度,リコールの観点から,技術結果の状態を達成した。

In this paper, we present a novel Image Fusion Model (IFM) for ECG heart-beat classification to overcome the weaknesses of existing machine learning techniques that rely either on manual feature extraction or direct utilization of 1D raw ECG signal. At the input of IFM, we first convert the heart beats of ECG into three different images using Gramian Angular Field (GAF), Recurrence Plot (RP) and Markov Transition Field (MTF) and then fuse these images to create a single imaging modality. We use AlexNet for feature extraction and classification and thus employ end to end deep learning. We perform experiments on PhysioNet MIT-BIH dataset for five different arrhythmias in accordance with the AAMI EC57 standard and on PTB diagnostics dataset for myocardial infarction (MI) classification. We achieved an state of an art results in terms of prediction accuracy, precision and recall.
翻訳日:2021-05-31 21:26:14 公開日:2021-05-28
# (参考訳) 可変長スケールにおける流体系の自律最適化 [全文訳有]

Autonomous Optimization of Fluid Systems at Varying Length Scales ( http://arxiv.org/abs/2105.13553v1 )

ライセンス: CC BY 4.0
Alexander E. Siemenn, Evyatar Shaulsky, Matthew Beveridge, Tonio Buonassisi, Sara M. Hashmi, Iddo Drori(参考訳) 自律的な最適化は、ドメインエキスパートの指導なしに最適化された実験製品を生成するハードウェア条件を発見するプロセスである。 離散および均一な液滴パターンを生成する流体系の実験条件を検出するための自律最適化フレームワークを設計する。 離散液滴と均一液滴の生成には流体系の実験条件に対する高精度な制御が必要である。 Rayleigh-Plateau不安定や毛細管不安定のような流体流不安定性は、個々の液滴に流れを分離させる。 しかし、この現象は不安定性を利用するため、ハードウェアは正確に調整され、均一で繰り返し可能な液滴を達成する必要がある。 通常、これはハードウェア構成や液体前駆体の選択に応じて、ループのドメインエキスパートと一定の調整を必要とする。 本稿では,一様で再現可能な液滴を所望の特性で生成するハードウェア条件を,回路の領域の専門家を伴わずに,フロー不安定性を生かしたコンピュータビジョン駆動型ベイズ最適化フレームワークを提案する。 この枠組みは, マイクロ流体系とインクジェット系を用いて, マイクロメートルとミリメートルの2つの流体系でそれぞれ検証し, このアプローチの適用範囲を示した。

Autonomous optimization is a process by which hardware conditions are discovered that generate an optimized experimental product without the guidance of a domain expert. We design an autonomous optimization framework to discover the experimental conditions within fluid systems that generate discrete and uniform droplet patterns. Generating discrete and uniform droplets requires high-precision control over the experimental conditions of a fluid system. Fluid stream instabilities, such as Rayleigh-Plateau instability and capillary instability, drive the separation of a flow into individual droplets. However, because this phenomenon leverages an instability, by nature the hardware must be precisely tuned to achieve uniform, repeatable droplets. Typically this requires a domain expert in the loop and constant re-tuning depending on the hardware configuration and liquid precursor selection. Herein, we propose a computer vision-driven Bayesian optimization framework to discover the precise hardware conditions that generate uniform, reproducible droplets with the desired features, leveraging flow instability without a domain expert in the loop. This framework is validated on two fluid systems, at the micrometer and millimeter length scales, using microfluidic and inkjet systems, respectively, indicating the application breadth of this approach.
翻訳日:2021-05-31 21:17:55 公開日:2021-05-28
# (参考訳) 絶対一般化によるワンショット学習 [全文訳有]

One-shot Learning with Absolute Generalization ( http://arxiv.org/abs/2105.13559v1 )

ライセンス: CC BY 4.0
Hao Su(参考訳) 各パターンのラベル付きサンプルに基づいて,新しいデータセット上で事前訓練された分類器を動作可能にするためのワンショット学習を提案する。 しかし、データセット自体がワンショット学習をサポートするかどうかを考える研究者はほとんどいない。 本稿では,一括学習を支援するデータセットの種類を説明するための定義セットを提案し,その概念を「絶対一般化」と呼ぶ。 これらの定義に基づき、絶対一般化可能な分類器を構築する方法を提案した。 提案手法では, 2つのサンプルを新しいサンプルとして結合し, 分類問題を同一性識別問題あるいは類似性計量問題に変換する。 実験により,提案手法が,ワンショット学習データセットと人工データセットのベースラインよりも優れていることを示す。

One-shot learning is proposed to make a pretrained classifier workable on a new dataset based on one labeled samples from each pattern. However, few of researchers consider whether the dataset itself supports one-shot learning. In this paper, we propose a set of definitions to explain what kind of datasets can support one-shot learning and propose the concept "absolute generalization". Based on these definitions, we proposed a method to build an absolutely generalizable classifier. The proposed method concatenates two samples as a new single sample, and converts a classification problem to an identity identification problem or a similarity metric problem. Experiments demonstrate that the proposed method is superior to baseline on one-shot learning datasets and artificial datasets.
翻訳日:2021-05-31 21:01:03 公開日:2021-05-28
# (参考訳) 標準アラビア語・エジプト語から英語機械翻訳へ [全文訳有]

Investigating Code-Mixed Modern Standard Arabic-Egyptian to English Machine Translation ( http://arxiv.org/abs/2105.13573v1 )

ライセンス: CC BY 4.0
El Moatez Billah Nagoudi, AbdelRahim Elmadany, Muhammad Abdul-Mageed(参考訳) ニューラルマシン翻訳(NMT)の最近の進歩により、大きな並列データが存在するモノリンガル言語ペア間での翻訳が成功し、事前学習されたモデルによりパフォーマンスがさらに向上した。 コードミックス設定での翻訳作業(ペアの1つは2つ以上の言語からのテキストを含む)は存在するが、最近のNTTの成功と言語モデリングがコードミックステキストの翻訳にどう意味するかは、まだ不明である。 本研究は,現代標準アラビア語とエジプト・アラビア語(MSAEA)を混成したMTを英語に翻訳した。 我々は、(i)標準のエンドツーエンドシーケンス・ツー・シーケンス(S2S)変換器と(ii)事前訓練されたS2S言語モデル(LM)を用いて、異なる条件下でモデルを開発する。 MSA-EN並列データのみをスクラッチからトレーニングしたS2Sモデルを用いて,適切な性能を得ることができる。 また、MSAEA-ENタスクを支援するために、様々なアラビア方言のデータに基づいて微調整されたLMも見つかる。 私たちの仕事は、コードスイッチングにおける機械翻訳の共有タスクのコンテキストにあります。 我々の最良のモデルは$\bf25.72$ BLEUを達成し、MSAEA-ENの公式共有タスク評価に先んじる。

Recent progress in neural machine translation (NMT) has made it possible to translate successfully between monolingual language pairs where large parallel data exist, with pre-trained models improving performance even further. Although there exists work on translating in code-mixed settings (where one of the pairs includes text from two or more languages), it is still unclear what recent success in NMT and language modeling exactly means for translating code-mixed text. We investigate one such context, namely MT from code-mixed Modern Standard Arabic and Egyptian Arabic (MSAEA) into English. We develop models under different conditions, employing both (i) standard end-to-end sequence-to-sequence (S2S) Transformers trained from scratch and (ii) pre-trained S2S language models (LMs). We are able to acquire reasonable performance using only MSA-EN parallel data with S2S models trained from scratch. We also find LMs fine-tuned on data from various Arabic dialects to help the MSAEA-EN task. Our work is in the context of the Shared Task on Machine Translation in Code-Switching. Our best model achieves $\bf25.72$ BLEU, placing us first on the official shared task evaluation for MSAEA-EN.
翻訳日:2021-05-31 20:50:40 公開日:2021-05-28
# (参考訳) ijcai-pricai 2020 3d ai challengeの2位:1枚の画像から3dオブジェクトを再構築する [全文訳有]

2nd Place Solution for IJCAI-PRICAI 2020 3D AI Challenge: 3D Object Reconstruction from A Single Image ( http://arxiv.org/abs/2105.13575v1 )

ライセンス: CC BY 4.0
Yichen Cao, Yufei Wei, Shichao Liu, Lin Xu(参考訳) 本稿では,1枚の画像から3Dオブジェクトを再構成する「ITIJCAI--PRICAI--20 3D AI Challenge」のソリューションを提案する。 我々は,2dから3dへのマッピングを通じて,単一の2dイメージを消費し,3dポイントクラウドを生成するatlasnetの変種を開発した。 性能を限界まで押し上げ,重要な実装選択に関するガイダンスを示すため,デコーダ設計と異なる設定が正規化,投影,サンプリング方法に与える影響を解析するための広範な実験を行った。 この方法は最終トラックで2位となり、スコアは70.88$、シャンファー距離は36.87$、平均fスコアは59.18$である。 このメソッドのソースコードはhttps://github.com/e m-data/enhanced_atla snet_3dreconstructio nで入手できる。

In this paper, we present our solution for the {\it IJCAI--PRICAI--20 3D AI Challenge: 3D Object Reconstruction from A Single Image}. We develop a variant of AtlasNet that consumes single 2D images and generates 3D point clouds through 2D to 3D mapping. To push the performance to the limit and present guidance on crucial implementation choices, we conduct extensive experiments to analyze the influence of decoder design and different settings on the normalization, projection, and sampling methods. Our method achieves 2nd place in the final track with a score of $70.88$, a chamfer distance of $36.87$, and a mean f-score of $59.18$. The source code of our method will be available at https://github.com/e m-data/Enhanced_Atla sNet_3DReconstructio n.
翻訳日:2021-05-31 20:36:59 公開日:2021-05-28
# (参考訳) フラグメンテーション:システムにおける情報・暗号化・データフローの探索ツール [全文訳有]

Fragmentation; a Tool for Finding Information, Encryption and Data Flow in Systems ( http://arxiv.org/abs/2105.13585v1 )

ライセンス: CC BY 4.0
Douglas Kirkpatrick, Victoria Cao, Clifford Bohm(参考訳) 本稿では,システム内の断片化予測情報を決定するための新しい情報理論尺度であるフラグメンテーション(f)を提案する。 この概念は、デジタル脳を通る情報の流れを有向グラフの形で表現できるフラグメンテーション行列を生成するために拡張することができる。 フラグメンテーションとフラグメンテーション行列は、デジタル脳の構造と機能、つまり因果的デジタルネットワークがどのように情報を「考え」、処理するかに関する新たな洞察を与えることができる。 fを記述することに加えて、寿命の処理や付随暗号のインシデントなど、ニューラルネットワークにおける複雑な処理がどのように発生するのかを検証できる。

We introduce a new information-theoreti c measure, fragmentation (F) which can be used to determine how fragmented predictive information is in a system. The concept can be extended to generate fragmentation matrices that can illustrate information flows through digital brains, in the form of directed graphs. Fragmentation and fragmentation matrices can provide new insights into digital brains structure and function, in other words, how causal digital networks "think" and process information. In addition to describing F we demonstrate how it can be used to examine how complex processing arises in neural networks, including differences in lifetime processing and incidents of incidental encryption.
翻訳日:2021-05-31 20:30:36 公開日:2021-05-28
# (参考訳) 知識言語不整合の緩和--深部常識知識の研究 [全文訳有]

Alleviating the Knowledge-Language Inconsistency: A Study for Deep Commonsense Knowledge ( http://arxiv.org/abs/2105.13607v1 )

ライセンス: CC BY 4.0
Yi Zhang, Lei Li, Yunfang Wu, Qi Su, Xu Sun(参考訳) 知識事実は一般に関係性三重項で表されるが、いくつかの常識的事実は言語表現と矛盾する形式を持つ三重項で表される。 この矛盾は、これらの常識的な知識事実を扱うために、事前訓練された言語モデルに課題を提起する。 本稿では,このような知識を深層コモンセンス知識と呼び,広範囲にわたる探索実験を行う。 従来の手法では効果的に捉えられていないが,深部共通センス知識は共通センス知識のかなりの部分を占めている。 さらに,知識の3重表現形式に対する従来の手法の信頼度を緩和し,文章に分散した深層常識知識のマイニング手法を提案する。 実験により,提案手法は深層コモンセンス知識のマイニングにおける性能を著しく向上させることが示された。

Knowledge facts are typically represented by relational triples, while we observe that some commonsense facts are represented by the triples whose forms are inconsistent with the expression of language. This inconsistency puts forward a challenge for pre-trained language models to deal with these commonsense knowledge facts. In this paper, we term such knowledge as deep commonsense knowledge and conduct extensive exploratory experiments on it. We show that deep commonsense knowledge occupies a significant part of commonsense knowledge while conventional methods fail to capture it effectively. We further propose a novel method to mine the deep commonsense knowledge distributed in sentences, alleviating the reliance of conventional methods on the triple representation form of knowledge. Experiments demonstrate that the proposal significantly improves the performance in mining deep commonsense knowledge.
翻訳日:2021-05-31 20:20:46 公開日:2021-05-28
# (参考訳) ほぼブラックウェル最適政策勾配法 [全文訳有]

A nearly Blackwell-optimal policy gradient method ( http://arxiv.org/abs/2105.13609v1 )

ライセンス: CC BY 4.0
Vektor Dewanto, Marcus Gallagher(参考訳) 継続環境においては、定常的な報酬(利得)を近似するために、割引係数が1に近い割引報酬基準を最大化することが一般的である。 しかし、このような基準は、過渡的な振る舞いを無視して、長期にわたるパフォーマンスのみを考慮する。 本研究では,利得を最適化する政策勾配法を開発し,そのバイアス(過渡的な性能を示すものであり,利得が等しい政策から選択することが重要である。 我々はバイアスの勾配のサンプリングを可能にする表現と、その事前条件であるフィッシャー行列を導出する。 さらに,対数障壁を用いて対応する二段階最適化を解くアルゴリズムを提案する。 実験結果は,提案の基本的なメカニズムに関する知見を与える。

For continuing environments, reinforcement learning methods commonly maximize a discounted reward criterion with discount factor close to 1 in order to approximate the steady-state reward (the gain). However, such a criterion only considers the long-run performance, ignoring the transient behaviour. In this work, we develop a policy gradient method that optimizes the gain, then the bias (which indicates the transient performance and is important to capably select from policies with equal gain). We derive expressions that enable sampling for the gradient of the bias, and its preconditioning Fisher matrix. We further propose an algorithm that solves the corresponding bi-level optimization using a logarithmic barrier. Experimental results provide insights into the fundamental mechanisms of our proposal.
翻訳日:2021-05-31 20:15:23 公開日:2021-05-28
# (参考訳) 速度精度最適化のためのLog-Sum-Exp:逐次密度比行列推定のパワー

The Power of Log-Sum-Exp: Sequential Density Ratio Matrix Estimation for Speed-Accuracy Optimization ( http://arxiv.org/abs/2105.13636v1 )

ライセンス: CC BY 4.0
Akinori F. Ebihara and Taiki Miyagawa(参考訳) 予測をできるだけ早く正確にするために,時系列の多クラス分類のためのモデルを提案する。 行列シーケンシャル確率比テスト(MSPRT)は、この設定に漸近的に最適であることが知られているが、広い現実世界の応用を妨げる重要な仮定を含んでいる。 そこで本研究では,複数の密度比の行列を制約付きで推定し,従来の密度比推定よりも困難である新しい密度比行列推定法であるdrme(密度比行列推定法)を提案する。 DRME を解くためのlog-sum-exp-type loss function (LSEL) を提案し,次のことを証明した: (i) LSEL はトレーニングセットのサンプルサイズが増加(一貫性)するにつれて真の密度比行列を提供する; (ii) より難しいクラスにより大きな勾配を割り当てる; (iii) クラス不均衡なデータセット (guess-aversion) においても差別的なスコアを提供する。 早期分類のためのアーキテクチャであるMSPRT-TANDEMは、アクション認識を含む4つのデータセットのベースラインモデル、特にシーケンシャルな観測の初期段階において、統計的にかなり優れている。 私たちのコードとデータセットは、https://github.com/T aiki Miygawa/MSPRT-TANDEM で公開されています。

We propose a model for multiclass classification of time series to make a prediction as early and as accurate as possible. The matrix sequential probability ratio test (MSPRT) is known to be asymptotically optimal for this setting, but contains a critical assumption that hinders broad real-world applications; the MSPRT requires the underlying probability density. To address this problem, we propose to solve density ratio matrix estimation (DRME), a novel type of density ratio estimation that consists of estimating matrices of multiple density ratios with constraints and thus is more challenging than the conventional density ratio estimation. We propose a log-sum-exp-type loss function (LSEL) for solving DRME and prove the following: (i) the LSEL provides the true density ratio matrix as the sample size of the training set increases (consistency); (ii) it assigns larger gradients to harder classes (hard class weighting effect); and (iii) it provides discriminative scores even on class-imbalanced datasets (guess-aversion). Our overall architecture for early classification, MSPRT-TANDEM, statistically significantly outperforms baseline models on four datasets including action recognition, especially in the early stage of sequential observations. Our code and datasets are publicly available at: https://github.com/T aikiMiyagawa/MSPRT-T ANDEM.
翻訳日:2021-05-31 19:24:48 公開日:2021-05-28
# (参考訳) ASCENTの内部: 質問応答における深層コモンセンス知識ベースとその利用 [全文訳有]

Inside ASCENT: Exploring a Deep Commonsense Knowledge Base and its Usage in Question Answering ( http://arxiv.org/abs/2105.13662v1 )

ライセンス: CC BY 4.0
Tuan-Phong Nguyen, Simon Razniewski, Gerhard Weikum(参考訳) ASCENTはウェブコンテンツ(Nguyen et al., WWW 2021)からコモンセンスアサーションを抽出・統合するための完全自動化手法である。 それは、位置や目的のような意味的な面を捉え、また、サブグループや関連する主題の概念を合成することによって、伝統的なトリプルベースコモンセンス知識表現を推し進める。 このデモでは、ユーザが構築プロセスを理解し、コンテンツを探索し、質問応答のユースケースにおけるその影響を観察するWebポータルを提示する。 デモサイトと紹介ビデオはどちらもオンラインで公開されている。

ASCENT is a fully automated methodology for extracting and consolidating commonsense assertions from web contents (Nguyen et al., WWW 2021). It advances traditional triple-based commonsense knowledge representation by capturing semantic facets like locations and purposes, and composite concepts, i.e., subgroups and related aspects of subjects. In this demo, we present a web portal that allows users to understand its construction process, explore its content, and observe its impact in the use case of question answering. The demo website and an introductory video are both available online.
翻訳日:2021-05-31 19:23:17 公開日:2021-05-28
# (参考訳) 連系レーダデータ通信を用いた自律走行車両の移動型深部強化学習フレームワーク [全文訳有]

Transferable Deep Reinforcement Learning Framework for Autonomous Vehicles with Joint Radar-Data Communications ( http://arxiv.org/abs/2105.13670v1 )

ライセンス: CC BY 4.0
Nguyen Quang Hieu, Dinh Thai Hoang, Dusit Niyato, Ping Wang, Dong In Kim, and Chau Yuen(参考訳) 自律走行車(AV)は、動的環境下で安全かつ効率的に運用するために必要である。 このため、JAR(Joint Radar-Communications )機能を備えたAVは、レーダー検出機能とデータ通信機能の両方を活用して運転安全性を高めることができる。 しかし, 周囲環境の不確実性と動的に異なる2つの機能を持つAVシステムの性能を最適化することは極めて困難である。 本稿では,まず,環境の動的・不確実性下でのjrc操作関数選択において,avが最適決定を行うのを助けるために,マルコフ決定過程(mdp)に基づくインテリジェント最適化フレームワークを提案する。 次に,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,環境に関する事前情報を必要とせず,avの最適方針を求める。 さらに,提案フレームワークをよりスケーラブルにするために,AVが新たな環境に移行する際のトレーニングプロセスの高速化に有用な経験を活用できるように,Transfer Learning(TL)メカニズムを開発した。 広範なシミュレーションにより,提案手法は従来の深層強化学習手法と比較して,avによる障害物検出確率を最大67%低減することが示された。

Autonomous Vehicles (AVs) are required to operate safely and efficiently in dynamic environments. For this, the AVs equipped with Joint Radar-Communications (JRC) functions can enhance the driving safety by utilizing both radar detection and data communication functions. However, optimizing the performance of the AV system with two different functions under uncertainty and dynamic of surrounding environments is very challenging. In this work, we first propose an intelligent optimization framework based on the Markov Decision Process (MDP) to help the AV make optimal decisions in selecting JRC operation functions under the dynamic and uncertainty of the surrounding environment. We then develop an effective learning algorithm leveraging recent advances of deep reinforcement learning techniques to find the optimal policy for the AV without requiring any prior information about surrounding environment. Furthermore, to make our proposed framework more scalable, we develop a Transfer Learning (TL) mechanism that enables the AV to leverage valuable experiences for accelerating the training process when it moves to a new environment. Extensive simulations show that the proposed transferable deep reinforcement learning framework reduces the obstacle miss detection probability by the AV up to 67% compared to other conventional deep reinforcement learning approaches.
翻訳日:2021-05-31 19:14:09 公開日:2021-05-28
# (参考訳) ResT: 視覚認識のための効率的な変換器 [全文訳有]

ResT: An Efficient Transformer for Visual Recognition ( http://arxiv.org/abs/2105.13677v1 )

ライセンス: CC BY 4.0
Qinglong Zhang and Yubin Yang(参考訳) 本稿では,画像認識のための汎用バックボーンとして機能する,高効率な多スケール視覚トランスフォーマーrestを提案する。 Unlike existing Transformer methods, which employ standard Transformer blocks to tackle raw images with a fixed resolution, our ResT have several advantages: (1) A memory-efficient multi-head self-attention is built, which compresses the memory by a simple depth-wise convolution, and projects the interaction across the attention-heads dimension while keeping the diversity ability of multi-heads; (2) Position encoding is constructed as spatial attention, which is more flexible and can tackle with input images of arbitrary size without interpolation or fine-tune; (3) Instead of the straightforward tokenization at the beginning of each stage, we design the patch embedding as a stack of overlapping convolution operation with stride on the 2D-reshaped token map. 画像分類と下流タスクにおけるResTの総合的な検証を行う。 実験の結果,提案したResTは最近の最先端のバックボーンよりも大きなマージンを有し,ResTの強いバックボーンとしての可能性を示している。 コードとモデルはhttps://github.com/w ofmanaf/ResT.comで公開される。

This paper presents an efficient multi-scale vision Transformer, called ResT, that capably served as a general-purpose backbone for image recognition. Unlike existing Transformer methods, which employ standard Transformer blocks to tackle raw images with a fixed resolution, our ResT have several advantages: (1) A memory-efficient multi-head self-attention is built, which compresses the memory by a simple depth-wise convolution, and projects the interaction across the attention-heads dimension while keeping the diversity ability of multi-heads; (2) Position encoding is constructed as spatial attention, which is more flexible and can tackle with input images of arbitrary size without interpolation or fine-tune; (3) Instead of the straightforward tokenization at the beginning of each stage, we design the patch embedding as a stack of overlapping convolution operation with stride on the 2D-reshaped token map. We comprehensively validate ResT on image classification and downstream tasks. Experimental results show that the proposed ResT can outperform the recently state-of-the-art backbones by a large margin, demonstrating the potential of ResT as strong backbones. The code and models will be made publicly available at https://github.com/w ofmanaf/ResT.
翻訳日:2021-05-31 18:45:17 公開日:2021-05-28
# (参考訳) deeptag:fiducial marker設計と検出のための汎用フレームワーク [全文訳有]

DeepTag: A General Framework for Fiducial Marker Design and Detection ( http://arxiv.org/abs/2105.13731v1 )

ライセンス: CC BY 4.0
Zhuming Zhang, Yongtao Hu, Guoxing Yu, Jingwen Dai(参考訳) fiducial markerシステムは通常、マーカー、検出アルゴリズム、および符号化システムで構成される。 マーカーの出現と検出ロバスト性は、従来の低レベル画像処理技術で手作りされた既存の検出アルゴリズムによって一般的に制限される。 さらに,マーカーと検出アルゴリズムの欠点を克服するために,高度に設計された符号化システムが必要となる。 各種アプリケーションにおける柔軟性と堅牢性を向上させるため,フィデューシャルマーカーの設計と検出のための一般的なディープラーニングベースのフレームワークであるDeepTagを提案する。 deeptagは、さまざまな既存のマーカーファミリの検出をサポートするだけでなく、カスタマイズされたローカルパターンによる新しいマーカーファミリの設計も可能にする。 また,手動のアノテーションを使わずにハエのトレーニングデータを効率的に合成する手法を提案する。 このように、DeepTagは既存のおよび新しく設計されたマーカーファミリーに容易に適応できる。 DeepTagと既存の手法を検証するために、既存のデータセットに加えて、マーカーを異なるビュー距離と角度に配置する、より大きくて困難なデータセットも収集する。 実験により、deeptagは異なるマーカーファミリーをサポートしており、検出ロバスト性とポーズ精度の両面で既存の方法を大きく上回っていることが示されている。 コードとデータセットはいずれも \url{https://herohuyongta o.github.io/research /publications/deep-t ag/} で利用可能である。

A fiducial marker system usually consists of markers, a detection algorithm, and a coding system. The appearance of markers and the detection robustness are generally limited by the existing detection algorithms, which are hand-crafted with traditional low-level image processing techniques. Furthermore, a sophisticatedly designed coding system is required to overcome the shortcomings of both markers and detection algorithms. To improve the flexibility and robustness in various applications, we propose a general deep learning based framework, DeepTag, for fiducial marker design and detection. DeepTag not only supports detection of a wide variety of existing marker families, but also makes it possible to design new marker families with customized local patterns. Moreover, we propose an effective procedure to synthesize training data on the fly without manual annotations. Thus, DeepTag can easily adapt to existing and newly-designed marker families. To validate DeepTag and existing methods, beside existing datasets, we further collect a new large and challenging dataset where markers are placed in different view distances and angles. Experiments show that DeepTag well supports different marker families and greatly outperforms the existing methods in terms of both detection robustness and pose accuracy. Both code and dataset are available at \url{https://herohuyongta o.github.io/research /publications/deep-t ag/}.
翻訳日:2021-05-31 18:28:23 公開日:2021-05-28
# (参考訳) 重雨画像に対する意味的特徴マッチングによる新しい画像キャプションエンコーダ [全文訳有]

New Image Captioning Encoder via Semantic Visual Feature Matching for Heavy Rain Images ( http://arxiv.org/abs/2105.13753v1 )

ライセンス: CC BY 4.0
Chang-Hwan Son, Pung-Hwi Ye(参考訳) 画像キャプションは入力画像からシーンを記述するテキストを生成する。 晴天で撮影された高品質な画像のために開発された。 しかし、大雨、雪、濃霧などの悪天候では、雨乱れ、雨の蓄積、雪の結晶化などによる視認性が低下し、画質が著しく低下する。 これにより、有用な視覚特徴の抽出が妨げられ、画像キャプション性能が劣化する。 そこで本研究では,降雨画像のキャプションのためのエンコーダを提案する。 中心となる考え方は、重雨の入力画像から抽出した出力特徴を、単語や文コンテキストに関連する意味的な視覚特徴に変換することである。 これを実現するために、ターゲットエンコーダは、まずエンコーダ-デコーダフレームワークで訓練され、視覚的特徴とセマンティックワードを関連付ける。 その後、豪雨モデルに基づく初期再構成サブネットワーク(IRS)を用いて、豪雨画像中の物体を可視化する。 IRSは、ISRの出力特徴と事前訓練されたターゲットエンコーダのセマンティックビジュアル特徴とを一致させるために、別のセマンティックビジュアル特徴マッチングサブネットワーク(SVFMS)と結合される。 提案するエンコーダはISSとSVFMSの共同学習に基づいている。 エンドツーエンドでトレーニングされ、イメージキャプションのためにトレーニング済みのデコーダに接続される。 提案するエンコーダは,大雨画像からでも単語に関連付けられた意味的視覚的特徴を生成できるため,字幕の精度が向上することが実験的に実証された。

Image captioning generates text that describes scenes from input images. It has been developed for high quality images taken in clear weather. However, in bad weather conditions, such as heavy rain, snow, and dense fog, the poor visibility owing to rain streaks, rain accumulation, and snowflakes causes a serious degradation of image quality. This hinders the extraction of useful visual features and results in deteriorated image captioning performance. To address practical issues, this study introduces a new encoder for captioning heavy rain images. The central idea is to transform output features extracted from heavy rain input images into semantic visual features associated with words and sentence context. To achieve this, a target encoder is initially trained in an encoder-decoder framework to associate visual features with semantic words. Subsequently, the objects in a heavy rain image are rendered visible by using an initial reconstruction subnetwork (IRS) based on a heavy rain model. The IRS is then combined with another semantic visual feature matching subnetwork (SVFMS) to match the output features of the IRS with the semantic visual features of the pretrained target encoder. The proposed encoder is based on the joint learning of the IRS and SVFMS. It is is trained in an end-to-end manner, and then connected to the pretrained decoder for image captioning. It is experimentally demonstrated that the proposed encoder can generate semantic visual features associated with words even from heavy rain images, thereby increasing the accuracy of the generated captions.
翻訳日:2021-05-31 18:07:08 公開日:2021-05-28
# (参考訳) ラベル付きネットワークにおけるコミュニティ特性の推測 [全文訳有]

Inferring community characteristics in labelled networks ( http://arxiv.org/abs/2105.13762v1 )

ライセンス: CC BY-SA 4.0
Ioannis Kontoyiannis and Lawrence Tray(参考訳) ラベル付きネットワークは、非常に一般的で重要なデータクラスを形成し、自然に科学や工学の多くの応用に現れる。 典型的な推論目標は、頂点ラベル(または {\em features})がネットワークのグラフ構造にどのように影響するかを決定することである。 標準的なアプローチでは、ネットワークを興味のある特徴の異なる値でグループ化されたブロックに分割する。 ブロックベースのランダムグラフモデル(典型的には確率ブロックモデルの変種)は、これらの特徴ベースのコミュニティ内の非対称な振る舞いの証拠をテストするために使用される。 それでも、結果として得られるコミュニティは、しばしばグラフの自然な分割を生成しない。 本稿では,頂点ラベル付き無向グラフの記述をより効果的に記述し,ラベル付きネットワーク上でよりリッチなクエリの使用を容易にする機能ファーストブロックモデル(ffbm)を提案する。 本稿では,このモデルを用いた推論のためのベイズフレームワークを開発し,FFBMパラメータの後方分布から効率的にサンプリングする方法を提案する。 ffbmの構造は、パラメータ値の解釈性を維持するために意図的にシンプルに保たれている。 提案手法を様々なネットワークデータに適用し,頂点を分割する上で最も重要な特徴を抽出する。 提案手法の主な利点は、機能空間全体が自動的に使用され、影響に応じて暗黙的に機能をランク付けできる点である。 ハイレベルな構造に大きな影響を与えない機能は、問題次元を減らすために破棄できる。 利用可能な頂点フィーチャが結果として得られるネットワークのコミュニティ構造を容易に説明できない場合、このアプローチはこれを検知し、過剰フィッティングから保護される。 いくつかの実世界のデータセットの結果は提案手法の性能を示している。

Labelled networks form a very common and important class of data, naturally appearing in numerous applications in science and engineering. A typical inference goal is to determine how the vertex labels(or {\em features}) affect the network's graph structure. A standard approach has been to partition the network into blocks grouped by distinct values of the feature of interest. A block-based random graph model -- typically a variant of the stochastic block model -- is then used to test for evidence of asymmetric behaviour within these feature-based communities. Nevertheless, the resulting communities often do not produce a natural partition of the graph. In this work, we introduce a new generative model, the feature-first block model (FFBM), which is more effective at describing vertex-labelled undirected graphs and also facilitates the use of richer queries on labelled networks. We develop a Bayesian framework for inference with this model, and we present a method to efficiently sample from the posterior distribution of the FFBM parameters. The FFBM's structure is kept deliberately simple to retain easy interpretability of the parameter values. We apply the proposed methods to a variety of network data to extract the most important features along which the vertices are partitioned. The main advantages of the proposed approach are that the whole feature-space is used automatically, and features can be rank-ordered implicitly according to impact. Any features that do not significantly impact the high-level structure can be discarded to reduce the problem dimension. In cases where the vertex features available do not readily explain the community structure in the resulting network, the approach detects this and is protected against over-fitting. Results on several real-world datasets illustrate the performance of the proposed methods.
翻訳日:2021-05-31 17:35:52 公開日:2021-05-28
# (参考訳) herbarium 2021 half-earth challengeデータセット [全文訳有]

The Herbarium 2021 Half-Earth Challenge Dataset ( http://arxiv.org/abs/2105.13808v1 )

ライセンス: CC BY 4.0
Riccardo de Lutio, Damon Little, Barbara Ambrose, Serge Belongie(参考訳) エルバリウムシートは、世界の植物史、進化、多様性に関するユニークな見解を示している。 これにより、植物研究のすべての重要なデータソースとなる。 世界規模で草原のデジタル化が進み、草原標本の自動識別を容易にする細粒度分類領域の進歩により、この分野の研究を支援する機会が数多くある。 しかし、既存のデータセットは小さすぎるか、多様でないかのどちらかで、分類学、地理的分布、ホストの制度を表す。 さらに、複数のデータセットを集約することは困難であり、分類学は共通の基準に従っている必要がある。 自動分類のためのハーバリウム標本の最大かつ最も多種多様なデータセットであるハーバリウムハーフアースデータセットを提示する。

Herbarium sheets present a unique view of the world's botanical history, evolution, and diversity. This makes them an all-important data source for botanical research. With the increased digitisation of herbaria worldwide and the advances in the fine-grained classification domain that can facilitate automatic identification of herbarium specimens, there are a lot of opportunities for supporting research in this field. However, existing datasets are either too small, or not diverse enough, in terms of represented taxa, geographic distribution or host institutions. Furthermore, aggregating multiple datasets is difficult as taxa exist under a multitude of different names and the taxonomy requires alignment to a common reference. We present the Herbarium Half-Earth dataset, the largest and most diverse dataset of herbarium specimens to date for automatic taxon recognition.
翻訳日:2021-05-31 17:19:23 公開日:2021-05-28
# (参考訳) 祭りの訪問者と産業用ロボットの間のプロキシミクスゲーム [全文訳有]

A proxemics game between festival visitors and an industrial robot ( http://arxiv.org/abs/2105.13812v1 )

ライセンス: CC BY 4.0
Brigitte Krenn, Stephanie Gross, Bernhard Dieber, Horst Pichler, Kathrin Meyer(参考訳) 産業職場における協調ロボット(コボット)の応用の増大に伴い、人間-ロボットの相互作用の行動効果がさらに研究される必要がある。 これは、人間-ロボットチームにおけるコラボレーションパートナーの非言語的行動が、ヒューマンインタラクションパートナの経験とコラボレーションタスクの成功に大きな影響を与えているため、特に重要である。 Ars Electronica 2020 Festival for Art, Technology and Society(オーストリア、リンツ)では、ボランティアの動きに応じて腕の伸縮と伸縮の制限された相互作用能力を示す産業用ロボットと爆発的に対話する客を招待した。 腕の動きは、安全のために事前にプログラムされ、遠隔操作された(参加者には明らかではなかった)。 これらのインタラクションのビデオデータを記録し,ロボットと対話する人間の一般的な非言語行動と,聴衆の非言語行動について検討した。 その結果,インストラクターが提示したインタラクションゲームを再現するよりも,ロボットの動作や知覚能力の探索に関心があることがわかった。 また、ロボットと対話する参加者の大多数が、人間との対話相手であれば脅威や脅迫と認識される距離まで接近したこともわかりました。 傍観者については,現在の参加者の行動の変種を試すような動きをする例を見出した。

With increased applications of collaborative robots (cobots) in industrial workplaces, behavioural effects of human-cobot interactions need to be further investigated. This is of particular importance as nonverbal behaviours of collaboration partners in human-robot teams significantly influence the experience of the human interaction partners and the success of the collaborative task. During the Ars Electronica 2020 Festival for Art, Technology and Society (Linz, Austria), we invited visitors to exploratively interact with an industrial robot, exhibiting restricted interaction capabilities: extending and retracting its arm, depending on the movements of the volunteer. The movements of the arm were pre-programmed and telecontrolled for safety reasons (which was not obvious to the participants). We recorded video data of these interactions and investigated general nonverbal behaviours of the humans interacting with the robot, as well as nonverbal behaviours of people in the audience. Our results showed that people were more interested in exploring the robot's action and perception capabilities than just reproducing the interaction game as introduced by the instructors. We also found that the majority of participants interacting with the robot approached it up to a distance which would be perceived as threatening or intimidating, if it were a human interaction partner. Regarding bystanders, we found examples where people made movements as if trying out variants of the current participant's behaviour.
翻訳日:2021-05-31 17:11:12 公開日:2021-05-28
# (参考訳) NPIライセンス評価にモノトニック性を使用する言語モデル [全文訳有]

Language Models Use Monotonicity to Assess NPI Licensing ( http://arxiv.org/abs/2105.13818v1 )

ライセンス: CC BY 4.0
Jaap Jumelet, Milica Deni\'c, Jakub Szymanik, Dieuwke Hupkes, Shane Steinert-Threlkeld(参考訳) 言語モデル (LM) の意味的知識について検討し,(1) 言語モデルが意味的単調性特性に基づいて言語環境のカテゴリを作成するか否か,(2) 言語理解において,負極性項目のライセンスを事例として,これらのカテゴリが人間の言語理解に類似した役割を担っているかを検討する。 診断分類器 (DC) を用いた探索, 言語受容性タスク, および探索結果をLMの内部動作に密に結合する新しいDCランキング手法を紹介する。 実験パイプラインを様々なフィルタコーパスで訓練したLMに適用することにより、これらのモデルによって得られる意味一般化についてより深い知見を得ることができる。

We investigate the semantic knowledge of language models (LMs), focusing on (1) whether these LMs create categories of linguistic environments based on their semantic monotonicity properties, and (2) whether these categories play a similar role in LMs as in human language understanding, using negative polarity item licensing as a case study. We introduce a series of experiments consisting of probing with diagnostic classifiers (DCs), linguistic acceptability tasks, as well as a novel DC ranking method that tightly connects the probing results to the inner workings of the LM. By applying our experimental pipeline to LMs trained on various filtered corpora, we are able to gain stronger insights into the semantic generalizations that are acquired by these models.
翻訳日:2021-05-31 17:03:00 公開日:2021-05-28
# (参考訳) prsl:確率的ルールの学習による解釈可能なマルチラベル積み重ね [全文訳有]

pRSL: Interpretable Multi-label Stacking by Learning Probabilistic Rules ( http://arxiv.org/abs/2105.13850v1 )

ライセンス: CC BY 4.0
Kirchhof Michael and Schmid Lena and Reining Christopher and ten Hompel Michael and Pauly Markus(参考訳) マルチラベル分類における重要なタスクは、関連するクラス間の構造をモデル化することである。 この構造を確率論的かつ解釈可能な方法でモデル化することで、ゼロショット学習や不完全データからの学習といった幅広いタスクに応用することができる。 本稿では,確率論的命題論理則と信念伝播を用いた確率論的ルール積み重ね学習器(pRSL)を提案する。 推定と学習の正確かつ近似的なアルゴリズムを導出し、prslが様々なベンチマークデータセットで最先端の性能に達することを示す。 そこで本研究では,ノイズゲートの新たな多カテゴリー一般化を提案する。 さらに,両部雑音やネットワークにおける近似推論のためのループ的信念伝播アルゴリズムの品質に関するシミュレーション結果を報告する。

A key task in multi-label classification is modeling the structure between the involved classes. Modeling this structure by probabilistic and interpretable means enables application in a broad variety of tasks such as zero-shot learning or learning from incomplete data. In this paper, we present the probabilistic rule stacking learner (pRSL) which uses probabilistic propositional logic rules and belief propagation to combine the predictions of several underlying classifiers. We derive algorithms for exact and approximate inference and learning, and show that pRSL reaches state-of-the-art performance on various benchmark datasets. In the process, we introduce a novel multicategorical generalization of the noisy-or gate. Additionally, we report simulation results on the quality of loopy belief propagation algorithms for approximate inference in bipartite noisy-or networks.
翻訳日:2021-05-31 16:32:44 公開日:2021-05-28
# (参考訳) 完全畳み込み構造を用いた生マルチチャネル脳波からの新生児発作検出 [全文訳有]

Neonatal seizure detection from raw multi-channel EEG using a fully convolutional architecture ( http://arxiv.org/abs/2105.13854v1 )

ライセンス: CC BY 4.0
Alison O'Shea, Gordon Lightbody, Geraldine Boylan, Andriy Temko(参考訳) 新生児の発作を検出するための深層学習分類器を提案する。 このアーキテクチャは、従来の機械学習ベースのソリューションで使用される手作業による特徴に基づく表現とは対照的に、生脳波(EEG)信号からの発作イベントを検出するように設計されている。 発作検出システムは、マルチチャネル時間領域信号を処理するために畳み込み層のみを使用し、訓練段階で大量の弱ラベルデータを利用するように設計されている。 システム性能は、持続時間834hの連続脳波記録の大規模なデータベース上で評価され、2つのベースラインSVMベースのシステムと比較して、保持された公開データセットでさらに検証される。 開発したシステムは、aucの98.5%に達し、機能ベースの最先端技術ベースラインに対して56%の相対的な改善を達成している。 異なるアーキテクチャパラメータの効果を徹底的に研究する。 性能改善は、より効率的なトレーニングデータの使用と、フロントエンド特徴抽出からバックエンド分類へのエンドツーエンド最適化を可能にする、新しいアーキテクチャ設計によって達成される。 提案されたアーキテクチャは、深層学習を新生児脳波に応用するための新しい道を開き、正確な臨床ラベルの可用性に依存することなく、そのパフォーマンスがトレーニングデータ量の関数となる。

A deep learning classifier for detecting seizures in neonates is proposed. This architecture is designed to detect seizure events from raw electroencephalogram (EEG) signals as opposed to the state-of-the-art hand engineered feature-based representation employed in traditional machine learning based solutions. The seizure detection system utilises only convolutional layers in order to process the multichannel time domain signal and is designed to exploit the large amount of weakly labelled data in the training stage. The system performance is assessed on a large database of continuous EEG recordings of 834h in duration; this is further validated on a held-out publicly available dataset and compared with two baseline SVM based systems. The developed system achieves a 56% relative improvement with respect to a feature-based state-of-the art baseline, reaching an AUC of 98.5%; this also compares favourably both in terms of performance and run-time. The effect of varying architectural parameters is thoroughly studied. The performance improvement is achieved through novel architecture design which allows more efficient usage of available training data and end-to-end optimisation from the front-end feature extraction to the back-end classification. The proposed architecture opens new avenues for the application of deep learning to neonatal EEG, where the performance becomes a function of the amount of training data with less dependency on the availability of precise clinical labels.
翻訳日:2021-05-31 16:07:52 公開日:2021-05-28
# (参考訳) 強化学習による数理系の近似とエクササイズ学習 [全文訳有]

Learning Approximate and Exact Numeral Systems via Reinforcement Learning ( http://arxiv.org/abs/2105.13857v1 )

ライセンス: CC BY 4.0
Emil Carlsson, Devdatt Dubhashi, Fredrik D. Johansson(参考訳) 最近の研究 (xu et al., 2020) では、異なる言語における数値系は、情報理論的な意味での効率的なコミュニケーションの必要性によって形成されると示唆されている。 ここでは学習理論的なアプローチを採用し,強化学習によるコミュニケーションの効率性を示す。 我々の枠組みでは、2人の人工エージェントがルイスシグナリングゲームをプレイし、その目的は数字の概念を伝えることである。 エージェントは徐々に強化学習を用いてコミュニケーションを学び、その結果得られる数字システムはregierらの情報理論の枠組みにおいて効率的であることが示される。 (2015年)、ギブソンら。 (2017). また、同じタイプの人間の数字体系に似ていることも示されている。 その結果,xu等における最近の結果の強化学習を通じて,機械的な説明が得られた。 (2020)で、他のセマンティックドメインに一般化できる可能性がある。

Recent work (Xu et al., 2020) has suggested that numeral systems in different languages are shaped by a functional need for efficient communication in an information-theoreti c sense. Here we take a learning-theoretic approach and show how efficient communication emerges via reinforcement learning. In our framework, two artificial agents play a Lewis signaling game where the goal is to convey a numeral concept. The agents gradually learn to communicate using reinforcement learning and the resulting numeral systems are shown to be efficient in the information-theoreti c framework of Regier et al. (2015); Gibson et al. (2017). They are also shown to be similar to human numeral systems of same type. Our results thus provide a mechanistic explanation via reinforcement learning of the recent results in Xu et al. (2020) and can potentially be generalized to other semantic domains.
翻訳日:2021-05-31 15:48:38 公開日:2021-05-28
# (参考訳) DiffSVC: 歌声変換のための拡散確率モデル [全文訳有]

DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion ( http://arxiv.org/abs/2105.13871v1 )

ライセンス: CC BY 4.0
Songxiang Liu, Yuewen Cao, Dan Su, Helen Meng(参考訳) 歌声変換(SVC)は、コンピュータに高忠実で表現力のある歌声を作り出す能力を与えることによって、人間とコンピュータの相互作用の方法を強化することができる有望な手法である。 本稿では,拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。 DiffSVCはコンテンツ機能として音声後部グラフ(PPG)を使用している。 DiffSVCでは、拡散/フォワードプロセスが生成するメルスペクトルと対応するステップ情報とを入力としてデノナイジングモジュールを訓練し、付加されたガウスノイズを予測する。 我々は, ppg, 基本周波数特徴, ラウドネス特徴を補助入力として, 雑音化過程を補助する。 実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。

Singing voice conversion (SVC) is one promising technique which can enrich the way of human-computer interaction by endowing a computer the ability to produce high-fidelity and expressive singing voice. In this paper, we propose DiffSVC, an SVC system based on denoising diffusion probabilistic model. DiffSVC uses phonetic posteriorgrams (PPGs) as content features. A denoising module is trained in DiffSVC, which takes destroyed mel spectrogram produced by the diffusion/forward process and its corresponding step information as input to predict the added Gaussian noise. We use PPGs, fundamental frequency features and loudness features as auxiliary input to assist the denoising process. Experiments show that DiffSVC can achieve superior conversion performance in terms of naturalness and voice similarity to current state-of-the-art SVC approaches.
翻訳日:2021-05-31 15:37:46 公開日:2021-05-28
# (参考訳) リモートセンシングにおける対人防御の実証 [全文訳有]

Demotivate adversarial defense in remote sensing ( http://arxiv.org/abs/2105.13902v1 )

ライセンス: CC BY 4.0
Adrien Chan-Hon-Tong and Gaston Lenczner and Aurelien Plyer(参考訳) 畳み込みニューラルネットワークは現在、セマンティックセグメンテーションやオブジェクト検出など、多くのリモートセンシングアプリケーションで最先端のアルゴリズムである。 しかし、これらのアルゴリズムは、オーバーフィッティング、ドメインの変更、それらを騙すために特別に設計された敵の例に非常に敏感である。 敵の攻撃は、ほとんどのリモートセンシングアプリケーションでは脅威ではないが、敵の攻撃に対するネットワークの強化は、過度な適合に対する抵抗性と、固有の世界のデータを扱う能力を高めるかもしれない。 本研究は,この目的に対する対人防御として,対人訓練と対人正規化の両方について検討する。 しかし,公共リモートセンシングデータセットにおけるいくつかの実験を通して,敵意の強固さは地理的かつ過剰に適合する強固さとは無関係であることを示した。

Convolutional neural networks are currently the state-of-the-art algorithms for many remote sensing applications such as semantic segmentation or object detection. However, these algorithms are extremely sensitive to over-fitting, domain change and adversarial examples specifically designed to fool them. While adversarial attacks are not a threat in most remote sensing applications, one could wonder if strengthening networks to adversarial attacks could also increase their resilience to over-fitting and their ability to deal with the inherent variety of worldwide data. In this work, we study both adversarial retraining and adversarial regularization as adversarial defenses to this purpose. However, we show through several experiments on public remote sensing datasets that adversarial robustness seems uncorrelated to geographic and over-fitting robustness.
翻訳日:2021-05-31 15:25:33 公開日:2021-05-28
# (参考訳) Nvidia Jetson Nano を用いた顔検出用SSD(シングルショット検出器)の訓練 [全文訳有]

Training of SSD(Single Shot Detector) for Facial Detection using Nvidia Jetson Nano ( http://arxiv.org/abs/2105.13906v1 )

ライセンス: CC0 1.0
Saif Ur Rehman, Muhammad Rashid Razzaq, Muhammad Hadi Hussian(参考訳) 本稿では,コンピュータビジョンアルゴリズムSSD(Single Shot detector)コンピュータビジョンアルゴリズムを用いて,139枚の画像からなるデータセットからこのアルゴリズムを訓練した。 画像はIntel CVAT (Computer Vision Annotation Tool)を用いてラベル付けされた。 トレーニングされたモデルとソフトウェアをNvidia Jetson Nano Developer Kitにデプロイしました。 モデルコードはpytorchのディープラーニングフレームワークで記述されている。 プログラミング言語はpythonである。

In this project, we have used the computer vision algorithm SSD (Single Shot detector) computer vision algorithm and trained this algorithm from the dataset which consists of 139 Pictures. Images were labeled using Intel CVAT (Computer Vision Annotation Tool) We trained this model for facial detection. We have deployed our trained model and software in the Nvidia Jetson Nano Developer kit. Model code is written in Pytorch's deep learning framework. The programming language used is Python.
翻訳日:2021-05-31 15:18:16 公開日:2021-05-28
# (参考訳) 2人プレイゲームにおける離散ドリフト

Discretization Drift in Two-Player Games ( http://arxiv.org/abs/2105.13922v1 )

ライセンス: CC BY 4.0
Mihaela Rosca and Yan Wu and Benoit Dherin and David G. T. Barrett(参考訳) 2人プレイゲームのための勾配ベースの手法は、難しい問題を解決できるが、安定や理解が難しいリッチなダイナミクスを生み出す。 この複雑さの一部は、同時または交互に勾配降下によって与えられる離散的な更新ステップに起因しており、それによって各プレイヤーは連続的な勾配流から遠ざかる。 後方誤差解析を用いて,離散力学に密接に従う修正連続力学系を導出する。 これらの修正されたダイナミクスは、生成的敵ネットワークを含むゼロサムゲームに関連する悪名高い課題に対する洞察を与える。 特に,ゲームの性能を変動させ,ゲームが不安定になるような離散化ドリフトの異なる構成要素を識別する。 最後に, 離散化ドリフトの定量化により, 有害なドリフトを明示的にキャンセルしたり, 有効なドリフトの強化を行う正則化器を同定し, GAN訓練の性能を向上させることができる。

Gradient-based methods for two-player games produce rich dynamics that can solve challenging problems, yet can be difficult to stabilize and understand. Part of this complexity originates from the discrete update steps given by simultaneous or alternating gradient descent, which causes each player to drift away from the continuous gradient flow -- a phenomenon we call discretization drift. Using backward error analysis, we derive modified continuous dynamical systems that closely follow the discrete dynamics. These modified dynamics provide an insight into the notorious challenges associated with zero-sum games, including Generative Adversarial Networks. In particular, we identify distinct components of the discretization drift that can alter performance and in some cases destabilize the game. Finally, quantifying discretization drift allows us to identify regularizers that explicitly cancel harmful forms of drift or strengthen beneficial forms of drift, and thus improve performance of GAN training.
翻訳日:2021-05-31 15:14:27 公開日:2021-05-28
# (参考訳) 視覚認識の完全性は何か? [全文訳有]

What Is Considered Complete for Visual Recognition? ( http://arxiv.org/abs/2105.13978v1 )

ライセンス: CC BY 4.0
Lingxi Xie, Xiaopeng Zhang, Longhui Wei, Jianlong Chang, Qi Tian(参考訳) これは意見書です。 私たちは、現在の視覚認識システムは、人間が認識できる全てのものを認識できないというキーメッセージを提供したいと考えているが、人間のアノテーションを継続的に増加させることでギャップを埋める可能性が極めて低い。 この観察に基づいて,学習・圧縮という新しい事前学習課題を提唱する。 計算モデル(ディープネットワークなど)は、コンパクトな特徴を用いて視覚データを表現するために最適化され、特徴は元のデータを復元する能力を保持する。 セマンティックアノテーションは、利用可能であれば、弱い監督の役割を果たす。 重要な課題は、イメージリカバリの評価であり、設計原則と今後の研究方向性を提案する。 この提案は、精度・複雑さのトレードオフではなく、圧縮・リカバリのトレードオフを追求するようコミュニティに促すことを願っています。

This is an opinion paper. We hope to deliver a key message that current visual recognition systems are far from complete, i.e., recognizing everything that human can recognize, yet it is very unlikely that the gap can be bridged by continuously increasing human annotations. Based on the observation, we advocate for a new type of pre-training task named learning-by-compress ion. The computational models (e.g., a deep network) are optimized to represent the visual data using compact features, and the features preserve the ability to recover the original data. Semantic annotations, when available, play the role of weak supervision. An important yet challenging issue is the evaluation of image recovery, where we suggest some design principles and future research directions. We hope our proposal can inspire the community to pursue the compression-recovery tradeoff rather than the accuracy-complexity tradeoff.
翻訳日:2021-05-31 15:12:28 公開日:2021-05-28
# (参考訳) SemEval-2021 Task 9: Fact Verification and Evidence Finding for Tabular Data in Scientific Documents (SEM-TAB-FACTS) [全文訳有]

SemEval-2021 Task 9: Fact Verification and Evidence Finding for Tabular Data in Scientific Documents (SEM-TAB-FACTS) ( http://arxiv.org/abs/2105.13995v1 )

ライセンス: CC BY 4.0
Nancy X. R. Wang, Diwakar Mahajan, Marina Danilevsk. Sara Rosenthal(参考訳) テーブルを理解することは、テーブル構造を理解することや、セル内の情報を比較およびコントラストすることができることを含む重要かつ関連するタスクである。 本稿では,SemEval 2020 Task 9: Fact Verification and Evidence Finding for Tabular Data in Scientific Documents (SEM-TAB-FACTS)において,この目標を共有タスクで処理する新たなデータセットとタスクを提示し,この問題に対処する。 データセットには、手動で作成した981のテーブルと、180K以上のステートメントと16M以上のエビデンスアノテーションを提供する1980のテーブルの自動生成データセットが含まれている。 SEM-TAB-FACTSは2つのサブタスクを備えていた。 サブタスクAでは、テーブルに関して文がサポートされているか、否定されているか、不明かを決定することが目標である。 サブタスクBでは、声明の証拠を提供するテーブルの特定の細胞を特定することに焦点を当てた。 69チームが参加し、サブタスクaへの19の応募、サブタスクbへの12の提出が成功した。 コンペの結果と主な成果を報告する。

Understanding tables is an important and relevant task that involves understanding table structure as well as being able to compare and contrast information within cells. In this paper, we address this challenge by presenting a new dataset and tasks that addresses this goal in a shared task in SemEval 2020 Task 9: Fact Verification and Evidence Finding for Tabular Data in Scientific Documents (SEM-TAB-FACTS). Our dataset contains 981 manually-generated tables and an auto-generated dataset of 1980 tables providing over 180K statement and over 16M evidence annotations. SEM-TAB-FACTS featured two sub-tasks. In sub-task A, the goal was to determine if a statement is supported, refuted or unknown in relation to a table. In sub-task B, the focus was on identifying the specific cells of a table that provide evidence for the statement. 69 teams signed up to participate in the task with 19 successful submissions to subtask A and 12 successful submissions to subtask B. We present our results and main findings from the competition.
翻訳日:2021-05-31 14:56:59 公開日:2021-05-28
# (参考訳) ハミルトン・ヤコビ pdes と非加法雑音を伴う画像デノイジングモデルについて

On Hamilton-Jacobi PDEs and image denoising models with certain non-additive noise ( http://arxiv.org/abs/2105.13997v1 )

ライセンス: CC BY 4.0
J\'er\^ome Darbon, Tingwei Meng, Elena Resmerita(参考訳) 画像の変分問題を変分問題として定式化する。 ハミルトン-ヤコビ pdes は、ノイズモデルが加法であるときにそのような最適化問題の解を制御することが知られている。 本研究は, ある種の付加的でない雑音モデルに対処し, ハミルトン・ヤコビ PDE にも関係していることを示す。 これらの結果から, 付加型および非付加型ノイズイメージングモデルとの新たな接続を確立することができる。 これらの接続により、付加雑音に対するいくつかの非凸モデルは、付加雑音に対する等価凸モデルに凸最適化アルゴリズムを適用することで解決できる。 ポアソン雑音や乗法雑音の問題を解くためにいくつかの数値結果が提供される。

We consider image denoising problems formulated as variational problems. It is known that Hamilton-Jacobi PDEs govern the solution of such optimization problems when the noise model is additive. In this work, we address certain non-additive noise models and show that they are also related to Hamilton-Jacobi PDEs. These findings allow us to establish new connections between additive and non-additive noise imaging models. With these connections, some non-convex models for non-additive noise can be solved by applying convex optimization algorithms to the equivalent convex models for additive noise. Several numerical results are provided for denoising problems with Poisson noise or multiplicative noise.
翻訳日:2021-05-31 14:45:36 公開日:2021-05-28
# (参考訳) もしこれが修正されたら? 対物埋め込みによる統語的介入 [全文訳有]

What if This Modified That? Syntactic Interventions via Counterfactual Embeddings ( http://arxiv.org/abs/2105.14002v1 )

ライセンス: CC BY 4.0
Mycal Tucker, Peng Qian, and Roger Levy(参考訳) ニューラルネットワークモデルは様々なタスクで印象的なパフォーマンスを示すが、その内部的推論は理解しにくいかもしれない。 先行技術は、プローブを介してモデル表現内の有意義な性質を明らかにすることを目的としているが、そのようなプローブがモデルが実際に使用する情報をどのように忠実に表現しているかは定かではない。 このような制約を克服するために,モデル内に反事実埋め込みを生成するための因果分析法を提案する。 本手法の実験では,下流予測タスクにおいて,木間距離のような構文表現を用いたBERTモデルが存在することを示す。

Neural language models exhibit impressive performance on a variety of tasks, but their internal reasoning may be difficult to understand. Prior art aims to uncover meaningful properties within model representations via probes, but it is unclear how faithfully such probes portray information that the models actually use. To overcome such limitations, we propose a technique, inspired by causal analysis, for generating counterfactual embeddings within models. In experiments testing our technique, we produce evidence that suggests some BERT-based models use a tree-distance-like representation of syntax in downstream prediction tasks.
翻訳日:2021-05-31 14:44:37 公開日:2021-05-28
# (参考訳) バイオメディカル質問応答の特徴抽出と評価 [全文訳有]

Feature extraction and evaluation for BioMedical Question Answering ( http://arxiv.org/abs/2105.14013v1 )

ライセンス: CC BY-SA 4.0
Ankit Shah, Srishti Singh, Shih-Yen Tao(参考訳) 本稿では,bioasqパイプラインの研究について述べる。 目標は、要約、イエス/ノー、ファクトイド、リストの4種類の質問に答えることである。 我々のゴールは、特徴抽出器と文選択ブロックという、異なるモジュールを経験的に評価することである。 私たちはパイプラインを使って、あらゆる種類の質問タイプに対する各モジュールの有効性をテストし、エラー分析を行いました。 私たちは、トレーニングパイプラインのパフォーマンスを改善するために重要なbioasqパイプラインに関する今後の研究に役立つメトリクスを定義しました。

In this paper, we present our work on the BioASQ pipeline. The goal is to answer four types of questions: summary, yes/no, factoids, and list. Our goal is to empirically evaluate different modules involved: the feature extractor and the sentence selection block. We used our pipeline to test the effectiveness of each module for all kinds of question types and perform error analysis. We defined metrics that are useful for future research related to the BioASQ pipeline critical to improve the performance of the training pipeline.
翻訳日:2021-05-31 14:29:50 公開日:2021-05-28
# (参考訳) Pose2Drone: 人-人間相互作用のための骨格型フレームワーク [全文訳有]

Pose2Drone: A Skeleton-Pose-based Framework for Human-Drone Interaction ( http://arxiv.org/abs/2105.13204v2 )

ライセンス: CC BY 4.0
Zdravko Marinov, Stanka Vasileva, Qing Wang, Constantin Seibold, Jiaming Zhang and Rainer Stiefelhagen(参考訳) ドローンは一般的なツールとなり、航空写真、監視、配送などの多くのタスクで利用されている。 しかし、ドローンを操作するにはユーザーとの対話がますます必要になる。 HDI(Human-Drone Interaction)の自然で安全な方法はジェスチャーである。 本稿では,スケルトンに基づくポーズ推定に基づくhdiフレームワークを提案する。 我々のフレームワークは、簡単なアームジェスチャーでドローンの動きを制御し、安全な距離を維持しながらユーザーをフォローする機能を提供する。 また,画像特徴に基づく単分子距離推定法を提案し,追加の深度センサを必要としない。 包括的な実験と定量的分析を行うために、カスタムテストデータセットを作成します。 実験の結果,11の共通ジェスチャー認識において,HDIフレームワークは平均93.5\%の精度が得られることがわかった。 https://github.com/z rrr1997/pose2drone

Drones have become a common tool, which is utilized in many tasks such as aerial photography, surveillance, and delivery. However, operating a drone requires more and more interaction with the user. A natural and safe method for Human-Drone Interaction (HDI) is using gestures. In this paper, we introduce an HDI framework building upon skeleton-based pose estimation. Our framework provides the functionality to control the movement of the drone with simple arm gestures and to follow the user while keeping a safe distance. We also propose a monocular distance estimation method, which is entirely based on image features and does not require any additional depth sensors. To perform comprehensive experiments and quantitative analysis, we create a customized testing dataset. The experiments indicate that our HDI framework can achieve an average of 93.5\% accuracy in the recognition of 11 common gestures. The code is available at: https://github.com/Z rrr1997/Pose2Drone
翻訳日:2021-05-31 14:06:01 公開日:2021-05-28
# 医学知識グラフ完成のためのテキスト意味情報を用いたパスベース知識推論

Path-based knowledge reasoning with textual semantic information for medical knowledge graph completion ( http://arxiv.org/abs/2105.13074v2 )

ライセンス: Link先を確認
Yinyu Lan, Shizhu He, Xiangrong Zeng, Shengping Liu, Kang Liu, Jun Zhao(参考訳) 背景知識グラフ(KG)、特に医学知識グラフは、しばしば著しく不完全であるため、医学知識グラフ補完(MedKGC)の要求が必要とされる。 MedKGCはKGsの知識から新たな事実を見つけることができる。 経路に基づく知識推論アルゴリズムは、この課題に対する最も重要なアプローチの1つである。 近年,高い性能と解釈可能性から,このような手法が注目されている。 実際、パスランキングアルゴリズム(PRA)のような伝統的な手法は、エンティティペア間のパスをアトミックな特徴として捉えている。 しかし、医療用KGは非常に疎いため、非常に疎い経路の特徴に対して効果的な意味表現をモデル化することは困難である。 医学的KGsの空間性は、主にエンティティとパスの長い尾の分布に反映される。 従来の方法は、知識グラフのパスにおける文脈構造を単に考慮し、パス内のシンボルのテキスト意味論を無視する。 したがって、エンティティスパースネスとパススパースネスの2つの側面により、パフォーマンスをさらに向上することはできない。 そこで本稿では,MedKGCにおけるエンティティとパスのテキスト意味情報を活用する,エンティティとパスの疎結合問題を解決する2つの新しい経路ベース推論手法を提案する。 事前学習モデルBERTを用いて、エンティティのテキスト意味表現と関係を組み合わせ、医用KGにおける記号推論のタスクを、テキスト意味表現における数値計算問題としてモデル化する。

Background Knowledge graphs (KGs), especially medical knowledge graphs, are often significantly incomplete, so it necessitating a demand for medical knowledge graph completion (MedKGC). MedKGC can find new facts based on the exited knowledge in the KGs. The path-based knowledge reasoning algorithm is one of the most important approaches to this task. This type of method has received great attention in recent years because of its high performance and interpretability. In fact, traditional methods such as path ranking algorithm (PRA) take the paths between an entity pair as atomic features. However, the medical KGs are very sparse, which makes it difficult to model effective semantic representation for extremely sparse path features. The sparsity in the medical KGs is mainly reflected in the long-tailed distribution of entities and paths. Previous methods merely consider the context structure in the paths of the knowledge graph and ignore the textual semantics of the symbols in the path. Therefore, their performance cannot be further improved due to the two aspects of entity sparseness and path sparseness. To address the above issues, this paper proposes two novel path-based reasoning methods to solve the sparsity issues of entity and path respectively, which adopts the textual semantic information of entities and paths for MedKGC. By using the pre-trained model BERT, combining the textual semantic representations of the entities and the relationships, we model the task of symbolic reasoning in the medical KG as a numerical computing issue in textual semantic representation.
翻訳日:2021-05-31 13:58:02 公開日:2021-05-28
# MAGI-X:未知システムダイナミクスのためのマニフォールド制約ガウス過程推論

MAGI-X: Manifold-Constrained Gaussian Process Inference for Unknown System Dynamics ( http://arxiv.org/abs/2105.12894v2 )

ライセンス: Link先を確認
Chaofan Huang, Simin Ma, Shihao Yang(参考訳) 力学系を特徴付けるのによく使われる常微分方程式(ODE)は、ドメインエキスパートの助けを借りて、多くの複雑な科学的応用に対して閉形式で提案することは困難である。 ドメイン知識を必要とせず、非パラメトリックな方法で観測データから未知の力学を学ぶための高速で正確なデータ駆動手法であるmagi-xを提案する。 主にコストのかかる数値積分に依存する既存の手法とは異なり、MAGI-Xはニューラルネットワークの強力な機能近似を用いて、数値積分を完全に回避するManifold-Constrained Gaussian Process Inference (MAGI)フレームワーク内で未知の非線形ダイナミクスを学ぶ。 3つの実例における最先端の手法と比較して、MAGI-Xは、計算時間のみを要し、適合性と予測の両方において競争精度を達成する。 さらに、MAGI-Xは、従来の方法では扱えない部分的な観測システムの推論に実用的な解決策を提供する。

Ordinary differential equations (ODEs), commonly used to characterize the dynamic systems, are difficult to propose in closed-form for many complicated scientific applications, even with the help of domain expert. We propose a fast and accurate data-driven method, MAGI-X, to learn the unknown dynamic from the observation data in a non-parametric fashion, without the need of any domain knowledge. Unlike the existing methods that mainly rely on the costly numerical integration, MAGI-X utilizes the powerful functional approximator of neural network to learn the unknown nonlinear dynamic within the MAnifold-constrained Gaussian process Inference (MAGI) framework that completely circumvents the numerical integration. Comparing against the state-of-the-art methods on three realistic examples, MAGI-X achieves competitive accuracy in both fitting and forecasting while only taking a fraction of computational time. Moreover, MAGI-X provides practical solution for the inference of partial observed systems, which no previous method is able to handle.
翻訳日:2021-05-31 13:57:41 公開日:2021-05-28
# TENSILE: 複数の動的ワークロードシステムに向けたテンソル粒度動的GPUメモリスケジューラ手法

TENSILE: A Tensor granularity dynamic GPU memory scheduler method towards multiple dynamic workloads system ( http://arxiv.org/abs/2105.13336v2 )

ライセンス: Link先を確認
Kaixin Zhang, Hongzhi Wang, Tongxin Li, Han Hu, Jiye Qiu, Songling Zou(参考訳) 近年、深層学習は激しい研究の領域となっている。 しかし、計算集約的なタスクの一種として、ディープラーニングはgpuメモリの規模に大きく依存しています。 動的GPUメモリ管理には広範な研究が提案されているが、データベース内機械学習システムのようなマルチタスク動的ワークロードを持つシステムに適用することは困難である。 本稿では,GPUメモリをテンソル粒度で管理し,GPUメモリのピークを減らし,マルチタスクの動的ワークロードを考慮に入れたTENSILEを実演した。 私たちが知る限り、テンションは複数のワークロードのgpuメモリを管理するために設計された最初の方法です。 我々は、自身のディープラーニングフレームワークにTENSILEを実装し、その性能を評価した。 実験の結果,本手法は,より多くのgpuメモリを節約した前処理よりも少ない時間オーバーヘッドを達成できることがわかった。

Recently, deep learning has been an area of intense researching. However, as a kind of computing intensive task, deep learning highly relies on the the scale of the GPU memory, which is usually expensive and scarce. Although there are some extensive works have been proposed for dynamic GPU memory management, they are hard to be applied to systems with multitasking dynamic workloads, such as in-database machine learning system. In this paper, we demonstrated TENSILE, a method of managing GPU memory in tensor granularity to reduce the GPU memory peak, with taking the multitasking dynamic workloads into consideration. As far as we know, TENSILE is the first method which is designed to manage multiple workloads' GPU memory using. We implement TENSILE on our own deep learning framework, and evaluated its performance. The experiment results shows that our method can achieve less time overhead than prior works with more GPU memory saved.
翻訳日:2021-05-31 13:57:23 公開日:2021-05-28
# Masked Noun-Phrase 予測による教師なし代名詞分解

Unsupervised Pronoun Resolution via Masked Noun-Phrase Prediction ( http://arxiv.org/abs/2105.12392v2 )

ライセンス: Link先を確認
Ming Shen, Pratyay Banerjee, Chitta Baral(参考訳) 本研究では,完全教師なし環境で代名詞解決に取り組むための事前学習戦略であるMasked Noun-Phrase Prediction (MNPP)を提案する。 まず,様々な代名詞解決データセットの事前学習モデルを評価する。 提案手法は,全データセットにおける従来の教師なし手法を大きなマージンで上回っている。 次に、WinoGrande-SとXSでトレーニング済みのモデルを別々に微調整する。 提案手法は,WinoGrandeの残りの3つのオフィシャルスプリットを微調整した後,高いAUCスコアを達成し,RoBERTa-largeベースラインを大きなマージンで上回った。

In this work, we propose Masked Noun-Phrase Prediction (MNPP), a pre-training strategy to tackle pronoun resolution in a fully unsupervised setting. Firstly, We evaluate our pre-trained model on various pronoun resolution datasets without any finetuning. Our method outperforms all previous unsupervised methods on all datasets by large margins. Secondly, we proceed to a few-shot setting where we finetune our pre-trained model on WinoGrande-S and XS separately. Our method outperforms RoBERTa-large baseline with large margins, meanwhile, achieving a higher AUC score after further finetuning on the remaining three official splits of WinoGrande.
翻訳日:2021-05-31 13:57:07 公開日:2021-05-28
# アノテータとしての言語モデル:対話要約のためのダイアログプの検討

Language Model as an Annotator: Exploring DialoGPT for Dialogue Summarization ( http://arxiv.org/abs/2105.12544v2 )

ライセンス: Link先を確認
Xiachong Feng, Xiaocheng Feng, Libo Qin, Bing Qin, Ting Liu(参考訳) 現在の対話要約システムは通常、より強力な対話モデリング機能を得るために、テキストを多くの一般的な意味的特徴(キーワードやトピックなど)でエンコードする。 しかし、これらの機能は、ダイアログに依存しない、あるいは人間のアノテーションに依存するオープンドメインツールキットによって得られる。 本稿では,対話応答生成のための事前学習モデルであるDialoGPTを,対話背景知識を符号化した教師なし対話アノテータとして開発する方法を示す。 ダイアロGPTを用いて、2つの対話要約データセット(SAMSumとAMI)に3種類の特徴をラベル付けし、事前学習モデルと非訓練モデルを用いて要約する。 実験の結果,提案手法は両データセットにおいて著しく改善し,samsumデータセット上で新たな最先端性能を実現することができた。

Current dialogue summarization systems usually encode the text with a number of general semantic features (e.g., keywords and topics) to gain more powerful dialogue modeling capabilities. However, these features are obtained via open-domain toolkits that are dialog-agnostic or heavily relied on human annotations. In this paper, we show how DialoGPT, a pre-trained model for conversational response generation, can be developed as an unsupervised dialogue annotator, which takes advantage of dialogue background knowledge encoded in DialoGPT. We apply DialoGPT to label three types of features on two dialogue summarization datasets, SAMSum and AMI, and employ pre-trained and non pre-trained models as our summarizes. Experimental results show that our proposed method can obtain remarkable improvements on both datasets and achieves new state-of-the-art performance on the SAMSum dataset.
翻訳日:2021-05-31 13:56:55 公開日:2021-05-28
# trade the event: ニュースベースのイベント駆動トレーディングのための企業イベント検出

Trade the Event: Corporate Events Detection for News-Based Event-Driven Trading ( http://arxiv.org/abs/2105.12825v2 )

ライセンス: Link先を確認
Zhihan Zhou, Liqian Ma, Han Liu(参考訳) 本稿では、ニュース記事から企業イベントを検知して株価変動を予測するイベント駆動取引戦略を提案する。 テキストの特徴(例:back-of-words)や感情を利用して直接株価を予測する既存のモデルとは異なり、企業イベントを株価運動の原動力とみなし、企業イベントの発生時に起こりうる一時的な株価過誤から利益を得る。 提案する戦略の中核は、双方向イベント検出モデルである。 低レベルイベント検出器は各トークンからイベントの存在を識別し、高レベルイベント検出器は記事全体の表現と低レベル検出結果を統合して、記事レベルのイベントを検出する。 また,企業イベント検出およびニュースに基づく株価予測ベンチマークのための,詳細な注釈付きデータセットedtを開発した。 EDTには9721のニュース記事、トークンレベルのイベントラベル、303893のニュース記事、ミニレベルタイムスタンプ、総合的な株価ラベルが含まれている。 EDTの実験では、提案された戦略が勝利率のベースライン、市場の過剰なリターン、各取引における平均リターンを上回ります。

In this paper, we introduce an event-driven trading strategy that predicts stock movements by detecting corporate events from news articles. Unlike existing models that utilize textual features (e.g., bag-of-words) and sentiments to directly make stock predictions, we consider corporate events as the driving force behind stock movements and aim to profit from the temporary stock mispricing that may occur when corporate events take place. The core of the proposed strategy is a bi-level event detection model. The low-level event detector identifies events' existences from each token, while the high-level event detector incorporates the entire article's representation and the low-level detected results to discover events at the article-level. We also develop an elaborately-annotate d dataset EDT for corporate event detection and news-based stock prediction benchmark. EDT includes 9721 news articles with token-level event labels as well as 303893 news articles with minute-level timestamps and comprehensive stock price labels. Experiments on EDT indicate that the proposed strategy outperforms all the baselines in winning rate, excess returns over the market, and the average return on each transaction.
翻訳日:2021-05-31 13:56:41 公開日:2021-05-28
# 事前学習型言語モデルの知識継承

Knowledge Inheritance for Pre-trained Language Models ( http://arxiv.org/abs/2105.13880v1 )

ライセンス: Link先を確認
Yujia Qin, Yankai Lin, Jing Yi, Jiajie Zhang, Xu Han, Zhengyan Zhang, Yusheng Su, Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou(参考訳) GPT-3のような大規模事前学習言語モデル(PLM)の最近の研究により、膨大なパラメータを持つPLMのパワーが明らかになった。 しかし、大規模PLMのトレーニングには膨大な量の計算資源が必要であり、時間と費用がかかる。 加えて、既存の大規模PLMは、既存のよく訓練されたPLMの可用性を無視して、主にスクラッチから個別に訓練されている。 この目的のために,従来トレーニングされていたPLMが今後,より大きなPLMのトレーニングにどう役立つのか,という課題を考察する。 具体的には、自己学習と教師指導の両方を組み合わせて、より大きなPLMを効率的に学習する「知識継承」という新しい事前学習フレームワークを導入する。 KIフレームワークの実現可能性を示す十分な実験結果を得た。 また,モデルアーキテクチャや事前学習データなど,教員PLMの事前学習環境の効果について,実証分析を行った。 最後に,KIは生涯学習と知識伝達を十分に支援できることを示す。

Recent explorations of large-scale pre-trained language models (PLMs) such as GPT-3 have revealed the power of PLMs with huge amounts of parameters, setting off a wave of training ever-larger PLMs. However, training a large-scale PLM requires tremendous amounts of computational resources, which is time-consuming and expensive. In addition, existing large-scale PLMs are mainly trained from scratch individually, ignoring the availability of many existing well-trained PLMs. To this end, we explore the question that how can previously trained PLMs benefit training larger PLMs in future. Specifically, we introduce a novel pre-training framework named "knowledge inheritance" (KI), which combines both self-learning and teacher-guided learning to efficiently train larger PLMs. Sufficient experimental results demonstrate the feasibility of our KI framework. We also conduct empirical analyses to explore the effects of teacher PLMs' pre-training settings, including model architecture, pre-training data, etc. Finally, we show that KI can well support lifelong learning and knowledge transfer.
翻訳日:2021-05-31 13:56:22 公開日:2021-05-28
# 摂動サンプルの逆ラベリングによるロバスト正規化

Robust Regularization with Adversarial Labelling of Perturbed Samples ( http://arxiv.org/abs/2105.13745v1 )

ライセンス: Link先を確認
Xiaohui Guo, Richong Zhang, Yaowei Zheng, Yongyi Mao(参考訳) 近年の研究では、ニューラルネットワークの予測精度が敵の強靭性と競合する可能性が示唆されている。 これは、強い敵の堅牢性を提供する効果的な正則化スキームを設計する際の課題を示す。 リスク最小化(VRM)を統一正規化の原則として再考し、トレーニングモデルの一般化能力と対向ロバスト性の向上を目的とした正規化スキームとして、摂動サンプルの対向ラベリング(ALPS)を提案する。 ALPSはニューラルネットワークを、それぞれの真正な入力サンプルを、逆向きに割り当てられたラベルとともに、別のものに向かって摂動することによって形成された合成サンプルで訓練する。 alps正則化の目的をmin-max問題として定式化し、外的問題はvrm損失の上限を最小化し、内的問題は摂動標本上のl$_1$-ball制約付き逆ラベリングである。 誘導内最大化問題に対する解析解はエレガントに導出され、計算効率が向上する。 SVHN、CIFAR-10、CIFAR-100、Tiny-ImageNetのデータセットの実験では、ALPSは最先端の正規化性能を持ち、効果的な敵の訓練スキームとしても機能している。

Recent researches have suggested that the predictive accuracy of neural network may contend with its adversarial robustness. This presents challenges in designing effective regularization schemes that also provide strong adversarial robustness. Revisiting Vicinal Risk Minimization (VRM) as a unifying regularization principle, we propose Adversarial Labelling of Perturbed Samples (ALPS) as a regularization scheme that aims at improving the generalization ability and adversarial robustness of the trained model. ALPS trains neural networks with synthetic samples formed by perturbing each authentic input sample towards another one along with an adversarially assigned label. The ALPS regularization objective is formulated as a min-max problem, in which the outer problem is minimizing an upper-bound of the VRM loss, and the inner problem is L$_1$-ball constrained adversarial labelling on perturbed sample. The analytic solution to the induced inner maximization problem is elegantly derived, which enables computational efficiency. Experiments on the SVHN, CIFAR-10, CIFAR-100 and Tiny-ImageNet datasets show that the ALPS has a state-of-the-art regularization performance while also serving as an effective adversarial training scheme.
翻訳日:2021-05-31 13:55:37 公開日:2021-05-28
# LSTMネットワークを用いた技術システムの異常検出に関する調査

A Survey on Anomaly Detection for Technical Systems using LSTM Networks ( http://arxiv.org/abs/2105.13810v1 )

ライセンス: Link先を確認
Benjamin Lindemann, Benjamin Maschler, Nada Sahlab, and Michael Weyrich(参考訳) 異常は意図されたシステムの動作から逸脱し、部分的あるいは完全なシステム障害と同様に効率が低下する可能性がある。 複雑なシステムダイナミクスによる異常の原因はしばしば不明であるため、効率的な異常検出が必要である。 従来の検出手法は、異常の複雑でダイナミックな性質に対処できない統計的および時間不変な手法に依存している。 人工知能の進歩と、様々な領域における異常検出と予防の重要性の増加に伴い、ニューラルネットワークアプローチは、時間的および文脈的特徴を考慮しつつ、より複雑な異常タイプの検出を可能にする。 本稿では,ディープニューラル,特に短期記憶ネットワークを用いた最先端の異常検出に関する調査を行う。 調査したアプローチは、アプリケーションシナリオ、データ、異常タイプ、およびさらなるメトリクスに基づいて評価される。 今後の異常検出技術の可能性を強調するため、グラフベースおよび転送学習アプローチも調査に含まれており、異種データの分析と、その不足の補償と動的プロセスの処理の改善を可能にしている。

Anomalies represent deviations from the intended system operation and can lead to decreased efficiency as well as partial or complete system failure. As the causes of anomalies are often unknown due to complex system dynamics, efficient anomaly detection is necessary. Conventional detection approaches rely on statistical and time-invariant methods that fail to address the complex and dynamic nature of anomalies. With advances in artificial intelligence and increasing importance for anomaly detection and prevention in various domains, artificial neural network approaches enable the detection of more complex anomaly types while considering temporal and contextual characteristics. In this article, a survey on state-of-the-art anomaly detection using deep neural and especially long short-term memory networks is conducted. The investigated approaches are evaluated based on the application scenario, data and anomaly types as well as further metrics. To highlight the potential of upcoming anomaly detection techniques, graph-based and transfer learning approaches are also included in the survey, enabling the analysis of heterogeneous data as well as compensating for its shortage and improving the handling of dynamic processes.
翻訳日:2021-05-31 13:55:16 公開日:2021-05-28
# 属性の統一と再考のための一般Taylorフレームワーク

A General Taylor Framework for Unifying and Revisiting Attribution Methods ( http://arxiv.org/abs/2105.13841v1 )

ライセンス: Link先を確認
Huiqi Deng, Na Zou, Mengnan Du, Weifu Chen, Guocan Feng, Xia Hu(参考訳) アトリビューション手法は、個々の特徴に貢献スコアを割り当てることで、マシンラーニングモデル、特にディープニューラルネットワークの意思決定プロセスに関する洞察を提供する。 しかし、帰属問題は明確に定義されておらず、貢献割当プロセスへの統一ガイドラインが欠落している。 さらに、既存の帰属法はしばしば様々な経験的直観とヒューリスティックに基づいている。 それでも、帰属問題の適切な説明を提供するだけでなく、既存の帰属法の統一や再検討にも適用できる一般的な理論的枠組みが欠如している。 このギャップを埋めるために、本稿では、連立政権における個人報酬の決定方法として属性問題をモデル化したTaylor属性フレームワークを提案する。 次に,14の主流帰属法をtaylorフレームワークに再構成し,それらの帰属法を合理性,忠実性,限界の観点から分析する。 さらに,テイラー帰属フレームワークにおける良い帰属のための3つの原則,すなわち低近似誤差,正しいテイラー帰属割り当て,偏りのないベースライン選択を定式化する。 最後に,taylor改革の有効性を実証的に検証し,実世界のデータセットのベンチマークによる帰属性能と原則数との正の相関を明らかにする。

Attribution methods provide an insight into the decision-making process of machine learning models, especially deep neural networks, by assigning contribution scores to each individual feature. However, the attribution problem has not been well-defined, which lacks a unified guideline to the contribution assignment process. Furthermore, existing attribution methods often built upon various empirical intuitions and heuristics. There still lacks a general theoretical framework that not only can offer a good description of the attribution problem, but also can be applied to unifying and revisiting existing attribution methods. To bridge the gap, in this paper, we propose a Taylor attribution framework, which models the attribution problem as how to decide individual payoffs in a coalition. Then, we reformulate fourteen mainstream attribution methods into the Taylor framework and analyze these attribution methods in terms of rationale, fidelity, and limitation in the framework. Moreover, we establish three principles for a good attribution in the Taylor attribution framework, i.e., low approximation error, correct Taylor contribution assignment, and unbiased baseline selection. Finally, we empirically validate the Taylor reformulations and reveal a positive correlation between the attribution performance and the number of principles followed by the attribution method via benchmarking on real-world datasets.
翻訳日:2021-05-31 13:54:59 公開日:2021-05-28
# サンプリングにおける関係性:ドラッグ・ドラッグ相互作用予測のためのスケーラブルなマルチリレーショナルグラフニューラルネットワーク

Relation Matters in Sampling: A Scalable Multi-Relational Graph Neural Network for Drug-Drug Interaction Prediction ( http://arxiv.org/abs/2105.13975v1 )

ライセンス: Link先を確認
Arthur Feeney and Rishabh Gupta and Veronika Thost and Rico Angell and Gayathri Chandu and Yash Adhikari and Tengfei Ma(参考訳) サンプリングは、グラフニューラルネットワークを大規模グラフにスケールするための確立された技術である。 しかし、現在のアプローチでは、グラフは関係の観点で均質であると仮定し、関係型を無視している。 多重関係グラフは、通常、可変周波数を持ち、問題に対する重要度が異なる様々な種類の関係を含む。 本稿では,グラフニューラルネットワークにおける近傍サンプリングにおける関係型の重要性をモデル化し,適切なバランス(周波数と重要性の両方を反映した関係型確率)を学習できることを示す。 薬物と薬物の相互作用予測実験により,最先端のグラフニューラルネットワークは,精度と効率の両面で,関連依存的なサンプリングから利益を得ていることが示された。

Sampling is an established technique to scale graph neural networks to large graphs. Current approaches however assume the graphs to be homogeneous in terms of relations and ignore relation types, critically important in biomedical graphs. Multi-relational graphs contain various types of relations that usually come with variable frequency and have different importance for the problem at hand. We propose an approach to modeling the importance of relation types for neighborhood sampling in graph neural networks and show that we can learn the right balance: relation-type probabilities that reflect both frequency and importance. Our experiments on drug-drug interaction prediction show that state-of-the-art graph neural networks profit from relation-dependent sampling in terms of both accuracy and efficiency.
翻訳日:2021-05-31 13:54:38 公開日:2021-05-28
# 畳み込みニューラルネットワークを用いた熱赤外画像を用いた非協調型宇宙機の相対ポース推定

Using Convolutional Neural Networks for Relative Pose Estimation of a Non-Cooperative Spacecraft with Thermal Infrared Imagery ( http://arxiv.org/abs/2105.13789v1 )

ライセンス: Link先を確認
Maxwell Hogan, Duarte Rondao, Nabil Aouf, and Olivier Dubois-Matra(参考訳) 近年、軌道上サービスとアクティブデブリ除去(ADR)ミッションへの関心が高まり、非協力的なランデブー操作を可能にする技術の必要性が高まっている。 このような操作は、チェイサー宇宙船の知覚能力に重荷をかけた。 本稿では、受動熱赤外線カメラフィードからターゲットの粗いポーズを推定できる畳み込みニューラルネットワーク(CNN)について述べる。 サーマルカメラは、低照度で過露出になりやすい可視性カメラの代替手段を提供する。 そこで本稿では,ネットワークをトレーニングするための可視画像の利用を提案する。 モデルの堅牢性は、まず合成データに基づいて、2つの異なるターゲット上で実証され、次にADRミッション中に直面する現実的なシナリオのために実験室環境で実証される。 ブラックボックスの性質から重要なアプリケーションにCNNを使用することに多くの懸念があるため、ネットワークや障害条件に何が重要かを説明するために革新的な技術を用いています。

Recent interest in on-orbit servicing and Active Debris Removal (ADR) missions have driven the need for technologies to enable non-cooperative rendezvous manoeuvres. Such manoeuvres put heavy burden on the perception capabilities of a chaser spacecraft. This paper demonstrates Convolutional Neural Networks (CNNs) capable of providing an initial coarse pose estimation of a target from a passive thermal infrared camera feed. Thermal cameras offer a promising alternative to visible cameras, which struggle in low light conditions and are susceptible to overexposure. Often, thermal information on the target is not available a priori; this paper therefore proposes using visible images to train networks. The robustness of the models is demonstrated on two different targets, first on synthetic data, and then in a laboratory environment for a realistic scenario that might be faced during an ADR mission. Given that there is much concern over the use of CNN in critical applications due to their black box nature, we use innovative techniques to explain what is important to our network and fault conditions.
翻訳日:2021-05-31 13:54:27 公開日:2021-05-28
# ILDC for CJPE: Indian Legal Documents Corpus for Court Judgment Prediction and Explanation

ILDC for CJPE: Indian Legal Documents Corpus for Court JudgmentPrediction and Explanation ( http://arxiv.org/abs/2105.13562v1 )

ライセンス: Link先を確認
Vijit Malik and Rishabh Sanjay and Shubham Kumar Nigam and Kripa Ghosh and Shouvik Kumar Guha and Arnab Bhattacharya and Ashutosh Modi(参考訳) 裁判官が事件の結果を予測するのを助ける自動化システムは、司法手続きの迅速化に役立つだろう。 このようなシステムが実用的に有用であるためには、システムによる予測を説明すべきである。 このようなシステム開発の研究を促進するために,ILDC(Indian Legal Documents Corpus)を紹介する。 ILDCは、インド最高裁判所の35k件の訴訟で、原告の判決が下された大きなコーパスである。 コーパスの一部(別個のテストセット)には、法の専門家によるゴールドスタンダードの説明が注釈付けされている。 ILDCに基づいて,裁判所判断予測・説明(CJPE)の課題を提案する。 このタスクは、ケースの説明可能な結果を予測する自動化システムを必要とする。 ケース予測のためのベースラインモデルのバッテリを実験し,説明可能性のための階層的オクルージョンモデルを提案する。 我々の最良の予測モデルは、人間の法律専門家の精度が78%、94%であり、予測タスクの複雑さを指している。 提案アルゴリズムによる説明の分析は,今後の研究の範囲をめざして,その判断を説明する上で,アルゴリズムと法の専門家の視点に有意な差があることを明らかにする。

An automated system that could assist a judge in predicting the outcome of a case would help expedite the judicial process. For such a system to be practically useful, predictions by the system should be explainable. To promote research in developing such a system, we introduce ILDC (Indian Legal Documents Corpus). ILDC is a large corpus of 35k Indian Supreme Court cases annotated with original court decisions. A portion of the corpus (a separate test set) is annotated with gold standard explanations by legal experts. Based on ILDC, we propose the task of Court Judgment Prediction and Explanation (CJPE). The task requires an automated system to predict an explainable outcome of a case. We experiment with a battery of baseline models for case predictions and propose a hierarchical occlusion based model for explainability. Our best prediction model has an accuracy of 78% versus 94% for human legal experts, pointing towards the complexity of the prediction task. The analysis of explanations by the proposed algorithm reveals a significant difference in the point of view of the algorithm and legal experts for explaining the judgments, pointing towards scope for future research.
翻訳日:2021-05-31 13:54:10 公開日:2021-05-28
# THINK: 文法的正しいコヒーレント応答を生成するための新しい会話モデル

THINK: A Novel Conversation Model for Generating Grammatically Correct and Coherent Responses ( http://arxiv.org/abs/2105.13630v1 )

ライセンス: Link先を確認
Bin Sun, Shaoxiong Feng, Yiwei Li, Jiamou Liu and Kan Li(参考訳) エンコーダ-デコーダフレームワークに基づく既存の会話モデルの多くは、エンコーダをより複雑にし、コンテキストベクトルを豊かにすることで、生成された応答の多様性と情報性を高める方法に焦点を当てている。 しかし、これらのアプローチは2つの問題に直面している。 まず、デコーダは、以前に生成した情報を効果的に活用するには単純すぎるため、重複や自己矛盾の応答を生成する傾向がある。 第二に、複素エンコーダは、複雑なコンテキストベクトルがコンテキストの本来の意味から逸脱する可能性があるため、多様だが一貫性のない応答を生成する傾向がある。 本研究では,このデコーダをより複雑にし,重複・自己矛盾応答の発生を回避するために,THINK(チームワーク生成Hover around Impressive Noticeable Keywords)という対話モデルを提案する。 このモデルは文脈ベクトルを単純化し、生成した応答のコヒーレンスを合理的に増大させる。 本モデルでは,チームワーク生成フレームワークとセマンティックスエクストラクタを提案する。 他のベースラインと比較すると, 自動評価と人的評価の両方で, モデルの利点が示された。

Many existing conversation models that are based on the encoder-decoder framework have focused on ways to make the encoder more complicated to enrich the context vectors so as to increase the diversity and informativeness of generated responses. However, these approaches face two problems. First, the decoder is too simple to effectively utilize the previously generated information and tends to generate duplicated and self-contradicting responses. Second, the complex encoder tends to generate diverse but incoherent responses because the complex context vectors may deviate from the original semantics of context. In this work, we proposed a conversation model named "THINK" (Teamwork generation Hover around Impressive Noticeable Keywords) to make the decoder more complicated and avoid generating duplicated and self-contradicting responses. The model simplifies the context vectors and increases the coherence of generated responses in a reasonable way. For this model, we propose Teamwork generation framework and Semantics Extractor. Compared with other baselines, both automatic and human evaluation showed the advantages of our model.
翻訳日:2021-05-31 13:53:52 公開日:2021-05-28
# 拡張データのないテキスト生成のためのデータ拡張

Data Augmentation for Text Generation Without Any Augmented Data ( http://arxiv.org/abs/2105.13650v1 )

ライセンス: Link先を確認
Wei Bi, Huayang Li, Jiacheng Huang(参考訳) データ拡張は、多くのニューラルテキスト生成モデルの性能を改善する効果的な方法である。 しかし、現在のデータ拡張方法は、元のサンプルを拡張サンプルにマッピングする適切なデータマッピング関数を定義し、選択する必要がある。 本研究では,特定のマッピング関数によって構築された拡張データを用いることなく,テキスト生成タスクにおけるデータ拡張の問題を定式化する目的を導出する。 提案手法は,収束率保証付きテキスト生成タスクの損失関数に対して効率よく最適化し,適用することができる。 2つのテキスト生成タスクの5つのデータセットに関する実験は、このアプローチが一般的なデータ拡張手法を近似あるいは超越することができることを示している。

Data augmentation is an effective way to improve the performance of many neural text generation models. However, current data augmentation methods need to define or choose proper data mapping functions that map the original samples into the augmented samples. In this work, we derive an objective to formulate the problem of data augmentation on text generation tasks without any use of augmented data constructed by specific mapping functions. Our proposed objective can be efficiently optimized and applied to popular loss functions on text generation tasks with a convergence rate guarantee. Experiments on five datasets of two text generation tasks show that our approach can approximate or even surpass popular data augmentation methods.
翻訳日:2021-05-31 13:53:35 公開日:2021-05-28
# 対話理解のためのドメイン適応事前学習法

Domain-Adaptive Pretraining Methods for Dialogue Understanding ( http://arxiv.org/abs/2105.13665v1 )

ライセンス: Link先を確認
Han Wu, Kun Xu, Linfeng Song, Lifeng Jin, Haisong Zhang, Linqi Song(参考訳) オープンドメインデータで事前訓練されたBERTやSpanBERTのような言語モデルは、様々なNLPタスクにおいて顕著な利益を得ている。 本稿では,ダウンストリームタスクにおけるドメイン適応型事前学習目標の有効性について検討する。 特に,2つの対話理解課題において,述語-代名詞関係のモデリングに焦点をあてた新たな目的を含む3つの目的を評価する。 実験により,ドメイン適応型事前学習は,これらのタスクに対する強いベースラインの性能を著しく向上させ,新しい最先端性能を実現することができることが示された。

Language models like BERT and SpanBERT pretrained on open-domain data have obtained impressive gains on various NLP tasks. In this paper, we probe the effectiveness of domain-adaptive pretraining objectives on downstream tasks. In particular, three objectives, including a novel objective focusing on modeling predicate-argument relations, are evaluated on two challenging dialogue understanding tasks. Experimental results demonstrate that domain-adaptive pretraining with proper objectives can significantly improve the performance of a strong baseline on these tasks, achieving the new state-of-the-art performances.
翻訳日:2021-05-31 13:53:25 公開日:2021-05-28
# 軽量言語間文表現学習

Lightweight Cross-Lingual Sentence Representation Learning ( http://arxiv.org/abs/2105.13856v1 )

ライセンス: Link先を確認
Zhuoyuan Mao, Prakhar Gupta, Chenhui Chu, Martin Jaggi and Sadao Kurohashi(参考訳) LASER (Artetxe and Schwenk, 2019b) のような固定次元の言語間文表現を学習する大規模モデルのような、固定次元の言語間文表現を学習する大規模モデルは、下流タスクのパフォーマンスを著しく向上させる。 しかし、このような大規模モデルに基づくさらなる増加と修正は通常、メモリ制限のため実行不可能である。 本研究では,メモリ効率の高いクロス言語文表現を生成するために,2層のみを有する軽量なデュアルトランスフォーマアーキテクチャを提案する。 異なるトレーニングタスクを探索し、現在の言語間トレーニングタスクが、この浅いアーキテクチャに望まれていることを観察する。 これを改善するために,既存のシングルワードマスキング言語モデルと新たに提案したクロスランガルトークンレベルの再構築タスクを組み合わせた,新しい言語間言語モデルを提案する。 さらに, 軽量トランスフォーマの学習ボトルネックを補う言語間表現空間のアライメントを強化するために, 2つの計算的ライトな文レベルのコントラスト学習タスクを導入することで, 学習タスクをさらに強化する。 言語間文検索と多言語文書分類の競合モデルとの比較により,新たに提案した訓練課題の有効性を確認した。

Large-scale models for learning fixed-dimensional cross-lingual sentence representations like Large-scale models for learning fixed-dimensional cross-lingual sentence representations like LASER (Artetxe and Schwenk, 2019b) lead to significant improvement in performance on downstream tasks. However, further increases and modifications based on such large-scale models are usually impractical due to memory limitations. In this work, we introduce a lightweight dual-transformer architecture with just 2 layers for generating memory-efficient cross-lingual sentence representations. We explore different training tasks and observe that current cross-lingual training tasks leave a lot to be desired for this shallow architecture. To ameliorate this, we propose a novel cross-lingual language model, which combines the existing single-word masked language model with the newly proposed cross-lingual token-level reconstruction task. We further augment the training task by the introduction of two computationally-lite sentence-level contrastive learning tasks to enhance the alignment of cross-lingual sentence representation space, which compensates for the learning bottleneck of the lightweight transformer for generative tasks. Our comparisons with competing models on cross-lingual sentence retrieval and multilingual document classification confirm the effectiveness of the newly proposed training tasks for a shallow model.
翻訳日:2021-05-31 13:53:17 公開日:2021-05-28
# early-exitによる配列ラベリングのbert推論の高速化

Accelerating BERT Inference for Sequence Labeling via Early-Exit ( http://arxiv.org/abs/2105.13878v1 )

ライセンス: Link先を確認
Xiaonan Li, Yunfan Shao, Tianxiang Sun, Hang Yan, Xipeng Qiu, Xuanjing Huang(参考訳) 多くの実世界のシナリオにおいて、性能と効率はシーケンスラベリングタスクにとって重要な要素である。 プリトレーニングモデル(ptm)は様々なシーケンスラベリングタスクの性能を大幅に向上させたが、計算コストは高価である。 この問題を軽減するため、最近成功した早期退避機構を拡張し、シーケンシャルラベリングタスクに対するPTMの推論を高速化する。 しかし、既存のearly-exitメカニズムはシーケンスラベリングではなく、シーケンスレベルのタスク用に特別に設計されている。 本稿ではまず,シーケンスラベリングタスクのための文レベル早期実行の簡単な拡張を提案する。 計算コストをさらに削減するため,異なる層で部分トークンを早期に退避させるトークンレベルの早期退避機構も提案する。 シーケンスラベリングに固有の局所的依存関係を考慮し、ウィンドウベースの基準を用いて、終了するか否かのトークンを決定する。 トークンレベルの早期退避は、トレーニングと推論の間にギャップをもたらします。 3つの一般的なシーケンスラベリングタスクに関する広範な実験は、我々の手法が性能劣化を最小限に抑えながら最大66%-75%の推論コストを節約できることを示している。 DistilBERTのような競合圧縮モデルと比較すると,2X,3X,4Xのスピードアップ比で高い性能が得られる。

Both performance and efficiency are crucial factors for sequence labeling tasks in many real-world scenarios. Although the pre-trained models (PTMs) have significantly improved the performance of various sequence labeling tasks, their computational cost is expensive. To alleviate this problem, we extend the recent successful early-exit mechanism to accelerate the inference of PTMs for sequence labeling tasks. However, existing early-exit mechanisms are specifically designed for sequence-level tasks, rather than sequence labeling. In this paper, we first propose a simple extension of sentence-level early-exit for sequence labeling tasks. To further reduce the computational cost, we also propose a token-level early-exit mechanism that allows partial tokens to exit early at different layers. Considering the local dependency inherent in sequence labeling, we employed a window-based criterion to decide for a token whether or not to exit. The token-level early-exit brings the gap between training and inference, so we introduce an extra self-sampling fine-tuning stage to alleviate it. The extensive experiments on three popular sequence labeling tasks show that our approach can save up to 66%-75% inference cost with minimal performance degradation. Compared with competitive compressed models such as DistilBERT, our approach can achieve better performance under the same speed-up ratios of 2X, 3X, and 4X.
翻訳日:2021-05-31 13:52:58 公開日:2021-05-28
# データを変えることで世界を変える

Changing the World by Changing the Data ( http://arxiv.org/abs/2105.13947v1 )

ライセンス: Link先を確認
Anna Rogers(参考訳) NLPコミュニティは現在、データトレーニングよりもディープラーニングモデルの開発に多くの研究とリソースに投資しています。 私たちは多くの進歩を遂げてきましたが、私たちのモデルがあらゆる種類のスプリアスパターン、社会的バイアス、アノテーションアーティファクトを学習していることは明らかです。 アルゴリズムによるソリューションは、これまでのところ成功は限られている。 積極的に議論されている代替案は、特定の信号を配信するためにデータセットをより注意深く設計することである。 このポジションの論文は、データキュレーションに関する議論と、データキュレーションに対する議論を地図化しており、基本的なポイントはmootであると主張している。 問題は、そのプロセスに投資したいと考えていることだけだ。

NLP community is currently investing a lot more research and resources into development of deep learning models than training data. While we have made a lot of progress, it is now clear that our models learn all kinds of spurious patterns, social biases, and annotation artifacts. Algorithmic solutions have so far had limited success. An alternative that is being actively discussed is more careful design of datasets so as to deliver specific signals. This position paper maps out the arguments for and against data curation, and argues that fundamentally the point is moot: curation already is and will be happening, and it is changing the world. The question is only how much thought we want to invest into that process.
翻訳日:2021-05-31 13:52:38 公開日:2021-05-28
# Cisco at SemEval-2021 Task 5: What's Toxic? オンラインコメントからの複数トキシックスパン抽出のための変換器の活用

Cisco at SemEval-2021 Task 5: What's Toxic?: Leveraging Transformers for Multiple Toxic Span Extraction from Online Comments ( http://arxiv.org/abs/2105.13959v1 )

ライセンス: Link先を確認
Sreyan Ghosh, Sonal Kumar(参考訳) ソーシャルネットワークプラットフォームは概して、ポジティブで建設的で、洞察に富んだコンテンツを共有するために使われる。 しかし、近年では、脅威、アイデンティティー攻撃、ヘイトスピーチ、侮辱、わいせつな文章、攻撃的な発言、いじめなどの不快なコンテンツに晒されることが多い。 有毒な音声検出に関する既存の研究は、いくつかのカテゴリーで二分分類や有毒な音声の識別に重点を置いている。 本稿では, team cisco が semeval-2021 タスク5: toxic spans detection のために提案したシステムについて述べる。 我々は主に、シーケンスタグ付けアプローチと依存性解析アプローチの2つの方法でこの問題に取り組みます。 シーケンスタグ付けアプローチでは、特定のタグ付け方式で各トークンを文にタグ付けします。 このアプローチにおける最高のパフォーマンスアーキテクチャは、F1スコアが0.6922であることから、全体として最高のパフォーマンスアーキテクチャであることが分かりました。 また,ターゲットスパン境界の監督下で入力文からスパンを抽出し,バイファインモデルを用いてスパンをランク付けする依存性解析手法についても検討する。 最後に,本論文では,結果の詳細な分析とモデル性能について述べる。

Social network platforms are generally used to share positive, constructive, and insightful content. However, in recent times, people often get exposed to objectionable content like threat, identity attacks, hate speech, insults, obscene texts, offensive remarks or bullying. Existing work on toxic speech detection focuses on binary classification or on differentiating toxic speech among a small set of categories. This paper describes the system proposed by team Cisco for SemEval-2021 Task 5: Toxic Spans Detection, the first shared task focusing on detecting the spans in the text that attribute to its toxicity, in English language. We approach this problem primarily in two ways: a sequence tagging approach and a dependency parsing approach. In our sequence tagging approach we tag each token in a sentence under a particular tagging scheme. Our best performing architecture in this approach also proved to be our best performing architecture overall with an F1 score of 0.6922, thereby placing us 7th on the final evaluation phase leaderboard. We also explore a dependency parsing approach where we extract spans from the input sentence under the supervision of target span boundaries and rank our spans using a biaffine model. Finally, we also provide a detailed analysis of our results and model performance in our paper.
翻訳日:2021-05-31 13:52:29 公開日:2021-05-28
# 校正型クロスモーダル検索のための学習関係アライメント

Learning Relation Alignment for Calibrated Cross-modal Retrieval ( http://arxiv.org/abs/2105.13868v1 )

ライセンス: Link先を確認
Shuhuai Ren, Junyang Lin, Guangxiang Zhao, Rui Men, An Yang, Jingren Zhou, Xu Sun, Hongxia Yang(参考訳) 大規模なマルチモーダル事前学習アプローチの成果にもかかわらず、画像テキスト検索のようなクロスモーダル検索は難しい課題である。 2つのモダリティ間の意味的ギャップを埋めるために、これまでの研究では、主に対象レベルでの単語領域のアライメントに注目し、単語間の言語的関係と領域間の視覚的関係のマッチングを欠いている。 このような関係一貫性の無視は、画像テキスト対の文脈的表現を損なうとともに、モデル性能と解釈可能性を妨げる。 本稿では,まず,言語関係と視覚関係の間の意味的距離を計測し,関係一貫性を定量化する新しい指標であるisd(intra-modal self-attention distance)を提案する。 そこで本研究では,isdを最適化し,両モダリティ間アライメントを介して相互にモダリティ内自己アライメントを校正するための正規化トレーニング手法であるiais(intra-modal self-attention)のモード間アライメントを提案する。 IAIS正規化器はFlickr30kおよびMS COCOデータセット上での一般的なモデルの性能を大幅に向上させ、我々のアプローチの優位性を示す。

Despite the achievements of large-scale multimodal pre-training approaches, cross-modal retrieval, e.g., image-text retrieval, remains a challenging task. To bridge the semantic gap between the two modalities, previous studies mainly focus on word-region alignment at the object level, lacking the matching between the linguistic relation among the words and the visual relation among the regions. The neglect of such relation consistency impairs the contextualized representation of image-text pairs and hinders the model performance and the interpretability. In this paper, we first propose a novel metric, Intra-modal Self-attention Distance (ISD), to quantify the relation consistency by measuring the semantic distance between linguistic and visual relations. In response, we present Inter-modal Alignment on Intra-modal Self-attentions (IAIS), a regularized training method to optimize the ISD and calibrate intra-modal self-attentions from the two modalities mutually via inter-modal alignment. The IAIS regularizer boosts the performance of prevailing models on Flickr30k and MS COCO datasets by a considerable margin, which demonstrates the superiority of our approach.
翻訳日:2021-05-31 13:52:09 公開日:2021-05-28
# 画像分類器に対する1画素攻撃の色的・空間的解析

Chromatic and spatial analysis of one-pixel attacks against an image classifier ( http://arxiv.org/abs/2105.13771v1 )

ライセンス: Link先を確認
Janne Alatalo, Joni Korpihalkola, Tuomo Sipola, Tero Kokkonen(参考訳) ワンピクセル攻撃は、入力画像中の1ピクセルだけを変更してニューラルネットワーク分類器を識別する興味深い方法である。 この攻撃方法のポテンシャルと限界は、まだ完全には理解されていない。 本研究では,1ピクセル攻撃の動作機構を説明するために,攻撃の成功と失敗についてより詳細に研究する。 データは、医療画像に対する攻撃を応用した初期の研究から得られたものです。 実際の乳癌組織データセットと実際の分類器を攻撃標的として使用した。 本研究では1ピクセル攻撃の色分布と空間分布を解析する方法を提案する。 さらに,対象分類器の動作を示す1画素の攻撃信頼性マップを提案する。 より効果的な攻撃ではピクセルの色が変化し,画像の中心に攻撃が配置されていることを示す。 この種の分析は、攻撃の振る舞いを理解するだけでなく、分類するニューラルネットワークの特性を理解するのに有用である。

One-pixel attack is a curious way of deceiving neural network classifier by changing only one pixel in the input image. The full potential and boundaries of this attack method are not yet fully understood. In this research, the successful and unsuccessful attacks are studied in more detail to illustrate the working mechanisms of a one-pixel attack. The data comes from our earlier studies where we applied the attack against medical imaging. We used a real breast cancer tissue dataset and a real classifier as the attack target. This research presents ways to analyze chromatic and spatial distributions of one-pixel attacks. In addition, we present one-pixel attack confidence maps to illustrate the behavior of the target classifier. We show that the more effective attacks change the color of the pixel more, and that the successful attacks are situated at the center of the images. This kind of analysis is not only useful for understanding the behavior of the attack but also the qualities of the classifying neural network.
翻訳日:2021-05-31 13:51:46 公開日:2021-05-28
# 遠くない、そう遠くない:minimaxによる効率の良い近距離データ拡張サンプル

Not Far Away, Not So Close: Sample Efficient Nearest Neighbour Data Augmentation via MiniMax ( http://arxiv.org/abs/2105.13608v1 )

ライセンス: Link先を確認
Ehsan Kamalloo, Mehdi Rezagholizadeh, Peyman Passban, Ali Ghodsi(参考訳) 自然言語処理(NLP)におけるデータ拡張は、人間が解釈できない例を生み出すことが多い。 近年,非ラベル文の大きなレポジトリから拡張例を検索するkNNを活用して,解釈可能な拡張に向けた一歩を踏み出した。 このパラダイムに触発されて、サンプル効率のよいデータ拡張戦略であるMiniMax-kNNを導入する。 我々は,知識蒸留に基づく半教師付きアプローチを活用し,拡張データに基づくモデルを訓練する。 すべてのサンプルを盲目的に組み込む既存のkNN拡張手法とは対照的に,本手法では,トレーニング損失の最大KL偏差に対して,拡張サンプルのサブセットを動的に選択する。 このステップは、最も効率的なサンプルを抽出し、最大損失値の入力空間内の領域をカバーすることを目的としている。 これらの最大損失領域は、拡張サンプルを用いて最小化ステップで縮小される。 本手法をテキスト分類タスクで評価し,MiniMax-kNNが強いベースラインを一貫して上回ることを示した。 以上の結果から,最新のkNNベースの拡張技術よりも優れた性能を実現するために,MiniMax-kNNはより少ない拡張例と少ない計算を必要とすることがわかった。

Data augmentation in Natural Language Processing (NLP) often yields examples that are less human-interpretable. Recently, leveraging kNN such that augmented examples are retrieved from large repositories of unlabelled sentences has made a step toward interpretable augmentation. Inspired by this paradigm, we introduce MiniMax-kNN, a sample efficient data augmentation strategy. We exploit a semi-supervised approach based on knowledge distillation to train a model on augmented data. In contrast to existing kNN augmentation techniques that blindly incorporate all samples, our method dynamically selects a subset of augmented samples with respect to the maximum KL-divergence of the training loss. This step aims to extract the most efficient samples to ensure our augmented data covers regions in the input space with maximum loss value. These maximum loss regions are shrunk in our minimization step using augmented samples. We evaluated our technique on several text classification tasks and demonstrated that MiniMax-kNN consistently outperforms strong baselines. Our results show that MiniMax-kNN requires fewer augmented examples and less computation to achieve superior performance over the state-of-the-art kNN-based augmentation techniques.
翻訳日:2021-05-31 13:51:34 公開日:2021-05-28
# アンサンブル内部分類器を用いた早期退出

Early Exiting with Ensemble Internal Classifiers ( http://arxiv.org/abs/2105.13792v1 )

ライセンス: Link先を確認
Tianxiang Sun, Yunhua Zhou, Xiangyang Liu, Xinyu Zhang, Hao Jiang, Zhao Cao, Xuanjing Huang, Xipeng Qiu(参考訳) 大規模事前学習モデルの推論を高速化する単純な手法として、早期終了はNLPコミュニティで注目されている。 モデル全体を通過することなく、サンプルを内部分類器で早期に退避させることができる。 既存の作業の多くは、内部分類器を独立して訓練し、現在の内部分類器の信頼性に基づいて出口を決定するための出口戦略を採用している。 しかしながら、これらの作品のいずれも内部分類器が同じタスクを解くように訓練されているという事実を最大限に活用していないため、アンサンブルを構築するのに使うことができる。 本稿では,アンサンブル学習と情報理論の観点から,アンサンブル内部分類器の訓練のための新たな目的関数を自然に生成できることを示す。 提案する学習目的は, 精度と内部分類器の多様性の2つの用語からなる。 対照的に、事前の作業で使用される目標は、トレーニング目標の正確さの用語であるので、精度だけを最適化するだけでなく、多様性を最適化するものではない。 さらに、過去の全ての内部分類器の予測を考慮し、正しいラベルを推測し、出口を決定するための単純な投票ベースの戦略を提案する。 様々なnlpタスクにおける実験結果は,提案する目的関数と投票に基づく戦略により,精度と速度のトレードオフが向上することを示す。

As a simple technique to accelerate inference of large-scale pre-trained models, early exiting has gained much attention in the NLP community. It allows samples to exit early at internal classifiers without passing through the entire model. Most existing work usually trains the internal classifiers independently and employs an exiting strategy to decide whether or not to exit based on the confidence of the current internal classifier. However, none of these works takes full advantage of the fact that the internal classifiers are trained to solve the same task therefore can be used to construct an ensemble. In this paper, we show that a novel objective function for the training of the ensemble internal classifiers can be naturally induced from the perspective of ensemble learning and information theory. The proposed training objective consists of two terms: one for accuracy and the other for the diversity of the internal classifiers. In contrast, the objective used in prior work is exactly the accuracy term of our training objective therefore only optimizes the accuracy but not diversity. Further, we propose a simple voting-based strategy that considers predictions of all the past internal classifiers to infer the correct label and decide whether to exit. Experimental results on various NLP tasks show that our proposed objective function and voting-based strategy can achieve better accuracy-speed trade-offs.
翻訳日:2021-05-31 13:51:16 公開日:2021-05-28
# 旅行時間推定のための時空間デュアルグラフニューラルネットワーク

Spatial-Temporal Dual Graph Neural Networks for Travel Time Estimation ( http://arxiv.org/abs/2105.13591v1 )

ライセンス: Link先を確認
Guangyin Jin, Huan Yan, Fuxian Li, Jincai Huang, Yong Li(参考訳) 旅行時間推定は、インテリジェント交通システムにおいて基本的なものの重要な部分であり、特に旅行ナビゲーションやルート計画を支援するオンライン地図サービスで広く利用されている。 これまでのほとんどの研究は、道路セグメントや交差点を個別にモデル化し、旅行時間推定のための時空間特性を得る。 しかし,道路セグメントや交差点の連続的な変更により,それらの動的特徴は相互に結合し,相互に相互作用することが期待される。 したがって、その1つをモデル化することで、旅行時間を推定する精度がさらに向上する。 そこで本研究では,空間-時間双対グラフニューラルネットワーク (stdgnn) という,旅行時間推定のためのグラフベースの深層学習フレームワークを提案する。 具体的には、まず、交差点と道路セグメントの複雑な相関を捉えるために、時空間二重グラフアーキテクチャを確立する。 交差点の隣接関係と道路セグメントの隣接関係はそれぞれノードワイドグラフとエッジワイドグラフによって特徴づけられる。 交差点と道路セグメントの連立時空間ダイナミクスを捉えるために,多スケール空間時空間グラフ畳み込みネットワークとデュアルグラフ相互作用ネットワークを組み込んだ時空間学習層を採用する。 空間的時間的学習層に追従して、各経路と各道路区間の走行時間を同時に推定するためにマルチタスク学習層を用いる。 実世界の2つの軌跡データセット上で提案したモデルを評価するための広範囲な実験を行い,STDGNNがいくつかの最先端ベースラインを著しく上回ることを示す実験結果を得た。

Travel time estimation is a basic but important part in intelligent transportation systems, especially widely applied in online map services to help travel navigation and route planning. Most previous works commonly model the road segments or intersections separately and obtain their spatial-temporal characteristics for travel time estimation. However, due to the continuous alternation of the road segments and intersections, the dynamic features of them are supposed to be coupled and interactive. Therefore, modeling one of them limits further improvement in accuracy of estimating travel time. To address the above problems, we propose a novel graph-based deep learning framework for travel time estimation, namely Spatial-Temporal Dual Graph Neural Networks (STDGNN). Specifically, we first establish the spatial-temporal dual graph architecture to capture the complex correlations of both intersections and road segments. The adjacency relations of intersections and that of road segments are respectively characterized by node-wise graph and edge-wise graph. In order to capture the joint spatial-temporal dynamics of the intersections and road segments, we adopt the spatial-temporal learning layer that incorporates the multi-scale spatial-temporal graph convolution networks and dual graph interaction networks. Followed by the spatial-temporal learning layer, we also employ the multi-task learning layer to estimate the travel time of a given whole route and each road segment simultaneously. We conduct extensive experiments to evaluate our proposed model on two real-world trajectory datasets, and the experimental results show that STDGNN significantly outperforms several state-of-art baselines.
翻訳日:2021-05-31 13:50:42 公開日:2021-05-28
# ミラー降下によるマトリクスセンシングにおける暗黙的正則化

Implicit Regularization in Matrix Sensing via Mirror Descent ( http://arxiv.org/abs/2105.13831v1 )

ライセンス: Link先を確認
Fan Wu and Patrick Rebeschini(参考訳) 離散時間ミラー降下法を行列センシングにおける非正規化経験的リスクに適用する。 長方形行列の一般の場合と正の半定義行列の特定の場合の両方において、ブレグマンの発散の観点からの単純なポテンシャルに基づく解析により、ミラー降下の収束(鏡写像の異なる選択)を、経験的リスクのすべての大域的最小値のうち核ノルム、フロベニウスノルム、フォン・ノイマンエントロピーに明示的に関係している量を最小化する行列へと確立することができる。 どちらの場合も、この特徴は、非正規化された経験的リスクを最小化する1次アルゴリズムであるミラー降下が、核-ノルム最小化の回復を保証するのに十分な仮定のセットで低ランク行列を回復することを意味する。 知覚行列が対称かつ可換である場合、フルランク分解パラメトリゼーションを持つ勾配降下はミラー降下に対する一階近似であり、その場合勾配流の暗黙的バイアスを副生成物として明示的に特徴づける。

We study discrete-time mirror descent applied to the unregularized empirical risk in matrix sensing. In both the general case of rectangular matrices and the particular case of positive semidefinite matrices, a simple potential-based analysis in terms of the Bregman divergence allows us to establish convergence of mirror descent -- with different choices of the mirror maps -- to a matrix that, among all global minimizers of the empirical risk, minimizes a quantity explicitly related to the nuclear norm, the Frobenius norm, and the von Neumann entropy. In both cases, this characterization implies that mirror descent, a first-order algorithm minimizing the unregularized empirical risk, recovers low-rank matrices under the same set of assumptions that are sufficient to guarantee recovery for nuclear-norm minimization. When the sensing matrices are symmetric and commute, we show that gradient descent with full-rank factorized parametrization is a first-order approximation to mirror descent, in which case we obtain an explicit characterization of the implicit bias of gradient flow as a by-product.
翻訳日:2021-05-31 13:50:17 公開日:2021-05-28
# 時系列予測・データ同化・不確実性定量化のためのGAN

GAN for time series prediction, data assimilation and uncertainty quantification ( http://arxiv.org/abs/2105.13859v1 )

ライセンス: Link先を確認
Vinicius L. S. Silva, Claire E. Heaney, Christopher C. Pain(参考訳) 本稿では,観測データの存在下での前方シミュレーションの不確かさを定量化するために,gan(generative adversarial network)を用いた新しい手法を提案する。 従来,高忠実度数値モデルの非条件シミュレーションを用いてGANを訓練することにより,時系列予測とデータ同化を可能にする手法が開発されてきた。 訓練後、ganを用いてシミュレーション状態の空間分布の進化を予測し、観測データを同化することができる。 本稿では,不確実性を定量化するために必要となるプロセスについて述べる。 これらの手法は、生成モデルの随伴的な機能と、前方および後方の時間をシミュレートする能力を利用する。 本手法を疫学における包括的モデルに適用し, 理想的な都市における新型コロナウイルスの感染拡大を予測する。 提案手法は, 高忠実度数値モデルの非条件シミュレーションのみを用いて, 測定の有無を効率的に定量化できることを示す。

We propose a new method in which a generative adversarial network (GAN) is used to quantify the uncertainty of forward simulations in the presence of observed data. Previously, a method has been developed which enables GANs to make time series predictions and data assimilation by training a GAN with unconditional simulations of a high-fidelity numerical model. After training, the GAN can be used to predict the evolution of the spatial distribution of the simulation states and observed data is assimilated. In this paper, we describe the process required in order to quantify uncertainty, during which no additional simulations of the high-fidelity numerical model are required. These methods take advantage of the adjoint-like capabilities of generative models and the ability to simulate forwards and backwards in time. Set within a reduced-order model framework for efficiency, we apply these methods to a compartmental model in epidemiology to predict the spread of COVID-19 in an idealised town. The results show that the proposed method can efficiently quantify uncertainty in the presence of measurements using only unconditional simulations of the high-fidelity numerical model.
翻訳日:2021-05-31 13:49:53 公開日:2021-05-28
# 決定論的逆サブセットサンプリングに向けて

Towards Deterministic Diverse Subset Sampling ( http://arxiv.org/abs/2105.13942v1 )

ライセンス: Link先を確認
Joachim Schreurs, Micha\"el Fanuel and Johan A.K. Suykens(参考訳) 決定点プロセス(Determinantal point process, DPP)は、推薦タスク、文書要約、画像検索など、様々なサブセット選択問題に対するよく知られたモデルである。 本稿では,k-DPPのグリーディ決定論的適応について論じる。 決定論的アルゴリズムは多くのアプリケーションで興味深い。それは、エラーの確率がなく、常に同じ結果を返すことによって、ユーザーに解釈可能性を提供する。 まず,マルチデータセット上でのNystr\"om近似の精度を比較することにより,カーネル行列の低ランク近似を得る能力を評価する。 その後,画像検索作業におけるモデルの有用性を示す。

Determinantal point processes (DPPs) are well known models for diverse subset selection problems, including recommendation tasks, document summarization and image search. In this paper, we discuss a greedy deterministic adaptation of k-DPP. Deterministic algorithms are interesting for many applications, as they provide interpretability to the user by having no failure probability and always returning the same results. First, the ability of the method to yield low-rank approximations of kernel matrices is evaluated by comparing the accuracy of the Nystr\"om approximation on multiple datasets. Afterwards, we demonstrate the usefulness of the model on an image search task.
翻訳日:2021-05-31 13:49:38 公開日:2021-05-28
# 生成カーネルPCAを用いた潜時空間探査

Latent Space Exploration Using Generative Kernel PCA ( http://arxiv.org/abs/2105.13949v1 )

ライセンス: Link先を確認
David Winant, Joachim Schreurs and Johan A.K. Suykens(参考訳) Kernel PCAは強力な特徴抽出器であり、Restricted Kernel Machines (RKMs) の文脈で最近再編成されている。 これらのRKMは、Restricted Boltzmann Machinesに似た隠蔽および可視単位のカーネルPCAの表現を可能にする。 この接続は、ジェネレーティブカーネルPCAと呼ばれる生成手順でカーネルPCAを使用する方法の洞察につながった。 本稿では,生成カーネルPCAを用いてデータセットの潜在空間を探索する。 新しい点は、成分の解釈を可能にする潜在空間を徐々に移動させることで生成することができる。 まず、この特徴空間探索の例を3つのデータセットで示し、そのうちの1つはECG信号の解釈可能な表現につながる。 その後,データ中の新規パターン周辺の潜在空間を探索し,ノベルティ検出と組み合わせたツールの使用を示す。 これは、ある点がなぜ新しいと見なされるのかの解釈に役立つ。

Kernel PCA is a powerful feature extractor which recently has seen a reformulation in the context of Restricted Kernel Machines (RKMs). These RKMs allow for a representation of kernel PCA in terms of hidden and visible units similar to Restricted Boltzmann Machines. This connection has led to insights on how to use kernel PCA in a generative procedure, called generative kernel PCA. In this paper, the use of generative kernel PCA for exploring latent spaces of datasets is investigated. New points can be generated by gradually moving in the latent space, which allows for an interpretation of the components. Firstly, examples of this feature space exploration on three datasets are shown with one of them leading to an interpretable representation of ECG signals. Afterwards, the use of the tool in combination with novelty detection is shown, where the latent space around novel patterns in the data is explored. This helps in the interpretation of why certain points are considered as novel.
翻訳日:2021-05-31 13:49:28 公開日:2021-05-28
# オープンセット認識における表現学習のための自己教師付きデコンフォーメーションオートエンコーダ

Self-supervised Detransformation Autoencoder for Representation Learning in Open Set Recognition ( http://arxiv.org/abs/2105.13557v1 )

ライセンス: Link先を確認
Jingyun Jia, Philip K. Chan(参考訳) オープンセット認識(OSR)の目的は、既知のクラスを正確に分類しながら未知のサンプルを拒否できる分類器を学習することである。 本稿では,OSR問題に対する自己超越手法であるDetransformation Autoencoder (DTAE)を提案する。 提案手法は,入力データの変換に不変な学習表現に係わる。 いくつかの標準画像データセットの実験は、事前学習プロセスがOSRタスクのモデル性能を著しく改善することを示している。 一方,提案手法は,未知のクラスを検出し,既知のクラスを分類する上で,大きな利益をもたらす。 さらに分析の結果,DTAEはRotNetよりもターゲットクラス情報が多く,変換情報が少ない表現を生成できることがわかった。

The objective of Open set recognition (OSR) is to learn a classifier that can reject the unknown samples while classifying the known classes accurately. In this paper, we propose a self-supervision method, Detransformation Autoencoder (DTAE), for the OSR problem. This proposed method engages in learning representations that are invariant to the transformations of the input data. Experiments on several standard image datasets indicate that the pre-training process significantly improves the model performance in the OSR tasks. Meanwhile, our proposed self-supervision method achieves significant gains in detecting the unknown class and classifying the known classes. Moreover, our analysis indicates that DTAE can yield representations that contain more target class information and less transformation information than RotNet.
翻訳日:2021-05-31 13:48:30 公開日:2021-05-28
# クラウドソーシングにおけるデータラベリング改善のためのベイジアン推論

Confident in the Crowd: Bayesian Inference to Improve Data Labelling in Crowdsourcing ( http://arxiv.org/abs/2105.13984v1 )

ライセンス: Link先を確認
Pierce Burke and Richard Klein(参考訳) 機械学習やビッグデータ問題への関心が高まり、大量のラベル付きデータの必要性も高まっている。 しかし、専門家にすべてのデータをラベル付けさせることは、しばしば不可能であり、多くの実践者がクラウドソーシングソリューションに繋がる。 本稿では,コスト削減を図りながら,ラベルの品質を向上させる新しい手法を提案する。 ラベルを割り当てるナイーブなアプローチは多数決方式を採用することであるが、データラベリングの文脈では、データラベラーが等しく信頼できないため、これは必ずしも理想的ではない。 むしろ、過去のパフォーマンスに基づいた何らかの重み付け投票を通じて、特定のラベルラーにより高い優先順位を与えるかもしれない。 本稿では,ラベルラベラーの性能とラベルの信頼度を測定するために,ベイズ推論などのより洗練された手法を用いることについて検討する。 提案手法は,推定ラベルにおける所望の信頼性を達成するのに必要な作業者数を最小にしようとする反復的改善アルゴリズムに従う。 本稿では,シミュレーション作業者による二項分類問題と,提案手法を試すための質問について検討する。 提案手法は,群集内で不一致が発生した場合に高い信頼性を維持しつつ,コストと精度の両方で標準的な投票方法より優れる。

With the increased interest in machine learning and big data problems, the need for large amounts of labelled data has also grown. However, it is often infeasible to get experts to label all of this data, which leads many practitioners to crowdsourcing solutions. In this paper, we present new techniques to improve the quality of the labels while attempting to reduce the cost. The naive approach to assigning labels is to adopt a majority vote method, however, in the context of data labelling, this is not always ideal as data labellers are not equally reliable. One might, instead, give higher priority to certain labellers through some kind of weighted vote based on past performance. This paper investigates the use of more sophisticated methods, such as Bayesian inference, to measure the performance of the labellers as well as the confidence of each label. The methods we propose follow an iterative improvement algorithm which attempts to use the least amount of workers necessary to achieve the desired confidence in the inferred label. This paper explores simulated binary classification problems with simulated workers and questions to test the proposed methods. Our methods outperform the standard voting methods in both cost and accuracy while maintaining higher reliability when there is disagreement within the crowd.
翻訳日:2021-05-31 13:47:30 公開日:2021-05-28
# 準確率勾配線による分割パラメータ化政策アプローチによるマウンテンカーの一般化改善

Improving Generalization in Mountain Car Through the Partitioned Parameterized Policy Approach via Quasi-Stochastic Gradient Descent ( http://arxiv.org/abs/2105.13986v1 )

ライセンス: Link先を確認
Caleb M. Bowyer(参考訳) マウンテンカー環境の最小時間目標を最小限に抑える制御ポリシーを見つけることによる強化学習の課題を考察する。 特に,パラメータ化された非線形フィードバックポリシのクラスを最適化して,最低時間で最高峰の頂上に到達する。 準確率勾配 Descent (qSGD) 法を用いて最適化を行う。 最適な最小時間ポリシーを見つけるために、状態空間全体のマクロなポリシーパラメータに頼るのではなく、状態空間の異なる領域に対する最適なポリシーパラメータを学習しようとする新しいパラメータ化されたポリシーアプローチが検討されている。 この分割パラメータ化ポリシーアプローチは、一様パラメータ化ポリシーアプローチよりも優れており、以前の方法よりも一般化され、マウンテンカーは州空間の循環軌道に閉じ込められた。

The reinforcement learning problem of finding a control policy that minimizes the minimum time objective for the Mountain Car environment is considered. Particularly, a class of parameterized nonlinear feedback policies is optimized over to reach the top of the highest mountain peak in minimum time. The optimization is carried out using quasi-Stochastic Gradient Descent (qSGD) methods. In attempting to find the optimal minimum time policy, a new parameterized policy approach is considered that seeks to learn an optimal policy parameter for different regions of the state space, rather than rely on a single macroscopic policy parameter for the entire state space. This partitioned parameterized policy approach is shown to outperform the uniform parameterized policy approach and lead to greater generalization than prior methods, where the Mountain Car became trapped in circular trajectories in the state space.
翻訳日:2021-05-31 13:47:10 公開日:2021-05-28
# スケジュールの学習

Learning to Schedule ( http://arxiv.org/abs/2105.13655v1 )

ライセンス: Link先を確認
Dabeen Lee, Milan Vojnovic(参考訳) 本稿では,ジョブが蓄積する累積保持コストを最小限に抑えるための学習・スケジューリングアルゴリズムを提案する。 各タイムスロットにおいて、サーバはシステムに残されているジョブのランダム保持コストを受信しながらジョブを処理できる。 アルゴリズムは、スケジューリングのための$c\mu$ルールの学習ベースの変種であり、学習フェーズとして一定の長さのプリエンプション期間から始まり、個々のジョブに関する十分なデータを蓄積した後、非プリエンプティブスケジューリングモードに切り替える。 このアルゴリズムは、ジョブのパラメータの大きなあるいは小さなギャップを持つインスタンスを処理し、ほぼ最適性能を保証するように設計されている。 提案アルゴリズムの性能は,ジョブの統計的パラメータが完全に把握された場合,ベンチマークが最小限のコストで達成されるという,後悔の念に捉えられている。 我々は,アルゴリズムの後悔に対する上限を証明し,提案する上限にほぼ一致する後悔の下限を導出する。 数値解析の結果,提案アルゴリズムの有効性を実証し,理論的後悔分析がほぼ厳密であることを示す。

This paper proposes a learning and scheduling algorithm to minimize the expected cumulative holding cost incurred by jobs, where statistical parameters defining their individual holding costs are unknown a priori. In each time slot, the server can process a job while receiving the realized random holding costs of the jobs remaining in the system. Our algorithm is a learning-based variant of the $c\mu$ rule for scheduling: it starts with a preemption period of fixed length which serves as a learning phase, and after accumulating enough data about individual jobs, it switches to nonpreemptive scheduling mode. The algorithm is designed to handle instances with large or small gaps in jobs' parameters and achieves near-optimal performance guarantees. The performance of our algorithm is captured by its regret, where the benchmark is the minimum possible cost attained when the statistical parameters of jobs are fully known. We prove upper bounds on the regret of our algorithm, and we derive a regret lower bound that is almost matching the proposed upper bounds. Our numerical results demonstrate the effectiveness of our algorithm and show that our theoretical regret analysis is nearly tight.
翻訳日:2021-05-31 13:46:30 公開日:2021-05-28
# 数学的物体生成によるニューラル生成モデル出力の大域的特性の測定

Measuring global properties of neural generative model outputs via generating mathematical objects ( http://arxiv.org/abs/2105.13669v1 )

ライセンス: Link先を確認
Bernt Ivar Utst{\o}l N{\o}dland(参考訳) 我々は反射性ポリトープのデータセットで深層生成モデルを訓練する。 これにより、モデルが生成したサンプルの様々なグローバルな特性をいかにうまく捉えたかを比較することができる。 データセットは、座標の変更まで、すべての例がデータセットに含まれているという意味で、完全なものです。 このプロパティを使用すると、モデルがデータを覚えている程度までテストを実行します。 また、2つの異なる方法で表現された同じデータセット上でモデルをトレーニングすることで、どのフォームから学ぶのが一番簡単かを測定できます。 これらの実験は、深層生成モデルが非自明な大域的特性を持つ幾何学的オブジェクトを生成することを学習し、そのモデルが単にデータを記憶するのではなく、対象の基本的な特性を学習できることを示すものである。

We train deep generative models on datasets of reflexive polytopes. This enables us to compare how well the models have picked up on various global properties of generated samples. Our datasets are complete in the sense that every single example, up to changes of coordinate, is included in the dataset. Using this property we also perform tests checking to what extent the models are merely memorizing the data. We also train models on the same dataset represented in two different ways, enabling us to measure which form is easiest to learn from. We use these experiments to show that deep generative models can learn to generate geometric objects with non-trivial global properties, and that the models learn some underlying properties of the objects rather than simply memorizing the data.
翻訳日:2021-05-31 13:46:13 公開日:2021-05-28
# Slow Momentum with Fast Reversion: A Trading Strategy using Deep Learning and Changepoint Detection

Slow Momentum with Fast Reversion: A Trading Strategy Using Deep Learning and Changepoint Detection ( http://arxiv.org/abs/2105.13727v1 )

ライセンス: Link先を確認
Kieran Wood, Stephen Roberts, Stefan Zohren(参考訳) モーメント戦略は代替投資の重要な部分であり、コモディティ・トレーディング・アドバイザー(ctas)の中心にある。 しかし、これらの戦略は、2020年の市場崩壊など、市場状況の急速な変化に適応することが困難であることが判明している。 特に、傾向がアップトレンド(ダウントレンド)からダウントレンド(アップトレンド)に反転するモーメントターニングポイントの直後に、時系列モーメント(tsmom)戦略は悪い賭けをする傾向がある。 状況変化に対する応答を改善するために、我々は、LSTMディープラーニングアーキテクチャを用いてトレンド推定と位置サイズの両方を同時に学習するDeep Momentum Network (DMN) [1904.04912]パイプラインにオンライン変更点検出(CPD)モジュールを挿入する、新しいアプローチを導入する。 さらに, モデルでは, 1) 持続的な傾向を生かしながら, 局所的な価格変動に過度に反応しない緩やかなモーメント戦略, 2) 位置を素早く反転させ, 再度交換して局所的な価格変動を利用する高速な平均回帰戦略体制を最適化することができる。 我々のCPDモジュールは、変化点位置と重大度スコアを出力し、データ駆動方式で様々な不均衡、あるいはより小さくより局所的な変化点に対応することを学習する。 1990-2020年の間、50, Liquid, Continuous Futures のポートフォリオを使用して CPD モジュールを追加することで、Sharpe 比が 33\%$ に改善される。 さらに注目すべきは、このモジュールは重要な非定常性の期間において特に有益であり、特に最近のテスト(2015-2020)では、パフォーマンスの向上は約400\%$である。 従来のモメンタム戦略は、この時期にはパフォーマンスが低かったため、これは特に興味深い。

Momentum strategies are an important part of alternative investments and are at the heart of commodity trading advisors (CTAs). These strategies have however been found to have difficulties adjusting to rapid changes in market conditions, such as during the 2020 market crash. In particular, immediately after momentum turning points, where a trend reverses from an uptrend (downtrend) to a downtrend (uptrend), time-series momentum (TSMOM) strategies are prone to making bad bets. To improve the response to regime change, we introduce a novel approach, where we insert an online change-point detection (CPD) module into a Deep Momentum Network (DMN) [1904.04912] pipeline, which uses an LSTM deep-learning architecture to simultaneously learn both trend estimation and position sizing. Furthermore, our model is able to optimise the way in which it balances 1) a slow momentum strategy which exploits persisting trends, but does not overreact to localised price moves, and 2) a fast mean-reversion strategy regime by quickly flipping its position, then swapping it back again to exploit localised price moves. Our CPD module outputs a changepoint location and severity score, allowing our model to learn to respond to varying degrees of disequilibrium, or smaller and more localised changepoints, in a data driven manner. Using a portfolio of 50, liquid, continuous futures contracts over the period 1990-2020, the addition of the CPD module leads to an improvement in Sharpe ratio of $33\%$. Even more notably, this module is especially beneficial in periods of significant nonstationarity, and in particular, over the most recent years tested (2015-2020) the performance boost is approximately $400\%$. This is especially interesting as traditional momentum strategies have been underperforming in this period.
翻訳日:2021-05-31 13:46:00 公開日:2021-05-28
# 簡単なステップは必要なだけ:フランク=ウルフと一般化された自己調和関数

Simple steps are all you need: Frank-Wolfe and generalized self-concordant functions ( http://arxiv.org/abs/2105.13913v1 )

ライセンス: Link先を確認
Alejandro Carderera and Mathieu Besan\c{c}on and Sebastian Pokutta(参考訳) 一般化自己一致は、多くの重要な学習問題の目的関数に存在する重要な特性である。 自由ループのステップサイズ戦略である$\gamma_t = 2/(t+2)$を用いて、原始ギャップとフランクウルフギャップの観点で、この関数のクラスに対して$\mathcal{o}(1/t)$の収束率を得る単純なフランク・ウルフ変種(英語版)の収束率を確立し、ここで$t$は反復数である。 これにより、二階情報の使用や、前の作業の局所的滑らか度パラメータを見積もる必要がない。 また,一様凸領域や多面体領域を考慮に入れた場合など,様々な症例に対する収束率の改善も示した。

Generalized self-concordance is a key property present in the objective function of many important learning problems. We establish the convergence rate of a simple Frank-Wolfe variant that uses the open-loop step size strategy $\gamma_t = 2/(t+2)$, obtaining a $\mathcal{O}(1/t)$ convergence rate for this class of functions in terms of primal gap and Frank-Wolfe gap, where $t$ is the iteration count. This avoids the use of second-order information or the need to estimate local smoothness parameters of previous work. We also show improved convergence rates for various common cases, e.g., when the feasible region under consideration is uniformly convex or polyhedral.
翻訳日:2021-05-31 13:45:25 公開日:2021-05-28
# 多角的不調整ランゲヴィンアルゴリズム:ニューラルネットワークのための安定かつ効率的な適応アルゴリズムの作成

Polygonal Unadjusted Langevin Algorithms: Creating stable and efficient adaptive algorithms for neural networks ( http://arxiv.org/abs/2105.13937v1 )

ライセンス: Link先を確認
Dong-Young Lim and Sotirios Sabanis(参考訳) 本稿では,ニューラルネットワーク(ANN)の微調整に現在使用されている適応最適化アルゴリズムの欠点の多くを克服する,適応確率最適化アルゴリズムの新たなクラスを提案する。 その基盤となる理論は、単調係数を持つ確率微分方程式(SDE)に対するオイラーの多角形近似の進歩に依存する。 その結果、テードアルゴリズムの安定性特性を継承し、例えば他の既知の問題に対処する。 ANNにおける勾配の消滅。 特に、この新クラスのアルゴリズムの収束特性について、非漸近解析と完全な理論的保証を提供し、th$\varepsilon$o poula(単にtheopoula)と名付けた。 最後に,多くの適応最適化アルゴリズムに対してtheopoulaの優れた性能を示すannの異なる種類の実験を行った。

We present a new class of adaptive stochastic optimization algorithms, which overcomes many of the known shortcomings of popular adaptive optimizers that are currently used for the fine tuning of artificial neural networks (ANNs). Its underpinning theory relies on advances of Euler's polygonal approximations for stochastic differential equations (SDEs) with monotone coefficients. As a result, it inherits the stability properties of tamed algorithms, while it addresses other known issues, e.g. vanishing gradients in ANNs. In particular, we provide an nonasymptotic analysis and full theoretical guarantees for the convergence properties of an algorithm of this novel class, which we named TH$\varepsilon$O POULA (or, simply, TheoPouLa). Finally, several experiments are presented with different types of ANNs, which show the superior performance of TheoPouLa over many popular adaptive optimization algorithms.
翻訳日:2021-05-31 13:45:08 公開日:2021-05-28
# minimax学習問題に対する効率的なオンラインバンド戦略

Efficient Online-Bandit Strategies for Minimax Learning Problems ( http://arxiv.org/abs/2105.13939v1 )

ライセンス: Link先を確認
Christophe Roux, Elias Wirth, Sebastian Pokutta, Thomas Kerdreux(参考訳) いくつかの学習問題には、経験的分布的ロバスト学習や、非標準集合的損失を伴う学習など、min-max問題を解決することが含まれる。 より具体的には、これらの問題は、モデルパラメータ$w\in\mathcal{W}$上で最小化を行う凸線型問題であり、経験的分布$p\in\mathcal{K}$での最大化はトレーニングセットインデックスであり、$\mathcal{K}$は単純あるいはその部分集合である。 効率的な手法を設計するために,オンライン学習アルゴリズムを(組み合わせ)banditアルゴリズムと対戦させる。 このような手法の効率性は$\mathcal{K}$の構造に依存し、効率的なアルゴリズムの設計を容易にする$\mathcal{K}$の2つの性質を提案する。 我々は、様々な学習アプリケーションを含む集合の特定の族 $\mathcal{S}_{n,k}$ に焦点を当て、ミニマックス値に対して高確率収束を保証する。

Several learning problems involve solving min-max problems, e.g., empirical distributional robust learning or learning with non-standard aggregated losses. More specifically, these problems are convex-linear problems where the minimization is carried out over the model parameters $w\in\mathcal{W}$ and the maximization over the empirical distribution $p\in\mathcal{K}$ of the training set indexes, where $\mathcal{K}$ is the simplex or a subset of it. To design efficient methods, we let an online learning algorithm play against a (combinatorial) bandit algorithm. We argue that the efficiency of such approaches critically depends on the structure of $\mathcal{K}$ and propose two properties of $\mathcal{K}$ that facilitate designing efficient algorithms. We focus on a specific family of sets $\mathcal{S}_{n,k}$ encompassing various learning applications and provide high-probability convergence guarantees to the minimax values.
翻訳日:2021-05-31 13:44:53 公開日:2021-05-28
# 幾何学的ディープラーニングと等価ニューラルネットワーク

Geometric Deep Learning and Equivariant Neural Networks ( http://arxiv.org/abs/2105.13926v1 )

ライセンス: Link先を確認
Jan E. Gerken, Jimmy Aronsson, Oscar Carlsson, Hampus Linander, Fredrik Ohlsson, Christoffer Petersson, Daniel Persson(参考訳) 幾何学的深層学習の数学的基礎を調査し,群同変とゲージ同変ニューラルネットワークに着目した。 任意の多様体上のゲージ同変畳み込みニューラルネットワークを、構造群$K$の主バンドルと、関連するベクトル束の切断間の同変写像を用いて開発する。 また、一様空間に対する群同変ニューラルネットワークである$\mathcal{m}=g/k$についても論じる。 群同変層は、$G$の誘導表現の間のインターツウィンダーと解釈でき、その関係をゲージ同変畳み込み層に示す。 セマンティックセグメンテーションやオブジェクト検出ネットワークなど,このフォーマリズムのいくつかの応用を解析する。 また, 球面ネットワークの場合についても, $\mathcal{M}=S^2=\mathrm{SO}(3)/\mathrm{SO}(2)$ に対応して詳細に論じる。 ここでは、wigner行列、球面調和、clebsch-gordan係数を含むフーリエ解析を$g=\mathrm{so}(3)$で使用することを強調し、深層学習における表現論の力を示す。

We survey the mathematical foundations of geometric deep learning, focusing on group equivariant and gauge equivariant neural networks. We develop gauge equivariant convolutional neural networks on arbitrary manifolds $\mathcal{M}$ using principal bundles with structure group $K$ and equivariant maps between sections of associated vector bundles. We also discuss group equivariant neural networks for homogeneous spaces $\mathcal{M}=G/K$, which are instead equivariant with respect to the global symmetry $G$ on $\mathcal{M}$. Group equivariant layers can be interpreted as intertwiners between induced representations of $G$, and we show their relation to gauge equivariant convolutional layers. We analyze several applications of this formalism, including semantic segmentation and object detection networks. We also discuss the case of spherical networks in great detail, corresponding to the case $\mathcal{M}=S^2=\mathrm{SO}(3)/\mathrm{SO}(2)$. Here we emphasize the use of Fourier analysis involving Wigner matrices, spherical harmonics and Clebsch-Gordan coefficients for $G=\mathrm{SO}(3)$, illustrating the power of representation theory for deep learning.
翻訳日:2021-05-31 13:44:10 公開日:2021-05-28
# PTNet:トランスを用いた高分解能乳幼児MRI合成装置

PTNet: A High-Resolution Infant MRI Synthesizer Based on Transformer ( http://arxiv.org/abs/2105.13993v1 )

ライセンス: Link先を確認
Xuzhe Zhang, Xinzi He, Jia Guo, Nabil Ettehadi, Natalie Aw, David Semanek, Jonathan Posner, Andrew Laine, Yun Wang(参考訳) 磁気共鳴イメージング(MRI)は、生命の段階にわたって人間の脳構造がどのように発達するかについて重要な情報を提供する。 発達科学者は神経発達の最初の数年間に特に興味を持っている。 成人のMRI収集と分析の成功にもかかわらず、主に不規則な睡眠パターン、注意不足、静止する指示に従えないこと、分析アプローチの欠如により、発達中の幼児から高品質なマルチモーダルMRIを収集することは、研究者にとって困難である。 これらの課題は、しばしば有用データの大幅な削減につながる。 この問題に対処するため、研究者はリアルなMRIを合成することで、腐敗したスキャンを置き換える様々な方法を模索してきた。 その中でも,畳み込みニューラルネットワーク(cnn)を基盤としたジェネレーティブ・バイバーサル・ネットワークは有望な結果を示し,最先端のパフォーマンスを実現している。 しかし、敵の訓練は不安定であり、訓練を安定させるためには規則化用語を慎重に調整する必要がある。 本研究では,新しいMRI合成フレームワーク - Pyramid Transformer Net (PTNet)を導入した。 PTNetはトランス層、スキップ接続、マルチスケールピラミッド表現で構成されている。 最も広く使われているCNNベースの条件付きGANモデル(pix2pixとpix2pixHD)と比較して、PTNetは合成精度とモデルサイズにおいて優れた性能を示す。 特に、ptnetはいかなる対向訓練も必要とせず、単純な平均二乗誤差損失を使って容易に訓練することができる。

Magnetic resonance imaging (MRI) noninvasively provides critical information about how human brain structures develop across stages of life. Developmental scientists are particularly interested in the first few years of neurodevelopment. Despite the success of MRI collection and analysis for adults, it is a challenge for researchers to collect high-quality multimodal MRIs from developing infants mainly because of their irregular sleep pattern, limited attention, inability to follow instructions to stay still, and a lack of analysis approaches. These challenges often lead to a significant reduction of usable data. To address this issue, researchers have explored various solutions to replace corrupted scans through synthesizing realistic MRIs. Among them, the convolution neural network (CNN) based generative adversarial network has demonstrated promising results and achieves state-of-the-art performance. However, adversarial training is unstable and may need careful tuning of regularization terms to stabilize the training. In this study, we introduced a novel MRI synthesis framework - Pyramid Transformer Net (PTNet). PTNet consists of transformer layers, skip-connections, and multi-scale pyramid representation. Compared with the most widely used CNN-based conditional GAN models (namely pix2pix and pix2pixHD), our model PTNet shows superior performance in terms of synthesis accuracy and model size. Notably, PTNet does not require any type of adversarial training and can be easily trained using the simple mean squared error loss.
翻訳日:2021-05-31 13:43:47 公開日:2021-05-28
# 生成モデルを用いた線形パラメータmdpのサンプル効率強化学習

Sample-Efficient Reinforcement Learning for Linearly-Parameteriz ed MDPs with a Generative Model ( http://arxiv.org/abs/2105.14016v1 )

ライセンス: Link先を確認
Bingyan Wang, Yuling Yan, Jianqing Fan(参考訳) 次元性の呪いは強化学習(RL)において広く知られている問題である。 状態空間 $\mathcal{s}$ と作用空間 $\mathcal{a}$ がともに有限であるような表設定において、生成モデルへのアクセスをサンプリングしてほぼ最適なポリシーを得るため、ミニマックス最適標本複雑性は$|\mathcal{s}|\times|\mathcal{a}|$ と線形にスケールする。 本稿では,その確率遷移カーネルを線形に(あるいは近似的に)表現できる,一連の状態-作用特徴を持つマルコフ決定プロセス(MDP)について考察する。 モデルに基づくアプローチ(resp.$~$Q-learning) は、サンプルサイズが$\frac{K}{(1-\gamma)^{3}\varepsilon^{2}}$(resp.$~$\frac{K}{(1-\gamma)^{4}\varepsilon^{2}}$(resp.$~$\frac{K}{(1-\gamma)^{4}\varepsilon^{2}}$)を超えると、高い確率で$\varepsilon$-optima l Policy(resp.$~$Q-fun ction)を確実に学習することを示す。 ここで$K$は特徴次元、$\gamma\in(0,1)$はMDPの割引係数である。 どちらのサンプルの複雑性境界も明らかに厳密であり、モデルに基づくアプローチの結果はミニマックス下界と一致する。 この結果から, モデルベースアプローチとQラーニングは, 比較的K$が小さい場合のサンプル効率が向上し, 本論文の題名となった。

The curse of dimensionality is a widely known issue in reinforcement learning (RL). In the tabular setting where the state space $\mathcal{S}$ and the action space $\mathcal{A}$ are both finite, to obtain a nearly optimal policy with sampling access to a generative model, the minimax optimal sample complexity scales linearly with $|\mathcal{S}|\times|\mathcal{A}|$, which can be prohibitively large when $\mathcal{S}$ or $\mathcal{A}$ is large. This paper considers a Markov decision process (MDP) that admits a set of state-action features, which can linearly express (or approximate) its probability transition kernel. We show that a model-based approach (resp.$~$Q-learning) provably learns an $\varepsilon$-optima l policy (resp.$~$Q-function) with high probability as soon as the sample size exceeds the order of $\frac{K}{(1-\gamma)^{3}\varepsilon^{2}}$ (resp.$~$$\frac{K}{(1-\gamma)^{4}\varepsilon^{2}}$), up to some logarithmic factor. Here $K$ is the feature dimension and $\gamma\in(0,1)$ is the discount factor of the MDP. Both sample complexity bounds are provably tight, and our result for the model-based approach matches the minimax lower bound. Our results show that for arbitrarily large-scale MDP, both the model-based approach and Q-learning are sample-efficient when $K$ is relatively small, and hence the title of this paper.
翻訳日:2021-05-31 13:43:24 公開日:2021-05-28
# ベトナムスペル訂正のための階層型変圧器エンコーダ

Hierarchical Transformer Encoders for Vietnamese Spelling Correction ( http://arxiv.org/abs/2105.13578v1 )

ライセンス: Link先を確認
Hieu Tran, Cuong V. Dinh, Long Phan, and Son T. Nguyen(参考訳) 本稿では,ベトナム語綴り補正問題に対する階層的トランスフォーマーモデルを提案する。 モデルは複数のトランスフォーマエンコーダで構成され、文字レベルと単語レベルの両方を使用してエラーを検出し、訂正を行う。 また,ベトナム語スペル訂正作業における今後の作業を容易にするために,実生活テキストから収集した現実的なデータセットを提案する。 提案手法を他の方法や公開システムと比較する。 提案手法は,リコール法,精度法,f1-score法において,従来の手法よりも優れていた。 デモ版が公開されている。

In this paper, we propose a Hierarchical Transformer model for Vietnamese spelling correction problem. The model consists of multiple Transformer encoders and utilizes both character-level and word-level to detect errors and make corrections. In addition, to facilitate future work in Vietnamese spelling correction tasks, we propose a realistic dataset collected from real-life texts for the problem. We compare our method with other methods and publicly available systems. The proposed method outperforms all of the contemporary methods in terms of recall, precision, and f1-score. A demo version is publicly available.
翻訳日:2021-05-31 13:40:50 公開日:2021-05-28
# ByT5: 事前訓練されたバイト単位のモデルでトークンフリーの未来を目指す

ByT5: Towards a token-free future with pre-trained byte-to-byte models ( http://arxiv.org/abs/2105.13626v1 )

ライセンス: Link先を確認
Linting Xue, Aditya Barua, Noah Constant, Rami Al-Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel(参考訳) 最も広く使われている事前訓練言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作する。 トークンのシーケンスとしてテキストをエンコーディングするには、通常モデルから独立したアーティファクトとして作成されるトークン化子が必要である。 生のテキスト(バイトまたは文字)を直接操作するトークンフリーモデルは、ボックスから任意の言語でテキストを処理することができ、ノイズに対してより堅牢であり、複雑なエラーを起こしやすいテキスト前処理パイプラインを取り除くことで技術的負債を最小限にすることができる。 バイトシーケンスや文字シーケンスはトークンシーケンスよりも長いため、トークンフリーモデルに関する過去の作業では、生のテキストを直接操作するコストを償却するために設計された新しいモデルアーキテクチャがしばしば導入されている。 本稿では,標準トランスフォーマーアーキテクチャをバイト列の処理に最小限の変更を加えることで利用できることを示す。 パラメータカウント, FLOPのトレーニング, 推論速度の観点から, トレードオフを慎重に特徴付け, バイトレベルのモデルがトークンレベルのモデルと競合することを示す。 また、バイトレベルのモデルはノイズに対して著しく堅牢であり、スペルや発音に敏感なタスクでも性能が向上することを示した。 コントリビュートの一環として,t5アーキテクチャに基づくプリトレーニングされたバイトレベルのトランスフォーマモデルと,実験で使用されるすべてのコードとデータをリリースします。

Most widely-used pre-trained language models operate on sequences of tokens corresponding to word or subword units. Encoding text as a sequence of tokens requires a tokenizer, which is typically created as an independent artifact from the model. Token-free models that instead operate directly on raw text (bytes or characters) have many benefits: they can process text in any language out of the box, they are more robust to noise, and they minimize technical debt by removing complex and error-prone text preprocessing pipelines. Since byte or character sequences are longer than token sequences, past work on token-free models has often introduced new model architectures designed to amortize the cost of operating directly on raw text. In this paper, we show that a standard Transformer architecture can be used with minimal modifications to process byte sequences. We carefully characterize the trade-offs in terms of parameter count, training FLOPs, and inference speed, and show that byte-level models are competitive with their token-level counterparts. We also demonstrate that byte-level models are significantly more robust to noise and perform better on tasks that are sensitive to spelling and pronunciation. As part of our contribution, we release a new set of pre-trained byte-level Transformer models based on the T5 architecture, as well as all code and data used in our experiments.
翻訳日:2021-05-31 13:40:41 公開日:2021-05-28
# テキスト要約のための雑音整合性トレーニング

Noised Consistency Training for Text Summarization ( http://arxiv.org/abs/2105.13635v1 )

ライセンス: Link先を確認
Junnan Liu, Qianren Mao, Bang Liu, Hao Peng, Hongdong Zhu, Jianxin Li(参考訳) 神経抽象要約法は、しばしば大量のラベル付きトレーニングデータを必要とする。 しかし, 大量の要約データのラベル付けは, 時間, 財務, 専門知識の制約によって禁止されることが多く, 要約システムの実用性に限界がある。 本稿では、この制限を半教師付きアプローチによって克服できると論じる: 大量のラベルのないデータを活用して、教師付き学習の性能を小さなコーパスで向上させる一貫性トレーニングである。 一貫性正規化半教師付き学習は、入力記事に適用される小さな雑音に不変なモデル予測を定式化することができる。 このフレームワークは、一貫性トレーニングを規則化するのに役立つノイズのないコーパスを追加することで、完全なデータセットを使用せずに比較パフォーマンスを得る。 特に,ラベルのない大量のデータを活用することで,ラベル付きデータセットの不足による教師付き学習のパフォーマンスが向上していることを確認した。

Neural abstractive summarization methods often require large quantities of labeled training data. However, labeling large amounts of summarization data is often prohibitive due to time, financial, and expertise constraints, which has limited the usefulness of summarization systems to practical applications. In this paper, we argue that this limitation can be overcome by a semi-supervised approach: consistency training which is to leverage large amounts of unlabeled data to improve the performance of supervised learning over a small corpus. The consistency regularization semi-supervised learning can regularize model predictions to be invariant to small noise applied to input articles. By adding noised unlabeled corpus to help regularize consistency training, this framework obtains comparative performance without using the full dataset. In particular, we have verified that leveraging large amounts of unlabeled data decently improves the performance of supervised learning over an insufficient labeled dataset.
翻訳日:2021-05-31 13:40:17 公開日:2021-05-28
# 限られた並列資源を用いた言語間抽象要約

Cross-Lingual Abstractive Summarization with Limited Parallel Resources ( http://arxiv.org/abs/2105.13648v1 )

ライセンス: Link先を確認
Yu Bai, Yang Gao, Heyan Huang(参考訳) 並列言語間要約データは少ないため、モデルが利用可能な言語間リソースをより活用する必要がある。 既存の手法では、マルチタスクフレームワークでシーケンシャル・ツー・シーケンス・ネットワークを採用することが多い。 このようなアプローチは複数のデコーダを適用でき、それぞれが特定のタスクに使用される。 しかし、これらの独立したデコーダはパラメータを共有しないので、異なる言語における要約の離散的なフレーズ間の関係を捉えず、高リソース言語の知識を低リソース言語に転送するために接続を断ち切る。 これらの接続をブリッジするために,低リソース環境下でのクロスLingual Abstractive Summarization (MCLAS) のための新しいマルチタスクフレームワークを提案する。 1つの統一デコーダを使用して、単言語およびクロス言語要約の逐次連結を生成すると、mclasは単言語要約タスクをclsタスクの前提条件とする。 このようにして、共有デコーダは言語間のアライメントや要約パターンを含む相互作用を学び、知識伝達の達成を促進する。 CLSデータセットの2つの実験により、我々のモデルは低リソースとフルデータセットの両方のシナリオにおいて、3つのベースラインモデルよりも大幅に優れていることが示された。 さらに,生成したサマリーとアテンションヘッドの詳細な解析により,MCLASを用いて相互作用が十分に学習されていることを確認する。

Parallel cross-lingual summarization data is scarce, requiring models to better use the limited available cross-lingual resources. Existing methods to do so often adopt sequence-to-sequence networks with multi-task frameworks. Such approaches apply multiple decoders, each of which is utilized for a specific task. However, these independent decoders share no parameters, hence fail to capture the relationships between the discrete phrases of summaries in different languages, breaking the connections in order to transfer the knowledge of the high-resource languages to low-resource languages. To bridge these connections, we propose a novel Multi-Task framework for Cross-Lingual Abstractive Summarization (MCLAS) in a low-resource setting. Employing one unified decoder to generate the sequential concatenation of monolingual and cross-lingual summaries, MCLAS makes the monolingual summarization task a prerequisite of the CLS task. In this way, the shared decoder learns interactions involving alignments and summary patterns across languages, which encourages attaining knowledge transfer. Experiments on two CLS datasets demonstrate that our model significantly outperforms three baseline models in both low-resource and full-dataset scenarios. Moreover, in-depth analysis on the generated summaries and attention heads verifies that interactions are learned well using MCLAS, which benefits the CLS task under limited parallel resources.
翻訳日:2021-05-31 13:40:03 公開日:2021-05-28
# Natural Language Processing 4 All (NLP4All): NLP概念の教育と学習のための新しいオンラインプラットフォーム

Natural Language Processing 4 All (NLP4All): A New Online Platform for Teaching and Learning NLP Concepts ( http://arxiv.org/abs/2105.13704v1 )

ライセンス: Link先を確認
Rebekah Baglini and Arthur Hjorth(参考訳) 自然言語処理は、ほぼすべての分野とドメインにわたる言語データに対する新たな洞察を提供し、既存の知識をコラボレートし//または挑戦することができます。 これらの新しい研究ツールの参加と利用を拡大するための主なハードルは、第一に、k-16の学生、そして人口全体におけるコーディングスキルの欠如、第二に、nlp手法が言語学やコンピュータ科学以外の学際的関心の質問に答えるためにどのように使われるかに関する知識の欠如である。 NLPへの参加を拡大し、NLPリテラシーを向上させるため、Natural Language Processing 4 All (NLP4All)と呼ばれるウェブベースの新しいツールを導入した。 NLP4Allの目的は、NLPメソッド、データ、分析に使いやすいインターフェースを提供することで、教師がNLPの概念を対話的に学習できるようにすることである。

Natural Language Processing offers new insights into language data across almost all disciplines and domains, and allows us to corroborate and/or challenge existing knowledge. The primary hurdles to widening participation in and use of these new research tools are, first, a lack of coding skills in students across K-16, and in the population at large, and second, a lack of knowledge of how NLP-methods can be used to answer questions of disciplinary interest outside of linguistics and/or computer science. To broaden participation in NLP and improve NLP-literacy, we introduced a new tool web-based tool called Natural Language Processing 4 All (NLP4All). The intended purpose of NLP4All is to help teachers facilitate learning with and about NLP, by providing easy-to-use interfaces to NLP-methods, data, and analyses, making it possible for non- and novice-programmers to learn NLP concepts interactively.
翻訳日:2021-05-31 13:39:42 公開日:2021-05-28
# OTTers:オープンドメイン対話のためのワンターントピック遷移

OTTers: One-turn Topic Transitions for Open-Domain Dialogue ( http://arxiv.org/abs/2105.13710v1 )

ライセンス: Link先を確認
Karin Sevegnani, David M. Howcroft, Ioannis Konstas, Verena Rieser(参考訳) オープンドメイン対話における混合イニシアティブは、新しいトピックを積極的に導入するシステムを必要とする。 1ターンのトピック遷移タスクは、システムが協調的かつ一貫性のある方法で2つのトピックを接続する方法を探索する。 タスクの目標は、新しいトピックを以前の会話のターンのトピックに接続する"ブリッジング"発話を生成することである。 私たちは特に、新しいトピックが以前述べたこととどのように関連しているかについて、常識的な説明に興味を持っています。 まず、人間のワンターントピック遷移のデータセットを収集し、それをOTTersと呼ぶ。 次に、このようなタスクを完了させるために人間が使用するさまざまな戦略を調査し、この2つのトピックをつなぐ橋渡し発話の使用が最も多いアプローチであることに気付きます。 最終的に,既存のテキスト生成モデルがこのタスクにどのように適応できるかを示し,OTTersデータの異なる分割に基づいて,これらのベースラインの性能を検証した。

Mixed initiative in open-domain dialogue requires a system to pro-actively introduce new topics. The one-turn topic transition task explores how a system connects two topics in a cooperative and coherent manner. The goal of the task is to generate a "bridging" utterance connecting the new topic to the topic of the previous conversation turn. We are especially interested in commonsense explanations of how a new topic relates to what has been mentioned before. We first collect a new dataset of human one-turn topic transitions, which we call OTTers. We then explore different strategies used by humans when asked to complete such a task, and notice that the use of a bridging utterance to connect the two topics is the approach used the most. We finally show how existing state-of-the-art text generation models can be adapted to this task and examine the performance of these baselines on different splits of the OTTers data.
翻訳日:2021-05-31 13:39:23 公開日:2021-05-28
# アカデミックエキスパートの探索のための説明的クエリベースのフレームワーク

An Explanatory Query-Based Framework for Exploring Academic Expertise ( http://arxiv.org/abs/2105.13728v1 )

ライセンス: Link先を確認
Oana Cocarascu, Andrew McLean Paul French, Francesca Toni(参考訳) 研究機関の成功は「仕事のために」適切な研究者を特定することに大きく依存している:研究者は様々な分野から適切な協力者を特定する必要がある;学生は興味のあるプロジェクトに適した監督者を特定する必要がある;管理者は関連する研究者と資金の機会を一致させる必要がある、など。 通常、機関内の潜在的な協力者を見つけることは、偏見を伴う手動検索作業に時間がかかる。 本稿では,学術論文の抽象的な処理に基づいて,研究専門知識の検索,評価,探索を行う新しいクエリベースのフレームワークを提案する。 自然言語のユーザクエリを考慮し、ドメイン固有の知識ベースと単語の埋め込みを利用して、関連する専門知識を持つ研究者を見つける。 また、レコメンデーションに関する説明も生成する。 我々は,先進大学における論文の機関リポジトリを用いて,多ラベル分類タスクのためのベースライン,人工ニューラルネットワーク,トランスフォーマーベースモデルを用いて,論文の著者を特定する。 また,同機関の(別個の)研究資金レポジトリを用いて,フレームワークのクロスドメイン効果を評価する。 提案手法は, 望ましい特性を満足し, 効率的でありながら, マッチングの同定に有効であることを示す。

The success of research institutions heavily relies upon identifying the right researchers "for the job": researchers may need to identify appropriate collaborators, often from across disciplines; students may need to identify suitable supervisors for projects of their interest; administrators may need to match funding opportunities with relevant researchers, and so on. Usually, finding potential collaborators in institutions is a time-consuming manual search task prone to bias. In this paper, we propose a novel query-based framework for searching, scoring, and exploring research expertise automatically, based upon processing abstracts of academic publications. Given user queries in natural language, our framework finds researchers with relevant expertise, making use of domain-specific knowledge bases and word embeddings. It also generates explanations for its recommendations. We evaluate our framework with an institutional repository of papers from a leading university, using, as baselines, artificial neural networks and transformer-based models for a multilabel classification task to identify authors of publication abstracts. We also assess the cross-domain effectiveness of our framework with a (separate) research funding repository for the same institution. We show that our simple method is effective in identifying matches, while satisfying desirable properties and being efficient.
翻訳日:2021-05-31 13:39:08 公開日:2021-05-28
# how to split: the effect of word segmentation on gender bias in speech translation (特集 音声翻訳)

How to Split: the Effect of Word Segmentation on Gender Bias in Speech Translation ( http://arxiv.org/abs/2105.13782v1 )

ライセンス: Link先を確認
Marco Gaido, Beatrice Savoldi, Luisa Bentivogli, Matteo Negri, Marco Turchi(参考訳) 現在の翻訳技術に影響を及ぼす主要な問題として、男女の偏見を認識した研究者は、主にデータ分野に取り組んでそれを緩和しようと試みてきた。 しかし、不必要なアウトプットを悪化させるアルゴリズム的側面がまだ解明されていない。 本研究では,自動翻訳におけるジェンダーバイアスの分析を,一見中立的だが重要な要素である単語セグメンテーションに導入する。 セグメンテーションはジェンダーを翻訳する能力に影響を及ぼすか? あるセグメンテーションアプローチは女性言語マークの表現をペナルティ化するか? 音声翻訳システムのターゲット側で,既存の5つのセグメンテーション戦略を比較することで,これらの疑問に答える。 2つの言語対(英語・イタリア語・フランス語)の結果、最先端の単語分割 (bpe) は高い性別バイアスのコストで得られることがわかった。 そこで本研究では,bpe全体の翻訳品質を保ちつつ,性別を適切に翻訳するキャラクタベースセグメンテーションの高機能化を両立させる手法を提案する。

Having recognized gender bias as a major issue affecting current translation technologies, researchers have primarily attempted to mitigate it by working on the data front. However, whether algorithmic aspects concur to exacerbate unwanted outputs remains so far under-investigated. In this work, we bring the analysis on gender bias in automatic translation onto a seemingly neutral yet critical component: word segmentation. Can segmenting methods influence the ability to translate gender? Do certain segmentation approaches penalize the representation of feminine linguistic markings? We address these questions by comparing 5 existing segmentation strategies on the target side of speech translation systems. Our results on two language pairs (English-Italian/Fre nch) show that state-of-the-art sub-word splitting (BPE) comes at the cost of higher gender bias. In light of this finding, we propose a combined approach that preserves BPE overall translation quality, while leveraging the higher ability of character-based segmentation to properly translate gender.
翻訳日:2021-05-31 13:38:49 公開日:2021-05-28
# 量化子インスタンスの公正かつ冒険的な列挙

Fair and Adventurous Enumeration of Quantifier Instantiations ( http://arxiv.org/abs/2105.13700v1 )

ライセンス: Link先を確認
Mikol\'a\v{s} Janota and Haniel Barbosa and Pascal Fontaine and Andrew Reynolds(参考訳) SMTソルバは通常、変数を公式の基底部分から項のタプルでインスタンス化することで量化器に取り組む。 量子化子インスタンス化に対する最近の数え上げ的アプローチは、あるヒューリスティックな順序の項のタプルを考える。 本稿では,このようなタプルを注文するさまざまな戦略と,そのパフォーマンスへの影響について検討する。 私たちは注文問題を2つに分けます。 第一に、各量化変数について考慮すべき項列の順序、第二に、インスタンス化タプル自体の順序である。 最も好まれないタプル、すなわち 最も好まれる用語に割り当てられたすべての変数を持つものは明確であり、実装における柔軟性を許容する組み合わせである。 完全列挙の原則的な戦略を見てみると、いくつかの戦略はより公平であり、全ての変数を同じように扱うが、いくつかの戦略はより冒険的なものであるかもしれない。 さらに,これらの戦略の実行に不可欠な,無関係なインスタンスを破棄するための新しい手法について述べる。 これらの戦略は、SMTソルバcvc5で実装され、実験結果に示すように、ソルバの構成空間の多様化に寄与する。

SMT solvers generally tackle quantifiers by instantiating their variables with tuples of terms from the ground part of the formula. Recent enumerative approaches for quantifier instantiation consider tuples of terms in some heuristic order. This paper studies different strategies to order such tuples and their impact on performance. We decouple the ordering problem into two parts. First is the order of the sequence of terms to consider for each quantified variable, and second is the order of the instantiation tuples themselves. While the most and least preferred tuples, i.e. those with all variables assigned to the most or least preferred terms, are clear, the combinations in between allow flexibility in an implementation. We look at principled strategies of complete enumeration, where some strategies are more fair, meaning they treat all the variables the same but some strategies may be more adventurous, meaning that they may venture further down the preference list. We further describe new techniques for discarding irrelevant instantiations which are crucial for the performance of these strategies in practice. These strategies are implemented in the SMT solver cvc5, where they contribute to the diversification of the solver's configuration space, as shown by our experimental results.
翻訳日:2021-05-31 13:38:35 公開日:2021-05-28
# 形状制御自己学習による半教師付き解剖学的ランドマーク検出

Semi-supervised Anatomical Landmark Detection via Shape-regulated Self-training ( http://arxiv.org/abs/2105.13593v1 )

ライセンス: Link先を確認
Runnan Chen, Yuexin Ma, Lingjie Liu, Nenglun Chen, Zhiming Cui, Guodong Wei, Wenping Wang(参考訳) 十分な注釈付き医療画像はコストがかかり、時には取得が困難であり、ランドマーク検出精度をある程度妨げている。 半教師付き学習は、未ラベルデータを利用して解剖学的ランドマークの人口構造を理解することにより、大規模な注釈データへの依存を軽減する。 グローバル形状制約は解剖学的ランドマークの固有の特性であり、ラベルのないデータのより一貫性のある擬似ラベル付けのための貴重なガイダンスを提供する。 本稿では,全体形状制約を十分に考慮し,半教師付きランドマーク検出のためのモデル非依存型自己学習フレームワークを提案する。 特に、擬似ラベルの信頼性と一貫性を確保するため、pcaベースの形状モデルは擬似ラベルを調整し、異常ラベルを排除する。 ネットワークを疑似ラベルを取り巻く構造的一貫性のある領域に自動的に集中させる新しい領域注意損失。 広汎な実験により,本手法は他の半教師付き手法よりも優れ,3つの医用画像データセットにおいて顕著な改善が得られた。 さらに、このフレームワークは柔軟性があり、ほとんどの教師付きメソッドに統合されたプラグアンドプレイモジュールとして使用することができ、パフォーマンスをさらに向上します。

Well-annotated medical images are costly and sometimes even impossible to acquire, hindering landmark detection accuracy to some extent. Semi-supervised learning alleviates the reliance on large-scale annotated data by exploiting the unlabeled data to understand the population structure of anatomical landmarks. The global shape constraint is the inherent property of anatomical landmarks that provides valuable guidance for more consistent pseudo labelling of the unlabeled data, which is ignored in the previously semi-supervised methods. In this paper, we propose a model-agnostic shape-regulated self-training framework for semi-supervised landmark detection by fully considering the global shape constraint. Specifically, to ensure pseudo labels are reliable and consistent, a PCA-based shape model adjusts pseudo labels and eliminate abnormal ones. A novel Region Attention loss to make the network automatically focus on the structure consistent regions around pseudo labels. Extensive experiments show that our approach outperforms other semi-supervised methods and achieves notable improvement on three medical image datasets. Moreover, our framework is flexible and can be used as a plug-and-play module integrated into most supervised methods to improve performance further.
翻訳日:2021-05-31 13:38:07 公開日:2021-05-28
# FReTAL:知識蒸留と表現学習を用いたディープフェイク検出の一般化

FReTAL: Generalizing Deepfake Detection using Knowledge Distillation and Representation Learning ( http://arxiv.org/abs/2105.13617v1 )

ライセンス: Link先を確認
Minha Kim and Shahroz Tariq and Simon S. Woo(参考訳) GANベースのビデオと画像の操作技術がより洗練され、容易にアクセスできるようになると、効果的なディープフェイク検出技術が緊急に必要となる。 また、近年では様々なディープフェイク生成技術が出現している。 多くのディープフェイク検出法が提案されているが、その性能は十分に訓練されていない新しいタイプのディープフェイク検出法に悩まされている。 新しいタイプのディープフェイクを検出するには、特に新しいディープフェイクが著しく異なる場合、その以前のディープフェイクに関する知識を失うことなく、追加のデータから学習する必要がある。 本研究では,表現学習(ReL)と知識蒸留(KD)のパラダイムを用いて,伝達学習に基づく特徴表現変換適応学習(FreTAL)手法を提案する。 私たちはfretalを使って新しいdeepfakeデータセットでドメイン適応タスクを実行し、壊滅的な忘れることを最小化します。 学生モデルは、事前学習した教師モデルから知識を抽出し、ドメイン適応時にソースドメインデータを用いることなく転写学習を適用することで、新しいタイプのディープフェイクに迅速に適応することができる。 FaceForensics++データセットの実験を通じて、FRETALはドメイン適応タスクのベースラインを86.97%の精度で低品質のディープフェイクで上回っていることを実証した。

As GAN-based video and image manipulation technologies become more sophisticated and easily accessible, there is an urgent need for effective deepfake detection technologies. Moreover, various deepfake generation techniques have emerged over the past few years. While many deepfake detection methods have been proposed, their performance suffers from new types of deepfake methods on which they are not sufficiently trained. To detect new types of deepfakes, the model should learn from additional data without losing its prior knowledge about deepfakes (catastrophic forgetting), especially when new deepfakes are significantly different. In this work, we employ the Representation Learning (ReL) and Knowledge Distillation (KD) paradigms to introduce a transfer learning-based Feature Representation Transfer Adaptation Learning (FReTAL) method. We use FReTAL to perform domain adaptation tasks on new deepfake datasets while minimizing catastrophic forgetting. Our student model can quickly adapt to new types of deepfake by distilling knowledge from a pre-trained teacher model and applying transfer learning without using source domain data during domain adaptation. Through experiments on FaceForensics++ datasets, we demonstrate that FReTAL outperforms all baselines on the domain adaptation task with up to 86.97% accuracy on low-quality deepfakes.
翻訳日:2021-05-31 13:37:47 公開日:2021-05-28
# 顔行動符号化システムを用いた映像の認識検出

Deception Detection in Videos using the Facial Action Coding System ( http://arxiv.org/abs/2105.13659v1 )

ライセンス: Link先を確認
Hammad Ud Din Ahmed, Usama Ijaz Bajwa, Fan Zhang, Muhammad Waqas Anwar(参考訳) ファクトはあらゆる状況において意思決定において重要であるため、事実として受け入れられる前に偽情報を捕まえることが重要である。 ビデオにおける偽造検出は、様々な実写アプリケーションで近年注目を集めている。 本研究では,深層学習モデルの学習パラメータとして使用する顔行動符号化システムを用いて,顔行動単位を抽出する。 特にlong short-term memory (lstm) を実生活の試用データセットを用いて訓練し,騙し検出のための最善のアプローチの1つを提供した。 また、実生活の試行データセット、シレジアン・ディセプション・データセット、および他の誰によっても偽装検出システムのために試みられていないBag-of-lies Deception Datasetを用いて、クロスデータセット検証を検証した。 私たちは、同じディープラーニングトレーニングモデルを使用して、各データセットを個別に比較し、比較しました。 その結果、トレーニングに異なるデータセットを追加すると、モデルの精度が悪化することが示された。 主な理由の1つは、これらのデータセットの性質が互いに大きく異なることである。

Facts are important in decision making in every situation, which is why it is important to catch deceptive information before they are accepted as facts. Deception detection in videos has gained traction in recent times for its various real-life application. In our approach, we extract facial action units using the facial action coding system which we use as parameters for training a deep learning model. We specifically use long short-term memory (LSTM) which we trained using the real-life trial dataset and it provided one of the best facial only approaches to deception detection. We also tested cross-dataset validation using the Real-life trial dataset, the Silesian Deception Dataset, and the Bag-of-lies Deception Dataset which has not yet been attempted by anyone else for a deception detection system. We tested and compared all datasets amongst each other individually and collectively using the same deep learning training model. The results show that adding different datasets for training worsen the accuracy of the model. One of the primary reasons is that the nature of these datasets vastly differs from one another.
翻訳日:2021-05-31 13:37:29 公開日:2021-05-28
# ローカルにフォーカス:キーポイントによるボトムアップからのレーンマーカーの検出

Focus on Local: Detecting Lane Marker from Bottom Up via Key Point ( http://arxiv.org/abs/2105.13680v1 )

ライセンス: Link先を確認
Zhan Qu, Huan Jin, Yang Zhou, Zhen Yang, Wei Zhang(参考訳) メインストリームレーンマーカー検出法は, 全体構造を予測し, 後処理によりパラメトリック曲線を導出することにより実現される。 複雑な車線形状は、大域構造をモデル化するためにCNNの高次元出力を必要とし、モデルキャパシティとトレーニングデータの需要をさらに高める。 対照的に、レーンマーカーの局所性は有限の幾何学的変動と空間的カバレッジを持つ。 本研究では,局所パターンのモデル化とボトムアップによるグローバル構造の予測に焦点をあてた新しいレーンマーカー検出ソリューションであるフォロレーンを提案する。 具体的には、CNNは2つの異なる頭部を持つ低複雑局所パターンをモデル化し、第1は鍵点の存在を予測し、第2は局所範囲における鍵点の位置を洗練し、同じレーン線の鍵点を相関させる。 タスクの局所性は、CNNの機能の限られたFOVと一致しており、それによってより安定したトレーニングとより良い一般化につながる。 さらに、効率性を重視したデコードアルゴリズムが提案され、性能低下を犠牲にして36%のランタイム向上を達成した。 2つのデコーダは、ローカル情報をレーンマーカーのグローバルな形状に統合した。 複雑なネットワークアーキテクチャ設計が欠如しているため,提案手法は公開データセット上の既存の手法をはるかに上回り,最高の最先端結果とリアルタイム処理を実現している。

Mainstream lane marker detection methods are implemented by predicting the overall structure and deriving parametric curves through post-processing. Complex lane line shapes require high-dimensional output of CNNs to model global structures, which further increases the demand for model capacity and training data. In contrast, the locality of a lane marker has finite geometric variations and spatial coverage. We propose a novel lane marker detection solution, FOLOLane, that focuses on modeling local patterns and achieving prediction of global structures in a bottom-up manner. Specifically, the CNN models lowcomplexity local patterns with two separate heads, the first one predicts the existence of key points, and the second refines the location of key points in the local range and correlates key points of the same lane line. The locality of the task is consistent with the limited FOV of the feature in CNN, which in turn leads to more stable training and better generalization. In addition, an efficiency-oriented decoding algorithm was proposed as well as a greedy one, which achieving 36% runtime gains at the cost of negligible performance degradation. Both of the two decoders integrated local information into the global geometry of lane markers. In the absence of a complex network architecture design, the proposed method greatly outperforms all existing methods on public datasets while achieving the best state-of-the-art results and real-time processing simultaneously.
翻訳日:2021-05-31 13:37:12 公開日:2021-05-28
# 自動運転における安全指向意味セグメンテーションの学習不確実性

Learning Uncertainty For Safety-Oriented Semantic Segmentation In Autonomous Driving ( http://arxiv.org/abs/2105.13688v1 )

ライセンス: Link先を確認
Victor Besnier, David Picard, Alexandre Briot(参考訳) 本稿では,目標精度が保証できない場合にフォールバック動作を発生させることにより,自律運転における安全性クリティカルな画像分割を実現するために不確実性推定をどのように活用するかを示す。 類似度関数による不一致予測に基づく新しい不確実性尺度を提案する。 本稿では,タスク固有のネットワークと並行して,ディープラーニングアーキテクチャをトレーニングすることで,この相似性を推定する。 これにより、このオブザーバは不確実性推定に専念でき、タスク固有のネットワークが予測できる。 我々は,観察者の学習に自己監督を用いることを提案し,この方法が追加のトレーニングデータを必要としないことを示唆している。 提案手法は, 競合する手法(例えば, 提案手法)よりも推論時間において計算集約性が低いことを示す。 MCDropout)は、特にグラアアーティファクトの場合、CamVidデータセット上の安全指向評価メトリクスに関するより良い結果を提供する一方で、より良い結果を提供する。

In this paper, we show how uncertainty estimation can be leveraged to enable safety critical image segmentation in autonomous driving, by triggering a fallback behavior if a target accuracy cannot be guaranteed. We introduce a new uncertainty measure based on disagreeing predictions as measured by a dissimilarity function. We propose to estimate this dissimilarity by training a deep neural architecture in parallel to the task-specific network. It allows this observer to be dedicated to the uncertainty estimation, and let the task-specific network make predictions. We propose to use self-supervision to train the observer, which implies that our method does not require additional training data. We show experimentally that our proposed approach is much less computationally intensive at inference time than competing methods (e.g. MCDropout), while delivering better results on safety-oriented evaluation metrics on the CamVid dataset, especially in the case of glare artifacts.
翻訳日:2021-05-31 13:36:49 公開日:2021-05-28
# AutoSampling: 効果的なデータサンプリングスケジュールの検索

AutoSampling: Search for Effective Data Sampling Schedules ( http://arxiv.org/abs/2105.13695v1 )

ライセンス: Link先を確認
Ming Sun, Haoxuan Dou, Baopu Li, Lei Cui, Junjie Yan, Wanli Ouyang(参考訳) データサンプリングは、ディープラーニングモデルのトレーニングにおいて重要な役割を果たす。 しかし,サンプリングスケジュールの学習において,パラメータが本質的に高いため,効果的なサンプリングスケジュールの学習は困難である。 本稿では,最適局所サンプリングスケジュールを目的とした複数探索ステップと理想サンプリング分布の探索ステップからなるモデルトレーニングのためのサンプリングスケジュールを自動的に学習する自動サンプリング手法を提案する。 より具体的には、十分な監視を提供するために、実施サイクルを短縮したサンプリングスケジュール探索を実現する。 さらに,学習したサンプリングスケジュールから定期的にサンプリング分布を推定し,その分布空間を探索する。 2つの検索の組み合わせによって、堅牢なサンプリングスケジュールを学習できます。 本稿では,提案手法の有効性を示す様々な画像分類タスクに対して,自動サンプリング手法を適用する。

Data sampling acts as a pivotal role in training deep learning models. However, an effective sampling schedule is difficult to learn due to the inherently high dimension of parameters in learning the sampling schedule. In this paper, we propose an AutoSampling method to automatically learn sampling schedules for model training, which consists of the multi-exploitation step aiming for optimal local sampling schedules and the exploration step for the ideal sampling distribution. More specifically, we achieve sampling schedule search with shortened exploitation cycle to provide enough supervision. In addition, we periodically estimate the sampling distribution from the learned sampling schedules and perturb it to search in the distribution space. The combination of two searches allows us to learn a robust sampling schedule. We apply our AutoSampling method to a variety of image classification tasks illustrating the effectiveness of the proposed method.
翻訳日:2021-05-31 13:36:33 公開日:2021-05-28
# 知的学習システム:畳み込みニューラルネットワークを用いた講義中の生徒のエンゲージメントの検出

The Wits Intelligent Teaching System: Detecting Student Engagement During Lectures Using Convolutional Neural Networks ( http://arxiv.org/abs/2105.13794v1 )

ライセンス: Link先を確認
Richard Klein and Turgay Celik(参考訳) 授業中,生徒のニーズに反応し,即興指導を行うためには,講師が聴衆の状態を迅速に評価できる必要がある。 効果的な教師は生徒の感情状態を簡単に測定できるが、クラスのサイズが大きくなるにつれて、これはますます難しくなり、正確性が低下する。 Wits Intelligent Teaching System (WITS) は、学生の感情に関するリアルタイムフィードバックによる講師の支援を目的としている。 主に、関与や欠如を認識することに焦点を当てている。 生徒のエンゲージメントは、教室の設定に共通する行動と姿勢に基づいてラベル付けされる。 これらのプロキシは観測チェックリストで使用され、AlexNetに基づくCNNのトレーニングが成功し、Support Vector Machineアプローチを大幅に上回る、エンゲージメントのデータセットを構築する。 ディープラーニングアプローチは、大きなオクルージョン、照明、解像度の制約のある、挑戦的で現実的なデータセットに満足できる結果を提供する。

To perform contingent teaching and be responsive to students' needs during class, lecturers must be able to quickly assess the state of their audience. While effective teachers are able to gauge easily the affective state of the students, as class sizes grow this becomes increasingly difficult and less precise. The Wits Intelligent Teaching System (WITS) aims to assist lecturers with real-time feedback regarding student affect. The focus is primarily on recognising engagement or lack thereof. Student engagement is labelled based on behaviour and postures that are common to classroom settings. These proxies are then used in an observational checklist to construct a dataset of engagement upon which a CNN based on AlexNet is successfully trained and which significantly outperforms a Support Vector Machine approach. The deep learning approach provides satisfactory results on a challenging, real-world dataset with significant occlusion, lighting and resolution constraints.
翻訳日:2021-05-31 13:36:22 公開日:2021-05-28
# グループとグラフ学習による顔属性認識の改善

Improving Facial Attribute Recognition by Group and Graph Learning ( http://arxiv.org/abs/2105.13825v1 )

ライセンス: Link先を確認
Zhenghao Chen and Shuhang Gu and Feng Zhu and Jing Xu and Rui Zhao(参考訳) 属性間の関係性を活用することは、複数の顔属性認識を改善する上で重要な課題である。 本研究では,空間的関係と非空間的関係の2種類の相関関係について考察する。 空間的相関について,部分群に類似した属性を集約し,グループ注意学習を導入し,グループ注意と部分的グループ特徴を生成する。 一方,非空間的関係を見出すために,事前定義された部分的関係の親和性を調べるために,グループベースグラフ相関学習をモデル化する。 このような親和性情報を用いて,すべてのグループ間のコミュニケーションを制御し,学習したグループの特徴を洗練する。 全体として,マルチスケールグループとグラフネットワークという統合ネットワークを提案する。 新たに提案された2つの学習戦略を取り入れ、顔属性認識を改善するために粗いグラフベースのグループ機能を生成する。 総合的な実験により、我々の手法は最先端の手法よりも優れていることが示された。

Exploiting the relationships between attributes is a key challenge for improving multiple facial attribute recognition. In this work, we are concerned with two types of correlations that are spatial and non-spatial relationships. For the spatial correlation, we aggregate attributes with spatial similarity into a part-based group and then introduce a Group Attention Learning to generate the group attention and the part-based group feature. On the other hand, to discover the non-spatial relationship, we model a group-based Graph Correlation Learning to explore affinities of predefined part-based groups. We utilize such affinity information to control the communication between all groups and then refine the learned group features. Overall, we propose a unified network called Multi-scale Group and Graph Network. It incorporates these two newly proposed learning strategies and produces coarse-to-fine graph-based group features for improving facial attribute recognition. Comprehensive experiments demonstrate that our approach outperforms the state-of-the-art methods.
翻訳日:2021-05-31 13:36:07 公開日:2021-05-28
# 高精度な残響物体検出のための再帰的輪郭残響ブラインドネットワーク

Recursive Contour Saliency Blending Network for Accurate Salient Object Detection ( http://arxiv.org/abs/2105.13865v1 )

ライセンス: Link先を確認
Yi Ke Yun, Chun Wei Tan, Takahiro Tsubono(参考訳) 輪郭情報は、健全な物体検出において重要な役割を果たす。 しかし、過剰な偽陽性は既存の輪郭モデルからの予測に残っており、輪郭-サリーエンシー融合が不十分である。 本研究では,高度物体検出におけるエッジ品質を改善するネットワークを考案した。 輪郭と塩分情報を交換する輪郭・塩分混合モジュールを提案する。 トータルトレーサブルパラメータを同一に保ちながら,輪郭・サリエンシー融合を促進するために再帰型cnnを採用した。 さらに,従来の中間塩分予測から最も有用な特徴を抽出できるように,段階的な特徴抽出モジュールを設計した。 さらに,本モデルがより良好な境界予測を生成するために,二重閉じ込め損失と信頼損失という2つの新しい損失関数を提案した。 5つの共通ベンチマークデータセットの評価結果から,本モデルが最先端の競争性能を達成できることが判明した。 最後に、我々のモデルは軽量で高速で、パラメータはわずか279万、リアルタイムの推論は31FPSである。

Contour information plays a vital role in salient object detection. However, excessive false positives remain in predictions from existing contour-based models due to insufficient contour-saliency fusion. In this work, we designed a network for better edge quality in salient object detection. We proposed a contour-saliency blending module to exchange information between contour and saliency. We adopted recursive CNN to increase contour-saliency fusion while keeping the total trainable parameters the same. Furthermore, we designed a stage-wise feature extraction module to help the model pick up the most helpful features from previous intermediate saliency predictions. Besides, we proposed two new loss functions, namely Dual Confinement Loss and Confidence Loss, for our model to generate better boundary predictions. Evaluation results on five common benchmark datasets reveal that our model achieves competitive state-of-the-art performance. Last but not least, our model is lightweight and fast, with only 27.9 million parameters and real-time inferencing at 31 FPS.
翻訳日:2021-05-31 13:35:52 公開日:2021-05-28
# EDEN:Saimaa Ringed SealsパターンマッチングのためのDeep Feature Distribution Pooling

EDEN: Deep Feature Distribution Pooling for Saimaa Ringed Seals Pattern Matching ( http://arxiv.org/abs/2105.13979v1 )

ライセンス: Link先を確認
Ilja Chelak, Ekaterina Nepovinnykh, Tuomas Eerola, Heikki Kalviainen, Igor Belykh(参考訳) 本稿では,サイマアリングアザラシの個別再同定を,ペラージュパターンマッチングによって解決すると考えられる。 カメラトラップやクラウドソーシングによる大量の画像へのアクセスと動物の再識別は、動物の監視と保護に新たな可能性をもたらす。 本稿では,局所的なパターン特徴を集約して,特徴の空間分布を考慮したグローバル特徴を組み込んだ固定サイズの埋め込みベクトルを得る新しい特徴プーリング手法を提案する。 これは特徴写像を表す確率質量関数に対して計算された共分散の固有分解によって得られる。 埋め込みベクターは、動物の再同定を可能にする既知の個人データベースに最適なマッチングを見つけるために使われる。 提案手法は, サイマーリング型シール画像データにおいて, 既存の手法よりも優れていることを示す。

In this paper, pelage pattern matching is considered to solve the individual re-identification of the Saimaa ringed seals. Animal re-identification together with the access to large amount of image material through camera traps and crowd-sourcing provide novel possibilities for animal monitoring and conservation. We propose a novel feature pooling approach that allow aggregating the local pattern features to get a fixed size embedding vector that incorporate global features by taking into account the spatial distribution of features. This is obtained by eigen decomposition of covariances computed for probability mass functions representing feature maps. Embedding vectors can then be used to find the best match in the database of known individuals allowing animal re-identification. The results show that the proposed pooling method outperforms the existing methods on the challenging Saimaa ringed seal image data.
翻訳日:2021-05-31 13:35:35 公開日:2021-05-28
# 視覚シーングラフ生成のための弱い監督としての言語構造

Linguistic Structures as Weak Supervision for Visual Scene Graph Generation ( http://arxiv.org/abs/2105.13994v1 )

ライセンス: Link先を確認
Keren Ye and Adriana Kovashka(参考訳) シーングラフ生成における以前の作業は、三つ子(主題とオブジェクト)のレベルにおける分類的監督と、それらに関連する述語(ボックス情報のバウンディングの有無にかかわらず)を必要とする。 しかし、シーングラフ生成は全体論的タスクであり、したがって全体的、文脈的監督は直感的にパフォーマンスを改善するべきである。 本研究では,キャプションの言語構造がシーングラフ生成にどのように役立つかを検討する。 本手法は,個々のトリプレット間の関係や,対象や対象の文脈に関するキャプションで提供される情報をキャプチャする。 視覚特性は言及される)。 キャプションは、人間の注釈対象とトリプレットの中の対象の完全なリストとキャプションの名詞との整合が弱いため、トリプレットよりも弱いタイプの監督である。 しかし、web上の大規模で多様なマルチモーダルデータソース(例えば、)を考えると、 画像とキャプション付きブログ投稿) 言語指導はクラウドソース三つ子よりもスケーラブルです 事例レベルと画像レベルの監視を併用した先行手法との比較実験を行い, 文節的・逐次的文脈の活用による影響を示す手法と, 対象と対象のローカライゼーションを改善する手法について検討した。

Prior work in scene graph generation requires categorical supervision at the level of triplets - subjects and objects, and predicates that relate them, either with or without bounding box information. However, scene graph generation is a holistic task: thus holistic, contextual supervision should intuitively improve performance. In this work, we explore how linguistic structures in captions can benefit scene graph generation. Our method captures the information provided in captions about relations between individual triplets, and context for subjects and objects (e.g. visual properties are mentioned). Captions are a weaker type of supervision than triplets since the alignment between the exhaustive list of human-annotated subjects and objects in triplets, and the nouns in captions, is weak. However, given the large and diverse sources of multimodal data on the web (e.g. blog posts with images and captions), linguistic supervision is more scalable than crowdsourced triplets. We show extensive experimental comparisons against prior methods which leverage instance- and image-level supervision, and ablate our method to show the impact of leveraging phrasal and sequential context, and techniques to improve localization of subjects and objects.
翻訳日:2021-05-31 13:35:22 公開日:2021-05-28
# 専用深層学習ネットワークのカスケードを用いた虹彩ライブネス検出

Iris Liveness Detection using a Cascade of Dedicated Deep Learning Networks ( http://arxiv.org/abs/2105.14009v1 )

ライセンス: Link先を確認
Juan Tapia, Sebastian Gonzalez, Christoph Busch(参考訳) アイリスパターン認識は、その安定性と特異性により生体認証分野を著しく改善した。 このような物理的特徴は、セキュリティやその他の関連分野において重要な役割を担っている。 しかし、プレゼンテーション攻撃(spoofing techniqueとしても知られる)は、印刷画像、人工眼、テクスチャ付きコンタクトレンズなどの人工物を使って生体認証システムをバイパスすることができる。 これらのシステムのセキュリティを改善する多くのライブネス検出手法が提案されている。 第1回国際irisライブネス検出コンペティションは、ライブネス検出手法の有効性を評価し、2013年に開始され、最新のイテレーションは2020年に開催された。 本稿では, ボナファイドアイリス画像とプレゼンテーション攻撃画像とを分類するために, ゼロから訓練したMobileNetV2修正に基づくシリアルアーキテクチャを提案する。 ボナファイドクラスはライブのアイリスイメージで構成され、攻撃プレゼンテーション機器クラスは、合計4つのシナリオで、ケーダバー、プリント、コンタクトレンズイメージで構成されている。 すべての画像は前処理され、クラスごとに重み付けされ、公正な評価が得られた。 この提案は2クラスシナリオを使用したLivDet-Iris 2020コンペティションで優勝した。 さらに,新たな3クラスと4クラスのシナリオを提示し,競争結果をさらに改善する。 このアプローチは主に、プレゼンテーション攻撃機器の検出を改善する上で、ボナファイドクラスの検出に重点を置いている。 2, 3, 4種類の場合, それぞれ4.04\%, 0.33\%, 4,53\%の等しい誤差率(eer)が得られた。 3つのシナリオを用いて提案された最高のシリアルモデルは、攻撃提示分類エラーレート(APCER)0.0100、ボナFide分類エラーレート(BPCER)0.0000のERRに到達した。 この作品は、LivDet-Iris 2020の競争成績を上回っている。

Iris pattern recognition has significantly improved the biometric authentication field due to its high stability and uniqueness. Such physical characteristics have played an essential role in security and other related areas. However, presentation attacks, also known as spoofing techniques, can bypass biometric authentication systems using artefacts such as printed images, artificial eyes, textured contact lenses, etc. Many liveness detection methods that improve the security of these systems have been proposed. The first International Iris Liveness Detection competition, where the effectiveness of liveness detection methods is evaluated, was first launched in 2013, and its latest iteration was held in 2020. This paper proposes a serial architecture based on a MobileNetV2 modification, trained from scratch to classify bona fide iris images versus presentation attack images. The bona fide class consists of live iris images, whereas the attack presentation instrument classes are comprised of cadaver, printed, and contact lenses images, for a total of four scenarios. All the images were pre-processed and weighted per class to present a fair evaluation. This proposal won the LivDet-Iris 2020 competition using two-class scenarios. Additionally, we present new three-class and four-class scenarios that further improve the competition results. This approach is primarily focused in detecting the bona fide class over improving the detection of presentation attack instruments. For the two, three, and four classes scenarios, an Equal Error Rate (EER) of 4.04\%, 0.33\%, and 4,53\% was obtained respectively. Overall, the best serial model proposed, using three scenarios, reached an ERR of 0.33\% with an Attack Presentation Classification Error Rate (APCER) of 0.0100 and a Bona Fide Classification Error Rate (BPCER) of 0.000. This work outperforms the LivDet-Iris 2020 competition results.
翻訳日:2021-05-31 13:35:00 公開日:2021-05-28
# コンテンツ適応型マルチレゾリューションマージによる単眼深度推定モデルの高分解能化

Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution Merging ( http://arxiv.org/abs/2105.14021v1 )

ライセンス: Link先を確認
S. Mahdi H. Miangoleh, Sebastian Dille, Long Mai, Sylvain Paris, Ya\u{g}{\i}z Aksoy(参考訳) ニューラルネットワークは、単一の画像から深度を推定する優れた能力を示している。 しかし、推定深度マップは1メガピクセルの解像度をはるかに下回っており、しばしば細かな詳細を欠いているため、実用性は制限される。 提案手法は,入力解像度とシーン構造が深度推定性能に与える影響について分析した。 我々は、一貫したシーン構造と高周波の詳細との間にトレードオフがあることを実証し、単純な深度マージネットワークを用いて、この双対性を利用するために、低分解能と高分解能の見積をマージすることを示した。 画像全体の深さ推定を改善する二重推定法と、最終結果に局所的な詳細を追加するパッチ選択法を提案する。 我々は,異なる解像度での推定とコンテキストの変化を組み合わせることで,事前学習モデルを用いて高精細度のマルチメガピクセル深度マップを作成できることを実証した。

Neural networks have shown great abilities in estimating depth from a single image. However, the inferred depth maps are well below one-megapixel resolution and often lack fine-grained details, which limits their practicality. Our method builds on our analysis on how the input resolution and the scene structure affects depth estimation performance. We demonstrate that there is a trade-off between a consistent scene structure and the high-frequency details, and merge low- and high-resolution estimations to take advantage of this duality using a simple depth merging network. We present a double estimation method that improves the whole-image depth estimation and a patch selection method that adds local details to the final result. We demonstrate that by merging estimations at different resolutions with changing context, we can generate multi-megapixel depth maps with a high level of detail using a pre-trained model.
翻訳日:2021-05-31 13:34:29 公開日:2021-05-28
# Imaginary Tasks from Latent Dynamics Mixture を用いたメタRLの一般化

Improving Generalization in Meta-RL with Imaginary Tasks from Latent Dynamics Mixture ( http://arxiv.org/abs/2105.13524v1 )

ライセンス: Link先を確認
Suyoung Lee and Sae-Young Chung(参考訳) ほとんどのメタ強化学習(meta-RL)法の一般化能力は、トレーニングタスクのサンプリングに使用される同じ分布からサンプリングされるテストタスクに大きく制限されている。 この制限を克服するために,学習された潜伏ダイナミクスの混合から生じる想像的なタスクで強化学習エージェントを訓練する潜在ダイナミクス混合(LDM)を提案する。 ldmは、元のトレーニングタスクと混合タスクのポリシーを訓練することで、トレーニング中に見過ごされないテストタスクの準備をエージェントに許可し、エージェントがトレーニングタスクを過度に満たさないようにする。 LDM はグリッドワールドナビゲーションや MuJoCo タスクにおいて,トレーニングタスク分布とテストタスク分布を厳密に分離するテストリターンにおいて,標準的なメタRL メソッドよりも大幅に優れています。

The generalization ability of most meta-reinforcement learning (meta-RL) methods is largely limited to test tasks that are sampled from the same distribution used to sample training tasks. To overcome the limitation, we propose Latent Dynamics Mixture (LDM) that trains a reinforcement learning agent with imaginary tasks generated from mixtures of learned latent dynamics. By training a policy on mixture tasks along with original training tasks, LDM allows the agent to prepare for unseen test tasks during training and prevents the agent from overfitting the training tasks. LDM significantly outperforms standard meta-RL methods in test returns on the gridworld navigation and MuJoCo tasks where we strictly separate the training task distribution and the test task distribution.
翻訳日:2021-05-31 13:33:32 公開日:2021-05-28
# メタラーニングによる短期株価変動予測

Short-Term Stock Price-Trend Prediction Using Meta-Learning ( http://arxiv.org/abs/2105.13599v1 )

ライセンス: Link先を確認
Shin-Hung Chang, Cheng-Wen Hsu, Hsing-Ying Li, Wei-Sheng Zeng, Jan-Ming Ho(参考訳) 近年、株価予測に従来型の機械学習アルゴリズムが広く採用されているが、必要なラベル付きデータの膨大な量は必ずしも利用可能ではない。 対照的に、メタラーニング技術は高速学習者と呼ばれる比較的少量のトレーニングデータを使用する。 このような方法は限られたデータ可用性の条件下で有効であり、スパース情報によって制限された時系列データに基づいて傾向予測を行うことが多い。 本研究では,時間的畳み込みネットワーク,完全畳み込みネットワーク,残留ニューラルネットワークなど,複数の畳み込みニューラルネットワークを用いたメタラーニングフレームワークを用いた短期株価予測について検討する。 そこで我々は,「ライズプラス」「ライズ」「フォール」「フォールプラス」などの予測ラベルを用いて,動的k平均ラベルと呼ばれる,株価の予測値トレンドに従って,株価の表示に時間軸をずれさせる手法を提案する。 提案するメタラーニングフレームワークの有効性をs&p500に適用して評価した。 実験の結果,提案するメタラーニングフレームワークの導入により,正規予測と均衡予測の精度と収益性が大幅に向上した。

Although conventional machine learning algorithms have been widely adopted for stock-price predictions in recent years, the massive volume of specific labeled data required are not always available. In contrast, meta-learning technology uses relatively small amounts of training data, called fast learners. Such methods are beneficial under conditions of limited data availability, which often obtain for trend prediction based on time-series data limited by sparse information. In this study, we consider short-term stock price prediction using a meta-learning framework with several convolutional neural networks, including the temporal convolution network, fully convolutional network, and residual neural network. We propose a sliding time horizon to label stocks according to their predicted price trends, referred to as called dynamic k-average labeling, using prediction labels including "rise plus", "rise", "fall", and "fall plus". The effectiveness of the proposed meta-learning framework was evaluated by application to the S&P500. The experimental results show that the inclusion of the proposed meta-learning framework significantly improved both regular and balanced prediction accuracy and profitability.
翻訳日:2021-05-31 13:33:17 公開日:2021-05-28
# CRT-Net:心電図信号のコンピュータ支援診断のための汎用的でスケーラブルなフレームワーク

CRT-Net: A Generalized and Scalable Framework for the Computer-Aided Diagnosis of Electrocardiogram Signals ( http://arxiv.org/abs/2105.13619v1 )

ライセンス: Link先を確認
Jingyi Liu, Zhongyu Li, Xiayue Fan, Jintao Yan, Bolin Li, Xuemeng Hu, Qing Xia, and Yue Wu(参考訳) 心電図(ecg)信号は、多くの種類の心血管疾患のスクリーニングと診断において重要な役割を果たす。 多くの臨床的タスクにおいてコンピュータ支援診断(CAD)を大いに促進してきた深層ニューラルネットワークにもかかわらず、クリニックにおける心電図の多様性と複雑さは、診断性能と臨床応用の両方において大きな課題となっている。 本稿では,ecgの臨床認識のためのロバストでスケーラブルなフレームワークを開発した。 病院は一般的に2次元画像のグラフィック波の形でECG信号を記録しているので,まず,2方向接続方式により12枚の画像のグラフィック波を数値1次元ECG信号に抽出する。 その後,1次元心電図信号の微細かつ包括的表現と認識のために,新しい深層ニューラルネットワークcrt-netが設計された。 CRT-Netは、コンボリューションニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、トランスフォーマーモジュールをスケーラブルなディープモデルに組み込むことで、ECGの波形特性、形態的特徴、時間領域の特徴をよく調べることができる。 提案手法は2つのパブリックリポジトリ上で評価され,ECG認識の性能と最先端技術との比較を行った。 また, 慢性腎臓病(ckd)258例, 2型糖尿病(t2dm)351例, 対照群約300例を含む, 当院で収集した心電図画像に対する双方向接続とcrt-netの有用性を検証した。 実験では,これらの2種類の疾患の認識において優れた性能を得ることができた。

Electrocardiogram (ECG) signals play critical roles in the clinical screening and diagnosis of many types of cardiovascular diseases. Despite deep neural networks that have been greatly facilitated computer-aided diagnosis (CAD) in many clinical tasks, the variability and complexity of ECG in the clinic still pose significant challenges in both diagnostic performance and clinical applications. In this paper, we develop a robust and scalable framework for the clinical recognition of ECG. Considering the fact that hospitals generally record ECG signals in the form of graphic waves of 2-D images, we first extract the graphic waves of 12-lead images into numerical 1-D ECG signals by a proposed bi-directional connectivity method. Subsequently, a novel deep neural network, namely CRT-Net, is designed for the fine-grained and comprehensive representation and recognition of 1-D ECG signals. The CRT-Net can well explore waveform features, morphological characteristics and time domain features of ECG by embedding convolution neural network(CNN), recurrent neural network(RNN), and transformer module in a scalable deep model, which is especially suitable in clinical scenarios with different lengths of ECG signals captured from different devices. The proposed framework is first evaluated on two widely investigated public repositories, demonstrating the superior performance of ECG recognition in comparison with state-of-the-art. Moreover, we validate the effectiveness of our proposed bi-directional connectivity and CRT-Net on clinical ECG images collected from the local hospital, including 258 patients with chronic kidney disease (CKD), 351 patients with Type-2 Diabetes (T2DM), and around 300 patients in the control group. In the experiments, our methods can achieve excellent performance in the recognition of these two types of disease.
翻訳日:2021-05-31 13:32:59 公開日:2021-05-28
# 効率的な混合整数プログラミングのためのカット選択学習

Learning to Select Cuts for Efficient Mixed-Integer Programming ( http://arxiv.org/abs/2105.13645v1 )

ライセンス: Link先を確認
Zeren Huang, Kerong Wang, Furui Liu, Hui-ling Zhen, Weinan Zhang, Mingxuan Yuan, Jianye Hao, Yong Yu, Jun Wang(参考訳) 混合整数プログラミング (MIP) 問題に対処する上で, 平面法は現代の解法において重要な役割を果たす。 カットの適切な選択は、初期の段階では実現不可能な解を除去し、解の精度を損なうことなく計算負担を大幅に削減する。 しかし、主要なカット選択アプローチは、特定の問題に強く依存するヒューリスティックスに大きく依存しており、それによって一般化能力が制限される。 本稿では,データ駆動型で一般化可能なカット選択手法であるカットランキングを,複数インスタンス学習の設定において提案する。 候補カットの品質を測定するために、インスタンス固有のカット特徴を入力として取り込んだスコア関数をトレーニングし、カットランキングと選択に応用する。 本手法を評価するために,合成データセットと実世界のデータセットの両方について広範な実験を行った。 カット選択のための一般的なヒューリスティックと比較すると、学習に基づくポリシーはより効果的であり、異なる特性を持つ複数の問題を一般化することができる。 カットランキングは大規模mips用の産業用ソルバに展開されている。 オンラインのA/Bテストでは、1日あたり10^7ドル以上の変数と制約のある製品プランニング問題があり、Cut Rankingは、ソリューションの精度を損なうことなく、製品解決器の平均スピードアップ比を12.42%達成している。

Cutting plane methods play a significant role in modern solvers for tackling mixed-integer programming (MIP) problems. Proper selection of cuts would remove infeasible solutions in the early stage, thus largely reducing the computational burden without hurting the solution accuracy. However, the major cut selection approaches heavily rely on heuristics, which strongly depend on the specific problem at hand and thus limit their generalization capability. In this paper, we propose a data-driven and generalizable cut selection approach, named Cut Ranking, in the settings of multiple instance learning. To measure the quality of the candidate cuts, a scoring function, which takes the instance-specific cut features as inputs, is trained and applied in cut ranking and selection. In order to evaluate our method, we conduct extensive experiments on both synthetic datasets and real-world datasets. Compared with commonly used heuristics for cut selection, the learning-based policy has shown to be more effective, and is capable of generalizing over multiple problems with different properties. Cut Ranking has been deployed in an industrial solver for large-scale MIPs. In the online A/B testing of the product planning problems with more than $10^7$ variables and constraints daily, Cut Ranking has achieved the average speedup ratio of 12.42% over the production solver without any accuracy loss of solution.
翻訳日:2021-05-31 13:32:28 公開日:2021-05-28
# 形式的検証を用いたプルーニングとスライシングニューラルネットワーク

Pruning and Slicing Neural Networks using Formal Verification ( http://arxiv.org/abs/2105.13649v1 )

ライセンス: Link先を確認
Ori Lahav, Guy Katz(参考訳) ディープニューラルネットワーク(DNN)は、様々なコンピュータシステムにおいてますます重要な役割を果たす。 これらのネットワークを作成するために、エンジニアは通常、望ましいトポロジを指定し、自動トレーニングアルゴリズムを使用してネットワークの重みを選択する。 トレーニングアルゴリズムは広く研究され、よく理解されているが、トポロジの選択は芸術的な形態のままであり、多くの場合、不要に大きいネットワークが生まれ、結果としてメモリ、バッテリー、計算能力に制限があるエンドデバイスと互換性がない。 本稿では,近年のDNN検証の進歩を活用して,この問題に対処することを提案する。 DNNの冗長性を発見するためのフレームワークと方法論 - すなわち、必要のないニューロンを見つけるためのもので、DNNのサイズを減らすために取り除くことができる。 音の検証技術を用いることで、我々の単純化されたネットワークが、元の、完全に、または所定の許容範囲に等しいことを正式に保証することができる。 さらに,本手法をスライシングと組み合わせることで,元のものと同等の非常に小さなDNNのファミリーが得られることを示す。 当社のアプローチでは,従来よりもはるかに小さいDNNを生成できるため,追加のシステムへのデプロイに適しており,その後の形式的検証にも適している。 提案手法の実証-概念的実装を提供し,実世界のDNNにおける手法の評価に利用した。

Deep neural networks (DNNs) play an increasingly important role in various computer systems. In order to create these networks, engineers typically specify a desired topology, and then use an automated training algorithm to select the network's weights. While training algorithms have been studied extensively and are well understood, the selection of topology remains a form of art, and can often result in networks that are unnecessarily large - and consequently are incompatible with end devices that have limited memory, battery or computational power. Here, we propose to address this challenge by harnessing recent advances in DNN verification. We present a framework and a methodology for discovering redundancies in DNNs - i.e., for finding neurons that are not needed, and can be removed in order to reduce the size of the DNN. By using sound verification techniques, we can formally guarantee that our simplified network is equivalent to the original, either completely, or up to a prescribed tolerance. Further, we show how to combine our technique with slicing, which results in a family of very small DNNs, which are together equivalent to the original. Our approach can produce DNNs that are significantly smaller than the original, rendering them suitable for deployment on additional kinds of systems, and even more amenable to subsequent formal verification. We provide a proof-of-concept implementation of our approach, and use it to evaluate our techniques on several real-world DNNs.
翻訳日:2021-05-31 13:32:05 公開日:2021-05-28
# 文脈なしで説明してはいけない:モデル説明の盲点に対処する

Do not explain without context: addressing the blind spot of model explanations ( http://arxiv.org/abs/2105.13787v1 )

ライセンス: Link先を確認
Katarzyna Wo\'znica, Katarzyna P\k{e}kala, Hubert Baniecki, Wojciech Kretowicz, El\.zbieta Sienkiewicz and Przemys{\l}aw Biecek(参考訳) 予測機械学習モデルの規則や期待の増大は、説明の権利(right to explanation)と呼ばれ、解釈可能性を高めることを約束する多くの方法につながった。 高需要により、Shapley値や部分依存プロファイル、置換変数の重要性といったXAIテクニックが広く採用されている。 しかし、それらの特性や、アナリストが説明を作成し、監査役がレビューし、様々な利害関係者が解釈する文脈でどのように現れるのかについては、まだ十分に分かっていない。 本稿では、機械学習モデルの監視と監査において、重要ではあるがしばしば見落とされがちな盲点を取り上げ、参照データが説明計算に与える影響について述べる。 モデル説明の多くは参照データ分布の選択に直接的または間接的に依存する。 我々は, 分布の小さな変化が, 傾向の変化や, 驚くべきことに結論など, 説明の劇的な変化をもたらす例を示す。 したがって、堅牢で有用な説明を得るには、常により広い文脈でそれをサポートする必要があると仮定する。

The increasing number of regulations and expectations of predictive machine learning models, such as so called right to explanation, has led to a large number of methods promising greater interpretability. High demand has led to a widespread adoption of XAI techniques like Shapley values, Partial Dependence profiles or permutational variable importance. However, we still do not know enough about their properties and how they manifest in the context in which explanations are created by analysts, reviewed by auditors, and interpreted by various stakeholders. This paper highlights a blind spot which, although critical, is often overlooked when monitoring and auditing machine learning models: the effect of the reference data on the explanation calculation. We discuss that many model explanations depend directly or indirectly on the choice of the referenced data distribution. We showcase examples where small changes in the distribution lead to drastic changes in the explanations, such as a change in trend or, alarmingly, a conclusion. Consequently, we postulate that obtaining robust and useful explanations always requires supporting them with a broader context.
翻訳日:2021-05-31 13:31:28 公開日:2021-05-28
# SLGCN: ヘテロフォリーなグラフのための構造学習グラフ畳み込みネットワーク

SLGCN: Structure Learning Graph Convolutional Networks for Graphs under Heterophily ( http://arxiv.org/abs/2105.13795v1 )

ライセンス: Link先を確認
Mengying Jiang, Guizhong Liu, Yuanchao Su, Xinliang Wu(参考訳) グラフ構造化データ上での表現学習におけるGNNの性能は、既存のGNNが1つの仮定に依存する問題、すなわち、元のグラフ構造が信頼できる問題に限られる。 しかし、実世界のグラフは必然的にノイズや不完全であるため、この仮定はしばしば非現実的である。 本稿では,この問題を2つの側面から解決するための構造学習グラフ畳み込みネットワーク(slgcns)を提案し,提案手法をノード分類に適用する。 具体的には,全ての類似ノードから特徴表現を効率的に集約する,アンカーを用いた効率的なスペクトルクラスタリング(ESC-ANCH)を設計する。 二つ目はエッジであり、我々のアプローチはノード間の類似性に応じて再接続された隣接行列を生成し、元の隣接行列の欠点を補うために下流予測タスクに最適化する。 re-connected adjacency matrix と original adjacency matrix の両方を slgcns に適用し、近傍ノードから特徴表現を集約する。 したがって、SLGCNは様々なレベルのホモフィリーを持つグラフに適用できる。 幅広いベンチマークデータセットの実験結果は、提案されたSLGCNが最先端のGNNよりも優れていることを示している。

The performances of GNNs for representation learning on the graph-structured data are generally limited to the issue that existing GNNs rely on one assumption, i.e., the original graph structure is reliable. However, since real-world graphs is inevitably noisy or incomplete, this assumption is often unrealistic. In this paper, we propose a structure learning graph convolutional networks (SLGCNs) to alleviate the issue from two aspects, and the proposed approach is applied to node classification. Specifically, the first is node features, we design a efficient-spectral-c lustering with anchors (ESC-ANCH) approach to efficiently aggregate feature representationsfrom all similar nodes, no matter how far away they are. The second is edges, our approach generates a re-connected adjacency matrix according to the similarities between nodes and optimized for the downstream prediction task so as to make up for the shortcomings of original adjacency matrix, considering that the original adjacency matrix usually provides misleading information for aggregation step of GCN in the graphs with low level of homophily. Both the re-connected adjacency matrix and original adjacency matrix are applied to SLGCNs to aggregate feature representations from nearby nodes. Thus, SLGCNs can be applied to graphs with various levels of homophily. Experimental results on a wide range of benchmark datasets illustrate that the proposed SLGCNs outperform the stat-of-the-art GNN counterparts.
翻訳日:2021-05-31 13:31:12 公開日:2021-05-28
# 勾配情報漏洩の定量化

Quantifying Information Leakage from Gradients ( http://arxiv.org/abs/2105.13929v1 )

ライセンス: Link先を確認
Fan Mo, Anastasia Borovykh, Mohammad Malekzadeh, Hamed Haddadi, Soteris Demetriou(参考訳) トレーニングデータの代わりにディープニューラルネットワークの勾配を共有することで、協調学習におけるデータのプライバシが向上する可能性がある。 しかし実際には、勾配はプライベート潜在属性とオリジナルデータの両方を明らかにすることができる。 トレーニングデータ上で計算された勾配から元の情報と潜在情報の両方を定量化するには、数学的メトリクスが必要である。 本研究ではまず,実証的な$\mathcal{V}$-informationの適応を用いて,攻撃成功率に関する情報理論的正当性を示す。 次に、勾配の漏洩をより深く理解し、感度とサブスペース距離を使って、より汎用的で効率的なメトリクスを提案し、勾配の変化を定量化する。 オリジナル情報と潜伏情報です その結果,6つのデータセットと4つのモデルを用いた実験結果から,第1層の勾配が最も高い原情報を含むことが明らかとなった。 さらに,勾配集約などのトレーニングハイパーパラメータが情報漏洩を低減する方法を示す。 我々の特徴は勾配の感度 w.r.t を用いた勾配情報漏洩の新しい理解を提供する。 プライベート情報の変更と、レイヤベースの保護や強力なアグリゲーションといった防御策の強化。

Sharing deep neural networks' gradients instead of training data could facilitate data privacy in collaborative learning. In practice however, gradients can disclose both private latent attributes and original data. Mathematical metrics are needed to quantify both original and latent information leakages from gradients computed over the training data. In this work, we first use an adaptation of the empirical $\mathcal{V}$-information to present an information-theoreti c justification for the attack success rates in a layer-wise manner. We then move towards a deeper understanding of gradient leakages and propose more general and efficient metrics, using sensitivity and subspace distance to quantify the gradient changes w.r.t. original and latent information, respectively. Our empirical results, on six datasets and four models, reveal that gradients of the first layers contain the highest amount of original information, while the classifier/fully-con nected layers placed after the feature extractor contain the highest latent information. Further, we show how training hyperparameters such as gradient aggregation can decrease information leakages. Our characterization provides a new understanding on gradient-based information leakages using the gradients' sensitivity w.r.t. changes in private information, and portends possible defenses such as layer-based protection or strong aggregation.
翻訳日:2021-05-31 13:29:58 公開日:2021-05-28
# j48とna\"ive bayesアルゴリズムを用いた教師付き機械学習分類法に基づくネットワークアクティビティ認識と解析

Network Activities Recognition and Analysis Based on Supervised Machine Learning Classification Methods Using J48 and Na\"ive Bayes Algorithm ( http://arxiv.org/abs/2105.13698v1 )

ライセンス: Link先を確認
Fan Huang(参考訳) ネットワークアクティビティ認識は常に侵入検知の重要な構成要素である。 しかし,ネットワークトラフィックフローの増大とネットワーク動作の複雑化に伴い,ユーザネットワーク監視ソフトウェアにより,特定の動作を迅速かつ正確に識別することがますます難しくなってきている。 また、システムセキュリティスタッフは最新の侵入監視技術や方法に注意を払う必要がある。 これらすべてが侵入検知タスクの難易度と複雑さを大幅に増す。 教師付き分類技術に基づく機械学習手法の適用は、ネットワークセキュリティスタッフを重く退屈なタスクから解放するのに役立つだろう。 微調整されたモデルは、ユーザの振る舞いを正確に認識し、比較的高い精度と適応性を備えた永続的な監視を提供する。 最後に、J48とNa\"ive Bayesアルゴリズムによるネットワークアクティビティ認識の結果を紹介し、評価する。

Network activities recognition has always been a significant component of intrusion detection. However, with the increasing network traffic flow and complexity of network behavior, it is becoming more and more difficult to identify the specific behavior quickly and accurately by user network monitoring software. It also requires the system security staff to pay close attention to the latest intrusion monitoring technology and methods. All of these greatly increase the difficulty and complexity of intrusion detection tasks. The application of machine learning methods based on supervised classification technology would help to liberate the network security staff from the heavy and boring tasks. A finetuned model would accurately recognize user behavior, which could provide persistent monitoring with a relative high accuracy and good adaptability. Finally, the results of network activities recognition by J48 and Na\"ive Bayes algorithms are introduced and evaluated.
翻訳日:2021-05-31 13:29:39 公開日:2021-05-28
# 糖尿病網膜症検出のための転写学習に基づくアプローチの体系的検討

A systematic review of transfer learning based approaches for diabetic retinopathy detection ( http://arxiv.org/abs/2105.13793v1 )

ライセンス: Link先を確認
Burcu Oltu and B\"u\c{s}ra K\"ubra Karaca and Hamit Erdem and Atilla \"Ozg\"ur(参考訳) 糖尿病と関連する糖尿病網膜症 (DR) の症例は近年, 急激な増加傾向にある。 DRの早期検出は、後期の永久盲目を引き起こす可能性があるため、重要な問題である。 過去20年間、dr検出には様々なアプローチが適用されてきた。 学術文献のレビューでは、ディープニューラルネットワーク(DNN)がDR検出の最も好ましいアプローチになっている。 これらのDNNアプローチの中で、畳み込みニューラルネットワーク(CNN)モデルは医療画像分類の分野で最も使われているモデルである。 新しいCNNアーキテクチャを設計するのは面倒で時間を要するアプローチです。 さらに、膨大な数のパラメータのトレーニングも難しい作業です。 このため、cnnをスクラッチからトレーニングするのではなく、近年ではトランスファー学習アプローチとして事前学習モデルが提案されている。 そこで本研究では,2015年から2020年までの38冊の出版物を考慮したDNNと移動学習に基づくDR検出の応用に焦点を当てた。 公開された論文は9つの数字と10のテーブルを使って要約され、22のトレーニング済みCNNモデル、12のDRデータセット、標準パフォーマンスメトリクスに関する情報が提供されている。

Cases of diabetes and related diabetic retinopathy (DR) have been increasing at an alarming rate in modern times. Early detection of DR is an important problem since it may cause permanent blindness in the late stages. In the last two decades, many different approaches have been applied in DR detection. Reviewing academic literature shows that deep neural networks (DNNs) have become the most preferred approach for DR detection. Among these DNN approaches, Convolutional Neural Network (CNN) models are the most used ones in the field of medical image classification. Designing a new CNN architecture is a tedious and time-consuming approach. Additionally, training an enormous number of parameters is also a difficult task. Due to this reason, instead of training CNNs from scratch, using pre-trained models has been suggested in recent years as transfer learning approach. Accordingly, the present study as a review focuses on DNN and Transfer Learning based applications of DR detection considering 38 publications between 2015 and 2020. The published papers are summarized using 9 figures and 10 tables, giving information about 22 pre-trained CNN models, 12 DR data sets and standard performance metrics.
翻訳日:2021-05-31 13:29:12 公開日:2021-05-28
# nvisii:フォトリアリスティック画像生成のためのスクリプトツール

NViSII: A Scriptable Tool for Photorealistic Image Generation ( http://arxiv.org/abs/2105.13962v1 )

ライセンス: Link先を確認
Nathan Morrical, Jonathan Tremblay, Yunzhi Lin, Stephen Tyree, Stan Birchfield, Valerio Pascucci, Ingo Wald(参考訳) 本稿では,NVIDIA の OptiX 線追跡エンジンと OptiX AI denoiser 上に構築した Python ベースのレンダラーについて述べる。 我々のツールは、オブジェクトメッシュ、材料、テクスチャ、照明、体積データ(煙など)、背景を含む複雑な動的3Dシーンの記述と操作を可能にする。 2D/3D境界ボックス、セグメンテーションマスク、深度マップ、通常の地図、材料特性、光学フローベクトルなどのメタデータも生成できる。 本研究では,設計目標,アーキテクチャ,パフォーマンスについて論じる。 本研究では,従来のラスタ型レンダラーでは困難な状況において,オブジェクト検出器とポーズ推定器の訓練にパストレースによって生成されたデータを用いて,シミュレート・リアル転送の性能向上を示す。 私たちはこのツールを、合成データ生成とディープラーニングの研究を進めるための、使いやすい高性能なレンダラとして提供しています。

We present a Python-based renderer built on NVIDIA's OptiX ray tracing engine and the OptiX AI denoiser, designed to generate high-quality synthetic images for research in computer vision and deep learning. Our tool enables the description and manipulation of complex dynamic 3D scenes containing object meshes, materials, textures, lighting, volumetric data (e.g., smoke), and backgrounds. Metadata, such as 2D/3D bounding boxes, segmentation masks, depth maps, normal maps, material properties, and optical flow vectors, can also be generated. In this work, we discuss design goals, architecture, and performance. We demonstrate the use of data generated by path tracing for training an object detector and pose estimator, showing improved performance in sim-to-real transfer in situations that are difficult for traditional raster-based renderers. We offer this tool as an easy-to-use, performant, high-quality renderer for advancing research in synthetic data generation and deep learning.
翻訳日:2021-05-31 13:28:55 公開日:2021-05-28
# 3次元ポーズの再生最適化と形状推定:疎拘束型定式化

Revitalizing Optimization for 3D Human Pose and Shape Estimation: A Sparse Constrained Formulation ( http://arxiv.org/abs/2105.13965v1 )

ライセンス: Link先を確認
Taosha Fan, Kalyan Vasudev Alwala, Donglai Xiang, Weipeng Xu, Todd Murphey, Mustafa Mukadam(参考訳) そこで本研究では,3次元ポーズと形状推定のリアルタイム最適化手法を提案する。 我々の最適化手法は桁違いに高速である(avg。 4msの収束) は既存の最適化法よりも優れており, 数学的には非拘束的な定式化と同値である。 我々は,gauss-newton方向を効率的に計算するために,定式化の基礎となるスパーシティと制約を利用してこれを達成する。 この計算は、複雑な3次元人体モデルの関節の数と線形にスケールすることを示し、より密集した非拘束的な定式化のために立方的にスケールする以前の作業とは対照的である。 最適化手法に基づき,30FPS以上の画像から3次元の人間のポーズと形状を推定するリアルタイムモーションキャプチャフレームワークを提案する。 複数の公開データセットの最先端手法に対するベンチマークでは、フレームワークは他の最適化手法よりも優れ、回帰手法に対する競合精度が向上する。

We propose a novel sparse constrained formulation and from it derive a real-time optimization method for 3D human pose and shape estimation. Our optimization method is orders of magnitude faster (avg. 4 ms convergence) than existing optimization methods, while being mathematically equivalent to their dense unconstrained formulation. We achieve this by exploiting the underlying sparsity and constraints of our formulation to efficiently compute the Gauss-Newton direction. We show that this computation scales linearly with the number of joints of a complex 3D human model, in contrast to prior work where it scales cubically due to their dense unconstrained formulation. Based on our optimization method, we present a real-time motion capture framework that estimates 3D human poses and shapes from a single image at over 30 FPS. In benchmarks against state-of-the-art methods on multiple public datasets, our frame-work outperforms other optimization methods and achieves competitive accuracy against regression methods.
翻訳日:2021-05-31 13:28:38 公開日:2021-05-28
# 識別器の攻撃に対するBICを用いた混合モデル防御

A BIC based Mixture Model Defense against Data Poisoning Attacks on Classifiers ( http://arxiv.org/abs/2105.13530v1 )

ライセンス: Link先を確認
Xi Li, David J. Miller, Zhen Xiang, George Kesidis(参考訳) Data Poisoning (DP) は、訓練された分類器が入力を誤分類する効果的な攻撃である。DP攻撃は、訓練セットに攻撃サンプルを隠蔽して分類器の精度を著しく低下させる。 Broadly applicable to different classifier structures, without strong assumptions about the attacker, we herein propose a novel Bayesian Information Criterion (BIC)-based mixture model defense against DP attacks that: 1) applies a mixture model both to well-fit potentially multi-modal class distributions and to capture adversarial samples within a small subset of mixture components; 2) jointly identifies poisoned components and samples by minimizing the BIC cost over all classes, with the identified poisoned data removed prior to classifier training. 種々の分類器構造に対する実験結果は,強いDP攻撃下での防衛の有効性と普遍性,および他の作業よりも優れていることを示す。

Data Poisoning (DP) is an effective attack that causes trained classifiers to misclassify their inputs.DP attacks significantly degrade a classifier's accuracy by covertly injecting attack samples into the training set. Broadly applicable to different classifier structures, without strong assumptions about the attacker, we herein propose a novel Bayesian Information Criterion (BIC)-based mixture model defense against DP attacks that: 1) applies a mixture model both to well-fit potentially multi-modal class distributions and to capture adversarial samples within a small subset of mixture components; 2) jointly identifies poisoned components and samples by minimizing the BIC cost over all classes, with the identified poisoned data removed prior to classifier training. Our experimental results, for various classifier structures, demonstrate the effectiveness and universality of our defense under strong DP attacks, as well as the superiority over other works.
翻訳日:2021-05-31 13:27:40 公開日:2021-05-28
# GCNに基づく半教師付き学習によるバクテリオファージの宿主の検出

Detecting the hosts of bacteriophages using GCN-based semi-supervised learning ( http://arxiv.org/abs/2105.13570v1 )

ライセンス: Link先を確認
Jiayu Shang and Yanni Sun(参考訳) 細菌ファージ(英:bacteriumophages)は、細菌や古細菌に感染するウイルスである。 したがって、自然および宿主関連生態系において重要な規制的役割を担っている。 生物圏で最も豊富で多様な生物実体として、ファージは研究や応用において注目を集めている。 特に、宿主の同定は抗生物質としての使用に重要な知識を提供する。 高スループットシークエンシングとそのマイクロバイオームへの応用は、ファージホスト検出の新しい機会を提供する。 しかし、計算ホスト予測には2つの大きな課題がある。 まず、既知のファージとホストの関係は、シーケンシャルなファージに比べて非常に限定的である。 第二に、食虫と細菌の配列の類似性は宿主の予測の主要な特徴であるが、正確な宿主の予測にはアライメントが欠如しているか曖昧である。 したがって、ホスト予測の精度を向上させる必要がある。 結果:本研究では,新しいファージに対するホスト予測を行うために,半教師付き学習モデルhostgを提案する。 ファージ-ファージタンパク質類似性とファージ-ホストdna配列類似性を利用して知識グラフを構築する。 次に、学習能力を高めるために、既知のホストの有無に関わらずファージを活用するためにグラフ畳み込みネットワーク(gcn)が採用される。 GCNトレーニング中、予測校正誤差(ECE)を最小限に抑え、予測の信頼性を確保する。 シミュレーションデータと実シークエンシングデータの両方でHostGをテストし、その結果、最先端のパイプラインと良好に競合することを示した。

Motivation: Bacteriophages (aka phages) are viruses that infect bacteria and archaea. Thus, they play important regulatory roles in natural and host-associated ecosystems. As the most abundant and diverse biological entities in the biosphere, phages have received increased attention in their research and applications. In particular, identifying their hosts provides key knowledge for their usages as antibiotics. High-throughput sequencing and its application to the microbiome have offered new opportunities for phage host detection. However, there are two main challenges for computational host prediction. First, the known phage-host relationships are very limited compared to sequenced phages. Second, although the sequence similarity between phages and bacteria has been used as a major feature for host prediction, the alignment is either missing or ambiguous for accurate host prediction. Thus, there is still a need to improve the accuracy of host prediction. Results: In this work, we present a semi-supervised learning model, named HostG, to conduct host prediction for novel phages. We construct a knowledge graph by utilizing both phage-phage protein similarity and phage-host DNA sequence similarity. Then graph convolutional network (GCN) is adopted to exploit phages with or without known hosts in training to enhance the learning ability. During the GCN training, we minimize the expected calibrated error (ECE) to ensure the confidence of the predictions. We tested HostG on both simulated and real sequencing data and the results demonstrated that it competes favorably against the state-of-the-art pipelines.
翻訳日:2021-05-31 13:27:27 公開日:2021-05-28
# デバイスエッジ会議における最適モデル配置とオンラインモデル分割

Optimal Model Placement and Online Model Splitting for Device-Edge Co-Inference ( http://arxiv.org/abs/2105.13618v1 )

ライセンス: Link先を確認
Jia Yan, Suzhi Bi, Ying-Jun Angela Zhang(参考訳) device-edge co-inferenceは、大量の計算負荷を伴うディープニューラルネットワーク(dnn)ベースのアプリケーションを実行するための、リソース制約付きワイヤレスデバイス(wds)の新たな可能性を開く。 特に、WDはDNNの最初の数層を実行し、DNNの残りの層を処理するエッジサーバに中間機能を送信する。 モデル分割決定を適用することで、局所計算コストと通信オーバーヘッドの間にトレードオフが存在する。 実際には、DNNモデルはエッジサーバで定期的にトレーニングされ、更新される。 dnnパラメータが再生成されると、更新されたモデルの一部はオンデバイス推論を容易にするためにwdに置かれなければならない。 本稿では,無線チャネルの消滅に伴うデバイスエッジ共振のエネルギー・時間コストを最小化するために,モデル配置とオンラインモデル分割決定の協調最適化について検討する。 モデル配置とモデル分割の決定は2つの異なるタイムスケールを伴いながら強く結合しているため、問題は難しい。 まず,モデル配置決定によって問題の有限方向が決定される最適停止問題を定式化し,オンラインモデル分割に取り組む。 逆方向誘導に基づく最適モデル分割規則の導出に加えて、モデル分割決定の解析式を得ることができる単純な1段階のルックアヘッド規則についても検討する。 この分析は,モデル配置決定をより大きな時間スケールで効率的に最適化する上で有用である。 特に、ニューロンが等しい完全連結多層パーセプトロンに対する閉形式モデル配置解を得る。 シミュレーションの結果, 各種DNN構造を用いた最適モデル配置と分割の優れた性能が検証された。

Device-edge co-inference opens up new possibilities for resource-constrained wireless devices (WDs) to execute deep neural network (DNN)-based applications with heavy computation workloads. In particular, the WD executes the first few layers of the DNN and sends the intermediate features to the edge server that processes the remaining layers of the DNN. By adapting the model splitting decision, there exists a tradeoff between local computation cost and communication overhead. In practice, the DNN model is re-trained and updated periodically at the edge server. Once the DNN parameters are regenerated, part of the updated model must be placed at the WD to facilitate on-device inference. In this paper, we study the joint optimization of the model placement and online model splitting decisions to minimize the energy-and-time cost of device-edge co-inference in presence of wireless channel fading. The problem is challenging because the model placement and model splitting decisions are strongly coupled, while involving two different time scales. We first tackle online model splitting by formulating an optimal stopping problem, where the finite horizon of the problem is determined by the model placement decision. In addition to deriving the optimal model splitting rule based on backward induction, we further investigate a simple one-stage look-ahead rule, for which we are able to obtain analytical expressions of the model splitting decision. The analysis is useful for us to efficiently optimize the model placement decision in a larger time scale. In particular, we obtain a closed-form model placement solution for the fully-connected multilayer perceptron with equal neurons. Simulation results validate the superior performance of the joint optimal model placement and splitting with various DNN structures.
翻訳日:2021-05-31 13:27:04 公開日:2021-05-28
# ダブルロバスト学習によるクリック後変換率推定

Enhanced Doubly Robust Learning for Debiasing Post-click Conversion Rate Estimation ( http://arxiv.org/abs/2105.13623v1 )

ライセンス: Link先を確認
Siyuan Guo, Lixin Zou, Yiding Liu, Wenwen Ye, Suqi Cheng, Shuaiqiang Wang, Hechang Chen, Dawei Yin, Yi Chang(参考訳) クリック後の変換は、ユーザの好みを示す強いシグナルであり、レコメンデーションシステムを構築する上で有益である。 しかし、クリック後変換率(cvr)を正確に推定することは、選択バイアス、すなわち観察されたクリック後のイベントがユーザーの好みのアイテムに発生するため難しい。 現在、ほとんどの既存の手法は、対実学習を利用してレコメンデーションシステムを破壊している。 その内、二重頑健な(DR)推定器は、誤差計算に基づく(EIB)推定器と逆確率スコア(IPS)推定器を二重頑健な方法で組み合わせて競合性能を達成している。 しかし、不正確な誤り計算はIPS推定器よりも高いばらつきをもたらす可能性がある。 さらに悪いことに、既存の手法は単純なモデルに依存しない手法を使ってインプテーションエラーを推定するが、これは動的に変化するモデル相関対象(すなわち予測モデルの勾配方向)を近似するには不十分である。 これらの問題を解決するために,まず, dr推定器のバイアスと分散を導出する。 これに基づいて、より頑健な二重剛性(MRDR)推定器が提案され、その二重剛性を維持しながら、その分散をさらに減少させる。 さらに,MRDR推定器に対する新しい二重学習手法を提案し,誤差計算を一般的なCVR推定に変換する。 さらに,提案手法により,命令型学習の高分散問題をさらに解消することができることを実証的に検証した。 その効果を評価するために、半合成データセットと2つの実世界のデータセットで広範な実験を行う。 その結果,最先端手法に対する提案手法の優位性が示された。 コードはhttps://github.com/g uosyjlu/MRDR-DLで公開されている。

Post-click conversion, as a strong signal indicating the user preference, is salutary for building recommender systems. However, accurately estimating the post-click conversion rate (CVR) is challenging due to the selection bias, i.e., the observed clicked events usually happen on users' preferred items. Currently, most existing methods utilize counterfactual learning to debias recommender systems. Among them, the doubly robust (DR) estimator has achieved competitive performance by combining the error imputation based (EIB) estimator and the inverse propensity score (IPS) estimator in a doubly robust way. However, inaccurate error imputation may result in its higher variance than the IPS estimator. Worse still, existing methods typically use simple model-agnostic methods to estimate the imputation error, which are not sufficient to approximate the dynamically changing model-correlated target (i.e., the gradient direction of the prediction model). To solve these problems, we first derive the bias and variance of the DR estimator. Based on it, a more robust doubly robust (MRDR) estimator has been proposed to further reduce its variance while retaining its double robustness. Moreover, we propose a novel double learning approach for the MRDR estimator, which can convert the error imputation into the general CVR estimation. Besides, we empirically verify that the proposed learning scheme can further eliminate the high variance problem of the imputation learning. To evaluate its effectiveness, extensive experiments are conducted on a semi-synthetic dataset and two real-world datasets. The results demonstrate the superiority of the proposed approach over the state-of-the-art methods. The code is available at https://github.com/g uosyjlu/MRDR-DL.
翻訳日:2021-05-31 13:26:40 公開日:2021-05-28
# AdvParams: 逆摂動に基づくパラメータ暗号化によるアクティブDNN知的財産保護技術

AdvParams: An Active DNN Intellectual Property Protection Technique via Adversarial Perturbation Based Parameter Encryption ( http://arxiv.org/abs/2105.13697v1 )

ライセンス: Link先を確認
Mingfu Xue, Zhiyu Wu, Jian Wang, Yushu Zhang, Weiqiang Liu(参考訳) 十分に訓練されたDNNモデルは、モデル所有者の知的財産(IP)と見なすことができる。 これまで多くのDNN IP保護手法が提案されてきたが、そのほとんどはウォーターマークに基づく検証手法であり、モデル所有者はDNNモデルの著作権が侵害された後のみ受動的に所有権を検証できる。 本稿では,DNNIPを侵害から積極的に保護するための効果的な枠組みを提案する。 具体的には、dnnモデルのパラメータをよく作られた逆摂動で摂動させることで暗号化する。 暗号化されたパラメータでは、DNNモデルの精度が大幅に低下し、悪意のある侵害者がモデルを使用するのを防ぐことができる。 暗号化後、暗号化されたパラメータの位置と追加された逆摂動の値が秘密鍵を形成する。 認証されたユーザは、秘密鍵を使ってモデルを復号することができる。 侵害後の所有権を受動的に検証する透かし方式と比較して, 提案手法は事前に侵害を防止することができる。 さらに,既存のアクティブdnnip保護手法のほとんどと比較して,提案手法では,計算オーバーヘッドの低減を実現するため,モデルのさらなるトレーニングプロセスは不要である。 実験の結果、暗号化後、モデルのテスト精度は80.65%、81.16%、Fashion-MNIST、CIFAR-10、GTSRBで87.91%低下した。 さらに、提案手法は、非常に少ない数のパラメータを暗号化するだけで、全てのモデルのパラメータの暗号化されたパラメータの割合は、0.000205%以下である。 実験結果は,提案手法がモデル微調整攻撃とモデル刈り込み攻撃に対して頑健であることを示唆する。 さらに,攻撃者が提案手法の詳細なステップを把握できる適応攻撃においても,提案手法は堅牢であることを示す。

A well-trained DNN model can be regarded as an intellectual property (IP) of the model owner. To date, many DNN IP protection methods have been proposed, but most of them are watermarking based verification methods where model owners can only verify their ownership passively after the copyright of DNN models has been infringed. In this paper, we propose an effective framework to actively protect the DNN IP from infringement. Specifically, we encrypt the DNN model's parameters by perturbing them with well-crafted adversarial perturbations. With the encrypted parameters, the accuracy of the DNN model drops significantly, which can prevent malicious infringers from using the model. After the encryption, the positions of encrypted parameters and the values of the added adversarial perturbations form a secret key. Authorized user can use the secret key to decrypt the model. Compared with the watermarking methods which only passively verify the ownership after the infringement occurs, the proposed method can prevent infringement in advance. Moreover, compared with most of the existing active DNN IP protection methods, the proposed method does not require additional training process of the model, which introduces low computational overhead. Experimental results show that, after the encryption, the test accuracy of the model drops by 80.65%, 81.16%, and 87.91% on Fashion-MNIST, CIFAR-10, and GTSRB, respectively. Moreover, the proposed method only needs to encrypt an extremely low number of parameters, and the proportion of the encrypted parameters of all the model's parameters is as low as 0.000205%. The experimental results also indicate that, the proposed method is robust against model fine-tuning attack and model pruning attack. Moreover, for the adaptive attack where attackers know the detailed steps of the proposed method, the proposed method is also demonstrated to be robust.
翻訳日:2021-05-31 13:26:11 公開日:2021-05-28
# SafeAMC:ロバスト変調認識モデルのための逆トレーニング

SafeAMC: Adversarial training for robust modulation recognition models ( http://arxiv.org/abs/2105.13746v1 )

ライセンス: Link先を確認
Javier Maroto, G\'er\^ome Bovet and Pascal Frossard(参考訳) 通信システムには、Deep Neural Networks(DNN)モデルに依存する変調認識など、多くのタスクがある。 しかし、これらのモデルは、逆さまの摂動、すなわち誤分類を誘発するために作られた不可避な付加ノイズに影響を受けやすいことが示されている。 これにより、セキュリティに関する疑問だけでなく、モデル予測に対する一般的な信頼も高まる。 そこで本研究では,逆摂動を伴うモデルを微調整し,自動変調認識(amc)モデルのロバスト性を高める逆行訓練手法を提案する。 現在の最先端モデルは、一部の変調系の堅牢性問題を緩和する対人訓練の恩恵を受けていることを示す。 逆摂動を用いて学習した特徴を可視化し、ロバストモデルでは信号シンボルが最大帰属法のように、星座空間の最も近いクラスに移動することが分かった。 これは、ロバストモデルがより安全であるだけでなく、より解釈可能であることを確認し、変調認識に関連する信号統計に基づく決定を構築する。

In communication systems, there are many tasks, like modulation recognition, which rely on Deep Neural Networks (DNNs) models. However, these models have been shown to be susceptible to adversarial perturbations, namely imperceptible additive noise crafted to induce misclassification. This raises questions about the security but also the general trust in model predictions. We propose to use adversarial training, which consists of fine-tuning the model with adversarial perturbations, to increase the robustness of automatic modulation recognition (AMC) models. We show that current state-of-the-art models benefit from adversarial training, which mitigates the robustness issues for some families of modulations. We use adversarial perturbations to visualize the features learned, and we found that in robust models the signal symbols are shifted towards the nearest classes in constellation space, like maximum likelihood methods. This confirms that robust models not only are more secure, but also more interpretable, building their decisions on signal statistics that are relevant to modulation recognition.
翻訳日:2021-05-31 13:25:43 公開日:2021-05-28
# 腹腔鏡下手術におけるビデオレートマルチスペクトルイメージング : 第一報

Video-rate multispectral imaging in laparoscopic surgery: First-in-human application ( http://arxiv.org/abs/2105.13901v1 )

ライセンス: Link先を確認
Leonardo Ayala, Sebastian Wirkert, Anant Vemuri, Tim Adler, Silvia Seidlitz, Sebastian Pirmann, Christina Engels, Dogu Teber, Lena Maier-Hein(参考訳) マルチスペクトル・ハイパースペクトルイメージング(MSI/HSI)は、形態学的および機能的組織特性に関する臨床的な情報を提供する。 しかし、オペレーティング・ルーム(OR)でのアプリケーションは、複雑なハードウェアのセットアップと遅い取得時間によって制限されている。 これらの限界を克服するために, 臨床ワークフローにおけるビデオレートスペクトルイメージングのための新しいイメージングシステムを提案する。 このシステムは、小型のスナップショットマルチスペクトルカメラと標準的な腹腔鏡と臨床で一般的に使用される光源を統合し、25Hzのフレームレートでスペクトル寸法16のマルチスペクトル画像の記録を可能にする。 本システムからのマルチスペクトル記録は, 部分腎切除手術における灌流変化の検出に有効であり, 幅広い臨床応用に扉を開ける可能性が示唆された。

Multispectral and hyperspectral imaging (MSI/HSI) can provide clinically relevant information on morphological and functional tissue properties. Application in the operating room (OR), however, has so far been limited by complex hardware setups and slow acquisition times. To overcome these limitations, we propose a novel imaging system for video-rate spectral imaging in the clinical workflow. The system integrates a small snapshot multispectral camera with a standard laparoscope and a clinically commonly used light source, enabling the recording of multispectral images with a spectral dimension of 16 at a frame rate of 25 Hz. An ongoing in patient study shows that multispectral recordings from this system can help detect perfusion changes in partial nephrectomy surgery, thus opening the doors to a wide range of clinical applications.
翻訳日:2021-05-31 13:25:11 公開日:2021-05-28
# 多レベル最適化のための勾配法

A Gradient Method for Multilevel Optimization ( http://arxiv.org/abs/2105.13954v1 )

ライセンス: Link先を確認
Ryo Sato, Mirai Tanaka, Akiko Takeda(参考訳) マルチレベル最適化の応用例は90年代以降すでに議論されているが、解法の開発は問題の難しさからほぼ二段階に限られていた。 近年では、機械学習、franceschiらによって研究が進められている。 提案手法は, 2段階最適化問題の解法を, 事前反復数$T$で, 最急降下更新式$T$で置き換えることである。 本稿では,そのアイデアに基づいて,$n$レベルの多レベル最適化のための勾配に基づくアルゴリズムを開発し,nT$変数による再構成が漸近的に元のマルチレベル問題に収束することを証明した。 私たちの知る限り、これはマルチレベル最適化の理論的保証を持つ最初のアルゴリズムの1つである。 数値実験により,データ中毒を考慮した3レベルハイパーパラメータ学習モデルが,既存の2レベルハイパーパラメータ学習モデルよりも安定な予測結果を生成することが示された。

Although application examples of multilevel optimization have already been discussed since the '90s, the development of solution methods was almost limited to bilevel cases due to the difficulty of the problem. In recent years, in machine learning, Franceschi et al. have proposed a method for solving bilevel optimization problems by replacing their lower-level problems with the $T$ steepest descent update equations with some prechosen iteration number $T$. In this paper, we have developed a gradient-based algorithm for multilevel optimization with $n$ levels based on their idea and proved that our reformulation with $n T$ variables asymptotically converges to the original multilevel problem. As far as we know, this is one of the first algorithms with some theoretical guarantee for multilevel optimization. Numerical experiments show that a trilevel hyperparameter learning model considering data poisoning produces more stable prediction results than an existing bilevel hyperparameter learning model in noisy data settings.
翻訳日:2021-05-31 13:24:58 公開日:2021-05-28
# エッジコンピューティングによる行動情報検索のためのブリッジデータセンターAIシステム

Bridge Data Center AI Systems with Edge Computing for Actionable Information Retrieval ( http://arxiv.org/abs/2105.13967v1 )

ライセンス: Link先を確認
Zhengchun Liu, Ahsan Ali, Peter Kenesei, Antonino Miceli, Hemant Sharma, Nicholas Schwarz, Dennis Trujillo, Hyunseung Yoo, Ryan Coffee, Ryan Herbst, Jana Thayer, Chun Hong Yoon, Ian Foster(参考訳) 現代のシンクロトロンおよびX線自由電子レーザー(XFEL)における極端に高いデータレートは、光源ビームラインがデータ削減、特徴検出、その他の目的のために機械学習手法の使用を動機付けている。 実験の初期段階で収集されたデータ、過去の同様の実験から得られたデータ、今後の実験でシミュレーションされたデータといった基本的な概念は、事実上、それらのデータの特定の特性を学習する機械学習モデルのトレーニングに使用されます。 したがって、重要な課題は、十分な速さでモデルを訓練し、有用なタイムスケールでデプロイし、使用できるようにすることだ。 ここでは、この目的のために、特別なデータセンターAIシステムがどのように使用できるかを説明する。

Extremely high data rates at modern synchrotron and X-ray free-electron lasers (XFELs) light source beamlines motivate the use of machine learning methods for data reduction, feature detection, and other purposes. Regardless of the application, the basic concept is the same: data collected in early stages of an experiment, data from past similar experiments, and/or data simulated for the upcoming experiment are used to train machine learning models that, in effect, learn specific characteristics of those data; these models are then used to process subsequent data more efficiently than would general-purpose models that lack knowledge of the specific dataset or data class. Thus, a key challenge is to be able to train models with sufficient rapidity that they can be deployed and used within useful timescales. We describe here how specialized data center AI systems can be used for this purpose.
翻訳日:2021-05-31 13:24:46 公開日:2021-05-28
# MODISSA:光学センサを用いた車両関連アプリケーションのプロトタイプ実現のための多目的プラットフォーム

MODISSA: a multipurpose platform for the prototypical realization of vehicle-related applications using optical sensors ( http://arxiv.org/abs/2105.13580v1 )

ライセンス: Link先を確認
Bj\"orn Borgmann (1 and 2), Volker Schatz (1), Marcus Hammer (1), Marcus Hebel (1), Michael Arens (1), Uwe Stilla (2) ((1) Fraunhofer IOSB, Ettlingen, Germany, (2) Technical University of Munich (TUM), Munich, Germany)(参考訳) 本稿では,Fraunhofer IOSBがモバイルマッピングと車両関連安全・保護の文脈において,ハードウェア評価とソフトウェア開発のための構成可能な実験プラットフォームを実現するための,センサ付き自動車MODISSAの開発状況について述べる。 MODISSAは、過去数年間、様々な光学センサーを搭載し、完全な生データ取得、ジオレファレンス、リアルタイムデータ分析、車載ディスプレイの即時可視化のためのハードウェアを含むバンをベースにしている。 3つの異なるアプリケーションの範囲内で、その特定の構成による実験について深い洞察を与えることで、MODISSAの能力を実証する。 他の研究グループは、ハードウェアとソフトウェアの選択、潜在的なエラーの原因の知識、取得したセンサーデータの処理に関して、独自のモバイルセンサーシステムを設定する際のこれらの経験から恩恵を受けることができる。

We present the current state of development of the sensor-equipped car MODISSA, with which Fraunhofer IOSB realizes a configurable experimental platform for hardware evaluation and software development in the context of mobile mapping and vehicle-related safety and protection. MODISSA is based on a van that has successively been equipped with a variety of optical sensors over the past few years, and contains hardware for complete raw data acquisition, georeferencing, real-time data analysis, and immediate visualization on in-car displays. We demonstrate the capabilities of MODISSA by giving a deeper insight into experiments with its specific configuration in the scope of three different applications. Other research groups can benefit from these experiences when setting up their own mobile sensor system, especially regarding the selection of hardware and software, the knowledge of possible sources of error, and the handling of the acquired sensor data.
翻訳日:2021-05-31 13:24:34 公開日:2021-05-28
# EコマースにおけるBlending Advertising with Organic Content: a Virtual Bids Optimization Approach

Blending Advertising with Organic Content in E-Commerce: A Virtual Bids Optimization Approach ( http://arxiv.org/abs/2105.13556v1 )

ライセンス: Link先を確認
Carlos Carrion, Zenan Wang, Harikesh Nair, Xianghong Luo, Yulin Lei, Xiliang Lin, Wenlong Chen, Qiyu Hu, Changping Peng, Yongjun Bao and Weipeng Yan(参考訳) 電子商取引プラットフォームでは、スポンサー付コンテンツと非スポンサー付コンテンツが共同でユーザーに表示され、双方ともエンゲージメント行動にインタラクティブに影響を及ぼす可能性がある。 前者のコンテンツは広告主がマーケティング目標を達成するのを助け、プラットフォームに広告収入のストリームを提供する。 後者のコンテンツは、ユーザのプラットフォームへのエンゲージメントに寄与する。 eコマースプラットフォームデザインの燃える問題は、これらの相互作用を尊重し、これらの複数のビジネス目標のバランスをとる方法で広告とコンテンツのブレンド方法である。 本稿では、電子商取引会社JD.COMの製品詳細ページに、個人支援コンテンツとスポンサーなしコンテンツとをブレンドするコンテキストにおいて、この目的のために開発されたシステムについて述べる。 本システムは,(1)新しい仮想入札アプローチによる複数の競合するビジネス目標の最適化と,これらの仮想入札による複数の目的に対するプラットフォームの潜在的かつ暗黙的な評価という,3つの重要な特徴を有する。 2) ユーザのクリック動作を特性の関数としてモデル化し,各スポンサーコンテンツの個性および他のスポンサーコンテンツおよび非スポンサーコンテンツによる影響をディープ・ラーニング・アプローチで表示すること,(3)広告の割り当てにおける外部性を考慮して,これらの外部性の存在下での支払い計算のためのvickrey-clarke-grove s(vcg)オークション・スキームと直接互換性を持たせること。 現在はJD.COMのモバイルアプリケーションを通じて全トラフィックを処理している。 システムの性能と利点を実証する実験を行った。

In e-commerce platforms, sponsored and non-sponsored content are jointly displayed to users and both may interactively influence their engagement behavior. The former content helps advertisers achieve their marketing goals and provides a stream of ad revenue to the platform. The latter content contributes to users' engagement with the platform, which is key to its long-term health. A burning issue for e-commerce platform design is how to blend advertising with content in a way that respects these interactions and balances these multiple business objectives. This paper describes a system developed for this purpose in the context of blending personalized sponsored content with non-sponsored content on the product detail pages of JD.COM, an e-commerce company. This system has three key features: (1) Optimization of multiple competing business objectives through a new virtual bids approach and the expressiveness of the latent, implicit valuation of the platform for the multiple objectives via these virtual bids. (2) Modeling of users' click behavior as a function of their characteristics, the individual characteristics of each sponsored content and the influence exerted by other sponsored and non-sponsored content displayed alongside through a deep learning approach; (3) Consideration of externalities in the allocation of ads, thereby making it directly compatible with a Vickrey-Clarke-Grove s (VCG) auction scheme for the computation of payments in the presence of these externalities. The system is currently deployed and serving all traffic through JD.COM's mobile application. Experiments demonstrating the performance and advantages of the system are presented.
翻訳日:2021-05-31 13:23:47 公開日:2021-05-28
# 拘束のないプライベートコンベックスERMの寸法曲線

Curse of Dimensionality in Unconstrained Private Convex ERM ( http://arxiv.org/abs/2105.13637v1 )

ライセンス: Link先を確認
Daogao Liu, Zhou Lu(参考訳) 本稿では,一般凸関数に対する差分プライベートなリスク最小化の下位限について考察する。 凸一般化線型モデル (GLMs) に対して、制約された場合における DP-ERM のよく知られたタイトバウンドは $\tilde{\Theta}(\frac{\sqrt{p}}{\epsilon n})$ であるが、近年では \cite{sstt21} が非制約の場合における DP-ERM のタイトバウンドは $\tilde{\Theta}(\frac{\sqrt{\text{rank}}}{\epsilon n})$ である。 {rank}\leq \min\{n,p\}$ として、自然で重要な疑問は、n\ll p$ の超パラメータモデルに対する次元の呪いを避けることができるか、あるいは glm を超えたより一般的な凸関数を回避できるかである。 一般凸関数に対する非拘束プライベート ERM の第一下界と強下界を与え、非拘束プライベート ERM に対して現在の上界 $\tilde{O}(\frac{\sqrt{p}}{n\epsilon})$ に一致する。 また、制約付きケースで結果を回復するunconstrained pure-dp ermに対して$\omega(\frac{p}{n\epsilon})$ lowerboundを与えます。

We consider the lower bounds of differentially private empirical risk minimization for general convex functions in this paper. For convex generalized linear models (GLMs), the well-known tight bound of DP-ERM in the constrained case is $\tilde{\Theta}(\frac{\sqrt{p}}{\epsilon n})$, while recently, \cite{sstt21} find the tight bound of DP-ERM in the unconstrained case is $\tilde{\Theta}(\frac{\sqrt{\text{rank}}}{\epsilon n})$ where $p$ is the dimension, $n$ is the sample size and $\text{rank}$ is the rank of the feature matrix of the GLM objective function. As $\text{rank}\leq \min\{n,p\}$, a natural and important question arises that whether we can evade the curse of dimensionality for over-parameterized models where $n\ll p$, for more general convex functions beyond GLM. We answer this question negatively by giving the first and tight lower bound of unconstrained private ERM for the general convex function, matching the current upper bound $\tilde{O}(\frac{\sqrt{p}}{n\epsilon})$ for unconstrained private ERM. We also give an $\Omega(\frac{p}{n\epsilon})$ lower bound for unconstrained pure-DP ERM which recovers the result in the constrained case.
翻訳日:2021-05-31 13:23:19 公開日:2021-05-28
# DIVE:反復話者埋め込みによるエンドツーエンド音声ダイアリゼーション

DIVE: End-to-end Speech Diarization via Iterative Speaker Embedding ( http://arxiv.org/abs/2105.13802v1 )

ライセンス: Link先を確認
Neil Zeghidour, Olivier Teboul and David Grangier(参考訳) エンドツーエンドの話者ダイアリゼーションアルゴリズムであるDIVEを紹介する。 我々のニューラルアルゴリズムは、ダイアリゼーションタスクを反復プロセスとして提示する: 抽出された表現に基づいて条件づけされた各話者の音声アクティビティを予測する前に、各話者の表現を反復的に構築する。 この戦略は本質的に話者順序の曖昧さを、古典的置換不変なトレーニング損失を必要とせずに解決する。 先行研究とは対照的に、我々のモデルは事前訓練された話者表現に頼らず、マルチスピーカ音声活動損失を伴うシステムの全てのパラメータを最適化する。 重要な点は,der(standard collar-based diarization error rate)評価に適応した,信頼できない話者転向境界をトレーニングから明示的に排除することである。 全体として、これらのコントリビューションは標準的なCALLHOMEベンチマークで最先端のシステムを再定義する。

We introduce DIVE, an end-to-end speaker diarization algorithm. Our neural algorithm presents the diarization task as an iterative process: it repeatedly builds a representation for each speaker before predicting the voice activity of each speaker conditioned on the extracted representations. This strategy intrinsically resolves the speaker ordering ambiguity without requiring the classical permutation invariant training loss. In contrast with prior work, our model does not rely on pretrained speaker representations and optimizes all parameters of the system with a multi-speaker voice activity loss. Importantly, our loss explicitly excludes unreliable speaker turn boundaries from training, which is adapted to the standard collar-based Diarization Error Rate (DER) evaluation. Overall, these contributions yield a system redefining the state-of-the-art on the standard CALLHOME benchmark, with 6.7% DER compared to 7.8% for the best alternative.
翻訳日:2021-05-31 13:22:44 公開日:2021-05-28
# 制限ボルツマンマシンの学習における平衡系と非平衡系

Equilibrium and non-Equilibrium regimes in the learning of Restricted Boltzmann Machines ( http://arxiv.org/abs/2105.13889v1 )

ライセンス: Link先を確認
Aur\'elien Decelle, Cyril Furtlehner, Beatriz Seoane(参考訳) Restricted Boltzmann Machines (RBMs) は、ログのような勾配を正確に計算することの難しさから、長い間困難であった。 過去数十年間、多くの作品が多かれ少なかれ成功したレシピを提案してきたが、問題の重要な量である混合時間(つまり混合時間)を学ばなかった。 モデルから新しい構成をサンプリングするのに必要なモンテカルロのイテレーションの数。 本研究では, この混合時間は, モデルの力学および安定性において重要な役割を担い, RBM は, この混合時間と勾配の近似に使用されるステップ数, $k$ との相互作用に応じて, 平衡と外平衡の2つの明確に定義された状態で動作することを示した。 我々はさらに、この混合時間が学習とともに増加することを実証的に示し、これはしばしば、1つのレジームから別のレジームへの遷移が、k$がこの時間よりも小さくなるとすぐに示唆する。 特に,人気の$k$ (永続的) コントラスト・ダイバージェンスアプローチを用いて,$k$ が小さい場合,学習モデルのダイナミクスは極めて遅く,しばしば強い平衡外効果によって支配される。 それとは対照的に、平衡で訓練されたrbmsはより高速なダイナミクスを示し、サンプリング中にデータセットのような構成にスムーズに収束する。 i)ショート$k$sは短時間で説得力のあるサンプルを生成するために使用することができ、(ii)大きな$k$(またはますます大きい)はRBMの正しい平衡分布を学習するために使用する必要があります。

Training Restricted Boltzmann Machines (RBMs) has been challenging for a long time due to the difficulty of computing precisely the log-likelihood gradient. Over the past decades, many works have proposed more or less successful training recipes but without studying the crucial quantity of the problem: the mixing time i.e. the number of Monte Carlo iterations needed to sample new configurations from a model. In this work, we show that this mixing time plays a crucial role in the dynamics and stability of the trained model, and that RBMs operate in two well-defined regimes, namely equilibrium and out-of-equilibrium, depending on the interplay between this mixing time of the model and the number of steps, $k$, used to approximate the gradient. We further show empirically that this mixing time increases with the learning, which often implies a transition from one regime to another as soon as $k$ becomes smaller than this time. In particular, we show that using the popular $k$ (persistent) contrastive divergence approaches, with $k$ small, the dynamics of the learned model are extremely slow and often dominated by strong out-of-equilibrium effects. On the contrary, RBMs trained in equilibrium display faster dynamics, and a smooth convergence to dataset-like configurations during the sampling. Finally we discuss how to exploit in practice both regimes depending on the task one aims to fulfill: (i) short $k$s can be used to generate convincing samples in short times, (ii) large $k$ (or increasingly large) must be used to learn the correct equilibrium distribution of the RBM.
翻訳日:2021-05-31 13:22:29 公開日:2021-05-28
# ガーチを用いたインド経済の選択部門からの株式のボラティリティモデリング

Volatility Modeling of Stocks from Selected Sectors of the Indian Economy Using GARCH ( http://arxiv.org/abs/2105.13898v1 )

ライセンス: Link先を確認
Jaydip Sen, Sidra Mehtab, Abhishek Dutta(参考訳) 変動性クラスタリングは、株式市場の行動に重大な影響を与える重要な特徴である。 しかし、将来の株価変動を正確に予測するためのロバストモデルの設計は、非常に困難な研究課題である。 インド証券取引所(NSE)に上場している10銘柄のボラティリティをモデル化するための,一般化自己回帰的条件付き不均質(GARCH)フレームワークに基づくいくつかのボラティリティモデルを提案する。 株式はインド経済の自動車部門と銀行部門から選ばれ、NSEの各セクターのセクター指数に大きな影響を与えている。 2010年1月1日から2021年4月30日までの歴史的株価記録は、Pythonプログラミング言語のPandasモジュールのDataReader APIを使用してYahoo Financeのウェブサイトから取り除かれた。 GARCHモジュールはトレーニングデータに基づいて構築され、微調整され、モデルの性能を評価するためにサンプル外のデータでテストされる。 分析の結果、非対称ガーチモデルが将来の株式のボラティリティをより正確に予測できることがわかった。

Volatility clustering is an important characteristic that has a significant effect on the behavior of stock markets. However, designing robust models for accurate prediction of future volatilities of stock prices is a very challenging research problem. We present several volatility models based on generalized autoregressive conditional heteroscedasticity (GARCH) framework for modeling the volatility of ten stocks listed in the national stock exchange (NSE) of India. The stocks are selected from the auto sector and the banking sector of the Indian economy, and they have a significant impact on the sectoral index of their respective sectors in the NSE. The historical stock price records from Jan 1, 2010, to Apr 30, 2021, are scraped from the Yahoo Finance website using the DataReader API of the Pandas module in the Python programming language. The GARCH modules are built and fine-tuned on the training data and then tested on the out-of-sample data to evaluate the performance of the models. The analysis of the results shows that asymmetric GARCH models yield more accurate forecasts on the future volatility of stocks.
翻訳日:2021-05-31 13:22:01 公開日:2021-05-28
# オンラインヘイト:行動動態と誤情報との関係

Online Hate: Behavioural Dynamics and Relationship with Misinformation ( http://arxiv.org/abs/2105.14005v1 )

ライセンス: Link先を確認
Matteo Cinelli, Andra\v{z} Pelicon, Igor Mozeti\v{c}, Walter Quattrociocchi, Petra Kralj Novak, Fabiana Zollo(参考訳) オンラインの議論は、しばしばユーザーの極端な偏光と熱い議論によって特徴づけられる。 オンラインでのヘイトスピーチの存在はますます問題になり、適切な対策を開発する必要がある。 本研究では,youtubeビデオ上で100万以上のコメントを収集したコーパス上で,手書きの大量のデータに微調整された機械学習モデルを用いてヘイトスピーチ検出を行う。 分析の結果,憎悪コメントのみを投稿するアクティブユーザを意図した「シリアル憎悪者」の存在の証拠は見当たらないことがわかった。 さらに, エコーチャンバ仮説と一致して, ユーザは, 相手コミュニティ内で不適切な, 暴力的, 憎悪的な言語を使用する傾向が強く, ビデオチャンネルの2つのカテゴリのうちの1つに傾倒している。 興味深いことに、信頼できる情報源に忠実なユーザーは、平均して、より有毒な言語を使っている。 最後に、議論の全体毒性は、コメントの数と時間の両方で測定され、その長さとともに増加することが判明した。 我々の結果は、ゴドウィンの法則に固執して、オンラインの議論はますます有毒な意見交換へと退化する傾向があることを示している。

Online debates are often characterised by extreme polarisation and heated discussions among users. The presence of hate speech online is becoming increasingly problematic, making necessary the development of appropriate countermeasures. In this work, we perform hate speech detection on a corpus of more than one million comments on YouTube videos through a machine learning model fine-tuned on a large set of hand-annotated data. Our analysis shows that there is no evidence of the presence of "serial haters", intended as active users posting exclusively hateful comments. Moreover, coherently with the echo chamber hypothesis, we find that users skewed towards one of the two categories of video channels (questionable, reliable) are more prone to use inappropriate, violent, or hateful language within their opponents community. Interestingly, users loyal to reliable sources use on average a more toxic language than their counterpart. Finally, we find that the overall toxicity of the discussion increases with its length, measured both in terms of number of comments and time. Our results show that, coherently with Godwin's law, online debates tend to degenerate towards increasingly toxic exchanges of views.
翻訳日:2021-05-31 13:21:40 公開日:2021-05-28
# 量子アニールを用いた複雑系の量子最適化

Quantum Optimisation of Complex Systems with a Quantum Annealer ( http://arxiv.org/abs/2105.13945v1 )

ライセンス: Link先を確認
Steve Abel, Andrew Blance and Michael Spannowsky(参考訳) 量子アニール法と,熱アニール法,ネルダーミード法,勾配降下法などの古典的最適化法を詳細に比較した。 まず量子アニール上の2次元イジングモデルを直接研究し、その特性を熱的2次元イジングモデルと直接比較する。 これらの性質には、理論の「量子性」の変化またはイジング結合のスケールアップによって引き起こされるイジング様相転移が含まれる。 この挙動は、量子系の物理的理解から期待されることと一致している。 続いて、より硬く2次元のポテンシャルを最小化する量子アニールの効果を実証する。 すべてのポテンシャルについて、ネルダーミード法と勾配降下法が偽極小に閉じ込められやすいという一般的な挙動を見出す一方、熱アニール法は真の極小を見つけるのに多少優れている。 しかし、現在のサイズに制限があるにもかかわらず、量子アニールはこれらの古典的手法よりも著しく優れた最小化を行う。 量子アニールは、システムがほとんど偽の最小値に閉じ込められず、迅速かつうまくポテンシャルを最小化するために設計することができる。

We perform an in-depth comparison of quantum annealing with several classical optimisation techniques, namely thermal annealing, Nelder-Mead, and gradient descent. We begin with a direct study of the 2D Ising model on a quantum annealer, and compare its properties directly with those of the thermal 2D Ising model. These properties include an Ising-like phase transition that can be induced by either a change in 'quantum-ness' of the theory, or by a scaling the Ising couplings up or down. This behaviour is in accord with what is expected from the physical understanding of the quantum system. We then go on to demonstrate the efficacy of the quantum annealer at minimising several increasingly hard two dimensional potentials. For all the potentials we find the general behaviour that Nelder-Mead and gradient descent methods are very susceptible to becoming trapped in false minima, while the thermal anneal method is somewhat better at discovering the true minimum. However, and despite current limitations on its size, the quantum annealer performs a minimisation very markedly better than any of these classical techniques. A quantum anneal can be designed so that the system almost never gets trapped in a false minimum, and rapidly and successfully minimises the potentials.
翻訳日:2021-05-31 13:21:21 公開日:2021-05-28
# 情報ボトルネックに対する摂動理論

Perturbation Theory for the Information Bottleneck ( http://arxiv.org/abs/2105.13977v1 )

ライセンス: Link先を確認
Vudtiwat Ngampruetikorn, David J. Schwab(参考訳) データから関連する情報を抽出することは、あらゆる形態の学習に不可欠である。 情報ボトルネック(IB)法はこれを形式化し、学習現象を理解するための数学的に正確で概念的に魅力的なフレームワークを提供する。 しかし、IB問題の非線形性は、一般に計算コストが高く解析的に難解である。 ここでは、IB法に対する摂動理論を導出し、データから抽出した1ビットあたりの最大関連情報の限界である学習開始の完全な特徴を報告する。 我々は,合成確率分布について実験を行い,学習開始付近の正確な数値解と良好な一致を見出した。 学習開始に対する摂動理論を導出するための従来の試みと、導出における違いと微妙さについて検討し、その相違を欠点のある仮定とみなす。 また,本研究は,ib法と強データ処理の不等式との密接な関係についての新たな視点を提供する。

Extracting relevant information from data is crucial for all forms of learning. The information bottleneck (IB) method formalizes this, offering a mathematically precise and conceptually appealing framework for understanding learning phenomena. However the nonlinearity of the IB problem makes it computationally expensive and analytically intractable in general. Here we derive a perturbation theory for the IB method and report the first complete characterization of the learning onset, the limit of maximum relevant information per bit extracted from data. We test our results on synthetic probability distributions, finding good agreement with the exact numerical solution near the onset of learning. We explore the difference and subtleties in our derivation and previous attempts at deriving a perturbation theory for the learning onset and attribute the discrepancy to a flawed assumption. Our work also provides a fresh perspective on the intimate relationship between the IB method and the strong data processing inequality.
翻訳日:2021-05-31 13:21:01 公開日:2021-05-28