このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210908となっている論文です。

PDF登録状況(公開日: 20210908)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) バイラテラル取引:レグレット最小化の視点

Bilateral Trade: A Regret Minimization Perspective ( http://arxiv.org/abs/2109.12974v1 )

ライセンス: CC BY 4.0
Nicol\`o Cesa-Bianchi, Tommaso Cesari, Roberto Colomboni, Federico Fusco, Stefano Leonardi(参考訳) 経済の基本的なトピックであるバイラテラル取引は、売り手と買い手という2つの戦略的エージェントの仲介の問題をモデル化する。 本稿では,2国間貿易問題を,売り手/買い手の相互作用のラウンドT$以上の最小化枠組みに配置し,その個人価値について事前の知識を欠いた。 我々の主な貢献は、異なるフィードバックモデルとプライベートバリュエーションを持つ固定価格メカニズムに対する後悔の体制の完全な評価である。 より正確には、以下の後悔の厳密な境界を証明する: - $\theta(\sqrt{t})$ for full-feedback (すなわち直接啓示メカニズム)。 -$\theta(t^{2/3})$ 現実的なフィードバック(すなわち、ポストプライスメカニズム)と、境界密度を持つ独立売り手/買い手評価。 -$\theta(t)$ 有界密度を持つ現実的なフィードバックと売り手/買い手の評価のために。 -$\theta(t)$ 現実的なフィードバックと独立した売り手/買い手の評価のために。 -$\theta(t)$ である。

Bilateral trade, a fundamental topic in economics, models the problem of intermediating between two strategic agents, a seller and a buyer, willing to trade a good for which they hold private valuations. In this paper, we cast the bilateral trade problem in a regret minimization framework over $T$ rounds of seller/buyer interactions, with no prior knowledge on their private valuations. Our main contribution is a complete characterization of the regret regimes for fixed-price mechanisms with different feedback models and private valuations, using as a benchmark the best fixed-price in hindsight. More precisely, we prove the following tight bounds on the regret: - $\Theta(\sqrt{T})$ for full-feedback (i.e., direct revelation mechanisms). - $\Theta(T^{2/3})$ for realistic feedback (i.e., posted-price mechanisms) and independent seller/buyer valuations with bounded densities. - $\Theta(T)$ for realistic feedback and seller/buyer valuations with bounded densities. - $\Theta(T)$ for realistic feedback and independent seller/buyer valuations. - $\Theta(T)$ for the adversarial setting.
翻訳日:2021-10-10 16:12:14 公開日:2021-09-08
# TruthfulQA: モデルが人間にどう影響するかを計測する

TruthfulQA: Measuring How Models Mimic Human Falsehoods ( http://arxiv.org/abs/2109.07958v1 )

ライセンス: Link先を確認
Stephanie Lin, Jacob Hilton, Owain Evans(参考訳) 我々は,質問への回答を生成する際に,言語モデルが真であるか否かを測定するベンチマークを提案する。 このベンチマークは、健康、法律、金融、政治など38のカテゴリーにまたがる817の質問からなる。 偽りの信念や誤解のために、一部の人間が誤って答えると疑問を立てた。 うまく機能させるためには、モデルは人間のテキストを模倣して学んだ偽の回答を発生させない必要がある。 GPT-3, GPT-Neo/J, GPT-2, T5-based modelを検討した。 最良のモデルは58%の質問に対して真実であり、人間のパフォーマンスは94%だった。 モデルは、一般的な誤解を模倣し、人間を欺く可能性を持つ多くの誤った答えを生み出した。 最大のモデルは概して最も真実ではない。 例えば、6BパラメータのGPT-Jモデルは125Mパラメータのモデルに比べて17%の精度であった。 他のNLPタスクとは対照的に、パフォーマンスはモデルサイズで向上する。 しかし, 学習分布から誤答が得られた場合, この結果が期待できる。 我々は,Web からのテキストの模倣以外の訓練目的を用いた微調整よりも,モデルのみのスケールアップが真理性向上に有望であることを提案する。

We propose a benchmark to measure whether a language model is truthful in generating answers to questions. The benchmark comprises 817 questions that span 38 categories, including health, law, finance and politics. We crafted questions that some humans would answer falsely due to a false belief or misconception. To perform well, models must avoid generating false answers learned from imitating human texts. We tested GPT-3, GPT-Neo/J, GPT-2 and a T5-based model. The best model was truthful on 58% of questions, while human performance was 94%. Models generated many false answers that mimic popular misconceptions and have the potential to deceive humans. The largest models were generally the least truthful. For example, the 6B-parameter GPT-J model was 17% less truthful than its 125M-parameter counterpart. This contrasts with other NLP tasks, where performance improves with model size. However, this result is expected if false answers are learned from the training distribution. We suggest that scaling up models alone is less promising for improving truthfulness than fine-tuning using training objectives other than imitation of text from the web.
翻訳日:2021-09-19 13:44:48 公開日:2021-09-08
# CoviHawkes:インドにおける時間的ポイントプロセスとディープラーニングベースのCovid-19予測

CoviHawkes: Temporal Point Process and Deep Learning based Covid-19 forecasting for India ( http://arxiv.org/abs/2109.06056v1 )

ライセンス: Link先を確認
Ambedkar Dukkipati, Tony Gracious, Shubham Gupta(参考訳) ロックダウンは、パンデミックの広がりを抑えるための最も効果的な対策の1つだ。 残念なことに、人口に対する財政的、感情的な負担が大きすぎるため、ロックダウン自体を先延ばしにすることが多い。 この記事では、現在流行している地域に焦点を当てたロックダウンである‘ローカル’ロックダウンを支持する。 本研究では,インドにおけるCovid-19の日次ケース数を全国,州,地方レベルで予測する,CoviHawkesという,時間的ポイントプロセスに基づく機械学習ツールを提案する。 短期的な予想(30ドル)は、ウイルスの感染拡大を防ぐために局所的なロックダウンを積極的に課さなければならない地域を特定する政策立案者にとって役立つかもしれない。 当社の長期予測(最大数カ月)は、さまざまなロックダウン条件下でのパンデミックの進行をシミュレートし、インドにおける第3波の可能性を示唆している。 総合的な実験結果から,ツールの性能をあらゆるレベルで検証した。

Lockdowns are one of the most effective measures for containing the spread of a pandemic. Unfortunately, they involve a heavy financial and emotional toll on the population that often outlasts the lockdown itself. This article argues in favor of ``local'' lockdowns, which are lockdowns focused on regions currently experiencing an outbreak. We propose a machine learning tool called CoviHawkes based on temporal point processes, called CoviHawkes that predicts the daily case counts for Covid-19 in India at the national, state, and district levels. Our short-term predictions ($<30$ days) may be helpful for policymakers in identifying regions where a local lockdown must be proactively imposed to arrest the spread of the virus. Our long-term predictions (up to a few months) simulate the progression of the pandemic under various lockdown conditions, thereby providing a noisy indicator for a potential third wave of cases in India. Extensive experimental results validate the performance of our tool at all levels.
翻訳日:2021-09-19 13:44:23 公開日:2021-09-08
# 低SNR中性子ラジオグラフィーによる液体金属中のガス気泡の分解

Resolving gas bubbles ascending in liquid metal from low-SNR neutron radiography images ( http://arxiv.org/abs/2109.04883v1 )

ライセンス: Link先を確認
Mihails Birjukovs, Pavel Trtik, Anders Kaestner, Jan Hovind, Martins Klevs, Knud Thomsen, Andris Jakovics(参考訳) 動的中性子ラジオグラフィ画像から液体金属中を進行するガス気泡を内在的に低信号対雑音比で解く新しい画像処理手法を示す。 画像の前処理、雑音除去、気泡分割について、実用的な推奨とともに詳細に述べる。 中性子透過性空洞を有する静止および移動基準体は、液体金属中の気泡と似た撮像条件でラジオグラフ化される。 本研究は,過去および最近のイメージングキャンペーンから得られた実験データに新しい手法を適用し,本研究で提案した手法の性能を従来の手法と比較した。 また,高感度撮像条件下で行った測定から物理的に有意な情報を確実に抽出する能力も向上した。 提示された画像処理ソリューションとその分離要素は、現在のアプリケーションを超えて容易に拡張可能であり、オープンソースにされている。

We demonstrate a new image processing methodology for resolving gas bubbles travelling through liquid metal from dynamic neutron radiography images with intrinsically low signal-to-noise ratio. Image pre-processing, denoising and bubble segmentation are described in detail, with practical recommendations. Experimental validation is presented - stationary and moving reference bodies with neutron-transparent cavities are radiographed with imaging conditions similar to the cases with bubbles in liquid metal. The new methods are applied to our experimental data from previous and recent imaging campaigns, and the performance of the methods proposed in this paper is compared against our previously developed methods. Significant improvements are observed as well as the capacity to reliably extract physically meaningful information from measurements performed under highly adverse imaging conditions. The showcased image processing solution and separate elements thereof are readily extendable beyond the present application, and have been made open-source.
翻訳日:2021-09-13 13:21:08 公開日:2021-09-08
# efficient conformer: 自動音声認識のためのプログレッシブダウンサンプリングとグループ化注意

Efficient conformer: Progressive downsampling and grouped attention for automatic speech recognition ( http://arxiv.org/abs/2109.01163v2 )

ライセンス: Link先を確認
Maxime Burchi, Valentin Vielzeuf(参考訳) 最近提案されたコンフォーマーアーキテクチャは、畳み込みと局所的およびグローバルな依存関係のモデル化を組み合わせることで、自動音声認識における最先端のパフォーマンスを示している。 本稿では,コンフォーメータアーキテクチャの複雑さを少ない計算予算で低減し,効率的なコンフォーメータと呼ぶ効率的なアーキテクチャ設計を実現する方法について検討する。 我々は、コンフォーメータエンコーダにプログレッシブなダウンサンプリングを導入し、grouped attentionと呼ばれる新しい注意機構を提案する。これにより、配列長$n$、隠れ次元$d$、グループサイズパラメータ$g$に対して、注意の複雑さを$o(n^{2}d)$から$o(n^{2}d / g)$に低減することができる。 また,グローバルなダウンサンプリング操作として,ストライド型マルチヘッド自己注意を用いた実験を行った。 CTCとRNN-Transducerの損失を伴うLibriSpeechデータセットを用いて実験を行った。 提案したアーキテクチャは,同じ計算予算内で,コンフォーマーに比べて高速なトレーニングと復号化を実現していることを示す。 13MパラメータCTCモデルは、言語モデルを用いることなく競合WERが3.6%/9.0%、テストクリーン/テスト-他のセットでn-gram言語モデルが2.7%、推論時にCTC Conformerベースラインが29%、トレーニングが36%である。

The recently proposed Conformer architecture has shown state-of-the-art performances in Automatic Speech Recognition by combining convolution with attention to model both local and global dependencies. In this paper, we study how to reduce the Conformer architecture complexity with a limited computing budget, leading to a more efficient architecture design that we call Efficient Conformer. We introduce progressive downsampling to the Conformer encoder and propose a novel attention mechanism named grouped attention, allowing us to reduce attention complexity from $O(n^{2}d)$ to $O(n^{2}d / g)$ for sequence length $n$, hidden dimension $d$ and group size parameter $g$. We also experiment the use of strided multi-head self-attention as a global downsampling operation. Our experiments are performed on the LibriSpeech dataset with CTC and RNN-Transducer losses. We show that within the same computing budget, the proposed architecture achieves better performances with faster training and decoding compared to the Conformer. Our 13M parameters CTC model achieves competitive WERs of 3.6%/9.0% without using a language model and 2.7%/6.7% with an external n-gram language model on the test-clean/test-othe r sets while being 29% faster than our CTC Conformer baseline at inference and 36% faster to train.
翻訳日:2021-09-12 10:57:28 公開日:2021-09-08
# (参考訳) DAE : 航空輸送における多変量時系列異常検出のための識別オートエンコーダ [全文訳有]

DAE : Discriminatory Auto-Encoder for multivariate time-series anomaly detection in air transportation ( http://arxiv.org/abs/2109.04247v1 )

ライセンス: CC BY 4.0
Antoine Chevrot and Alexandre Vernotte and Bruno Legeard(参考訳) 自動監視放送(Automatic Dependent Surveillance Broadcast)プロトコルは、航空監視における最新の強制的な進歩の1つである。 ますます増え続ける航空機の追跡をサポートする一方で、攻撃者が偽の監視情報を発信する偽のデータインジェクション攻撃など、軽減しなければならないサイバーセキュリティの問題も導入している。 最近のデータソースと、フライトトラッキングレコードを取得するツールにより、研究者はデータセットを作成し、En-Route trajectoriesでそのような異常を検出する機械学習モデルを開発することができる。 本稿では,識別オートエンコーダ(DAE)と呼ばれる新しい多変量異常検出モデルを提案する。 通常のLSTMベースの自動エンコーダのベースラインを使用するが、いくつかのデコーダを備えており、それぞれが特定の飛行フェーズ(例)のデータを取得する。 DAEの効率を説明するため、実生活の異常や現実的に作られたものを用いて評価データセットを作成し、DAEと文献からの3つの異常検出モデルを評価した。 その結果,DAEは精度と検出速度の両方で良好な結果が得られることがわかった。 データセット、モデル実装、評価結果は、オンラインリポジトリで利用可能であり、リプライ可能性と将来の実験の促進を可能にする。

The Automatic Dependent Surveillance Broadcast protocol is one of the latest compulsory advances in air surveillance. While it supports the tracking of the ever-growing number of aircraft in the air, it also introduces cybersecurity issues that must be mitigated e.g., false data injection attacks where an attacker emits fake surveillance information. The recent data sources and tools available to obtain flight tracking records allow the researchers to create datasets and develop Machine Learning models capable of detecting such anomalies in En-Route trajectories. In this context, we propose a novel multivariate anomaly detection model called Discriminatory Auto-Encoder (DAE). It uses the baseline of a regular LSTM-based auto-encoder but with several decoders, each getting data of a specific flight phase (e.g. climbing, cruising or descending) during its training.To illustrate the DAE's efficiency, an evaluation dataset was created using real-life anomalies as well as realistically crafted ones, with which the DAE as well as three anomaly detection models from the literature were evaluated. Results show that the DAE achieves better results in both accuracy and speed of detection. The dataset, the models implementations and the evaluation results are available in an online repository, thereby enabling replicability and facilitating future experiments.
翻訳日:2021-09-11 11:31:23 公開日:2021-09-08
# (参考訳) 非構造化情報の知識マイニング:サイバードメインへの応用 [全文訳有]

Knowledge mining of unstructured information: application to cyber-domain ( http://arxiv.org/abs/2109.03848v1 )

ライセンス: CC BY 4.0
Tuomas Takko, Kunal Bhattacharya, Martti Lehto, Pertti Jalasvirta, Aapo Cederberg, Kimmo Kaski(参考訳) サイバーインテリジェンスは、脆弱性やインシデントに関する報告を含む多くのオープンソースソースで広く、豊富に利用可能である。 このノイズの多い情報の流れは、さまざまな組織におけるアナリストや調査員の利益のために使われるためには、新しいツールやテクニックを必要とします。 本稿では,サイバードメインにおけるインシデントに関するフリーフォームテキストから関連する情報を抽出するための知識グラフと知識マイニングフレームワークを提案する。 当社のフレームワークには、マシンラーニングベースのパイプラインと、エンティティ、攻撃者、および関連情報を非技術サイバーオントロジーで生成するクローリングメソッドが含まれています。 我々は,我々の知識マイニング手法の正確性とサイバーアナリストの利用におけるフレームワークの有用性を評価するために,公開可能なサイバーインシデントデータセット上でフレームワークをテストした。 本研究は,新たなフレームワークを用いて構築された知識グラフを解析し,様々なエンティティへのリスクや,産業と国家間のリスク伝播の観点から,現在のサイバー環境から追加情報を推測できることを示す。 技術的および運用レベルの情報に対応するフレームワークを拡張することで、ナレッジグラフにおけるトレンドとリスクの正確性と説明可能性を高めることができる。

Cyber intelligence is widely and abundantly available in numerous open online sources with reports on vulnerabilities and incidents. This constant stream of noisy information requires new tools and techniques if it is to be used for the benefit of analysts and investigators in various organizations. In this paper we present and implement a novel knowledge graph and knowledge mining framework for extracting relevant information from free-form text about incidents in the cyber domain. Our framework includes a machine learning based pipeline as well as crawling methods for generating graphs of entities, attackers and the related information with our non-technical cyber ontology. We test our framework on publicly available cyber incident datasets to evaluate the accuracy of our knowledge mining methods as well as the usefulness of the framework in the use of cyber analysts. Our results show analyzing the knowledge graph constructed using the novel framework, an analyst can infer additional information from the current cyber landscape in terms of risk to various entities and the propagation of risk between industries and countries. Expanding the framework to accommodate more technical and operational level information can increase the accuracy and explainability of trends and risk in the knowledge graph.
翻訳日:2021-09-11 11:11:01 公開日:2021-09-08
# (参考訳) 逆例に対するロバスト最適分類木 [全文訳有]

Robust Optimal Classification Trees Against Adversarial Examples ( http://arxiv.org/abs/2109.03857v1 )

ライセンス: CC BY 4.0
Dani\"el Vos and Sicco Verwer(参考訳) 決定木は説明可能なモデルの一般的な選択であるが、ニューラルネットワークと同様に、敵対的な例に悩まされる。 逆の例に対して頑健な決定木を適合させるための既存のアルゴリズムは、欲深いヒューリスティックと近似保証の欠如である。 本稿では,ユーザが特定した攻撃モデルに対して最適に堅牢な決定木を訓練する手法であるROCTを提案する。 逆学習において生じる最小最適化問題は、0-1 の損失を持つ決定木に対する単一の最小化定式化を用いて解くことができることを示す。 本稿では, 線形計画法と最大満足度において, 広く利用可能な解法を最適化できるような定式化を提案する。 また,二成分マッチングを用いた任意のモデルの逆精度の上限を決定する手法を提案する。 実験の結果,既存のヒューリスティックスは最適なスコアに近づき,ROCTは最先端スコアに近づいた。

Decision trees are a popular choice of explainable model, but just like neural networks, they suffer from adversarial examples. Existing algorithms for fitting decision trees robust against adversarial examples are greedy heuristics and lack approximation guarantees. In this paper we propose ROCT, a collection of methods to train decision trees that are optimally robust against user-specified attack models. We show that the min-max optimization problem that arises in adversarial learning can be solved using a single minimization formulation for decision trees with 0-1 loss. We propose such formulations in Mixed-Integer Linear Programming and Maximum Satisfiability, which widely available solvers can optimize. We also present a method that determines the upper bound on adversarial accuracy for any model using bipartite matching. Our experimental results demonstrate that the existing heuristics achieve close to optimal scores while ROCT achieves state-of-the-art scores.
翻訳日:2021-09-11 10:55:22 公開日:2021-09-08
# (参考訳) 部分観測システムに対する安定性保証付き再帰的ニューラルネットワーク制御系

Recurrent Neural Network Controllers Synthesis with Stability Guarantees for Partially Observed Systems ( http://arxiv.org/abs/2109.03861v1 )

ライセンス: CC BY 4.0
Fangda Gu, He Yin, Laurent El Ghaoui, Murat Arcak, Peter Seiler, Ming Jin(参考訳) ニューラルネットワークコントローラは、柔軟性と表現性のおかげで、制御タスクで人気を博している。 安定性は安全クリティカルな力学システムにとって重要な特性であるが、部分的に観測されたシステムの安定化には、多くの場合、コントローラが過去の長期記憶を保持し、処理する必要がある。 本稿では,非線形不確定部分観測システムに対する動的制御としてrnn(recurrent neural network)の重要なクラスを考察し,積分二次制約,s補題,逐次凸化に基づく凸安定性条件を導出する。 学習・制御過程における安定性を確保するため,システムダイナミクスに関する軽度追加情報を利用して,再パラメータ空間における安定条件を反復的に実施する予測型ポリシー勾配法を提案する。 数値実験により,本手法は,より少ないサンプルを用いて制御器の安定化を学習し,政策勾配よりも高い最終性能を達成することを示す。

Neural network controllers have become popular in control tasks thanks to their flexibility and expressivity. Stability is a crucial property for safety-critical dynamical systems, while stabilization of partially observed systems, in many cases, requires controllers to retain and process long-term memories of the past. We consider the important class of recurrent neural networks (RNN) as dynamic controllers for nonlinear uncertain partially-observed systems, and derive convex stability conditions based on integral quadratic constraints, S-lemma and sequential convexification. To ensure stability during the learning and control process, we propose a projected policy gradient method that iteratively enforces the stability conditions in the reparametrized space taking advantage of mild additional information on system dynamics. Numerical experiments show that our method learns stabilizing controllers while using fewer samples and achieving higher final performance compared with policy gradient.
翻訳日:2021-09-11 10:40:17 公開日:2021-09-08
# (参考訳) 少年国家仮説:宝くじ券仮説の研究から何が学べるのか? [全文訳有]

Juvenile state hypothesis: What we can learn from lottery ticket hypothesis researches? ( http://arxiv.org/abs/2109.03862v1 )

ライセンス: CC BY 4.0
Di Zhang(参考訳) 抽選券仮説の提案は、ネットワーク構造と初期化パラメータとニューラルネットワークの学習ポテンシャルの関係を明らかにした。 オリジナルの抽選券仮説は、トレーニング収束後のプルーニングとウェイトリセットを行い、忘れられた学習知識の問題と潜在的な訓練コストに公開する。 そこで本稿では,ニューラルネットワーク構造探索とプルーニングアルゴリズムを併用してこの問題を緩和する戦略を提案する。 このアルゴリズムは、既存の入賞券サブネットワーク上のネットワーク構造を検索して拡張し、新たな入賞券を再帰的に生成する。 これにより、トレーニングとプルーニングプロセスがパフォーマンスを損なうことなく継続できる。 この再帰的な方法で、より深いネットワーク構造、より良い一般化能力、より良いテスト性能を有する新しい入賞切符サブネットワークを得ることができる。 プルーニング後のサブネットワークの訓練や性能低下の難しさ、元の抽選券仮説の重み付けの忘れ、最終ネットワーク構造が与えられていない場合の当選券サブネットワークの生成の難しさを解決できる。 MNISTとCIFAR-10データセットでこの戦略を検証する。 そして,近年の同様の生物学的現象と関連する宝くじの仮説を関連づけた上で,ネットワークの幼少期を維持する要因,すなわちトレーニング中のニューラルネットワークの学習可能性や一般化性能に影響を与える要因について議論する新たな仮説を提案する。

The proposition of lottery ticket hypothesis revealed the relationship between network structure and initialization parameters and the learning potential of neural networks. The original lottery ticket hypothesis performs pruning and weight resetting after training convergence, exposing it to the problem of forgotten learning knowledge and potential high cost of training. Therefore, we propose a strategy that combines the idea of neural network structure search with a pruning algorithm to alleviate this problem. This algorithm searches and extends the network structure on existing winning ticket sub-network to producing new winning ticket recursively. This allows the training and pruning process to continue without compromising performance. A new winning ticket sub-network with deeper network structure, better generalization ability and better test performance can be obtained in this recursive manner. This method can solve: the difficulty of training or performance degradation of the sub-networks after pruning, the forgetting of the weights of the original lottery ticket hypothesis and the difficulty of generating winning ticket sub-network when the final network structure is not given. We validate this strategy on the MNIST and CIFAR-10 datasets. And after relating it to similar biological phenomena and relevant lottery ticket hypothesis studies in recent years, we will further propose a new hypothesis to discuss which factors that can keep a network juvenile, i.e., those possible factors that influence the learning potential or generalization performance of a neural network during training.
翻訳日:2021-09-11 10:26:06 公開日:2021-09-08
# (参考訳) LSB:離散空間におけるローカルセルフバランシングMCMC [全文訳有]

LSB: Local Self-Balancing MCMC in Discrete Spaces ( http://arxiv.org/abs/2109.03867v1 )

ライセンス: CC BY 4.0
Emanuele Sansone(参考訳) マルコフ連鎖モンテカルロ法(mcmc)は、高次元の標的分布からサンプルを得るための有望な解である。 MCMC法は、真の目標への収束と混合を保証するような優れた理論的性質を享受するが、実際、それらのサンプリング効率は提案分布と対象の選択に依存する。 本研究は、純粋離散領域におけるサンプリング効率を向上させるために、機械学習を用いて提案分布をターゲットに適応させることを検討する。 具体的には、(i)局所均衡提案(local balanced proposals)と呼ばれる一連の提案分布に対する新しいパラメトリゼーションを提案し、(ii)相互情報に基づく客観的関数を定義し、(iii)提案のパラメータをターゲットに適応させる学習手順を考案し、高速収束と高速混合を実現する。 得られたサンプルをLSB(Locally Self-Balancing Sampler)と呼ぶ。 イジングモデルとベイズネットワークを実験的に分析した結果、lsbは局所的なバランスのとれた提案に基づく最先端のサンプリング器よりも効率が向上し、収束に必要なイテレーションの数を削減し、同等のミキシング性能を達成できることがわかった。

Markov Chain Monte Carlo (MCMC) methods are promising solutions to sample from target distributions in high dimensions. While MCMC methods enjoy nice theoretical properties, like guaranteed convergence and mixing to the true target, in practice their sampling efficiency depends on the choice of the proposal distribution and the target at hand. This work considers using machine learning to adapt the proposal distribution to the target, in order to improve the sampling efficiency in the purely discrete domain. Specifically, (i) it proposes a new parametrization for a family of proposal distributions, called locally balanced proposals, (ii) it defines an objective function based on mutual information and (iii) it devises a learning procedure to adapt the parameters of the proposal to the target, thus achieving fast convergence and fast mixing. We call the resulting sampler as the Locally Self-Balancing Sampler (LSB). We show through experimental analysis on the Ising model and Bayesian networks that LSB is indeed able to improve the efficiency over a state-of-the-art sampler based on locally balanced proposals, thus reducing the number of iterations required to converge, while achieving comparable mixing performance.
翻訳日:2021-09-11 10:13:44 公開日:2021-09-08
# (参考訳) 要約システムのエンコーダ・デコーダ注意におけるスパーシティと文構造 [全文訳有]

Sparsity and Sentence Structure in Encoder-Decoder Attention of Summarization Systems ( http://arxiv.org/abs/2109.03888v1 )

ライセンス: CC BY 4.0
Potsawee Manakul, Mark J. F. Gales(参考訳) トランスフォーマーモデルは、要約を含む幅広いNLPタスクにおいて最先端の結果を得た。 大規模トランスフォーマーモデルを用いたトレーニングと推論は計算コストが高い。 これまでの研究は、エンコーダの二次的自己保持機構という、重要なボトルネックに重点を置いてきた。 LEDやLoBARTのような改良されたエンコーダアーキテクチャは、この問題に対処するために局所的な注意パターンを使用する。 対照的に、本研究はトランスフォーマのエンコーダ・デコーダの注意機構に焦点を当てている。 この注意のコストは、モデル生成履歴を必要とする推論やトレーニングアプローチにおいてより重要になります。 まず,エンコーダ・デコーダの注意の複雑さについて検討する。 文書要約にスパース文構造があることを実証的に証明し、注意機構を入力文のサブセットに制約し、システム性能を維持しながら活用できることを示した。 第二に,エンコーダ・デコーダの注意を制約する文のサブセットを選択するアーキテクチャを提案する。 CNN/DailyMail、XSum、Spotify Podcast、arXivなど、抽象的な要約タスクの実験が行われている。

Transformer models have achieved state-of-the-art results in a wide range of NLP tasks including summarization. Training and inference using large transformer models can be computationally expensive. Previous work has focused on one important bottleneck, the quadratic self-attention mechanism in the encoder. Modified encoder architectures such as LED or LoBART use local attention patterns to address this problem for summarization. In contrast, this work focuses on the transformer's encoder-decoder attention mechanism. The cost of this attention becomes more significant in inference or training approaches that require model-generated histories. First, we examine the complexity of the encoder-decoder attention. We demonstrate empirically that there is a sparse sentence structure in document summarization that can be exploited by constraining the attention mechanism to a subset of input sentences, whilst maintaining system performance. Second, we propose a modified architecture that selects the subset of sentences to constrain the encoder-decoder attention. Experiments are carried out on abstractive summarization tasks, including CNN/DailyMail, XSum, Spotify Podcast, and arXiv.
翻訳日:2021-09-11 09:55:31 公開日:2021-09-08
# (参考訳) Oracleの同定問題に対する簡易量子アルゴリズム [全文訳有]

Simplified Quantum Algorithm for the Oracle Identification Problem ( http://arxiv.org/abs/2109.03902v1 )

ライセンス: CC BY 4.0
Leila Taghavi(参考訳) oracle の識別問題では、oracle は、未知文字列 $x$ of length $n$ のビットにアクセスでき、既知のセット $c\subseteq\{0,1\}^n$ に属することを約束しています。 目標は,oracleへのクエリを可能な限り少なくして,$x$を識別することだ。 我々は、クエリ複雑性を$O\left(\sqrt {\frac{n\log M }{\log(n/\log M)+1}}\right)$,$M$が$C$である場合、この問題に対する量子クエリアルゴリズムを開発する。 この境界はすでに2014年にKothariによって導かれており、よりエレガントな単純な証明を提供する。

In the oracle identification problem we have oracle access to bits of an unknown string $x$ of length $n$, with the promise that it belongs to a known set $C\subseteq\{0,1\}^n$. The goal is to identify $x$ using as few queries to the oracle as possible. We develop a quantum query algorithm for this problem with query complexity $O\left(\sqrt{\frac{n\log M }{\log(n/\log M)+1}}\right)$, where $M$ is the size of $C$. This bound is already derived by Kothari in 2014, for which we provide a more elegant simpler proof.
翻訳日:2021-09-11 09:40:32 公開日:2021-09-08
# (参考訳) 翻訳品質推定のための微細調整mBERT [全文訳有]

Ensemble Fine-tuned mBERT for Translation Quality Estimation ( http://arxiv.org/abs/2109.03914v1 )

ライセンス: CC BY 4.0
Shaika Chowdhury, Naouel Baili and Brian Vannah(参考訳) 品質推定(qe)は機械翻訳ワークフローの重要な構成要素であり、参照翻訳に相談することなく翻訳出力の品質を評価する。 本稿では,WMT 2021 QE共有タスクの提出について論じる。 我々は第2節の文レベルのサブタスクに参加し、文レベルの後編集作業のHTERスコアを予測する。 提案システムは,入力設定の微調整によって生成される多言語BERT(mBERT)に基づく回帰モデルのアンサンブルである。 ピアソンの相関に匹敵する性能を示し、いくつかの言語対に対してMAE/RMSEのベースラインシステムを破る。 さらに,対象言語対応言語対と擬似参照翻訳を活用し,ゼロショット設定に適応する。

Quality Estimation (QE) is an important component of the machine translation workflow as it assesses the quality of the translated output without consulting reference translations. In this paper, we discuss our submission to the WMT 2021 QE Shared Task. We participate in Task 2 sentence-level sub-task that challenge participants to predict the HTER score for sentence-level post-editing effort. Our proposed system is an ensemble of multilingual BERT (mBERT)-based regression models, which are generated by fine-tuning on different input settings. It demonstrates comparable performance with respect to the Pearson's correlation and beats the baseline system in MAE/ RMSE for several language pairs. In addition, we adapt our system for the zero-shot setting by exploiting target language-relevant language pairs and pseudo-reference translations.
翻訳日:2021-09-11 09:31:08 公開日:2021-09-08
# (参考訳) 世界貿易のマトリックス完成 [全文訳有]

Matrix Completion of World Trade ( http://arxiv.org/abs/2109.03930v1 )

ライセンス: CC BY 4.0
Gnecco Giorgio, Nutarelli Federico, Riccaboni Massimo(参考訳) この研究は、経済的な複雑さを分析するために、推奨システムのコンテキストで一般的に使用される機械学習手法のクラスであるMatrix Completion (MC)を適用する。 mcは、年次貿易フローによって示されるように、特定の種類の製品における国々の相対的な優位性を表現するrcaマトリックスを再構築するために適用される。 MCの応用から、それぞれ上位または下位のRCA行列の要素を識別することを目的とした高精度バイナリ分類器を導出する。 本稿では,MCに基づく経済複雑度の行列cOmpletion iNdex(MONEY)を導入し,各国のRCAの予測可能性(予測可能性の低下,複雑性の増大)に関連付ける。 前述した経済複雑性の指標とは異なり、通貨指数はmcによって再構成された行列の様々な特異ベクトルを考慮に入れるが、他の指標はrca行列から派生した適切な対称行列の1対2の固有ベクトルのみに基づいている。 最後に、MCは最先端の経済複雑性指標(GENEPY)と比較される。 平均的なmcの入出力から構築した2進分類器の国あたりの偽陽性率は、ジュネーピーの代理として使用できることを示す。

This work applies Matrix Completion (MC) -- a class of machine-learning methods commonly used in the context of recommendation systems -- to analyse economic complexity. MC is applied to reconstruct the Revealed Comparative Advantage (RCA) matrix, whose elements express the relative advantage of countries in given classes of products, as evidenced by yearly trade flows. A high-accuracy binary classifier is derived from the application of MC, with the aim of discriminating between elements of the RCA matrix that are, respectively, higher or lower than one. We introduce a novel Matrix cOmpletion iNdex of Economic complexitY (MONEY) based on MC, which is related to the predictability of countries' RCA (the lower the predictability, the higher the complexity). Differently from previously-developed indices of economic complexity, the MONEY index takes into account the various singular vectors of the matrix reconstructed by MC, whereas other indices are based only on one/two eigenvectors of a suitable symmetric matrix, derived from the RCA matrix. Finally, MC is compared with a state-of-the-art economic complexity index (GENEPY). We show that the false positive rate per country of a binary classifier constructed starting from the average entry-wise output of MC can be used as a proxy of GENEPY.
翻訳日:2021-09-11 09:22:18 公開日:2021-09-08
# (参考訳) nu:brief - パブリッシャーのためのプライバシーを意識したニュースレターパーソナライズエンジン [全文訳有]

NU:BRIEF -- A Privacy-aware Newsletter Personalization Engine for Publishers ( http://arxiv.org/abs/2109.03955v1 )

ライセンス: CC BY-SA 4.0
Ernesto Diaz-Aviles and Claudia Orellana-Rodriguez and Igor Brigadir and Reshma Narayanan Kutty(参考訳) ニュースレターは(再び)パブリッシャーが読者と直接的かつ効果的に連携するための強力なツールとして登場した。 オーディエンスの多様性にもかかわらず、パブリッシャーのニュースレターは、ほとんどが1サイズに適合するサービスであり、最適ではない。 本稿では、ニュースレターを個人データを取り込むことなくパーソナライズできるパブリッシャー向けwebアプリケーションnu:briefを提案する。 パーソナライズされたニュースレターは、広告/クリックベイト中心のビジネスモデルを減らし、読者が生成する収益モデルに代わる、パブリッシャーにとって素晴らしい変換ツールとなる。

Newsletters have (re-) emerged as a powerful tool for publishers to engage with their readers directly and more effectively. Despite the diversity in their audiences, publishers' newsletters remain largely a one-size-fits-all offering, which is suboptimal. In this paper, we present NU:BRIEF, a web application for publishers that enables them to personalize their newsletters without harvesting personal data. Personalized newsletters build a habit and become a great conversion tool for publishers, providing an alternative readers-generated revenue model to a declining ad/clickbait-centere d business model.
翻訳日:2021-09-11 08:53:01 公開日:2021-09-08
# (参考訳) AdjointNet:物理ベースのコードによる機械学習モデルの制約 [全文訳有]

AdjointNet: Constraining machine learning models with physics-based codes ( http://arxiv.org/abs/2109.03956v1 )

ライセンス: CC BY 4.0
Satish Karra, Bulbul Ahmmed, and Maruti K. Mudunuru(参考訳) 物理インフォームド機械学習は、最近、シミュレーションや観測データから物理パラメータや特徴を学習するのに魅力的なものになっている。 しかし、既存の方法の多くは、平衡の法則(質量、運動量、エネルギー保存など)が制約されていることを保証していない。 いくつかの最近の研究(例えば、物理インフォームドニューラルネットワーク)は、偏微分方程式(PDE)に基づく損失関数を含むことで、物理の制約をソフトに強制するが、自動微分を用いたPDEの再離散化が必要である。 これらのニューラルネットを観測データで訓練すると、1ショットで前方と逆の問題を解くことができた。 彼らはPDEの状態変数とパラメータを評価します。 PDEの再離散化は、複雑なプロセスモデルと高度な状態方程式を解くための高度な離散化技術を用いて何十年も開発されてきた物理ベースのコードを扱うドメイン科学者にとって、必ずしも魅力的な選択肢ではない。 本稿では、物理科学者がニューラルネットワークのトレーニングワークフローに物理コードを組み込むことができる物理制約付き機械学習フレームワークadjointnetを提案する。 この埋め込みにより、物理学は領域の至る所で制約される。 さらに、PDEの数値解に不可欠な一貫性、安定性、収束といった数学的性質も満たされている。 提案するAdjointNetフレームワークは,パラメータ推定(および拡張による不確実性定量化)と,アクティブラーニングを用いた実験設計に利用できることを示す。 本フレームワークの適用性は4つのフローケースに適用可能である。 その結果、AdjointNetベースの逆変換はプロセスモデルパラメータを妥当な精度で推定できることがわかった。 これらの例は、モデルパラメータの正確かつ信頼性の高い反転を実行するために、ソースコードを変更することなく既存のソフトウェアを使用することの適用性を示している。

Physics-informed Machine Learning has recently become attractive for learning physical parameters and features from simulation and observation data. However, most existing methods do not ensure that the physics, such as balance laws (e.g., mass, momentum, energy conservation), are constrained. Some recent works (e.g., physics-informed neural networks) softly enforce physics constraints by including partial differential equation (PDE)-based loss functions but need re-discretization of the PDEs using auto-differentiation . Training these neural nets on observational data showed that one could solve forward and inverse problems in one shot. They evaluate the state variables and the parameters in a PDE. This re-discretization of PDEs is not necessarily an attractive option for domain scientists that work with physics-based codes that have been developed for decades with sophisticated discretization techniques to solve complex process models and advanced equations of state. This paper proposes a physics constrained machine learning framework, AdjointNet, allowing domain scientists to embed their physics code in neural network training workflows. This embedding ensures that physics is constrained everywhere in the domain. Additionally, the mathematical properties such as consistency, stability, and convergence vital to the numerical solution of a PDE are still satisfied. We show that the proposed AdjointNet framework can be used for parameter estimation (and uncertainty quantification by extension) and experimental design using active learning. The applicability of our framework is demonstrated for four flow cases. Results show that AdjointNet-based inversion can estimate process model parameters with reasonable accuracy. These examples demonstrate the applicability of using existing software with no changes in source code to perform accurate and reliable inversion of model parameters.
翻訳日:2021-09-11 08:46:44 公開日:2021-09-08
# (参考訳) TrAISformer-AIS軌道予測のための生成変換器 [全文訳有]

TrAISformer-A generative transformer for AIS trajectory prediction ( http://arxiv.org/abs/2109.03958v1 )

ライセンス: CC BY 4.0
Duong Nguyen and Ronan Fablet(参考訳) 一般的には軌道のモデル化,特に船体軌道のモデル化は,運動データのマルチモーダルで複雑な性質のため難しい作業である。 本稿では,AIS(Automatic Identification System)観測による血管位置の予測が可能な,新しいディープラーニングアーキテクチャTrAISformerを提案する。 本稿では,aisデータの離散表現を導入し,回帰問題である予測を分類問題として再枠組み化することで,マルチモーダリティに対処する。 モデルでは,高次元ベクトルにおけるAISデータの複雑な動きパターンを符号化し,それらの埋め込み配列から有用な長期相関関係を抽出するトランスフォーマーを適用した。 AISデータを用いた実験の結果,TrAISformerは最先端の手法よりも優れていた。

Modelling trajectory in general, and vessel trajectory in particular, is a difficult task because of the multimodal and complex nature of motion data. In this paper, we present TrAISformer-a novel deep learning architecture that can forecast vessel positions using AIS (Automatic Identification System) observations. We address the multimodality by introducing a discrete representation of AIS data and re-frame the prediction, which is originally a regression problem, as a classification problem. The model encodes complex movement patterns in AIS data in high-dimensional vectors, then applies a transformer to extract useful long-term correlations from sequences of those embeddings to sample future vessel positions. Experimental results on real, public AIS data demonstrate that TrAISformer significantly outperforms state-of-the-art methods.
翻訳日:2021-09-11 08:27:40 公開日:2021-09-08
# Retrieve, Caption, Generate: テキスト生成モデルにおけるコモンセンス強化のためのビジュアルグラウンド

Retrieve, Caption, Generate: Visual Grounding for Enhancing Commonsense in Text Generation Models ( http://arxiv.org/abs/2109.03892v1 )

ライセンス: Link先を確認
Steven Y. Feng, Kevin Lu, Zhuofu Tao, Malihe Alikhani, Teruko Mitamura, Eduard Hovy, Varun Gangal(参考訳) テキスト生成におけるトランスフォーマーモデルのコモンセンス向上のための効果的な手法として,画像に含まれるマルチモーダル情報の利用を検討する。 本稿では,BARTとT5を用いた概念テキスト生成実験,特に生成コモンセンス推論(CommonGen)の課題について述べる。 われわれのアプローチをVisCTG: Visually Grounded Concept-to-Text Generationと呼んでいる。 VisCTGは、適切な日常シナリオを表す画像のキャプションを行い、これらのキャプションを使用して生成プロセスを強化し、管理する。 包括的評価と分析により、VisCTGはモデル性能を著しく向上し、コモンセンス、流布度、特異性など、ベースライン世代におけるいくつかの問題に対処することに成功した。

We investigate the use of multimodal information contained in images as an effective method for enhancing the commonsense of Transformer models for text generation. We perform experiments using BART and T5 on concept-to-text generation, specifically the task of generative commonsense reasoning, or CommonGen. We call our approach VisCTG: Visually Grounded Concept-to-Text Generation. VisCTG involves captioning images representing appropriate everyday scenarios, and using these captions to enrich and steer the generation process. Comprehensive evaluation and analysis demonstrate that VisCTG noticeably improves model performance while successfully addressing several issues of the baseline generations, including poor commonsense, fluency, and specificity.
翻訳日:2021-09-10 14:38:52 公開日:2021-09-08
# 自然言語推論改善のための構造化知識を用いた教師なし事前学習

Unsupervised Pre-training with Structured Knowledge for Improving Natural Language Inference ( http://arxiv.org/abs/2109.03941v1 )

ライセンス: Link先を確認
Xiaoyu Yang, Xiaodan Zhu, Zhan Shi, Tianda Li(参考訳) 最近の自然言語推論の研究は、大きな注釈付きデータセットからかなり恩恵を受けているが、注釈付きデータに提供される推論関連知識(常識を含む)の量は、いまだに限られている。 1)教師なし事前学習は、はるかに大きな構造化されていないテキストデータにおける知識を活用することができ、(2)NLIのニューラルネットワークベースのモデルでは、構造化された(しばしば人為的な)知識が考慮され始めています。 直近の疑問は、これらの2つのアプローチが相互に補完するかどうか、またはそれらの利点をまとめるモデルをどのように開発するかである。 本稿では,事前学習モデルの異なるコンポーネントにおける構造化知識を活用するモデルを提案する。 その結果,提案手法は従来のBERTモデルよりも優れた性能を示した。 我々のモデルはNLIのために提案されているが、他の文や文対分類問題にも容易に拡張できる。

While recent research on natural language inference has considerably benefited from large annotated datasets, the amount of inference-related knowledge (including commonsense) provided in the annotated data is still rather limited. There have been two lines of approaches that can be used to further address the limitation: (1) unsupervised pretraining can leverage knowledge in much larger unstructured text data; (2) structured (often human-curated) knowledge has started to be considered in neural-network-based models for NLI. An immediate question is whether these two approaches complement each other, or how to develop models that can bring together their advantages. In this paper, we propose models that leverage structured knowledge in different components of pre-trained models. Our results show that the proposed models perform better than previous BERT-based state-of-the-art models. Although our models are proposed for NLI, they can be easily extended to other sentence or sentence-pair classification problems.
翻訳日:2021-09-10 14:38:38 公開日:2021-09-08
# ランダムに重なったトランスに何が隠されているのか?

What's Hidden in a One-layer Randomly Weighted Transformer? ( http://arxiv.org/abs/2109.03939v1 )

ライセンス: Link先を確認
Sheng Shen, Zhewei Yao, Douwe Kiela, Kurt Keutzer and Michael W. Mahoney(参考訳) 1層にランダムに重み付けされたニューラルネットワーク内に隠されたサブネットワークは、機械翻訳タスクにおいて重み付け初期化を変更することなく、優れたパフォーマンスを達成することができる。 一層重み付けニューラルネットワークのサブネットワークを見つけるために、同じ重み行列に異なる二層マスクを適用して異なる層を生成する。 IWSLT14/WMT14上で29.45/17.29BLEUを達成できるサブネットが1層にランダムに重み付けされたトランスフォーマー内に隠れている。 固定された事前学習された埋め込み層を使用することで、以前に発見されたサブネットワークは98%/92% (34.14/25.24 bleu) の性能と一致し、iwslt14/wmt14上の訓練されたトランスフォーマー/ベースである。 さらに、この設定において、より大きくより深い変換器の有効性と、異なる初期化方法の影響を実証する。 ソースコードはhttps://github.com/ sincerass/one_layer_ lottery_ticketで公開しました。

We demonstrate that, hidden within one-layer randomly weighted neural networks, there exist subnetworks that can achieve impressive performance, without ever modifying the weight initializations, on machine translation tasks. To find subnetworks for one-layer randomly weighted neural networks, we apply different binary masks to the same weight matrix to generate different layers. Hidden within a one-layer randomly weighted Transformer, we find that subnetworks that can achieve 29.45/17.29 BLEU on IWSLT14/WMT14. Using a fixed pre-trained embedding layer, the previously found subnetworks are smaller than, but can match 98%/92% (34.14/25.24 BLEU) of the performance of, a trained Transformer small/base on IWSLT14/WMT14. Furthermore, we demonstrate the effectiveness of larger and deeper transformers in this setting, as well as the impact of different initialization methods. We released the source code at https://github.com/s Incerass/one_layer_l ottery_ticket.
翻訳日:2021-09-10 14:35:20 公開日:2021-09-08
# 配電系統におけるボルトバリア制御のための強化学習環境PowerGym

PowerGym: A Reinforcement Learning Environment for Volt-Var Control in Power Distribution Systems ( http://arxiv.org/abs/2109.03970v1 )

ライセンス: Link先を確認
Ting-Han Fan, Xian Yeow Lee, Yubo Wang(参考訳) 配電系統におけるvolt-var制御のためのオープンソースの強化学習環境powergymを紹介する。 OpenAI Gym APIに続いて、PowerGymは物理的ネットワーク制約下での電力損失と電圧違反を最小限にする。 PowerGymはIEEEベンチマークシステムに基づく4つの分散システム (13Bus, 34Bus, 123Bus, 8500Node) と様々な制御困難のための設計変種を提供する。 一般化を促進するため、PowerGymは配布システムで作業するユーザに対して詳細なカスタマイズガイドを提供する。 実演として,powergymにおける最先端強化学習アルゴリズムを検証し,コントローラの動作を解析し,環境の検証を行った。

We introduce PowerGym, an open-source reinforcement learning environment for Volt-Var control in power distribution systems. Following OpenAI Gym APIs, PowerGym targets minimizing power loss and voltage violations under physical networked constraints. PowerGym provides four distribution systems (13Bus, 34Bus, 123Bus, and 8500Node) based on IEEE benchmark systems and design variants for various control difficulties. To foster generalization, PowerGym offers a detailed customization guide for users working with their distribution systems. As a demonstration, we examine state-of-the-art reinforcement learning algorithms in PowerGym and validate the environment by studying controller behaviors.
翻訳日:2021-09-10 14:30:48 公開日:2021-09-08
# U曲線アルゴリズムによるデータから空間を学習する:モデル選択のための統計的に一貫した複雑性正規化器

Learning the hypotheses space from data through a U-curve algorithm: a statistically consistent complexity regularizer for Model Selection ( http://arxiv.org/abs/2109.03866v1 )

ライセンス: Link先を確認
Diego Marcondes, Adilson Simonis and Junior Barrera(参考訳) 本稿では,従来のPAC学習モデルの拡張であるモデル選択に対する,データ駆動型,一貫性,非排他的アプローチを提案する。 このアプローチでは、学習問題は、仮説空間 $\mathcal{h}$ だけでなく、モデル選択アルゴリズムに適した代数的探索空間 $\mathbb{l}(\mathcal{h})$ によってモデル化される。 我々の主な貢献は、$\mathbb{L}(\mathcal{H})$上で正規化モデル選択を行うためのデータ駆動の一般学習アルゴリズムと、$\mathbb{L}(\mathcal{H})$を適切にモデル化し、高い計算力を利用することで、理論上、所定のサンプルサイズでターゲット仮説をより正確に推定できるフレームワークである。 このアプローチの顕著な結果は、$\mathbb{l}(\mathcal{h})$ の非排他的探索が最適な解を返すことができる条件である。 本稿では,実験データの欠如が計算能力の向上によって緩和される可能性があるという,機械学習の実践的特性を導いた。 計算能力の継続的な普及という文脈において、この性質は、なぜ機械学習がこれほど重要になったのか、たとえデータが高価で入手が難しいのかを理解するのに役立ちます。

This paper proposes a data-driven systematic, consistent and non-exhaustive approach to Model Selection, that is an extension of the classical agnostic PAC learning model. In this approach, learning problems are modeled not only by a hypothesis space $\mathcal{H}$, but also by a Learning Space $\mathbb{L}(\mathcal{H})$, a poset of subspaces of $\mathcal{H}$, which covers $\mathcal{H}$ and satisfies a property regarding the VC dimension of related subspaces, that is a suitable algebraic search space for Model Selection algorithms. Our main contributions are a data-driven general learning algorithm to perform regularized Model Selection on $\mathbb{L}(\mathcal{H})$ and a framework under which one can, theoretically, better estimate a target hypothesis with a given sample size by properly modeling $\mathbb{L}(\mathcal{H})$ and employing high computational power. A remarkable consequence of this approach are conditions under which a non-exhaustive search of $\mathbb{L}(\mathcal{H})$ can return an optimal solution. The results of this paper lead to a practical property of Machine Learning, that the lack of experimental data may be mitigated by a high computational capacity. In a context of continuous popularization of computational power, this property may help understand why Machine Learning has become so important, even where data is expensive and hard to get.
翻訳日:2021-09-10 14:30:01 公開日:2021-09-08
# SORNet:逐次操作のための空間オブジェクト中心表現

SORNet: Spatial Object-Centric Representations for Sequential Manipulation ( http://arxiv.org/abs/2109.03891v1 )

ライセンス: Link先を確認
Wentao Yuan, Chris Paxton, Karthik Desingh, Dieter Fox(参考訳) 逐次的な操作タスクでは、ロボットが環境の状態を認識し、望ましい目標状態につながる一連のアクションを計画する必要がある。 事前の作業は、明示的な状態推定や、新しいオブジェクトでのエンドツーエンドの学習の苦労に依存する。 本研究では,対象物の標準視に基づくRGB画像からオブジェクト中心表現を抽出するSORNet(Spatial Object-Centric Representation Network)を提案する。 SORNetが学習したオブジェクト埋め込みは,空間的関係分類,スキル条件分類,相対方向回帰という3つの空間的推論タスクにおいてゼロショットから未確認のオブジェクトエンティティを一般化する。 さらに,逐次操作のためのタスク計画における学習対象埋め込みの利用を実世界ロボット実験で実証する。

Sequential manipulation tasks require a robot to perceive the state of an environment and plan a sequence of actions leading to a desired goal state, where the ability to reason about spatial relationships among object entities from raw sensor inputs is crucial. Prior works relying on explicit state estimation or end-to-end learning struggle with novel objects. In this work, we propose SORNet (Spatial Object-Centric Representation Network), which extracts object-centric representations from RGB images conditioned on canonical views of the objects of interest. We show that the object embeddings learned by SORNet generalize zero-shot to unseen object entities on three spatial reasoning tasks: spatial relationship classification, skill precondition classification and relative direction regression, significantly outperforming baselines. Further, we present real-world robotic experiments demonstrating the usage of the learned object embeddings in task planning for sequential manipulation.
翻訳日:2021-09-10 14:25:08 公開日:2021-09-08
# 平均二乗解析とLangevin Monte Carloの最適次元依存性への応用

Mean-Square Analysis with An Application to Optimal Dimension Dependence of Langevin Monte Carlo ( http://arxiv.org/abs/2109.03839v1 )

ライセンス: Link先を確認
Ruilin Li, Hongyuan Zha, Molei Tao(参考訳) 確率微分方程式(SDE)の離散化に基づくサンプリングアルゴリズムは、MCMC法のリッチで一般的なサブセットを構成する。 この研究は、2-wasserstein距離におけるサンプリング誤差の非漸近的解析のための一般的な枠組みを提供する。 この方法は、契約型SDEの任意の一貫した離散化に適用できる。 ランジュバン・モンテカルロアルゴリズムに適用すると、通常の対数-スムースおよび対数-強凸条件の下で、温暖なスタートのない$\tilde{\mathcal{o}}\left( \frac{\sqrt{d}}{\epsilon} \right)$混合時間と、無限遠における目標測度のポテンシャルの3階微分に対する成長条件が確立される。 この境界は、最もよく知られた$\tilde{\mathcal{O}}\left( \frac{d}{\epsilon} \right)$の結果を改善し、上記の仮定を満たすターゲット測度に対して、次元$d$と精度トレランス$\epsilon$の両方で最適である。 我々の理論解析は数値実験によってさらに検証される。

Sampling algorithms based on discretizations of Stochastic Differential Equations (SDEs) compose a rich and popular subset of MCMC methods. This work provides a general framework for the non-asymptotic analysis of sampling error in 2-Wasserstein distance, which also leads to a bound of mixing time. The method applies to any consistent discretization of contractive SDEs. When applied to Langevin Monte Carlo algorithm, it establishes $\tilde{\mathcal{O}}\left( \frac{\sqrt{d}}{\epsilon} \right)$ mixing time, without warm start, under the common log-smooth and log-strongly-convex conditions, plus a growth condition on the 3rd-order derivative of the potential of target measures at infinity. This bound improves the best previously known $\tilde{\mathcal{O}}\left( \frac{d}{\epsilon} \right)$ result and is optimal (in terms of order) in both dimension $d$ and accuracy tolerance $\epsilon$ for target measures satisfying the aforementioned assumptions. Our theoretical analysis is further validated by numerical experiments.
翻訳日:2021-09-10 14:23:02 公開日:2021-09-08
# コリファレンス解決と機械翻訳のための大規模ジェンダーバイアスデータセットの収集

Collecting a Large-Scale Gender Bias Dataset for Coreference Resolution and Machine Translation ( http://arxiv.org/abs/2109.03858v1 )

ライセンス: Link先を確認
Shahar Levy, Koren Lazar, abriel Stanovsky(参考訳) 近年の研究では、主に合成診断データセットを用いた機械翻訳と共参照分解のモデルにおけるジェンダーバイアスの証拠が見つかっている。 これらは、制御された実験でバイアスを定量化するが、小規模で、主に人工的な分散文からなることが多い。 本研究では,3つのドメインのコーパスにおけるステレオタイプおよび非ステレオタイプなジェンダーロール(例えば,女性看護師と男性ダンサー)の割り当てを示す文法的パターンを見出した。 我々は、コーパスの品質を手動で検証し、様々なコア参照解像度と機械翻訳モデルにおける性別バイアスを評価する。 テストされたモデルはすべて、自然入力が提示された場合に性ステレオタイプに過度に依存する傾向にあり、商用システムでは特に有害である可能性がある。 最後に、データセットが共参照解決モデルの微調整に役立ち、保持されたセットのバイアスを軽減できることを示します。 我々のデータセットとモデルはwww.github.com/SLAB- NLP/BUGで公開されています。 現実的な環境でのジェンダーバイアス評価の緩和技術の研究を加速させることを願っている。

Recent works have found evidence of gender bias in models of machine translation and coreference resolution using mostly synthetic diagnostic datasets. While these quantify bias in a controlled experiment, they often do so on a small scale and consist mostly of artificial, out-of-distribution sentences. In this work, we find grammatical patterns indicating stereotypical and non-stereotypical gender-role assignments (e.g., female nurses versus male dancers) in corpora from three domains, resulting in a first large-scale gender bias dataset of 108K diverse real-world English sentences. We manually verify the quality of our corpus and use it to evaluate gender bias in various coreference resolution and machine translation models. We find that all tested models tend to over-rely on gender stereotypes when presented with natural inputs, which may be especially harmful when deployed in commercial systems. Finally, we show that our dataset lends itself to finetuning a coreference resolution model, finding it mitigates bias on a held out set. Our dataset and models are publicly available at www.github.com/SLAB- NLP/BUG. We hope they will spur future research into gender bias evaluation mitigation techniques in realistic settings.
翻訳日:2021-09-10 14:22:37 公開日:2021-09-08
# ELIT:エモリー言語と情報ツールキット

ELIT: Emory Language and Information Toolkit ( http://arxiv.org/abs/2109.03903v1 )

ライセンス: Link先を確認
Han He and Liyan Xu and Jinho D. Choi(参考訳) 我々はELIT, Emory Language and Information Toolkitを紹介した。これはコアタスクのためのトランスフォーマーベースのエンドツーエンドモデルを提供する包括的NLPフレームワークで, 最先端の精度とスピードを維持しつつ, メモリ効率に特化している。 既存のツールキットと比較して、ELITは効率のよいマルチタスク学習(MTL)モデルを備えており、レムマティゼーション、部分音声タグ付け、名前付きエンティティ認識、依存性解析、候補解析、セマンティックロールラベリング、AMR解析など多くの下流タスクがある。 ELITのMTLフレームワークのバックボーンは、トレーニング済みのトランスフォーマーエンコーダで、タスク間で共有され、推論を高速化する。 ELITは、8つのデータセットのリミックスに基づいて開発された事前訓練されたモデルを提供する。 サービスのスケールアップには、RESTful Client/Serverの組み合わせも統合されている。 サーバ側では、elitはその機能をトークン化やコリファレンス解決といった他のタスクをカバーするように拡張し、エンドユーザにアジャイルリサーチエクスペリエンスを提供する。 ソースコード、ドキュメンテーション、事前訓練済みモデルを含むすべてのリソースはhttps://github.com/e morynlp/elit.comで公開されている。

We introduce ELIT, the Emory Language and Information Toolkit, which is a comprehensive NLP framework providing transformer-based end-to-end models for core tasks with a special focus on memory efficiency while maintaining state-of-the-art accuracy and speed. Compared to existing toolkits, ELIT features an efficient Multi-Task Learning (MTL) model with many downstream tasks that include lemmatization, part-of-speech tagging, named entity recognition, dependency parsing, constituency parsing, semantic role labeling, and AMR parsing. The backbone of ELIT's MTL framework is a pre-trained transformer encoder that is shared across tasks to speed up their inference. ELIT provides pre-trained models developed on a remix of eight datasets. To scale up its service, ELIT also integrates a RESTful Client/Server combination. On the server side, ELIT extends its functionality to cover other tasks such as tokenization and coreference resolution, providing an end user with agile research experience. All resources including the source codes, documentation, and pre-trained models are publicly available at https://github.com/e morynlp/elit.
翻訳日:2021-09-10 14:22:17 公開日:2021-09-08
# 大規模言語モデルを用いた任意のテキストスタイル転送のためのレシピ

A Recipe For Arbitrary Text Style Transfer with Large Language Models ( http://arxiv.org/abs/2109.03910v1 )

ライセンス: Link先を確認
Emily Reif, Daphne Ippolito, Ann Yuan, Andy Coenen, Chris Callison-Burch, Jason Wei(参考訳) 本稿では,大言語モデル(LM)を用いてゼロショットテキストスタイルの転送を行う。 文書き換えタスクとしてスタイル転送をフレーム化し,ターゲットスタイルの微調整や模範を行なわずに自然言語命令のみを必要とする拡張ゼロショット学習と呼ばれるプロンプト手法を提案する。 拡張されたゼロショット学習は単純であり、感情のような標準的なスタイル転送タスクだけでなく、"このメロドラマ的"や"メタファー"のような任意の変換にも有望な結果をもたらす。

In this paper, we leverage large language models (LMs) to perform zero-shot text style transfer. We present a prompting method that we call augmented zero-shot learning, which frames style transfer as a sentence rewriting task and requires only a natural language instruction, without model fine-tuning or exemplars in the target style. Augmented zero-shot learning is simple and demonstrates promising results not just on standard style transfer tasks such as sentiment, but also on arbitrary transformations such as "make this melodramatic" or "insert a metaphor."
翻訳日:2021-09-10 14:21:53 公開日:2021-09-08
# ループの変圧器:言語のニューラルモデルにおける極性

Transformers in the loop: Polarity in neural models of language ( http://arxiv.org/abs/2109.03926v1 )

ライセンス: Link先を確認
Lisa Bylinina, Alexey Tikhonov(参考訳) 計算言語モデルにおける言語現象の表現は通常、これらの現象の既存の言語理論の予測に対して評価される。 極性の概念をケーススタディとして使用することで、これは必ずしも適切な設定ではないことを示す。 我々は,2つの事前学習されたトランスフォーマーモデル(bertとgpt-2)において,いわゆる「負極性項目」(特に英語の「any」)を介して極性を調べる。 少なくとも極性については、言語モデルから派生したメトリクスは、言語理論の予測よりも精神言語実験のデータと一致していることを示す。 これにより、言語モデルの性能をより適切に評価し、言語モデルを使用して、既存の言語理論を超えて、自然言語文法に対する新たな洞察を発見することができる。 総じて,本研究は,人体実験と言語モデルとの密接な関係を助長する。 実験パイプラインの一部として,言語モデルとの密接な連携を可能にする手法を提案し,このパイプラインの動作を示す。

Representation of linguistic phenomena in computational language models is typically assessed against the predictions of existing linguistic theories of these phenomena. Using the notion of polarity as a case study, we show that this is not always the most adequate set-up. We probe polarity via so-called 'negative polarity items' (in particular, English 'any') in two pre-trained Transformer-based models (BERT and GPT-2). We show that -- at least for polarity -- metrics derived from language models are more consistent with data from psycholinguistic experiments than linguistic theory predictions. Establishing this allows us to more adequately evaluate the performance of language models and also to use language models to discover new insights into natural language grammar beyond existing linguistic theories. Overall, our results encourage a closer tie between experiments with human subjects and with language models. We propose methods to enable this closer tie, with language models as part of experimental pipeline, and show this pipeline at work.
翻訳日:2021-09-10 14:21:43 公開日:2021-09-08
# ソラニ・クルド語の形式的記述

A Formal Description of Sorani Kurdish Morphology ( http://arxiv.org/abs/2109.03942v1 )

ライセンス: Link先を確認
Sina Ahmadi(参考訳) ソラニ・クルディッシュ(Sorani Kurdish)または中央クルディッシュ(Central Kurdish)は複雑な形態を持ち、特に形態素が現れるパターンのためである。 プロノミナルな内分泌学やイザファ構造など、クルド語の形態学のいくつかの側面が研究されているが、ソルニ・クルド語の形態学は計算言語学において自明な注目を集めている。 さらに、強調内分泌型 =\^i\c{s} や導出型 morphem のようないくつかの形態素は以前にも研究されていない。 ソラニの複雑な形態学に取り組むため、ソラニ・クルド語の形態学的および形態フォフォフォロジー的構成を形式的に記述し、形態素解析と合成のための有限状態トランスデューサとして使用できる。

Sorani Kurdish, also known as Central Kurdish, has a complex morphology, particularly due to the patterns in which morphemes appear. Although several aspects of Kurdish morphology have been studied, such as pronominal endoclitics and Izafa constructions, Sorani Kurdish morphology has received trivial attention in computational linguistics. Moreover, some morphemes, such as the emphasis endoclitic =\^i\c{s}, and derivational morphemes have not been previously studied. To tackle the complex morphology of Sorani, we provide a thorough description of Sorani Kurdish morphological and morphophonological constructions in a formal way such that they can be used as finite-state transducers for morphological analysis and synthesis.
翻訳日:2021-09-10 14:21:25 公開日:2021-09-08
# 注意介入による公正な判断

Attributing Fair Decisions with Attention Interventions ( http://arxiv.org/abs/2109.03952v1 )

ライセンス: Link先を確認
Ninareh Mehrabi, Umang Gupta, Fred Morstatter, Greg Ver Steeg, Aram Galstyan(参考訳) 医療や仮釈放決定システムなど、連続した領域における人工知能(AI)の普及は、これらの手法の公正性について精査している。 しかし、公正性の確保は、論争的な決定の根拠を監査し、理解し、守らなければならないため、しばしば不十分である。 注意機構は,意思決定の方法を考慮した特徴帰属を同時に提供しながら,公平な成果の確保に利用可能である。 この目標に向けて,属性フレームワークとして活用可能な注目モデルの設計を行う。 注意介入と注意重み操作によって、モデルの性能と公平性の両方に責任を負う特徴を特定することができる。 この属性フレームワークを使用して、後処理のバイアス軽減戦略を設計し、ベースラインのスイートと比較する。 我々は,2つの異なるデータ型である表型とテキスト型について実験を行い,このアプローチの汎用性を示す。

The widespread use of Artificial Intelligence (AI) in consequential domains, such as healthcare and parole decision-making systems, has drawn intense scrutiny on the fairness of these methods. However, ensuring fairness is often insufficient as the rationale for a contentious decision needs to be audited, understood, and defended. We propose that the attention mechanism can be used to ensure fair outcomes while simultaneously providing feature attributions to account for how a decision was made. Toward this goal, we design an attention-based model that can be leveraged as an attribution framework. It can identify features responsible for both performance and fairness of the model through attention interventions and attention weight manipulation. Using this attribution framework, we then design a post-processing bias mitigation strategy and compare it with a suite of baselines. We demonstrate the versatility of our approach by conducting experiments on two distinct data types, tabular and textual.
翻訳日:2021-09-10 14:17:26 公開日:2021-09-08
# OSSR-PID:パスサンプリングとGCNを用いたP&IDシートのワンショットシンボル認識

OSSR-PID: One-Shot Symbol Recognition in P&ID Sheets using Path Sampling and GCN ( http://arxiv.org/abs/2109.03849v1 )

ライセンス: Link先を確認
Shubham Paliwal, Monika Sharma and Lovekesh Vig(参考訳) P&ID (Piping and Instrumentation Diagrams) は、いくつかの製造業、石油、ガス企業において、設計図や機器のレイアウトを表すために広く使われている。 新たなユースケースごとにさまざまなシンボルセットをアノテートするコストを必要とせずに、p&idから情報を抽出してデジタル化する緊急の要求がある。 シンボル認識のための堅牢なワンショット学習アプローチ、すなわち、ローカライゼーションと分類が続くと、この目標に向かって長い道のりが進む。 本手法は,画像の輪郭境界に沿って連続的に画素をサンプリングする。 これらのサンプリングされた点は、原型線図で使われる経路を形成し、輪郭の構造を捉えるグラフを構成する。 その後、原型グラフは動的グラフ畳み込みニューラルネットワーク(DGCNN)に入力され、グラフを与えられたシンボルクラスの1つに分類するように訓練される。 さらに,サンプル点を含むシンボル画像に基づいてトレーニングしたResnet-34ネットワークからの埋め込みを付加することで,分類ネットワークをより堅牢にする。 P&IDの多くのシンボルは構造的に非常によく似ているため、DGCNNトレーニング中にArcface損失を利用して、高度に識別可能な埋め込みを生成することで、シンボルクラス分離性を最大化する。 画像はパイプライン(直線)に取り付けられたコンポーネントで構成される。 シンボル領域の周りに分離されたサンプル点を分類タスクに使用する。 提案したパイプラインはOSSR-PIDと呼ばれ、100のP&IDダイアグラムの合成データセット上でシンボルの認識に優れた性能を提供する。 また,12枚のP&IDシートからなる実世界のプライベートデータセットの事前処理との比較を行い,比較・比較結果を得た。 驚くべきことに、シンボルごとに1つの原型的な例だけで、このような優れたパフォーマンスを達成できます。

Piping and Instrumentation Diagrams (P&ID) are ubiquitous in several manufacturing, oil and gas enterprises for representing engineering schematics and equipment layout. There is an urgent need to extract and digitize information from P&IDs without the cost of annotating a varying set of symbols for each new use case. A robust one-shot learning approach for symbol recognition i.e., localization followed by classification, would therefore go a long way towards this goal. Our method works by sampling pixels sequentially along the different contour boundaries in the image. These sampled points form paths which are used in the prototypical line diagram to construct a graph that captures the structure of the contours. Subsequently, the prototypical graphs are fed into a Dynamic Graph Convolutional Neural Network (DGCNN) which is trained to classify graphs into one of the given symbol classes. Further, we append embeddings from a Resnet-34 network which is trained on symbol images containing sampled points to make the classification network more robust. Since, many symbols in P&ID are structurally very similar to each other, we utilize Arcface loss during DGCNN training which helps in maximizing symbol class separability by producing highly discriminative embeddings. The images consist of components attached on the pipeline (straight line). The sampled points segregated around the symbol regions are used for the classification task. The proposed pipeline, named OSSR-PID, is fast and gives outstanding performance for recognition of symbols on a synthetic dataset of 100 P&ID diagrams. We also compare our method against prior-work on a real-world private dataset of 12 P&ID sheets and obtain comparable/superior results. Remarkably, it is able to achieve such excellent performance using only one prototypical example per symbol.
翻訳日:2021-09-10 14:17:05 公開日:2021-09-08
# 超高分解能衛星からのデジタル表面モデルとオルソフォトによるLoD-2自動再構成

Automated LoD-2 Model Reconstruction from Very-HighResolution Satellite-derived Digital Surface Model and Orthophoto ( http://arxiv.org/abs/2109.03876v1 )

ライセンス: Link先を確認
Shengxi Gui, Rongjun Qin(参考訳) 本稿では,lod-2構築モデルを構築するためのモデル駆動手法を提案する。 提案手法は, 深層学習に基づく検出器を用いて検出結果を構築し, 個々のセグメントを「3段階」ポリゴン抽出法を用いてポリゴンにベクトル化する。 任意にOpenStreetMap (OSM) と Graph-Cut (GC) のラベルを導入し、2Dビルディング矩形の配向をさらに改善した。 3dモデリングのステップでは、ヒップラインなどのビル固有のパラメータと、最小の基本モデルセットを使用する柔軟性を最適化するための非リギッドおよび正規化変換が採用されている。 最後に、1つの建物セグメントにおける屋根型建物モデルと隣接する建物モデルとを複合多角形モデルにマージする。 提案手法は, 都市パターンの異なる都市を対象とした多種多様な実験データセットによる評価と比較研究に基づいて, 従来手法に対するいくつかの技術的問題点に対処した。

In this paper, we propose a model-driven method that reconstructs LoD-2 building models following a "decomposition-optimi zation-fitting" paradigm. The proposed method starts building detection results through a deep learning-based detector and vectorizes individual segments into polygons using a "three-step" polygon extraction method, followed by a novel grid-based decomposition method that decomposes the complex and irregularly shaped building polygons to tightly combined elementary building rectangles ready to fit elementary building models. We have optionally introduced OpenStreetMap (OSM) and Graph-Cut (GC) labeling to further refine the orientation of 2D building rectangle. The 3D modeling step takes building-specific parameters such as hip lines, as well as non-rigid and regularized transformations to optimize the flexibility for using a minimal set of elementary models. Finally, roof type of building models s refined and adjacent building models in one building segment are merged into the complex polygonal model. Our proposed method has addressed a few technical caveats over existing methods, resulting in practically high-quality results, based on our evaluation and comparative study on a diverse set of experimental datasets of cities with different urban patterns.
翻訳日:2021-09-10 14:16:35 公開日:2021-09-08
# オフナディル衛星画像における建物セグメンテーションの改善

Improving Building Segmentation for Off-Nadir Satellite Imagery ( http://arxiv.org/abs/2109.03961v1 )

ライセンス: Link先を確認
Hanxiang Hao, Sriram Baireddy, Kevin LaTourette, Latisha Konz, Moses Chan, Mary L. Comer, Edward J. Delp(参考訳) 自動建物分割は衛星画像解析とシーン理解にとって重要な課題である。 既存のセグメンテーション手法のほとんどは、画像が直接オーバーヘッド(すなわち、オフナディル/ビュー角が低い)から取られる場合に焦点を当てている。 これらの手法は、ノイズレベルが高く、空間解像度が低いため、より大きい外方角の衛星画像に対して正確な結果を与えることができないことが多い。 本稿では,広範囲のオフナディア角度から撮影された衛星画像に対して,正確な建物セグメンテーションを実現する手法を提案する。 ベイジアンディープラーニングに基づいて,アレータティックおよびエピステマティック不確実性モデリングを用いてデータノイズを学習する手法を設計する。 衛星画像メタデータ(例えば、オフナディル角度や地上サンプル距離)も、このモデルでさらに改善するために使用しています。 提案手法は,不確実性モデリングとメタデータ注入により,特に大きなオフナディア角から得られるノイズの多い画像に対して,ベースライン法よりも優れた性能が得られることを示す。

Automatic building segmentation is an important task for satellite imagery analysis and scene understanding. Most existing segmentation methods focus on the case where the images are taken from directly overhead (i.e., low off-nadir/viewing angle). These methods often fail to provide accurate results on satellite images with larger off-nadir angles due to the higher noise level and lower spatial resolution. In this paper, we propose a method that is able to provide accurate building segmentation for satellite imagery captured from a large range of off-nadir angles. Based on Bayesian deep learning, we explicitly design our method to learn the data noise via aleatoric and epistemic uncertainty modeling. Satellite image metadata (e.g., off-nadir angle and ground sample distance) is also used in our model to further improve the result. We show that with uncertainty modeling and metadata injection, our method achieves better performance than the baseline method, especially for noisy images taken from large off-nadir angles.
翻訳日:2021-09-10 14:16:10 公開日:2021-09-08
# グラフニューラルネットワークの局所拡張

Local Augmentation for Graph Neural Networks ( http://arxiv.org/abs/2109.03856v1 )

ライセンス: Link先を確認
Songtao Liu, Hanze Dong, Lanqing Li, Tingyang Xu, Yu Rong, Peilin Zhao, Junzhou Huang, Dinghao Wu(参考訳) データ拡張は画像データや言語データで広く使われているが、グラフ構造データでは未調査のままである。 既存の手法では、グローバルな観点でグラフデータの強化に重点を置いており、構造的操作と機能的ノイズ注入による敵対的トレーニングという2つのジャンルに大別される。 しかしながら、構造操作アプローチは情報損失問題に苦しむ一方で、敵対的トレーニングアプローチはノイズを注入することで特徴品質を低下させる可能性がある。 本研究では,局所的な部分グラフ構造によってノードの特徴を高める局所的な拡張を導入する。 具体的には、データ引数を特徴生成プロセスとしてモデル化する。 中心ノードの特徴を考慮し,我々の局所的拡張手法は,隣人の特徴の条件分布を学習し,下流タスクの性能を高めるために隣人の最適な特徴を生成する。 局所的な拡張に基づいて、プラグイン・アンド・プレイ方式で任意のGNNモデルに適用可能な、LA-GNNという新しいフレームワークをさらに設計する。 大規模な実験と分析により、局所的な拡張は様々なベンチマークでGNNアーキテクチャのパフォーマンスを継続的に向上させることが示された。 コードはhttps://github.com/S oughing0823/LAGNNで入手できる。

Data augmentation has been widely used in image data and linguistic data but remains under-explored on graph-structured data. Existing methods focus on augmenting the graph data from a global perspective and largely fall into two genres: structural manipulation and adversarial training with feature noise injection. However, the structural manipulation approach suffers information loss issues while the adversarial training approach may downgrade the feature quality by injecting noise. In this work, we introduce the local augmentation, which enhances node features by its local subgraph structures. Specifically, we model the data argumentation as a feature generation process. Given the central node's feature, our local augmentation approach learns the conditional distribution of its neighbors' features and generates the neighbors' optimal feature to boost the performance of downstream tasks. Based on the local augmentation, we further design a novel framework: LA-GNN, which can apply to any GNN models in a plug-and-play manner. Extensive experiments and analyses show that local augmentation consistently yields performance improvement for various GNN architectures across a diverse set of benchmarks. Code is available at https://github.com/S oughing0823/LAGNN.
翻訳日:2021-09-10 14:11:13 公開日:2021-09-08
# 公理的因果レンズによるモデル説明

Model Explanations via the Axiomatic Causal Lens ( http://arxiv.org/abs/2109.03890v1 )

ライセンス: Link先を確認
Vignesh Viswanathan, Yair Zick(参考訳) ブラックボックスモデルの決定を説明することは、信頼できるMLの研究において中心的なテーマとなっている。 文献では多くの対策が提案されているが、いずれも説明可能性に関する明確な因果的判断を採用できなかった。 ハルパーンとパールの公式な因果的説明の定義に基づいて、分類設定に類似した公理の集合を導き、これらを用いて3つの説明測度を導出する。 最初の尺度はチョックラーとハルパーンの因果責任の概念の自然な適応であり、他の2つは既存のゲーム理論の影響尺度に対応している。 提案する指標を公理的に処理し,望ましい性質のセットで一意に特徴付けることができることを示した。 我々は,提案手法すべてに対して確率的近似スキームを提供する計算解析を補完する。 したがって、私たちの研究は、モデル説明、ゲーム理論の影響、因果分析の間のギャップを正式に橋渡しする最初の方法です。

Explaining the decisions of black-box models has been a central theme in the study of trustworthy ML. Numerous measures have been proposed in the literature; however, none of them have been able to adopt a provably causal take on explainability. Building upon Halpern and Pearl's formal definition of a causal explanation, we derive an analogous set of axioms for the classification setting, and use them to derive three explanation measures. Our first measure is a natural adaptation of Chockler and Halpern's notion of causal responsibility, whereas the other two correspond to existing game-theoretic influence measures. We present an axiomatic treatment for our proposed indices, showing that they can be uniquely characterized by a set of desirable properties. We compliment this with computational analysis, providing probabilistic approximation schemes for all of our proposed measures. Thus, our work is the first to formally bridge the gap between model explanations, game-theoretic influence, and causal analysis.
翻訳日:2021-09-10 14:10:54 公開日:2021-09-08
# SensiX++: センサエッジデバイスにMLOPとマルチテナントモデルを実現する

SensiX++: Bringing MLOPs and Multi-tenant Model Serving to Sensory Edge Devices ( http://arxiv.org/abs/2109.03947v1 )

ライセンス: Link先を確認
Chulhong Min, Akhil Mathur, Utku Gunay Acer, Alessandro Montanari, Fahim Kawsar(参考訳) sensix++ - エッジデバイス(カメラ、マイク、iotセンサーなど)にmlopを統合した、適応型モデル実行のためのマルチテナントランタイム。 sensix++は、明確に抽象化されたデータ操作を外部化するための高度にモジュール化されたコンポーネント化と、システム全体のオーケストレーションのためのドキュメント中心のマニフェストである。 まず、データコーディネータがセンサーのライフサイクルを管理し、自動変換を通じて正しいデータを提供する。 次に、リソースアウェアモデルサーバは、モデル抽象化、パイプライン自動化、機能共有を通じて、独立した複数のモデルを実行する。 適応スケジューラは、ヘテロジニアスアクセラレータ間で複数のモデルのベストエフォート実行をオーケストレーションし、レイテンシとスループットのバランスをとる。 最後に、REST APIを使用したマイクロサービスは、合成モデル予測、システム統計、継続的デプロイメントを提供する。 これらのコンポーネントは、データ操作の冗長性を最小化し、データとデバイスの不均一性を管理し、リソース競合を減らし、手動MLOpsを削除しながら、エッジデバイス上できめ細かな制御を効率的に行うことができる。 センサデバイス用に設計されたエッジアクセラレータ(Jetson AGX と Coral TPU)上で,さまざまなマルチテナント構成の視覚モデルと音響モデルで SensiX++ をベンチマークした。 我々はsensix++の様々な自動化コンポーネントの全体的なスループットと定量化の利点を報告し、運用の複雑さを著しく削減し、エッジデバイスに組み込みモデルをデプロイ、アップグレード、再構成、提供するための労力を下げる効果を実証する。

We present SensiX++ - a multi-tenant runtime for adaptive model execution with integrated MLOps on edge devices, e.g., a camera, a microphone, or IoT sensors. SensiX++ operates on two fundamental principles - highly modular componentisation to externalise data operations with clear abstractions and document-centric manifestation for system-wide orchestration. First, a data coordinator manages the lifecycle of sensors and serves models with correct data through automated transformations. Next, a resource-aware model server executes multiple models in isolation through model abstraction, pipeline automation and feature sharing. An adaptive scheduler then orchestrates the best-effort executions of multiple models across heterogeneous accelerators, balancing latency and throughput. Finally, microservices with REST APIs serve synthesised model predictions, system statistics, and continuous deployment. Collectively, these components enable SensiX++ to serve multiple models efficiently with fine-grained control on edge devices while minimising data operation redundancy, managing data and device heterogeneity, reducing resource contention and removing manual MLOps. We benchmark SensiX++ with ten different vision and acoustics models across various multi-tenant configurations on different edge accelerators (Jetson AGX and Coral TPU) designed for sensory devices. We report on the overall throughput and quantified benefits of various automation components of SensiX++ and demonstrate its efficacy to significantly reduce operational complexity and lower the effort to deploy, upgrade, reconfigure and serve embedded models on edge devices.
翻訳日:2021-09-10 14:10:37 公開日:2021-09-08
# 変圧器による粒子輸送の物理を学ぶ

Learning the Physics of Particle Transport via Transformers ( http://arxiv.org/abs/2109.03951v1 )

ライセンス: Link先を確認
Oscar Pastor-Serrano, Zolt\'an Perk\'o(参考訳) 粒子物理シミュレーションは核工学の応用の基礎である。 放射線治療(rt)は社会にとって重要であり、がん患者の50%が放射線治療を受けている。 腫瘍の正確なターゲティングのために、次世代rt治療は放射線伝達中のリアルタイムの補正を目標とし、高度に不均一な患者ジオメトリにおいても、秒未満の正確な線量分布を生じる粒子輸送アルゴリズムを必要とする。 これは、現在利用可能な純粋に物理学に基づくシミュレーションでは実現できない。 本研究では,単エネルギー陽子ビームが任意のエネルギーと患者ジオメトリに対して蓄積した線量を予測するデータ駆動線量計算アルゴリズムを提案する。 提案手法では, コンボリューション層がトークンに重要な空間的特徴を抽出し, トランスフォーマチック・アテンション機構は, シーケンス内のこれらのトークンとビームエネルギートークンの間で情報をルーティングする。 粒子物理学の黄金標準であるモンテカルロ (mc) シミュレーションを用いてネットワークを訓練し, 予測精度の評価を行った。 提案モデルは, 従来の臨床解析用鉛筆ビームアルゴリズムの33倍高速であり, 最も不均一で挑戦的なジオメトリにおいて精度が向上した。 相対誤差 0.34% と非常に高いガンマパスレート 99.59% (1%, 3 mm) を持つと、より微細なグリッド解像度でも同様のデータ駆動陽子線量法よりも大幅に優れる。 MCの精度を400倍に向上させることで, リアルタイム適応プロトン治療が禁止され, がん治療効果が著しく向上した。 他の粒子の物理相互作用をモデル化する可能性は、従来の方法の速度に制限された重イオン処理計画の手順を促進する可能性がある。

Particle physics simulations are the cornerstone of nuclear engineering applications. Among them radiotherapy (RT) is crucial for society, with 50% of cancer patients receiving radiation treatments. For the most precise targeting of tumors, next generation RT treatments aim for real-time correction during radiation delivery, necessitating particle transport algorithms that yield precise dose distributions in sub-second times even in highly heterogeneous patient geometries. This is infeasible with currently available, purely physics based simulations. In this study, we present a data-driven dose calculation algorithm predicting the dose deposited by mono-energetic proton beams for arbitrary energies and patient geometries. Our approach frames particle transport as sequence modeling, where convolutional layers extract important spatial features into tokens and the transformer self-attention mechanism routes information between such tokens in the sequence and a beam energy token. We train our network and evaluate prediction accuracy using computationally expensive but accurate Monte Carlo (MC) simulations, considered the gold standard in particle physics. Our proposed model is 33 times faster than current clinical analytic pencil beam algorithms, improving upon their accuracy in the most heterogeneous and challenging geometries. With a relative error of 0.34% and very high gamma pass rate of 99.59% (1%, 3 mm), it also greatly outperforms the only published similar data-driven proton dose algorithm, even at a finer grid resolution. Offering MC precision 400 times faster, our model could overcome a major obstacle that has so far prohibited real-time adaptive proton treatments and significantly increase cancer treatment efficacy. Its potential to model physics interactions of other particles could also boost heavy ion treatment planning procedures limited by the speed of traditional methods.
翻訳日:2021-09-10 14:10:12 公開日:2021-09-08
# ベイズ型情報理論探索の枠組み

A Bayesian Framework for Information-Theoreti c Probing ( http://arxiv.org/abs/2109.03853v1 )

ライセンス: Link先を確認
Tiago Pimentel, Ryan Cotterell(参考訳) Pimentelなど。 (2020) 情報理論の観点からの探索を行った。 彼らは、調査は相互情報の近似と見なされるべきであると主張している。 これは、表現が元の文とターゲットタスクに関する全く同じ情報をエンコードしているというかなり直感的な結論を導いた。 しかし、相互情報は、一対の確率変数の真の確率分布が知られていると仮定し、そうでないような設定では直観的な結果をもたらす。 本稿では,ベイズエージェントの観点から情報を分析する,ベイズ的相互情報(Bayesian mutual information)と呼ばれる手法を提案する。 例えば、Bayesian MIの下では、データが情報を追加でき、処理が助けになり、情報が傷つく可能性があるため、機械学習アプリケーションにとってより直感的になります。 最後に,提案手法を探索に適用し,ベイズ相互情報の操作性が自然に向上し,タスクの解決に利用可能な背景知識を明示的に制限する。

Pimentel et al. (2020) recently analysed probing from an information-theoreti c perspective. They argue that probing should be seen as approximating a mutual information. This led to the rather unintuitive conclusion that representations encode exactly the same information about a target task as the original sentences. The mutual information, however, assumes the true probability distribution of a pair of random variables is known, leading to unintuitive results in settings where it is not. This paper proposes a new framework to measure what we term Bayesian mutual information, which analyses information from the perspective of Bayesian agents -- allowing for more intuitive findings in scenarios with finite data. For instance, under Bayesian MI we have that data can add information, processing can help, and information can hurt, which makes it more intuitive for machine learning applications. Finally, we apply our framework to probing where we believe Bayesian mutual information naturally operationalises ease of extraction by explicitly limiting the available background knowledge to solve a task.
翻訳日:2021-09-10 14:06:03 公開日:2021-09-08
# 環境複雑度と計算負荷のリアルタイムモニタリングによる省エネルギー型移動ロボット制御

Energy-Efficient Mobile Robot Control via Run-time Monitoring of Environmental Complexity and Computing Workload ( http://arxiv.org/abs/2109.04285v1 )

ライセンス: Link先を確認
Sherif A.S. Mohamed, Mohammad-Hashem Haghbayan, Antonio Miele, Onur Mutlu, and Juha Plosila(参考訳) ロボットの機械的・計算的アクチュエータを動的に操作することにより,移動ロボットのエネルギー消費を最小化するエネルギー効率制御器を提案する。 このモバイルロボットは、イベントベースのカメラに基づいてリアルタイムビジョンベースのアプリケーションを実行する。 コントローラのアクチュエータは、演算部に対するcpu電圧/周波数と、メカニカル部のモータ電圧とである。 ロボットの速度制御とcpuの電圧・周波数制御を独立に考慮すると、必ずしもエネルギー効率のよいソリューションとなるとは限らない。 実際、最高効率を得るためには、計算と機械部品を相乗的に制御する必要がある。 移動ロボットが移動中に新しい環境に直面すると、コントローラが実行時に最高のcpu/モータ構成を見つけることができる高速ヒルクライミング最適化アルゴリズムを提案する。 Brushless DC Motors、Jetson TX2ボードをコンピューティングユニットとし、DAVIS-346イベントベースのカメラを用いた実験の結果、提案した制御アルゴリズムは、低複雑さ、中複雑さ、高複雑さ環境において、平均50.5%、41%、30%のバッテリエネルギーをベースライン上で節約できることが示された。

We propose an energy-efficient controller to minimize the energy consumption of a mobile robot by dynamically manipulating the mechanical and computational actuators of the robot. The mobile robot performs real-time vision-based applications based on an event-based camera. The actuators of the controller are CPU voltage/frequency for the computation part and motor voltage for the mechanical part. We show that independently considering speed control of the robot and voltage/frequency control of the CPU does not necessarily result in an energy-efficient solution. In fact, to obtain the highest efficiency, the computation and mechanical parts should be controlled together in synergy. We propose a fast hill-climbing optimization algorithm to allow the controller to find the best CPU/motor configuration at run-time and whenever the mobile robot is facing a new environment during its travel. Experimental results on a robot with Brushless DC Motors, Jetson TX2 board as the computing unit, and a DAVIS-346 event-based camera show that the proposed control algorithm can save battery energy by an average of 50.5%, 41%, and 30%, in low-complexity, medium-complexity, and high-complexity environments, over baselines.
翻訳日:2021-09-10 14:05:08 公開日:2021-09-08
# 品質多様性のメタ進化: 振る舞い空間をメタオブジェクトにカスタマイズする

Quality-Diversity Meta-Evolution: customising behaviour spaces to a meta-objective ( http://arxiv.org/abs/2109.03918v1 )

ライセンス: Link先を確認
David M. Bossens and Danesh Tarapore(参考訳) 品質多様性(QD)アルゴリズムは、振る舞いの多様性と高いパフォーマンスのソリューションを進化させる。 行動空間のエリート解を照らすには、QDアルゴリズムは適切な行動空間の定義を必要とする。 動作空間が高次元であれば、限られた数の動作ニッチを維持するために適切な次元性低減技術が必要となる。 現在の自動行動空間の方法論は、幾何学の変更や教師なし学習に焦点を当てているが、エンドユーザーが指定する特定のメタ目的に対して行動の多様性をカスタマイズする必要がある。 QDメタ進化(QD Meta-Evolution、略してQD-Meta)の新たなフレームワークでは、アルゴリズムと表現特性の異なるQDアルゴリズムの集団を進化させ、アルゴリズムと結果のアーカイブをユーザ定義のメタオブジェクトに最適化する。 従来のQDアルゴリズムと比較して有望な結果にもかかわらず、QD-Metaは、Centroidal Voronoi Tessellations Multi-dimensional Archive of Phenotype Elites Algorithm (CVT-MAP-Elites)やAutonomous Robots Realising their Abilities (AURORA)のような最先端の行動空間自動化手法と比較されていない。 本稿では,機能最適化と多脚ロボットロコモーションベンチマークに関するqd-metaの実証研究を行う。 CVT-MAP-Elites や AURORA と比較すると,QD-Meta アーカイブは平均性能を向上し,事前未知の環境変化への適応が早くなった。 質的な分析は、結果のアーカイブがエンドユーザが提供するメタオブジェクトにどのように調整されるかを示しています。

Quality-Diversity (QD) algorithms evolve behaviourally diverse and high-performing solutions. To illuminate the elite solutions for a space of behaviours, QD algorithms require the definition of a suitable behaviour space. If the behaviour space is high-dimensional, a suitable dimensionality reduction technique is required to maintain a limited number of behavioural niches. While current methodologies for automated behaviour spaces focus on changing the geometry or on unsupervised learning, there remains a need for customising behavioural diversity to a particular meta-objective specified by the end-user. In the newly emerging framework of QD Meta-Evolution, or QD-Meta for short, one evolves a population of QD algorithms, each with different algorithmic and representational characteristics, to optimise the algorithms and their resulting archives to a user-defined meta-objective. Despite promising results compared to traditional QD algorithms, QD-Meta has yet to be compared to state-of-the-art behaviour space automation methods such as Centroidal Voronoi Tessellations Multi-dimensional Archive of Phenotypic Elites Algorithm (CVT-MAP-Elites) and Autonomous Robots Realising their Abilities (AURORA). This paper performs an empirical study of QD-Meta on function optimisation and multilegged robot locomotion benchmarks. Results demonstrate that QD-Meta archives provide improved average performance and faster adaptation to a priori unknown changes to the environment when compared to CVT-MAP-Elites and AURORA. A qualitative analysis shows how the resulting archives are tailored to the meta-objectives provided by the end-user.
翻訳日:2021-09-10 14:04:44 公開日:2021-09-08
# ログステートメント予測のためのコードクローンの活用と自然言語処理

Leveraging Code Clones and Natural Language Processing for Log Statement Prediction ( http://arxiv.org/abs/2109.03859v1 )

ライセンス: Link先を確認
Sina Gholamian(参考訳) ソフトウェア開発者は、実行時のシステムの問題を追跡し、システム管理タスクをトラブルシューティングするためにログファイルが必要となるため、現代のソフトウェア開発において必須任務として、ソースコード内にロギングステートメントを埋め込む。 以前の研究は、ソフトウェアシステムの運用とデバッグにおいてロギングステートメントの重要性を強調した。 しかし、現在のロギングプロセスはほとんど手動とアドホックなので、ロギングステートメントの適切な配置と内容が課題として残っています。 これらの課題を克服するために、ログ配置とログコンテンツ("where, what, and how to log"など)の自動化を目的とした手法が注目されている。 そこで本研究では,「ソースコードクローンと自然言語処理(NLP)を活用してログステートメントを予測する」という研究の目標を達成することを提案する。 RO1) は、ログステートメントの位置予測にソースコードクローンを活用できるか、(RO2) はログステートメント予測のためのクローンベースのアプローチを提案し、(RO3) はコードクローンとNLPモデルを用いてログステートメントの説明を予測し、(RO4) は冗長度レベルや変数などのログステートメントのさらなる詳細を自動的に予測するためのアプローチを検討する。 この目的のために,7つのオープンソースjavaプロジェクトの実験的解析を行い,メソッドレベルのコードクローンを抽出し,属性を調査し,ログの位置と記述予測に利用する。 本研究は,ログの自動位置推定と記述予測におけるログ認識型クローン検出の有効性を実証し,先行作業より優れていることを示す。

Software developers embed logging statements inside the source code as an imperative duty in modern software development as log files are necessary for tracking down runtime system issues and troubleshooting system management tasks. Prior research has emphasized the importance of logging statements in the operation and debugging of software systems. However, the current logging process is mostly manual and ad hoc, and thus, proper placement and content of logging statements remain as challenges. To overcome these challenges, methods that aim to automate log placement and log content, i.e., 'where, what, and how to log', are of high interest. Thus, we propose to accomplish the goal of this research, that is "to predict the log statements by utilizing source code clones and natural language processing (NLP)", as these approaches provide additional context and advantage for log prediction. We pursue the following four research objectives: (RO1) investigate whether source code clones can be leveraged for log statement location prediction, (RO2) propose a clone-based approach for log statement prediction, (RO3) predict log statement's description with code-clone and NLP models, and (RO4) examine approaches to automatically predict additional details of the log statement, such as its verbosity level and variables. For this purpose, we perform an experimental analysis on seven open-source java projects, extract their method-level code clones, investigate their attributes, and utilize them for log location and description prediction. Our work demonstrates the effectiveness of log-aware clone detection for automated log location and description prediction and outperforms the prior work.
翻訳日:2021-09-10 14:02:55 公開日:2021-09-08
# 非負行列因子化の初期化:包括的考察

Initialization for Nonnegative Matrix Factorization: a Comprehensive Review ( http://arxiv.org/abs/2109.03874v1 )

ライセンス: Link先を確認
Sajad Fathi Hafshejani and Zahra Moaberfard(参考訳) 非負行列分解(nmf)は、観察された非負行列から非負基底特徴を抽出することで有意義なデータを表現する一般的な方法となっている。 隠れたデータの識別において、この方法のユニークな特徴は、機械学習分野における強力な方法の1つとなった。 NMF は非凸最適化問題として知られており、初期点は効率的な局所解を見つける上で大きな影響を与える。 本稿では,NMF に提案されている最も一般的な初期化手順について検討する。 それぞれの方法を説明し,その利点と欠点について述べる。 最後に,各アルゴリズムの性能を示す数値的な結果を示す。

Non-negative matrix factorization (NMF) has become a popular method for representing meaningful data by extracting a non-negative basis feature from an observed non-negative data matrix. Some of the unique features of this method in identifying hidden data put this method amongst the powerful methods in the machine learning area. The NMF is a known non-convex optimization problem and the initial point has a significant effect on finding an efficient local solution. In this paper, we investigate the most popular initialization procedures proposed for NMF so far. We describe each method and present some of their advantages and disadvantages. Finally, some numerical results to illustrate the performance of each algorithm are presented.
翻訳日:2021-09-10 14:02:26 公開日:2021-09-08
# family wide enzyme-substrate specificity screenの機械学習モデル

Machine learning modeling of family wide enzyme-substrate specificity screens ( http://arxiv.org/abs/2109.03900v1 )

ライセンス: Link先を確認
Samuel Goldman, Ria Das, Kevin K. Yang, Connor W. Coley(参考訳) バイオ触媒は、薬品、複雑な天然物、商品化学物質を大規模に持続的に合成するための有望なアプローチである。 しかし, 生体触媒の応用は, 非天然基質上での化学的変換を触媒する酵素の選択能力によって制限される。 機械学習とシリコ指向の進化は、この予測モデリングの課題に適しているが、これまでは主に、新しい基質に作用する酵素を識別するよりも、単一の既知の基質に対する活性を高めることを目的としてきた。 このニーズに対処するために、複数の基質に対して複数の酵素を測定する文献から、6つの異なる高品質の酵素ファミリースクリーンをキュレートした。 本稿では,機械学習に基づく複合タンパク質相互作用(CPI)のモデリング手法の比較を行った。 驚くべきことに、これらの相互作用に基づくモデルと、独立した(単一タスク)酵素のみまたは基質のみのモデルの集合を比較すると、現在のCPIアプローチは現在のファミリーレベルのデータ構造における化合物とタンパク質間の相互作用を学習できないことが分かる。 本研究は, キナーゼ阻害剤の発見を導くために用いた文献から, 我々の非相互作用ベースラインがCPIモデルより優れていることを示すことによって, この観察をさらに検証する。 非相互作用型モデルの性能を考慮し,タンパク質配列の残基表現をプールする新しい構造に基づく戦略を提案する。 この研究は、バイオ触媒やその他の薬物発見応用のための有意義な予測モデルを構築し、評価するために、原則化された経路を前進させる。

Biocatalysis is a promising approach to sustainably synthesize pharmaceuticals, complex natural products, and commodity chemicals at scale. However, the adoption of biocatalysis is limited by our ability to select enzymes that will catalyze their natural chemical transformation on non-natural substrates. While machine learning and in silico directed evolution are well-posed for this predictive modeling challenge, efforts to date have primarily aimed to increase activity against a single known substrate, rather than to identify enzymes capable of acting on new substrates of interest. To address this need, we curate 6 different high-quality enzyme family screens from the literature that each measure multiple enzymes against multiple substrates. We compare machine learning-based compound-protein interaction (CPI) modeling approaches from the literature used for predicting drug-target interactions. Surprisingly, comparing these interaction-based models against collections of independent (single task) enzyme-only or substrate-only models reveals that current CPI approaches are incapable of learning interactions between compounds and proteins in the current family level data regime. We further validate this observation by demonstrating that our no-interaction baseline can outperform CPI-based models from the literature used to guide the discovery of kinase inhibitors. Given the high performance of non-interaction based models, we introduce a new structure-based strategy for pooling residue representations across a protein sequence. Altogether, this work motivates a principled path forward in order to build and evaluate meaningful predictive models for biocatalysis and other drug discovery applications.
翻訳日:2021-09-10 14:02:16 公開日:2021-09-08
# 動きの定数:最適化とゲームダイナミクスにおけるカオスに対するアンチドテ

Constants of Motion: The Antidote to Chaos in Optimization and Game Dynamics ( http://arxiv.org/abs/2109.03974v1 )

ライセンス: Link先を確認
Georgios Piliouras and Xiao Wang(参考訳) オンライン最適化とゲームダイナミクスに関する最近のいくつかの研究は、不安定性とカオスの形式的な出現を含む強い負の複雑さの成果を確立している。 どの方法論ツールがそのようなダイナミクスの規則性を保証することができるのか、そしてそれらを離散時間一階最適化ダイナミクスのような関心の標準的な設定にどのように適用できるのか? 不変関数、すなわち運動定数の存在の証明が、この方向への基本的な貢献であることを示すとともに、そのような正の結果の多さ(例えば、等)を確立する。 勾配降下、乗法重み更新、交互勾配降下、多様体勾配降下) 最適化とゲーム設定の両方において。 技術的なレベルでは、いくつかの保存法則は明示的で簡潔な閉形式を提供するが、他の法則では動的システムからのツールを用いた非構成的証明を示す。

Several recent works in online optimization and game dynamics have established strong negative complexity results including the formal emergence of instability and chaos even in small such settings, e.g., $2\times 2$ games. These results motivate the following question: Which methodological tools can guarantee the regularity of such dynamics and how can we apply them in standard settings of interest such as discrete-time first-order optimization dynamics? We show how proving the existence of invariant functions, i.e., constant of motions, is a fundamental contribution in this direction and establish a plethora of such positive results (e.g. gradient descent, multiplicative weights update, alternating gradient descent and manifold gradient descent) both in optimization as well as in game settings. At a technical level, for some conservation laws we provide an explicit and concise closed form, whereas for other ones we present non-constructive proofs using tools from dynamical systems.
翻訳日:2021-09-10 14:01:51 公開日:2021-09-08
# あなたはそれをどこから学んだのですか? 深層強化学習における時間的関連データに対するメンバーシップ推論攻撃のサプライズ効果

Where Did You Learn That From? Surprising Effectiveness of Membership Inference Attacks Against Temporally Correlated Data in Deep Reinforcement Learning ( http://arxiv.org/abs/2109.03975v1 )

ライセンス: Link先を確認
Maziar Gomrokchi, Susan Amin, Hossein Aboutalebi, Alexander Wong, Doina Precup(参考訳) 深層強化学習の分野では大きな研究が進められているが、最近表面化した深層強化学習を産業的に広く採用するための大きな課題は、プライバシー侵害の潜在的な脆弱性である。 特に、深い強化学習アルゴリズムの脆弱性をメンバーシップ推論攻撃に用いた文献では、具体的な敵攻撃戦略は存在していない。 このギャップに対処するため、我々は、深い強化学習アルゴリズムの脆弱性をメンバーシップ推論攻撃に適用するための敵攻撃フレームワークを提案する。 具体的には、強化学習訓練データに自然に存在する時間相関が情報漏洩の確率に与える影響を調査するための一連の実験を設計する。 さらに,深層強化学習アルゴリズムに対するemph{collective} と \emph{individual} のメンバーシップ攻撃の性能の違いについて検討した。 実験結果から,openai gymの2つの異なる制御タスクにおいて,深層強化訓練中に使用したデータを8,4,7,7,7の精度で推定する上で,提案手法が驚くほど効果的であることが判明した。 さらに,強化学習アルゴリズムの学習状態が,プライバシー侵害のレベルに大きく影響していることを示す。

While significant research advances have been made in the field of deep reinforcement learning, a major challenge to widespread industrial adoption of deep reinforcement learning that has recently surfaced but little explored is the potential vulnerability to privacy breaches. In particular, there have been no concrete adversarial attack strategies in literature tailored for studying the vulnerability of deep reinforcement learning algorithms to membership inference attacks. To address this gap, we propose an adversarial attack framework tailored for testing the vulnerability of deep reinforcement learning algorithms to membership inference attacks. More specifically, we design a series of experiments to investigate the impact of temporal correlation, which naturally exists in reinforcement learning training data, on the probability of information leakage. Furthermore, we study the differences in the performance of \emph{collective} and \emph{individual} membership attacks against deep reinforcement learning algorithms. Experimental results show that the proposed adversarial attack framework is surprisingly effective at inferring the data used during deep reinforcement training with an accuracy exceeding $84\%$ in individual and $97\%$ in collective mode on two different control tasks in OpenAI Gym, which raises serious privacy concerns in the deployment of models resulting from deep reinforcement learning. Moreover, we show that the learning state of a reinforcement learning algorithm significantly influences the level of the privacy breach.
翻訳日:2021-09-10 14:01:37 公開日:2021-09-08
# 経験ベイズと複合決定問題に対する鋭い後悔の限界

Sharp regret bounds for empirical Bayes and compound decision problems ( http://arxiv.org/abs/2109.03943v1 )

ライセンス: Link先を確認
Yury Polyanskiy and Yihong Wu(参考訳) 我々は、二乗損失の下で(同一共分散行列を伴う)正常に n$-次元の平均やポアソン分布ベクトルを推定する古典的な問題を考える。 ベイズ設定では、最適推定器は事前の条件付き平均によって与えられる。 頻繁な設定では、前世紀に様々な収縮法が開発された。 Robbins (1956) が提唱した経験的ベイズ(英語版)の枠組みは、パラメータは独立であるが未知の事前と仮定することでベイズ的および頻繁な考え方を結合し、真の事前を知っているベイズ的オラクルと競合するために完全なデータ駆動推定器を使用することを目的としている。 利益の主な数字は後悔であり、すなわち、最悪の場合(過去の場合)のベイズリスクに対する総過大なリスクである。 このパラダイムは60年以上前に導入されたが、非パラメトリックな設定における最適後悔の漸近スケーリングについてはほとんど知られていない。 コンパクトにサポートされたポアソンモデルと半指数前値を持つポアソンモデルの場合、最適の後悔スケールは $\Theta((\frac{\log n}{\log\log n})^2)$ と $\Theta(\log^3 n)$ である。 通常の平均モデルでは、後悔は少なくとも$\Omega((\frac{\log n}{\log\log n})^2)$ と $\Omega(\log^2 n)$ のそれぞれコンパクトなサポート付きおよび部分ガウス的事前に対して示される。 また, 亜ガウス的, 亜指数的先行性に対するAnalogousの結果も得られた。 経験ベイズ設定に加えて、これらの結果はパラメータが決定論的である複合設定に保持される。 補足的な応用として,本論文の構成は混合密度推定のための改良あるいは新しい下限を導出する。

We consider the classical problems of estimating the mean of an $n$-dimensional normally (with identity covariance matrix) or Poisson distributed vector under the squared loss. In a Bayesian setting the optimal estimator is given by the prior-dependent conditional mean. In a frequentist setting various shrinkage methods were developed over the last century. The framework of empirical Bayes, put forth by Robbins (1956), combines Bayesian and frequentist mindsets by postulating that the parameters are independent but with an unknown prior and aims to use a fully data-driven estimator to compete with the Bayesian oracle that knows the true prior. The central figure of merit is the regret, namely, the total excess risk over the Bayes risk in the worst case (over the priors). Although this paradigm was introduced more than 60 years ago, little is known about the asymptotic scaling of the optimal regret in the nonparametric setting. We show that for the Poisson model with compactly supported and subexponential priors, the optimal regret scales as $\Theta((\frac{\log n}{\log\log n})^2)$ and $\Theta(\log^3 n)$, respectively, both attained by the original estimator of Robbins. For the normal mean model, the regret is shown to be at least $\Omega((\frac{\log n}{\log\log n})^2)$ and $\Omega(\log^2 n)$ for compactly supported and subgaussian priors, respectively, the former of which resolves the conjecture of Singh (1979) on the impossibility of achieving bounded regret; before this work, the best regret lower bound was $\Omega(1)$. %Analogous results for subgaussian or subexponential priors are also obtained. In addition to the empirical Bayes setting, these results are shown to hold in the compound setting where the parameters are deterministic. As a side application, the construction in this paper also leads to improved or new lower bounds for mixture density estimation.
翻訳日:2021-09-10 13:58:29 公開日:2021-09-08
# 不合理な顧客の行動を捉える個別選択モデルの推定について

On the estimation of discrete choice models to capture irrational customer behaviors ( http://arxiv.org/abs/2109.03882v1 )

ライセンス: Link先を確認
Sanjay Dominik Jena, Andrea Lodi, Claudio Sole(参考訳) Random Utility Maximizationモデルは、消費者選択行動を見積もる最も採用されているフレームワークです。 しかし、行動経済学はこの枠組みと相容れないハロ効果のような不合理な選択行動の強い実証的証拠を提供している。 したがって、ランダムユーティリティ最大化ファミリーに属するモデルは、そのような不合理な振る舞いを正確に捉えることができない。 したがって、そのような制限を克服するより一般的な選択モデルが提案されている。 しかし、そのようなモデルの柔軟性は、過度に適合するリスクの増大によって生じる。 このようなモデルの推定は依然として課題である。 本研究では,最近提案された一般化確率的選好モデルについて,ランダム効用最大化モデルの族を仮定し,ハロ効果を捉えることのできる推定手法を提案する。 具体的には、トランザクションデータから合理的かつ不合理な顧客タイプを効率的にモデル化するために、部分ランクの選好をどのように使うかを示す。 提案手法は,顧客行動を含む木のようなデータ構造を拡張して,関連顧客タイプを効率的に抽出する列生成に基づく。 さらに,製品間のインタラクションの順序の低さを優先する,顧客タイプ間の新たな支配ルールを提案する。 広範囲にわたる実験により,提案手法の予測精度が評価された。 以上の結果から,不合理な選好を考慮すれば,大規模な食料品店やドラッグストアの実際のデータセットでテストした場合,平均12.5%の予測精度が向上する可能性が示唆された。

The Random Utility Maximization model is by far the most adopted framework to estimate consumer choice behavior. However, behavioral economics has provided strong empirical evidence of irrational choice behavior, such as halo effects, that are incompatible with this framework. Models belonging to the Random Utility Maximization family may therefore not accurately capture such irrational behavior. Hence, more general choice models, overcoming such limitations, have been proposed. However, the flexibility of such models comes at the price of increased risk of overfitting. As such, estimating such models remains a challenge. In this work, we propose an estimation method for the recently proposed Generalized Stochastic Preference choice model, which subsumes the family of Random Utility Maximization models and is capable of capturing halo effects. Specifically, we show how to use partially-ranked preferences to efficiently model rational and irrational customer types from transaction data. Our estimation procedure is based on column generation, where relevant customer types are efficiently extracted by expanding a tree-like data structure containing the customer behaviors. Further, we propose a new dominance rule among customer types whose effect is to prioritize low orders of interactions among products. An extensive set of experiments assesses the predictive accuracy of the proposed approach. Our results show that accounting for irrational preferences can boost predictive accuracy by 12.5% on average, when tested on a real-world dataset from a large chain of grocery and drug stores.
翻訳日:2021-09-10 13:57:47 公開日:2021-09-08
# 反復ベクトル場と保守主義 : 連合学習への応用

Iterated Vector Fields and Conservatism, with Applications to Federated Learning ( http://arxiv.org/abs/2109.03973v1 )

ライセンス: Link先を確認
Zachary Charles, Keith Rush(参考訳) 反復ベクトル場の研究を行い、スカラー値関数の勾配であるという意味で、それらが保守的であるかどうかについて検討する。 一般化線形モデルの損失関数に関連する勾配ベクトル場を含む様々な反復ベクトル場の保守性を分析する。 本研究は,フェデレート学習アルゴリズムの最適化と新しい収束結果の導出に関するものである。 特に,ある種の関数クラス(非凸関数を含む)では,フェデレーション平均化はサーロゲート損失関数の勾配降下と等価であることを示す。 最後に、幾何学、力学系、最適化のトピックにまたがる様々なオープンな質問について論じる。

We study iterated vector fields and investigate whether they are conservative, in the sense that they are the gradient of some scalar-valued function. We analyze the conservatism of various iterated vector fields, including gradient vector fields associated to loss functions of generalized linear models. We relate this study to optimization and derive novel convergence results for federated learning algorithms. In particular, we show that for certain classes of functions (including non-convex functions), federated averaging is equivalent to gradient descent on a surrogate loss function. Finally, we discuss a variety of open questions spanning topics in geometry, dynamical systems, and optimization.
翻訳日:2021-09-10 13:57:26 公開日:2021-09-08
# Dubhe: フェデレートラーニングクライアント選択における同型暗号化によるデータの不偏性

Dubhe: Towards Data Unbiasedness with Homomorphic Encryption in Federated Learning Client Selection ( http://arxiv.org/abs/2109.04253v1 )

ライセンス: Link先を確認
Shulai Zhang, Zirui Li, Quan Chen, Wenli Zheng, Jingwen Leng, Minyi Guo(参考訳) Federated Learning(FL)は、クライアントが自身のローカルデータ上でモデルを協調的にトレーニングできる分散機械学習パラダイムである。 FLはクライアントのプライバシーを約束し、そのセキュリティは加法的に同型暗号化(HE)のような暗号手法によって強化することができる。 しかし、FLの効率は、クライアント間のデータ分散の相違とグローバル分布の歪の両方において、統計的に不均一性に悩まされる可能性がある。 FLの性能劣化の原因を数学的に検証し,様々なデータセット上でのFLの性能について検討する。 統計的不均一性問題に対処するために,クライアントがHEの助けを借りてプライバシを保ちながら,積極的にトレーニングに参加することのできるDubheというシステムレベルのクライアント選択手法を提案する。 実験の結果,dubhe は分類精度の最適 greedy 法と同等であり,暗号化や通信のオーバーヘッドは無視できることがわかった。

Federated learning (FL) is a distributed machine learning paradigm that allows clients to collaboratively train a model over their own local data. FL promises the privacy of clients and its security can be strengthened by cryptographic methods such as additively homomorphic encryption (HE). However, the efficiency of FL could seriously suffer from the statistical heterogeneity in both the data distribution discrepancy among clients and the global distribution skewness. We mathematically demonstrate the cause of performance degradation in FL and examine the performance of FL over various datasets. To tackle the statistical heterogeneity problem, we propose a pluggable system-level client selection method named Dubhe, which allows clients to proactively participate in training, meanwhile preserving their privacy with the assistance of HE. Experimental results show that Dubhe is comparable with the optimal greedy method on the classification accuracy, with negligible encryption and communication overhead.
翻訳日:2021-09-10 13:56:28 公開日:2021-09-08
# (参考訳) Idiosyncratic but not Arbitrary: Learning Idiolects in Online Registers Reveals Distinctive yet Consistent individual Styles [全文訳有]

Idiosyncratic but not Arbitrary: Learning Idiolects in Online Registers Reveals Distinctive yet Consistent Individual Styles ( http://arxiv.org/abs/2109.03158v2 )

ライセンス: CC BY 4.0
Jian Zhu and David Jurgens(参考訳) 個人の書き方の変化は、しばしば社会的属性と個人属性の両方の機能である。 構造的な社会的変動(例えば性別に基づく変動)は広く研究されてきたが、その特異な性質から個々のスタイルを特徴づける方法については、あまり知られていない。 我々は,文体の特徴を特定し,エンコードするために,多種間比較によるイディオレクトの研究手法を提案する。 このニューラルモデルは、短いテキストの著者シップ識別やアナロジーに基づく検索タスクにおいて強力なパフォーマンスを達成し、学習された表現が、定性的かつ定量的な慣用的スタイルの変化を符号化する驚くべき正規性を示すことを示した。 テキストの摂動を通じて、異なる言語要素の慣用的変化に対する相対的貢献を定量化する。 さらに,著者間および著者内変動を計測することにより,慣用句の変動はしばしば識別されるが一貫性があることを示す。

An individual's variation in writing style is often a function of both social and personal attributes. While structured social variation has been extensively studied, e.g., gender based variation, far less is known about how to characterize individual styles due to their idiosyncratic nature. We introduce a new approach to studying idiolects through a massive cross-author comparison to identify and encode stylistic features. The neural model achieves strong performance at authorship identification on short texts and through an analogy-based probing task, showing that the learned representations exhibit surprising regularities that encode qualitative and quantitative shifts of idiolectal styles. Through text perturbation, we quantify the relative contributions of different linguistic elements to idiolectal variation. Furthermore, we provide a description of idiolects through measuring inter- and intra-author variation, showing that variation in idiolects is often distinctive yet consistent.
翻訳日:2021-09-10 11:50:59 公開日:2021-09-08
# Sparse-MLP: 条件計算を備えたフルMLPアーキテクチャ

Sparse-MLP: A Fully-MLP Architecture with Conditional Computation ( http://arxiv.org/abs/2109.02008v2 )

ライセンス: Link先を確認
Yuxuan Lou, Fuzhao Xue, Zangwei Zheng, Yang You(参考訳) 厳密な条件計算を伴うMoE(Mixture-of-Exper ts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。 本稿では,最近のmlp-mixerモデルを疎moe層でスケーリングし,より計算効率の高いアーキテクチャを実現するsparse-mlpを提案する。 MLP-Mixerモデルの高密度なMLPブロックのサブセットをスパースブロックに置き換える。 各Sparseブロックでは、MLPの専門家が画像パッチ次元に沿ってチャネル内で情報を混合する手法と、MLP専門家がチャネル次元に沿ってパッチ内で情報を混合する手法の2つの段階をMoE層に適用する。 さらに、ルーティングの計算コストを削減し、専門家の能力を向上させるため、各SparseブロックにRe-represent Layerを設計する。 これらの層は2つの単純かつ効果的な線形変換によって画像表現を再スケールする。 MoCo v3アルゴリズムを用いてImageNet-1kで事前トレーニングを行う場合、当社のモデルは、より少ないパラメータと計算コストでImageNet Top-1精度を2.5倍に高めることができる。 小型ダウンストリーム画像分類タスク、すなわち Cifar10とCifar100では、Sparse-MLPはベースラインよりもパフォーマンスが向上しています。

Mixture-of-Experts (MoE) with sparse conditional computation has been proved an effective architecture for scaling attention-based models to more parameters with comparable computation cost. In this paper, we propose Sparse-MLP, scaling the recent MLP-Mixer model with sparse MoE layers, to achieve a more computation-efficien t architecture. We replace a subset of dense MLP blocks in the MLP-Mixer model with Sparse blocks. In each Sparse block, we apply two stages of MoE layers: one with MLP experts mixing information within channels along image patch dimension, one with MLP experts mixing information within patches along the channel dimension. Besides, to reduce computational cost in routing and improve expert capacity, we design Re-represent layers in each Sparse block. These layers are to re-scale image representations by two simple but effective linear transformations. When pre-training on ImageNet-1k with MoCo v3 algorithm, our models can outperform dense MLP models by 2.5\% on ImageNet Top-1 accuracy with fewer parameters and computational cost. On small-scale downstream image classification tasks, i.e. Cifar10 and Cifar100, our Sparse-MLP can still achieve better performance than baselines.
翻訳日:2021-09-10 10:27:24 公開日:2021-09-08
# (参考訳) AWGAN: 生成対向ネットワークのための高次元判別器出力の強化 [全文訳有]

AWGAN: Empowering High-Dimensional Discriminator Output for Generative Adversarial Networks ( http://arxiv.org/abs/2109.03378v1 )

ライセンス: CC BY 4.0
Mengyu Dai and Haibin Hang and Anuj Srivastava(参考訳) 実証的多次元判別器(critic)出力は有利であるが、その明確な説明は議論されていない。 本稿では, 高次元の批判出力が実分布と偽分布を区別する利点があることを厳密に証明し, (ii)さらにこの利点を拡大する平方根速度変換(SRVT)ブロックを導入する。 この証明は、上述の p-wasserstein 距離で有界であり、高次元の批評家出力 n でwasserstein gan フレームワークに完全に適合する、提案されている最大 p-中央性差に基づいている。 SRVTブロックは、高次元批評家出力の対称構造を破り、判別器ネットワークの一般化能力を向上させる。 実装面では、提案するフレームワークはハイパーパラメータチューニングを必要とせず、その使用を大いに促進する。 画像生成タスクの実験は、ベンチマークデータセットのパフォーマンス改善を示す。

Empirically multidimensional discriminator (critic) output can be advantageous, while a solid explanation for it has not been discussed. In this paper, (i) we rigorously prove that high-dimensional critic output has advantage on distinguishing real and fake distributions; (ii) we also introduce an square-root velocity transformation (SRVT) block which further magnifies this advantage. The proof is based on our proposed maximal p-centrality discrepancy which is bounded above by p-Wasserstein distance and perfectly fits the Wasserstein GAN framework with high-dimensional critic output n. We have also showed when n = 1, the proposed discrepancy is equivalent to 1-Wasserstein distance. The SRVT block is applied to break the symmetric structure of high-dimensional critic output and improve the generalization capability of the discriminator network. In terms of implementation, the proposed framework does not require additional hyper-parameter tuning, which largely facilitates its usage. Experiments on image generation tasks show performance improvement on benchmark datasets.
翻訳日:2021-09-10 05:32:10 公開日:2021-09-08
# (参考訳) 音声質問応答のための自己教師付きコントラストクロスモダリティ表現学習 [全文訳有]

Self-supervised Contrastive Cross-Modality Representation Learning for Spoken Question Answering ( http://arxiv.org/abs/2109.03381v1 )

ライセンス: CC BY 4.0
Chenyu You, Nuo Chen, Yuexian Zou(参考訳) 音声による質問応答(SQA)は、最適な回答予測のために、音声文書と質問の両方をきめ細かな理解を必要とする。 本稿では,自己監督訓練段階と対照表現学習段階を用いた音声質問応答のための新しい学習方式を提案する。 自己監督段階において,発話復元,発話挿入,質問識別を含む3つの補助的自己監督課題を提案し,追加データや注釈なしで音声文書間の一貫性と一貫性を捉えるように協調的に学習する。 そこで我々は,スパン削除やスパン置換を含む複数の拡張戦略を採用することで,コントラスト目的の雑音不変発話表現を学習することを提案する。 さらに、学習した共通空間における音声文の手がかりを意味的に整合させ、SQAタスクに役立てるために、時間的アライメントの注意を設計する。 これにより、トレーニングスキームは生成モデルをより効果的にガイドし、より適切な回答を予測することができる。 実験結果から,3つのSQAベンチマークの最先端結果が得られた。

Spoken question answering (SQA) requires fine-grained understanding of both spoken documents and questions for the optimal answer prediction. In this paper, we propose novel training schemes for spoken question answering with a self-supervised training stage and a contrastive representation learning stage. In the self-supervised stage, we propose three auxiliary self-supervised tasks, including utterance restoration, utterance insertion, and question discrimination, and jointly train the model to capture consistency and coherence among speech documents without any additional data or annotations. We then propose to learn noise-invariant utterance representations in a contrastive objective by adopting multiple augmentation strategies, including span deletion and span substitution. Besides, we design a Temporal-Alignment attention to semantically align the speech-text clues in the learned common space and benefit the SQA tasks. By this means, the training schemes can more effectively guide the generation model to predict more proper answers. Experimental results show that our model achieves state-of-the-art results on three SQA benchmarks.
翻訳日:2021-09-10 05:16:16 公開日:2021-09-08
# (参考訳) DeepZensols:Deep Natural Language Processing Framework [全文訳有]

DeepZensols: Deep Natural Language Processing Framework ( http://arxiv.org/abs/2109.03383v1 )

ライセンス: CC BY 4.0
Paul Landes, Barbara Di Eugenio, Cornelia Caragea(参考訳) 公開ソースコードを配布することで出版物に結果を再現することは、ますます人気を高めている。 機械学習(ml)実験を再現することの難しさから、これらの結果のばらつきを減らすことには大きな努力が払われている。 どんな科学においても、一貫して結果を再現できる能力は、研究の基盤となる仮説を効果的に強化し、研究自体の新たな側面として重要視されるべきである。 この研究の貢献は、一貫性のある結果を再現し、自然言語処理(NLP)ディープラーニング(DL)モデルの作成、トレーニング、評価を行う手段を提供するフレームワークである。

Reproducing results in publications by distributing publicly available source code is becoming ever more popular. Given the difficulty of reproducing machine learning (ML) experiments, there have been significant efforts in reducing the variance of these results. As in any science, the ability to consistently reproduce results effectively strengthens the underlying hypothesis of the work, and thus, should be regarded as important as the novel aspect of the research itself. The contribution of this work is a framework that is able to reproduce consistent results and provides a means of easily creating, training, and evaluating natural language processing (NLP) deep learning (DL) models.
翻訳日:2021-09-10 04:56:28 公開日:2021-09-08
# (参考訳) RoadAtlas: 自動道路欠陥検出とアセット管理のためのインテリジェントプラットフォーム [全文訳有]

RoadAtlas: Intelligent Platform for Automated Road Defect Detection and Asset Management ( http://arxiv.org/abs/2109.03385v1 )

ライセンス: CC BY 4.0
Zhuoxiao Chen, Yiyun Zhang, Yadan Luo, Zijian Wang, Jinjiang Zhong, Anthony Southon(参考訳) ディープラーニングに基づくインテリジェント検出アルゴリズムの急速な開発により、道路欠陥の自動認識と道路マーキング解析に多くの進歩がもたらされている。 これは、プロの検査官が手動で道路をレビューする費用と時間を要する問題に効果的に対処することができる。 この目的に向けて,1)道路欠陥検出,2)道路マーキング解析,3)ユーザによるデータの提示と入力を行うwebベースのダッシュボード,4)構造化データベースと開発apiを備えたバックエンドをサポートする,新しいエンドツーエンド統合システムroadatlasを提案する。

With the rapid development of intelligent detection algorithms based on deep learning, much progress has been made in automatic road defect recognition and road marking parsing. This can effectively address the issue of an expensive and time-consuming process for professional inspectors to review the street manually. Towards this goal, we present RoadAtlas, a novel end-to-end integrated system that can support 1) road defect detection, 2) road marking parsing, 3) a web-based dashboard for presenting and inputting data by users, and 4) a backend containing a well-structured database and developed APIs.
翻訳日:2021-09-10 04:48:13 公開日:2021-09-08
# (参考訳) 学習不変表現の基本的なトレードオフについて [全文訳有]

On the Fundamental Trade-offs in Learning Invariant Representations ( http://arxiv.org/abs/2109.03386v1 )

ライセンス: CC BY-SA 4.0
Bashir Sadeghi and Vishnu Boddeti(参考訳) プライバシ保存、アルゴリズム的公平性、ドメイン適応といった表現学習の多くの応用は、廃棄される意味情報の明示的な制御を欲する。 この目標は、しばしば2つの潜在的な競合目標を満たすものとして定式化される: 既知の意味属性に対して独立または不変であると同時に、目標属性を予測するユーティリティを最大化する。 本稿では,データとそれに対応するターゲットとセマンティック属性間の統計的依存関係によって引き起こされるユーティリティとセマンティック依存の2つの基本的なトレードオフを同定し,決定する。 我々は、緩やかな仮定の下で、基礎となる最適化問題を大域的に最適化するための閉形式解を導出する。 また、トレードオフの実証的な見積もりを導き、対応する人口との収束を示す。 最後に,代表問題のトレードオフを数値的に定量化し,ベースライン表現学習アルゴリズムによる解と比較する。

Many applications of representation learning, such as privacy-preservation , algorithmic fairness and domain adaptation, desire explicit control over semantic information being discarded. This goal is often formulated as satisfying two potentially competing objectives: maximizing utility for predicting a target attribute while simultaneously being independent or invariant with respect to a known semantic attribute. In this paper, we \emph{identify and determine} two fundamental trade-offs between utility and semantic dependence induced by the statistical dependencies between the data and its corresponding target and semantic attributes. We derive closed-form solutions for the global optima of the underlying optimization problems under mild assumptions, which in turn yields closed formulae for the exact trade-offs. We also derive empirical estimates of the trade-offs and show their convergence to the corresponding population counterparts. Finally, we numerically quantify the trade-offs on representative problems and compare to the solutions achieved by baseline representation learning algorithms.
翻訳日:2021-09-10 04:44:37 公開日:2021-09-08
# (参考訳) 深層学習のための視覚知覚と知覚計算モデル--現状,課題,展望 [全文訳有]

Visual Sensation and Perception Computational Models for Deep Learning: State of the art, Challenges and Prospects ( http://arxiv.org/abs/2109.03391v1 )

ライセンス: CC BY 4.0
Bing Wei, Yudi Zhao, Kuangrong Hao, and Lei Gao(参考訳) 視覚感覚と知覚は、環境認識と理解において視覚情報を検知し、整理し、識別し、解釈する過程を指す。 視覚知覚にインスパイアされた計算モデルは、認知科学、情報科学、人工知能など多くの分野から生まれた複雑さと多様性の特徴を持つ。 本稿では,生体視覚機構と計算視覚理論から,深層学習を指向した視覚知覚計算モデルについて系統的に検討する。 そこで,視覚知覚計算モデルの展望について,いくつかの視点を提示する。 最後に,視覚知覚の現在の課題を要約し,今後の展開傾向を予測する。 この調査を通じて、この方向の研究の包括的な参考資料を提供する。

Visual sensation and perception refers to the process of sensing, organizing, identifying, and interpreting visual information in environmental awareness and understanding. Computational models inspired by visual perception have the characteristics of complexity and diversity, as they come from many subjects such as cognition science, information science, and artificial intelligence. In this paper, visual perception computational models oriented deep learning are investigated from the biological visual mechanism and computational vision theory systematically. Then, some points of view about the prospects of the visual perception computational models are presented. Finally, this paper also summarizes the current challenges of visual perception and predicts its future development trends. Through this survey, it will provide a comprehensive reference for research in this direction.
翻訳日:2021-09-10 04:03:03 公開日:2021-09-08
# (参考訳) 後方サンプリングによるゼロサム確率ゲーム学習 [全文訳有]

Learning Zero-sum Stochastic Games with Posterior Sampling ( http://arxiv.org/abs/2109.03396v1 )

ライセンス: CC BY 4.0
Mehdi Jafarnia-Jahromi, Rahul Jain, Ashutosh Nayyar(参考訳) 本稿では,ゼロサム確率ゲームのための後方サンプリング強化学習(PSRL-ZSG)を提案する。これは,平均逆基準付き無限水平ゼロサム確率ゲームにおいて,ベイズ的残差を$O(HS\sqrt{AT})$とする最初のオンライン学習アルゴリズムである。 ここで、$H$はバイアス関数の幅の上限、$S$は状態の数、$A$は共同アクションの数、$T$は地平線である。 我々は、対戦相手を制御できず、任意の時間順応的履歴依存戦略を採れるオンライン環境を考える。 これにより、Wei らによる$O(\sqrt[3]{DS^2AT^2})$の最大の後悔境界が改善される。 al.、2017年は同じ仮定で、理論的な下限は$A$と$T$と一致する。

In this paper, we propose Posterior Sampling Reinforcement Learning for Zero-sum Stochastic Games (PSRL-ZSG), the first online learning algorithm that achieves Bayesian regret bound of $O(HS\sqrt{AT})$ in the infinite-horizon zero-sum stochastic games with average-reward criterion. Here $H$ is an upper bound on the span of the bias function, $S$ is the number of states, $A$ is the number of joint actions and $T$ is the horizon. We consider the online setting where the opponent can not be controlled and can take any arbitrary time-adaptive history-dependent strategy. This improves the best existing regret bound of $O(\sqrt[3]{DS^2AT^2})$ by Wei et. al., 2017 under the same assumption and matches the theoretical lower bound in $A$ and $T$.
翻訳日:2021-09-10 03:33:02 公開日:2021-09-08
# (参考訳) 逆機械翻訳のための混合復号法 [全文訳有]

Mixup Decoding for Diverse Machine Translation ( http://arxiv.org/abs/2109.03402v1 )

ライセンス: CC BY 4.0
Jicheng Li, Pengzhi Gao, Xuanfu Wu, Yang Feng, Zhongjun He, Hua Wu, Haifeng Wang(参考訳) 異なる機械翻訳は、与えられたソース言語文に対する様々なターゲット言語翻訳を生成することを目的としている。 混合学習によって導入された文潜在空間における線形関係を利用して、復号時にトレーニングコーパスからサンプリングされた異なる文対を線形に補間することにより、入力文に対する異なる翻訳を生成するMixDiversityを提案する。 翻訳の忠実度と多様性をさらに向上するために,学習コーパス内の多様文対を選択し,各対の補間重みを調整するための2つの単純かつ効果的なアプローチを提案する。 また,補間重みの制御により,従来の手法のほとんどで必要となる追加訓練をすることなく,忠実性と多様性のトレードオフを実現することができる。 WMT'16 en-ro, WMT'14 en-de, WMT'17 zh-enの実験を行い, 従来の機械翻訳法よりも大幅に優れていたことを示す。

Diverse machine translation aims at generating various target language translations for a given source language sentence. Leveraging the linear relationship in the sentence latent space introduced by the mixup training, we propose a novel method, MixDiversity, to generate different translations for the input sentence by linearly interpolating it with different sentence pairs sampled from the training corpus when decoding. To further improve the faithfulness and diversity of the translations, we propose two simple but effective approaches to select diverse sentence pairs in the training corpus and adjust the interpolation weight for each pair correspondingly. Moreover, by controlling the interpolation weight, our method can achieve the trade-off between faithfulness and diversity without any additional training, which is required in most of the previous methods. Experiments on WMT'16 en-ro, WMT'14 en-de, and WMT'17 zh-en are conducted to show that our method substantially outperforms all previous diverse machine translation methods.
翻訳日:2021-09-10 03:17:05 公開日:2021-09-08
# (参考訳) ランダム化ベクトル表現を用いた関数の計算

Computing on Functions Using Randomized Vector Representations ( http://arxiv.org/abs/2109.03429v1 )

ライセンス: CC BY-SA 4.0
E. Paxon Frady, Denis Kleyko, Christopher J. Kymn, Bruno A. Olshausen, Friedrich T. Sommer(参考訳) ランダムベクトルによって記号をエンコードする記号処理のためのベクトル空間モデルは、認知科学やコネクショニストコミュニティにおいてベクターシンボリックアーキテクチャ(vsa)や同義語では超次元(hd)コンピューティングという名で提案されている。 本稿では,連続値データをベクトル空間にマッピングすることでvsasを関数空間に一般化し,任意の2つのデータ点の表現間の内積が類似性核を表す。 VSAと類似して、我々はこの新しい関数エンコーディングと計算フレームワークVector Function Architecture (VFA) と呼ぶ。 vfasでは、ベクトルは関数空間(再生成核ヒルベルト空間)の要素と同様に個々のデータポイントを表現できる。 VSA から継承された代数的ベクトル演算は、函数空間における well-defined な演算に対応する。 さらに,前述した連続データの符号化法である分数電力符号化(fpe)について,ランダムベースベクトルの指数を用いてデータ点のランダム化表現を生成し,vfaを誘導するカーネル特性を満足する手法について検討した。 基本ベクトルの要素がサンプリングされる分布がFPEカーネルの形状を決定することを示し、バンド制限関数を用いた計算のためのVFAを誘導する。 特に、vfas はランダムな特徴を持つ大規模カーネルマシンを実装するための代数的フレームワークを提供しており、rahimi と recht, 2007 を拡張している。 最後に,画像認識,密度推定,非線形回帰問題に対するvfaモデルのいくつかの応用例を示す。 分析と結果から,vfaは分散ニューラルネットワークにおける関数の表現と操作のための強力な新しいフレームワークであることが示唆された。

Vector space models for symbolic processing that encode symbols by random vectors have been proposed in cognitive science and connectionist communities under the names Vector Symbolic Architecture (VSA), and, synonymously, Hyperdimensional (HD) computing. In this paper, we generalize VSAs to function spaces by mapping continuous-valued data into a vector space such that the inner product between the representations of any two data points represents a similarity kernel. By analogy to VSA, we call this new function encoding and computing framework Vector Function Architecture (VFA). In VFAs, vectors can represent individual data points as well as elements of a function space (a reproducing kernel Hilbert space). The algebraic vector operations, inherited from VSA, correspond to well-defined operations in function space. Furthermore, we study a previously proposed method for encoding continuous data, fractional power encoding (FPE), which uses exponentiation of a random base vector to produce randomized representations of data points and fulfills the kernel properties for inducing a VFA. We show that the distribution from which elements of the base vector are sampled determines the shape of the FPE kernel, which in turn induces a VFA for computing with band-limited functions. In particular, VFAs provide an algebraic framework for implementing large-scale kernel machines with random features, extending Rahimi and Recht, 2007. Finally, we demonstrate several applications of VFA models to problems in image recognition, density estimation and nonlinear regression. Our analyses and results suggest that VFAs constitute a powerful new framework for representing and manipulating functions in distributed neural systems, with myriad applications in artificial intelligence.
翻訳日:2021-09-10 03:06:28 公開日:2021-09-08
# (参考訳) 量子ニューラルネットワークで量子ビットのノイズを学習できるか? 量子フローに関するケーススタディ [全文訳有]

Can Noise on Qubits Be Learned in Quantum Neural Network? A Case Study on QuantumFlow ( http://arxiv.org/abs/2109.03430v1 )

ライセンス: CC BY 4.0
Zhiding Liang, Zhepeng Wang, Junhuan Yang, Lei Yang, Jinjun Xiong, Yiyu Shi, Weiwen Jiang(参考訳) ノイズの多い中間スケール量子(NISQ)時代には、物理量子ビット(量子ビット)に存在する高ノイズレベルをどのように扱うかが重要な問題である。 量子誤り訂正は有望であるが、既存の量子コンピュータの能力を超える1つの「完璧な」量子ビットを生成するために、膨大な数の物理量子ビット(例えば1,000を超える)を必要とする。 本稿では, 一般量子アルゴリズムのための完全量子ビットを生成する代わりに, 排他的アルゴリズムのノイズ問題を緩和する可能性について検討する。 具体的には,量子ニューラルネットワーク(qnn)を対象とし,学習段階での誤差を学習し,同定されたqnnモデルが雑音に耐性を持つようにすることを提案する。 結果として、QNNの実装には、より短期的な量子コンピュータにとってより現実的な物理量子ビットは必要とされない。 この目的を達成するためには、アプリケーション固有のコンパイラが不可欠である。一方、論理キュービットから物理キュービットへのマッピングがランダムである場合、エラーは学習できない。 本稿では,最近のQNNフレームワークであるQuantumFlowをケーススタディとして利用する。 実験の結果,量子ビットの異なる誤りに対してqnnモデルを最適化でき,誤差非依存トレーニングで得られたモデルと比較して,最大28%の精度向上が得られた。

In the noisy intermediate-scale quantum (NISQ) era, one of the key questions is how to deal with the high noise level existing in physical quantum bits (qubits). Quantum error correction is promising but requires an extensive number (e.g., over 1,000) of physical qubits to create one "perfect" qubit, exceeding the capacity of the existing quantum computers. This paper aims to tackle the noise issue from another angle: instead of creating perfect qubits for general quantum algorithms, we investigate the potential to mitigate the noise issue for dedicate algorithms. Specifically, this paper targets quantum neural network (QNN), and proposes to learn the errors in the training phase, so that the identified QNN model can be resilient to noise. As a result, the implementation of QNN needs no or a small number of additional physical qubits, which is more realistic for the near-term quantum computers. To achieve this goal, an application-specific compiler is essential: on the one hand, the error cannot be learned if the mapping from logical qubits to physical qubits exists randomness; on the other hand, the compiler needs to be efficient so that the lengthy training procedure can be completed in a reasonable time. In this paper, we utilize the recent QNN framework, QuantumFlow, as a case study. Experimental results show that the proposed approach can optimize QNN models for different errors in qubits, achieving up to 28% accuracy improvement compared with the model obtained by the error-agnostic training.
翻訳日:2021-09-10 03:04:52 公開日:2021-09-08
# (参考訳) ArchivalQA: アーカイブニュースコレクションに対するオープンドメイン質問回答のための大規模ベンチマークデータセット [全文訳有]

ArchivalQA: A Large-scale Benchmark Dataset for Open Domain Question Answering over Archival News Collections ( http://arxiv.org/abs/2109.03438v1 )

ライセンス: CC BY 4.0
Jiexin Wang, Adam Jatowt, Masatoshi Yoshikawa(参考訳) 近年,ディープラーニング技術の発展と大規模QAデータセットの利用により,オープンドメイン質問応答(ODQA)が急速に進歩している。 しかし、現在のデータセットは基本的に同期文書コレクション(ウィキペディアなど)用に設計されている。 数十年にわたる長期ニュースアーカイブなどの時限ニュースコレクションは,我々の社会にとって非常に価値があるにもかかわらず,モデルのトレーニングにはほとんど使われていない。 このような歴史的コレクションに関するODQAの研究を促進するために,時事ニュースQA用に設計された1,067,056組の質問応答データセットであるArchivealQAを提案する。 さらに,課題の難易度と時間表現の包含に基づいて,データセットの4つの部分を作成し,異なる強度と能力で特徴付けられるODQAシステムのトレーニングやテストに有用であると考えている。 私たちが導入した新しいQAデータセット構築フレームワークは、他の種類のコレクション上でデータセットを作成するためにも適用できます。

In the last few years, open-domain question answering (ODQA) has advanced rapidly due to the development of deep learning techniques and the availability of large-scale QA datasets. However, the current datasets are essentially designed for synchronic document collections (e.g., Wikipedia). Temporal news collections such as long-term news archives spanning several decades, are rarely used in training the models despite they are quite valuable for our society. In order to foster the research in the field of ODQA on such historical collections, we present ArchivalQA, a large question answering dataset consisting of 1,067,056 question-answer pairs which is designed for temporal news QA. In addition, we create four subparts of our dataset based on the question difficulty levels and the containment of temporal expressions, which we believe could be useful for training or testing ODQA systems characterized by different strengths and abilities. The novel QA dataset-constructing framework that we introduce can be also applied to create datasets over other types of collections.
翻訳日:2021-09-10 02:27:09 公開日:2021-09-08
# (参考訳) 参照:低品質データを用いた参照なしクロススピーカー方式の表現音声合成 [全文訳有]

Referee: Towards reference-free cross-speaker style transfer with low-quality data for expressive speech synthesis ( http://arxiv.org/abs/2109.03439v1 )

ライセンス: CC BY 4.0
Songxiang Liu, Shan Yang, Dan Su, Dong Yu(参考訳) テキスト音声合成(TTS)におけるクロススピーカースタイル転送(CSST)は、ターゲット話者の声における合成音声への発話スタイルの転送を目的としている。 従来のCSSTアプローチのほとんどは、トレーニング中に所望の話し方を持つ高価な高品質なデータに依存しており、新しい文の生成を条件に、話し方記述子を得るために基準発話を必要とする。 この研究は、低品質データをフル活用してテキストから話し方を学ぶ、表現型TSのための堅牢な参照なしCSSTアプローチであるRefereeを提示する。 Refereeはテキスト・ツー・スタイル(T2S)モデルをスタイル・ツー・ウェーブ(S2W)モデルでカスケードすることで構築される。 T2Sモデルを用いてテキストから予測し,音素レベルのピッチとエネルギーの輪郭を微細な話し方記述子として採用する。 アクセスしやすい低品質データのみを用いて、ロバストなT2Sモデルを学習するために、新しいプレトレイン・リファインメント法を採用する。 s2wモデルは、高品質なターゲットデータを用いて訓練され、効果的にスタイル記述子を集約し、ターゲット話者の声に忠実な音声を生成する。 実験の結果、RefereeはCSSTにおけるGST(Global-style-tok en)ベースのベースラインアプローチよりも優れていることが示された。

Cross-speaker style transfer (CSST) in text-to-speech (TTS) synthesis aims at transferring a speaking style to the synthesised speech in a target speaker's voice. Most previous CSST approaches rely on expensive high-quality data carrying desired speaking style during training and require a reference utterance to obtain speaking style descriptors as conditioning on the generation of a new sentence. This work presents Referee, a robust reference-free CSST approach for expressive TTS, which fully leverages low-quality data to learn speaking styles from text. Referee is built by cascading a text-to-style (T2S) model with a style-to-wave (S2W) model. Phonetic PosteriorGram (PPG), phoneme-level pitch and energy contours are adopted as fine-grained speaking style descriptors, which are predicted from text using the T2S model. A novel pretrain-refinement method is adopted to learn a robust T2S model by only using readily accessible low-quality data. The S2W model is trained with high-quality target data, which is adopted to effectively aggregate style descriptors and generate high-fidelity speech in the target speaker's voice. Experimental results are presented, showing that Referee outperforms a global-style-token (GST)-based baseline approach in CSST.
翻訳日:2021-09-10 02:14:21 公開日:2021-09-08
# (参考訳) バッチ非同期確率近似の収束と強化学習への応用 [全文訳有]

Convergence of Batch Asynchronous Stochastic Approximation With Applications to Reinforcement Learning ( http://arxiv.org/abs/2109.03445v1 )

ライセンス: CC BY 4.0
Rajeeva L. Karandikar and M. Vidyasagar(参考訳) 確率近似(英: stochastic approximation, sa)アルゴリズムは、大雑把な測定値である$\mathbf{f}(\boldsymbol{\theta}) = \mathbf{0}$ where $\mathbf{f} : \mathbb{r}^d \rightarrow \mathbb{r}^d$ の方程式に対する解を見つけるために広く用いられる確率的手法である。 これまでの文献では、現在の推定値$\boldsymbol{\theta}_t$の全ベクトルが更新される「同期」更新と、$\boldsymbol{\theta}_t$の1つのコンポーネントが更新される「同期」更新とを区別することができる。 convex と nonconvex の最適化では、"batch" の更新の概念もあり、$\boldsymbol{\theta}_t$ のすべてのコンポーネントが $t$ のたびに更新されるわけではない。 さらに、"ローカル"クロックと"グローバル"クロックの区別もある。 これまでの文献では、局所クロックを使用する場合の収束証明は、測定ノイズがi.i.d\シーケンスであると仮定しており、これは強化学習(rl)では持たない仮定である。 本稿では,観測ノイズがマルティンゲール差分列を形成する場合において,更新が局所クロックか大域クロックかに関わらず動作するバッチ漸近確率近似 (basa) の収束の一般理論を提案する。 これは今まででもっとも一般的な結果であり、他の全てを包含している。

The stochastic approximation (SA) algorithm is a widely used probabilistic method for finding a solution to an equation of the form $\mathbf{f}(\boldsymbol{\theta}) = \mathbf{0}$ where $\mathbf{f} : \mathbb{R}^d \rightarrow \mathbb{R}^d$, when only noisy measurements of $\mathbf{f}(\cdot)$ are available. In the literature to date, one can make a distinction between "synchronous" updating, whereby the entire vector of the current guess $\boldsymbol{\theta}_t$ is updated at each time, and "asynchronous" updating, whereby ony one component of $\boldsymbol{\theta}_t$ is updated. In convex and nonconvex optimization, there is also the notion of "batch" updating, whereby some but not all components of $\boldsymbol{\theta}_t$ are updated at each time $t$. In addition, there is also a distinction between using a "local" clock versus a "global" clock. In the literature to date, convergence proofs when a local clock is used make the assumption that the measurement noise is an i.i.d\ sequence, an assumption that does not hold in Reinforcement Learning (RL). In this note, we provide a general theory of convergence for batch asymchronous stochastic approximation (BASA), that works whether the updates use a local clock or a global clock, for the case where the measurement noises form a martingale difference sequence. This is the most general result to date and encompasses all others.
翻訳日:2021-09-10 02:02:20 公開日:2021-09-08
# (参考訳) ガウス過程前の大規模線形逆問題に対する不確かさの定量化と実験設計

Uncertainty Quantification and Experimental Design for large-scale linear Inverse Problems under Gaussian Process Priors ( http://arxiv.org/abs/2109.03457v1 )

ライセンス: CC BY 4.0
C\'edric Travelletti, David Ginsbourger and Niklas Linde(参考訳) ベイズフレームワークにおける逆問題に対するガウス過程 (GP) の事前利用を検討する。 良く知られたように、GPの計算複雑性はデータポイントの数で3倍にスケールする。 ここでは、積分作用素を含む逆問題という文脈において、大きな格子上の反転を妨げるさらなる困難に直面していることを示す。 さらに、この文脈では共分散行列は保存するには大きすぎる可能性がある。 ガウス測度を逐次分解する結果を利用することで、低階中間行列のみを記憶することでメモリフットプリントを小さくする後共分散行列を暗黙的に表現できると同時に、個々の要素を完全な後共分散行列を構築することなくオンザフライでアクセスできるようにする。 さらに、新しい観測を素早く連続的に取り入れることができる。 これらの特徴は、連続的な実験的な設計タスクを考える際に重要である。 本研究では, イタリア・ストロンボリ火山内の高密度領域の精密分解能推定を目標とする重力逆問題に対して, 探索セット回復のための逐次データ収集計画の計算によるアプローチを実証する。 重み付き統合分散還元(wIVR)基準を逆問題に拡張することにより、逐次データ収集計画を計算する。 以上の結果から, この基準は外転体積の不確実性を大幅に低減し, 残留不確かさの最小レベルに到達できることがわかった。 全体として、我々の手法は、確率モデルの利点を自然科学で生じる大規模な逆問題に適用することができる。

We consider the use of Gaussian process (GP) priors for solving inverse problems in a Bayesian framework. As is well known, the computational complexity of GPs scales cubically in the number of datapoints. We here show that in the context of inverse problems involving integral operators, one faces additional difficulties that hinder inversion on large grids. Furthermore, in that context, covariance matrices can become too large to be stored. By leveraging results about sequential disintegrations of Gaussian measures, we are able to introduce an implicit representation of posterior covariance matrices that reduces the memory footprint by only storing low rank intermediate matrices, while allowing individual elements to be accessed on-the-fly without needing to build full posterior covariance matrices. Moreover, it allows for fast sequential inclusion of new observations. These features are crucial when considering sequential experimental design tasks. We demonstrate our approach by computing sequential data collection plans for excursion set recovery for a gravimetric inverse problem, where the goal is to provide fine resolution estimates of high density regions inside the Stromboli volcano, Italy. Sequential data collection plans are computed by extending the weighted integrated variance reduction (wIVR) criterion to inverse problems. Our results show that this criterion is able to significantly reduce the uncertainty on the excursion volume, reaching close to minimal levels of residual uncertainty. Overall, our techniques allow the advantages of probabilistic models to be brought to bear on large-scale inverse problems arising in the natural sciences.
翻訳日:2021-09-10 01:50:16 公開日:2021-09-08
# (参考訳) kittiデータセットカメラのセットアップ変更によるオドメトリ精度の向上 [全文訳有]

Recalibrating the KITTI Dataset Camera Setup for Improved Odometry Accuracy ( http://arxiv.org/abs/2109.03462v1 )

ライセンス: CC BY 4.0
Igor Cvi\v{s}i\'c, Ivan Markovi\'c, Ivan Petrovi\'c(参考訳) 過去10年間で、オドメトリーの精度を評価する最も関連性の高いパブリックデータセットの1つは、KITTIデータセットである。 高品質でリッチなセンサー設定に加えて、その成功は、研究者がアルゴリズムをベンチマークして比較できるオンライン評価ツールによってもたらされる。 実験の結果は, 基礎的真理を知らずにのみ評価され, 偏りがなく, 過剰に適合し, カメラ, 3dレーザー, および両者の組み合わせに基づくロボットの局所化の妥当性を検証した。 しかし、センサのセットアップとして事前のキャリブレーションと修正されたステレオ画像が必要であり、デフォルトのキャリブレーションパラメータに依存する。 それを考えると、より優れた校正パラメータの集合がより高いオドメトリー精度をもたらすかどうかという自然な疑問が生じる。 本稿では,KITTIデータセットの1ショットキャリブレーションのための新しいアプローチを提案する。 このアプローチは、低いキャリブレーション再投影誤差と低いビジュアルオドメトリ誤差の両方において、より良いキャリブレーションパラメータをもたらす。 そこで本研究では,3つの異なるオドメトリアルゴリズムであるsoft2,orb-slam2,viso 2について,提案するキャリブレーションパラメータによりオドメトリ精度が著しく向上することを示す実験を行った。 さらに,本手法と併用したSOFT2は,公式KITTIスコアボードにおいて,0.53%の翻訳誤差と0.0009deg/m回転誤差で高い精度を達成し,レーザによる3D法よりも優れていた。

Over the last decade, one of the most relevant public datasets for evaluating odometry accuracy is the KITTI dataset. Beside the quality and rich sensor setup, its success is also due to the online evaluation tool, which enables researchers to benchmark and compare algorithms. The results are evaluated on the test subset solely, without any knowledge about the ground truth, yielding unbiased, overfit free and therefore relevant validation for robot localization based on cameras, 3D laser or combination of both. However, as any sensor setup, it requires prior calibration and rectified stereo images are provided, introducing dependence on the default calibration parameters. Given that, a natural question arises if a better set of calibration parameters can be found that would yield higher odometry accuracy. In this paper, we propose a new approach for one shot calibration of the KITTI dataset multiple camera setup. The approach yields better calibration parameters, both in the sense of lower calibration reprojection errors and lower visual odometry error. We conducted experiments where we show for three different odometry algorithms, namely SOFT2, ORB-SLAM2 and VISO2, that odometry accuracy is significantly improved with the proposed calibration parameters. Moreover, our odometry, SOFT2, in conjunction with the proposed calibration method achieved the highest accuracy on the official KITTI scoreboard with 0.53% translational and 0.0009 deg/m rotational error, outperforming even 3D laser-based methods.
翻訳日:2021-09-10 01:48:56 公開日:2021-09-08
# (参考訳) 深層学習手法による音源定位の検討 [全文訳有]

A Review of Sound Source Localization with Deep Learning Methods ( http://arxiv.org/abs/2109.03465v1 )

ライセンス: CC BY 4.0
Pierre-Amaury Grumiaux, Sr{\dj}an Kiti\'c, Laurent Girin, Alexandre Gu\'erin(参考訳) 本稿では,単音源および複数音源の音源定位のための深層学習手法について概説する。 特に,残響や拡散音が存在する屋内・地域環境における音源定位に注目する。 ニューラルネットワークのアーキテクチャ,入力特徴の種類,出力戦略(分類や回帰),モデルのトレーニングや評価に使用されるデータの種類,モデルトレーニング戦略など,いくつかの側面から整理した,この文脈におけるニューラルネットワークのローカライゼーション文献の徹底的なトポロジーを提供する。 このように、興味のある読者は、深層学習に基づく音源定位手法の膨大なパノラマを理解することができる。 文献レビューを要約した表をレビューの最後に提供し、所定の対象特性のセットでメソッドをクイック検索する。

This article is a review on deep learning methods for single and multiple sound source localization. We are particularly interested in sound source localization in indoor/domestic environment, where reverberation and diffuse noise are present. We provide an exhaustive topography of the neural-based localization literature in this context, organized according to several aspects: the neural network architecture, the type of input features, the output strategy (classification or regression), the types of data used for model training and evaluation, and the model training strategy. This way, an interested reader can easily comprehend the vast panorama of the deep learning-based sound source localization methods. Tables summarizing the literature review are provided at the end of the review for a quick search of methods with a given set of target characteristics.
翻訳日:2021-09-10 01:36:12 公開日:2021-09-08
# (参考訳) 予測校正誤差の推定 [全文訳有]

Estimating Expected Calibration Errors ( http://arxiv.org/abs/2109.03480v1 )

ライセンス: CC BY 4.0
Nicolas Posocco, Antoine Bonnefoy(参考訳) 確率的分類器の予測の不確実性は、モデルが人間の意思決定、より広い確率的パイプライン、あるいはセンシティブな自動決定を行う必要がある場合に重要な関心事である。 研究によれば、ほとんどのモデルは本質的によく調整されていないため、決定スコアは後発確率と一致しない。 そのため、これらのモデルを校正したり、学習しながら校正を強制することができるようになり、近年の文献への関心が高まっている。 この文脈では、キャリブレーションを適切に評価することは、キャリブレーションに取り組む新しい貢献を定量化する上で最重要である。 しかし、一般的に使用されるメトリクスの改善の余地があり、キャリブレーションの評価はより深い分析の恩恵を受ける可能性がある。 そこで本稿では,分類の文脈におけるキャリブレーション指標の実証的評価に着目する。 より具体的には、従来の推定値といくつかの新しい推定値のうち、期待校正誤差(ECE$)の異なる推定値を評価する。 我々は、これらの$ece$推定器の品質を定量化するための経験的手順を構築し、それを使用して、異なる設定で実際に使用される推定器を決定する。

Uncertainty in probabilistic classifiers predictions is a key concern when models are used to support human decision making, in broader probabilistic pipelines or when sensitive automatic decisions have to be taken. Studies have shown that most models are not intrinsically well calibrated, meaning that their decision scores are not consistent with posterior probabilities. Hence being able to calibrate these models, or enforce calibration while learning them, has regained interest in recent literature. In this context, properly assessing calibration is paramount to quantify new contributions tackling calibration. However, there is room for improvement for commonly used metrics and evaluation of calibration could benefit from deeper analyses. Thus this paper focuses on the empirical evaluation of calibration metrics in the context of classification. More specifically it evaluates different estimators of the Expected Calibration Error ($ECE$), amongst which legacy estimators and some novel ones, proposed in this paper. We build an empirical procedure to quantify the quality of these $ECE$ estimators, and use it to decide which estimator should be used in practice for different settings.
翻訳日:2021-09-10 00:30:56 公開日:2021-09-08
# (参考訳) スペリングは正確な(しかし時に誤る)音韻的ターゲットを提供する。 第二言語単語学習におけるオルソグラフィと音響変化

Spelling provides a precise (but sometimes misplaced) phonological target. Orthography and acoustic variability in second language word learning ( http://arxiv.org/abs/2109.03490v1 )

ライセンス: CC BY 4.0
Pauline Welby, Elsa Spinelli, and Audrey B\"urki(参考訳) L1フランス語の参加者は2日間の学習セッションで新しいL2英語の単語を学習し、その半分は正書法(オーディオ・オルソ)、半分は無書法(オーディオのみ)を提示した。 あるグループは1人の話者が発音する単語を聞いたが、別のグループは複数の話者が発音する単語を聞いた。 3日目には、学習を評価するためにさまざまなタスクを完了した。 本研究は,音声・オーソ条件下で学習した単語に対して,生成(画像命名)と認識(画像マッピング)タスクの両方において,応答時間を短縮し,正書法の影響が強かったことを示す。 さらに, 画像命名応答のホルマント解析により, 英単語の発音を非母語的(フランス語)音韻的対象に引き上げることを示す。 彼らの正書法で学んだ単語はより正確に発音され(より小さい分散スコアで)、母音空間(フランス語の母音に関してより小さなユークリッド距離で反映されるように)に置き換わった。 その結果,複数の発話者で学習した新しい単語は,画像命名タスクで応答時間が速くなったが,音声のみの条件では正書法情報が発話者に基づく音響変動の利点を上回っていた可能性が示唆された。

L1 French participants learned novel L2 English words over two days of learning sessions, with half of the words presented with their orthographic forms (Audio-Ortho) and half without (Audio only). One group heard the words pronounced by a single talker, while another group heard them pronounced by multiple talkers. On the third day, they completed a variety of tasks to evaluate their learning. Our results show a robust influence of orthography, with faster response times in both production (picture naming) and recognition (picture mapping) tasks for words learned in the Audio-Ortho condition. Moreover, formant analyses of the picture naming responses show that orthographic input pulls pronunciations of English novel words towards a non-native (French) phonological target. Words learned with their orthographic forms were pronounced more precisely (with smaller Dispersion Scores), but were misplaced in the vowel space (as reflected by smaller Euclidian distances with respect to French vowels). Finally, we found only limited evidence of an effect of talker-based acoustic variability: novel words learned with multiple talkers showed faster responses times in the picture naming task, but only in the Audio-only condition, which suggests that orthographic information may have overwhelmed any advantage of talker-based acoustic variability.
翻訳日:2021-09-10 00:19:35 公開日:2021-09-08
# (参考訳) FaceCook: 線形スケーリング係数に基づく顔生成 [全文訳有]

FaceCook: Face Generation Based on Linear Scaling Factors ( http://arxiv.org/abs/2109.03492v1 )

ライセンス: CC BY 4.0
Tianren Wang, Can Peng, Teng Zhang, Brian Lovell(参考訳) 最先端生成モデルの優れた絡み合い特性により,合成顔画像の属性を制御するために,画像編集が主流となっている。 しかし、これらの編集結果は、特に編集対象画像と所望の機能セットとの間に大きな相違がある場合、アーティファクトや不正確な特徴レンダリングに悩まされることが多い。 そこで本研究では,多変量線形方程式の組を解き,生成モデルの潜在ベクトルをスケーリング因子にマッピングする新しい手法を提案する。 方程式の係数は、事前学習されたモデルの重みパラメータの固有ベクトルであり、超座標系の基礎を形成する。 定性的および定量的な結果は,画像の多様性の観点から,提案手法がベースラインを上回っていることを示している。 さらに、多くの処理ステップを必要とするランダムに生成された画像を編集する以前のプロセスよりも、遅延ベクトルから直接望ましい特徴を持つ合成画像を得ることができるため、より時間効率がよい。

With the excellent disentanglement properties of state-of-the-art generative models, image editing has been the dominant approach to control the attributes of synthesised face images. However, these edited results often suffer from artifacts or incorrect feature rendering, especially when there is a large discrepancy between the image to be edited and the desired feature set. Therefore, we propose a new approach to mapping the latent vectors of the generative model to the scaling factors through solving a set of multivariate linear equations. The coefficients of the equations are the eigenvectors of the weight parameters of the pre-trained model, which form the basis of a hyper coordinate system. The qualitative and quantitative results both show that the proposed method outperforms the baseline in terms of image diversity. In addition, the method is much more time-efficient because you can obtain synthesised images with desirable features directly from the latent vectors, rather than the former process of editing randomly generated images requiring many processing steps.
翻訳日:2021-09-10 00:18:07 公開日:2021-09-08
# (参考訳) どうやってモデルを更新するか? 変化に対する予測過程監視モデルのレジリエンスについて

How do I update my model? On the resilience of Predictive Process Monitoring models to change ( http://arxiv.org/abs/2109.03501v1 )

ライセンス: CC BY 4.0
Williams Rizzi1, Chiara Di Francescomarino, Chiara Ghidini, Fabrizio Maria Maggi(参考訳) 既存のよく調査された予測プロセス監視技術は、通常、過去のプロセス実行に基づいて予測モデルを構築し、それを使用して、実行が完了したときに新しいケースで更新されることなく、新しい進行中のケースの将来を予測する。 これにより、予測プロセスの監視が難しくなり、継続的に進化し、あるいは時間とともに新しい振る舞いを示す実環境で動作するプロセスの変動性に対処することができる。 この問題に対する解決策として,予測モデルの周期的再発見や漸進的構築を可能にする3つの戦略の利用を評価し,新たなデータを活用する。 評価は、新しい学習された予測モデルの精度と時間の観点から、元のモデルと比較し、明示的な概念ドリフトの有無に関わらず、多くの実データと合成データセットを使用する。 その結果,実環境におけるプロセス監視の予測にインクリメンタル学習アルゴリズムが有効であることを示す。

Existing well investigated Predictive Process Monitoring techniques typically construct a predictive model based on past process executions, and then use it to predict the future of new ongoing cases, without the possibility of updating it with new cases when they complete their execution. This can make Predictive Process Monitoring too rigid to deal with the variability of processes working in real environments that continuously evolve and/or exhibit new variant behaviours over time. As a solution to this problem, we evaluate the use of three different strategies that allow the periodic rediscovery or incremental construction of the predictive model so as to exploit new available data. The evaluation focuses on the performance of the new learned predictive models, in terms of accuracy and time, against the original one, and uses a number of real and synthetic datasets with and without explicit Concept Drift. The results provide an evidence of the potential of incremental learning algorithms for predicting process monitoring in real environments.
翻訳日:2021-09-10 00:10:07 公開日:2021-09-08
# (参考訳) R2-D2: オープンドメイン質問回答のためのモジュールベースライン [全文訳有]

R2-D2: A Modular Baseline for Open-Domain Question Answering ( http://arxiv.org/abs/2109.03502v1 )

ライセンス: CC BY-SA 4.0
Martin Fajcik, Martin Docekal, Karel Ondrej and Pavel Smrz(参考訳) この研究は、新しい4段階のオープンドメインQAパイプラインR2-D2(Rank twice, reaD twice)を提示する。 このパイプラインは、レトリバー、パスリランクカー、抽出リーダ、生成リーダと、システムの全コンポーネントから最終的な予測を集約するメカニズムで構成されている。 オープンドメインのQAデータセットであるNaturalQuestions、TriviaQA、EfficientQAの3つにまたがって、その強さを実証する。 分析の結果, (i) 抽出読取機と生成読取機を組み合わせれば, 5 個の正確な一致が得られ, 同一モデルの後方平均アンサンブルの2倍の有効性が得られ, (ii) 少ないパラメータの抽出読取機は, 抽出 QA データセット上で生成読取機の性能と一致できることがわかった。

This work presents a novel four-stage open-domain QA pipeline R2-D2 (Rank twice, reaD twice). The pipeline is composed of a retriever, passage reranker, extractive reader, generative reader and a mechanism that aggregates the final prediction from all system's components. We demonstrate its strength across three open-domain QA datasets: NaturalQuestions, TriviaQA and EfficientQA, surpassing state-of-the-art on the first two. Our analysis demonstrates that: (i) combining extractive and generative reader yields absolute improvements up to 5 exact match and it is at least twice as effective as the posterior averaging ensemble of the same models with different parameters, (ii) the extractive reader with fewer parameters can match the performance of the generative reader on extractive QA datasets.
翻訳日:2021-09-10 00:03:25 公開日:2021-09-08
# (参考訳) 事前学習言語モデルの伝達可能性について:人工データセットからの検討 [全文訳有]

On the Transferability of Pre-trained Language Models: A Study from Artificial Datasets ( http://arxiv.org/abs/2109.03537v1 )

ライセンス: CC BY 4.0
Cheng-Han Chiang and Hung-yi Lee(参考訳) 大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームタスクで直接訓練された言語モデルよりも、優れたダウンストリームパフォーマンスを実現することができる。 本研究では,セマンティクス以外の事前トレーニングデータに含まれる特定の特徴について検討し,学習したlmを下流タスクのスクラッチから学習したlmよりも優れていることを示す。 本研究では,人工的に構築したデータセットを事前学習データとして使用し,セマンティクスの効果を除外し,事前学習コーパスの持つ特性をさらに制御する。 glueベンチマークで事前トレーニングされたモデルを微調整することで、特定の特性を持つデータセットでトレーニングされたモデルから知識を転送することのメリットを学べます。 1) 前訓練と下流微調整の間のトークンのユニグラムまたはバイグラム分布の一致,2)シーケンス内のトークン間の明示的な依存関係の存在,3)シーケンス内のトークン間の暗黙的な依存関係の長さ,の3つの特徴を定義し,議論する。 実験により,事前学習データのシーケンスの明示的な依存関係が下流の性能に重要であることが示された。 また,モデルが,暗黙の依存範囲が長いデータセット上で事前トレーニングした場合のダウンストリームパフォーマンスも向上することを示す。 分析の結果,人工データセットで事前学習したモデルでは,下流タスクの素早い相関を学習しにくいことがわかった。 私たちの研究は、lmsが自然言語で事前トレーニングされていなくても、lsmがシーケンス内のトークン依存性のモデル化を学べば、特定の人間言語下流タスクで転送可能になります。 この結果は、事前学習したlmsの特別な転送可能性を理解するのに役立ちます。

Pre-training language models (LMs) on large-scale unlabeled text data makes the model much easier to achieve exceptional downstream performance than their counterparts directly trained on the downstream tasks. In this work, we study what specific traits in the pre-training data, other than the semantics, make a pre-trained LM superior to their counterparts trained from scratch on downstream tasks. We propose to use artificially constructed datasets as the pre-training data to exclude the effect of semantics, and further control what characteristics the pre-training corpora have. By fine-tuning the pre-trained models on GLUE benchmark, we can learn how beneficial it is to transfer the knowledge from the model trained on the dataset possessing that specific trait. We define and discuss three different characteristics in the artificial dataset: 1) matching the token's uni-gram or bi-gram distribution between pre-training and downstream fine-tuning, 2) the presence of the explicit dependencies among the tokens in a sequence, 3) the length of the implicit dependencies among the tokens in a sequence. Our experiments show that the explicit dependencies in the sequences of the pre-training data are critical to the downstream performance. Our results also reveal that models achieve better downstream performance when pre-trained on a dataset with a longer range of implicit dependencies. Based on our analysis, we find that models pre-trained with artificial datasets are prone to learn spurious correlation in downstream tasks. Our work reveals that even if the LMs are not pre-trained on natural language, they still gain transferability on certain human language downstream tasks once the LMs learn to model the token dependencies in the sequences. This result helps us understand the exceptional transferability of pre-trained LMs.
翻訳日:2021-09-09 23:42:47 公開日:2021-09-08
# (参考訳) 低資源言語に対する言語間攻撃的言語識別:Marathiの場合 [全文訳有]

Cross-lingual Offensive Language Identification for Low Resource Languages: The Case of Marathi ( http://arxiv.org/abs/2109.03552v1 )

ライセンス: CC BY 4.0
Saurabh Gaikwad, Tharindu Ranasinghe, Marcos Zampieri, Christopher M. Homan(参考訳) ソーシャルメディアにおける攻撃的言語の普及は、コンテンツを自動的に認識できるシステムの開発を動機づけた。 いくつかの特筆すべき例外を除いて、攻撃言語の自動識別に関するほとんどの研究は英語を扱っている。 この欠点に対処するために、MOLD、Marathi Offensive Language Datasetを紹介します。 MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設する。 ベンガル語、英語、ヒンディー語の既存のデータから、最先端のクロスリンガルトランスフォーマのゼロショートや他の転送学習実験を含む、このデータセットに関するいくつかの機械学習実験の結果を示す。

The widespread presence of offensive language on social media motivated the development of systems capable of recognizing such content automatically. Apart from a few notable exceptions, most research on automatic offensive language identification has dealt with English. To address this shortcoming, we introduce MOLD, the Marathi Offensive Language Dataset. MOLD is the first dataset of its kind compiled for Marathi, thus opening a new domain for research in low-resource Indo-Aryan languages. We present results from several machine learning experiments on this dataset, including zero-short and other transfer learning experiments on state-of-the-art cross-lingual transformers from existing data in Bengali, English, and Hindi.
翻訳日:2021-09-09 23:28:32 公開日:2021-09-08
# (参考訳) タスクの一般化のためにプラスチックのリカレントニューラルネットワークを進化させる [全文訳有]

Do What Nature Did To Us: Evolving Plastic Recurrent Neural Networks For Task Generalization ( http://arxiv.org/abs/2109.03554v1 )

ライセンス: CC BY 4.0
Fan Wang, Hao Tian, Haoyi Xiong, Hua Wu, Yang Cao, Yu Kang, Haifeng Wang(参考訳) 人工知能(ANN)は機械学習に広く採用されているが、研究者はANNと生物学的ニューラルネットワーク(BNN)のギャップに悩まされている。 本稿では,進化的塑性リカレントニューラルネットワーク(EPRNN)というフレームワークを提案する。 BNNにインスパイアされたEPRNNは、Evolution Strategies、Plasticity Rules、Recursion-based Learningを1つのメタ学習フレームワークで構成し、異なるタスクに一般化する。 より具体的には、EPRNNは、メタ学習のためのネストループを組み込んでいる -- 外ループは、ニューラルネットワークと学習ルールの最適な初期パラメータを検索する。 EPRNN の内ループでは,BNN における分裂の原因と考えられる再帰学習機構を用いて塑性を鍛造することにより,長期記憶と短期記憶の両方を効果的に達成する。 内部ループ設定は、最適化のために勾配oracleから問い合わせも、学習対象の正確な形式も必要としない、bnnのそれを正確にシミュレートする。 eprnnの性能を評価するために,シーケンス予測と車輪付きロボットナビゲーションという2つのタスクで広範な実験を行った。 実験の結果,eprnnは,可塑性や再帰性に基づく最先端技術と比較して,タスクにおける深層学習に基づくアプローチに比較して,比較可能な性能を示すことができた。 実験結果は,EPRNNが様々なタスクに一般化し,可塑性と再帰に基づく学習機構へのさらなる取り組みを促進する可能性を示唆している。

While artificial neural networks (ANNs) have been widely adopted in machine learning, researchers are increasingly obsessed by the gaps between ANNs and biological neural networks (BNNs). In this paper, we propose a framework named as Evolutionary Plastic Recurrent Neural Networks} (EPRNN). Inspired by BNN, EPRNN composes Evolution Strategies, Plasticity Rules, and Recursion-based Learning all in one meta learning framework for generalization to different tasks. More specifically, EPRNN incorporates with nested loops for meta learning -- an outer loop searches for optimal initial parameters of the neural network and learning rules; an inner loop adapts to specific tasks. In the inner loop of EPRNN, we effectively attain both long term memory and short term memory by forging plasticity with recursion-based learning mechanisms, both of which are believed to be responsible for memristance in BNNs. The inner-loop setting closely simulate that of BNNs, which neither query from any gradient oracle for optimization nor require the exact forms of learning objectives. To evaluate the performance of EPRNN, we carry out extensive experiments in two groups of tasks: Sequence Predicting, and Wheeled Robot Navigating. The experiment results demonstrate the unique advantage of EPRNN compared to state-of-the-arts based on plasticity and recursion while yielding comparably good performance against deep learning based approaches in the tasks. The experiment results suggest the potential of EPRNN to generalize to variety of tasks and encourage more efforts in plasticity and recursion based learning mechanisms.
翻訳日:2021-09-09 23:18:35 公開日:2021-09-08
# (参考訳) Graph-MVP:多重グラフのためのマルチビュープロトタイプコントラスト学習 [全文訳有]

Graph-MVP: Multi-View Prototypical Contrastive Learning for Multiplex Graphs ( http://arxiv.org/abs/2109.03560v1 )

ライセンス: CC BY 4.0
Baoyu Jing, Yuejia Xiang, Xi Chen, Yu Chen and Hanghang Tong(参考訳) Contrastive Learning (CL)はグラフ表現学習のための最も人気のある自己教師型学習フレームワークの1つで、正と負のノード対を識別することでグラフニューラルネットワーク(GNN)を訓練する。 しかし、グラフ上のCLには2つの課題がある。 一方、従来のCLメソッドは、意味的に類似したノードを負のペアとして扱うため、意味的エラーを必然的に導入する。 一方、既存のCL法のほとんどは実世界のグラフの多重性の性質を無視しており、ノードは様々な関係で結び付けられ、それぞれの関係はグラフのビューを表す。 これらの課題に対処するために,複数グラフ上のノード埋め込みを抽出するグラフマルチビュープロトタイプ(Graph-MVP)フレームワークを提案する。 まず,多元グラフのビュー毎にノードレベルと意味レベルの両方の情報をキャプチャするgraph prototypical contrastive learning(graph-pcl)フレームワークを提案する。 Graph-PCLは、シンプルだが効果的なデータ変換技術によりノードレベルの情報をキャプチャする。 セマンティックレベルの情報を期待-最大化(EM)アルゴリズムでキャプチャし、ノードの埋め込みとGNNのパラメータ更新をクラスタリングする。 次に、グラフPCLに基づくグラフMVPを導入し、多重グラフの異なるビューを共同でモデル化する。 graph-mvpの背後にある重要な洞察は、同じノードの異なるビュー固有の埋め込みは、graph-mvpの2つのバージョン(graph-mvp_hardとgraph-mvp_soft)に基づいて、ビューをまたいで埋め込みをアライメントする。 最後に、提案したGraph-PCLとGraph-MVPを、さまざまな実世界のデータセットと下流タスクで評価する。 実験結果は,提案したGraph-PCLおよびGraph-MVPフレームワークの有効性を示す。

Contrastive Learning (CL) is one of the most popular self-supervised learning frameworks for graph representation learning, which trains a Graph Neural Network (GNN) by discriminating positive and negative node pairs. However, there are two challenges for CL on graphs. On the one hand, traditional CL methods will unavoidably introduce semantic errors since they will treat some semantically similar nodes as negative pairs. On the other hand, most of the existing CL methods ignore the multiplexity nature of the real-world graphs, where nodes are connected by various relations and each relation represents a view of the graph. To address these challenges, we propose a novel Graph Multi-View Prototypical (Graph-MVP) framework to extract node embeddings on multiplex graphs. Firstly, we introduce a Graph Prototypical Contrastive Learning (Graph-PCL) framework to capture both node-level and semantic-level information for each view of multiplex graphs. Graph-PCL captures the node-level information by a simple yet effective data transformation technique. It captures the semantic-level information by an Expectation-Maximiza tion (EM) algorithm, which alternatively performs clustering over node embeddings and parameter updating for GNN. Next, we introduce Graph-MVP based on Graph-PCL to jointly model different views of the multiplex graphs. Our key insight behind Graph-MVP is that different view-specific embeddings of the same node should have similar underlying semantic, based on which we propose two versions of Graph-MVP: Graph-MVP_hard and Graph-MVP_soft to align embeddings across views. Finally, we evaluate the proposed Graph-PCL and Graph-MVP on a variety of real-world datasets and downstream tasks. The experimental results demonstrate the effectiveness of the proposed Graph-PCL and Graph-MVP frameworks.
翻訳日:2021-09-09 23:06:01 公開日:2021-09-08
# (参考訳) nsp-bert : オリジナルの事前学習タスクによるプロンプトベースゼロショット学習-次の文予測 [全文訳有]

NSP-BERT: A Prompt-based Zero-Shot Learner Through an Original Pre-training Task--Next Sentence Prediction ( http://arxiv.org/abs/2109.03564v1 )

ライセンス: CC BY 4.0
Yi Sun, Yu Zheng, Chao Hao, Hangping Qiu(参考訳) 言語モデルを利用して様々な下流タスクを実行するプロンプト(プロンプトベース学習またはプロンプトラーニング)は、最近、事前学習と微調整のパラダイムと比較して大きな成功を収めている。 それでも、事実上全てのプロンプトベースのメソッドはトークンレベルであり、いずれもGPTの左から右への言語モデルやBERTのマスキング言語モデルを使ってクローズスタイルのタスクを実行する。 本稿では,RoBERTa や他のモデルに放棄された BERT 独自の事前学習タスク-Next Sentence Prediction (NSP) を用いて,ゼロショットシナリオにおける複数の NLP タスクの実現を試みる。 トークンレベルの手法とは異なり、我々の文レベルのプロンプトベースの方法であるNSP-BERTは、予測されるプロンプトの長さや位置を固定する必要がなく、エンティティリンクなどのタスクを簡単に処理できる。 NSP-BERTの特徴に基づき、様々な下流タスクのためのクイックビルドテンプレートを提供している。 特に,単語認識の曖昧さを解消するための2段階のプロンプト手法を提案する。 ラベルのマッピング戦略は,文対タスクにおけるモデルの性能を著しく向上させる。 FewCLUEベンチマークでは、NSP-BERTはこれらのタスクのほとんどで他のゼロショットメソッドよりも優れており、数ショットメソッドに近い。

Using prompts to utilize language models to perform various downstream tasks, also known as prompt-based learning or prompt-learning, has lately gained significant success in comparison to the pre-train and fine-tune paradigm. Nonetheless, virtually all prompt-based methods are token-level, meaning they all utilize GPT's left-to-right language model or BERT's masked language model to perform cloze-style tasks. In this paper, we attempt to accomplish several NLP tasks in the zero-shot scenario using a BERT original pre-training task abandoned by RoBERTa and other models--Next Sentence Prediction (NSP). Unlike token-level techniques, our sentence-level prompt-based method NSP-BERT does not need to fix the length of the prompt or the position to be predicted, allowing it to handle tasks such as entity linking with ease. Based on the characteristics of NSP-BERT, we offer several quick building templates for various downstream tasks. We suggest a two-stage prompt method for word sense disambiguation tasks in particular. Our strategies for mapping the labels significantly enhance the model's performance on sentence pair tasks. On the FewCLUE benchmark, our NSP-BERT outperforms other zero-shot methods on most of these tasks and comes close to the few-shot methods.
翻訳日:2021-09-09 22:46:12 公開日:2021-09-08
# (参考訳) スペイン語におけるバイオメディカルおよび臨床言語モデル--中間資源シナリオにおけるドメイン特化事前訓練の利点について [全文訳有]

Biomedical and Clinical Language Models for Spanish: On the Benefits of Domain-Specific Pretraining in a Mid-Resource Scenario ( http://arxiv.org/abs/2109.03570v1 )

ライセンス: CC BY-SA 4.0
Casimiro Pio Carrino, Jordi Armengol-Estap\' ;e, Asier Guti\'errez-Fandi\~no, Joan Llop-Palao, Marc P\`amies, Aitor Gonzalez-Agirre, Marta Villegas(参考訳) 本研究は, 単語やサブワードレベルでのマスキング, 語彙サイズの変化, ドメインデータによるテスト, 言語表現の改善など, 様々な事前訓練選択を試行することによって, スペイン語に対する生体医学的・臨床的言語モデルを提案する。 興味深いことに,スクラッチからモデルを訓練するための十分な臨床データがないため,実世界の臨床データに適したバイオクリニカルモデルを生成するために,混合ドメイン事前訓練とクロスドメイン移行アプローチを適用した。 生体医学的文書に対する名前付きエンティティ認識(ner)タスクや退院報告への挑戦に関するモデルの評価を行った。 競合するmBERTモデルとBETOモデルと比較すると、すべてのNERタスクにおいて、大きなマージンでそれらを上回ります。 最後に、興味深い語彙中心の分析を行い、モデルの語彙がnerのパフォーマンスに与える影響について検討した。 結果として、ドメイン固有の事前トレーニングは、中間リソースのシナリオであっても、下流のnerタスクでより高いパフォーマンスを達成するための基本となることが判明した。 我々の知識を最大限に活用するために、生医学的および臨床的なトランスフォーマーに基づくスペイン語の事前訓練言語モデルを提供する。 私たちのモデルは出版後無料で利用可能になります。

This work presents biomedical and clinical language models for Spanish by experimenting with different pretraining choices, such as masking at word and subword level, varying the vocabulary size and testing with domain data, looking for better language representations. Interestingly, in the absence of enough clinical data to train a model from scratch, we applied mixed-domain pretraining and cross-domain transfer approaches to generate a performant bio-clinical model suitable for real-world clinical data. We evaluated our models on Named Entity Recognition (NER) tasks for biomedical documents and challenging hospital discharge reports. When compared against the competitive mBERT and BETO models, we outperform them in all NER tasks by a significant margin. Finally, we studied the impact of the model's vocabulary on the NER performances by offering an interesting vocabulary-centric analysis. The results confirm that domain-specific pretraining is fundamental to achieving higher performances in downstream NER tasks, even within a mid-resource scenario. To the best of our knowledge, we provide the first biomedical and clinical transformer-based pretrained language models for Spanish, intending to boost native Spanish NLP applications in biomedicine. Our models will be made freely available after publication.
翻訳日:2021-09-09 22:22:04 公開日:2021-09-08
# (参考訳) TrollsWithOpinion: トロールミームにおけるドメイン固有のオピニオン操作を予測するデータセット [全文訳有]

TrollsWithOpinion: A Dataset for Predicting Domain-specific Opinion Manipulation in Troll Memes ( http://arxiv.org/abs/2109.03571v1 )

ライセンス: CC BY 4.0
Shardul Suryawanshi, Bharathi Raja Chakravarthi, Mihael Arcan, Suzanne Little, Paul Buitelaar(参考訳) 画像とテキスト(IWT)のトロールミームの分類に関する研究が最近盛んになっている。 オンラインコミュニティはミームの避難地を利用して自己表現しているため、ミームの形で大量のデータが存在する。 これらのミームは、デミア、ハラス、またはいじめ対象の個人を誘惑する可能性がある。 さらに、対象の個人は意見操作に苦しむ可能性がある。 意見操作におけるミームの使用を理解するために、我々は、意見操作の有無にかかわらず、トロルまたは非トロールに分類する3つの特定のドメイン(製品、政治、その他)を定義した。 この分析を可能にするために、定義したクラスにデータをアノテートすることで既存のデータセットを拡張し、その結果、英語の8,881のIWTまたはマルチモーダルミーム(TrollsWithOpinionデータセット)のデータセットを作成しました。 我々は,アノテーション付きデータセットでベースライン実験を行い,既存の最先端技術は平均0.37の重み付け値のf1-scoreにしか到達できないことを示した。 これはマルチモーダルトロルミームを扱うための特定のテクニックの開発の必要性を示している。

Research into the classification of Image with Text (IWT) troll memes has recently become popular. Since the online community utilizes the refuge of memes to express themselves, there is an abundance of data in the form of memes. These memes have the potential to demean, harras, or bully targeted individuals. Moreover, the targeted individual could fall prey to opinion manipulation. To comprehend the use of memes in opinion manipulation, we define three specific domains (product, political or others) which we classify into troll or not-troll, with or without opinion manipulation. To enable this analysis, we enhanced an existing dataset by annotating the data with our defined classes, resulting in a dataset of 8,881 IWT or multimodal memes in the English language (TrollsWithOpinion dataset). We perform baseline experiments on the annotated dataset, and our result shows that existing state-of-the-art techniques could only reach a weighted-average F1-score of 0.37. This shows the need for a development of a specific technique to deal with multimodal troll memes.
翻訳日:2021-09-09 22:08:35 公開日:2021-09-08
# (参考訳) 暗いところでのマッチング:低照度シーンの画像ペアのマッチングデータセット

Matching in the Dark: A Dataset for Matching Image Pairs of Low-light Scenes ( http://arxiv.org/abs/2109.03585v1 )

ライセンス: CC BY 4.0
W. Song, M. Suganuma, X. Liu, N. Shimobayashi, D. Maruta, T. Okatani(参考訳) 本稿では,SfMのフロンティアと視覚SLAMアプリケーションの拡張を目的とした,低照度シーンのマッチング画像について考察する。 最近のイメージセンサーは8ビット以上の精度でシーンの明るさを記録できる。 従来の手法では処理できない極めて低照度のシーン画像に合わせるために,このような高精度情報をフル活用することに興味がある。 極端な低照度シーンでは、RAWフォーマット画像の低ビットに輝度情報が存在するとしても、カメラの通常の生画像処理は適切に利用できない。 Chenらが最近示したように、CNNはこのようなRAWフォーマットの画像から自然な外観で画像を生成することができる。 RAWフォーマット画像に格納されている情報を画像マッチングにどの程度有効に活用できるかを検討するため,MID(Match in the dark)と呼ばれる新しいデータセットを作成した。 そこで本研究では,8つの画像エンハンシング法と11つの画像マッチング法の組み合わせを実験的に評価した。 その結果、生のフォーマット画像を使用することの利点と、上記のコンポーネントメソッドの長所と短所が明らかになった。 また、さらなる研究の余地があることも示唆している。

This paper considers matching images of low-light scenes, aiming to widen the frontier of SfM and visual SLAM applications. Recent image sensors can record the brightness of scenes with more than eight-bit precision, available in their RAW-format image. We are interested in making full use of such high-precision information to match extremely low-light scene images that conventional methods cannot handle. For extreme low-light scenes, even if some of their brightness information exists in the RAW format images' low bits, the standard raw image processing on cameras fails to utilize them properly. As was recently shown by Chen et al., CNNs can learn to produce images with a natural appearance from such RAW-format images. To consider if and how well we can utilize such information stored in RAW-format images for image matching, we have created a new dataset named MID (matching in the dark). Using it, we experimentally evaluated combinations of eight image-enhancing methods and eleven image matching methods consisting of classical/neural local descriptors and classical/neural initial point-matching methods. The results show the advantage of using the RAW-format images and the strengths and weaknesses of the above component methods. They also imply there is room for further research.
翻訳日:2021-09-09 21:51:16 公開日:2021-09-08
# (参考訳) 共有機能を利用したビデオのソーシャルメディアプラットフォーム同定 [全文訳有]

Identification of Social-Media Platform of Videos through the Use of Shared Features ( http://arxiv.org/abs/2109.03598v1 )

ライセンス: CC BY-SA 4.0
Luca Maiano, Irene Amerini, Lorenzo Ricciardi Celsi, and Aris Anagnostopoulos(参考訳) ビデオは、軍事プロパガンダやリベンジポルノ、ソーシャルネットワークを通じていじめなどの違法コンテンツを広める強力なツールになっている。 これらの違法行為に対抗するために、これらのプラットフォームからの動画の起源を検証する新しい方法を試す必要がある。 しかし、近年のプライバシー規制により、このタスクのためにニューラルネットワークをトレーニングするのに十分なデータセットの収集が困難になっている。 この制限を緩和するため、本研究では、同じタスクで訓練された画像と共有機能を用いて、動画が特定のソーシャルプラットフォームにアップロードされたか、ダウンロードされたかを決定するために、転送学習とマルチタスク学習に基づく2つの異なるソリューションを提案する。 ネットワークの最も浅いレベルから最も深いレベルへ機能を画像タスクからビデオに転送することで、これらの2つのタスク間で共有される情報量を測定する。 次に,両タスクから同時に学習するマルチタスク学習に基づくモデルを提案する。 有望な実験結果は、特にマルチタスクアプローチの有効性を示している。 われわれの知る限り、これは共有機能を利用することで、ソーシャルメディアプラットフォームによるビデオの識別の問題に対処する最初の作品である。

Videos have become a powerful tool for spreading illegal content such as military propaganda, revenge porn, or bullying through social networks. To counter these illegal activities, it has become essential to try new methods to verify the origin of videos from these platforms. However, collecting datasets large enough to train neural networks for this task has become difficult because of the privacy regulations that have been enacted in recent years. To mitigate this limitation, in this work we propose two different solutions based on transfer learning and multitask learning to determine whether a video has been uploaded from or downloaded to a specific social platform through the use of shared features with images trained on the same task. By transferring features from the shallowest to the deepest levels of the network from the image task to videos, we measure the amount of information shared between these two tasks. Then, we introduce a model based on multitask learning, which learns from both tasks simultaneously. The promising experimental results show, in particular, the effectiveness of the multitask approach. According to our knowledge, this is the first work that addresses the problem of social media platform identification of videos through the use of shared features.
翻訳日:2021-09-09 21:50:16 公開日:2021-09-08
# (参考訳) 知識ベースを用いた複雑な質問応答のためのクエリ構造予測による形式的クエリ構築 [全文訳有]

Formal Query Building with Query Structure Prediction for Complex Question Answering over Knowledge Base ( http://arxiv.org/abs/2109.03614v1 )

ライセンス: CC BY 4.0
Yongrui Chen, Huiying Li, Yuncheng Hua and Guilin Qi(参考訳) 形式的クエリ構築は、知識ベースに対する複雑な質問応答の重要な部分である。 質問に対して正しい実行可能なクエリを構築することを目的としている。 最近の手法では、状態遷移戦略によって生成される候補クエリをランク付けしようとする。 しかし、この候補生成戦略はクエリの構造を無視し、かなりの数のノイズの多いクエリをもたらす。 本稿では,2段階からなる新しい形式的クエリ構築手法を提案する。 最初の段階では、質問のクエリ構造を予測し、その構造を利用して候補クエリの生成を制限します。 本稿では,構造予測タスクを処理し,各生成ステップにおける所定の操作の引数を予測するエンコーダ・デコーダモデルを設計する新しいグラフ生成フレームワークを提案する。 第2段階では、候補クエリをランク付けする以前の方法に従います。 実験の結果,形式的問合せ構築手法は,単純な問合せに競争力を保ちつつ,複雑な問合せにおいて既存の手法よりも優れていることがわかった。

Formal query building is an important part of complex question answering over knowledge bases. It aims to build correct executable queries for questions. Recent methods try to rank candidate queries generated by a state-transition strategy. However, this candidate generation strategy ignores the structure of queries, resulting in a considerable number of noisy queries. In this paper, we propose a new formal query building approach that consists of two stages. In the first stage, we predict the query structure of the question and leverage the structure to constrain the generation of the candidate queries. We propose a novel graph generation framework to handle the structure prediction task and design an encoder-decoder model to predict the argument of the predetermined operation in each generative step. In the second stage, we follow the previous methods to rank the candidate queries. The experimental results show that our formal query building approach outperforms existing methods on complex questions while staying competitive on simple questions.
翻訳日:2021-09-09 21:31:19 公開日:2021-09-08
# (参考訳) 運動誘起せん断による接触形状の触覚画像間距離 [全文訳有]

Tactile Image-to-Image Disentanglement of Contact Geometry from Motion-Induced Shear ( http://arxiv.org/abs/2109.03615v1 )

ライセンス: CC BY 4.0
Anupam K. Gupta, Laurence Aitchison, Nathan F. Lepora(参考訳) ロボットタッチは、特にソフトな光触覚センサーを使用する場合、動きに依存したせん断による歪みに悩まされる。 センサが刺激に接触する方法は、刺激の形状に関する触覚情報と絡み合っている。 本研究では,スライディングによって引き起こされるせん断による接触形状によるセンサ変形の成分である潜時空間において,絡み合うことを学習する教師付き畳み込みディープニューラルネットワークモデルを提案する。 このアプローチは、せん断画像からの無声触覚画像を再構成し、スライディング動作なしで収集した無声触覚画像と一致することを示すことによって検証される。 さらに, 触覚のない画像は, せん断データから不可能な接触形状を忠実に再現し, 各種2次元形状のサーボ制御に使用できる接触ポーズを頑健に推定する。 最後に, 接点形状の再現とサーボ制御スライディングを併用して, 各種2次元形状の忠実な全物体再構成を行った。 これらの手法は, 感傷的触覚を持つロボットの深層学習モデルに適用可能である。

Robotic touch, particularly when using soft optical tactile sensors, suffers from distortion caused by motion-dependent shear. The manner in which the sensor contacts a stimulus is entangled with the tactile information about the geometry of the stimulus. In this work, we propose a supervised convolutional deep neural network model that learns to disentangle, in the latent space, the components of sensor deformations caused by contact geometry from those due to sliding-induced shear. The approach is validated by reconstructing unsheared tactile images from sheared images and showing they match unsheared tactile images collected with no sliding motion. In addition, the unsheared tactile images give a faithful reconstruction of the contact geometry that is not possible from the sheared data, and robust estimation of the contact pose that can be used for servo control sliding around various 2D shapes. Finally, the contact geometry reconstruction in conjunction with servo control sliding were used for faithful full object reconstruction of various 2D shapes. The methods have broad applicability to deep learning models for robots with a shear-sensitive sense of touch.
翻訳日:2021-09-09 21:17:38 公開日:2021-09-08
# (参考訳) 全エンド・ツー・エンドボトムアップ人間のポーズ推定のための局所的グローバル文脈適応の学習 [全文訳有]

Learning Local-Global Contextual Adaptation for Fully End-to-End Bottom-Up Human Pose Estimation ( http://arxiv.org/abs/2109.03622v1 )

ライセンス: CC BY 4.0
Nan Xue, Tianfu Wu, Zhen Zhang, Gui-Song Xia(参考訳) 本稿では,LOGO-CAPと呼ばれる完全エンドツーエンドかつ高速なボトムアップヒトポス推定のための局所言語文脈適応学習法を提案する。 これは、ポーズ推定の不正確さを欠いた概念的に単純な中心オフセット形式に基づいている。 d. kahneman の "thinking, fast and slow" という考え方でボトムアップの人間のポーズ推定を再検討すると、"fast keypointer" の十分な精度の欠如を解消する "slow keypointer" が導入された。 スローキーポインター」の学習において、提案したLOGO-CAPは、キーポイント拡張マップ(KEM)へのオフセット予測により、最初の「高速」キーポイントを引き上げ、2つのモジュールにおける不確実性に対処する。 まず、低次元特徴マップから局所ケム(例えば11x11)を抽出する。 提案した畳み込みメッセージパッシングモジュールは、トレーニング中のオブジェクトキーポイント類似性(OKS)損失によって直接監督される人間のポーズ推定の構造化出力予測特性を考慮し、局所的なKEMをキーポイントアトラクションマップ(KAM)に"再フォーカス"することを学ぶ。 第2に、キーポイントヒートマップから十分に大きな領域(例えば97x97)を抽出し、地図から地図への直接回帰によって計算する。 次に、学習したKAMをカーネルとして、グローバルなKEMを畳み込み、局所的な文脈適応モジュールを提案する。 この畳み込みは、変形可能かつ動的畳み込みをポーズに敏感に導く学習可能なオフセットとして理解することができる。 提案手法は,ボトムアップ人間のポーズ推定のためのCOCOキーポイントベンチマークにおいて,ほぼリアルタイムな推論速度でエンドツーエンドのトレーニングが可能となる。 COCOのトレーニングモデルでは、私たちのLOGO-CAPは、挑戦的なOCHumanデータセットに対して大きなマージンで、先行技術よりも優れています。

This paper presents a method of learning Local-GlObal Contextual Adaptation for fully end-to-end and fast bottom-up human Pose estimation, dubbed as LOGO-CAP. It is built on the conceptually simple center-offset formulation that lacks inaccuracy for pose estimation. When revisiting the bottom-up human pose estimation with the thought of "thinking, fast and slow" by D. Kahneman, we introduce a "slow keypointer" to remedy the lack of sufficient accuracy of the "fast keypointer". In learning the "slow keypointer", the proposed LOGO-CAP lifts the initial "fast" keypoints by offset predictions to keypoint expansion maps (KEMs) to counter their uncertainty in two modules. Firstly, the local KEMs (e.g., 11x11) are extracted from a low-dimensional feature map. A proposed convolutional message passing module learns to "re-focus" the local KEMs to the keypoint attraction maps (KAMs) by accounting for the structured output prediction nature of human pose estimation, which is directly supervised by the object keypoint similarity (OKS) loss in training. Secondly, the global KEMs are extracted, with a sufficiently large region-of-interest (e.g., 97x97), from the keypoint heatmaps that are computed by a direct map-to-map regression. Then, a local-global contextual adaptation module is proposed to convolve the global KEMs using the learned KAMs as the kernels. This convolution can be understood as the learnable offsets guided deformable and dynamic convolution in a pose-sensitive way. The proposed method is end-to-end trainable with near real-time inference speed, obtaining state-of-the-art performance on the COCO keypoint benchmark for bottom-up human pose estimation. With the COCO trained model, our LOGO-CAP also outperforms prior arts by a large margin on the challenging OCHuman dataset.
翻訳日:2021-09-09 21:01:37 公開日:2021-09-08
# (参考訳) 多言語モデルにおける離散と軟プロンプト [全文訳有]

Discrete and Soft Prompting for Multilingual Models ( http://arxiv.org/abs/2109.03630v1 )

ライセンス: CC BY 4.0
Mengjie Zhao, Hinrich Sch\"utze(参考訳) 英語では、離散的かつソフトなプロンプトが、事前訓練された言語モデル(PLM)を用いた数ショット学習において、強く機能することが示されている。 本稿では,多言語話者の言語間移動と多言語自然言語推論の言語内学習において,離散的およびソフトなプロンプトが微調整よりも優れていることを示す。 例えば、48の英語のトレーニング例において、ファインチューニングは33.74%の言語間転送精度を獲得し、大多数のベースライン(33.33%)をわずかに上回っている。 対照的に、離散的かつソフトなプロンプトは微調整に優れ、36.43%と38.79%を達成した。 また、英語以外の複数の言語でトレーニングデータをプロンプトする優れた性能を示す。

It has been shown for English that discrete and soft prompting perform strongly in few-shot learning with pretrained language models (PLMs). In this paper, we show that discrete and soft prompting perform better than finetuning in multilingual cases: Crosslingual transfer and in-language training of multilingual natural language inference. For example, with 48 English training examples, finetuning obtains 33.74% accuracy in crosslingual transfer, barely surpassing the majority baseline (33.33%). In contrast, discrete and soft prompting outperform finetuning, achieving 36.43% and 38.79%. We also demonstrate good performance of prompting with training data in multiple languages other than English.
翻訳日:2021-09-09 20:40:10 公開日:2021-09-08
# (参考訳) 効率的なゼロ・フォア・ショット関係抽出のためのラベルバーバリゼーションとエンテーメント [全文訳有]

Label Verbalization and Entailment for Effective Zero- and Few-Shot Relation Extraction ( http://arxiv.org/abs/2109.03659v1 )

ライセンス: CC BY-SA 4.0
Oscar Sainz, Oier Lopez de Lacalle, Gorka Labaka, Ander Barrena and Eneko Agirre(参考訳) 関係抽出システムは、注釈にコストがかかる大量のラベル付き例を必要とする。 本研究は,関係抽出を包括的タスクとして再構成し,関係を15分未満で生成した関係の単純で手作りの言語化を行う。 このシステムは、as-is(トレーニングサンプルなし、ゼロショットなし)またはラベル付き例(few-shotまたはfull training)でさらに微調整された事前訓練されたテキスト記述エンジンに依存している。 tacredの実験では,63%のf1ゼロショットを達成し,同じ条件下では最善の教師付きシステムよりも16例(17%改善)で69%,最先端(20倍のトレーニングデータを使用する)では4点に過ぎなかった。 さらに,最大12ポイントのゼロショットモデルによって,パフォーマンスが大幅に向上できることを示し,完全トレーニング時のtacred上での最高の結果の報告を可能にした。 分析の結果,本システムは関係の判別において特に有効であり,低データレジームにおける性能差は主に非関係事例の同定によるものであることがわかった。

Relation extraction systems require large amounts of labeled examples which are costly to annotate. In this work we reformulate relation extraction as an entailment task, with simple, hand-made, verbalizations of relations produced in less than 15 min per relation. The system relies on a pretrained textual entailment engine which is run as-is (no training examples, zero-shot) or further fine-tuned on labeled examples (few-shot or fully trained). In our experiments on TACRED we attain 63% F1 zero-shot, 69% with 16 examples per relation (17% points better than the best supervised system on the same conditions), and only 4 points short to the state-of-the-art (which uses 20 times more training data). We also show that the performance can be improved significantly with larger entailment models, up to 12 points in zero-shot, allowing to report the best results to date on TACRED when fully trained. The analysis shows that our few-shot systems are specially effective when discriminating between relations, and that the performance difference in low data regimes comes mainly from identifying no-relation cases.
翻訳日:2021-09-09 18:53:52 公開日:2021-09-08
# (参考訳) EMA: トレーニング済みモデルからのデータ削除を監査 [全文訳有]

EMA: Auditing Data Removal from Trained Models ( http://arxiv.org/abs/2109.03675v1 )

ライセンス: CC BY 4.0
Yangsibo Huang, Xiaoxiao Li, Kai Li(参考訳) データ監査は、トレーニングされたモデルから特定のデータが削除されたかどうかを検証するプロセスである。 最近提案された手法(liu et al。 20) Kolmogorov-Smirnov (KS) 距離を用いてデータ監査を行う。 しかし、一定の条件下では失敗する。 本稿では,これらの制限を克服するために,データ削除を監査するためのEMA(Ensembled Membership Auditing)と呼ばれる新しい手法を提案する。 ベンチマークデータセット(mnistおよびsvhn)と胸部x線データセットと多層パーセプトロン(mlp)と畳み込みニューラルネットワーク(cnn)を用いた2つの手法を比較した。 提案手法の故障事例を含む様々な条件下でのemaの耐障害性を示す実験を行った。 私たちのコードは、https://github.com/H azelsuko07/EMA.comで利用可能です。

Data auditing is a process to verify whether certain data have been removed from a trained model. A recently proposed method (Liu et al. 20) uses Kolmogorov-Smirnov (KS) distance for such data auditing. However, it fails under certain practical conditions. In this paper, we propose a new method called Ensembled Membership Auditing (EMA) for auditing data removal to overcome these limitations. We compare both methods using benchmark datasets (MNIST and SVHN) and Chest X-ray datasets with multi-layer perceptrons (MLP) and convolutional neural networks (CNN). Our experiments show that EMA is robust under various conditions, including the failure cases of the previously proposed method. Our code is available at: https://github.com/H azelsuko07/EMA.
翻訳日:2021-09-09 18:36:20 公開日:2021-09-08
# (参考訳) 文脈における語彙推論のための連続的包含パターン [全文訳有]

Continuous Entailment Patterns for Lexical Inference in Context ( http://arxiv.org/abs/2109.03695v1 )

ライセンス: CC BY 4.0
Martin Schmitt and Hinrich Sch\"utze(参考訳) 事前学習された言語モデル(plm)とテキストパターンの組み合わせは、ゼロショットと少数ショットの両方の設定に役立つことが示されている。 ゼロショットパフォーマンスでは、モデルが他のものを見たことがないため、自己教師付き事前トレーニング中に見られるテキストに非常に近いパターンを設計するのは理にかなっている。 トレーニングの強化により、柔軟性が向上する。 もし PLM の語彙以外のトークンを許せば、パターンは PLM の慣用句に柔軟に適応できる。 トケン」が任意の連続ベクトルとなるパターンとは対照的に、語彙要素間の選択を個別に行う必要があるパターンとは対照的に、当社の手法をcontinuous pAtterNs (CONAN) と呼ぶ。 文脈(LIiC)a.k.aにおける語彙推論のための2つの確立されたベンチマークでCONANを評価する。 predicate entailmentは、比較的小さなトレーニングセットを持つ、難しい自然言語理解タスクである。 個別のパターンと直接比較すると、CONANは一貫してパフォーマンスを向上し、新しい技術の状態を設定します。 本実験は,LIiCにおけるPLMの性能を高めるパターンについて貴重な洞察を与え,テキストパターンを用いたPLMの理解に関する重要な疑問を提起する。

Combining a pretrained language model (PLM) with textual patterns has been shown to help in both zero- and few-shot settings. For zero-shot performance, it makes sense to design patterns that closely resemble the text seen during self-supervised pretraining because the model has never seen anything else. Supervised training allows for more flexibility. If we allow for tokens outside the PLM's vocabulary, patterns can be adapted more flexibly to a PLM's idiosyncrasies. Contrasting patterns where a "token" can be any continuous vector vs. those where a discrete choice between vocabulary elements has to be made, we call our method CONtinuous pAtterNs (CONAN). We evaluate CONAN on two established benchmarks for lexical inference in context (LIiC) a.k.a. predicate entailment, a challenging natural language understanding task with relatively small training sets. In a direct comparison with discrete patterns, CONAN consistently leads to improved performance, setting a new state of the art. Our experiments give valuable insights into the kind of pattern that enhances a PLM's performance on LIiC and raise important questions regarding our understanding of PLMs using text patterns.
翻訳日:2021-09-09 18:23:59 公開日:2021-09-08
# (参考訳) ガウス過程モデルに対する自己説明変分後分布 [全文訳有]

Self-explaining variational posterior distributions for Gaussian Process models ( http://arxiv.org/abs/2109.03708v1 )

ライセンス: CC BY 4.0
Sarem Seitz(参考訳) ベイズ的手法は、事前知識と不確実性の概念を機械学習モデルに組み込む一般的な方法となっている。 同時に、現代の機械学習の複雑さは、厳密な方法で特定の前提を表現することはもちろん、モデルの推論プロセスを理解するのを難しくする。 主に以前の問題に関心があるが、近年の透明機械学習は、複雑なベイズモデルに提供可能な事前情報の範囲を広げる可能性がある。 自己説明型モデルの概念に着想を得て,変分ガウスプロセセスの概念を導入する。 一方、私たちの貢献はこの種のモデルの透明性を改善します。 さらに,提案する自己説明的変分後分布は,対象関数に関する一般的な事前知識と,個々の特徴の寄与に関する事前知識の両方を取り入れることができる。

Bayesian methods have become a popular way to incorporate prior knowledge and a notion of uncertainty into machine learning models. At the same time, the complexity of modern machine learning makes it challenging to comprehend a model's reasoning process, let alone express specific prior assumptions in a rigorous manner. While primarily interested in the former issue, recent developments intransparent machine learning could also broaden the range of prior information that we can provide to complex Bayesian models. Inspired by the idea of self-explaining models, we introduce a corresponding concept for variational GaussianProcesses. On the one hand, our contribution improves transparency for these types of models. More importantly though, our proposed self-explaining variational posterior distribution allows to incorporate both general prior knowledge about a target function as a whole and prior knowledge about the contribution of individual features.
翻訳日:2021-09-09 18:09:17 公開日:2021-09-08
# (参考訳) マルチスケールラプラシアン学習 [全文訳有]

Multiscale Laplacian Learning ( http://arxiv.org/abs/2109.03718v1 )

ライセンス: CC BY 4.0
Ekaterina Merkurjev, Duc DUy Nguyen, and Guo-Wei Wei(参考訳) 機械学習の手法は、科学、工学、金融、ビジネス、その他の分野を大きく変えた。 機械学習とディープラーニングの方法の素晴らしい成果にもかかわらず、まだ多くの課題が残っている。 特に、機械学習手法の性能は、通常、より小さなデータセットや、実験の複雑さと/または高いコストによってデータセットのサイズが制約される研究領域に関連するデータに関連する多様なデータの場合、しばしば深刻な影響を受ける。 さらに、ラベル付きサンプルが限定されたデータは、ほとんどの学習アプローチにとって困難である。 本稿では,グラフベースのフレームワーク,マルチスケール構造,修正・適応最適化手順,半教師あり手法を統合することで,上記の課題を解決する。 この結果、2つの革新的なマルチスケールラプラシアン学習(mll:multiscale laplacian learning)アプローチが、データ分類や多種多様なデータ、限られたサンプルとより小さなデータセットを扱うために実現される。 最初のアプローチはマルチカーネル多様体学習(MML)と呼ばれ、マルチカーネル情報と多様体学習を統合し、マルチスケールグラフラプラシアンを用いたロス関数とワープカーネル正規化器からなる正規化問題を解く。 第二のアプローチは、マルチスケール MBO (MMBO) 法と呼ばれ、有名な古典的メリマン・バーンス・オッシャー (MBO) スキームの修正にマルチスケールのラプラシアンを導入し、ラプラシアングラフの極端固有ベクトルの近似を求めるために高速解法を利用する。 本研究では,生物,テキスト,画像データなど,さまざまなデータセットを用いて実験を行い,既存の手法と比較した。

Machine learning methods have greatly changed science, engineering, finance, business, and other fields. Despite the tremendous accomplishments of machine learning and deep learning methods, many challenges still remain. In particular, the performance of machine learning methods is often severely affected in case of diverse data, usually associated with smaller data sets or data related to areas of study where the size of the data sets is constrained by the complexity and/or high cost of experiments. Moreover, data with limited labeled samples is a challenge to most learning approaches. In this paper, the aforementioned challenges are addressed by integrating graph-based frameworks, multiscale structure, modified and adapted optimization procedures and semi-supervised techniques. This results in two innovative multiscale Laplacian learning (MLL) approaches for machine learning tasks, such as data classification, and for tackling diverse data, data with limited samples and smaller data sets. The first approach, called multikernel manifold learning (MML), integrates manifold learning with multikernel information and solves a regularization problem consisting of a loss function and a warped kernel regularizer using multiscale graph Laplacians. The second approach, called the multiscale MBO (MMBO) method, introduces multiscale Laplacians to a modification of the famous classical Merriman-Bence-Osher (MBO) scheme, and makes use of fast solvers for finding the approximations to the extremal eigenvectors of the graph Laplacian. We demonstrate the performance of our methods experimentally on a variety of data sets, such as biological, text and image data, and compare them favorably to existing approaches.
翻訳日:2021-09-09 17:52:12 公開日:2021-09-08
# (参考訳) 周波数領域における多変量時系列の質的ファジィクラスタリング

Quantile-based fuzzy clustering of multivariate time series in the frequency domain ( http://arxiv.org/abs/2109.03728v1 )

ライセンス: CC BY 4.0
\'Angel L\'opez-Oriona, Jos\'e A. Vilar, Pierpaolo-D'Urso(参考訳) 異なる依存モデルから生成された多変量時系列のファジィクラスタリングを行う新しい手法を提案する。 生成モデル間の異なる相違や時間経過に伴う動的挙動の変化はファジィアプローチを正当化する議論であり、各系列は特定のメンバーシップレベルを持つ全てのクラスタに関連付けられている。 Our procedure considers quantile-based cross-spectral features and consists of three stages: (i) each element is characterized by a vector of proper estimates of the quantile cross-spectral densities, (ii) principal component analysis is carried out to capture the main differences reducing the effects of the noise, and (iii) the squared Euclidean distance between the first retained principal components is used to perform clustering through the standard fuzzy C-means and fuzzy C-medoids algorithms. 提案手法の性能は,線形,非線形,動的条件相関モデルを含む数種類の生成過程を考慮した幅広いシミュレーション研究で評価された。 評価は2つの異なる方法で行われる: 結果のファジィ分割の品質を直接測定することと、明確に定義されたクラスタから等距離にある系列の重なり合う性質を決定するテクニックの能力を考慮して行われる。 この手順は、文献で提案されたいくつかの代替案と比較され、基礎となるプロセスや評価スキームを著しく上回っている。 航空品質と金融データベースに関する2つの特定の応用が,このアプローチの有用性を示している。

A novel procedure to perform fuzzy clustering of multivariate time series generated from different dependence models is proposed. Different amounts of dissimilarity between the generating models or changes on the dynamic behaviours over time are some arguments justifying a fuzzy approach, where each series is associated to all the clusters with specific membership levels. Our procedure considers quantile-based cross-spectral features and consists of three stages: (i) each element is characterized by a vector of proper estimates of the quantile cross-spectral densities, (ii) principal component analysis is carried out to capture the main differences reducing the effects of the noise, and (iii) the squared Euclidean distance between the first retained principal components is used to perform clustering through the standard fuzzy C-means and fuzzy C-medoids algorithms. The performance of the proposed approach is evaluated in a broad simulation study where several types of generating processes are considered, including linear, nonlinear and dynamic conditional correlation models. Assessment is done in two different ways: by directly measuring the quality of the resulting fuzzy partition and by taking into account the ability of the technique to determine the overlapping nature of series located equidistant from well-defined clusters. The procedure is compared with the few alternatives suggested in the literature, substantially outperforming all of them whatever the underlying process and the evaluation scheme. Two specific applications involving air quality and financial databases illustrate the usefulness of our approach.
翻訳日:2021-09-09 17:25:23 公開日:2021-09-08
# (参考訳) 質問応答によるクロスポリシーコンプライアンス検出 [全文訳有]

Cross-Policy Compliance Detection via Question Answering ( http://arxiv.org/abs/2109.03731v1 )

ライセンス: CC BY-SA 4.0
Marzieh Saeidi, Majid Yazdani, Andreas Vlachos(参考訳) ポリシーコンプライアンス検出は、シナリオがポリシー(例えば、)に準拠していることを保証するタスクである。 請求は、政府の規則に従って有効であり、オンラインプラットフォームにおける投稿は、コミュニティガイドラインに従っている。) このタスクは、以前はテキストエンターメントの形式としてインスタンス化されており、ポリシーの複雑さによって精度が低下している。 本稿では,ポリシーに記述された条件がシナリオに適用されているかどうかを問う質問応答に分解することで,ポリシーコンプライアンス検出に対処することを提案する。 初期の事前アノテーションコストにもかかわらず、特にテスト中のポリシーがトレーニング中に見つからないクロスポリシー設定では、このアプローチがより正確であることを示す。 さらに、既存の大規模データセットで事前訓練された既存の質問応答モデルを使用することもできる。 最後に、ポリシーコンプライアンスが決定できない場合にシナリオから欠落した情報を明示的に特定する。 我々は,政府政策からなる最近のデータセットを用いて実験を行い,専門家のアノテーションを付加することで,質問応答分解の注釈コストは,アノテーション間合意と速度の向上によってほぼ相殺されていることを確認した。

Policy compliance detection is the task of ensuring that a scenario conforms to a policy (e.g. a claim is valid according to government rules or a post in an online platform conforms to community guidelines). This task has been previously instantiated as a form of textual entailment, which results in poor accuracy due to the complexity of the policies. In this paper we propose to address policy compliance detection via decomposing it into question answering, where questions check whether the conditions stated in the policy apply to the scenario, and an expression tree combines the answers to obtain the label. Despite the initial upfront annotation cost, we demonstrate that this approach results in better accuracy, especially in the cross-policy setup where the policies during testing are unseen in training. In addition, it allows us to use existing question answering models pre-trained on existing large datasets. Finally, it explicitly identifies the information missing from a scenario in case policy compliance cannot be determined. We conduct our experiments using a recent dataset consisting of government policies, which we augment with expert annotations and find that the cost of annotating question answering decomposition is largely offset by improved inter-annotator agreement and speed.
翻訳日:2021-09-09 17:24:17 公開日:2021-09-08
# (参考訳) 長期物語におけるサリエンス推定のための記憶と知識強化言語モデル [全文訳有]

Memory and Knowledge Augmented Language Models for Inferring Salience in Long-Form Stories ( http://arxiv.org/abs/2109.03754v1 )

ライセンス: CC BY 4.0
David Wilmot, Frank Keller(参考訳) ストーリーを理解するためには、イベントサリエンスの測定が不可欠です。 本稿では,Barthes Cardinal Function から導かれた非教師なしの塩分検出法とサプライズ理論を,より長い物語形式に適用する。 我々は,外部知識ベースを組み込むことにより,標準的なトランスフォーマー言語モデルを改善するとともに,より長い作業におけるパフォーマンス向上のためのメモリ機構を追加する。 我々は,古典文学作品のShmoopコーパスから,章順の要約を用いたサリエンスアノテーションの導出に新しいアプローチを用いる。 このデータに対する評価は、我々のサリエンス検出モデルが非知識ベースおよびメモリ拡張言語モデル以上の性能を向上することを示し、どちらもこの改善に不可欠である。

Measuring event salience is essential in the understanding of stories. This paper takes a recent unsupervised method for salience detection derived from Barthes Cardinal Functions and theories of surprise and applies it to longer narrative forms. We improve the standard transformer language model by incorporating an external knowledgebase (derived from Retrieval Augmented Generation) and adding a memory mechanism to enhance performance on longer works. We use a novel approach to derive salience annotation using chapter-aligned summaries from the Shmoop corpus for classic literary works. Our evaluation against this data demonstrates that our salience detection model improves performance over and above a non-knowledgebase and memory augmented language model, both of which are crucial to this improvement.
翻訳日:2021-09-09 17:11:41 公開日:2021-09-08
# (参考訳) 診断ガイドによる説明生成 [全文訳有]

Diagnostics-Guided Explanation Generation ( http://arxiv.org/abs/2109.03756v1 )

ライセンス: CC BY 4.0
Pepa Atanasova, Jakob Grue Simonsen, Christina Lioma, Isabelle Augenstein(参考訳) 説明は機械学習モデルの合理性に光を当て、推論プロセスにおける欠陥の特定を支援する。 説明生成モデルは通常、人間の説明に従って教師付きで訓練される。 このようなアノテーションが利用できない場合、説明を下流タスクのパフォーマンスを最大化する入力の部分として選択することがよくあり、それは与えられたモデルに対する説明の忠実さの最適化に相当する。 Faithfulnessは、いくつかのいわゆる診断特性の1つであり、それ以前の研究は、アノテーションを必要とせずに説明の質を測るのに役立つと認識していた。 その他の診断特性としてData Consistencyがあり、同様のインプットインスタンスに対する説明がどのように類似しているかを測定する。 本研究は,3つの複雑な推論タスクにおいて,説明の質,人間的合理性との一致,ダウンストリームタスクのパフォーマンスを著しく向上させる,文レベルの説明生成のためのモデルのトレーニングにおいて,これらの診断特性を直接最適化する方法を示す。

Explanations shed light on a machine learning model's rationales and can aid in identifying deficiencies in its reasoning process. Explanation generation models are typically trained in a supervised way given human explanations. When such annotations are not available, explanations are often selected as those portions of the input that maximise a downstream task's performance, which corresponds to optimising an explanation's Faithfulness to a given model. Faithfulness is one of several so-called diagnostic properties, which prior work has identified as useful for gauging the quality of an explanation without requiring annotations. Other diagnostic properties are Data Consistency, which measures how similar explanations are for similar input instances, and Confidence Indication, which shows whether the explanation reflects the confidence of the model. In this work, we show how to directly optimise for these diagnostic properties when training a model to generate sentence-level explanations, which markedly improves explanation quality, agreement with human rationales, and downstream task performance on three complex reasoning tasks.
翻訳日:2021-09-09 16:54:24 公開日:2021-09-08
# (参考訳) 対照例獲得によるアクティブラーニング [全文訳有]

Active Learning by Acquiring Contrastive Examples ( http://arxiv.org/abs/2109.03764v1 )

ライセンス: CC BY 4.0
Katerina Margatina, Giorgos Vernikos, Lo\"ic Barrault, Nikolaos Aletras(参考訳) アクティブラーニングのための共通取得関数は、不確実性または多様性サンプリングを使用して、ラベルなしデータのプールからそれぞれ困難で多様なデータポイントを選択することを目的としている。 本研究では,両世界の最善を生かして,\textit{contrastive examples} の選択を選択できる獲得関数を提案する。 モデルの特徴空間で類似するデータポイントは、モデルが最大に異なる予測可能性を出力する。 提案手法であるCAL(Contrastive Active Learning)を,4つの自然言語理解タスクと7つのデータセットにおける多様な獲得関数群と比較した。 実験の結果、CALはドメイン内データとドメイン外データの両方で、すべてのタスクで最高のパフォーマンスのベースラインよりも一貫して、あるいは等しく動作することがわかった。 我々はまた,本手法の広範囲にわたるアブレーション研究を行い,CALが他の戦略に比べて不確実性と多様性のトレードオフを良好に達成していることを示す,活発に取得されたすべてのデータセットを分析した。

Common acquisition functions for active learning use either uncertainty or diversity sampling, aiming to select difficult and diverse data points from the pool of unlabeled data, respectively. In this work, leveraging the best of both worlds, we propose an acquisition function that opts for selecting \textit{contrastive examples}, i.e. data points that are similar in the model feature space and yet the model outputs maximally different predictive likelihoods. We compare our approach, CAL (Contrastive Active Learning), with a diverse set of acquisition functions in four natural language understanding tasks and seven datasets. Our experiments show that CAL performs consistently better or equal than the best performing baseline across all tasks, on both in-domain and out-of-domain data. We also conduct an extensive ablation study of our method and we further analyze all actively acquired datasets showing that CAL achieves a better trade-off between uncertainty and diversity compared to other strategies.
翻訳日:2021-09-09 16:36:53 公開日:2021-09-08
# (参考訳) fedzkt: フェデレーション学習におけるヘテロジニアスオンデバイスモデルへのゼロショット知識伝達 [全文訳有]

FedZKT: Zero-Shot Knowledge Transfer towards Heterogeneous On-Device Models in Federated Learning ( http://arxiv.org/abs/2109.03775v1 )

ライセンス: CC BY 4.0
Lan Zhang, Xiaoyong Yuan(参考訳) フェデレーション学習は、デバイス上でのトレーニングデータを集中させることなく、分散デバイスが共同で共有予測モデルを学習することを可能にする。 現行のアルゴリズムのほとんどは、同じ構造とサイズを持つデバイス上でモデルをトレーニングするための、同等の個別の努力を必要とする。 近年,多種多様なデバイスが普及していることから,FedZKTによって命名されたZero-shot Knowledge Transferを通じて,異種オンデバイスモデル間のフェデレーション学習を支援する新しいフレームワークを提案する。 具体的には、FedZKTは参加するデバイスがデバイス上のモデルを独立して決定できるようにする。 デバイス上のモデル間で知識を伝達するために、FedZKTは、パブリックデータセットや事前訓練されたデータジェネレータに基づく以前の研究とは対照的にゼロショット蒸留アプローチを開発する。 オンデバイスワークロードを最大限に削減するために、リソース集約蒸留タスクをサーバに割り当て、受信した異種オンデバイスモデルのアンサンブルと対角的にトレーニングするジェネレータを構築する。 蒸留された中心知識は対応するオンデバイスモデルパラメータの形で送り返され、デバイス側で容易に吸収される。 実験研究は、不均一なオンデバイスモデルに対するfeedzktの有効性と頑健性を示し、非iidデータ分布やストラグラー効果のような連合学習シナリオに挑戦する。

Federated learning enables distributed devices to collaboratively learn a shared prediction model without centralizing on-device training data. Most of the current algorithms require comparable individual efforts to train on-device models with the same structure and size, impeding participation from resource-constrained devices. Given the widespread yet heterogeneous devices nowadays, this paper proposes a new framework supporting federated learning across heterogeneous on-device models via Zero-shot Knowledge Transfer, named by FedZKT. Specifically, FedZKT allows participating devices to independently determine their on-device models. To transfer knowledge across on-device models, FedZKT develops a zero-shot distillation approach contrary to certain prior research based on a public dataset or a pre-trained data generator. To utmostly reduce on-device workload, the resource-intensive distillation task is assigned to the server, which constructs a generator to adversarially train with the ensemble of the received heterogeneous on-device models. The distilled central knowledge will then be sent back in the form of the corresponding on-device model parameters, which can be easily absorbed at the device side. Experimental studies demonstrate the effectiveness and the robustness of FedZKT towards heterogeneous on-device models and challenging federated learning scenarios, such as non-iid data distribution and straggler effects.
翻訳日:2021-09-09 16:16:43 公開日:2021-09-08
# (参考訳) ポインケアボールの高度にスケーラブルで確実に正確な分類 [全文訳有]

Highly Scalable and Provably Accurate Classification in Poincare Balls ( http://arxiv.org/abs/2109.03781v1 )

ライセンス: CC BY 4.0
Eli Chien, Chao Pan, Puoya Tabaghi, Olgica Milenkovic(参考訳) 実用関連性の高次元および大体積データセットの多くは、木、グラフ、時系列によって誘導される階層構造を持つ。 そのようなデータセットはユークリッド空間では処理が困難であり、必要となる学習タスクを実行するために、しばしば他の空間に低次元の埋め込みを求める。 階層データの場合、選択空間は双曲空間であり、木のような構造に対する低歪埋め込みが保証される。 残念ながら、双曲空間の幾何学はユークリッド空間にはない性質を持ち、アルゴリズム解を厳密に解析しようとすると問題となる。 ここでは,証明可能な性能保証を備えたスケーラブルで単純な双曲型線形分類器を学習するための統一的なフレームワークを初めて確立する。 提案手法の要点は,ポアンカーの球モデルに着目し,接空間形式を用いた分類問題を定式化することである。 提案手法は,新しい双曲型および二階型パーセプトロンアルゴリズムと,双曲型サポートベクトルマシン分類器の効率的かつ高精度な凸最適化設定を含む。 すべてのアルゴリズムは証明的に収束し、ユークリッドのアルゴリズムに匹敵する複雑さを持つため、非常にスケーラブルである。 数百万の点からなる合成データセットと、シングルセルRNA-seq式測定、CIFAR10、Fashion-MNIST、mini-ImageNetのような複雑な実世界のデータセットの性能評価を行う。

Many high-dimensional and large-volume data sets of practical relevance have hierarchical structures induced by trees, graphs or time series. Such data sets are hard to process in Euclidean spaces and one often seeks low-dimensional embeddings in other space forms to perform required learning tasks. For hierarchical data, the space of choice is a hyperbolic space since it guarantees low-distortion embeddings for tree-like structures. Unfortunately, the geometry of hyperbolic spaces has properties not encountered in Euclidean spaces that pose challenges when trying to rigorously analyze algorithmic solutions. Here, for the first time, we establish a unified framework for learning scalable and simple hyperbolic linear classifiers with provable performance guarantees. The gist of our approach is to focus on Poincar\'e ball models and formulate the classification problems using tangent space formalisms. Our results include a new hyperbolic and second-order perceptron algorithm as well as an efficient and highly accurate convex optimization setup for hyperbolic support vector machine classifiers. All algorithms provably converge and are highly scalable as they have complexities comparable to those of their Euclidean counterparts. Their performance accuracies on synthetic data sets comprising millions of points, as well as on complex real-world data sets such as single-cell RNA-seq expression measurements, CIFAR10, Fashion-MNIST and mini-ImageNet.
翻訳日:2021-09-09 15:43:50 公開日:2021-09-08
# (参考訳) 視覚トランスフォーマー訓練のためのスケールド・ルル問題 [全文訳有]

Scaled ReLU Matters for Training Vision Transformers ( http://arxiv.org/abs/2109.03810v1 )

ライセンス: CC BY 4.0
Pichao Wang and Xue Wang and Hao Luo and Jingkai Zhou and Zhipeng Zhou and Fan Wang and Hao Li and Rong Jin(参考訳) 視覚変換器(ViT)は畳み込みニューラルネットワーク(CNN)の代替設計パラダイムである。 しかし、学習率やオプティマイザ、ウォームアップエポックといったトレーニングパラメータに敏感であるため、ViTsのトレーニングはCNNよりもはるかに難しい。 学習困難の原因は ~\cite{xiao2021early} で実証的に分析され、著者らはこの問題はvitモデルの \textit{patchify-stem} にあると推測し、初期の畳み込みはトランスフォーマーがより良く見えるようになることを提案している。 本稿では,この問題をさらに調査し,上記の結論を延長する。初期畳み込みは安定なトレーニングには役立たないが,\textit{convolutional stem} (\textit{conv-stem}) におけるスケールド relu 演算は問題となる。 理論的にも経験的にも,ReLU を \textit{conv-stem} でスケールさせたことはトレーニングの安定化を向上するだけでなく,パッチトークンの多様性の向上にも寄与する。 さらに、以前のViTが十分に訓練されるには程遠いことを実証するために、広範囲な実験が行われ、さらに、ViTがCNNのより良い代替となる可能性を示している。

Vision transformers (ViTs) have been an alternative design paradigm to convolutional neural networks (CNNs). However, the training of ViTs is much harder than CNNs, as it is sensitive to the training parameters, such as learning rate, optimizer and warmup epoch. The reasons for training difficulty are empirically analysed in ~\cite{xiao2021early}, and the authors conjecture that the issue lies with the \textit{patchify-stem} of ViT models and propose that early convolutions help transformers see better. In this paper, we further investigate this problem and extend the above conclusion: only early convolutions do not help for stable training, but the scaled ReLU operation in the \textit{convolutional stem} (\textit{conv-stem}) matters. We verify, both theoretically and empirically, that scaled ReLU in \textit{conv-stem} not only improves training stabilization, but also increases the diversity of patch tokens, thus boosting peak performance with a large margin via adding few parameters and flops. In addition, extensive experiments are conducted to demonstrate that previous ViTs are far from being well trained, further showing that ViTs have great potential to be a better substitute of CNNs.
翻訳日:2021-09-09 15:19:18 公開日:2021-09-08
# (参考訳) Video2Skill: サイクリックMDP準同型を用いたデモ映像のイベント適応環境 [全文訳有]

Video2Skill: Adapting Events in Demonstration Videos to Skills in an Environment using Cyclic MDP Homomorphisms ( http://arxiv.org/abs/2109.03813v1 )

ライセンス: CC BY 4.0
Sumedh A Sontakke, Sumegh Roychowdhury, Mausoom Sarkar, Nikaash Puri, Balaji Krishnamurthy, Laurent Itti(参考訳) オンラインのチュートリアルビデオの人気が急増していることから、人間はテキストコメンタリーで強化されたデモから長期のタスクを学ぶのが得意だ。 直感的には、この能力は2つの異なるサブタスクに分けられる - まず、長い水平のデモシーケンスを意味的に意味のあるイベントに分割する。 ここでは、ロボットアームが人間の料理ビデオから学習できるようにして、この機能を人工エージェントに拡張しようとするvideo2skill(v2s)を紹介する。 まず,シーケンシャル・ツー・シーケンシャルなオートエンコーダ方式のアーキテクチャを用いて,ロングホライゾンのデモンストレーションでイベントの時間的潜在空間を学習する。 そして、これらの表現をロボットターゲットドメインに転送し、少量のオフラインおよび無関係なインタラクションデータ(専門家が制御するロボットアームの状態-アクションペアのシーケンス)を使用して、これらのイベントを実行可能な表現、すなわちスキルに適応させます。 実験により,ロボット環境における動作と動作の類似性について,エージェントが学習する自己教師型アナロジー学習が実現されることが実証された。 また,Voice2Skillは,人間の実演から得た事前知識を用いて,従来のモデル学習の長軸ダイナミクスよりも優れていることを示す。 最後に,非タブララサ意思決定におけるアプローチの有用性,すなわちゼロショットスキル生成のためのビデオデモの利用を実証する。

Humans excel at learning long-horizon tasks from demonstrations augmented with textual commentary, as evidenced by the burgeoning popularity of tutorial videos online. Intuitively, this capability can be separated into 2 distinct subtasks - first, dividing a long-horizon demonstration sequence into semantically meaningful events; second, adapting such events into meaningful behaviors in one's own environment. Here, we present Video2Skill (V2S), which attempts to extend this capability to artificial agents by allowing a robot arm to learn from human cooking videos. We first use sequence-to-sequence Auto-Encoder style architectures to learn a temporal latent space for events in long-horizon demonstrations. We then transfer these representations to the robotic target domain, using a small amount of offline and unrelated interaction data (sequences of state-action pairs of the robot arm controlled by an expert) to adapt these events into actionable representations, i.e., skills. Through experiments, we demonstrate that our approach results in self-supervised analogy learning, where the agent learns to draw analogies between motions in human demonstration data and behaviors in the robotic environment. We also demonstrate the efficacy of our approach on model learning - demonstrating how Video2Skill utilizes prior knowledge from human demonstration to outperform traditional model learning of long-horizon dynamics. Finally, we demonstrate the utility of our approach for non-tabula rasa decision-making, i.e, utilizing video demonstration for zero-shot skill generation.
翻訳日:2021-09-09 14:51:27 公開日:2021-09-08
# (参考訳) パンオプティカルセグフォーマ [全文訳有]

Panoptic SegFormer ( http://arxiv.org/abs/2109.03814v1 )

ライセンス: CC BY 4.0
Zhiqi Li, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Tong Lu, Ping Luo(参考訳) 本稿では,トランスフォーマーを用いたエンドツーエンドのpanopticセグメンテーションのための汎用フレームワークであるpanoptic segformerを提案する。 提案手法は変形可能なdetrを拡張し,モノとモノの統一マスク予測ワークフローにより,パンオプティカルセグメンテーションパイプラインを簡潔かつ効果的にする。 ResNet-50のバックボーンでは,COCOテストデブスプリットにおいて50.0\%のPQを達成し,ベルやホイッスルを使わずに,従来の最先端の手法をはるかに上回っている。 より強力なPVTv2-B5バックボーンを使用して、Panoptic-SegFormerは、COCO valとテストデブスプリットで54.1\%PQと54.4\%PQの新記録をシングルスケール入力で達成した。

We present Panoptic SegFormer, a general framework for end-to-end panoptic segmentation with Transformers. The proposed method extends Deformable DETR with a unified mask prediction workflow for both things and stuff, making the panoptic segmentation pipeline concise and effective. With a ResNet-50 backbone, our method achieves 50.0\% PQ on the COCO test-dev split, surpassing previous state-of-the-art methods by significant margins without bells and whistles. Using a more powerful PVTv2-B5 backbone, Panoptic-SegFormer achieves a new record of 54.1\%PQ and 54.4\% PQ on the COCO val and test-dev splits with single scale input.
翻訳日:2021-09-09 14:32:08 公開日:2021-09-08
# 物理に基づく深層学習による単一平面波イメージング

Single Plane-Wave Imaging using Physics-Based Deep Learning ( http://arxiv.org/abs/2109.03661v1 )

ライセンス: Link先を確認
Georgios Pilikos, Chris L. de Korte, Tristan van Leeuwen, Felix Lucka(参考訳) 平面波イメージングでは、異なる角度から関心のある媒体に複数の非焦点超音波を伝送し、記録された反射から画像を形成する。 使用する平面波の数はフレームレートと画像品質のトレードオフにつながり、単一平面波(spw)イメージングは最悪の画像品質を持つ最高速のモダリティである。 近年,超音波画像改善のための深層学習法が提案されている。 1つのアプローチは、形成した画像に作用する画像間ネットワークを使用することで、もう1つは、データから画像へのマッピングを直接学習することである。 どちらのアプローチも純粋にデータ駆動モデルを利用しており、優れた結果を得るためには深い表現力のあるネットワークアーキテクチャと多数のトレーニングサンプルを組み合わせる必要がある。 本稿では,深層畳み込みニューラルネットワーク間の波動物理学に基づく画像生成アルゴリズムを組み込んだデータ対画像アーキテクチャを提案する。 これを実現するために,ネットワーク層としてフーリエ(fk)マイグレーション手法を実装し,エンドツーエンドでネットワーク全体をトレーニングする。 シミュレーションデータ実験において,提案する画像間ネットワークと画像間ネットワークを比較し,医用超音波アプリケーションを模倣した。 実験により、75平面波で形成された画像とほぼ類似した高品質なspw画像が得られることが示され、角範囲は$\pm$16$^\circ$である。 このことは、深層ニューラルネットワークとSPWイメージングのための物理ベースの画像形成アルゴリズムを組み合わせる大きな可能性を示している。

In plane-wave imaging, multiple unfocused ultrasound waves are transmitted into a medium of interest from different angles and an image is formed from the recorded reflections. The number of plane waves used leads to a trade-off between frame-rate and image quality, with single-plane-wave (SPW) imaging being the fastest possible modality with the worst image quality. Recently, deep learning methods have been proposed to improve ultrasound imaging. One approach is to use image-to-image networks that work on the formed image and another is to directly learn a mapping from data to an image. Both approaches utilize purely data-driven models and require deep, expressive network architectures, combined with large numbers of training samples to obtain good results. Here, we propose a data-to-image architecture that incorporates a wave-physics-based image formation algorithm in-between deep convolutional neural networks. To achieve this, we implement the Fourier (FK) migration method as network layers and train the whole network end-to-end. We compare our proposed data-to-image network with an image-to-image network in simulated data experiments, mimicking a medical ultrasound application. Experiments show that it is possible to obtain high-quality SPW images, almost similar to an image formed using 75 plane waves over an angular range of $\pm$16$^\circ$. This illustrates the great potential of combining deep neural networks with physics-based image formation algorithms for SPW imaging.
翻訳日:2021-09-09 14:16:46 公開日:2021-09-08
# ニューラルネットワークの性能向上のための学習アルゴリズム

Training Algorithm Matters for the Performance of Neural Network Potential ( http://arxiv.org/abs/2109.03769v1 )

ライセンス: Link先を確認
Yunqi Shao, Florian M. Dietrich, Carl Nettelblad, Chao Zhang(参考訳) ニューラルネットワークポテンシャル(nnps)を開発する上で、隠れているが重要な問題はトレーニングアルゴリズムの選択である。 ここでは,適応モーメント推定アルゴリズム (adam) と拡張カルマンフィルタアルゴリズム (ekf) の2つの一般的なトレーニングアルゴリズムの性能を比較する。 その結果,EKFで訓練したNNPは,Adamと比較して伝達性が高く,学習率に敏感ではないことがわかった。 どちらの場合も、テストセットのエラーメトリクスは、NNPの実際のパフォーマンスを示す指標として必ずしも役に立たない。 その代わり,漁獲情報に基づく類似度尺度と,その性能が良好な相関関係にあることを示す。

One hidden yet important issue for developing neural network potentials (NNPs) is the choice of training algorithm. Here we compare the performance of two popular training algorithms, the adaptive moment estimation algorithm (Adam) and the extended Kalman filter algorithm (EKF), using the Behler-Parrinello neural network (BPNN) and two publicly accessible datasets of liquid water. It is found that NNPs trained with EKF are more transferable and less sensitive to the value of the learning rate, as compared to Adam. In both cases, error metrics of the test set do not always serve as a good indicator for the actual performance of NNPs. Instead, we show that their performance correlates well with a Fisher information based similarity measure.
翻訳日:2021-09-09 14:16:21 公開日:2021-09-08
# 高並列自己回帰型エンティティリンクと識別補正

Highly Parallel Autoregressive Entity Linking with Discriminative Correction ( http://arxiv.org/abs/2109.03792v1 )

ライセンス: Link先を確認
Nicola De Cao, Wilker Aziz, Ivan Titov(参考訳) 生成的アプローチは、Entity DisambiguationとEntity Linking(共同参照検出と曖昧化)の両方に有効であることが最近示されている。 しかし,従来提案されてきたELの自動回帰定式化は,複雑な(ディープ)デコーダや,ソースシーケンス長に合わせてスケールする非並列化復号化,大量のデータに対するトレーニングの必要性などにより,計算コストの増大に悩まされている。 本研究では,全ての潜在的な参照に対して自己回帰リンクを並列化し,浅層かつ効率的なデコーダに依存する,非常に効率的な手法を提案する。 さらに、生成目的を、余分な識別的成分、すなわち、生成者のランキングを直接最適化できる補正項で拡張する。 我々のモデルは以前の生成法よりも70倍高速で正確であり、標準の英語データセットAIDA-CoNLLにおける最先端のアプローチよりも優れています。 ソースコード: https://github.com/n icola-decao/ efficient-autoregres sive-el

Generative approaches have been recently shown to be effective for both Entity Disambiguation and Entity Linking (i.e., joint mention detection and disambiguation). However, the previously proposed autoregressive formulation for EL suffers from i) high computational cost due to a complex (deep) decoder, ii) non-parallelizable decoding that scales with the source sequence length, and iii) the need for training on a large amount of data. In this work, we propose a very efficient approach that parallelizes autoregressive linking across all potential mentions and relies on a shallow and efficient decoder. Moreover, we augment the generative objective with an extra discriminative component, i.e., a correction term which lets us directly optimize the generator's ranking. When taken together, these techniques tackle all the above issues: our model is >70 times faster and more accurate than the previous generative method, outperforming state-of-the-art approaches on the standard English dataset AIDA-CoNLL. Source code available at https://github.com/n icola-decao/efficien t-autoregressive-EL
翻訳日:2021-09-09 14:01:05 公開日:2021-09-08
# Panoptic nuScenes: LiDARのPanoptic Segmentation and Trackingのための大規模ベンチマーク

Panoptic nuScenes: A Large-Scale Benchmark for LiDAR Panoptic Segmentation and Tracking ( http://arxiv.org/abs/2109.03805v1 )

ライセンス: Link先を確認
Whye Kit Fong, Rohit Mohan, Juana Valeria Hurtado, Lubing Zhou, Holger Caesar, Oscar Beijbom, and Abhinav Valada(参考訳) 都市環境におけるロボットや自動走行車にとって、動的エージェントのパノプティクスシーン理解と追跡が不可欠である。 LiDARはシーンの正確な照明に依存しない幾何学的描写を提供するので、LiDARポイントクラウドを使用してこれらのタスクを実行することは、信頼できる予測を提供する。 しかし、既存のデータセットは都市シーンの種類に多様性を欠いているため、これらのタスクの学習を阻害する動的オブジェクトインスタンスの数が限られている。 本稿では,セマンティックセグメンテーション,パンオプティクスセグメンテーション,パンオプティクストラッキングタスクのためのポイントワイズ・グラウンドルートアノテーションを用いて,ポピュラーなnuscenesデータセットを拡張した大規模panoptic nuscenesベンチマークデータセットを提案する。 比較を容易にするために、提案するデータセット上で、これらのタスクごとにいくつかの強力なベースラインを提供します。 さらに,パンオプティカルトラッキング問題に対する既存のメトリクスの欠点を分析し,その懸念に対処する新しいインスタンス中心のメトリクスを提案する。 既存のデータセットと比較してPanoptic nuScenesの有用性を実証する広範な実験を行い、オンライン評価サーバを \url{nuScenes.org} で利用できるようにする。 我々は,この拡張により,動的都市環境のシーン理解のための新しい手法の研究が促進されると信じている。

Panoptic scene understanding and tracking of dynamic agents are essential for robots and automated vehicles to navigate in urban environments. As LiDARs provide accurate illumination-indepen dent geometric depictions of the scene, performing these tasks using LiDAR point clouds provides reliable predictions. However, existing datasets lack diversity in the type of urban scenes and have a limited number of dynamic object instances which hinders both learning of these tasks as well as credible benchmarking of the developed methods. In this paper, we introduce the large-scale Panoptic nuScenes benchmark dataset that extends our popular nuScenes dataset with point-wise groundtruth annotations for semantic segmentation, panoptic segmentation, and panoptic tracking tasks. To facilitate comparison, we provide several strong baselines for each of these tasks on our proposed dataset. Moreover, we analyze the drawbacks of the existing metrics for the panoptic tracking problem and propose a novel instance-centric metric that addresses the concerns. We present extensive experiments that demonstrate the utility of Panoptic nuScenes compared to existing datasets and make the online evaluation server available at \url{nuScenes.org}. We believe that this extension will accelerate the research of novel methods for scene understanding of dynamic urban environments.
翻訳日:2021-09-09 14:00:47 公開日:2021-09-08
# 人間に質問するAIのターン:FairytaleQAデータセットにおける子どものストーリーブックに対する質問と答え

It is AI's Turn to Ask Human a Question: Question and Answer Pair Generation for Children Storybooks in FairytaleQA Dataset ( http://arxiv.org/abs/2109.03423v1 )

ライセンス: Link先を確認
Bingsheng Yao, Dakuo Wang, Tongshuang Wu, Tran Hoang, Branda Sun, Toby Jia-Jun Li, Mo Yu, Ying Xu(参考訳) 既存の質問応答(QA)データセットは、主に人間の質問に答えられるようにAIを応用するために作成されている。 しかし、教育アプリケーションでは、教師や親は、言語学習の結果を最大化できる子供にどんな質問をするべきかを知らないことがある。 幼少期の読者向けに46冊のfairytaleストーリーブックをラベル付けした本QAデータセット(FairytaleQA)を新たにリリースし,本アプリケーション用の自動QA生成モデルアーキテクチャを開発した。 本モデルでは,(1) 対象のストーリーブックからの候補回答を,教育的枠組みに基づいて慎重に設計したヒューリスティックスを通じて抽出し,(2) 言語モデルを用いて抽出された各回答に対応する適切な質問を生成し,(3) 上位QAペアのランク付けに別のQAモデルを使用する。 自動評価と人間評価は、我々のモデルがベースラインを上回ることを示している。 また,児童書QAデータセットの不足問題に対して,200冊の未ラベルストーリーブックをデータ拡張することで,本手法が有効であることを示す。

Existing question answering (QA) datasets are created mainly for the application of having AI to be able to answer questions asked by humans. But in educational applications, teachers and parents sometimes may not know what questions they should ask a child that can maximize their language learning results. With a newly released book QA dataset (FairytaleQA), which educational experts labeled on 46 fairytale storybooks for early childhood readers, we developed an automated QA generation model architecture for this novel application. Our model (1) extracts candidate answers from a given storybook passage through carefully designed heuristics based on a pedagogical framework; (2) generates appropriate questions corresponding to each extracted answer using a language model; and, (3) uses another QA model to rank top QA-pairs. Automatic and human evaluations show that our model outperforms baselines. We also demonstrate that our method can help with the scarcity issue of the children's book QA dataset via data augmentation on 200 unlabeled storybooks.
翻訳日:2021-09-09 14:00:21 公開日:2021-09-08
# 自然言語プロンプトを用いたオープンアスペクトターゲット感情分類

Open Aspect Target Sentiment Classification with Natural Language Prompts ( http://arxiv.org/abs/2109.03685v1 )

ライセンス: Link先を確認
Ronald Seoh, Ian Birle, Mrinal Tak, Haw-Shiuan Chang, Brian Pinette, Alfred Hough(参考訳) 多くのビジネスアプリケーションでは、非常に限定的なラベルや全くラベルがないにもかかわらず、私たちはしばしば商用製品の任意の側面に関連する感情を分析することを求めます。 しかし、アノテーション付きデータセットが利用できない場合、既存のアスペクトターゲット感情分類(ATSC)モデルはトレーニングできない。 ラベル付きデータでさえ、満足のいくパフォーマンスには達していない。 そこで本研究では,自然言語プロンプトによるatscの解法を改良し,ゼロショットケースのタスクを可能にし,特に少数ショットケースにおいて教師付き設定の強化を図る。 SemEval 2014 Task 4ラップトップドメインのいくつかの設定では、NLIタスクとしてATSCを再構成する方法は、最大24.13の精度ポイントと33.14のマクロF1ポイントで教師付きSOTAアプローチより優れている。 さらに、我々のプロンプトは暗黙的に述べられた側面も扱えることを実証する:我々のモデルはアスペクトカテゴリ(例えば食品)の感情を検出する上で約77%の精度に達し、これは必ずしもテキスト内に現れるわけではない。

For many business applications, we often seek to analyze sentiments associated with any arbitrary aspects of commercial products, despite having a very limited amount of labels or even without any labels at all. However, existing aspect target sentiment classification (ATSC) models are not trainable if annotated datasets are not available. Even with labeled data, they fall short of reaching satisfactory performance. To address this, we propose simple approaches that better solve ATSC with natural language prompts, enabling the task under zero-shot cases and enhancing supervised settings, especially for few-shot cases. Under the few-shot setting for SemEval 2014 Task 4 laptop domain, our method of reformulating ATSC as an NLI task outperforms supervised SOTA approaches by up to 24.13 accuracy points and 33.14 macro F1 points. Moreover, we demonstrate that our prompts could handle implicitly stated aspects as well: our models reach about 77% accuracy on detecting sentiments for aspect categories (e.g., food), which do not necessarily appear within the text, even though we trained the models only with explicitly mentioned aspect terms (e.g., fajitas) from just 16 reviews - while the accuracy of the no-prompt baseline is only around 65%.
翻訳日:2021-09-09 14:00:02 公開日:2021-09-08
# 固定支持木スライスワッサースタイン・バリセンター

Fixed Support Tree-Sliced Wasserstein Barycenter ( http://arxiv.org/abs/2109.03431v1 )

ライセンス: Link先を確認
Yuki Takezawa, Ryoma Sato, Zornitsa Kozareva, Sujith Ravi, Makoto Yamada(参考訳) ワッサースタイン・バリセンターは自然言語処理やコンピュータビジョンなど様々な分野で広く研究されている。 しかし、ワッサーシュタイン距離の計算はサポートの数に関して2次時間を必要とするため、ワッサーシュタインのバリセンター問題を解決するのに高い計算コストを必要とする。 対照的に、木上のワッサーシュタイン距離は木-ワッサーシュタイン距離と呼ばれ、線形時間で計算でき、多数の分布を高速に比較することができる。 本研究では,固定支持木-wasserstein barycenter (fs-twb) とその拡張である固定支持木-wasserstein barycenter (fs-tswb) を提案する。 具体的には,FS-TWB と FS-TSWB が凸最適化問題であることを示す。 さらに,tree-wasserstein barycenter問題の性質を用いて,次数と目的関数の値を計算するためのより効率的なアルゴリズムを提案する。 実世界の実験により,提案アルゴリズムを用いて,FS-TWBとFS-TSWBを元のワッサーシュタインのバリセンタよりも2桁早く解けることを示した。

The Wasserstein barycenter has been widely studied in various fields, including natural language processing, and computer vision. However, it requires a high computational cost to solve the Wasserstein barycenter problem because the computation of the Wasserstein distance requires a quadratic time with respect to the number of supports. By contrast, the Wasserstein distance on a tree, called the tree-Wasserstein distance, can be computed in linear time and allows for the fast comparison of a large number of distributions. In this study, we propose a barycenter under the tree-Wasserstein distance, called the fixed support tree-Wasserstein barycenter (FS-TWB) and its extension, called the fixed support tree-sliced Wasserstein barycenter (FS-TSWB). More specifically, we first show that the FS-TWB and FS-TSWB problems are convex optimization problems and can be solved by using the projected subgradient descent. Moreover, we propose a more efficient algorithm to compute the subgradient and objective function value by using the properties of tree-Wasserstein barycenter problems. Through real-world experiments, we show that, by using the proposed algorithm, the FS-TWB and FS-TSWB can be solved two orders of magnitude faster than the original Wasserstein barycenter.
翻訳日:2021-09-09 13:59:23 公開日:2021-09-08
# 制約付きオンラインロジスティクス経路割り当てのための深層強化学習手法

A Deep Reinforcement Learning Approach for Constrained Online Logistics Route Assignment ( http://arxiv.org/abs/2109.03467v1 )

ライセンス: Link先を確認
Hao Zeng, Yangdong Liu, Dandan Zhang, Kunpeng Han, Haoyuan Hu(参考訳) オンラインショッピングやeコマースのプラットフォームが普及するにつれ、毎日膨大な数の荷物が輸送されている。 したがって、物流産業にとって、運送小包毎に候補物流経路を適切に割り当てることが重要であり、輸送ハブ容量や配送業者の配送比率など、物流コストの最適化とビジネス制約の満足度に大きな影響を残している。 このオンライン経路割り当て問題は、制約付きオンライン意思決定問題と見なすことができる。 特に、毎日の小包の量(${10^5}$)、小包情報の変動性と非マルコフ的特性は、制約を過度に犯さずに(ほぼ)最適解を得るのに困難を伴っている。 本稿では、PPO-RAと呼ばれるモデルフリーDRL手法を開発し、経路割り当て(RA)の課題に対処する専用の技術を用いて、PPO(Proximal Policy Optimization)を改善した。 アクタと批評家ネットワークは注意機構とパラメータ共有を用いて、i.i.dの仮定から非マルコフ小包到着ダイナミクスをモデル化することなく、各入射小包の候補経路の数と同一性に応じて対応している。 パーセル到着 シミュレーションによりppo-raの性能を評価するために,ppo-raを広く使用されているベースラインと比較した。 その結果,多くの制約を満たしつつ,大幅なコスト削減を実現するための提案手法の有効性が示された。

As online shopping prevails and e-commerce platforms emerge, there is a tremendous number of parcels being transported every day. Thus, it is crucial for the logistics industry on how to assign a candidate logistics route for each shipping parcel properly as it leaves a significant impact on the total logistics cost optimization and business constraints satisfaction such as transit hub capacity and delivery proportion of delivery providers. This online route-assignment problem can be viewed as a constrained online decision-making problem. Notably, the large amount (beyond ${10^5}$) of daily parcels, the variability and non-Markovian characteristics of parcel information impose difficulties on attaining (near-) optimal solution without violating constraints excessively. In this paper, we develop a model-free DRL approach named PPO-RA, in which Proximal Policy Optimization (PPO) is improved with dedicated techniques to address the challenges for route assignment (RA). The actor and critic networks use attention mechanism and parameter sharing to accommodate each incoming parcel with varying numbers and identities of candidate routes, without modeling non-Markovian parcel arriving dynamics since we make assumption of i.i.d. parcel arrival. We use recorded delivery parcel data to evaluate the performance of PPO-RA by comparing it with widely-used baselines via simulation. The results show the capability of the proposed approach to achieve considerable cost savings while satisfying most constraints.
翻訳日:2021-09-09 13:58:58 公開日:2021-09-08
# デジタルファクトリにおけるイベント駆動知識グラフ補完について

On Event-Driven Knowledge Graph Completion in Digital Factories ( http://arxiv.org/abs/2109.03655v1 )

ライセンス: Link先を確認
Martin Ringsquandl, Evgeny Kharlamov, Daria Stepanova, Steffen Lamparter, Raffaello Lepratti, Ian Horrocks, Peer Kr\"oger(参考訳) スマートファクトリは、製造環境を感知し、相互に相互作用し、生産プロセスを制御できるマシンを備えている。 このような工場のスムースな運営は、その監視と診断を行う機械と技術者が、例えば知識グラフの形で工場に関する詳細な共通産業知識を共有することを要求する。 このような知識の作成とメンテナンスは高価であり、自動化が必要です。 本研究では,産業アプリケーションに適した機械学習が,知識グラフの完成にどのように役立つかを示す。 特に,スマートファクトリに共通するイベントログから,知識補完がいかに恩恵を受けるかを示す。 我々はこれを実世界のスマートファクトリの知識グラフ上で評価し、結果を奨励する。

Smart factories are equipped with machines that can sense their manufacturing environments, interact with each other, and control production processes. Smooth operation of such factories requires that the machines and engineering personnel that conduct their monitoring and diagnostics share a detailed common industrial knowledge about the factory, e.g., in the form of knowledge graphs. Creation and maintenance of such knowledge is expensive and requires automation. In this work we show how machine learning that is specifically tailored towards industrial applications can help in knowledge graph completion. In particular, we show how knowledge completion can benefit from event logs that are common in smart factories. We evaluate this on the knowledge graph from a real world-inspired smart factory with encouraging results.
翻訳日:2021-09-09 13:58:31 公開日:2021-09-08
# 確率過程の濾過を捉えるための高次核埋め込み

Higher Order Kernel Mean Embeddings to Capture Filtrations of Stochastic Processes ( http://arxiv.org/abs/2109.03582v1 )

ライセンス: Link先を確認
Cristopher Salvi, Maud Lemercier, Chong Liu, Blanka Hovarth, Theodoros Damoulas, Terry Lyons(参考訳) 確率過程は、ある経路空間の値を持つランダム変数である。 しかし、確率過程をパス値確率変数に還元することは、その濾過を無視する。 時間を通してプロセスによって運ばれる情報の流れ。 濾過プロセスの条件付けにより、KMEの概念を一般化し、濾過に関連する追加情報を取得する高次カーネル平均埋め込み(KME)のファミリーを導入する。 我々は,高次最大平均誤差 (MMD) に対する経験的推定器を導出し,整合性を証明した。 次に、標準的なMDDテストで見逃される情報を拾うことができる濾過感受性カーネル2サンプルテストを構築した。 さらに,高次mmdを活用することで,実世界のキャリブレーションや量的ファイナンスにおける最適停止問題(アメリカのオプションの価格など)を,古典的カーネルに基づく回帰法を用いて解決できる確率過程上の普遍的カーネル群を構築する。 最後に,従来の条件付き独立性試験を確率過程に適用し,多次元軌道の観測からのみ相互作用体間の構造的依存関係の因果グラフを復元する因果探索アルゴリズムを設計する。

Stochastic processes are random variables with values in some space of paths. However, reducing a stochastic process to a path-valued random variable ignores its filtration, i.e. the flow of information carried by the process through time. By conditioning the process on its filtration, we introduce a family of higher order kernel mean embeddings (KMEs) that generalizes the notion of KME and captures additional information related to the filtration. We derive empirical estimators for the associated higher order maximum mean discrepancies (MMDs) and prove consistency. We then construct a filtration-sensitive kernel two-sample test able to pick up information that gets missed by the standard MMD test. In addition, leveraging our higher order MMDs we construct a family of universal kernels on stochastic processes that allows to solve real-world calibration and optimal stopping problems in quantitative finance (such as the pricing of American options) via classical kernel-based regression methods. Finally, adapting existing tests for conditional independence to the case of stochastic processes, we design a causal-discovery algorithm to recover the causal graph of structural dependencies among interacting bodies solely from observations of their multidimensional trajectories.
翻訳日:2021-09-09 13:58:20 公開日:2021-09-08
# YAHPO Gym -- 設計基準とハイパーパラメータ最適化のための新しい多要素ベンチマーク

YAHPO Gym -- Design Criteria and a new Multifidelity Benchmark for Hyperparameter Optimization ( http://arxiv.org/abs/2109.03670v1 )

ライセンス: Link先を確認
Florian Pfisterer, Lennart Schneider, Julia Moosbauer, Martin Binder, Bernd Bischl(参考訳) 新たなハイパーパラメータ最適化法(HPO)を開発し,解析する際には,よく計算されたベンチマークスイート上で実験的に評価し,比較することが不可欠である。 本研究は,これらのベンチマークの望ましい特性と要件をリストアップし,これらの要求に動機付けられた,困難かつ関連性の高いHPOベンチマーク問題を新たに提案する。 そこで我々は,サロゲート型ベンチマークの概念を再検討し,より広範に使用されている表型ベンチマークと比較し,HPO法の性能評価と評価のバイアスを生じさせることを示した。 我々は,700以上の多相HPO問題を構成する9つのベンチマークコレクションからなる,多相HPOメソッドのためのサロゲートベースのベンチマークスイートを提案する。 すべてのベンチマークでは、複数の最適化ターゲットのクエリも可能で、多目的HPOのベンチマークを可能にします。 定義された要件に関してベンチマークスイートを調べ比較し、ベンチマークが既存のスイートに実行可能な追加を提供することを示す。

When developing and analyzing new hyperparameter optimization (HPO) methods, it is vital to empirically evaluate and compare them on well-curated benchmark suites. In this work, we list desirable properties and requirements for such benchmarks and propose a new set of challenging and relevant multifidelity HPO benchmark problems motivated by these requirements. For this, we revisit the concept of surrogate-based benchmarks and empirically compare them to more widely-used tabular benchmarks, showing that the latter ones may induce bias in performance estimation and ranking of HPO methods. We present a new surrogate-based benchmark suite for multifidelity HPO methods consisting of 9 benchmark collections that constitute over 700 multifidelity HPO problems in total. All our benchmarks also allow for querying of multiple optimization targets, enabling the benchmarking of multi-objective HPO. We examine and compare our benchmark suite with respect to the defined requirements and show that our benchmarks provide viable additions to existing suites.
翻訳日:2021-09-09 13:58:01 公開日:2021-09-08
# EigenGameによるPCAのプライミング

Priming PCA with EigenGame ( http://arxiv.org/abs/2109.03709v1 )

ライセンス: Link先を確認
B\'alint M\'at\'e, Fran\c{c}ois Fleuret(参考訳) 本稿では,プライマリコンポーネントを大規模に計算するためのEigenGameアルゴリズムの拡張である Primed-PCA (pPCA) を紹介する。 我々のアルゴリズムは、まずEigenGameを実行し、主成分の近似を取得し、次にその部分空間に正確なPCAを適用する。 この部分空間はEigenGameの実用利用において小さな次元であるため、この第2段階は非常に安価である。 それでも、データセット全体の計算予算の精度は大幅に向上する。 この設定では、固有ゲームの目的は、探索空間を狭くし、データを第2段階の正確な計算のために準備することである。 我々はppcaが極めて穏やかな条件下で固有ゲームを改善することを正式に示し、合成データセットと実際の大規模データセットの両方について実験的な検証を行い、パフォーマンスの向上に体系的に変換することを示した。 実験では,元のEigenGame論文のデータセット上で,5~25因子による収束速度の向上を実現した。

We introduce primed-PCA (pPCA), an extension of the recently proposed EigenGame algorithm for computing principal components in a large-scale setup. Our algorithm first runs EigenGame to get an approximation of the principal components, and then applies an exact PCA in the subspace they span. Since this subspace is of small dimension in any practical use of EigenGame, this second step is extremely cheap computationally. Nonetheless, it improves accuracy significantly for a given computational budget across datasets. In this setup, the purpose of EigenGame is to narrow down the search space, and prepare the data for the second step, an exact calculation. We show formally that pPCA improves upon EigenGame under very mild conditions, and we provide experimental validation on both synthetic and real large-scale datasets showing that it systematically translates to improved performance. In our experiments we achieve improvements in convergence speed by factors of 5-25 on the datasets of the original EigenGame paper.
翻訳日:2021-09-09 13:57:45 公開日:2021-09-08
# リップ画像を用いたラリンジアル音声変換のための時間アライメント

Time Alignment using Lip Images for Frame-based Electrolaryngeal Voice Conversion ( http://arxiv.org/abs/2109.03551v1 )

ライセンス: Link先を確認
Yi-Syuan Liou, Wen-Chin Huang, Ming-Chi Yen, Shu-Wei Tsai, Yu-Huai Peng, Tomoki Toda, Yu Tsao, Hsin-Min Wang(参考訳) 音声変換(vc)は、電気的喉頭装置から人工音声の品質を向上させることを目的とした、電気的喉頭(el)音声強調のための効果的なアプローチである。 フレームベースのVC手法では、モデルトレーニングの前に時間アライメントを行う必要があり、各発話ペア間の最適な時間アライメントを計算するために動的時間アライメント(DTW)アルゴリズムが広く採用されている。 この妥当性は、話者の同じ音素が類似した特徴を持ち、ソースとターゲットの音声フレーム間の予め定義された距離を計測することでマッピングできるという仮定に基づいている。 しかし、el音声の特殊特性は仮定を破ることができ、結果として副最適dtwアライメントとなる。 本研究は,Lryngectomeeの唇運動が健常者に比べて正常であると仮定し,時間的アライメントにリップイメージを使用することを提案する。 本研究では,2つのナイーブ唇表現と距離測定値について検討し,提案手法が主観的および主観的評価において音声のみのアライメントを大幅に上回ることを示す。

Voice conversion (VC) is an effective approach to electrolaryngeal (EL) speech enhancement, a task that aims to improve the quality of the artificial voice from an electrolarynx device. In frame-based VC methods, time alignment needs to be performed prior to model training, and the dynamic time warping (DTW) algorithm is widely adopted to compute the best time alignment between each utterance pair. The validity is based on the assumption that the same phonemes of the speakers have similar features and can be mapped by measuring a pre-defined distance between speech frames of the source and the target. However, the special characteristics of the EL speech can break the assumption, resulting in a sub-optimal DTW alignment. In this work, we propose to use lip images for time alignment, as we assume that the lip movements of laryngectomee remain normal compared to healthy people. We investigate two naive lip representations and distance metrics, and experimental results demonstrate that the proposed method can significantly outperform the audio-only alignment in terms of objective and subjective evaluations.
翻訳日:2021-09-09 13:57:30 公開日:2021-09-08
# 深部視覚塩分率モデルの記述法

Deriving Explanation of Deep Visual Saliency Models ( http://arxiv.org/abs/2109.03575v1 )

ライセンス: Link先を確認
Sai Phani Kumar Malladi, Jayanta Mukhopadhyay, Chaker Larabi, Santanu Chaudhury(参考訳) ディープニューラルネットワークは、視覚的サリエンシ予測において、人間のレベルのパフォーマンスを達成する上で、その大きな影響を示している。 しかし、人間の視覚システムを理解するという点で、どのようにしてタスクを学習するかは、まだ不明である。 本研究では,人間の知覚理論と従来のサリエンシの概念を適用し,対応する深層ニューラルネットワークに基づくサリエンシモデルから説明可能なサリエンシモデルを導出する手法を開発した。 この手法は,活性化マップを用いて,中間層における深層ネットワークの学習パターンを理解するのに役立つ。 当初、我々は2つの最先端のディープラーニングモデル、すなわちUNISALとMSI-Netを解釈として検討した。 我々は,生体に再現可能なlog-gaborフィルタのセットを用いて,それらの活性化マップの同定と再構成を行う。 これらの再構築された活性化マップを用いて、最後のサルリエンシーマップが生成される。 我々はまた、サリエンシ予測のためのクロスコンカレントマルチスケール残差ブロックベースネットワーク(CMRNet)という独自のディープサリエンシモデルを構築した。 そこで本研究では,UNISAL,MSI-Net,CMRN etから派生した解析可能なモデルの性能を,他の最先端手法を用いた3つのベンチマークデータセット上で評価し,比較した。 そこで本研究では,この説明可能性のアプローチを,汎用的な解釈のための深いビジュアル・サリエンシ・モデルに適用可能であることを提案する。

Deep neural networks have shown their profound impact on achieving human level performance in visual saliency prediction. However, it is still unclear how they learn the task and what it means in terms of understanding human visual system. In this work, we develop a technique to derive explainable saliency models from their corresponding deep neural architecture based saliency models by applying human perception theories and the conventional concepts of saliency. This technique helps us understand the learning pattern of the deep network at its intermediate layers through their activation maps. Initially, we consider two state-of-the-art deep saliency models, namely UNISAL and MSI-Net for our interpretation. We use a set of biologically plausible log-gabor filters for identifying and reconstructing the activation maps of them using our explainable saliency model. The final saliency map is generated using these reconstructed activation maps. We also build our own deep saliency model named cross-concatenated multi-scale residual block based network (CMRNet) for saliency prediction. Then, we evaluate and compare the performance of the explainable models derived from UNISAL, MSI-Net and CMRNet on three benchmark datasets with other state-of-the-art methods. Hence, we propose that this approach of explainability can be applied to any deep visual saliency model for interpretation which makes it a generic one.
翻訳日:2021-09-09 13:57:10 公開日:2021-09-08
# LiDARTouch: 数ビームLiDARによる単眼メートル法深度推定

LiDARTouch: Monocular metric depth estimation with a few-beam LiDAR ( http://arxiv.org/abs/2109.03569v1 )

ライセンス: Link先を確認
Florent Bartoccioni, \'Eloi Zablocki, Patrick P\'erez, Matthieu Cord, Karteek Alahari(参考訳) 視覚に基づく深度推定は、単一のカメラや複数の独立したカメラに依存する自律システムにおいて重要な機能である。 このような単分子配置では、64本のビームを持つ1つまたは複数の高価なLiDARや、スケールの曖昧さと無限の深さの問題に悩まされるカメラのみの手法から、より深い深さが得られる。 本稿では,モノクラーカメラと軽量LiDAR,例えば今日の自動車用大量レーザースキャナに典型的な4本のビームを組み合わせることで,距離深度を高密度に推定する新しい方法を提案する。 近年の自己教師あり手法に触発されて,lidartouchと呼ばれる新しい枠組みを導入し,lidarの‘touches’の助けを借りて,単眼画像から高密度深度マップを推定する。 我々の設定では、最小lidar入力は3つの異なるレベルに寄与する: 追加モデルの入力として、自己教師付きlidar再構築目的関数において、ポーズの変化(自己教師付き深度推定アーキテクチャの重要な構成要素)を推定する。 我々のLiDARTouchフレームワークは,KITTIデータセット上での自己監督深度推定における新たな技術状況を実現する。 さらに,数ビームのLiDARを用いることで,カメラのみの手法が抱えるあいまいさや無限大の問題が軽減されることを示す。 また,完全教師付き深度補完文献からの手法を,最小限のLiDAR信号を持つ自己教師型システムに適用できることを実証した。

Vision-based depth estimation is a key feature in autonomous systems, which often relies on a single camera or several independent ones. In such a monocular setup, dense depth is obtained with either additional input from one or several expensive LiDARs, e.g., with 64 beams, or camera-only methods, which suffer from scale-ambiguity and infinite-depth problems. In this paper, we propose a new alternative of densely estimating metric depth by combining a monocular camera with a light-weight LiDAR, e.g., with 4 beams, typical of today's automotive-grade mass-produced laser scanners. Inspired by recent self-supervised methods, we introduce a novel framework, called LiDARTouch, to estimate dense depth maps from monocular images with the help of ``touches'' of LiDAR, i.e., without the need for dense ground-truth depth. In our setup, the minimal LiDAR input contributes on three different levels: as an additional model's input, in a self-supervised LiDAR reconstruction objective function, and to estimate changes of pose (a key component of self-supervised depth estimation architectures). Our LiDARTouch framework achieves new state of the art in self-supervised depth estimation on the KITTI dataset, thus supporting our choices of integrating the very sparse LiDAR signal with other visual features. Moreover, we show that the use of a few-beam LiDAR alleviates scale ambiguity and infinite-depth issues that camera-only methods suffer from. We also demonstrate that methods from the fully-supervised depth-completion literature can be adapted to a self-supervised regime with a minimal LiDAR signal.
翻訳日:2021-09-09 13:56:52 公開日:2021-09-08
# Forget me not: An Gentle Reminder to Mind the Simple Multi-Layer Perceptron Baseline for Text Classification

Forget me not: A Gentle Reminder to Mind the Simple Multi-Layer Perceptron Baseline for Text Classification ( http://arxiv.org/abs/2109.03777v1 )

ライセンス: Link先を確認
Lukas Galke and Ansgar Scherp(参考訳) グラフニューラルネットワークは、グラフベースのテキスト分類の復活を引き起こした。 すでに単純なmlpベースラインがベンチマークデータセットで同等のパフォーマンスを達成しており、合成グラフ構造の重要性に疑問を投げかけている。 インダクティブシナリオ、すなわち、コーパスに新しいドキュメントを追加する場合、単純なMPPは、ほとんどのグラフベースのモデルよりも優れています。 さらに比較のためにDistilBERTを微調整し、すべての最先端モデルより優れていることを確かめる。 今後の研究では、少なくともMLPベースラインを用いて結果の文脈化が期待できる。 このようなベースラインの設計とトレーニングを推奨します。

Graph neural networks have triggered a resurgence of graph-based text classification. We show that already a simple MLP baseline achieves comparable performance on benchmark datasets, questioning the importance of synthetic graph structures. When considering an inductive scenario, i. e., when adding new documents to a corpus, a simple MLP even outperforms most graph-based models. We further fine-tune DistilBERT for comparison and find that it outperforms all state-of-the-art models. We suggest that future studies use at least an MLP baseline to contextualize the results. We provide recommendations for the design and training of such a baseline.
翻訳日:2021-09-09 13:55:58 公開日:2021-09-08
# 量子機械学習のための絡み合ったデータセット

Entangled Datasets for Quantum Machine Learning ( http://arxiv.org/abs/2109.03400v1 )

ライセンス: Link先を確認
Louis Schatzki, Andrew Arrasmith, Patrick J. Coles, M. Cerezo(参考訳) 高品質で大規模なデータセットは、古典的な機械学習の開発と成功に重要な役割を果たしてきた。 量子機械学習(Quantum Machine Learning, QML)は、量子コンピュータをデータ分析に利用することを目的とした新しい分野である。 提案されているほとんどのQMLアーキテクチャは、古典的なデータセットを使用してベンチマークされているが、古典的なデータセット上のQMLがそのような優位性を達成するかどうかはまだ疑問である。 この研究では、代わりに量子状態からなる量子データセットを用いるべきであると論じる。 そこで本研究では,異なる量と多部交絡型の量子状態からなるNTangledデータセットを提案する。 まず、NTangledデータセットの状態を生成するために量子ニューラルネットワークをどのように訓練するかを示す。 次に、NTangledデータセットを用いて、教師付き学習分類タスクのQMLモデルをベンチマークする。 また、異なる深さの量子回路によって構成された、スケーラブルな別の絡み合いベースのデータセットも検討する。 この結果の副産物として,多部交絡状態を生成する新しい手法を導入し,量子交絡理論における量子ニューラルネットワークの利用例を示した。

High-quality, large-scale datasets have played a crucial role in the development and success of classical machine learning. Quantum Machine Learning (QML) is a new field that aims to use quantum computers for data analysis, with the hope of obtaining a quantum advantage of some sort. While most proposed QML architectures are benchmarked using classical datasets, there is still doubt whether QML on classical datasets will achieve such an advantage. In this work, we argue that one should instead employ quantum datasets composed of quantum states. For this purpose, we introduce the NTangled dataset composed of quantum states with different amounts and types of multipartite entanglement. We first show how a quantum neural network can be trained to generate the states in the NTangled dataset. Then, we use the NTangled dataset to benchmark QML models for supervised learning classification tasks. We also consider an alternative entanglement-based dataset, which is scalable and is composed of states prepared by quantum circuits with different depths. As a byproduct of our results, we introduce a novel method for generating multipartite entangled states, providing a use-case of quantum neural networks for quantum entanglement theory.
翻訳日:2021-09-09 13:55:35 公開日:2021-09-08
# 表象学習のためのデシデラタ:因果的視点

Desiderata for Representation Learning: A Causal Perspective ( http://arxiv.org/abs/2109.03795v1 )

ライセンス: Link先を確認
Yixin Wang, Michael I. Jordan(参考訳) 表現学習は高次元データの基本的な特徴を要約するために低次元表現を構成する。 この学習問題は、学習表現に関連する様々なデシラタを記述することで、しばしばアプローチされる。 しかし、これらの直感的なデシデラタを観測データに基づいて測定および拡張可能な形式的な基準に変換することは困難である。 本稿では,非純粋性と効率性(教師なし表現学習)と非教師なし表現学習(教師なし表現学習)の因果的視点を,因果的主張の反事実量と観測可能な結果を用いて定式化する。 これにより、関心のデシデラタを満たす表現の程度を評価し、単一の観測データセットから非純正で不連続な表現を学ぶのに使用できる計算可能なメトリクスが得られる。

Representation learning constructs low-dimensional representations to summarize essential features of high-dimensional data. This learning problem is often approached by describing various desiderata associated with learned representations; e.g., that they be non-spurious, efficient, or disentangled. It can be challenging, however, to turn these intuitive desiderata into formal criteria that can be measured and enhanced based on observed data. In this paper, we take a causal perspective on representation learning, formalizing non-spuriousness and efficiency (in supervised representation learning) and disentanglement (in unsupervised representation learning) using counterfactual quantities and observable consequences of causal assertions. This yields computable metrics that can be used to assess the degree to which representations satisfy the desiderata of interest and learn non-spurious and disentangled representations from single observational datasets.
翻訳日:2021-09-09 13:55:18 公開日:2021-09-08
# 提示攻撃検出のためのシャッフルパッチワイズスーパービジョン

Shuffled Patch-Wise Supervision for Presentation Attack Detection ( http://arxiv.org/abs/2109.03484v1 )

ライセンス: Link先を確認
Alperen Kantarc{\i}, Hasan Dertli, Haz{\i}m Kemal Ekenel(参考訳) 顔の偽造防止は、写真、ビデオ、マスク、または認証された人の顔の別の代替品を使用することによって、偽の顔認証を防止するために不可欠である。 最先端のプレゼンテーションアタック検出(pad)システムの多くは、単一のデータセットでほぼ完璧なスコアを得られるが、より現実的なデータを持つ別のデータセットではフェールするオーバーフィッティングに悩まされている。 この問題により、研究者は現実世界の条件下でうまく機能するモデルを開発することができる。 これは、畳み込みニューラルネットワーク(CNN)を使用するフレームベースのプレゼンテーション攻撃検知システムにおいて特に難しい問題である。 そこで我々は,画素単位のバイナリ管理とパッチベースのCNNを組み合わせた新しいPAD手法を提案する。 CNNを顔パッチでトレーニングすることで、背景やデータセット固有のトレースを学習することなく、スプーフを識別できると考えています。 提案手法は標準ベンチマークデータセット(Replay-Mobile, OULU-NPU)と実世界のデータセットの両方で検証した。 提案手法は,挑戦的な実験装置において優位性を示す。 すなわち,OULU-NPUプロトコル3,4およびデータセット間実世界の実験において高い性能を達成する。

Face anti-spoofing is essential to prevent false facial verification by using a photo, video, mask, or a different substitute for an authorized person's face. Most of the state-of-the-art presentation attack detection (PAD) systems suffer from overfitting, where they achieve near-perfect scores on a single dataset but fail on a different dataset with more realistic data. This problem drives researchers to develop models that perform well under real-world conditions. This is an especially challenging problem for frame-based presentation attack detection systems that use convolutional neural networks (CNN). To this end, we propose a new PAD approach, which combines pixel-wise binary supervision with patch-based CNN. We believe that training a CNN with face patches allows the model to distinguish spoofs without learning background or dataset-specific traces. We tested the proposed method both on the standard benchmark datasets -- Replay-Mobile, OULU-NPU -- and on a real-world dataset. The proposed approach shows its superiority on challenging experimental setups. Namely, it achieves higher performance on OULU-NPU protocol 3, 4 and on inter-dataset real-world experiments.
翻訳日:2021-09-09 13:54:15 公開日:2021-09-08
# 機械学習を用いた典型的な脳老化からアルツハイマー病の神経変性を遠ざける

Disentangling Alzheimer's disease neurodegeneration from typical brain aging using machine learning ( http://arxiv.org/abs/2109.03723v1 )

ライセンス: Link先を確認
Gyujoon Hwang, Ahmed Abdulkadir, Guray Erus, Mohamad Habes, Raymond Pomponio, Haochang Shou, Jimit Doshi, Elizabeth Mamourian, Tanweer Rashid, Murat Bilgel, Yong Fan, Aristeidis Sotiras, Dhivya Srinivasan, John C. Morris, Daniel Marcus, Marilyn S. Albert, Nick R. Bryan, Susan M. Resnick, Ilya M. Nasrallah, Christos Davatzikos, David A. Wolk (from the iSTAGING consortium, for the ADNI)(参考訳) 典型的な脳老化とアルツハイマー病(AD)を区別する神経画像バイオマーカーは、それぞれが認知低下にどの程度寄与するかを決定するのに有用である。 機械学習モデルは、SPARE-AD(Spatial Patterns of Atrophys for Recognition of Alzheimer's Disease)やSPARE-BA(Brain Aging)など、この2つのプロセスに関連する多変量脳変化パターンを導出することができる。 しかし、この2つのプロセスで影響を受ける脳の領域間のかなりの重複は、それらを独立して測定する。 この2つを解消するための方法論を提案する。 健常者4,054名(48~95歳)のMRI像, 軽度認知障害 (MCI) , あるいはiSTAGING (Imaging-based coordinate SysTem for AGIng and NeurodeGenerative disease) による認知正常 (CN) 診断について検討した。 まず,SPARE-BA1とSPARE-AD1(CNとADの分類)を訓練するために,純粋に臨床診断に基づいてAD患者とCN成人のサブセットを選定した。 第2に,SPARE-BA2およびSPARE-AD2を用いたアミロイド陽性(A+)AD連続群(A+AD,A+MCI,A+およびtau陽性CN)およびアミロイド陰性(A-)CN群を訓練するために,臨床および分子マーカーに基づいて類似群を選択した。 最後に、AD関連脳の変化にかかわらず、AD連続体とA/CNの併用群がSPARE-BA3のトレーニングに使用された。 遠絡SPAREモデルは2種類の脳変化に特異的な脳パターンを導出した。 SPARE-BAとSPARE-ADの相関は有意に減少した。 不連続スペアadの相関は分子量とapoe4アレル数と不一致であったが,ad関連心理計測テストスコアでは低下し,高次脳老化の寄与が示唆された。

Neuroimaging biomarkers that distinguish between typical brain aging and Alzheimer's disease (AD) are valuable for determining how much each contributes to cognitive decline. Machine learning models can derive multi-variate brain change patterns related to the two processes, including the SPARE-AD (Spatial Patterns of Atrophy for Recognition of Alzheimer's Disease) and SPARE-BA (of Brain Aging) investigated herein. However, substantial overlap between brain regions affected in the two processes confounds measuring them independently. We present a methodology toward disentangling the two. T1-weighted MRI images of 4,054 participants (48-95 years) with AD, mild cognitive impairment (MCI), or cognitively normal (CN) diagnoses from the iSTAGING (Imaging-based coordinate SysTem for AGIng and NeurodeGenerative diseases) consortium were analyzed. First, a subset of AD patients and CN adults were selected based purely on clinical diagnoses to train SPARE-BA1 (regression of age using CN individuals) and SPARE-AD1 (classification of CN versus AD). Second, analogous groups were selected based on clinical and molecular markers to train SPARE-BA2 and SPARE-AD2: amyloid-positive (A+) AD continuum group (consisting of A+AD, A+MCI, and A+ and tau-positive CN individuals) and amyloid-negative (A-) CN group. Finally, the combined group of the AD continuum and A-/CN individuals was used to train SPARE-BA3, with the intention to estimate brain age regardless of AD-related brain changes. Disentangled SPARE models derived brain patterns that were more specific to the two types of the brain changes. Correlation between the SPARE-BA and SPARE-AD was significantly reduced. Correlation of disentangled SPARE-AD was non-inferior to the molecular measurements and to the number of APOE4 alleles, but was less to AD-related psychometric test scores, suggesting contribution of advanced brain aging to these scores.
翻訳日:2021-09-09 13:53:55 公開日:2021-09-08
# fastMRI+ : 膝と脳の完全サンプリングMRI画像に対する臨床病理学的アノテーション

fastMRI+: Clinical Pathology Annotations for Knee and Brain Fully Sampled Multi-Coil MRI Data ( http://arxiv.org/abs/2109.03812v1 )

ライセンス: Link先を確認
Ruiyang Zhao, Burhaneddin Yaman, Yuxin Zhang, Russell Stewart, Austin Dixon, Florian Knoll, Zhengnan Huang, Yvonne W. Lui, Michael S. Hansen, Matthew P. Lungren(参考訳) 新しいレコンストラクションアプローチによる磁気共鳴画像(mri)の速度と画質の改善は、医学画像におけるディープラーニングの最も大きなインパクトの1つである。 fastMRIデータセットは、大量の生MRIデータを含むという点で特有であり、ディープラーニングベースの再構成手法を用いて、MRIの高速化に大きな進歩をもたらした。 fastMRIデータセットが医療画像の分野に与える影響は疑問視されていないが、このデータセットは、現在臨床専門家の病理アノテーションが欠如しており、臨床的に関係のある再構築フレームワークに対処し、そのような新しいアプローチを用いて特定の病理のレンダリングに関する重要な疑問を探求している。 この研究は16154のサブスペシャリスト専門家のボックスアノテーションと13のリサーチレベルラベルからなる、高速MRI膝データセットの22の異なる病理カテゴリのための研究レベルラベルと7570のサブスペシャリスト専門家のボックスアノテーションと、高速MRI脳データセットの30の異なる病理カテゴリのための643のリサーチレベルラベルからなる。 fastMRI+データセットはオープンアクセスであり、MRI再建以降の医療画像の研究と進歩を支援することを目的としている。

Improving speed and image quality of Magnetic Resonance Imaging (MRI) via novel reconstruction approaches remains one of the highest impact applications for deep learning in medical imaging. The fastMRI dataset, unique in that it contains large volumes of raw MRI data, has enabled significant advances in accelerating MRI using deep learning-based reconstruction methods. While the impact of the fastMRI dataset on the field of medical imaging is unquestioned, the dataset currently lacks clinical expert pathology annotations, critical to addressing clinically relevant reconstruction frameworks and exploring important questions regarding rendering of specific pathology using such novel approaches. This work introduces fastMRI+, which consists of 16154 subspecialist expert bounding box annotations and 13 study-level labels for 22 different pathology categories on the fastMRI knee dataset, and 7570 subspecialist expert bounding box annotations and 643 study-level labels for 30 different pathology categories for the fastMRI brain dataset. The fastMRI+ dataset is open access and aims to support further research and advancement of medical imaging in MRI reconstruction and beyond.
翻訳日:2021-09-09 13:53:13 公開日:2021-09-08
# 軸方向多層パーセプトロンアーキテクチャによる多発性硬化症における脈絡膜プレックスの自動分割

Axial multi-layer perceptron architecture for automatic segmentation of choroid plexus in multiple sclerosis ( http://arxiv.org/abs/2109.03778v1 )

ライセンス: Link先を確認
Marius Schmidt-Mengin and Vito A.G. Ricigliano and Benedetta Bodini and Emanuele Morena and Annalisa Colombi and Mariem Hamzaoui and Arya Yazdan Panah and Bruno Stankoff and Olivier Colliot(参考訳) 脈絡膜叢 (CP) は脳脊髄液(CSF)の大部分を産生する脳の心室構造である。 いくつかの死後および生体内研究は、多発性硬化症(MS)における炎症過程における役割を指摘している。 MRIからのCPの自動分画は, 患者の大コホートにおいてその特徴を研究する上で高い価値がある。 我々の知る限り、CPセグメンテーションのための唯一の無料ツールがFreeSurferであるが、その特定の構造に対する正確性は乏しい。 本稿では,非コントラスト強調T1強調MRIからCPを自動的に分離する手法を提案する。 そこで我々は,Axial Multi-layer Perceptrons (MLPs) の組立に基づく"Axial-MLP"と呼ばれる新しいモデルを導入する。 これは、トランスフォーマーの自己アテンション層をMLPに置き換えることができることを示す最近の研究にインスパイアされている。 このアプローチは、標準的な3D U-Net、nnU-Net、Freesurfer、FastSurferと体系的に比較される。 実験では,141名(44名,ms患者97名)のデータセットを用いた。 テスト済みのディープラーニング(DL)メソッドはFreeSurferよりも優れている(DLは0.7、FreeSurferは0.33)。 Axial-MLPはU-Netと競合するが、精度はわずかである。 1) 深層学習法は,MS患者の大規模なコホートにおいてCPを研究する上で有用なツールであり,2) 軸-MLPは,そのようなタスクに対する畳み込みニューラルネットワークの代替として有効な可能性があり,さらなる改善の恩恵を受けることができる。

Choroid plexuses (CP) are structures of the ventricles of the brain which produce most of the cerebrospinal fluid (CSF). Several postmortem and in vivo studies have pointed towards their role in the inflammatory process in multiple sclerosis (MS). Automatic segmentation of CP from MRI thus has high value for studying their characteristics in large cohorts of patients. To the best of our knowledge, the only freely available tool for CP segmentation is FreeSurfer but its accuracy for this specific structure is poor. In this paper, we propose to automatically segment CP from non-contrast enhanced T1-weighted MRI. To that end, we introduce a new model called "Axial-MLP" based on an assembly of Axial multi-layer perceptrons (MLPs). This is inspired by recent works which showed that the self-attention layers of Transformers can be replaced with MLPs. This approach is systematically compared with a standard 3D U-Net, nnU-Net, Freesurfer and FastSurfer. For our experiments, we make use of a dataset of 141 subjects (44 controls and 97 patients with MS). We show that all the tested deep learning (DL) methods outperform FreeSurfer (Dice around 0.7 for DL vs 0.33 for FreeSurfer). Axial-MLP is competitive with U-Nets even though it is slightly less accurate. The conclusions of our paper are two-fold: 1) the studied deep learning methods could be useful tools to study CP in large cohorts of MS patients; 2)~Axial-MLP is a potentially viable alternative to convolutional neural networks for such tasks, although it could benefit from further improvements.
翻訳日:2021-09-09 13:52:50 公開日:2021-09-08
# ビジョンはいつ必要か: マルチモーダル機械翻訳モデルの正当性チェック

Vision Matters When It Should: Sanity Checking Multimodal Machine Translation Models ( http://arxiv.org/abs/2109.03415v1 )

ライセンス: Link先を確認
Jiaoda Li, Duygu Ataman, Rico Sennrich(参考訳) マルチモーダル機械翻訳(MMT)システムは、視覚的コンテキストが利用できる場合、テキストのみのニューラルネットワーク翻訳(NMT)よりも優れていることが示されている。 しかし、近年の研究では、MMTモデルの性能は、関連する画像が無関係な画像やノイズに置き換えられた場合にのみ、わずかしか影響しないことが示されている。 これは、画像キャプションの翻訳を人間の翻訳者に実際に見せることなく作成する、一般的に使用される評価ベンチマーク(multi30kとも呼ばれる)の性質によるものではないかと仮定する。 本稿では,視覚モダリティの活用を刺激するデータセットの役割を検討する定性的な研究を行い,情報源画像におけるモデル依存度の向上を示すデータセットにおける視覚信号の重要性を強調する手法を提案する。 この結果から, MMT アーキテクチャの有効性に関する研究は, 適切なデータセットの欠如に障害があり, 今後の MMT データセットの作成に注意を要することが示唆された。

Multimodal machine translation (MMT) systems have been shown to outperform their text-only neural machine translation (NMT) counterparts when visual context is available. However, recent studies have also shown that the performance of MMT models is only marginally impacted when the associated image is replaced with an unrelated image or noise, which suggests that the visual context might not be exploited by the model at all. We hypothesize that this might be caused by the nature of the commonly used evaluation benchmark, also known as Multi30K, where the translations of image captions were prepared without actually showing the images to human translators. In this paper, we present a qualitative study that examines the role of datasets in stimulating the leverage of visual modality and we propose methods to highlight the importance of visual signals in the datasets which demonstrate improvements in reliance of models on the source images. Our findings suggest the research on effective MMT architectures is currently impaired by the lack of suitable datasets and careful consideration must be taken in creation of future MMT datasets, for which we also provide useful insights.
翻訳日:2021-09-09 13:51:54 公開日:2021-09-08
# テキスト要約のためのシーケンスレベルのコントラスト学習

Sequence Level Contrastive Learning for Text Summarization ( http://arxiv.org/abs/2109.03481v1 )

ライセンス: Link先を確認
Shusheng Xu, Xingxing Zhang, Yi Wu and Furu Wei(参考訳) コントラスト学習モデルは、同じ画像の異なるビューの特徴表現間の類似性を最大化し、異なる画像のビューの特徴表現間の類似性を最小化する、教師なし視覚表現学習において大きな成功を収めている。 テキスト要約では、出力要約は入力文書のより短い形式であり、同様の意味を持つ。 本稿では,文書,金の要約,および生成した要約を,同じ平均表現の異なる視点として捉え,それらの類似性を最大化する,教師付き抽象テキスト要約のための対照的な学習モデルを提案する。 3つの異なる要約データセット上で、強いシーケンスからシーケンスへのテキスト生成モデル(すなわちbart)を改善する。 また, 人的評価は, 比較対象を含まないモデルに比べて, 忠実度評価が優れていることを示す。

Contrastive learning models have achieved great success in unsupervised visual representation learning, which maximize the similarities between feature representations of different views of the same image, while minimize the similarities between feature representations of views of different images. In text summarization, the output summary is a shorter form of the input document and they have similar meanings. In this paper, we propose a contrastive learning model for supervised abstractive text summarization, where we view a document, its gold summary and its model generated summaries as different views of the same mean representation and maximize the similarities between them during training. We improve over a strong sequence-to-sequence text generation model (i.e., BART) on three different summarization datasets. Human evaluation also shows that our model achieves better faithfulness ratings compared to its counterpart without contrastive objectives.
翻訳日:2021-09-09 13:51:35 公開日:2021-09-08
# RefineCap:イメージキャプションのための概念対応リファインメント

RefineCap: Concept-Aware Refinement for Image Captioning ( http://arxiv.org/abs/2109.03529v1 )

ライセンス: Link先を確認
Yekun Chai, Shuo Jin, Junliang Xing(参考訳) 画像のテキストへの自動翻訳には、画像のシーン理解と言語モデリングが含まれる。 本稿では,視覚意味論を用いて言語デコーダの出力語彙を洗練し,視覚的タグ単語と画像のマッピングを暗黙的に学習する,refinecapと呼ばれる新しいモデルを提案する。 提案手法では,画像中の意味的詳細を生成できるため,より意味的に記述的なキャプションを生成することができる。 本モデルは,従来の視覚概念モデルと比較して,MS-COCOデータセット上での優れた性能を実現する。

Automatically translating images to texts involves image scene understanding and language modeling. In this paper, we propose a novel model, termed RefineCap, that refines the output vocabulary of the language decoder using decoder-guided visual semantics, and implicitly learns the mapping between visual tag words and images. The proposed Visual-Concept Refinement method can allow the generator to attend to semantic details in the image, thereby generating more semantically descriptive captions. Our model achieves superior performance on the MS-COCO dataset in comparison with previous visual-concept based models.
翻訳日:2021-09-09 13:51:20 公開日:2021-09-08
# 感情衝突検出によるサーカズム認識のためのデュアルチャネルフレームワーク

A Dual-Channel Framework for Sarcasm Recognition by Detecting Sentiment Conflict ( http://arxiv.org/abs/2109.03587v1 )

ライセンス: Link先を確認
Yiyi Liu, Yequan Wang, Aixin Sun, Zheng Zhang, Jiafeng Guo, Xuying Meng(参考訳) サルカスムはアンビバレンス(英語版)を採用しており、そこでは肯定的だが実際には否定的であり、その逆である。 洗練された不明瞭な感情のため、皮肉は感情分析に大きな挑戦をもたらす。 本稿では, 皮肉文の本質として, テキストの表層形式で表されるリテラル感情が, 深い感情(テキストの実際の意味で表される)とは逆であることを示す。 この目的のために,リテラルとディープ感情の両方をモデル化し,感情の衝突を認識するデュアルチャネルフレームワークを提案する。 具体的には、提案フレームワークは、入力テキストのリテラルと深い意味の間の感情衝突を検出することができる。 政治論争とtwitterデータセットに関する実験は、我々のフレームワークがサルカズム認識において最高のパフォーマンスを達成していることを示している。

Sarcasm employs ambivalence, where one says something positive but actually means negative, and vice versa. Due to the sophisticated and obscure sentiment, sarcasm brings in great challenges to sentiment analysis. In this paper, we show up the essence of sarcastic text is that the literal sentiment (expressed by the surface form of the text) is opposite to the deep sentiment (expressed by the actual meaning of the text). To this end, we propose a Dual-Channel Framework by modeling both literal and deep sentiments to recognize the sentiment conflict. Specifically, the proposed framework is capable of detecting the sentiment conflict between the literal and deep meanings of the input text. Experiments on the political debates and the Twitter datasets show that our framework achieves the best performance on sarcasm recognition.
翻訳日:2021-09-09 13:51:09 公開日:2021-09-08
# 低リソースニューラルマシン翻訳のためのデータ拡張再考--マルチタスク学習アプローチ

Rethinking Data Augmentation for Low-Resource Neural Machine Translation: A Multi-Task Learning Approach ( http://arxiv.org/abs/2109.03645v1 )

ライセンス: Link先を確認
V\'ictor M. S\'anchez-Cartagena, Miquel Espl\`a-Gomis, Juan Antonio P\'erez-Ortiz, Felipe S\'anchez-Mart\'inez(参考訳) ニューラルマシン翻訳の文脈では、データ拡張(da)技術は、利用可能な並列データが不足している場合に追加のトレーニングサンプルを生成するのに使用できる。 多くのDAアプローチは、頻度の低い単語を含む新しい文対を生成することによって、経験的データ分散のサポートの拡大を目標とし、並列文の真のデータ分布に近づける。 本稿では,対象文の順序を逆転させ,不均一な対象文を生成するなど,変換を伴う新しい文対を生成するマルチタスクda手法を提案する。 トレーニング中、これらの拡張文はマルチタスクフレームワークの補助タスクとして使用され、ターゲットプレフィックスが次の単語を予測するのに十分な情報を持たない新しいコンテキストを提供することを目的としている。 これによりエンコーダが強化され、デコーダはエンコーダのソース表現にもっと注意を払わざるを得なくなる。 6つの低リソース翻訳タスクで行った実験は、経験的データ配信のサポートの拡張を目的としたベースラインとDAメソッドに一貫した改善を示す。 私たちのアプローチでトレーニングされたシステムはソーストークンに依存しており、ドメインシフトに対してより堅牢であり、幻覚を少なくしています。

In the context of neural machine translation, data augmentation (DA) techniques may be used for generating additional training samples when the available parallel data are scarce. Many DA approaches aim at expanding the support of the empirical data distribution by generating new sentence pairs that contain infrequent words, thus making it closer to the true data distribution of parallel sentences. In this paper, we propose to follow a completely different approach and present a multi-task DA approach in which we generate new sentence pairs with transformations, such as reversing the order of the target sentence, which produce unfluent target sentences. During training, these augmented sentences are used as auxiliary tasks in a multi-task framework with the aim of providing new contexts where the target prefix is not informative enough to predict the next word. This strengthens the encoder and forces the decoder to pay more attention to the source representations of the encoder. Experiments carried out on six low-resource translation tasks show consistent improvements over the baseline and over DA methods aiming at extending the support of the empirical data distribution. The systems trained with our approach rely more on the source tokens, are more robust against domain shift and suffer less hallucinations.
翻訳日:2021-09-09 13:50:57 公開日:2021-09-08
# 言語モデルの持続的モジュラーデバイアス

Sustainable Modular Debiasing of Language Models ( http://arxiv.org/abs/2109.03646v1 )

ライセンス: Link先を確認
Anne Lauscher, Tobias L\"uken, Goran Glava\v{s}(参考訳) 現代の事前訓練言語モデル(PLM)で符号化された不公平なステレオタイプバイアス(性別、人種、宗教的偏見)は、最先端の言語技術の普及に悪影響を及ぼす。 これを解決するために、最近、PLMからこのようなステレオタイプバイアスを取り除くために幅広い脱バイアス技術が導入されている。 しかし、既存のdebiasingメソッドは、計算量的に高価であるだけでなく、事前学習で得られる有用な言語知識を(破滅的に)忘れてしまうという固有のリスクを伴って、plmsパラメーターを直接修正する。 本稿では,adeleと呼ばれる専用デバイアスアダプタに基づく,より持続可能なモジュールデバイアス手法を提案する。 具体的には,(1)オリジナルのplm層にアダプタモジュールを注入し,(2)アダプタのみを更新(つまり,オリジナルのplmパラメータを凍結しておく)し,対極的に拡張されたコーパス上で言語モデリングトレーニングを行う。 adele, in gender debiasing of bert: our extensive evaluation では、3つの内在的バイアス尺度と2つの外在的バイアス尺度を包含し、adeleを非常に効果的にバイアス緩和に役立てます。 さらに、--そのモジュール性のため、ADELEはタスクアダプタと組み合わせて、大規模な下流トレーニングの後にも公平さを維持します。 最後に、多言語BERTを用いてADELEを6つのターゲット言語に転送することに成功した。

Unfair stereotypical biases (e.g., gender, racial, or religious biases) encoded in modern pretrained language models (PLMs) have negative ethical implications for widespread adoption of state-of-the-art language technology. To remedy for this, a wide range of debiasing techniques have recently been introduced to remove such stereotypical biases from PLMs. Existing debiasing methods, however, directly modify all of the PLMs parameters, which -- besides being computationally expensive -- comes with the inherent risk of (catastrophic) forgetting of useful language knowledge acquired in pretraining. In this work, we propose a more sustainable modular debiasing approach based on dedicated debiasing adapters, dubbed ADELE. Concretely, we (1) inject adapter modules into the original PLM layers and (2) update only the adapters (i.e., we keep the original PLM parameters frozen) via language modeling training on a counterfactually augmented corpus. We showcase ADELE, in gender debiasing of BERT: our extensive evaluation, encompassing three intrinsic and two extrinsic bias measures, renders ADELE, very effective in bias mitigation. We further show that -- due to its modular nature -- ADELE, coupled with task adapters, retains fairness even after large-scale downstream training. Finally, by means of multilingual BERT, we successfully transfer ADELE, to six target languages.
翻訳日:2021-09-09 13:50:39 公開日:2021-09-08
# 多人数対話読解のための話者・キー発話の自己・擬似自己制御予測

Self- and Pseudo-self-supervis ed Prediction of Speaker and Key-utterance for Multi-party Dialogue Reading Comprehension ( http://arxiv.org/abs/2109.03772v1 )

ライセンス: Link先を確認
Yiyang Li and Hai Zhao(参考訳) マルチパーティ対話機械読解(MRC)は、複数の話者が1つの対話で会話し、複雑な話者情報の流れと騒々しい対話コンテキストをもたらすため、大きな課題をもたらす。 このような問題を緩和するため、従来のモデルは複雑なグラフベースのモジュールと手動でラベル付けされたデータを使ってこれらの情報を組み込む方法に重点を置いている。 本稿では,話者情報の流れを暗黙的にモデル化するために,話者とキー発話における作業のない自己教師付き予測タスクと擬似教師付き予測タスクを2つ設計する。 2つのベンチマークデータセットによる実験結果から,提案手法の競争ベースラインと最先端モデルに対する有効性を検証した。

Multi-party dialogue machine reading comprehension (MRC) brings tremendous challenge since it involves multiple speakers at one dialogue, resulting in intricate speaker information flows and noisy dialogue contexts. To alleviate such difficulties, previous models focus on how to incorporate these information using complex graph-based modules and additional manually labeled data, which is usually rare in real scenarios. In this paper, we design two labour-free self- and pseudo-self-supervis ed prediction tasks on speaker and key-utterance to implicitly model the speaker information flows, and capture salient clues in a long dialogue. Experimental results on two benchmark datasets have justified the effectiveness of our method over competitive baselines and current state-of-the-art models.
翻訳日:2021-09-09 13:50:15 公開日:2021-09-08
# マルチリンガルAMR-テキスト生成における金銀の溶融

Smelting Gold and Silver for Improved Multilingual AMR-to-Text Generation ( http://arxiv.org/abs/2109.03808v1 )

ライセンス: Link先を確認
Leonardo F. R. Ribeiro, Jonas Pfeiffer, Yue Zhang and Iryna Gurevych(参考訳) 近年の多言語AMR-to-text生成の研究は、銀AMRを利用するデータ拡張戦略にのみ焦点をあてている。 しかし、これは生成されたAMRの高品質を前提としており、ターゲットタスクへの転送可能性を制限する可能性がある。 本稿では,amrアノテーションを自動生成する様々な手法について検討し,どの情報源がより多言語的結果をもたらすかを検討する。 我々のモデルは、生成銀AMRを利用する銀(機械翻訳)文で金AMRを訓練した。 相補的な情報ソースの組み合わせにより、多言語AMR-テキスト生成がさらに向上することがわかった。 我々のモデルは、ドイツ、イタリア、スペイン、中国の芸術のこれまでの状態を大きく上回っている。

Recent work on multilingual AMR-to-text generation has exclusively focused on data augmentation strategies that utilize silver AMR. However, this assumes a high quality of generated AMRs, potentially limiting the transferability to the target task. In this paper, we investigate different techniques for automatically generating AMR annotations, where we aim to study which source of information yields better multilingual results. Our models trained on gold AMR with silver (machine translated) sentences outperform approaches which leverage generated silver AMR. We find that combining both complementary sources of information further improves multilingual AMR-to-text generation. Our models surpass the previous state of the art for German, Italian, Spanish, and Chinese by a large margin.
翻訳日:2021-09-09 13:49:59 公開日:2021-09-08
# オンライン行動検出のための情報識別学習 : 分析と応用

Learning to Discriminate Information for Online Action Detection: Analysis and Application ( http://arxiv.org/abs/2109.03393v1 )

ライセンス: Link先を確認
Sumin Lee, Hyunjun Eun, Jinyoung Moon, Seokeon Choi, Yoonhyung Kim, Chanho Jung, and Changick Kim(参考訳) ストリーミングビデオから進行中のアクションを特定することを目的としたオンラインアクション検出は、現実世界のアプリケーションにおいて重要なテーマである。 このタスクでは、従来の手法では、入力シーケンス内の時間関係をモデル化するために、リカレントニューラルネットワークを使用する。 しかし、これらの手法は、入力画像列が興味の作用だけでなく、背景および無関係な作用を含むという事実を無視する。 これにより、興味ある動作に関する特徴を符号化するために不要な情報を蓄積する繰り返しユニットが誘導される。 そこで本研究では,現在進行中の行動と他者との情報の関連性を明示的に判別し,入力情報を蓄積するか否かを判断する新しいリカレントユニットである「情報識別ユニット(idu)」を提案する。 これにより、進行中のアクションを識別するためのより識別的な表現を学ぶことができる。 本稿ではさらに,行動予測のための情報統合ユニット(iiu)と呼ばれる新しいリカレントユニットを提案する。 iduの出力を擬似アクションラベルとrgbフレームとして活用し,観察したアクションの充実した特徴を効果的に学習する。 テレビシリーズとTHUMOS-14の実験において,提案手法はオンライン行動検出と行動予測において有意差で最先端の手法より優れていた。 さらに,包括的アブレーション研究を行うことにより,提案手法の有効性を示す。

Online action detection, which aims to identify an ongoing action from a streaming video, is an important subject in real-world applications. For this task, previous methods use recurrent neural networks for modeling temporal relations in an input sequence. However, these methods overlook the fact that the input image sequence includes not only the action of interest but background and irrelevant actions. This would induce recurrent units to accumulate unnecessary information for encoding features on the action of interest. To overcome this problem, we propose a novel recurrent unit, named Information Discrimination Unit (IDU), which explicitly discriminates the information relevancy between an ongoing action and others to decide whether to accumulate the input information. This enables learning more discriminative representations for identifying an ongoing action. In this paper, we further present a new recurrent unit, called Information Integration Unit (IIU), for action anticipation. Our IIU exploits the outputs from IDU as pseudo action labels as well as RGB frames to learn enriched features of observed actions effectively. In experiments on TVSeries and THUMOS-14, the proposed methods outperform state-of-the-art methods by a significant margin in online action detection and action anticipation. Moreover, we demonstrate the effectiveness of the proposed units by conducting comprehensive ablation studies.
翻訳日:2021-09-09 13:49:26 公開日:2021-09-08
# 顔認識システムにおけるマスタフェイスアタック

Master Face Attacks on Face Recognition Systems ( http://arxiv.org/abs/2109.03398v1 )

ライセンス: Link先を確認
Huy H. Nguyen, S\'ebastien Marcel, Junichi Yamagishi, Isao Echizen(参考訳) 顔認証は現在、その利便性のため、個人識別番号やアンロックパターンを使った認証ではなく、特にモバイルデバイスで広く使われている。 これにより、プレゼンテーションアタックを使った攻撃者の誘惑の的になっている。 従来のプレゼンテーション攻撃は、被害者の顔画像やビデオを使用する。 これまでの研究で、顔認識システムで複数の登録されたテンプレートにマッチするマスターフェイスの存在が証明され、その存在はプレゼンテーションアタックの能力を拡張する。 本稿では,マスタフェースの生成によく用いられる手法である潜在変数進化(lve)について,詳細な研究を行う。 各種シナリオと複数のデータベースおよび/または顔認識システムを用いてLVEアルゴリズムを実行し、マスター顔の特性を研究し、強いマスター顔が生成可能な条件を理解する。 さらに,分析により,顔認識システムの埋め込み空間内の密度の高い領域からマスタフェイスが生まれることを仮定した。 最後に、生成したマスターフェイスを用いたシミュレートされたプレゼンテーションアタックは、一般的に元のデジタルフォームの偽マッチング能力を保ち、マスターフェイスの存在が実際の脅威となることを示す。

Face authentication is now widely used, especially on mobile devices, rather than authentication using a personal identification number or an unlock pattern, due to its convenience. It has thus become a tempting target for attackers using a presentation attack. Traditional presentation attacks use facial images or videos of the victim. Previous work has proven the existence of master faces, i.e., faces that match multiple enrolled templates in face recognition systems, and their existence extends the ability of presentation attacks. In this paper, we perform an extensive study on latent variable evolution (LVE), a method commonly used to generate master faces. We run an LVE algorithm for various scenarios and with more than one database and/or face recognition system to study the properties of the master faces and to understand in which conditions strong master faces could be generated. Moreover, through analysis, we hypothesize that master faces come from some dense areas in the embedding spaces of the face recognition systems. Last but not least, simulated presentation attacks using generated master faces generally preserve the false-matching ability of their original digital forms, thus demonstrating that the existence of master faces poses an actual threat.
翻訳日:2021-09-09 13:49:06 公開日:2021-09-08
# GTT-Net: 一般軌道三角測量の学習

GTT-Net: Learned Generalized Trajectory Triangulation ( http://arxiv.org/abs/2109.03408v1 )

ライセンス: Link先を確認
Xiangyu Xu, Enrique Dunn(参考訳) 本稿では,sparse dynamic 3d geometry再構成のための教師付き学習フレームワークgtt-netを提案する。 一般化軌跡三角法問題のグラフ理論による定式化を基礎とし、非連続多視点画像幾何学が知られているが、大域的な画像シーケンシングは提供されない。 GTT-Netは、入力観測における時空間関係をモデル化し、それらを利用して3次元幾何推定を行う。 3次元モーションキャプチャーシーケンスの再構成実験により、GTT-Netは精度とロバスト性の観点から、芸術の状態を上回ります。 調音運動再構成の文脈において,提案するアーキテクチャは,1)共有トレーニングとテストドメインに対する意味的3次元動作優先を学習し,強制することができると同時に,2)異なるトレーニングとテストドメインにおけるパフォーマンスを一般化することができる。 さらに、GTT-Netは、マルチインスタンス再構成やイベントセグメンテーションへの応用を含む、トラジェクトリ三角測量のための計算の合理化フレームワークを提供する。

We present GTT-Net, a supervised learning framework for the reconstruction of sparse dynamic 3D geometry. We build on a graph-theoretic formulation of the generalized trajectory triangulation problem, where non-concurrent multi-view imaging geometry is known but global image sequencing is not provided. GTT-Net learns pairwise affinities modeling the spatio-temporal relationships among our input observations and leverages them to determine 3D geometry estimates. Experiments reconstructing 3D motion-capture sequences show GTT-Net outperforms the state of the art in terms of accuracy and robustness. Within the context of articulated motion reconstruction, our proposed architecture is 1) able to learn and enforce semantic 3D motion priors for shared training and test domains, while being 2) able to generalize its performance across different training and test domains. Moreover, GTT-Net provides a computationally streamlined framework for trajectory triangulation with applications to multi-instance reconstruction and event segmentation.
翻訳日:2021-09-09 13:48:47 公開日:2021-09-08
# YouRefIt: 言語とジェスチャーによる身体的参照理解

YouRefIt: Embodied Reference Understanding with Language and Gesture ( http://arxiv.org/abs/2109.03413v1 )

ライセンス: Link先を確認
Yixin Chen, Qing Li, Deqian Kong, Yik Lun Kei, Song-Chun Zhu, Tao Gao, Yixin Zhu, Siyuan Huang(参考訳) 一つのエージェントは、言語とジェスチャーの両方を使って、共有された物理的環境において別のエージェントにオブジェクトを参照する。 注目すべきは、この新しい視覚タスクは、どのオブジェクトが参照されているかを特定するために、視点を取るマルチモーダルキューを理解する必要があることだ。 この問題に対処するために,様々な物理的シーンに収集された具体的参照のクラウドソースデータセットであるyourefitを紹介する。このデータセットには432の屋内シーンに4,195のユニークな参照クリップが含まれている。 我々の知る限り、本データセットは、日常の身体的シーンにおける参照表現を研究し、参照行動、ヒューマンコミュニケーション、人間とロボットの相互作用を理解することができる最初の実施済み参照データセットである。 さらに、画像ベースとビデオベースエンボディド参照理解のための2つのベンチマークを考案する。 包括的ベースラインと広範な実験は、参照表現とジェスチャーがエンボディ化された参照理解にどのように影響するかについて、機械認識の最初の結果を提供する。 以上の結果から,体格的手がかりは言語的手がかりと同じくらい重要であり,具体的参照を理解する上で重要であることが示唆された。

We study the understanding of embodied reference: One agent uses both language and gesture to refer to an object to another agent in a shared physical environment. Of note, this new visual task requires understanding multimodal cues with perspective-taking to identify which object is being referred to. To tackle this problem, we introduce YouRefIt, a new crowd-sourced dataset of embodied reference collected in various physical scenes; the dataset contains 4,195 unique reference clips in 432 indoor scenes. To the best of our knowledge, this is the first embodied reference dataset that allows us to study referring expressions in daily physical scenes to understand referential behavior, human communication, and human-robot interaction. We further devise two benchmarks for image-based and video-based embodied reference understanding. Comprehensive baselines and extensive experiments provide the very first result of machine perception on how the referring expressions and gestures affect the embodied reference understanding. Our results provide essential evidence that gestural cues are as critical as language cues in understanding the embodied reference.
翻訳日:2021-09-09 13:48:30 公開日:2021-09-08
# ユビキタスターゲット認識によるRGB-D能動物体検出

RGB-D Salient Object Detection with Ubiquitous Target Awareness ( http://arxiv.org/abs/2109.03425v1 )

ライセンス: Link先を確認
Yifan Zhao, Jiawei Zhao, Jia Li, Xiaowu Chen(参考訳) 従来のrgb-dサルエント物体検出手法は、両モードのサルエント領域を見つけるために深度を補完的情報として活用することを目的としている。 しかし、salient object detectionの結果は、時々利用できない被写体深度データの品質に大きく依存している。 本研究では,新しい深度認識フレームワークを用いて,RGB-D有向物体検出問題を解くための最初の試みを行う。 このフレームワークはテストフェーズでのみRGBデータに依存し、取得した深度データを表現学習の監督として利用する。 To construct our framework as well as achieving accurate salient detection results, we propose a Ubiquitous Target Awareness (UTA) network to solve three important challenges in RGB-D SOD task: 1) a depth awareness module to excavate depth information and to mine ambiguous regions via adaptive depth-error weights, 2) a spatial-aware cross-modal interaction and a channel-aware cross-level interaction, exploiting the low-level boundary cues and amplifying high-level salient channels, and 3) a gated multi-scale predictor module to perceive the object saliency in different contextual scales. 高パフォーマンスに加えて,提案するutaネットワークは推論の深さフリーであり,43fpsでリアルタイムに動作している。 実験により,提案したネットワークは,5つの公開RGB-D SODベンチマークの最先端手法をはるかに上回るだけでなく,5つの公開RGB SODベンチマークの拡張性も検証している。

Conventional RGB-D salient object detection methods aim to leverage depth as complementary information to find the salient regions in both modalities. However, the salient object detection results heavily rely on the quality of captured depth data which sometimes are unavailable. In this work, we make the first attempt to solve the RGB-D salient object detection problem with a novel depth-awareness framework. This framework only relies on RGB data in the testing phase, utilizing captured depth data as supervision for representation learning. To construct our framework as well as achieving accurate salient detection results, we propose a Ubiquitous Target Awareness (UTA) network to solve three important challenges in RGB-D SOD task: 1) a depth awareness module to excavate depth information and to mine ambiguous regions via adaptive depth-error weights, 2) a spatial-aware cross-modal interaction and a channel-aware cross-level interaction, exploiting the low-level boundary cues and amplifying high-level salient channels, and 3) a gated multi-scale predictor module to perceive the object saliency in different contextual scales. Besides its high performance, our proposed UTA network is depth-free for inference and runs in real-time with 43 FPS. Experimental evidence demonstrates that our proposed network not only surpasses the state-of-the-art methods on five public RGB-D SOD benchmarks by a large margin, but also verifies its extensibility on five public RGB SOD benchmarks.
翻訳日:2021-09-09 13:48:11 公開日:2021-09-08
# Maskは、Dense and Arbitrary-Shaped Scene Text DetectionのためのMask R-CNNを再考する

Mask is All You Need: Rethinking Mask R-CNN for Dense and Arbitrary-Shaped Scene Text Detection ( http://arxiv.org/abs/2109.03426v1 )

ライセンス: Link先を確認
Xugong Qin, Yu Zhou, Youhui Guo, Dayan Wu, Zhihong Tian, Ning Jiang, Hongbin Wang, Weiping Wang(参考訳) オブジェクト検出とインスタンスセグメンテーションの大きな成功により、マスクr-cnnは大きな注目を集め、任意の形のテキスト検出とスポッティングの強力なベースラインとして広く採用されている。 しかし、2つの問題が解決される。 ひとつは、簡単に無視できるが実用的ではない、密集したテキストケースだ。 1つの提案には複数のインスタンスが存在するため、マスクヘッドが異なるインスタンスを区別し、パフォーマンスを低下させるのが難しくなる。 本研究では,マスクヘッドの学習混乱問題による性能劣化について論じる。 マスクヘッドのデコーダにmlpデコーダを用いることを提案し,この問題を緩和し,ロバスト性を高める。 また,マスクヘッドが各画素をテキストや非テキストに分類するのではなく,全体の形状を予測することを学習する事例認識マスク学習を提案する。 例認識マスク学習では、マスクブランチは分離されたコンパクトマスクを学習することができる。 2つ目は、スケールとアスペクト比の大きなバリエーションのため、RPNは複雑なアンカー設定を必要としており、異なるデータセットのメンテナンスと転送が困難であることだ。 この問題を解決するために,極端アスペクト比のすべてのインスタンスが十分なアンカーに関連付けられていることを保証する適応ラベル割り当てを提案する。 提案手法は, DAST1500, MSRA-TD500, ICDAR2015, CTW1500, Total-Text の5つのベンチマークにおいて, 最先端の性能を実現する。

Due to the large success in object detection and instance segmentation, Mask R-CNN attracts great attention and is widely adopted as a strong baseline for arbitrary-shaped scene text detection and spotting. However, two issues remain to be settled. The first is dense text case, which is easy to be neglected but quite practical. There may exist multiple instances in one proposal, which makes it difficult for the mask head to distinguish different instances and degrades the performance. In this work, we argue that the performance degradation results from the learning confusion issue in the mask head. We propose to use an MLP decoder instead of the "deconv-conv" decoder in the mask head, which alleviates the issue and promotes robustness significantly. And we propose instance-aware mask learning in which the mask head learns to predict the shape of the whole instance rather than classify each pixel to text or non-text. With instance-aware mask learning, the mask branch can learn separated and compact masks. The second is that due to large variations in scale and aspect ratio, RPN needs complicated anchor settings, making it hard to maintain and transfer across different datasets. To settle this issue, we propose an adaptive label assignment in which all instances especially those with extreme aspect ratios are guaranteed to be associated with enough anchors. Equipped with these components, the proposed method named MAYOR achieves state-of-the-art performance on five benchmarks including DAST1500, MSRA-TD500, ICDAR2015, CTW1500, and Total-Text.
翻訳日:2021-09-09 13:47:48 公開日:2021-09-08
# 画像復元のためのテイラー近似の展開

Unfolding Taylor's Approximations for Image Restoration ( http://arxiv.org/abs/2109.03442v1 )

ライセンス: Link先を確認
Man Zhou, Zeyu Xiao, Xueyang Fu, Aiping Liu, Gang Yang and Zhiwei Xiong(参考訳) ディープラーニングは、画像復元のための新しい手段を提供し、潜伏した鮮明な画像を復元するときに、細部の詳細と高レベルなコンテキスト化情報との微妙なバランスを要求する。 しかし、実際、既存の手法では、カプセル化されたエンドツーエンドのマッピングネットワークを合理性に深く掘り下げることなく実証的に構築し、本質的な復元作業の事前知識を無視する。 テイラーの近似に触発された上記の問題を解決するために、テイラーの公式を展開し、画像復元のための新しい枠組みを構築する。 テイラー近似の主な部分と微分部分は、それぞれ高レベル文脈情報と画像復元の空間的詳細の2つの競合する目標と同じ効果を持つことがわかった。 具体的には、このフレームワークはマッピングとデリバティブ関数に対応する2つのステップで構成されています。 前者はまず高レベルの文脈情報を学び、後者は劣化した入力と組み合わせて局所的な高次空間の詳細を徐々に復元する。 提案フレームワークは既存の手法と直交するので,さらなる改善のために容易に統合することが可能であり,提案フレームワークの有効性と拡張性について広範な実験を行った。

Deep learning provides a new avenue for image restoration, which demands a delicate balance between fine-grained details and high-level contextualized information during recovering the latent clear image. In practice, however, existing methods empirically construct encapsulated end-to-end mapping networks without deepening into the rationality, and neglect the intrinsic prior knowledge of restoration task. To solve the above problems, inspired by Taylor's Approximations, we unfold Taylor's Formula to construct a novel framework for image restoration. We find the main part and the derivative part of Taylor's Approximations take the same effect as the two competing goals of high-level contextualized information and spatial details of image restoration respectively. Specifically, our framework consists of two steps, correspondingly responsible for the mapping and derivative functions. The former first learns the high-level contextualized information and the later combines it with the degraded input to progressively recover local high-order spatial details. Our proposed framework is orthogonal to existing methods and thus can be easily integrated with them for further improvement, and extensive experiments demonstrate the effectiveness and scalability of our proposed framework.
翻訳日:2021-09-09 13:47:21 公開日:2021-09-08
# 焦点と場所:シーン画像における任意形状近傍テキスト検出のための簡易かつ正確なフレームワーク

Which and Where to Focus: A Simple yet Accurate Framework for Arbitrary-Shaped Nearby Text Detection in Scene Images ( http://arxiv.org/abs/2109.03451v1 )

ライセンス: Link先を確認
Youhui Guo, Yu Zhou, Xugong Qin, Weiping Wang(参考訳) シーンテキスト検出は研究者の注意を引き付けている。 水平テキストや指向テキストに対して多くの手法が提案されているが、曲線テキストのような任意の形のテキストを扱う場合、従来の手法ではうまく機能しない。 特に、近くのテキストインスタンスの場合、混乱の問題が発生する。 本稿では,任意形状近傍のテキスト検出を簡易かつ効果的に行う手法を提案する。 第一に、OMTS(One-to-Many Training Scheme)は混乱を解消し、近隣のテキストインスタンスでより適切な基盤構造を学習できるように設計されている。 次に,各提案に対してより効果的な機能を利用するための提案機能注意モジュール(PFAM)を提案する。 最後に,Faster R-CNNに基づくベースラインを提案し,曲線表現を直接出力する。 PFAMとOMTSを装備した検出器は、いくつかの挑戦的なベンチマークで最先端または競争的な性能を達成することができる。

Scene text detection has drawn the close attention of researchers. Though many methods have been proposed for horizontal and oriented texts, previous methods may not perform well when dealing with arbitrary-shaped texts such as curved texts. In particular, confusion problem arises in the case of nearby text instances. In this paper, we propose a simple yet effective method for accurate arbitrary-shaped nearby scene text detection. Firstly, a One-to-Many Training Scheme (OMTS) is designed to eliminate confusion and enable the proposals to learn more appropriate groundtruths in the case of nearby text instances. Secondly, we propose a Proposal Feature Attention Module (PFAM) to exploit more effective features for each proposal, which can better adapt to arbitrary-shaped text instances. Finally, we propose a baseline that is based on Faster R-CNN and outputs the curve representation directly. Equipped with PFAM and OMTS, the detector can achieve state-of-the-art or competitive performance on several challenging benchmarks.
翻訳日:2021-09-09 13:47:03 公開日:2021-09-08
# 咬合者再同定のためのPose-Guided Inter-およびInter-part Relational Transformer

Pose-guided Inter- and Intra-part Relational Transformer for Occluded Person Re-Identification ( http://arxiv.org/abs/2109.03483v1 )

ライセンス: Link先を確認
Zhongxing Ma, Yifan Zhao, Jia Li(参考訳) 閉塞シナリオにおける人物再同定(Re-Id)は、歩行者を部分的に閉塞できるため、難しい問題である。 特徴抽出とマッチングにローカル情報を使用する必要がある。 そこで本稿では,隠蔽されたRe-Idに対するPose-guided Inter-part Relation Transformer(Pirt)を提案する。 本稿ではまず,ロバストな特徴表現のためのグループ化とマスク構成を備えたポーズ誘導型特徴抽出モジュールを開発する。 監視シナリオ下での画像における歩行者の位置は比較的固定されているため,部分内および部分間関係変換器を提案する。 部分内モジュールはマスク誘導された特徴と局所的な関係を作り、部分間関係は変換器との相関を構築し、部分ノード間の相互関係を開発する。 共同学習のパート間およびパート内関係により,提案するpirtモデルがパブリック・オクルード・データセットの新たな最先端を達成し,標準の非オクルード・パーソナライズ・リidデータセットのさらなる拡張により,同等のパフォーマンスが明らかにされる。

Person Re-Identification (Re-Id) in occlusion scenarios is a challenging problem because a pedestrian can be partially occluded. The use of local information for feature extraction and matching is still necessary. Therefore, we propose a Pose-guided inter-and intra-part relational transformer (Pirt) for occluded person Re-Id, which builds part-aware long-term correlations by introducing transformers. In our framework, we firstly develop a pose-guided feature extraction module with regional grouping and mask construction for robust feature representations. The positions of a pedestrian in the image under surveillance scenarios are relatively fixed, hence we propose an intra-part and inter-part relational transformer. The intra-part module creates local relations with mask-guided features, while the inter-part relationship builds correlations with transformers, to develop cross relationships between part nodes. With the collaborative learning inter- and intra-part relationships, experiments reveal that our proposed Pirt model achieves a new state of the art on the public occluded dataset, and further extensions on standard non-occluded person Re-Id datasets also reveal our comparable performances.
翻訳日:2021-09-09 13:46:47 公開日:2021-09-08
# ビデオオブジェクト認識のための時間RoIアライメント

Temporal RoI Align for Video Object Recognition ( http://arxiv.org/abs/2109.03495v1 )

ライセンス: Link先を確認
Tao Gong, Kai Chen, Xinjiang Wang, Qi Chu, Feng Zhu, Dahua Lin, Nenghai Yu, Huamin Feng(参考訳) ビデオのオブジェクト検出は、特定のビデオフレームの外観劣化の存在下では困難である。 したがって、同じビデオの他のフレームから時間情報を現在のフレームに集約することは自然な選択である。 しかし、ビデオ検出器の最も中核的な手順の1つであるRoI Alignは、提案のために単一フレームの機能マップから機能を抽出し続けているため、抽出されたRoI機能はビデオから時間情報を欠いている。 本研究では,ビデオのフレーム間で同一のオブジェクトインスタンスの特徴が極めてよく似ていることを考慮し,他のフレームの特徴マップから特徴を抽出し,特徴の類似性を利用して特徴を抽出する手法を提案する。 提案する時間的roiアライメント演算子はビデオ全体から時間的情報を抽出して提案することができる。 提案手法を単一フレーム映像検出器や他の最先端映像検出器に統合し,提案する時間的roiアライメント演算子の一貫性と性能向上を定量的に検証した。 さらに、提案された時間的roiアライメントは、ビデオインスタンスのセグメンテーションにも適用できる。

Video object detection is challenging in the presence of appearance deterioration in certain video frames. Therefore, it is a natural choice to aggregate temporal information from other frames of the same video into the current frame. However, RoI Align, as one of the most core procedures of video detectors, still remains extracting features from a single-frame feature map for proposals, making the extracted RoI features lack temporal information from videos. In this work, considering the features of the same object instance are highly similar among frames in a video, a novel Temporal RoI Align operator is proposed to extract features from other frames feature maps for current frame proposals by utilizing feature similarity. The proposed Temporal RoI Align operator can extract temporal information from the entire video for proposals. We integrate it into single-frame video detectors and other state-of-the-art video detectors, and conduct quantitative experiments to demonstrate that the proposed Temporal RoI Align operator can consistently and significantly boost the performance. Besides, the proposed Temporal RoI Align can also be applied into video instance segmentation.
翻訳日:2021-09-09 13:46:11 公開日:2021-09-08
# 野生のオクルード顔の認識について

On Recognizing Occluded Faces in the Wild ( http://arxiv.org/abs/2109.03672v1 )

ライセンス: Link先を確認
Mustafa Ekrem Erak{\i}n, U\u{g}ur Demir, Haz{\i}m Kemal Ekenel(参考訳) 咬合による顔の外観の変化は、顔認識システムの主要な課題の1つとなっている。 この領域のさらなる研究を容易にするためには、合成生成したオクルード顔は問題の性質を表現できないため、実世界から収集したオクルード顔データセットが必要である。 本稿では,サングラスによる上面閉塞とマスクによる下面閉塞の両顔を含む実世界オクルード・フェース(rof)データセットを提案する。 このデータセットに対する評価プロトコルを2つ提案する。 データセットのベンチマーク実験では、ディープフェイス表現モデルがどれほど強力であっても、実世界の隠蔽顔でテストされた場合、パフォーマンスは著しく低下することが示された。 モデルが合成閉塞面上で試験された場合, 性能低下ははるかに小さいことが観察された。 ROFデータセットと関連する評価プロトコルは、https://github.com/e kremerakin/RealWorld OccludedFaces.orgのリンクで公開されている。

Facial appearance variations due to occlusion has been one of the main challenges for face recognition systems. To facilitate further research in this area, it is necessary and important to have occluded face datasets collected from real-world, as synthetically generated occluded faces cannot represent the nature of the problem. In this paper, we present the Real World Occluded Faces (ROF) dataset, that contains faces with both upper face occlusion, due to sunglasses, and lower face occlusion, due to masks. We propose two evaluation protocols for this dataset. Benchmark experiments on the dataset have shown that no matter how powerful the deep face representation models are, their performance degrades significantly when they are tested on real-world occluded faces. It is observed that the performance drop is far less when the models are tested on synthetically generated occluded faces. The ROF dataset and the associated evaluation protocols are publicly available at the following link https://github.com/e kremerakin/RealWorld OccludedFaces.
翻訳日:2021-09-09 13:45:53 公開日:2021-09-08
# 非監督的衣服変更適応型ReID

Unsupervised clothing change adaptive person ReID ( http://arxiv.org/abs/2109.03702v1 )

ライセンス: Link先を確認
Ziyue Zhang, Shuai Jiang, Congzhentao Huang, Richard YiDa Xu(参考訳) 衣料品の変更とデータラベルの欠如は、ペルソナライドにおける重要な課題である。 以前の挑戦では、異なる服装の異なる場所で何回も発生することがある。 しかし、現在のReID研究のほとんどは、人の衣服を常に同じ状態に保つベンチマークに焦点を当てている。 最後の課題として、ラベル付きデータセットからラベルなしデータセットへのソースとして、モデルを学習させる研究者もいる。 純粋な教師なしの訓練は使用されない。 本稿では,両問題を同時に解決することを目的とする。 我々は,新しい非教師付きモデルsync-person-cloud reidを設計し,教師なしの衣服変更者reid問題を解決する。 本研究は,個人同期強化操作と同一人物特徴制限を備えた,純粋に教師なしの衣服変更者ReIDパイプラインを開発する。 同期強化は、追加の同一人物リソースを提供することである。 これらの同一人物のリソースは、同じ人物の特徴制限によって教師付き入力として使用できる。 着替えreidデータセットに関する広範囲な実験は,提案手法のアウトパフォーマンスを示している。

Clothing changes and lack of data labels are both crucial challenges in person ReID. For the former challenge, people may occur multiple times at different locations wearing different clothing. However, most of the current person ReID research works focus on the benchmarks in which a person's clothing is kept the same all the time. For the last challenge, some researchers try to make model learn information from a labeled dataset as a source to an unlabeled dataset. Whereas purely unsupervised training is less used. In this paper, we aim to solve both problems at the same time. We design a novel unsupervised model, Sync-Person-Cloud ReID, to solve the unsupervised clothing change person ReID problem. We developer a purely unsupervised clothing change person ReID pipeline with person sync augmentation operation and same person feature restriction. The person sync augmentation is to supply additional same person resources. These same person's resources can be used as part supervised input by same person feature restriction. The extensive experiments on clothing change ReID datasets show the out-performance of our methods.
翻訳日:2021-09-09 13:45:37 公開日:2021-09-08
# 手表面と手の把持型を利用した自己中心視ハンドアクション認識

Egocentric View Hand Action Recognition by Leveraging Hand Surface and Hand Grasp Type ( http://arxiv.org/abs/2109.03783v1 )

ライセンス: Link先を確認
Sangpil Kim, Jihyun Bae, Hyunggun Chi, Sunghee Hong, Byoung Soo Koh, Karthik Ramani(参考訳) そこで本研究では,手首面に平均曲率を用いた多段階フレームワークを導入し,手指把持型分析による手首中心映像における手指動作認識の学習に着目した。 提案手法では,手と対話しながら物体の動作を学習するのにアノテーションが難しい6次元物体ポーズを含む物体の3次元情報を必要としない。 代わりに、フレームワークはハンドメッシュモデルの平均曲率を合成し、3d空間でハンド表面形状を符号化する。 さらに,本手法は手の動きと高い相関関係を持つ手つかみタイプを学習する。 実験の結果,手の動き認識の性能は,手つかみタイプと手の平均曲率によって向上することがわかった。

We introduce a multi-stage framework that uses mean curvature on a hand surface and focuses on learning interaction between hand and object by analyzing hand grasp type for hand action recognition in egocentric videos. The proposed method does not require 3D information of objects including 6D object poses which are difficult to annotate for learning an object's behavior while it interacts with hands. Instead, the framework synthesizes the mean curvature of the hand mesh model to encode the hand surface geometry in 3D space. Additionally, our method learns the hand grasp type which is highly correlated with the hand action. From our experiment, we notice that using hand grasp type and mean curvature of hand increases the performance of the hand action recognition.
翻訳日:2021-09-09 13:45:25 公開日:2021-09-08
# Digitize-PID: 配管とインスツルメンテーション図の自動デジタイズ

Digitize-PID: Automatic Digitization of Piping and Instrumentation Diagrams ( http://arxiv.org/abs/2109.03794v1 )

ライセンス: Link先を確認
Shubham Paliwal, Arushi Jain, Monika Sharma and Lovekesh Vig(参考訳) 何十年もの間、石油やガスなどの製造業や機械産業で広く使われている走査配管・計測図(P&ID)のデジタル化は、動的在庫管理と最新のCADツールと互換性のあるスマートP&IDの作成において重要なボトルネックとなっている。 歴史的にP&IDシートは、PDFとしてスキャンされ保存される前に、設計段階で手動で生成される。 現在のデジタル化イニシアチブは、手作業による処理を伴い、従って非常に時間がかかり、労働集約的でエラーが発生し、画像処理、機械学習、ディープラーニング技術の進歩に感謝する。 しかしながら、既存のソリューションは、P&IDのスケール、サイズ、ノイズの変化、図面内での複雑さと混雑、図面の解釈に必要なドメイン知識など、いくつかの課題に直面している。 これは、パイプ、シンボル、テキスト情報などのP&IDからコアコンポーネントを検出するエンドツーエンドパイプラインで構成され、その後、相互に関連付けられ、最終的には、固有のドメイン知識に基づいた出力データの検証と修正を行います。 本論文では, 微細な深層認識技術に基づく新しい, 効率的なカーネルベースライン検出と複雑なシンボル検出のための2段階法について述べる。 さらに,500個のP&IDの注釈付き合成データセットであるDataset-P&IDを作成し,様々な種類のノイズと複雑なシンボルを公用として組み込んだ(現在パブリックなP&IDデータセットは存在しない)。 提案手法は,12枚のP&IDシートからなる実世界の匿名化されたプライベートデータセットである。 その結果,Digiize-PIDは既存のP&IDデジタル化技術よりも優れていた。

Digitization of scanned Piping and Instrumentation diagrams(P&ID), widely used in manufacturing or mechanical industries such as oil and gas over several decades, has become a critical bottleneck in dynamic inventory management and creation of smart P&IDs that are compatible with the latest CAD tools. Historically, P&ID sheets have been manually generated at the design stage, before being scanned and stored as PDFs. Current digitization initiatives involve manual processing and are consequently very time consuming, labour intensive and error-prone.Thanks to advances in image processing, machine and deep learning techniques there are emerging works on P&ID digitization. However, existing solutions face several challenges owing to the variation in the scale, size and noise in the P&IDs, sheer complexity and crowdedness within drawings, domain knowledge required to interpret the drawings. This motivates our current solution called Digitize-PID which comprises of an end-to-end pipeline for detection of core components from P&IDs like pipes, symbols and textual information, followed by their association with each other and eventually, the validation and correction of output data based on inherent domain knowledge. A novel and efficient kernel-based line detection and a two-step method for detection of complex symbols based on a fine-grained deep recognition technique is presented in the paper. In addition, we have created an annotated synthetic dataset, Dataset-P&ID, of 500 P&IDs by incorporating different types of noise and complex symbols which is made available for public use (currently there exists no public P&ID dataset). We evaluate our proposed method on this synthetic dataset and a real-world anonymized private dataset of 12 P&ID sheets. Results show that Digitize-PID outperforms the existing state-of-the-art for P&ID digitization.
翻訳日:2021-09-09 13:45:13 公開日:2021-09-08
# twitterにおけるバスク語話者コミュニティの社会的分析

Social Analysis of Young Basque Speaking Communities in Twitter ( http://arxiv.org/abs/2109.03487v1 )

ライセンス: Link先を確認
J. Fernandez de Landa and R. Agerri(参考訳) 本稿では,バスク語で大量のつぶやきを処理し,人口統計分析を行うための社会的・言語的側面を考察する。 社会科学と自動テキスト処理を組み合わせて,機械学習と現代ディープラーニング自然言語処理(NLP)技術を適用し,人口動態と社会関係の研究にアプローチする。 具体的には、人口統計と社会分析を組み合わせて、若いバスクのTwitterユーザーを検出し、彼らの関係や共有コンテンツから生じるコミュニティを特定することを目的としています。 この社会的および人口統計学的分析は、非構造化のテキスト情報を解釈可能な知識に変換するためにNLPを使って自動で収集されたツイートに基づいている。

In this paper we take into account both social and linguistic aspects to perform demographic analysis by processing a large amount of tweets in Basque language. The study of demographic characteristics and social relationships are approached by applying machine learning and modern deep-learning Natural Language Processing (NLP) techniques, combining social sciences with automatic text processing. More specifically, our main objective is to combine demographic inference and social analysis in order to detect young Basque Twitter users and to identify the communities that arise from their relationships or shared content. This social and demographic analysis will be entirely based on the~automatically collected tweets using NLP to convert unstructured textual information into interpretable knowledge.
翻訳日:2021-09-09 13:44:45 公開日:2021-09-08
# シカゴにおける配車需要予測のためのクラスタリング支援アンサンブル手法

A Clustering-aided Ensemble Method for Predicting Ridesourcing Demand in Chicago ( http://arxiv.org/abs/2109.03433v1 )

ライセンス: Link先を確認
Xiaojian Zhang and Xilei Zhao(参考訳) 配車需要を正確に予測することは交通計画や政策立案に重要である。 人工知能(AI)の台頭により、研究者は機械学習モデルを使用して旅行需要を予測するようになり、多くの場合、統計モデルよりも高い予測精度が得られる。 しかし、既存の機械学習研究の多くは、需要予測にグローバルモデルを使用し、空間的不均一性(説明変数の影響の空間的変動)の影響を無視した。 空間的不均一性は空間上でのパラメータ推定を駆動する可能性があり、空間的変動を考慮しないとモデルの予測性能が制限される。 本研究では,空間的不均一性を考慮したクラスタリング支援アンサンブル(cem)により,配車サービスのゾーン・ツー・ゾーン(census-tract-to-cen sus-tract)移動需要を予測する手法を提案する。 具体的には、起源と運命のペアを異なるクラスタに分割し、クラスタ固有の機械学習モデルをアンサンブルして予測を行うクラスタリングフレームワークを開発した。 シカゴのライドソーシングトリップデータを用いて提案手法の実装と試験を行った。 その結果、cemは、より透明で柔軟なモデル構造により、ベンチマークモデル(すなわち、すべての観察で直接訓練されたグローバル機械学習と統計モデル)よりも予測精度が大幅に向上することが示された。 本研究は,旅行需要予測の新しい手法,特に配車やマイクロモビリティといった新たな旅行モードについて,交通研究者や実践者に提供する。

Accurately forecasting ridesourcing demand is important for effective transportation planning and policy-making. With the rise of Artificial Intelligence (AI), researchers have started to utilize machine learning models to forecast travel demand, which, in many cases, can produce higher prediction accuracy than statistical models. However, most existing machine-learning studies used a global model to predict the demand and ignored the influence of spatial heterogeneity (i.e., the spatial variations in the impacts of explanatory variables). Spatial heterogeneity can drive the parameter estimations varying over space; failing to consider the spatial variations may limit the model's prediction performance. To account for spatial heterogeneity, this study proposes a Clustering-aided Ensemble Method (CEM) to forecast the zone-to-zone (census-tract-to-cen sus-tract) travel demand for ridesourcing services. Specifically, we develop a clustering framework to split the origin-destination pairs into different clusters and ensemble the cluster-specific machine learning models for prediction. We implement and test the proposed methodology by using the ridesourcing-trip data in Chicago. The results show that, with a more transparent and flexible model structure, the CEM significantly improves the prediction accuracy than the benchmark models (i.e., global machine-learning and statistical models directly trained on all observations). This study offers transportation researchers and practitioners a new methodology of travel demand forecasting, especially for new travel modes like ridesourcing and micromobility.
翻訳日:2021-09-09 13:44:13 公開日:2021-09-08
# ADER:アクター・クリティカル法における探索とロバストネスの適応

ADER:Adapting between Exploration and Robustness for Actor-Critic Methods ( http://arxiv.org/abs/2109.03443v1 )

ライセンス: Link先を確認
Bo Zhou, Kejiao Li, Hongsheng Zeng, Fan Wang, Hao Tian(参考訳) 外部強化学習法とニューラルネットワークのような関数近似器を組み合わせることで、値関数と準最適解の過大評価が導かれる。 TD3のような改善はこの問題に対処するために提案されている。 しかし、いくつかのプリミティブな環境では、そのパフォーマンスがバニラアクター批判的手法(DDPGなど)に遅れていることに驚く。 本稿では,いくつかのケースの故障が不十分な探索によるものと考えられることを示す。 本稿では,TD3の探索に不十分な原因を明らかにするとともに,探索とロバストネスの間に適応する新しいアルゴリズム,すなわちADERを提案する。 過大評価バイアスを排除しつつ探索能力を高めるため,推定不確実性から算出した値推定における動的ペナルティ項を導入し,異なる学習段階における不確実性の構成を考慮に入れた。 いくつかの困難な環境での実験は、連続制御タスクにおける提案手法の優位性を示している。

Combining off-policy reinforcement learning methods with function approximators such as neural networks has been found to lead to overestimation of the value function and sub-optimal solutions. Improvement such as TD3 has been proposed to address this issue. However, we surprisingly find that its performance lags behind the vanilla actor-critic methods (such as DDPG) in some primitive environments. In this paper, we show that the failure of some cases can be attributed to insufficient exploration. We reveal the culprit of insufficient exploration in TD3, and propose a novel algorithm toward this problem that ADapts between Exploration and Robustness, namely ADER. To enhance the exploration ability while eliminating the overestimation bias, we introduce a dynamic penalty term in value estimation calculated from estimated uncertainty, which takes into account different compositions of the uncertainty in different learning stages. Experiments in several challenging environments demonstrate the supremacy of the proposed method in continuous control tasks.
翻訳日:2021-09-09 13:43:39 公開日:2021-09-08
# 健康状態予測のための放射状ファンデータの前処理とモデリング

Preprocessing and Modeling of Radial Fan Data for Health State Prediction ( http://arxiv.org/abs/2109.03468v1 )

ライセンス: Link先を確認
Florian Holzinger, Michael Kommenda(参考訳) システムの重要なコンポーネントを監視することは、障害の安全性への重要なステップです。 付加可能なセンサーが利用可能であり、業界は製品品質を改善するための監視ソリューションの導入と拡張を進めている。 多くの場合、あるタスク(例えば、)にどれだけのデータを必要とするかに関する専門知識はない。 監視) 存在します 特にバイタル機械では、品質と量の両方において、過大なセンサーの傾向に気付くことがある。 これはしばしば過剰なデータを生成し、それにもかかわらず転送、処理、保存される。 前回のケーススタディでは、健康なラジアルファンに複数のセンサーが取り付けられ、その後人工的に損傷した。 収集されたデータは、健全な状態のモデリング(と監視)に使用された。 モデルは、故障したインペラを使用して生成されたデータセットで評価された。 本稿では、ダウンサンプリングとビンニングによるデータ削減に焦点を当てる。 線形回帰とランダム森林回帰によって異なるモデルが作成され、その結果の品質差が議論される。

Monitoring critical components of systems is a crucial step towards failure safety. Affordable sensors are available and the industry is in the process of introducing and extending monitoring solutions to improve product quality. Often, no expertise of how much data is required for a certain task (e.g. monitoring) exists. Especially in vital machinery, a trend to exaggerated sensors may be noticed, both in quality and in quantity. This often results in an excessive generation of data, which should be transferred, processed and stored nonetheless. In a previous case study, several sensors have been mounted on a healthy radial fan, which was later artificially damaged. The gathered data was used for modeling (and therefore monitoring) a healthy state. The models were evaluated on a dataset created by using a faulty impeller. This paper focuses on the reduction of this data through downsampling and binning. Different models are created with linear regression and random forest regression and the resulting difference in quality is discussed.
翻訳日:2021-09-09 13:43:23 公開日:2021-09-08
# 機械学習応用のための産業プロセスの理解とデータ作成

Understanding and Preparing Data of Industrial Processes for Machine Learning Applications ( http://arxiv.org/abs/2109.03469v1 )

ライセンス: Link先を確認
Philipp Fleck, Manfred K\"ugel, Michael Kommenda(参考訳) 機械学習の産業応用は、生産業データの性質から、ユニークな課題に直面している。 機械学習アプリケーションのための生の産業データの前処理と準備は、実際のモデリングプロセス自体よりも多くの時間と作業を必要とし、追加の課題を引き起こす。 本稿では, 非線形生産ラインの異なる生産ユニットにおけるセンサの非有効性に起因する, 不足値の課題について述べる。 データのごく一部しか欠落していない場合、欠落した値が暗示されることがある。 大量のデータ欠落の場合、インプットは実現不可能であり、欠落した値を含む観測の除去が唯一の選択肢であることが多い。 本稿では,データの一部しか利用できないような大量の観測を不要にすることなく,利用可能なデータをすべて活用できる手法を提案する。 提案手法の主な考え方を議論するだけでなく,手元のデータにもとづいて適用可能な異なる実装を提示する。 最後に, 鉄鋼製造プラントから得られたデータを用いて, 提案法の適用例を示す。

Industrial applications of machine learning face unique challenges due to the nature of raw industry data. Preprocessing and preparing raw industrial data for machine learning applications is a demanding task that often takes more time and work than the actual modeling process itself and poses additional challenges. This paper addresses one of those challenges, specifically, the challenge of missing values due to sensor unavailability at different production units of nonlinear production lines. In cases where only a small proportion of the data is missing, those missing values can often be imputed. In cases of large proportions of missing data, imputing is often not feasible, and removing observations containing missing values is often the only option. This paper presents a technique, that allows to utilize all of the available data without the need of removing large amounts of observations where data is only partially available. We do not only discuss the principal idea of the presented method, but also show different possible implementations that can be applied depending on the data at hand. Finally, we demonstrate the application of the presented method with data from a steel production plant.
翻訳日:2021-09-09 13:43:11 公開日:2021-09-08
# DeepAltTrip: トリプレコメンデーションのためのトップk代替イテレーション

DeepAltTrip: Top-k Alternative Itineraries for Trip Recommendation ( http://arxiv.org/abs/2109.03535v1 )

ライセンス: Link先を確認
Syed Md. Mukit Rashid, Mohammed Eunus Ali, Muhammad Aamir Cheema(参考訳) トリップ反復レコメンデーションは、都市の多数の候補POIから、POI(Points-of-Intere st)の順序付きシーケンスを見つける。 本稿では,任意のソースと宛先poisに対してトップkの代替イテナリを推奨する学習を行う,deepalttripと呼ばれるディープラーニングベースのフレームワークを提案する。 これらの代替の回廊は、過去の利用者が採用した歴史的なルートだけでなく、互いに異なる(あるいは多様な)ルートで人気がある。 deepalttripは2つの主要なコンポーネントで構成されている: (i) itinerary net (itrnet)は、グラフオートエンコーダと2つの(前方および後方の)lstmを使用して、itrnetで得られる関連するpoisを通り抜けるkの多様なitineraryを生成する経路生成手順である。 経路生成のステップでは,多様なユーザ定義制約をシームレスに処理できる新しいサンプリングアルゴリズムを提案する。 私たちの知る限りでは、これは、ユーザに対して代替のイテレーションセットを提供するために、歴史的な旅行から学ぶ最初の作品です。 8つのポピュラーな実世界のデータセットで行った広範囲な実験は、最先端の手法に対するアプローチの有効性と有効性を示している。

Trip itinerary recommendation finds an ordered sequence of Points-of-Interest (POIs) from a large number of candidate POIs in a city. In this paper, we propose a deep learning-based framework, called DeepAltTrip, that learns to recommend top-k alternative itineraries for given source and destination POIs. These alternative itineraries would be not only popular given the historical routes adopted by past users but also dissimilar (or diverse) to each other. The DeepAltTrip consists of two major components: (i) Itinerary Net (ITRNet) which estimates the likelihood of POIs on an itinerary by using graph autoencoders and two (forward and backward) LSTMs; and (ii) a route generation procedure to generate k diverse itineraries passing through relevant POIs obtained using ITRNet. For the route generation step, we propose a novel sampling algorithm that can seamlessly handle a wide variety of user-defined constraints. To the best of our knowledge, this is the first work that learns from historical trips to provide a set of alternative itineraries to the users. Extensive experiments conducted on eight popular real-world datasets show the effectiveness and efficacy of our approach over state-of-the-art methods.
翻訳日:2021-09-09 13:42:55 公開日:2021-09-08
# ワッサーシュタイン分布ロバスト最適化によるクラス条件領域一般化

Class-conditioned Domain Generalization via Wasserstein Distributional Robust Optimization ( http://arxiv.org/abs/2109.03676v1 )

ライセンス: Link先を確認
Jingge Wang, Yang Li, Liyan Xie, Yao Xie(参考訳) 複数のソースドメインが与えられた場合、ドメインの一般化は、目に見えないが関連するターゲットドメインでよく機能する普遍的なモデルを学ぶことを目的としている。 本稿では、異なるドメインのクラス条件分布間でドメインシフトが発生するドメイン一般化シナリオに焦点を当てる。 同じクラスが与えられた条件分布の変動が大きい場合、既存のアプローチは十分に堅牢ではない。 本研究では,分散ロバスト最適化の概念を拡張し,クラス条件領域一般化問題を解く。 本手法は,ソース条件分布の重心を中心にしたワッサースタイン球内のクラス条件分布に対する分類器の最悪の性能を最適化する。 また,ワッサースタイン球の最適半径を自動的に学習するための反復アルゴリズムを提案する。 実験により、提案フレームワークは、ドメインの一般化を伴わないアプローチよりも、未認識のターゲットドメインにおいて優れたパフォーマンスを示す。

Given multiple source domains, domain generalization aims at learning a universal model that performs well on any unseen but related target domain. In this work, we focus on the domain generalization scenario where domain shifts occur among class-conditional distributions of different domains. Existing approaches are not sufficiently robust when the variation of conditional distributions given the same class is large. In this work, we extend the concept of distributional robust optimization to solve the class-conditional domain generalization problem. Our approach optimizes the worst-case performance of a classifier over class-conditional distributions within a Wasserstein ball centered around the barycenter of the source conditional distributions. We also propose an iterative algorithm for learning the optimal radius of the Wasserstein balls automatically. Experiments show that the proposed framework has better performance on unseen target domain than approaches without domain generalization.
翻訳日:2021-09-09 13:42:21 公開日:2021-09-08
# 有限時間解析を用いたサンプル・通信効率の良い分散型アクター臨界アルゴリズム

Sample and Communication-Effici ent Decentralized Actor-Critic Algorithms with Finite-Time Analysis ( http://arxiv.org/abs/2109.03699v1 )

ライセンス: Link先を確認
Ziyi Chen, Yi Zhou, Rongrong Chen, Shaofeng Zou(参考訳) Actor-critic (AC)アルゴリズムは、最適なジョイントコントロールポリシーを学ぶために分散マルチエージェントシステムに広く採用されている。 しかし、既存の分散acアルゴリズムはエージェントのプライバシーを守らないか、サンプルと通信効率が良くない。 本研究では,2つの分散化ACと自然交流(NAC)アルゴリズムを開発した。 どちらのアルゴリズムでも、エージェントはプライバシーを守るためにノイズ情報を共有し、サンプルと通信効率を改善するためにミニバッチ更新を採用する。 特に分散NACでは,適応的なミニバッチサイズを持つ分散マルコフSGDアルゴリズムを開発し,自然政策勾配を効率的に計算する。 マルコフサンプリングと線形関数近似の下で,提案する分散 ac と nac のアルゴリズムは,それぞれ$\mathcal{o}\big(\epsilon^{-2}\ln(\epsilon^{-1})\big)$と $\mathcal{o}\big(\epsilon^{-3}\ln(\epsilon^{-1})\big)$ と,同じ小さな通信複雑性$\mathcal{o}\big(\epsilon^{-1}\ln(\epsilon^{-1})\big)$ を実現する。 数値実験により,提案アルゴリズムは既存の分散化ACアルゴリズムよりもサンプル・通信の複雑さが低いことを示す。

Actor-critic (AC) algorithms have been widely adopted in decentralized multi-agent systems to learn the optimal joint control policy. However, existing decentralized AC algorithms either do not preserve the privacy of agents or are not sample and communication-effici ent. In this work, we develop two decentralized AC and natural AC (NAC) algorithms that are private, and sample and communication-effici ent. In both algorithms, agents share noisy information to preserve privacy and adopt mini-batch updates to improve sample and communication efficiency. Particularly for decentralized NAC, we develop a decentralized Markovian SGD algorithm with an adaptive mini-batch size to efficiently compute the natural policy gradient. Under Markovian sampling and linear function approximation, we prove the proposed decentralized AC and NAC algorithms achieve the state-of-the-art sample complexities $\mathcal{O}\big(\epsilon^{-2}\ln(\epsilon^{-1})\big)$ and $\mathcal{O}\big(\epsilon^{-3}\ln(\epsilon^{-1})\big)$, respectively, and the same small communication complexity $\mathcal{O}\big(\epsilon^{-1}\ln(\epsilon^{-1})\big)$. Numerical experiments demonstrate that the proposed algorithms achieve lower sample and communication complexities than the existing decentralized AC algorithm.
翻訳日:2021-09-09 13:42:08 公開日:2021-09-08
# 変分オートエンコーダを用いたログデータへの保守的政策構築

Conservative Policy Construction Using Variational Autoencoders for Logged Data with Missing Values ( http://arxiv.org/abs/2109.03747v1 )

ライセンス: Link先を確認
Mahed Abroshan, Kai Hou Yip, Cem Tekin, Mihaela van der Schaar(参考訳) 医療のようなデータ駆動意思決定の高度な応用においては、不確実性がある場合に潜在的に危険な行動を避けながら報酬を最大化する政策を学ぶことが最重要となる。 通常、この問題には2つの大きな課題がある。 まず、このようなアプリケーションの批判的な性質から、オンライン探索による学習は不可能である。 したがって,反事実のない観測データセットを活用する必要がある。 第二に、このようなデータセットは通常不完全であり、さらに特徴の属性に欠けている値で呪われている。 本稿では,トレーニングデータとテストデータの両方に特徴属性に値が欠けている場合,ログデータを用いたパーソナライズポリシーの構築の問題を検討する。 目標は、値が欠けている$\Xt$の劣化したバージョンである$\Xt$が観察されたときのアクション(処理)を推奨することである。 不足に対処するための3つの戦略を検討する。 特に,不確かさによる不確実性を安全に扱えるようにポリシーを設計した「textit{conservative strategy」を導入する。 この戦略を実装するためには、後続分布 $p(\Xb|\Xt)$ を推定する必要がある。 特に,提案手法は,特徴の基盤構造を欠落値で捉えるために設計された部分変分オートエンコーダ(PVAE)に基づいている。

In high-stakes applications of data-driven decision making like healthcare, it is of paramount importance to learn a policy that maximizes the reward while avoiding potentially dangerous actions when there is uncertainty. There are two main challenges usually associated with this problem. Firstly, learning through online exploration is not possible due to the critical nature of such applications. Therefore, we need to resort to observational datasets with no counterfactuals. Secondly, such datasets are usually imperfect, additionally cursed with missing values in the attributes of features. In this paper, we consider the problem of constructing personalized policies using logged data when there are missing values in the attributes of features in both training and test data. The goal is to recommend an action (treatment) when $\Xt$, a degraded version of $\Xb$ with missing values, is observed. We consider three strategies for dealing with missingness. In particular, we introduce the \textit{conservative strategy} where the policy is designed to safely handle the uncertainty due to missingness. In order to implement this strategy we need to estimate posterior distribution $p(\Xb|\Xt)$, we use variational autoencoder to achieve this. In particular, our method is based on partial variational autoencoders (PVAE) which are designed to capture the underlying structure of features with missing values.
翻訳日:2021-09-09 13:41:31 公開日:2021-09-08
# ビデオ, オーディオ, テキストデータの自動ラベリングのための機械学習技術に関する調査

A Survey on Machine Learning Techniques for Auto Labeling of Video, Audio, and Text Data ( http://arxiv.org/abs/2109.03784v1 )

ライセンス: Link先を確認
Shikun Zhang, Omid Jafari, Parth Nagarkar(参考訳) 機械学習は、分類、オブジェクト検出、画像分割、自然言語分析など、さまざまな領域でタスクを実行するために利用されてきた。 データラベリングは、機械学習において常に最も重要なタスクの1つです。 しかし、大量のデータをラベル付けすることで、機械学習の金銭的コストが増大する。 その結果、研究者はデータアノテーションとラベリングコストの削減に注力し始めた。 転送学習は、限られたデータによる負の影響を合理的に低減できる効率的なアプローチとして設計され、広く利用されている。 ソースドメインから以前の知識を転送しても、ターゲットドメインに必要なデータ量が削減される。 しかし,強固なモデルを構築し,モデルの予測精度を向上させるために,大量の注釈付きデータが必要となる。 そのため、研究者たちはオートアノテーションやラベル付けに注意を払っていった。 本稿では,ビデオ,音声,テキストデータに最適化されたデータアノテーションとラベル付けに焦点を当てた従来手法のレビューを行う。

Machine learning has been utilized to perform tasks in many different domains such as classification, object detection, image segmentation and natural language analysis. Data labeling has always been one of the most important tasks in machine learning. However, labeling large amounts of data increases the monetary cost in machine learning. As a result, researchers started to focus on reducing data annotation and labeling costs. Transfer learning was designed and widely used as an efficient approach that can reasonably reduce the negative impact of limited data, which in turn, reduces the data preparation cost. Even transferring previous knowledge from a source domain reduces the amount of data needed in a target domain. However, large amounts of annotated data are still demanded to build robust models and improve the prediction accuracy of the model. Therefore, researchers started to pay more attention on auto annotation and labeling. In this survey paper, we provide a review of previous techniques that focuses on optimized data annotation and labeling for video, audio, and text data.
翻訳日:2021-09-09 13:41:08 公開日:2021-09-08
# Malware Squid: 畳み込みニューラルネットワークとバイナリ視覚化を使用したIoTマルウェアトラフィック分析フレームワーク

Malware Squid: A Novel IoT Malware Traffic Analysis Framework using Convolutional Neural Network and Binary Visualisation ( http://arxiv.org/abs/2109.03375v1 )

ライセンス: Link先を確認
Robert Shire, Stavros Shiaeles, Keltoum Bendiab, Bogdan Ghita, Nicholas Kolokotronis(参考訳) モノのインターネット(Internet of Things)デバイスは近年急速に成長し、多くの一般的なデバイスがネットワーク能力を獲得し、成長を続けるIoTネットワークの一部になっている。 この指数関数的な成長と資源の制限により、防衛機構が対処できるよりも早く進化するため、マルウェアのようなセキュリティの脅威から保護することがますます難しくなっている。 従来のセキュリティシステムでは、署名ベースの方法を使用して未知のマルウェアを検出できない。 本稿では,ニューラルネットワークとバイナリビジュアライゼーションを用いた新しいIoTマルウェアトラフィック分析手法を導入することにより,この問題に対処することを目的とする。 提案手法の主な動機は、新しいマルウェア(ゼロデイマルウェア)を素早く検出し分類することである。 実験の結果,本手法は実用的適用の精度を満足できることがわかった。

Internet of Things devices have seen a rapid growth and popularity in recent years with many more ordinary devices gaining network capability and becoming part of the ever growing IoT network. With this exponential growth and the limitation of resources, it is becoming increasingly harder to protect against security threats such as malware due to its evolving faster than the defence mechanisms can handle with. The traditional security systems are not able to detect unknown malware as they use signature-based methods. In this paper, we aim to address this issue by introducing a novel IoT malware traffic analysis approach using neural network and binary visualisation. The prime motivation of the proposed approach is to faster detect and classify new malware (zero-day malware). The experiment results show that our method can satisfy the accuracy requirement of practical application.
翻訳日:2021-09-09 13:40:18 公開日:2021-09-08
# Recommender システムの深層強化学習に関する調査研究:システムレビューと今後の方向性

A Survey of Deep Reinforcement Learning in Recommender Systems: A Systematic Review and Future Directions ( http://arxiv.org/abs/2109.03540v1 )

ライセンス: Link先を確認
Xiaocong Chen, Lina Yao, Julian McAuley, Guangling Zhou, Xianzhi Wang(参考訳) 近年のレコメンデーションシステム研究における深層強化学習(DRL)の出現と実りある成果を踏まえ,本調査は,最近のレコメンデーションシステムにおける深層強化学習の動向をタイムリーかつ包括的に概観することを目的としている。 推奨システムにDRLを適用する動機から始める。 次に,現在のdrlベースのレコメンデータシステムの分類と既存手法の概要について述べる。 新たなトピックやオープンな問題について議論し、ドメインの進化に対する視点を提供します。 この調査は、学界や産業界からの読者にとって入門資料となり、さらなる研究の機会として注目される。

In light of the emergence of deep reinforcement learning (DRL) in recommender systems research and several fruitful results in recent years, this survey aims to provide a timely and comprehensive overview of the recent trends of deep reinforcement learning in recommender systems. We start with the motivation of applying DRL in recommender systems. Then, we provide a taxonomy of current DRL-based recommender systems and a summary of existing methods. We discuss emerging topics and open issues, and provide our perspective on advancing the domain. This survey serves as introductory material for readers from academia and industry into the topic and identifies notable opportunities for further research.
翻訳日:2021-09-09 13:40:04 公開日:2021-09-08
# 量子ニューロン設計の混合による量子ニューラルアーキテクチャの探索

Exploration of Quantum Neural Architecture by Mixing Quantum Neuron Designs ( http://arxiv.org/abs/2109.03806v1 )

ライセンス: Link先を確認
Zhepeng Wang, Zhiding Liang, Shanglin Zhou, Caiwen Ding, Jinjun Xiong, Yiyu Shi, Weiwen Jiang(参考訳) 量子コンピュータにおける量子ビット数(量子ビット)の定常的な増加に伴い、量子コンピュータ上で広く普及するディープラーニングの実装と高速化が実現されつつある。 この傾向とともに、量子ニューロンの異なる設計に基づく量子ニューラルネットワークアーキテクチャが出現する。 量子深層学習における基本的な疑問: 最高の量子ニューラルアーキテクチャとは何か? この論文は、複数の種類のニューロンを用いる古典コンピューティングのためのニューラルアーキテクチャの設計に触発され、量子ニューラルアーキテクチャを構築するために量子ニューロンの設計を混合する最初の試みである。 既存の量子ニューロンの設計は、変動量子回路(vqc)のニューロンや量子フローなど、かなり異なるが相補的である可能性がある。 より具体的には、vqcは実数値重みを適用できるが、複数の層に拡張されるのに苦しむ一方で、quantumflowは効率的に多層ネットワークを構築することができるが、バイナリ重みの使用に制限される。 それぞれの利点を活かすため、我々はそれらを混ぜ合わせて、コストのかかる測定を伴わずにシームレスに接続する方法を模索する。 さらに、将来量子ニューラルアーキテクチャ探索のためのガイダンスを提供する量子ニューロンを混合する設計原理について検討する。 実験の結果、混合量子ニューロンを持つ量子ニューラルネットワークは、それぞれVQCとQuantumFlowで52.77%、69.92%の精度でMNISTデータセットで90.62%の精度を達成できることが示された。

With the constant increase of the number of quantum bits (qubits) in the actual quantum computers, implementing and accelerating the prevalent deep learning on quantum computers are becoming possible. Along with this trend, there emerge quantum neural architectures based on different designs of quantum neurons. A fundamental question in quantum deep learning arises: what is the best quantum neural architecture? Inspired by the design of neural architectures for classical computing which typically employs multiple types of neurons, this paper makes the very first attempt to mix quantum neuron designs to build quantum neural architectures. We observe that the existing quantum neuron designs may be quite different but complementary, such as neurons from variation quantum circuits (VQC) and Quantumflow. More specifically, VQC can apply real-valued weights but suffer from being extended to multiple layers, while QuantumFlow can build a multi-layer network efficiently, but is limited to use binary weights. To take their respective advantages, we propose to mix them together and figure out a way to connect them seamlessly without additional costly measurement. We further investigate the design principles to mix quantum neurons, which can provide guidance for quantum neural architecture exploration in the future. Experimental results demonstrate that the identified quantum neural architectures with mixed quantum neurons can achieve 90.62% of accuracy on the MNIST dataset, compared with 52.77% and 69.92% on the VQC and QuantumFlow, respectively.
翻訳日:2021-09-09 13:39:52 公開日:2021-09-08
# ssegep: 医療画像分割のための小セグメント強調性能評価指標

SSEGEP: Small SEGment Emphasized Performance evaluation metric for medical image segmentation ( http://arxiv.org/abs/2109.03435v1 )

ライセンス: Link先を確認
Ammu R, Neelam Sinha(参考訳) 画像の自動セグメンテーションは医用画像解析の重要な構成要素であり,セグメンテーション性能の定量化が重要である。 医用画像セグメンテーションの課題は、主に、セグメンテーション対象領域の空間的変化とクラス分布の不均衡によるものである。 一般的に使用されるメトリクスは、検出されたすべてのピクセルを無差別に扱う。 しかし、より小さなセグメントのピクセルは、より大きなセグメントのピクセルとは異なる扱いを受けなければならない。 そこで本研究では,より高重みを小さいセグメント画素に割り当てることにより,より小さなセグメントを強調したセグメンテーション性能の評価基準を提案する。 重み付き偽陽性はまた、SSEGEP (Small SEGment Emphasized Performance Evaluation metric) (range : 0(Bad) to 1(Good)) と呼ばれる新しい指標を導出する際にも考慮される。 実験は、利用可能なデータセットから、さまざまな解剖学的(眼、肝臓、膵、乳房)で実施され、さまざまなイメージング技術で提案された指標の適用性を示した。 平均世論スコア(mos)と統計的意義検定は、提案手法の妥当性を定量化するために用いられる。 最大の露光物が1.41%、最小値が0.0002%の33基の画像に対して、提案されたメートル法はDice similarity Coefficient (DSC)と比較すると、MOSに30%近い。 統計学的意義試験の結果,肝腫瘍に対してssegepを併用した10^{-18}のp値がdscと比較して有望であった。 提案手法は,単一のラベルに対して複数のセグメントを持つ画像に対して良好な性能を示す。

Automatic image segmentation is a critical component of medical image analysis, and hence quantifying segmentation performance is crucial. Challenges in medical image segmentation are mainly due to spatial variations of regions to be segmented and imbalance in distribution of classes. Commonly used metrics treat all detected pixels, indiscriminately. However, pixels in smaller segments must be treated differently from pixels in larger segments, as detection of smaller ones aid in early treatment of associated disease and are also easier to miss. To address this, we propose a novel evaluation metric for segmentation performance, emphasizing smaller segments, by assigning higher weightage to smaller segment pixels. Weighted false positives are also considered in deriving the new metric named, "SSEGEP"(Small SEGment Emphasized Performance evaluation metric), (range : 0(Bad) to 1(Good)). The experiments were performed on diverse anatomies(eye, liver, pancreas and breast) from publicly available datasets to show applicability of the proposed metric across different imaging techniques. Mean opinion score (MOS) and statistical significance testing is used to quantify the relevance of proposed approach. Across 33 fundus images, where the largest exudate is 1.41%, and the smallest is 0.0002% of the image, the proposed metric is 30% closer to MOS, as compared to Dice Similarity Coefficient (DSC). Statistical significance testing resulted in promising p-value of order 10^{-18} with SSEGEP for hepatic tumor compared to DSC. The proposed metric is found to perform better for the images having multiple segments for a single label.
翻訳日:2021-09-09 13:38:24 公開日:2021-09-08
# 適応型ダウンサンプリングモデルによる実世界の超解法に向けて

Toward Real-World Super-Resolution via Adaptive Downsampling Models ( http://arxiv.org/abs/2109.03444v1 )

ライセンス: Link先を確認
Sanghyun Son and Jaeha Kim and Wei-Sheng Lai and Ming-Husan Yang and Kyoung Mu Lee(参考訳) イメージスーパーレゾリューション (sr) 法は, 合成低解像度 (lr) および高分解能 (hr) 画像対に基づいて開発された。 既存の手法は通常、特定の関数の逆写像を学習するため、正確な定式化が異なる実世界の画像に適用すると曖昧な結果が得られる。 したがって、いくつかの手法はより多様なLRサンプルを合成したり、現実的なダウンサンプリングモデルを学習しようとする。 しかし、ダウンサンプリングプロセスの制限的な仮定のため、それらはまだバイアスがあり、一般化できない。 本研究では,制約のある事前知識を伴わずに未知のサンプル処理をシミュレートする手法を提案する。 対の例を使わずに対象LR画像の分布を模倣する汎用化可能な低周波損失(LFL)を提案する。 さらに,トレーニングループ中にデータから適応的に学習し更新可能なダウンサンプラーのための適応的データ損失(adl)を設計する。 広範な実験により,既存のsr法が従来の手法よりも,様々な合成および実世界の例に対して,より正確な再構成を行うことができることを確認した。

Most image super-resolution (SR) methods are developed on synthetic low-resolution (LR) and high-resolution (HR) image pairs that are constructed by a predetermined operation, e.g., bicubic downsampling. As existing methods typically learn an inverse mapping of the specific function, they produce blurry results when applied to real-world images whose exact formulation is different and unknown. Therefore, several methods attempt to synthesize much more diverse LR samples or learn a realistic downsampling model. However, due to restrictive assumptions on the downsampling process, they are still biased and less generalizable. This study proposes a novel method to simulate an unknown downsampling process without imposing restrictive prior knowledge. We propose a generalizable low-frequency loss (LFL) in the adversarial training framework to imitate the distribution of target LR images without using any paired examples. Furthermore, we design an adaptive data loss (ADL) for the downsampler, which can be adaptively learned and updated from the data during the training loops. Extensive experiments validate that our downsampling model can facilitate existing SR methods to perform more accurate reconstructions on various synthetic and real-world examples than the conventional approaches.
翻訳日:2021-09-09 13:37:54 公開日:2021-09-08
# 閉塞を有するレベルセット両眼ステレオ

Level Set Binocular Stereo with Occlusions ( http://arxiv.org/abs/2109.03464v1 )

ライセンス: Link先を確認
Jialiang Wang, Todd Zickler(参考訳) ステレオ境界の局所化と近傍の格差の予測は、ステレオ境界が一致する手がかりが存在しない閉塞領域を誘導するため困難である。 現代のコンピュータビジョンアルゴリズムの多くは、オクルージョンを二次的に扱う(例えば、マッチング後の左-右一貫性チェック)か、近くの格差(例えば、ディープネットワークや大きなトレーニングセット)を改善するために高レベルな手がかりに依存する。 彼らは立体オクルージョンの幾何学を無視し、オクルージョンの空間的範囲は、それを引き起こす格差ジャンプの振幅と同等でなければならないと規定する。 本稿では,オクルージョン幾何学を符号化することで境界を改善するエネルギー・レベルセットオプティマイザを提案する。 本モデルでは,2階層の図形シーンに適用し,マルチスケール画像パッチの非効率な階層において,親子間を主に通過するメッセージを用いて協調的に実装することができる。 ミドルベリー・アンド・フォールディング・モノのステレオデータセットからキュレートされた図形のシーンの小さなコレクションにおいて、我々のモデルは従来の閉塞処理ステレオ技術よりも正確な境界を提供する。 これは、人間のように咬合の手がかりを組み込んだ協調ステレオシステムを作成するための新しい方向を示唆する。

Localizing stereo boundaries and predicting nearby disparities are difficult because stereo boundaries induce occluded regions where matching cues are absent. Most modern computer vision algorithms treat occlusions secondarily (e.g., via left-right consistency checks after matching) or rely on high-level cues to improve nearby disparities (e.g., via deep networks and large training sets). They ignore the geometry of stereo occlusions, which dictates that the spatial extent of occlusion must equal the amplitude of the disparity jump that causes it. This paper introduces an energy and level-set optimizer that improves boundaries by encoding occlusion geometry. Our model applies to two-layer, figure-ground scenes, and it can be implemented cooperatively using messages that pass predominantly between parents and children in an undecimated hierarchy of multi-scale image patches. In a small collection of figure-ground scenes curated from Middlebury and Falling Things stereo datasets, our model provides more accurate boundaries than previous occlusion-handling stereo techniques. This suggests new directions for creating cooperative stereo systems that incorporate occlusion cues in a human-like manner.
翻訳日:2021-09-09 13:37:33 公開日:2021-09-08
# ドメイン適応によるCT画像からのCOVID-19のクロスサイト重症度評価

Cross-Site Severity Assessment of COVID-19 from CT Images via Domain Adaptation ( http://arxiv.org/abs/2109.03478v1 )

ライセンス: Link先を確認
Geng-Xin Xu, Chen Liu, Jun Liu, Zhongxiang Ding, Feng Shi, Man Guo, Wei Zhao, Xiaoming Li, Ying Wei, Yaozong Gao, Chuan-Xian Ren, Dinggang Shen(参考訳) CT画像を用いたコロナウイルス病2019(COVID-19)の早期かつ正確な重症度評価は、集中治療単位イベントの推定と治療計画の決定に大いに役立つ。 ラベル付きデータを強化し、分類モデルの一般化能力を向上させるためには、複数のサイトからデータを集約する必要がある。 この課題には、軽度の感染症と重度の感染症の階級的不均衡、部位間のドメイン分布の相違、不均一な特徴の存在などが含まれる。 本稿では,これらの問題に対処する2つの要素を持つ新しいドメイン適応(DA)手法を提案する。 第1のコンポーネントは確率的クラスバランス強化サンプリング戦略であり、不均衡な学習問題を克服し、予測不良なクラスにおける分類性能を改善する。 第2の要素は、3つの特性を保証する表現学習である: 1)プロトタイプ三重項損失によるドメイン転送可能性、2)条件付き最大平均不一致による判別、3)マルチビュー再構成損失による完全性。 特に、ドメイントランスレータを提案し、その不均一なデータを超球面多様体における推定クラスプロトタイプ(すなわち、クラス中心)に整列させる。 CT画像を用いたクロスサイト重症度評価実験の結果,提案手法は不均衡な学習問題に効果的に対処でき,近年のDAアプローチよりも優れていた。

Early and accurate severity assessment of Coronavirus disease 2019 (COVID-19) based on computed tomography (CT) images offers a great help to the estimation of intensive care unit event and the clinical decision of treatment planning. To augment the labeled data and improve the generalization ability of the classification model, it is necessary to aggregate data from multiple sites. This task faces several challenges including class imbalance between mild and severe infections, domain distribution discrepancy between sites, and presence of heterogeneous features. In this paper, we propose a novel domain adaptation (DA) method with two components to address these problems. The first component is a stochastic class-balanced boosting sampling strategy that overcomes the imbalanced learning problem and improves the classification performance on poorly-predicted classes. The second component is a representation learning that guarantees three properties: 1) domain-transferabili ty by prototype triplet loss, 2) discriminant by conditional maximum mean discrepancy loss, and 3) completeness by multi-view reconstruction loss. Particularly, we propose a domain translator and align the heterogeneous data to the estimated class prototypes (i.e., class centers) in a hyper-sphere manifold. Experiments on cross-site severity assessment of COVID-19 from CT images show that the proposed method can effectively tackle the imbalanced learning problem and outperform recent DA approaches.
翻訳日:2021-09-09 13:37:13 公開日:2021-09-08
# ディープニューラルネットワークのための弾性有意ビット量子化と高速化

Elastic Significant Bit Quantization and Acceleration for Deep Neural Networks ( http://arxiv.org/abs/2109.03513v1 )

ライセンス: Link先を確認
Cheng Gong, Ye Lu, Kunpeng Xie, Zongming Jin, Tao Li, Yanzhi Wang(参考訳) 量子化はディープニューラルネットワーク(DNN)の推論効率を改善する重要な方法であることが証明されている。 しかし、DNN重みやアクティベーション値を高精度フォーマットから量子化されたフォーマットに定量化しながら、精度と効率のバランスをとることは依然として困難である。 本稿では,より少ないリソースでより優れた推測精度を得るために,量子化値の有意ビット数を制御する「弾性有意ビット量子化」(ESB)と呼ばれる新しい手法を提案する。 我々は、ESBの量子化値をフレキシブルなビット数で制約する統一された数学的公式を設計する。 また、フル精度ウェイトまたはアクティベーション値と量子化値との間の分布を定量的に整合させる分散差分整合器(DDA)を導入する。 したがって、ESBは重みの様々なベル形状の分布やDNNの活性化に適しており、高い推論精度を維持することができる。 量子化値のかなりのビットが少ないため、ESBは乗算の複雑さを減らすことができます。 我々は、ESBをアクセラレータとして実装し、FPGA上でその効率を定量的に評価する。 大規模な実験結果によると、ESB量子化は最先端の手法を一貫して上回り、平均精度はAlexNet、ResNet18、MobileNetV2よりも4.78%、1.92%、3.56%向上している。 さらに、アクセルとしてのESBは、Xilinx ZCU102 FPGAプラットフォーム上のDSPなしで、1k LUTの10.95 GOPSピーク性能を達成することができる。 FPGA上のCPU、GPU、最先端アクセラレータと比較して、ESBアクセラレータは、それぞれ65倍、11倍、26倍のエネルギー効率を向上させることができる。

Quantization has been proven to be a vital method for improving the inference efficiency of deep neural networks (DNNs). However, it is still challenging to strike a good balance between accuracy and efficiency while quantizing DNN weights or activation values from high-precision formats to their quantized counterparts. We propose a new method called elastic significant bit quantization (ESB) that controls the number of significant bits of quantized values to obtain better inference accuracy with fewer resources. We design a unified mathematical formula to constrain the quantized values of the ESB with a flexible number of significant bits. We also introduce a distribution difference aligner (DDA) to quantitatively align the distributions between the full-precision weight or activation values and quantized values. Consequently, ESB is suitable for various bell-shaped distributions of weights and activation of DNNs, thus maintaining a high inference accuracy. Benefitting from fewer significant bits of quantized values, ESB can reduce the multiplication complexity. We implement ESB as an accelerator and quantitatively evaluate its efficiency on FPGAs. Extensive experimental results illustrate that ESB quantization consistently outperforms state-of-the-art methods and achieves average accuracy improvements of 4.78%, 1.92%, and 3.56% over AlexNet, ResNet18, and MobileNetV2, respectively. Furthermore, ESB as an accelerator can achieve 10.95 GOPS peak performance of 1k LUTs without DSPs on the Xilinx ZCU102 FPGA platform. Compared with CPU, GPU, and state-of-the-art accelerators on FPGAs, the ESB accelerator can improve the energy efficiency by up to 65x, 11x, and 26x, respectively.
翻訳日:2021-09-09 13:36:50 公開日:2021-09-08
# FIDNet: 完全補間デコードによるLiDARポイントクラウドセマンティックセグメンテーション

FIDNet: LiDAR Point Cloud Semantic Segmentation with Fully Interpolation Decoding ( http://arxiv.org/abs/2109.03787v1 )

ライセンス: Link先を確認
Yiming Zhao, Lin Bai, and Xinming Huang(参考訳) 2次元球面距離画像上の点雲を投影すると、ライダー意味セグメンテーションを距離画像上の2次元セグメンテーションタスクに変換する。 しかし、lidar範囲画像は、通常の2d rgb画像とは自然に異なり、例えば、距離画像上の各位置は、一意な幾何学情報を符号化する。 本稿では,新しいネットワーク構造と効率的な後処理ステップからなる,新しい投影型lidarセマンティクスセグメンテーションパイプラインを提案する。 ネットワーク構造において,双線型補間を用いて,マルチレゾリューション特徴マップを直接アップサンプリングするfid(fully interpolation decoding)モジュールを設計した。 PointNet++で使われる3D距離補間にインスパイアされたこのFIDモジュールは、$(\theta, \phi)$スペース上の2Dバージョン距離補間である。 パラメータフリーデコードモジュールとして、FIDは優れた性能を維持することでモデルの複雑さを大幅に減らす。 ネットワーク構造に加えて、モデル予測が異なる意味クラスの間に明確な境界を持つことを実証的に見出します。 これにより、パイプラインに広く使われているk-nearest-neighbor後処理が必要であるかどうかを再考できます。 そして,多対一マッピングによって,複数の点が同じ画素にマッピングされ,同じラベルを共有するようなぼやけ効果が生じることを認識した。 そこで本研究では,最寄りのラベルをアサインすることで,隠蔽点の処理を提案する。 この NLA (nearest label assignment) 後処理ステップは、アブレーション研究において高速な推論速度を持つKNNよりも優れた性能を示す。 SemanticKITTIデータセットでは,604 \times 2048$の解像度を持つプロジェクションベースのメソッドと,すべてのポイントワイズソリューションで最高のパフォーマンスを実現しています。 ResNet-34をバックボーンとして、我々のモデルのトレーニングとテストは、11Gメモリを備えた単一のRTX 2080 Tiで完了する。 コードはリリースされている。

Projecting the point cloud on the 2D spherical range image transforms the LiDAR semantic segmentation to a 2D segmentation task on the range image. However, the LiDAR range image is still naturally different from the regular 2D RGB image; for example, each position on the range image encodes the unique geometry information. In this paper, we propose a new projection-based LiDAR semantic segmentation pipeline that consists of a novel network structure and an efficient post-processing step. In our network structure, we design a FID (fully interpolation decoding) module that directly upsamples the multi-resolution feature maps using bilinear interpolation. Inspired by the 3D distance interpolation used in PointNet++, we argue this FID module is a 2D version distance interpolation on $(\theta, \phi)$ space. As a parameter-free decoding module, the FID largely reduces the model complexity by maintaining good performance. Besides the network structure, we empirically find that our model predictions have clear boundaries between different semantic classes. This makes us rethink whether the widely used K-nearest-neighbor post-processing is still necessary for our pipeline. Then, we realize the many-to-one mapping causes the blurring effect that some points are mapped into the same pixel and share the same label. Therefore, we propose to process those occluded points by assigning the nearest predicted label to them. This NLA (nearest label assignment) post-processing step shows a better performance than KNN with faster inference speed in the ablation study. On the SemanticKITTI dataset, our pipeline achieves the best performance among all projection-based methods with $64 \times 2048$ resolution and all point-wise solutions. With a ResNet-34 as the backbone, both the training and testing of our model can be finished on a single RTX 2080 Ti with 11G memory. The code is released.
翻訳日:2021-09-09 13:36:22 公開日:2021-09-08
# 適応型深部学習型PoC超音波COVID-19診断システム

Adaptive Few-Shot Learning PoC Ultrasound COVID-19 Diagnostic System ( http://arxiv.org/abs/2109.03793v1 )

ライセンス: Link先を確認
Michael Karnes, Shehan Perera, Srikar Adhikari, Alper Yilmaz(参考訳) 本稿では,新しい超音波画像診断システム(poc)について述べる。 適応型視覚診断は、数ショット学習(FSL)を使用して、既知の辞書を用いて格納され分類される符号化された疾患状態モデルを生成する。 パイプラインの新たな語彙に基づく特徴処理は、事前訓練されたディープニューラルネットワークの知識に適応し、超音波画像を識別的記述に圧縮する。 FSL手法の計算効率は、トレーニングデータが制限され、アノテーションプロセスが厳密に制御されていないPoC設定において高い診断深層学習性能を実現する。 アルゴリズムのパフォーマンスは、オープンソースのCOVID-19 POCUS Datasetで評価され、新型コロナウイルス、肺炎、健康な疾患の状態を識別するシステムの能力を検証する。 実験結果から,pocのスケーラブルな使用に適した効率と精度が得られた。 この作業のコードは、受け入れ次第、githubで公開される予定だ。

This paper presents a novel ultrasound imaging point-of-care (PoC) COVID-19 diagnostic system. The adaptive visual diagnostics utilize few-shot learning (FSL) to generate encoded disease state models that are stored and classified using a dictionary of knowns. The novel vocabulary based feature processing of the pipeline adapts the knowledge of a pretrained deep neural network to compress the ultrasound images into discrimative descriptions. The computational efficiency of the FSL approach enables high diagnostic deep learning performance in PoC settings, where training data is limited and the annotation process is not strictly controlled. The algorithm performance is evaluated on the open source COVID-19 POCUS Dataset to validate the system's ability to distinguish COVID-19, pneumonia, and healthy disease states. The results of the empirical analyses demonstrate the appropriate efficiency and accuracy for scalable PoC use. The code for this work will be made publicly available on GitHub upon acceptance.
翻訳日:2021-09-09 13:35:48 公開日:2021-09-08
# BotSpot:Twitter内のボットアカウントのディープラーニング分類

BotSpot: Deep Learning Classification of Bot Accounts within Twitter ( http://arxiv.org/abs/2109.03710v1 )

ライセンス: Link先を確認
Christopher Braker, Stavros Shiaeles, Gueltoum Bendiab, Nick Savage, Konstantinos Limniotis(参考訳) Twitterのオープン化機能により、プログラムはTwitter APIを通じてTwitterアカウントを自動生成および制御できる。 ボットと呼ばれるこれらのアカウントは、ツイート、リツイート、フォロー、アンフォロー、その他のアカウントへのダイレクトメッセージなどのアクションを自動的に行うことができる。 また、フェイクニュース、スパム、悪意のあるソフトウェア、その他のサイバー犯罪の拡散などの悪意あるタスクを実行できる。 本稿では,多層パーセプトロンニューラルネットワークとボットアカウントの9つの特徴を用いた,ディープラーニングを用いた新しいボット検出手法を提案する。 webクローラは、公開twitterアカウントからデータを自動的に収集し、人間とボットのアカウントの860のサンプルを含むテストとトレーニングデータセットを構築するために開発されている。 最初のトレーニングが完了した後、多層型パーセプトロンニューラルネットワークは全体の精度92%を達成し、提案手法の性能を証明した。

The openness feature of Twitter allows programs to generate and control Twitter accounts automatically via the Twitter API. These accounts, which are known as bots, can automatically perform actions such as tweeting, re-tweeting, following, unfollowing, or direct messaging other accounts, just like real people. They can also conduct malicious tasks such as spreading of fake news, spams, malicious software and other cyber-crimes. In this paper, we introduce a novel bot detection approach using deep learning, with the Multi-layer Perceptron Neural Networks and nine features of a bot account. A web crawler is developed to automatically collect data from public Twitter accounts and build the testing and training datasets, with 860 samples of human and bot accounts. After the initial training is done, the Multilayer Perceptron Neural Networks achieved an overall accuracy rate of 92%, which proves the performance of the proposed approach.
翻訳日:2021-09-09 13:35:22 公開日:2021-09-08
# トップNレコメンダシステムにおけるランク付け蒸留の二重補正戦略

Dual Correction Strategy for Ranking Distillation in Top-N Recommender System ( http://arxiv.org/abs/2109.03459v1 )

ライセンス: Link先を確認
Youngjune Lee and Kee-Eung Kim(参考訳) 十分に訓練された大規模モデル(教師)の知識を小モデル(学生)に移す知識蒸留(kd)は、レコメンダシステムの実践的展開のための重要な研究分野となっている。 近年,リコメンデーションリストのランキング情報を蒸留することで,性能が著しく向上することが示された。 しかし,(1)生徒モデルの予測誤差を十分に活用せず,十分な効率性が得られず,(2)ユーザ側のランキング情報のみを抽出し,疎明な暗黙的フィードバック下でのビューを不十分にする,という制限がある。 本稿では,教師モデルから生徒モデルへのランキング情報をより効率的に伝達するDCD(Dual Correction Strategy for Distillation)を提案する。 最も重要なことは、DCDは教師モデルと生徒モデル予測の相違を利用して、どの知識を蒸留するかを決定することである。 そうすることによって、DCDは、学生モデルが正確に予測できなかったことを「修正」するために調整された学習指導を提供する。 このプロセスは、ユーザ側およびアイテム側からランキング情報を転送して、まばらな暗黙的なユーザフィードバックに対処するために適用される。 実験の結果,提案手法は最先端のベースラインよりも優れており,アブレーション実験により各コンポーネントの有効性が検証された。

Knowledge Distillation (KD), which transfers the knowledge of a well-trained large model (teacher) to a small model (student), has become an important area of research for practical deployment of recommender systems. Recently, Relaxed Ranking Distillation (RRD) has shown that distilling the ranking information in the recommendation list significantly improves the performance. However, the method still has limitations in that 1) it does not fully utilize the prediction errors of the student model, which makes the training not fully efficient, and 2) it only distills the user-side ranking information, which provides an insufficient view under the sparse implicit feedback. This paper presents Dual Correction strategy for Distillation (DCD), which transfers the ranking information from the teacher model to the student model in a more efficient manner. Most importantly, DCD uses the discrepancy between the teacher model and the student model predictions to decide which knowledge to be distilled. By doing so, DCD essentially provides the learning guidance tailored to "correcting" what the student model has failed to accurately predict. This process is applied for transferring the ranking information from the user-side as well as the item-side to address sparse implicit user feedback. Our experiments show that the proposed method outperforms the state-of-the-art baselines, and ablation studies validate the effectiveness of each component.
翻訳日:2021-09-09 13:34:02 公開日:2021-09-08
# Wrist搭載慣性センサを用いた喫煙行動自動・客観的モニタリングに向けたボトムアップ手法

A Bottom-up method Towards the Automatic and Objective Monitoring of Smoking Behavior In-the-wild using Wrist-mounted Inertial Sensors ( http://arxiv.org/abs/2109.03475v1 )

ライセンス: Link先を確認
Athanasios Kirmizis, Konstantinos Kyritsis and Anastasios Delopoulos(参考訳) タバコの消費は世界的な流行率に達しており、死因や病気の主な原因となっている。 タバコを消費する様々な方法(煙草、葉巻など)の中で、タバコは最も広く使われている。 本稿では,2段階のボトムアップアルゴリズムを用いて,市販スマートウォッチの3次元加速度および方向速度測定を用いて,喫煙行動の自動的および客観的モニタリングを行う。 最初のステップでは、畳み込み層と繰り返し層の両方を持つ人工ニューラルネットワークを用いて、個々の喫煙ジェスチャー(すなわちパフ)を検出する。 第2段階では,検出されたパフ密度を利用して,日中発生する喫煙セッションの時間的局所化を実現する。 実験では, 提案アルゴリズムの各ステップについて, 半制御条件と自由生活条件でそれぞれ記録した実効性喫煙事象検出(SED)と自由生活喫煙事象検出(SED-FL)を用いて, 拡張評価を行った。 特に、LOSO(Leave-one-subje ct-out)実験では、パフの検出のためのF1スコアが0.863であり、日中の喫煙セッションの時間的局所化に向けてF1スコア/ジャカード指数が0.878/0.604に等しいことが示されている。 最後に、さらに洞察を得るために、我々のアルゴリズムのパフ検出部分と最近の文献で見られる同様のアプローチを比較する。

The consumption of tobacco has reached global epidemic proportions and is characterized as the leading cause of death and illness. Among the different ways of consuming tobacco (e.g., smokeless, cigars), smoking cigarettes is the most widespread. In this paper, we present a two-step, bottom-up algorithm towards the automatic and objective monitoring of cigarette-based, smoking behavior during the day, using the 3D acceleration and orientation velocity measurements from a commercial smartwatch. In the first step, our algorithm performs the detection of individual smoking gestures (i.e., puffs) using an artificial neural network with both convolutional and recurrent layers. In the second step, we make use of the detected puff density to achieve the temporal localization of smoking sessions that occur throughout the day. In the experimental section we provide extended evaluation regarding each step of the proposed algorithm, using our publicly available, realistic Smoking Event Detection (SED) and Free-living Smoking Event Detection (SED-FL) datasets recorded under semi-controlled and free-living conditions, respectively. In particular, leave-one-subject-ou t (LOSO) experiments reveal an F1-score of 0.863 for the detection of puffs and an F1-score/Jaccard index equal to 0.878/0.604 towards the temporal localization of smoking sessions during the day. Finally, to gain further insight, we also compare the puff detection part of our algorithm with a similar approach found in the recent literature.
翻訳日:2021-09-09 13:33:40 公開日:2021-09-08
# repnas: 効率的な再パラメータブロックの探索

RepNAS: Searching for Efficient Re-parameterizing Blocks ( http://arxiv.org/abs/2109.03508v1 )

ライセンス: Link先を確認
Mingyang Zhang, Xinyi Yu, Jingtao Rong, Linlin Ou, Feng Gao(参考訳) 近年,ニューラル・アーキテクチャ・サーチ(NAS)の分野での大幅な改良がなされている。 しかし,探索制約と実推定時間との差のため,効率的なネットワークを探すことは依然として困難である。 推論時間の低い高性能ネットワークを探索するために、いくつかの先行研究が探索アルゴリズムの計算複雑性制約を設定した。 しかし、多くの要因が推論の速度に影響を与える(例えば、FLOP、MAC)。 単一の指標とレイテンシの相関は強くない。 現在,マルチブランチを推論に適した単一パスアーキテクチャに変換するために,再パラメータ化(Rep)手法が提案されている。 しかし、マルチブランチアーキテクチャはまだ人間定義であり、非効率である。 本研究では,構造的再パラメータ化手法に適した新しい探索空間を提案する。 1段階NAS手法であるRepNASは、分岐数制約の下で各層に対して最適な多様な分岐ブロック(ODBB)を効率的に探索する。 実験の結果,探索されたODBBは,手動分岐ブロック(DBB)を効率よく越えることが可能であった。 コードとモデルはより早く利用可能になる。

In the past years, significant improvements in the field of neural architecture search(NAS) have been made. However, it is still challenging to search for efficient networks due to the gap between the searched constraint and real inference time exists. To search for a high-performance network with low inference time, several previous works set a computational complexity constraint for the search algorithm. However, many factors affect the speed of inference(e.g., FLOPs, MACs). The correlation between a single indicator and the latency is not strong. Currently, some re-parameterization( Rep) techniques are proposed to convert multi-branch to single-path architecture which is inference-friendly. Nevertheless, multi-branch architectures are still human-defined and inefficient. In this work, we propose a new search space that is suitable for structural re-parameterization techniques. RepNAS, a one-stage NAS approach, is present to efficiently search the optimal diverse branch block(ODBB) for each layer under the branch number constraint. Our experimental results show the searched ODBB can easily surpass the manual diverse branch block(DBB) with efficient training. Code and models will be available sooner.
翻訳日:2021-09-09 13:33:10 公開日:2021-09-08
# AgreementLearning: 基盤のない複数アノテーションによるエンドツーエンド学習フレームワーク

AgreementLearning: An End-to-End Framework for Learning with Multiple Annotators without Groundtruth ( http://arxiv.org/abs/2109.03596v1 )

ライセンス: Link先を確認
Chongyang Wang, Yuan Gao, Chenyou Fan, Junjie Hu, Tin Lun Lam, Nicholas D. Lane, Nadia Bianchi-Berthouze(参考訳) ドメインエキスパートのアノテーションは、例えば、いくつかの慢性疾患のリハビリテーションや、いくつかの筋骨格異常の事前スクリーニングを、追加の検査なしで定義する目的が曖昧な医学的応用において重要である。 しかし、アノテーションの不適切な使用は、信頼できるモデルの開発を妨げる可能性がある。 一方で、複数のアノテーションから生成される単一の基盤の使用を強制することは、モデリングにはあまり役に立たない。 一方、既存の不一致を考えると、適切な正規化なしにすべてのアノテーションでモデルに入力することはうるさい。 そこで本研究では,複数の注釈者から学習の課題に取り組むための新しい合意学習フレームワークを提案する。 フレームワークは2つのストリームを持ち、一方は複数のアノテータに適合し、もう一方はアノテータ間のストリーム学習合意情報である。 特に、合意学習ストリームは、分類器ストリームに対して正規化情報を生成し、注釈者間の合意に合わせて、その判断をより良くするように調整する。 提案手法は,多数の接頭辞や複数アノテーションを用いた既存のバックボーンに容易に接続できる。 2つの医療データセットの実験では、アノテータとの合意レベルが改善された。

The annotation of domain experts is important for some medical applications where the objective groundtruth is ambiguous to define, e.g., the rehabilitation for some chronic diseases, and the prescreening of some musculoskeletal abnormalities without further medical examinations. However, improper uses of the annotations may hinder developing reliable models. On one hand, forcing the use of a single groundtruth generated from multiple annotations is less informative for the modeling. On the other hand, feeding the model with all the annotations without proper regularization is noisy given existing disagreements. For such issues, we propose a novel agreement learning framework to tackle the challenge of learning from multiple annotators without objective groundtruth. The framework has two streams, with one stream fitting with the multiple annotators and the other stream learning agreement information between the annotators. In particular, the agreement learning stream produces regularization information to the classifier stream, tuning its decision to be better in line with the agreement between the annotators. The proposed method can be easily plugged to existing backbones developed with majority-voted groundtruth or multiple annotations. Thereon, experiments on two medical datasets demonstrate improved agreement levels with annotators.
翻訳日:2021-09-09 13:32:54 公開日:2021-09-08
# リレーショナルインダクティブバイアスへの電力:電力グリッドにおけるグラフニューラルネットワーク

Power to the Relational Inductive Bias: Graph Neural Networks in Electrical Power Grids ( http://arxiv.org/abs/2109.03604v1 )

ライセンス: Link先を確認
Martin Ringsquandl, Houssem Sellami, Marcel Hildebrandt, Dagmar Beyer, Sylwia Henselmeyer, Sebastian Weber, Mitchell Joblin(参考訳) 電力グリッドの領域へのグラフニューラルネットワーク(GNN)の適用は、スマートグリッド監視に大きな影響を与える可能性がある。 GNNでは、電力フローとメッセージパスの自然な対応があるが、電力グリッドの性能はよく理解されていない。 いくつかの重要な側面において電力網とは異なるグラフを含むベンチマークによるGNN研究の間にはギャップがあると主張する。 さらに、複数の電力グリッドトポロジにまたがるGNNの帰納学習は、実世界のデータでは研究されていない。 このギャップを, (i) 電力グリッドグラフデータセットを帰納的設定で定義し, (ii) グラフ特性の探索的解析を行い, (iii) 実世界の電力グリッドにおける状態推定の具体的な学習課題に関する実証的研究を行った。 その結果,GNNはベースラインに比べて400%の誤差でノイズに強いことがわかった。 さらに、電気グリッドのユニークな特性から、gnnのよく知られた過剰スムーシング現象を観測せず、13層までの層で特別に深い性能を持つモデルを見出す。 これは、2層から3層までのGNNが最高のパフォーマンスを示すという、既存のベンチマークデータセットとは対照的である。 この領域における重要な課題は、長距離依存を効果的に扱うことである。

The application of graph neural networks (GNNs) to the domain of electrical power grids has high potential impact on smart grid monitoring. Even though there is a natural correspondence of power flow to message-passing in GNNs, their performance on power grids is not well-understood. We argue that there is a gap between GNN research driven by benchmarks which contain graphs that differ from power grids in several important aspects. Additionally, inductive learning of GNNs across multiple power grid topologies has not been explored with real-world data. We address this gap by means of (i) defining power grid graph datasets in inductive settings, (ii) an exploratory analysis of graph properties, and (iii) an empirical study of the concrete learning task of state estimation on real-world power grids. Our results show that GNNs are more robust to noise with up to 400% lower error compared to baselines. Furthermore, due to the unique properties of electrical grids, we do not observe the well known over-smoothing phenomenon of GNNs and find the best performing models to be exceptionally deep with up to 13 layers. This is in stark contrast to existing benchmark datasets where the consensus is that 2 to 3 layer GNNs perform best. Our results demonstrate that a key challenge in this domain is to effectively handle long-range dependence.
翻訳日:2021-09-09 13:32:28 公開日:2021-09-08
# ラベルノイズの存在下でのディープニューラルネットワークに対するロバストなアプローチ--トレーニング中のリラベリングとフィルタリングインスタンス

A robust approach for deep neural networks in presence of label noise: relabelling and filtering instances during training ( http://arxiv.org/abs/2109.03748v1 )

ライセンス: Link先を確認
Anabel G\'omez-R\'ios, Juli\'an Luengo, Francisco Herrera(参考訳) ディープラーニングは、さまざまなタスクにおいて、他の機械学習アルゴリズムよりも優れており、その結果、ますます人気を博し、使われている。 しかし、他の機械学習アルゴリズム、ディープラーニング、および畳み込みニューラルネットワーク(CNN)のように、データセットがラベルノイズを示すと、さらに悪化する。 したがって、ディープネットワークのトレーニングとノイズフリーテストセットへの一般化を支援するアルゴリズムを開発することが重要である。 本稿では,任意のCNNで使用可能なRAFNIと呼ばれるラベルノイズに対する堅牢なトレーニング戦略を提案する。 このアルゴリズムは、トレーニングプロセス中にバックボーンニューラルネットワークが生成した予測と確率に基づいて、トレーニングセットのインスタンスをフィルタリングし、リラベルする。 このようにして、このアルゴリズムは独自のCNNの一般化能力を向上させる。 RAFNIは、インスタンスをフィルタリングする2つのメカニズムと、インスタンスをリラベルする1つのメカニズムからなる。 さらに、ノイズレートが知られていても、見積もる必要もないと仮定する。 複数のサイズと特性の異なるデータセットを用いてアルゴリズムを評価した。 また, CIFAR10 と CIFAR100 のベンチマークをラベルノイズの種類や速度で比較したところ, RAFNI はほとんどの場合, 良好な結果が得られることがわかった。

Deep learning has outperformed other machine learning algorithms in a variety of tasks, and as a result, it has become more and more popular and used. However, as other machine learning algorithms, deep learning, and convolutional neural networks (CNNs) in particular, perform worse when the data sets present label noise. Therefore, it is important to develop algorithms that help the training of deep networks and their generalization to noise-free test sets. In this paper, we propose a robust training strategy against label noise, called RAFNI, that can be used with any CNN. This algorithm filters and relabels instances of the training set based on the predictions and their probabilities made by the backbone neural network during the training process. That way, this algorithm improves the generalization ability of the CNN on its own. RAFNI consists of three mechanisms: two mechanisms that filter instances and one mechanism that relabels instances. In addition, it does not suppose that the noise rate is known nor does it need to be estimated. We evaluated our algorithm using different data sets of several sizes and characteristics. We also compared it with state-of-the-art models using the CIFAR10 and CIFAR100 benchmarks under different types and rates of label noise and found that RAFNI achieves better results in most cases.
翻訳日:2021-09-09 13:32:05 公開日:2021-09-08
# AppQ:ビューグラフに基づいたウォームスタートアプリ推奨

AppQ: Warm-starting App Recommendation Based on View Graphs ( http://arxiv.org/abs/2109.03798v1 )

ライセンス: Link先を確認
Dan Su, Jiqiang Liu, Sencun Zhu, Xiaoyang Wang, Wei Wang, Xiangliang Zhang(参考訳) 現在のアプリランキングとレコメンデーションシステムは主にユーザ生成情報に基づいており、例えばダウンロード数やレーティング数などである。 しかし、新しいアプリはユーザーからのフィードバックがほとんど(あるいは全く)なく、古典的なコールドスタートの問題に苦しんでいる。 高品質の新しいアプリを素早く識別し、推薦する方法は、難しい問題だ。 ここで、基本的な要件は、ユーザ生成機能ではなく、生来のフィーチャに基づいてアプリの品質を正確に測定する能力である。 ユーザは、ビューと対話することで、アプリの直接体験を得るので、生まれたばかりの機能は、アプリ内の個々のビューの視覚的品質と、ビューの相互切り替え方法に大きく関係していると推測する。 そこで本研究では,アプリソースコードに基づいて,アプリ固有の特徴を抽出するアプリケーション品質評価とレコメンデーションシステムであるAppQを提案する。 特に、AppQは並列でコード解析を行い、アプリケーションレベルの特徴を抽出し、動的解析によってビューレベルのレイアウト階層とビュー間の切り替えをキャプチャする。 それぞれのアプリは属性付きビューグラフとして表現され、ベクターに変換して、その品質クラスを認識するために分類器に渡される。 Google Playのアプリデータセットによる評価では、AppQは85.0\%の精度で最高のパフォーマンスを達成している。 これは、AppQでアプリのグレードとレコメンデーションシステムのウォームスタートを約束している。

Current app ranking and recommendation systems are mainly based on user-generated information, e.g., number of downloads and ratings. However, new apps often have few (or even no) user feedback, suffering from the classic cold-start problem. How to quickly identify and then recommend new apps of high quality is a challenging issue. Here, a fundamental requirement is the capability to accurately measure an app's quality based on its inborn features, rather than user-generated features. Since users obtain first-hand experience of an app by interacting with its views, we speculate that the inborn features are largely related to the visual quality of individual views in an app and the ways the views switch to one another. In this work, we propose AppQ, a novel app quality grading and recommendation system that extracts inborn features of apps based on app source code. In particular, AppQ works in parallel to perform code analysis to extract app-level features as well as dynamic analysis to capture view-level layout hierarchy and the switching among views. Each app is then expressed as an attributed view graph, which is converted into a vector and fed to classifiers for recognizing its quality classes. Our evaluation with an app dataset from Google Play reports that AppQ achieves the best performance with accuracy of 85.0\%. This shows a lot of promise to warm-start app grading and recommendation systems with AppQ.
翻訳日:2021-09-09 13:31:44 公開日:2021-09-08
# 埋め込み空間学習のための記号音楽の信号領域表現

Signal-domain representation of symbolic music for learning embedding spaces ( http://arxiv.org/abs/2109.03454v1 )

ライセンス: Link先を確認
Mathieu Prang (IRCAM), Philippe Esling(参考訳) 機械学習モデルの重要な側面は、効率的な中間機能を学ぶ能力にある。 しかし、この過程において入力表現は重要な役割を担い、ポリフォニック楽譜は特に複雑な種類の情報である。 本稿では,ポリフォニック楽譜を連続信号に変換するシンボリック音楽データの新しい表現を提案する。 この表現から有意義な特徴を音楽的な観点から学習する能力を評価する。 そこで本研究では,合成データの原理的生成に基づく評価手法を提案する。 最後に、提案する表現をテストするために、最近のポリフォニックシンボリック表現に対する広範なベンチマークを行う。 信号ライクな表現は、より良い再構築と不整合性をもたらすことを示す。 この改善は、音楽理論の特性に基づいて、信号のような表現から学習した空間の計量特性と生成能力に反映される。

A key aspect of machine learning models lies in their ability to learn efficient intermediate features. However, the input representation plays a crucial role in this process, and polyphonic musical scores remain a particularly complex type of information. In this paper, we introduce a novel representation of symbolic music data, which transforms a polyphonic score into a continuous signal. We evaluate the ability to learn meaningful features from this representation from a musical point of view. Hence, we introduce an evaluation method relying on principled generation of synthetic data. Finally, to test our proposed representation we conduct an extensive benchmark against recent polyphonic symbolic representations. We show that our signal-like representation leads to better reconstruction and disentangled features. This improvement is reflected in the metric properties and in the generation ability of the space learned from our signal-like representation according to music theory properties.
翻訳日:2021-09-09 13:31:04 公開日:2021-09-08
# 多視点超音波画像融合のための深層学習

Deep Learning for Multi-View Ultrasonic Image Fusion ( http://arxiv.org/abs/2109.03616v1 )

ライセンス: Link先を確認
Georgios Pilikos, Lars Horchens, Tristan van Leeuwen, Felix Lucka(参考訳) 超音波イメージングは、媒質の音響特性に関する情報を得るために、電磁波を放射し、超音波トランスデューサアレイを用いて相互作用を記録するために用いられる。 Delay-And-Sum (DAS)アルゴリズムは、反射信号がトランスデューサに戻すメインパスを使って画像を生成する。 例えば、トランスデューサを異なる場所に配置したり、媒体内部の強い反射体がa-prioriとして知られている場合などである。 これらの異なるモードは、散乱体に関する異なる幾何学的情報を反映する複数のdas画像を生じさせ、課題は、それらを1つの画像に融合するか、あるいは媒体の材料、例えばセグメンテーションマップに関する高レベルな情報を直接抽出することである。 従来の画像融合技術は通常、予め定義された画像変換、プーリング操作、しきい値のアドホックな組み合わせを用いる。 本研究では、異なる共振路に対するDAS画像形成をネットワーク層として明示的に取り入れつつ、利用可能なすべてのデータをセグメントマップに直接マッピングするディープニューラルネットワーク(DNN)アーキテクチャを提案する。 これにより、トレーニングされたエンドツーエンドであるデータ前処理とイメージ後処理DNN間の情報フローが可能になる。 提案手法をシミュレーションデータを用いた従来の画像融合法と比較し,4つの画像モード,すなわち2つのトランスデューサ位置と2つの内部反射境界を持つ非破壊試験アプリケーションを模倣した。 この手法を用いることで、欠陥のより正確なセグメンテーションを得ることができる。

Ultrasonic imaging is being used to obtain information about the acoustic properties of a medium by emitting waves into it and recording their interaction using ultrasonic transducer arrays. The Delay-And-Sum (DAS) algorithm forms images using the main path on which reflected signals travel back to the transducers. In some applications, different insonification paths can be considered, for instance by placing the transducers at different locations or if strong reflectors inside the medium are known a-priori. These different modes give rise to multiple DAS images reflecting different geometric information about the scatterers and the challenge is to either fuse them into one image or to directly extract higher-level information regarding the materials of the medium, e.g., a segmentation map. Traditional image fusion techniques typically use ad-hoc combinations of pre-defined image transforms, pooling operations and thresholding. In this work, we propose a deep neural network (DNN) architecture that directly maps all available data to a segmentation map while explicitly incorporating the DAS image formation for the different insonification paths as network layers. This enables information flow between data pre-processing and image post-processing DNNs, trained end-to-end. We compare our proposed method to a traditional image fusion technique using simulated data experiments, mimicking a non-destructive testing application with four image modes, i.e., two transducer locations and two internal reflection boundaries. Using our approach, it is possible to obtain much more accurate segmentation of defects.
翻訳日:2021-09-09 13:30:53 公開日:2021-09-08
# (参考訳) ビュー毎の最適化によるポイントベースニューラルレンダリング [全文訳有]

Point-Based Neural Rendering with Per-View Optimization ( http://arxiv.org/abs/2109.02369v2 )

ライセンス: CC BY 4.0
Georgios Kopanas, Julien Philip, Thomas Leimk\"uhler, George Drettakis(参考訳) 最近、ニューラルレンダリング手法に大きな関心が寄せられている。 いくつかのアプローチでは、Multi-View Stereo (MVS) で再構成された3次元幾何学を用いているが、このプロセスの誤りから回復することはできない。 我々はmvsで初期化される一般的なアプローチを導入するが、奥行きや再計画された機能を含む入力ビューの空間におけるシーンプロパティのさらなる最適化が可能となり、その結果、ノベルビュー合成が改善された。 我々のアプローチの重要な要素は、双方向楕円重み付き平均スプラッティング、確率的深さテスト、効果的なカメラ選択に基づく、新しい微分可能な点ベースパイプラインである。 私たちはこれらの要素をneural rendererで一緒に使用し、テストしたほぼすべてのシーンで、以前のすべてのメソッドを品質と速度の両方で上回っています。 当社のパイプラインは,新規なビュー合成に加えて,マルチビューの調和とスタイライゼーションにも適用できる。

There has recently been great interest in neural rendering methods. Some approaches use 3D geometry reconstructed with Multi-View Stereo (MVS) but cannot recover from the errors of this process, while others directly learn a volumetric neural representation, but suffer from expensive training and inference. We introduce a general approach that is initialized with MVS, but allows further optimization of scene properties in the space of input views, including depth and reprojected features, resulting in improved novel-view synthesis. A key element of our approach is our new differentiable point-based pipeline, based on bi-directional Elliptical Weighted Average splatting, a probabilistic depth test and effective camera selection. We use these elements together in our neural renderer, that outperforms all previous methods both in quality and speed in almost all scenes we tested. Our pipeline can be applied to multi-view harmonization and stylization in addition to novel-view synthesis.
翻訳日:2021-09-09 11:47:02 公開日:2021-09-08
# (参考訳) マルチモーダル抽象要約のための視覚誘導生成事前学習言語モデル [全文訳有]

Vision Guided Generative Pre-trained Language Models for Multimodal Abstractive Summarization ( http://arxiv.org/abs/2109.02401v2 )

ライセンス: CC BY 4.0
Tiezheng Yu, Wenliang Dai, Zihan Liu, Pascale Fung(参考訳) multimodal abstractive summarization (mas) モデルは、ビデオ(視覚モダリティ)とその対応するトランスクリプト(テキストモダリティ)を要約し、インターネット上の膨大なマルチモーダルデータから本質的な情報を抽出することができる。 近年,大規模な生成事前学習言語モデル (GPLM) がテキスト生成に有効であることが示されている。 しかし、既存のMASモデルはGPLMの強力な生成能力を活用できない。 この研究のギャップを埋めるために,1) 生成能力を損なうことなく gplms に視覚情報を注入する方法,2) 視覚情報を注入するのに gplms の最適位置は何か,という2つの研究課題を考察する。 本稿では,視覚情報を付加し,本来のテキスト生成能力を維持しつつ,注意型アドオンレイヤを用いて視覚誘導(VG) GPLMsをMASタスクに構築する,シンプルで効果的な方法を提案する。 結果から,本モデルが従来モデルより5.7 ROUGE-1,5.3 ROUGE-2,5.1 ROUGE-Lのスコアを大きく上回り,視覚指導手法が全体の改善の83.6%に寄与していることがわかった。 さらに,様々なモード性融合法と核融合位置の有効性を分析するため,徹底的なアブレーション研究を行った。

Multimodal abstractive summarization (MAS) models that summarize videos (vision modality) and their corresponding transcripts (text modality) are able to extract the essential information from massive multimodal data on the Internet. Recently, large-scale generative pre-trained language models (GPLMs) have been shown to be effective in text generation tasks. However, existing MAS models cannot leverage GPLMs' powerful generation ability. To fill this research gap, we aim to study two research questions: 1) how to inject visual information into GPLMs without hurting their generation ability; and 2) where is the optimal place in GPLMs to inject the visual information? In this paper, we present a simple yet effective method to construct vision guided (VG) GPLMs for the MAS task using attention-based add-on layers to incorporate visual information while maintaining their original text generation ability. Results show that our best model significantly surpasses the prior state-of-the-art model by 5.7 ROUGE-1, 5.3 ROUGE-2, and 5.1 ROUGE-L scores on the How2 dataset, and our visual guidance method contributes 83.6% of the overall improvement. Furthermore, we conduct thorough ablation studies to analyze the effectiveness of various modality fusion methods and fusion locations.
翻訳日:2021-09-09 11:22:56 公開日:2021-09-08
# (参考訳) Fair Comparison: きめ細かい視覚分類結果のばらつきの定量化 [全文訳有]

Fair Comparison: Quantifying Variance in Resultsfor Fine-grained Visual Categorization ( http://arxiv.org/abs/2109.03156v2 )

ライセンス: CC BY 4.0
Matthew Gwilliam, Adam Teuscher, Connor Anderson, Ryan Farrell(参考訳) 画像分類の課題として、研究者は次の最先端(SOTA)モデルの開発に熱心に取り組んでおり、各ベンチは前任者やその仲間に対して自身のパフォーマンスを示す。 残念ながら、モデルのパフォーマンス、平均的な分類精度を記述するために最も頻繁に使用されるメトリクスは、しばしば孤立して使用される。 細粒度視覚分類(FGVC)などのクラス数が増加するにつれて、平均精度だけで伝達される情報の量は減少する。 最も明らかな弱点は、クラスごとにモデルのパフォーマンスを記述できないことだが、平均的な精度は、同じアーキテクチャのトレーニングされたモデル、同じデータセットから、(クラスごとに平均して)別のモデルまで、パフォーマンスがどう変化するかの記述に失敗している。 まず,データ属性に基づくモデル間およびクラス分布間の変動の大きさを,長期分布や少数ショットサブセットを含む,異なる視覚領域およびクラスごとのイメージ分布による結果と比較した。 次に、FGVC法が全体およびクラスごとの分散に与える影響を分析する。 本分析から,FGVC結果のばらつきを緩和する手法を指摘するとともに,総合的精度以上の情報に基づく手法の報告と比較の重要性を強調した。

For the task of image classification, researchers work arduously to develop the next state-of-the-art (SOTA) model, each bench-marking their own performance against that of their predecessors and of their peers. Unfortunately, the metric used most frequently to describe a model's performance, average categorization accuracy, is often used in isolation. As the number of classes increases, such as in fine-grained visual categorization (FGVC), the amount of information conveyed by average accuracy alone dwindles. While its most glaring weakness is its failure to describe the model's performance on a class-by-class basis, average accuracy also fails to describe how performance may vary from one trained model of the same architecture, on the same dataset, to another (both averaged across all categories and at the per-class level). We first demonstrate the magnitude of these variations across models and across class distributions based on attributes of the data, comparing results on different visual domains and different per-class image distributions, including long-tailed distributions and few-shot subsets. We then analyze the impact various FGVC methods have on overall and per-class variance. From this analysis, we both highlight the importance of reporting and comparing methods based on information beyond overall accuracy, as well as point out techniques that mitigate variance in FGVC results.
翻訳日:2021-09-09 11:03:56 公開日:2021-09-08
# (参考訳) 顔認証データセットにおける顔面バイアス軽減のための共通仮定の再考

Rethinking Common Assumptions to Mitigate Racial Bias in Face Recognition Datasets ( http://arxiv.org/abs/2109.03229v2 )

ライセンス: CC BY 4.0
Matthew Gwilliam, Srinidhi Hegde, Lade Tinubu, Alex Hanson(参考訳) 既存の作品の多くは、顔認識における人種的偏見を減らそうとしている。 しかしながら、これらの手法のほとんどは、トレーニング中にモデルに現れるバイアスを、データセット自体のバイアスの主なソースに直接対処するのではなく、修正しようとします。 例外はBUPT-Balancedface/RF WとFairfaceだが、これらの研究は、主に単一人種でのトレーニング、あるいは人種的にバランスの取れていないデータセットは本質的に不利であると仮定している。 これらの仮定が必ずしも有効ではないことを示す。 私たちの実験では、アフリカの顔のみを訓練することは、アフリカの顔を含むように歪んだ顔と分布のバランスのとれた分布のトレーニングよりもバイアスが少なく、より公平なモデルを生み出しました。 さらに、新しいアイデンティティを追加する代わりに、既存のアイデンティティのイメージをデータセットに追加することで、人種別カテゴリの精度が向上する可能性があることに気付きました。 私たちのコードはhttps://github.com/j -alex-hanson/rethink ing-race-face-datase tsで利用可能です。

Many existing works have made great strides towards reducing racial bias in face recognition. However, most of these methods attempt to rectify bias that manifests in models during training instead of directly addressing a major source of the bias, the dataset itself. Exceptions to this are BUPT-Balancedface/RF W and Fairface, but these works assume that primarily training on a single race or not racially balancing the dataset are inherently disadvantageous. We demonstrate that these assumptions are not necessarily valid. In our experiments, training on only African faces induced less bias than training on a balanced distribution of faces and distributions skewed to include more African faces produced more equitable models. We additionally notice that adding more images of existing identities to a dataset in place of adding new identities can lead to accuracy boosts across racial categories. Our code is available at https://github.com/j -alex-hanson/rethink ing-race-face-datase ts.
翻訳日:2021-09-09 10:49:33 公開日:2021-09-08
# (参考訳) nnformer:ボリュームセグメンテーション用インターリーブトランス [全文訳有]

NnFormer: Interleaved Transformer for Volumetric Segmentation ( http://arxiv.org/abs/2109.03201v2 )

ライセンス: CC BY 4.0
Hong-Yu Zhou, Jiansen Guo, Yinghao Zhang, Lequan Yu, Liansheng Wang, Yizhou Yu(参考訳) 自然言語処理におけるデフォルトのモデルであるトランスフォーマーは、医療画像コミュニティからほとんど注目を集めていない。 長期的な依存関係を利用する能力を考えると、トランスフォーマーは非定型畳み込みニューラルネットワーク(convnets)が空間誘導バイアスの固有の欠点を克服するのに役立つことを約束している。 しかし、最近提案されたトランスフォーマーベースのセグメンテーションアプローチのほとんどは、トランスフォーマーを単純なモジュールとして扱い、グローバルコンテキストを畳み込み表現に符号化するのに役立つ。 この問題に対処するために,本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormer(Not-aNother TransFormer)を紹介する。 実際、nnformerは3dローカルボリュームからボリューム表現を学ぶ。 ナイーブなvoxelレベルの自己アテンション実装と比較して、このようなボリュームベースの操作は、synapseとadcdcデータセットの計算複雑性を98%、99.5%削減するのに役立ちます。 以前のネットワーク構成と比較すると、nnformerはsynapseとadcという2つの一般的なデータセットで、以前のトランスフォーマティブベースの方法よりも大幅に改善されている。 例えば、nnFormerはSynapseでSwin-UNetを7%以上上回っている。 現在最高の完全畳み込み医療セグメンテーションネットワークであるnnUNetと比較しても、nnFormerはSynapseとACDCで若干パフォーマンスが向上している。

Transformers, the default model of choices in natural language processing, have drawn scant attention from the medical imaging community. Given the ability to exploit long-term dependencies, transformers are promising to help atypical convolutional neural networks (convnets) to overcome its inherent shortcomings of spatial inductive bias. However, most of recently proposed transformer-based segmentation approaches simply treated transformers as assisted modules to help encode global context into convolutional representations without investigating how to optimally combine self-attention (i.e., the core of transformers) with convolution. To address this issue, in this paper, we introduce nnFormer (i.e., Not-aNother transFormer), a powerful segmentation model with an interleaved architecture based on empirical combination of self-attention and convolution. In practice, nnFormer learns volumetric representations from 3D local volumes. Compared to the naive voxel-level self-attention implementation, such volume-based operations help to reduce the computational complexity by approximate 98% and 99.5% on Synapse and ACDC datasets, respectively. In comparison to prior-art network configurations, nnFormer achieves tremendous improvements over previous transformer-based methods on two commonly used datasets Synapse and ACDC. For instance, nnFormer outperforms Swin-UNet by over 7 percents on Synapse. Even when compared to nnUNet, currently the best performing fully-convolutional medical segmentation network, nnFormer still provides slightly better performance on Synapse and ACDC.
翻訳日:2021-09-09 10:47:45 公開日:2021-09-08
# GCsT: 行動認識のためのグラフ畳み込み骨格変換器

GCsT: Graph Convolutional Skeleton Transformer for Action Recognition ( http://arxiv.org/abs/2109.02860v2 )

ライセンス: Link先を確認
Ruwen Bai, Min Li, Bo Meng, Fengfa Li, Junxing Ren, Miao Jiang, Degang Sun(参考訳) グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において有望な性能を達成する。 しかし、ほとんどのGCNベースの手法では、空間時間グラフの畳み込みはグラフトポロジによって厳格に制限されているが、短期時間文脈のみを捉えており、特徴抽出の柔軟性に欠ける。 本稿では, グラフ畳み込みトランスフォーマー (graph convolutional skeleton transformer, gcst) という新しいアーキテクチャを提案する。 当社のGCsTはTransformerのすべてのメリット(すなわち)を採用しています。 動的注意とグローバルコンテキスト)GCNの利点を維持しながら(すなわち) 階層構造と局所トポロジー構造)。 GCsTでは、空間時空間GCNは局所依存のキャプチャを強制し、Transformerはグローバル空間時空間関係を動的に抽出する。 さらに, 提案したGCsTは, スケルトン配列に存在する付加情報を追加することで, より強力な表現能力を示す。 Transformerを組み込むことで、ほとんど努力せずにモデルに情報を導入することができる。 NTU RGB+D, NTU RGB+D 120, Northwestern-UCLAデータセットの最先端性能を実現するため, 広範な実験を行い, 提案したGCsTを検証する。

Graph convolutional networks (GCNs) achieve promising performance for skeleton-based action recognition. However, in most GCN-based methods, the spatial-temporal graph convolution is strictly restricted by the graph topology while only captures the short-term temporal context, thus lacking the flexibility of feature extraction. In this work, we present a novel architecture, named Graph Convolutional skeleton Transformer (GCsT), which addresses limitations in GCNs by introducing Transformer. Our GCsT employs all the benefits of Transformer (i.e. dynamical attention and global context) while keeps the advantages of GCNs (i.e. hierarchy and local topology structure). In GCsT, the spatial-temporal GCN forces the capture of local dependencies while Transformer dynamically extracts global spatial-temporal relationships. Furthermore, the proposed GCsT shows stronger expressive capability by adding additional information present in skeleton sequences. Incorporating the Transformer allows that information to be introduced into the model almost effortlessly. We validate the proposed GCsT by conducting extensive experiments, which achieves the state-of-the-art performance on NTU RGB+D, NTU RGB+D 120 and Northwestern-UCLA datasets.
翻訳日:2021-09-09 10:26:55 公開日:2021-09-08
# PermuteFormer:ロングシーケンスのための効率的な相対位置符号化

PermuteFormer: Efficient Relative Position Encoding for Long Sequences ( http://arxiv.org/abs/2109.02377v2 )

ライセンス: Link先を確認
Peng Chen(参考訳) Transformerの最近のバリエーションであるPerformerは、線形アテンション機構でTransformerを長いシーケンスにスケールする。 しかし、絶対位置符号化よりも有利な相対位置符号化とは互換性がない。 本稿では,Performerに相対位置エンコーディングを追加する可能性について論じる。 解析に基づいて,長い列に線形にスケールする相対的位置符号化を持つ演奏者に基づくモデルであるpermuteformerを提案する。 permuteformerはクエリとキーに位置依存変換を適用し、位置情報をアテンションモジュールにエンコードする。 この変換は、自己アテンションの最終出力がトークンの絶対位置に影響されないよう慎重に作成される。 PermuteFormerはPerformerと同じくらい高速に動作するように設計されている。 長いシーケンスのデータセットであるLong-Range ArenaのPermuteFormerと、言語モデリングデータセットであるWikiText-103を評価した。 実験の結果、PermuteFormerは計算オーバーヘッドがほとんどなく、Performerのパフォーマンスを均一に改善し、ほとんどのタスクでバニラトランスフォーマーを上回っていることがわかった。

A recent variation of Transformer, Performer, scales Transformer to longer sequences with a linear attention mechanism. However, it is not compatible with relative position encoding, which has advantages over absolute position encoding. In this paper, we discuss possible ways to add relative position encoding to Performer. Based on the analysis, we propose PermuteFormer, a Performer-based model with relative position encoding that scales linearly on long sequences. PermuteFormer applies position-dependent transformation on queries and keys to encode positional information into the attention module. This transformation is carefully crafted so that the final output of self-attention is not affected by absolute positions of tokens. PermuteFormer introduces negligible computational overhead by design that it runs as fast as Performer. We evaluate PermuteFormer on Long-Range Arena, a dataset for long sequences, as well as WikiText-103, a language modeling dataset. The experiments show that PermuteFormer uniformly improves the performance of Performer with almost no computational overhead and outperforms vanilla Transformer on most of the tasks.
翻訳日:2021-09-09 10:26:37 公開日:2021-09-08
# アニメーション変換器:セグメントマッチングによる視覚対応

The Animation Transformer: Visual Correspondence via Segment Matching ( http://arxiv.org/abs/2109.02614v2 )

ライセンス: Link先を確認
Evan Casey, V\'ictor P\'erez, Zhuoru Li, Harry Teitelman, Nick Boyajian, Tim Pulver, Mike Manh, and William Grisaitis(参考訳) 視覚対応は手書きアニメーションの補助ツールを構築するための基本的なビルディングブロックである。 しかし、多数の作品がピクセルレベルで視覚対応を学習することに焦点を当てているが、手描きアニメーションで自然に発生する線囲い(セグメント)のレベルで対応を学ぶアプローチはほとんど現れていない。 この構造をアニメーションで展開することは、高解像度画像における個々のピクセルへの参加の難易度なメモリ複雑さを回避し、セグメントごとのカラーレベルの対応情報を含む実世界のアニメーションデータセットの使用を可能にする。 そこで我々は,画像列間のセグメント間の空間的および視覚的関係を学習するために,トランスフォーマに基づくアーキテクチャを用いたアニメーショントランス (AnT) を提案する。 AnTは、プロのアニメーションワークフローのためのMLアシストカラー化を可能にし、Cadmiumのクリエイティブツールとして公開されている。

Visual correspondence is a fundamental building block on the way to building assistive tools for hand-drawn animation. However, while a large body of work has focused on learning visual correspondences at the pixel-level, few approaches have emerged to learn correspondence at the level of line enclosures (segments) that naturally occur in hand-drawn animation. Exploiting this structure in animation has numerous benefits: it avoids the intractable memory complexity of attending to individual pixels in high resolution images and enables the use of real-world animation datasets that contain correspondence information at the level of per-segment colors. To that end, we propose the Animation Transformer (AnT) which uses a transformer-based architecture to learn the spatial and visual relationships between segments across a sequence of images. AnT enables practical ML-assisted colorization for professional animation workflows and is publicly accessible as a creative tool in Cadmium.
翻訳日:2021-09-09 10:26:21 公開日:2021-09-08
# ganser:脳波に基づく感情認識のための自己教師付きデータ拡張フレームワーク

GANSER: A Self-supervised Data Augmentation Framework for EEG-based Emotion Recognition ( http://arxiv.org/abs/2109.03124v2 )

ライセンス: Link先を確認
Zhi Zhang and Sheng-hua Zhong and Yan Liu(参考訳) 脳波(EEG)に基づく感情計算におけるデータ不足問題は、特にディープラーニングモデルを用いた高精度で安定な効率的なモデルを構築するのに困難をもたらす。 データ拡張は最近、精度の向上、安定性の向上、過剰フィッティングの削減といった、ディープラーニングモデルのパフォーマンス向上を達成している。 本稿では,GANSER(Generative Adversarial Network-based Self-supervised Data Augmentation)という新しいデータ拡張フレームワークを提案する。 脳波に基づく感情認識のための自己教師型学習と対向学習を組み合わせた最初の試みとして、提案フレームワークは高品質で高多様性の模擬脳波サンプルを生成することができる。 特に,脳波発生器を学習し,生成された脳波信号に実サンプルの分布を近似させ,拡張標本の品質を確保するために,敵対的訓練を利用する。 変換関数を用いて脳波信号の一部を隠蔽し、生成元に残りの部分に基づいて潜在的な脳波信号を合成させ、幅広いサンプルを生成する。 変換時のマスキング可能性を事前知識として導入し、脳波信号の識別可能な特徴を抽出し、分類器を拡張標本空間に一般化する。 最後に,提案手法の広範な実験により,感情認識によるパフォーマンス向上と最先端の成果の達成が期待できる。

The data scarcity problem in Electroencephalograp hy (EEG) based affective computing results into difficulty in building an effective model with high accuracy and stability using machine learning algorithms especially deep learning models. Data augmentation has recently achieved considerable performance improvement for deep learning models: increased accuracy, stability, and reduced over-fitting. In this paper, we propose a novel data augmentation framework, namely Generative Adversarial Network-based Self-supervised Data Augmentation (GANSER). As the first to combine adversarial training with self-supervised learning for EEG-based emotion recognition, the proposed framework can generate high-quality and high-diversity simulated EEG samples. In particular, we utilize adversarial training to learn an EEG generator and force the generated EEG signals to approximate the distribution of real samples, ensuring the quality of augmented samples. A transformation function is employed to mask parts of EEG signals and force the generator to synthesize potential EEG signals based on the remaining parts, to produce a wide variety of samples. The masking possibility during transformation is introduced as prior knowledge to guide to extract distinguishable features for simulated EEG signals and generalize the classifier to the augmented sample space. Finally, extensive experiments demonstrate our proposed method can help emotion recognition for performance gain and achieve state-of-the-art results.
翻訳日:2021-09-09 10:26:06 公開日:2021-09-08
# GDP: 異なる偏光を持つゲート経由の安定化ニューラルネットワークプルーニング

GDP: Stabilized Neural Network Pruning via Gates with Differentiable Polarization ( http://arxiv.org/abs/2109.02220v2 )

ライセンス: Link先を確認
Yi Guo, Huan Yuan, Jianchao Tan, Zhangyang Wang, Sen Yang, Ji Liu(参考訳) モデル圧縮技術は最近、様々なリアルタイムアプリケーションのための効率的なAIモデルを得るために爆発的な注目を集めている。 チャネルプルーニングは重要な圧縮戦略の一つであり、様々なDNNのスリム化に広く利用されている。 従来のゲートベースあるいは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としていた。 しかし、チャンネルの重要性を計測する基準は定かでないため、様々なチャンネル選択ヒューリスティックスに繋がる。 他のサンプリングベースのプルーニング手法では、サブネットをトレーニングするためのサンプリング戦略が展開され、トレーニングの不安定性や圧縮モデルの性能低下の原因となることが多い。 研究ギャップの観点からは,原理化された最適化アイデアに触発されたGates with Differentiable Polarization (GDP)と呼ばれる新しいモジュールを提案する。 gdpは、ベルやホイッスルなしで畳み込み層の前に差し込むことができ、各チャネルまたは全層ブロックのオン・オフを制御することができる。 トレーニングの過程では、偏極効果によってゲートのサブセットが滑らかにゼロに減少し、他のゲートは徐々に大きなマージンでゼロから遠ざかる。 トレーニングが終了すると、これらのゼロゲートチャネルは痛みなく除去され、他のゼロゲートは後続の畳み込みカーネルに吸収され、トレーニングの中断もトレーニングモデルの損傷も全く生じない。 CIFAR-10とImageNetデータセットを用いて行った実験により,提案したGDPアルゴリズムは,様々なベンチマークDNNにおいて,幅広いプルーニング比で最先端の性能を達成することが示された。 また、DeepLabV3Plus-ResNet 50では、テストパフォーマンスが60%以上のFLOPを節約した(わずかに改善した)Pascal VOCセグメンテーションタスクに対してGDPを適用しています。

Model compression techniques are recently gaining explosive attention for obtaining efficient AI models for various real-time applications. Channel pruning is one important compression strategy and is widely used in slimming various DNNs. Previous gate-based or importance-based pruning methods aim to remove channels whose importance is smallest. However, it remains unclear what criteria the channel importance should be measured on, leading to various channel selection heuristics. Some other sampling-based pruning methods deploy sampling strategies to train sub-nets, which often causes the training instability and the compressed model's degraded performance. In view of the research gaps, we present a new module named Gates with Differentiable Polarization (GDP), inspired by principled optimization ideas. GDP can be plugged before convolutional layers without bells and whistles, to control the on-and-off of each channel or whole layer block. During the training process, the polarization effect will drive a subset of gates to smoothly decrease to exact zero, while other gates gradually stay away from zero by a large margin. When training terminates, those zero-gated channels can be painlessly removed, while other non-zero gates can be absorbed into the succeeding convolution kernel, causing completely no interruption to training nor damage to the trained model. Experiments conducted over CIFAR-10 and ImageNet datasets show that the proposed GDP algorithm achieves the state-of-the-art performance on various benchmark DNNs at a broad range of pruning ratios. We also apply GDP to DeepLabV3Plus-ResNet 50 on the challenging Pascal VOC segmentation task, whose test performance sees no drop (even slightly improved) with over 60% FLOPs saving.
翻訳日:2021-09-09 10:25:44 公開日:2021-09-08
# 雨空間コントラスト制約付き単一画像レーダに対する非ペア逆学習

Unpaired Adversarial Learning for Single Image Deraining with Rain-Space Contrastive Constraints ( http://arxiv.org/abs/2109.02973v2 )

ライセンス: Link先を確認
Xiang Chen, Jinshan Pan, Kui Jiang, Yufeng Huang, Caihua Kong, Longgang Dai, Yufeng Li(参考訳) SID(Deep Learning-based Single Image deraining)は、ペア化された合成データに依存することで、現実のアプリケーションにおける汎用性とスケーラビリティが制限されるため、重要な情報である。 しかし,非対向学習とSIDタスクにおけるサイクル整合性制約の直接適用は,雨天画像と雨天画像のドメイン知識が非対称であるため,雨天入力からクリーンアウトプットへの基礎的関係を学習するには不十分であることがわかった。 このような制限に対処するために,cdr-gan と呼ばれるgan フレームワークにおいて,非ペア型エクセプラーの相互特性を対照的な学習方法で探索する効果的な非ペア型 sid 法を開発した。 提案手法は主に双方向翻訳分枝(btb)とコントラスト誘導分枝(cgb)の2つの協調分枝からなる。 特に、btbは相反一貫性の循環的アーキテクチャを最大限に活用し、2つのドメイン間の潜在特徴分布とガイド伝達能力を双方向マッピングで活用している。 同時に、CGBは、降雨の除去や画像の復元に役立てるために、類似した特徴分布をもっと遠くに押し上げながら、雨空間に異なる例の埋め込みを暗黙的に制限する。 トレーニング中、提案するCDR-GANをさらに制約するために、いくつかの損失関数を探索する。 大規模な実験により, 提案手法は, 合成および実世界の両方のデータセットにおいて, 既存の未完成なデラミニング手法に対して良好に動作し, 完全教師付きモデルや半教師付きモデルよりも優れていた。

Deep learning-based single image deraining (SID) with unpaired information is of immense importance, as relying on paired synthetic data often limits their generality and scalability in real-world applications. However, we noticed that direct employ of unpaired adversarial learning and cycle-consistency constraints in the SID task is insufficient to learn the underlying relationship from rainy input to clean outputs, since the domain knowledge between rainy and rain-free images is asymmetrical. To address such limitation, we develop an effective unpaired SID method which explores mutual properties of the unpaired exemplars by a contrastive learning manner in a GAN framework, named as CDR-GAN. The proposed method mainly consists of two cooperative branches: Bidirectional Translation Branch (BTB) and Contrastive Guidance Branch (CGB). Specifically, BTB takes full advantage of the circulatory architecture of adversarial consistency to exploit latent feature distributions and guide transfer ability between two domains by equipping it with bidirectional mapping. Simultaneously, CGB implicitly constrains the embeddings of different exemplars in rain space by encouraging the similar feature distributions closer while pushing the dissimilar further away, in order to better help rain removal and image restoration. During training, we explore several loss functions to further constrain the proposed CDR-GAN. Extensive experiments show that our method performs favorably against existing unpaired deraining approaches on both synthetic and real-world datasets, even outperforms several fully-supervised or semi-supervised models.
翻訳日:2021-09-09 10:25:15 公開日:2021-09-08
# Phonexia VoxCeleb Speaker Recognition Challenge 2021 System Description

The Phonexia VoxCeleb Speaker Recognition Challenge 2021 System Description ( http://arxiv.org/abs/2109.02052v3 )

ライセンス: Link先を確認
Josef Slav\'i\v{c}ek and Albert Swart and Michal Kl\v{c}o and Niko Br\"ummer(参考訳) 教師なし話者検証トラックにおけるVoxCeleb Speaker Recognition Challenge 2021(VoxSRC-21)のPhonexia提案について述べる。 私たちのソリューションは、IDLabがVoxSRC-20で勝ったのと非常によく似ています。 モーメントコントラスト学習を用いて埋め込み抽出器をブートストラップし,入力増強を唯一の監督源とした。 続いて、疑似話者ラベルを割り当てるクラスタリングが数回実施され、教師付きインクリプタトレーニングに使用された。 最後に、5種類の埋め込み抽出器のzt正規化コサインスコアを平均化してスコア融合を行った。 また,コサインスコアではなく,DNN埋め込みではなくiベクターを組み込んだ解やPLDAについても簡潔に述べる。

We describe the Phonexia submission for the VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC-21) in the unsupervised speaker verification track. Our solution was very similar to IDLab's winning submission for VoxSRC-20. An embedding extractor was bootstrapped using momentum contrastive learning, with input augmentations as the only source of supervision. This was followed by several iterations of clustering to assign pseudo-speaker labels that were then used for supervised embedding extractor training. Finally, a score fusion was done, by averaging the zt-normalized cosine scores of five different embedding extractors. We briefly also describe unsuccessful solutions involving i-vectors instead of DNN embeddings and PLDA instead of cosine scoring.
翻訳日:2021-09-09 10:24:44 公開日:2021-09-08