このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200930となっている論文です。

PDF登録状況(公開日: 20200930)

TitleAuthorsAbstract論文公表日・翻訳日
# スパイク互換勾配を持つスパイクニューラルネットワークの逆攻撃探索

Exploring Adversarial Attack in Spiking Neural Networks with Spike-Compatible Gradient ( http://arxiv.org/abs/2001.01587v2 )

ライセンス: Link先を確認
Ling Liang, Xing Hu, Lei Deng, Yujie Wu, Guoqi Li, Yufei Ding, Peng Li, Yuan Xie(参考訳) 近年,時間にインスパイアされた学習アルゴリズムによるバックプロパゲーションがSNNに広く導入され,性能の向上が図られている。 本稿では,勾配入力不整合性と勾配消滅の課題に対処する2つの手法を提案する。 具体的には、スパイクインプットと互換性のある3次勾配に変換するために、スパイクコンバータへの勾配を設計する。 そして、3次勾配を設計し、すべてのゼロ勾配を満たすとき、スパイク入力を制御可能な回転率でランダムに反転させることができる。 これらの手法を組み合わせることで、教師付きアルゴリズムによって訓練されたSNNに対する敵攻撃手法を構築する。 さらに,トレーニング損失関数と,しきい値調整によって回避可能なクロスエントロピー損失下の「トラップ」領域を示すペナルティ層の発射しきい値の影響を解析した。 ソリューションの有効性を検証するために,広範な実験を行った。 影響要因の定量的分析に加えて、SNNはANNよりも敵攻撃に対して堅牢であることを示す。 この研究は、SNN攻撃で何が起こるかを明らかにするのに役立ち、SNNモデルとニューロモルフィックデバイスのセキュリティに関するさらなる研究を促進する可能性がある。

Recently, backpropagation through time inspired learning algorithms are widely introduced into SNNs to improve the performance, which brings the possibility to attack the models accurately given Spatio-temporal gradient maps. We propose two approaches to address the challenges of gradient input incompatibility and gradient vanishing. Specifically, we design a gradient to spike converter to convert continuous gradients to ternary ones compatible with spike inputs. Then, we design a gradient trigger to construct ternary gradients that can randomly flip the spike inputs with a controllable turnover rate, when meeting all zero gradients. Putting these methods together, we build an adversarial attack methodology for SNNs trained by supervised algorithms. Moreover, we analyze the influence of the training loss function and the firing threshold of the penultimate layer, which indicates a "trap" region under the cross-entropy loss that can be escaped by threshold tuning. Extensive experiments are conducted to validate the effectiveness of our solution. Besides the quantitative analysis of the influence factors, we evidence that SNNs are more robust against adversarial attack than ANNs. This work can help reveal what happens in SNN attack and might stimulate more research on the security of SNN models and neuromorphic devices.
翻訳日:2023-01-16 09:10:18 公開日:2020-09-30
# GPUカーネルの実行時間と消費電力の可搬性と高速予測のための簡易モデル

A Simple Model for Portable and Fast Prediction of Execution Time and Power Consumption of GPU Kernels ( http://arxiv.org/abs/2001.07104v3 )

ライセンス: Link先を確認
Lorenz Braun, Sotirios Nikas, Chen Song, Vincent Heuveline, Holger Fr\"oning(参考訳) 効率的なタスクスケジューリングのためにGPU上での計算カーネル実行の振る舞いを特徴付けるのは簡単ではない。 ハードウェアに依存しない機能のみを使用して、異なるGPU間でポータブルかつ高速な予測を可能にするシンプルなモデルでこの問題に対処する。 このモデルは、Parboil、Rodinia、Polybench-GPU、SHOCなどのベンチマークから189個の計算カーネルを使用してランダムフォレストに基づいて構築されている。 クロスバリデーションを用いたモデル性能の評価により、平均パーセンテージエラー(mape)は8.86-52.00%と1.84-2.94%となり、5つの異なるgpuでそれぞれ電力予測を行う。

Characterizing compute kernel execution behavior on GPUs for efficient task scheduling is a non-trivial task. We address this with a simple model enabling portable and fast predictions among different GPUs using only hardware-independent features. This model is built based on random forests using 189 individual compute kernels from benchmarks such as Parboil, Rodinia, Polybench-GPU and SHOC. Evaluation of the model performance using cross-validation yields a median Mean Average Percentage Error (MAPE) of 8.86-52.00% and 1.84-2.94%, for time respectively power prediction across five different GPUs, while latency for a single prediction varies between 15 and 108 milliseconds.
翻訳日:2023-01-08 05:48:15 公開日:2020-09-30
# 説明可能なアクティブラーニング(XAL):局所的説明がアノテーション体験に与える影響に関する実証的研究

Explainable Active Learning (XAL): An Empirical Study of How Local Explanations Impact Annotator Experience ( http://arxiv.org/abs/2001.09219v4 )

ライセンス: Link先を確認
Bhavya Ghai, Q. Vera Liao, Yunfeng Zhang, Rachel Bellamy, Klaus Mueller(参考訳) 機械学習技術の普及により、MLモデルをトレーニングできる人々への需要が急速に増加した。 mlモデルにドメイン知識を注入する人々の役割を「機械教師」と呼ぶことを提唱した者もいる。 1つの有望な学習パラダイムはアクティブラーニング(AL)であり、モデルがインテリジェントにインスタンスを選択し、機械教師にラベルを問い合わせる。 しかし、現在のAL設定では、人間-AIインターフェースは最小限で不透明である。 我々は、機械を教えるためのヒューマンAIインターフェースの中核要素としてAIの説明を考える。 人間の生徒が学ぶと、自分自身の推論と教師からのフィードバックを提示することが一般的なパターンとなる。 MLモデルが学習し、まだ間違いを犯すとき、人間の教師は、失敗の根底にある理由を理解できなければならない。 モデルが成熟すると、機械教師は、学習成果を信頼し、自信を持てるように、その進捗を認識できなければならない。 このビジョンに向けて,近年急増している説明可能なAI(XAI)のテクニックをAL設定に導入することにより,説明可能なアクティブラーニング(XAL)の新たなパラダイムを提案する。 我々は、モデル学習の結果、フィードバック内容、XALによる経験を従来のALと協調学習(説明なしにモデルの予測を提供する)と比較した実証的研究を行った。 本研究は, 機械教育におけるインターフェースとしてのai説明の利点, 信頼度校正の支援, リッチな教育フィードバックの活用, 潜在的な欠点, モデル判断と認知的作業負荷の短縮効果を示す。 また、タスク知識、AI経験、認知の必要性などを含む、AI説明に対する教師の反応を仲介する重要な個々の要因も明らかにした。 その結果を反映して,XALの今後の方向性と設計上の意義を提案する。

The wide adoption of Machine Learning technologies has created a rapidly growing demand for people who can train ML models. Some advocated the term "machine teacher" to refer to the role of people who inject domain knowledge into ML models. One promising learning paradigm is Active Learning (AL), by which the model intelligently selects instances to query the machine teacher for labels. However, in current AL settings, the human-AI interface remains minimal and opaque. We begin considering AI explanations as a core element of the human-AI interface for teaching machines. When a human student learns, it is a common pattern to present one's own reasoning and solicit feedback from the teacher. When a ML model learns and still makes mistakes, the human teacher should be able to understand the reasoning underlying the mistakes. When the model matures, the machine teacher should be able to recognize its progress in order to trust and feel confident about their teaching outcome. Toward this vision, we propose a novel paradigm of explainable active learning (XAL), by introducing techniques from the recently surging field of explainable AI (XAI) into an AL setting. We conducted an empirical study comparing the model learning outcomes, feedback content and experience with XAL, to that of traditional AL and coactive learning (providing the model's prediction without the explanation). Our study shows benefits of AI explanation as interfaces for machine teaching--supporting trust calibration and enabling rich forms of teaching feedback, and potential drawbacks--anchoring effect with the model judgment and cognitive workload. Our study also reveals important individual factors that mediate a machine teacher's reception to AI explanations, including task knowledge, AI experience and need for cognition. By reflecting on the results, we suggest future directions and design implications for XAL.
翻訳日:2023-01-07 05:08:40 公開日:2020-09-30
# WISDoM:Wishart分布を伴う神経学的時系列の特徴付け

WISDoM: characterizing neurological timeseries with the Wishart distribution ( http://arxiv.org/abs/2001.10342v2 )

ライセンス: Link先を確認
Carlo Mengucci, Daniel Remondini, Gastone Castellani, Enrico Giampieri(参考訳) WISDoM (Wishart Distributed Matrices) is a new framework for the quantification of deviation of symmetric positive-definite matrices associated to experimental samples, like covariance or correlation matrices, from expected ones governed by the Wishart distribution WISDoM can be applied to tasks of supervised learning, like classification, in particular when such matrices are generated by data of different dimensionality (e.g. time series with same number of variables but different time sampling). 本手法の適用例を2つの異なるシナリオで示す。 1つ目は、電子脳波(EEG)データに関連する特徴の時系列設計のランキングであり、このタイプの研究に理論的に健全なアプローチを提供する。 第二は、脳の接続測定を用いて、abide研究の自閉症の主題を分類することである。

WISDoM (Wishart Distributed Matrices) is a new framework for the quantification of deviation of symmetric positive-definite matrices associated to experimental samples, like covariance or correlation matrices, from expected ones governed by the Wishart distribution WISDoM can be applied to tasks of supervised learning, like classification, in particular when such matrices are generated by data of different dimensionality (e.g. time series with same number of variables but different time sampling). We show the application of the method in two different scenarios. The first is the ranking of features associated to electro encephalogram (EEG) data with a time series design, providing a theoretically sound approach for this type of studies. The second is the classification of autistic subjects of the ABIDE study, using brain connectivity measurements.
翻訳日:2023-01-06 02:40:53 公開日:2020-09-30
# 教師なし学習における複合型視覚-テンポラル埋め込み

Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in Untrimmed Sequences ( http://arxiv.org/abs/2001.11122v3 )

ライセンス: Link先を確認
Rosaura G. VidalMata, Walter J. Scheirer, Anna Kukleva, David Cox, Hilde Kuehne(参考訳) 非トリミングビデオにおける複雑な活動の構造を理解することは、アクション認識の分野で難しい課題である。 ここでの課題は、通常、このタスクは大量の手書きの1分または1時間のビデオデータを必要とするが、そのようなデータに注釈をつけるのは非常に時間がかかり、自動化やスケールが困難である。 この問題に対処するために,共同視覚・時間的埋め込み空間に基づくアントリミング映像系列における動作の教師なし学習手法を提案する。 この目的のために,予測的U-Netアーキテクチャに基づく視覚的埋め込みと時間的連続関数を組み合わせる。 結果の表現空間は、視覚的および時間的外観に基づいて関連するアクションクラスタを検出することができる。 提案手法は、3つの標準ベンチマークデータセット、Breakfast Actions、INRIA YouTube Instructional Videos、50 Saladsで評価される。 提案手法は,連続する映像フレームに存在する視覚手がかりから有意義な視覚的および時間的埋め込みが可能であり,非教師なしの行動の時間的セグメンテーションのタスクに適していることを示す。

Understanding the structure of complex activities in untrimmed videos is a challenging task in the area of action recognition. One problem here is that this task usually requires a large amount of hand-annotated minute- or even hour-long video data, but annotating such data is very time consuming and can not easily be automated or scaled. To address this problem, this paper proposes an approach for the unsupervised learning of actions in untrimmed video sequences based on a joint visual-temporal embedding space. To this end, we combine a visual embedding based on a predictive U-Net architecture with a temporal continuous function. The resulting representation space allows detecting relevant action clusters based on their visual as well as their temporal appearance. The proposed method is evaluated on three standard benchmark datasets, Breakfast Actions, INRIA YouTube Instructional Videos, and 50 Salads. We show that the proposed approach is able to provide a meaningful visual and temporal embedding out of the visual cues present in contiguous video frames and is suitable for the task of unsupervised temporal segmentation of actions.
翻訳日:2023-01-05 21:31:17 公開日:2020-09-30
# キャリブレートとプーン:予測キャリブレーションによるロッテティケットの信頼性向上

Calibrate and Prune: Improving Reliability of Lottery Tickets Through Prediction Calibration ( http://arxiv.org/abs/2002.03875v3 )

ライセンス: Link先を確認
Bindya Venkatesh, Jayaraman J. Thiagarajan, Kowshik Thopalli and Prasanna Sattigeri(参考訳) サブネットワーク初期化(lottery)が過パラメータネットワークの初期化の中に存在するという仮説は、孤立的に訓練された時に非常に一般化可能なモデルが生成され、ネットワーク初期化に関する重要な洞察をもたらし、効率的な参照を可能にした。 未確認の信頼を持つ監視されたモデルは、誤った予測をしたとしても過信される傾向がある。 本稿では,本論文で初めて,過小評価ネットワークにおける信頼度校正が抽選チケットの品質に与える影響について検討する。 具体的には、混合正則化、分散重み付き信頼度校正から、新しく提案された可能性に基づく校正と正規化ビン割り当て戦略まで、一連の校正戦略を取り入れる。 さらに,アーキテクチャとデータセットの異なる組み合わせを検討し,信頼度校正の役割に関する多くの重要な発見を行う。 我々の経験的研究は、キャリブレーション機構を組み込むことで、ソースデータセットに対して挑戦的な分散シフトを伴うデータを用いて再トレーニングした場合でも、精度や経験的キャリブレーション指標の観点からも、より効果的な宝くじチケットを確実に得ることを示した。

The hypothesis that sub-network initializations (lottery) exist within the initializations of over-parameterized networks, which when trained in isolation produce highly generalizable models, has led to crucial insights into network initialization and has enabled efficient inferencing. Supervised models with uncalibrated confidences tend to be overconfident even when making wrong prediction. In this paper, for the first time, we study how explicit confidence calibration in the over-parameterized network impacts the quality of the resulting lottery tickets. More specifically, we incorporate a suite of calibration strategies, ranging from mixup regularization, variance-weighted confidence calibration to the newly proposed likelihood-based calibration and normalized bin assignment strategies. Furthermore, we explore different combinations of architectures and datasets, and make a number of key findings about the role of confidence calibration. Our empirical studies reveal that including calibration mechanisms consistently lead to more effective lottery tickets, in terms of accuracy as well as empirical calibration metrics, even when retrained using data with challenging distribution shifts with respect to the source dataset.
翻訳日:2023-01-02 08:01:35 公開日:2020-09-30
# 極小分布型ソフトアクターによる強化学習の一般化

Improving Generalization of Reinforcement Learning with Minimax Distributional Soft Actor-Critic ( http://arxiv.org/abs/2002.05502v2 )

ライセンス: Link先を確認
Yangang Ren, Jingliang Duan, Shengbo Eben Li, Yang Guan and Qi Sun(参考訳) 強化学習(rl)は、多くの逐次的意思決定と制御タスクで顕著なパフォーマンスを達成している。 しかし、一般的な問題は、学習されたほぼ最適なポリシーが常にトレーニング環境に適合し、トレーニング中に遭遇したことのない状況にまで拡張されないことである。 実用的な用途では、環境のランダム性は、通常、破壊的な事象を招き、自動運転のような安全クリティカルなシステムの焦点となる。 本稿では,rlアルゴリズムの一般化能力を向上させるための minimax 定式化と分散フレームワークを導入し,minimax 分散ソフトアクタ-クリティック (minimax dsac) アルゴリズムを開発した。 ミニマックスの定式化は、敵の政策が最小化しようとする間、主人公の政策が行動価値関数を最大化する環境からの最も厳しい変化を考慮した最適政策を求めることを目的としている。 分散フレームワークは、異なるリターンのリスクを明示的にモデル化し、リスク回避のプロタゴニストポリシーとリスクを探索する敵政策を定式化できる状態-アクションのリターン分布を学習することを目的としている。 交差点における自動運転車の意思決定タスクに本手法を適用し,異なる環境下で訓練されたポリシーをテストする。 その結果, 本手法は, プロタゴニスト剤の一般化能力を大幅に向上させ, 環境変動を緩和できることを示した。

Reinforcement learning (RL) has achieved remarkable performance in numerous sequential decision making and control tasks. However, a common problem is that learned nearly optimal policy always overfits to the training environment and may not be extended to situations never encountered during training. For practical applications, the randomness of environment usually leads to some devastating events, which should be the focus of safety-critical systems such as autonomous driving. In this paper, we introduce the minimax formulation and distributional framework to improve the generalization ability of RL algorithms and develop the Minimax Distributional Soft Actor-Critic (Minimax DSAC) algorithm. Minimax formulation aims to seek optimal policy considering the most severe variations from environment, in which the protagonist policy maximizes action-value function while the adversary policy tries to minimize it. Distributional framework aims to learn a state-action return distribution, from which we can model the risk of different returns explicitly, thereby formulating a risk-averse protagonist policy and a risk-seeking adversarial policy. We implement our method on the decision-making tasks of autonomous vehicles at intersections and test the trained policy in distinct environments. Results demonstrate that our method can greatly improve the generalization ability of the protagonist agent to different environmental variations.
翻訳日:2023-01-01 09:52:59 公開日:2020-09-30
# 自己適応型トレーニング:経験的リスク最小化を超えて

Self-Adaptive Training: beyond Empirical Risk Minimization ( http://arxiv.org/abs/2002.10319v2 )

ライセンス: Link先を確認
Lang Huang, Chao Zhang, Hongyang Zhang(参考訳) 計算コストを伴わずにモデル予測によって問題のあるトレーニングラベルを動的に修正する学習アルゴリズムを提案する。 この問題は、ラベルノイズや分散サンプルによって破損したデータから堅牢に学習する上で重要である。 しかし、そのようなデータに対する標準的な経験的リスク最小化(ERM)は、ノイズを過度に過小評価し、したがって準最適性能を損なう可能性がある。 本稿では,モデル予測がトレーニングプロセスに有効であることを示す。自己適応型トレーニングは,様々なノイズレベル下でのERMの一般化を著しく改善し,自然と敵の両方のトレーニングにおいて過度に適合する問題を緩和する。 自己適応訓練の誤り容量曲線を評価する: テスト誤差は一律にw.r.t.モデル容量を減少させる。 これは、最近発見されたEMMの二重発振現象とは対照的であり、これはノイズの過度な収差の結果かもしれない。 CIFARとImageNetデータセットを用いた実験により,ラベルノイズを用いた分類と選択的分類の2つの手法によるアプローチの有効性が検証された。 コードをhttps://github.com/LayneH/self-adaptive-trainingでリリースしています。

We propose self-adaptive training---a new training algorithm that dynamically corrects problematic training labels by model predictions without incurring extra computational cost---to improve generalization of deep learning for potentially corrupted training data. This problem is crucial towards robustly learning from data that are corrupted by, e.g., label noises and out-of-distribution samples. The standard empirical risk minimization (ERM) for such data, however, may easily overfit noises and thus suffers from sub-optimal performance. In this paper, we observe that model predictions can substantially benefit the training process: self-adaptive training significantly improves generalization over ERM under various levels of noises, and mitigates the overfitting issue in both natural and adversarial training. We evaluate the error-capacity curve of self-adaptive training: the test error is monotonously decreasing w.r.t. model capacity. This is in sharp contrast to the recently-discovered double-descent phenomenon in ERM which might be a result of overfitting of noises. Experiments on CIFAR and ImageNet datasets verify the effectiveness of our approach in two applications: classification with label noise and selective classification. We release our code at https://github.com/LayneH/self-adaptive-training.
翻訳日:2022-12-29 02:43:47 公開日:2020-09-30
# 最大平均離散化を用いたベイズニューラルネットワーク

Bayesian Neural Networks With Maximum Mean Discrepancy Regularization ( http://arxiv.org/abs/2003.00952v2 )

ライセンス: Link先を確認
Jary Pomponi, Simone Scardapane, and Aurelio Uncini(参考訳) ベイジアンニューラルネットワーク(bnns)は、単一のセットではなく、重みよりも全体の分布を最適化するように訓練され、解釈可能性、マルチタスク学習、キャリブレーションといった点で大きな利点がある。 結果として生じる最適化問題の難解性のため、ほとんどのbnnはモンテカルロ法でサンプル化されるか、あるいは変分近似に対して適切なエビデンス下限 (elbo) を最小化することで訓練される。 本稿では, ELBO項におけるKulback-Leiblerの発散を, 変分推論における最近の研究から着想を得た最大平均離散性(MMD)推定器に置き換えた。 mmd項の性質に基づいて提案を動機づけた結果,提案手法は最先端技術よりも多くの実証的利点を示すことができた。 特に、画像分類タスクを含む複数のベンチマークにおいて、BNNは高い精度を達成する。 さらに、重みよりも前のものを選ぶ方が頑丈で、より校正が良い。 第2の貢献として,与えられた予測に対する不確かさを推定するための新しい定式化を提案する。差分エントロピーのような古典的基準と比較して,敵の攻撃や入力に対するノイズの注入に対して,より強固な方法で実行することを示す。

Bayesian Neural Networks (BNNs) are trained to optimize an entire distribution over their weights instead of a single set, having significant advantages in terms of, e.g., interpretability, multi-task learning, and calibration. Because of the intractability of the resulting optimization problem, most BNNs are either sampled through Monte Carlo methods, or trained by minimizing a suitable Evidence Lower BOund (ELBO) on a variational approximation. In this paper, we propose a variant of the latter, wherein we replace the Kullback-Leibler divergence in the ELBO term with a Maximum Mean Discrepancy (MMD) estimator, inspired by recent work in variational inference. After motivating our proposal based on the properties of the MMD term, we proceed to show a number of empirical advantages of the proposed formulation over the state-of-the-art. In particular, our BNNs achieve higher accuracy on multiple benchmarks, including several image classification tasks. In addition, they are more robust to the selection of a prior over the weights, and they are better calibrated. As a second contribution, we provide a new formulation for estimating the uncertainty on a given prediction, showing it performs in a more robust fashion against adversarial attacks and the injection of noise over their inputs, compared to more classical criteria such as the differential entropy.
翻訳日:2022-12-27 04:20:44 公開日:2020-09-30
# ピラミッドエッジマップと注意に基づく誘導熱超解像

Pyramidal Edge-maps and Attention based Guided Thermal Super-resolution ( http://arxiv.org/abs/2003.06216v2 )

ライセンス: Link先を確認
Honey Gupta and Kaushik Mitra(参考訳) 可視域画像を用いた熱画像の誘導超解像(gsr)は,画像間のスペクトル範囲の違いから困難である。 このことは、超解熱画像のぼやけやゴーストとして現れる画像の間に大きなテクスチャミスマッチが存在することを意味している。 そこで本研究では,可視画像から抽出したピラミッドエッジマップに基づくgsrの新しいアルゴリズムを提案する。 提案するネットワークには2つのサブネットワークがある。 第1のサブネットワークは低分解能熱像を超解し、第2のサブネットワークは可視像からエッジマップを増大する知覚スケールで取得し、注意に基づく融合の助けを借りて超解像サブネットワークに統合する。 マルチレベルエッジの抽出と統合により、スーパーレゾリューションネットワークは、テクスチャからオブジェクトレベルの情報を徐々に処理することができ、入力画像間の重なり合うエッジをより簡単に識別することができる。 広範な実験により,本モデルがgsr法を定量的に,質的に上回っていることが示された。

Guided super-resolution (GSR) of thermal images using visible range images is challenging because of the difference in the spectral-range between the images. This in turn means that there is significant texture-mismatch between the images, which manifests as blur and ghosting artifacts in the super-resolved thermal image. To tackle this, we propose a novel algorithm for GSR based on pyramidal edge-maps extracted from the visible image. Our proposed network has two sub-networks. The first sub-network super-resolves the low-resolution thermal image while the second obtains edge-maps from the visible image at a growing perceptual scale and integrates them into the super-resolution sub-network with the help of attention-based fusion. Extraction and integration of multi-level edges allows the super-resolution network to process texture-to-object level information progressively, enabling more straightforward identification of overlapping edges between the input images. Extensive experiments show that our model outperforms the state-of-the-art GSR methods, both quantitatively and qualitatively.
翻訳日:2022-12-24 02:00:51 公開日:2020-09-30
# tune smarter not harder: 浅いネットの学習率を原理的に調整するアプローチ

Tune smarter not harder: A principled approach to tuning learning rates for shallow nets ( http://arxiv.org/abs/2003.09844v3 )

ライセンス: Link先を確認
Thulasi Tholeti, Sheetal Kalyani(参考訳) ニューラルネットワークの既知のパフォーマンスを保証するためには,効果的なハイパーパラメータチューニングが不可欠だ。 本研究では,浅層フィードフォワードニューラルネットワークに対して,学習率選択のための原理的アプローチを提案する。 学習率と学習中の目標の勾配リプシッツ定数を関連付ける。 上記の定数の上界が導出され、常に非発散トレースとなる探索アルゴリズムが導出境界を利用するために提案される。 提案手法は,木パルゼン推定器 (tree parzen estimator, tpe) のような既存のチューニング手法を大きく上回っている。 提案手法は3つの既存アプリケーションに適用される。 a) OFDMシステムにおけるチャネル推定 b)為替レートの予測及び c)OFDM受信機におけるオフセット推定を行い、同一またはより少ない計算パワーを用いた既存手法よりも学習率の向上が示されている。

Effective hyper-parameter tuning is essential to guarantee the performance that neural networks have come to be known for. In this work, a principled approach to choosing the learning rate is proposed for shallow feedforward neural networks. We associate the learning rate with the gradient Lipschitz constant of the objective to be minimized while training. An upper bound on the mentioned constant is derived and a search algorithm, which always results in non-divergent traces, is proposed to exploit the derived bound. It is shown through simulations that the proposed search method significantly outperforms the existing tuning methods such as Tree Parzen Estimators (TPE). The proposed method is applied to three different existing applications: a) channel estimation in OFDM systems, b) prediction of the exchange currency rates and c) offset estimation in OFDM receivers, and it is shown to pick better learning rates than the existing methods using the same or lesser compute power.
翻訳日:2022-12-21 05:26:12 公開日:2020-09-30
# 合理的ニューラルネットワーク

Rational neural networks ( http://arxiv.org/abs/2004.01902v2 )

ライセンス: Link先を確認
Nicolas Boull\'e, Yuji Nakatsukasa, Alex Townsend(参考訳) 我々は合理的な活性化機能を持つニューラルネットワークを考える。 ディープラーニングアーキテクチャにおける非線形活性化関数の選択は重要であり、ニューラルネットワークの性能に大きな影響を及ぼす。 ネットワーク複雑性の観点から最適境界を定め、有理ニューラルネットワークが指数関数的に小さいreluネットワークよりも滑らかな関数を近似することを証明した。 有理活性化関数の柔軟性と滑らかさは、数値実験で示すように、ReLUの代替となる。

We consider neural networks with rational activation functions. The choice of the nonlinear activation function in deep learning architectures is crucial and heavily impacts the performance of a neural network. We establish optimal bounds in terms of network complexity and prove that rational neural networks approximate smooth functions more efficiently than ReLU networks with exponentially smaller depth. The flexibility and smoothness of rational activation functions make them an attractive alternative to ReLU, as we demonstrate with numerical experiments.
翻訳日:2022-12-16 22:35:37 公開日:2020-09-30
# よりデータ、より関係性、よりコンテキスト、よりオープン性:関係抽出のレビューと展望

More Data, More Relations, More Context and More Openness: A Review and Outlook for Relation Extraction ( http://arxiv.org/abs/2004.03186v3 )

ライセンス: Link先を確認
Xu Han, Tianyu Gao, Yankai Lin, Hao Peng, Yaoliang Yang, Chaojun Xiao, Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou(参考訳) 関係事実は人間の知識の重要な構成要素であり、大量のテキストに隠されている。 これらの事実をテキストから抽出するために、人々は長年、関係抽出(RE)に取り組んでいる。 初期のパターンマッチングから現在のニューラルネットワークに至るまで、既存のREメソッドは大きな進歩を遂げている。 より強力なREシステムは、より多くのデータを堅牢に利用し、より関係を効率的に学習し、より複雑なコンテキストを容易に処理し、よりオープンなドメインに柔軟に一般化することができる。 本稿では、既存のRE手法を振り返り、現在直面している重要な課題を分析し、より強力なREに向けた有望な方向性を示す。 私たちの見解がこの分野を前進させ、コミュニティのさらなる努力を刺激できることを願っています。

Relational facts are an important component of human knowledge, which are hidden in vast amounts of text. In order to extract these facts from text, people have been working on relation extraction (RE) for years. From early pattern matching to current neural networks, existing RE methods have achieved significant progress. Yet with explosion of Web text and emergence of new relations, human knowledge is increasing drastically, and we thus require "more" from RE: a more powerful RE system that can robustly utilize more data, efficiently learn more relations, easily handle more complicated context, and flexibly generalize to more open domains. In this paper, we look back at existing RE methods, analyze key challenges we are facing nowadays, and show promising directions towards more powerful RE. We hope our view can advance this field and inspire more efforts in the community.
翻訳日:2022-12-15 23:47:27 公開日:2020-09-30
# オープンドメイン質問応答のためのDense Passage Retrieval

Dense Passage Retrieval for Open-Domain Question Answering ( http://arxiv.org/abs/2004.04906v3 )

ライセンス: Link先を確認
Vladimir Karpukhin, Barlas O\u{g}uz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih(参考訳) オープンドメイン質問応答は、TF-IDFやBM25のような伝統的なスパースベクトル空間モデルがデファクト法であるような、選択された候補コンテキストに対する効率的な経路探索に依存する。 そこで本研究では,単純な二重エンコーダフレームワークを用いて,少数の質問やパスから埋め込みを学習し,高密度表現のみを用いて検索を実践可能であることを示す。 広い範囲のオープンドメインQAデータセットで評価すると、この高密度検索システムは、トップ20パスの取得精度において、9%-19%の絶対値で、強力なLucene-BM25システムより優れています。

Open-domain question answering relies on efficient passage retrieval to select candidate contexts, where traditional sparse vector space models, such as TF-IDF or BM25, are the de facto method. In this work, we show that retrieval can be practically implemented using dense representations alone, where embeddings are learned from a small number of questions and passages by a simple dual-encoder framework. When evaluated on a wide range of open-domain QA datasets, our dense retriever outperforms a strong Lucene-BM25 system largely by 9%-19% absolute in terms of top-20 passage retrieval accuracy, and helps our end-to-end QA system establish new state-of-the-art on multiple open-domain QA benchmarks.
翻訳日:2022-12-14 20:54:14 公開日:2020-09-30
# 3次元形状カテゴリー構築のための視覚政策の学習

Learning visual policies for building 3D shape categories ( http://arxiv.org/abs/2004.07950v2 )

ライセンス: Link先を確認
Alexander Pashevich, Igor Kalevatykh, Ivan Laptev, Cordelia Schmid(参考訳) 操作とアセンブリタスクは、環境と最終目標に応じて、アクションの非自明な計画を必要とする。 この領域における以前の作業は、しばしば既知のプリミティブの集合から特定のオブジェクトのインスタンスを組み立てる。 対照的に、我々は様々なプリミティブの集合を扱い、形状圏の異なるオブジェクトを構築することを目指している。 カテゴリの1つのオブジェクトインスタンス、例えばアーチとバイナリ形状分類器が与えられたとき、私たちは同じカテゴリの他のインスタンスを組み立てるためのビジュアルポリシーを学習します。 特に,分解手順を提案し,状態空間における新しいオブジェクトインスタンスとそれらのアセンブリ計画を発見する状態ポリシーを学習する。 次に、観測空間にシミュレーションされた状態をレンダリングし、入力画像から代替行動を予測するためのヒートマップ表現を学習する。 提案手法の有効性を検証するために,状態空間におけるオブジェクトカテゴリ構築の効率性を示す。 次に、異なるプリミティブからアーチを構築するための視覚ポリシーの成功を示します。 さらに、我々は (i)追加のプリミティブを使ってオブジェクトを再組み立てる手法の反応性 (II)トレーニング時に使用するビルディングブロックに類似した未確認プリミティブに対するポリシーの堅牢な性能。 我々の視覚アセンブリポリシーは、実際の画像なしで訓練され、実際のロボットで評価した場合、95%の成功率に達する。

Manipulation and assembly tasks require non-trivial planning of actions depending on the environment and the final goal. Previous work in this domain often assembles particular instances of objects from known sets of primitives. In contrast, we aim to handle varying sets of primitives and to construct different objects of a shape category. Given a single object instance of a category, e.g. an arch, and a binary shape classifier, we learn a visual policy to assemble other instances of the same category. In particular, we propose a disassembly procedure and learn a state policy that discovers new object instances and their assembly plans in state space. We then render simulated states in the observation space and learn a heatmap representation to predict alternative actions from a given input image. To validate our approach, we first demonstrate its efficiency for building object categories in state space. We then show the success of our visual policies for building arches from different primitives. Moreover, we demonstrate (i) the reactive ability of our method to re-assemble objects using additional primitives and (ii) the robust performance of our policy for unseen primitives resembling building blocks used during training. Our visual assembly policies are trained with no real images and reach up to 95% success rate when evaluated on a real robot.
翻訳日:2022-12-13 02:36:35 公開日:2020-09-30
# グラフ分析クエリの表現性とプログラム性

Taming the Expressiveness and Programmability of Graph Analytical Queries ( http://arxiv.org/abs/2004.09045v2 )

ライセンス: Link先を確認
Lu Qin, Longbin Lai, Kongzhang Hao, Zhongxin Zhou, Yiwei Zhao, Yuxing Han, Xuemin Lin, Zhengping Qian, Jingren Zhou(参考訳) グラフデータベースはこの10年でブームを迎えており、それゆえグラフクエリは学界と業界の両方から多くの注目を集めている。 本稿では,分析クエリに着目した。 完全性,表現性,プログラマビリティの観点に関する分析クエリのための既存のドメイン固有言語(DSL)を分析しながら,既存の作業がこれらの観点を満足できる範囲でカバーできていないことを発見した。 そこで我々は,3つのプリミティブ演算子であるLocAlとPuSHに因んで命名された \flash DSL を提案する。 我々は、 \flash がチューリング完全(完全性)であることを証明し、分析クエリの表現性とプログラム性の両方を達成することを示す。 我々は、コード生成に基づく \flash の実装を提供し、ネイティブな c++ コードや既存の dsl と比較する。 実験の結果は, \flashの表現性と, 良好な実行環境を実現する複雑なアルゴリズムのプログラミング能力を示している。

Graph database has enjoyed a boom in the last decade, and graph queries accordingly gain a lot of attentions from both the academia and industry. We focus on analytical queries in this paper. While analyzing existing domain-specific languages (DSLs) for analytical queries regarding the perspectives of completeness, expressiveness and programmability, we find out that none of existing work has achieved a satisfactory coverage of these perspectives. Motivated by this, we propose the \flash DSL, which is named after the three primitive operators Filter, LocAl and PuSH. We prove that \flash is Turing complete (completeness), and show that it achieves both good expressiveness and programmability for analytical queries. We provide an implementation of \flash based on code generation, and compare it with native C++ codes and existing DSL using representative queries. The experiment results demonstrate \flash's expressiveness, and its capability of programming complex algorithms that achieve satisfactory runtime.
翻訳日:2022-12-11 19:04:57 公開日:2020-09-30
# ESPnet-ST:オールインワン音声翻訳ツールキット

ESPnet-ST: All-in-One Speech Translation Toolkit ( http://arxiv.org/abs/2004.10234v2 )

ライセンス: Link先を確認
Hirofumi Inaguma, Shun Kiyono, Kevin Duh, Shigeki Karita, Nelson Enrique Yalta Soplin, Tomoki Hayashi, Shinji Watanabe(参考訳) ESPnet-STは,音声から音声への翻訳を1つのフレームワークで迅速に行うためのシステムである。 ESPnet-STは、音声認識、機械翻訳、音声翻訳のためのテキスト音声機能を統合する、あるいは新たに実装したエンドツーエンド音声処理ツールキットである。 データ前処理、特徴抽出、トレーニング、および幅広いベンチマークデータセットのためのデコーディングパイプラインを含む、オールインワンのレシピを提供する。 我々の再現可能な結果は、現在の最先端のパフォーマンスにマッチしたり、性能を上回ります。 このツールキットはhttps://github.com/espnet/espnetで公開されている。

We present ESPnet-ST, which is designed for the quick development of speech-to-speech translation systems in a single framework. ESPnet-ST is a new project inside end-to-end speech processing toolkit, ESPnet, which integrates or newly implements automatic speech recognition, machine translation, and text-to-speech functions for speech translation. We provide all-in-one recipes including data pre-processing, feature extraction, training, and decoding pipelines for a wide range of benchmark datasets. Our reproducible results can match or even outperform the current state-of-the-art performances; these pre-trained models are downloadable. The toolkit is publicly available at https://github.com/espnet/espnet.
翻訳日:2022-12-11 07:34:20 公開日:2020-09-30
# ディファレンシャル機械学習

Differential Machine Learning ( http://arxiv.org/abs/2005.02347v4 )

ライセンス: Link先を確認
Brian Huge and Antoine Savine(参考訳) ディファレンシャル機械学習は、金融デリバティブのリスク管理の文脈において、自動随伴微分(aad)と現代機械学習(ml)を組み合わせる。 高速で正確な価格とリスク近似をオンライン,リアルタイムに,収束保証付きでトレーニングするための新しいアルゴリズムを導入する。 我々の機械は、市場変数の任意の確率モデルの下で、任意のデリバティブやトレーディングブックに適用できる。 デリバティブのリスクレポートと資本計算の計算ボトルネックを効果的に解決する。 Differential MLは教師付き学習の一般的な拡張であり、MLモデルは入力とラベルの例だけでなくラベルのwrt入力の差分についても訓練される。 また、高品質な一階導関数wrtトレーニングインプットが利用できる金融以外の多くの状況にも当てはまる。 例えば、物理学における応用は、関数近似をより効果的に学ぶために第一原理から知られている微分を活用できる。 ファイナンスにおいて、AADは顕著な有効性で経路微分を計算するので、微分MLアルゴリズムは極めて効果的な価格とリスク近似を提供する。 クローズドフォームソリューションには複雑すぎるモデルで高速な分析を作成でき、複雑なトランザクションやトレーディングブックのリスクファクタを抽出し、多数のシナリオにわたるレポートや、ヘッジファンド戦略のバックテストやシミュレーション、XVA、CCR、FRTB、SIMM-MVAといった規制といったリスク管理メトリクスを効果的に計算することができます。 TensorFlowの実装はhttps://github.com/differential-machine-learningで利用可能

Differential machine learning combines automatic adjoint differentiation (AAD) with modern machine learning (ML) in the context of risk management of financial Derivatives. We introduce novel algorithms for training fast, accurate pricing and risk approximations, online, in real-time, with convergence guarantees. Our machinery is applicable to arbitrary Derivatives instruments or trading books, under arbitrary stochastic models of the underlying market variables. It effectively resolves computational bottlenecks of Derivatives risk reports and capital calculations. Differential ML is a general extension of supervised learning, where ML models are trained on examples of not only inputs and labels but also differentials of labels wrt inputs. It is also applicable in many situations outside finance, where high quality first-order derivatives wrt training inputs are available. Applications in Physics, for example, may leverage differentials known from first principles to learn function approximations more effectively. In finance, AAD computes pathwise differentials with remarkable efficacy so differential ML algorithms provide extremely effective pricing and risk approximations. We can produce fast analytics in models too complex for closed form solutions, extract the risk factors of complex transactions and trading books, and effectively compute risk management metrics like reports across a large number of scenarios, backtesting and simulation of hedge strategies, or regulations like XVA, CCR, FRTB or SIMM-MVA. TensorFlow implementation is available on https://github.com/differential-machine-learning
翻訳日:2022-12-06 14:43:57 公開日:2020-09-30
# ニューラルネットワーク(ELNet)を用いたMRIによる膝関節損傷検出

Knee Injury Detection using MRI with Efficiently-Layered Network (ELNet) ( http://arxiv.org/abs/2005.02706v3 )

ライセンス: Link先を確認
Chen-Han Tsai, Nahum Kiryati, Eli Konen, Iris Eshed, Arnaldo Mayer(参考訳) 磁気共鳴イメージング(MRI)は膝関節損傷解析のための広く受け入れられている画像技術である。 膝の構造を3次元で捉えることの利点は、放射線技師が膝の潜在的な涙を見つけるのに理想的な道具である。 筋骨格(MSK)放射線科医の作業負荷の増大に対処するためには、患者のトリアージのための自動化ツールが本当に必要となり、疾患の読影の遅れが軽減されている。 本研究では,三肢MRIの早期診断に最適化された畳み込みニューラルネットワーク(CNN)アーキテクチャであるELNetを提案する。 従来のアプローチとは異なり、転送学習アプローチではなく、ゼロからELNetをトレーニングします。 提案手法は定量的に定性的に検証され,入力として1枚のイメージングスタック(軸あるいはコロナ)を使用しながら,最先端のMRNetと良好に比較する。 また,トレーニング中に局所的な情報がないにもかかわらず,膝の裂け目を見つけるためのモデルの能力を示す。 最後に、提案モデルは非常に軽量($1MB)であるため、実際の臨床環境でのトレーニングやデプロイが容易である。 私たちのモデルのコードは以下の通りです。

Magnetic Resonance Imaging (MRI) is a widely-accepted imaging technique for knee injury analysis. Its advantage of capturing knee structure in three dimensions makes it the ideal tool for radiologists to locate potential tears in the knee. In order to better confront the ever growing workload of musculoskeletal (MSK) radiologists, automated tools for patients' triage are becoming a real need, reducing delays in the reading of pathological cases. In this work, we present the Efficiently-Layered Network (ELNet), a convolutional neural network (CNN) architecture optimized for the task of initial knee MRI diagnosis for triage. Unlike past approaches, we train ELNet from scratch instead of using a transfer-learning approach. The proposed method is validated quantitatively and qualitatively, and compares favorably against state-of-the-art MRNet while using a single imaging stack (axial or coronal) as input. Additionally, we demonstrate our model's capability to locate tears in the knee despite the absence of localization information during training. Lastly, the proposed model is extremely lightweight ($<$ 1MB) and therefore easy to train and deploy in real clinical settings. The code for our model is provided at: https://github.com/mxtsai/ELNet.
翻訳日:2022-12-06 06:08:18 公開日:2020-09-30
# ストリーミングASRのためのモノトニックマルチヘッドアテンションの強化

Enhancing Monotonic Multihead Attention for Streaming ASR ( http://arxiv.org/abs/2005.09394v3 )

ライセンス: Link先を確認
Hirofumi Inaguma, Masato Mimura, Tatsuya Kawahara(参考訳) オンラインストリーミングアプリケーションを対象としたトランスフォーマーに基づく自動音声認識(ASR)にハード・モノトニック・アテンションを拡張してモノトニック・マルチヘッド・アテンション(MMA)を検討する。 ストリーミング推論では、すべてのモノトニックアテンション(MA)ヘッドは、すべてのヘッドが対応するトークン境界を検出するまで次のトークンが生成されないため、適切なアライメントを学習する必要がある。 しかし、すべてのMAヘッドが na\ な実装でアライメントを学ぶわけではない。 各頭がアライメントを適切に学習するように促すため,訓練中に頭部の一部を確率的にマスキングすることで,ヘッドドロップ正規化を提案する。 さらに,境界検出のためのヘッド間のコンセンサスを改善し,そのヘッドによる遅延トークン発生を防止するため,冗長ヘッドをプルーピングする手法を提案する。 各MAヘッドに対するチャンクワイズアテンションは、マルチヘッド相手に拡張される。 最後に、安定なストリーミング推論を保証するために、ヘッド同期ビームサーチデコーディングを提案する。

We investigate a monotonic multihead attention (MMA) by extending hard monotonic attention to Transformer-based automatic speech recognition (ASR) for online streaming applications. For streaming inference, all monotonic attention (MA) heads should learn proper alignments because the next token is not generated until all heads detect the corresponding token boundaries. However, we found not all MA heads learn alignments with a na\"ive implementation. To encourage every head to learn alignments properly, we propose HeadDrop regularization by masking out a part of heads stochastically during training. Furthermore, we propose to prune redundant heads to improve consensus among heads for boundary detection and prevent delayed token generation caused by such heads. Chunkwise attention on each MA head is extended to the multihead counterpart. Finally, we propose head-synchronous beam search decoding to guarantee stable streaming inference.
翻訳日:2022-12-01 13:30:53 公開日:2020-09-30
# プリトレーニングエンコーダ・デコーダモデルを用いた文法的誤り訂正のためのより強固なベースライン

Stronger Baselines for Grammatical Error Correction Using Pretrained Encoder-Decoder Model ( http://arxiv.org/abs/2005.11849v2 )

ライセンス: Link先を確認
Satoru Katsumata and Mamoru Komachi(参考訳) 文法的誤り訂正(GEC)の研究は、大量の擬似データを用いたSeq2Seqモデルの事前学習の有効性を報告している。 しかし、この手法では擬似データのサイズのため、ECCの事前学習に時間がかかる。 本研究では,GECの汎用事前学習エンコーダデコーダモデルとして,双方向・自動回帰変換器(BART)の有用性を検討する。 GECにこの一般的な事前訓練モデルを用いることで、時間を要する事前訓練を排除できる。 単言語および多言語BARTモデルはGECにおいて高い性能を達成でき、その結果の1つは現在の英語GECの強い結果に匹敵するものである。 私たちの実装はGitHubで公開されています(https://github.com/Katsumata420/generic-pretrained-GEC)。

Studies on grammatical error correction (GEC) have reported the effectiveness of pretraining a Seq2Seq model with a large amount of pseudodata. However, this approach requires time-consuming pretraining for GEC because of the size of the pseudodata. In this study, we explore the utility of bidirectional and auto-regressive transformers (BART) as a generic pretrained encoder-decoder model for GEC. With the use of this generic pretrained model for GEC, the time-consuming pretraining can be eliminated. We find that monolingual and multilingual BART models achieve high performance in GEC, with one of the results being comparable to the current strong results in English GEC. Our implementations are publicly available at GitHub (https://github.com/Katsumata420/generic-pretrained-GEC).
翻訳日:2022-11-29 13:40:36 公開日:2020-09-30
# 英語の中間タスクトレーニングはゼロショット言語間転送も改善

English Intermediate-Task Training Improves Zero-Shot Cross-Lingual Transfer Too ( http://arxiv.org/abs/2005.13013v2 )

ライセンス: Link先を確認
Jason Phang, Iacer Calixto, Phu Mon Htut, Yada Pruksachatkun, Haokun Liu, Clara Vania, Katharina Kann, Samuel R. Bowman(参考訳) 中間タスクトレーニング(intermediate-task training) - 事前学習されたモデルを中間タスクに微調整し、ターゲットタスクで再度微調整する - は、多くの場合、単言語英語設定の言語理解タスクにおいて、モデルパフォーマンスを実質的に向上させる。 英語の中間タスクトレーニングが英語以外の目標タスクにまだ有効かどうかを検討する。 9つの中間言語に基づくタスクを用いて、XTREMEベンチマークでゼロショットのクロスランガル設定で中間タスク転送を評価する。 BUCC と Tatoeba の文検索タスクの中間訓練と質問応答対象タスクの適度な改善から大きな改善が期待できる。 MNLI、SQuAD、HellaSwagは中間タスクとして最高の結果を得る一方、マルチタスク中間は小さな改善を提供する。 対象タスク毎に最適な中間タスクモデルを用いて、XTREMEベンチマークでXLM-R Largeよりも5.4ポイント向上し、2020年6月現在、最先端技術が設定されている。 また、中間タスクトレーニングや機械翻訳中間タスクデータを用いた多言語MLMの継続についても検討するが、英語の中間タスクトレーニングよりも一貫して優れていない。

Intermediate-task training---fine-tuning a pretrained model on an intermediate task before fine-tuning again on the target task---often improves model performance substantially on language understanding tasks in monolingual English settings. We investigate whether English intermediate-task training is still helpful on non-English target tasks. Using nine intermediate language-understanding tasks, we evaluate intermediate-task transfer in a zero-shot cross-lingual setting on the XTREME benchmark. We see large improvements from intermediate training on the BUCC and Tatoeba sentence retrieval tasks and moderate improvements on question-answering target tasks. MNLI, SQuAD and HellaSwag achieve the best overall results as intermediate tasks, while multi-task intermediate offers small additional improvements. Using our best intermediate-task models for each target task, we obtain a 5.4 point improvement over XLM-R Large on the XTREME benchmark, setting the state of the art as of June 2020. We also investigate continuing multilingual MLM during intermediate-task training and using machine-translated intermediate-task data, but neither consistently outperforms simply performing English intermediate-task training.
翻訳日:2022-11-29 00:05:20 公開日:2020-09-30
# SemEval-2020 Task 12: Multilingual Offensive Language Identification in Social Media (OffensEval 2020)

SemEval-2020 Task 12: Multilingual Offensive Language Identification in Social Media (OffensEval 2020) ( http://arxiv.org/abs/2006.07235v2 )

ライセンス: Link先を確認
Marcos Zampieri, Preslav Nakov, Sara Rosenthal, Pepa Atanasova, Georgi Karadzhov, Hamdy Mubarak, Leon Derczynski, Zeses Pitenis, \c{C}a\u{g}r{\i} \c{C}\"oltekin(参考訳) ソーシャルメディアにおける多言語攻撃言語識別(OffensEval 2020)に関するSemEval-2020 Task 12の結果と主な成果を報告する。 このタスクには、OffensEval 2019のOLIDスキーマ(Zampieri et al., 2019a)の階層的な分類に対応する3つのサブタスクが含まれる。 英語、アラビア語、デンマーク語、ギリシャ語、トルコ語の5つの言語に加えて、英語はSubtasks B と C. OffensEval 2020 も、SemEval-2020 において最も人気のあるタスクの1つであった。 タスクに参加するためにサインアップした528チーム、評価期間中にシステムを提出した145チーム、システム記述書を提出した70チームである。

We present the results and main findings of SemEval-2020 Task 12 on Multilingual Offensive Language Identification in Social Media (OffensEval 2020). The task involves three subtasks corresponding to the hierarchical taxonomy of the OLID schema (Zampieri et al., 2019a) from OffensEval 2019. The task featured five languages: English, Arabic, Danish, Greek, and Turkish for Subtask A. In addition, English also featured Subtasks B and C. OffensEval 2020 was one of the most popular tasks at SemEval-2020 attracting a large number of participants across all subtasks and also across all languages. A total of 528 teams signed up to participate in the task, 145 teams submitted systems during the evaluation period, and 70 submitted system description papers.
翻訳日:2022-11-22 04:19:23 公開日:2020-09-30
# PAC-Bayes、無拘束の損失で一般化へ

PAC-Bayes unleashed: generalisation bounds with unbounded losses ( http://arxiv.org/abs/2006.07279v2 )

ライセンス: Link先を確認
Maxime Haddouche and Benjamin Guedj and Omar Rivasplata and John Shawe-Taylor(参考訳) 非有界損失関数を持つ学習問題に対する新しいPAC-Bayesian一般化法を提案する。 これによりpac-bayes学習フレームワークの関連性と適用性が拡張され、既存の文献のほとんどは有界損失関数を持つ教師付き学習問題に焦点が当てられている(典型的には間隔 [0;1] で値を取ると仮定される)。 この仮定を緩和するために、我々はHYPE(\emph{HYPothesis-dependent rangE} の略)と呼ばれる新しい概念を提案する。 この新しい概念に基づき、非有界損失関数に束縛された新しいpac-ベイズ一般化を導出し、線形回帰問題でそれをインスタンス化する。 理論を最大限のオーディエンスで利用可能にするために、実際の計算、実用性、仮定の限界に関する議論を含める。

We present new PAC-Bayesian generalisation bounds for learning problems with unbounded loss functions. This extends the relevance and applicability of the PAC-Bayes learning framework, where most of the existing literature focuses on supervised learning problems with a bounded loss function (typically assumed to take values in the interval [0;1]). In order to relax this assumption, we propose a new notion called HYPE (standing for \emph{HYPothesis-dependent rangE}), which effectively allows the range of the loss to depend on each predictor. Based on this new notion we derive a novel PAC-Bayesian generalisation bound for unbounded loss functions, and we instantiate it on a linear regression problem. To make our theory usable by the largest audience possible, we include discussions on actual computation, practicality and limitations of our assumptions.
翻訳日:2022-11-22 03:41:53 公開日:2020-09-30
# iSeeBetter: Recurrent Generative Back-Projection Network を用いた時空間ビデオ超解像

iSeeBetter: Spatio-temporal video super-resolution using recurrent generative back-projection networks ( http://arxiv.org/abs/2006.11161v4 )

ライセンス: Link先を確認
Aman Chadha, John Britto, and M. Mani Roja(参考訳) 近年,一像超解像(SISR)の性能が向上している。 しかし、SISRを各ビデオフレームに順次適用すると、時間的コヒーレンシーが欠如する。 畳み込みニューラルネットワーク(CNN)は、ピーク信号対ノイズ比(PSNR)や構造的類似性(SSIM)といった画像品質指標において、従来のアプローチよりも優れている。 しかし、gans(generative adversarial networks)は、大きなスケールアップ要因でスーパーリゾルディングを行う際に、通常cnnで見られる、より細かいテクスチャの詳細の欠如の問題を軽減することで、競争上の優位性を提供している。 iSeeBetterは、時間的に一貫した超解像ビデオを表示するビデオ超解像(VSR)に対する、新しいGANベースの時空間的アプローチである。 iseebetterは、リカレントバックプロジェクションネットワークを発生源として、現在のフレームと隣接フレームから空間的および時間的情報を抽出する。 さらに,従来のアルゴリズムで見るアーティファクトを排除しつつ,超解像の「自然性」を改善するために,超解像生成対向ネットワーク(SRGAN)の識別器を利用する。 損失最小化の目的である平均二乗誤差(MSE)はPSNR/SSIMを改善するが、これらの指標は知覚品質の誤表現をもたらす画像の細部を捉えない。 これに対処するために、4次元(mse,perceptual, adversarial, and total-variation, tv)の損失関数を用いる。 以上の結果から,iSeeBetterはVSRの忠実度に優れ,最先端の性能に勝ることを示した。

Recently, learning-based models have enhanced the performance of single-image super-resolution (SISR). However, applying SISR successively to each video frame leads to a lack of temporal coherency. Convolutional neural networks (CNNs) outperform traditional approaches in terms of image quality metrics such as peak signal to noise ratio (PSNR) and structural similarity (SSIM). However, generative adversarial networks (GANs) offer a competitive advantage by being able to mitigate the issue of a lack of finer texture details, usually seen with CNNs when super-resolving at large upscaling factors. We present iSeeBetter, a novel GAN-based spatio-temporal approach to video super-resolution (VSR) that renders temporally consistent super-resolution videos. iSeeBetter extracts spatial and temporal information from the current and neighboring frames using the concept of recurrent back-projection networks as its generator. Furthermore, to improve the "naturality" of the super-resolved image while eliminating artifacts seen with traditional algorithms, we utilize the discriminator from super-resolution generative adversarial network (SRGAN). Although mean squared error (MSE) as a primary loss-minimization objective improves PSNR/SSIM, these metrics may not capture fine details in the image resulting in misrepresentation of perceptual quality. To address this, we use a four-fold (MSE, perceptual, adversarial, and total-variation (TV)) loss function. Our results demonstrate that iSeeBetter offers superior VSR fidelity and surpasses state-of-the-art performance.
翻訳日:2022-11-21 20:35:24 公開日:2020-09-30
# Markov-Lipschitzディープラーニング

Markov-Lipschitz Deep Learning ( http://arxiv.org/abs/2006.08256v5 )

ライセンス: Link先を確認
Stan Z. Li, Zelin Zang, Lirong Wu(参考訳) 本稿では,ベクトル型ニューラルネットワーク変換における崩壊,ねじれ,交差による幾何学的劣化に対処するために,マルコフ・リプシッツ深層学習(mldl)と呼ばれる新しい枠組みを提案する。 局所等尺スムースネス (LIS) と呼ばれる事前の制約は層をまたいで課せられ、マルコフ確率場 (MRF)-ギブス分布に符号化される。 これは局所幾何学的歪みと局所二リプシッツ連続性によって測定される局所幾何学的保存とロバスト性にとって最良の解となる。 その結果、層ワイドベクトル変換は、よく定義された LIS 制約付き計量同型へと拡張される。 総合的な実験,比較,アブレーション研究により,MLDLの多様体学習および多様体データ生成における大きな利点が示された。 MLDLはベクトル変換ベースのネットワークを強化するのに十分である。 コードはhttps://github.com/westlake-cairi/markov-lipschitz-deep-learningで入手できる。

We propose a novel framework, called Markov-Lipschitz deep learning (MLDL), to tackle geometric deterioration caused by collapse, twisting, or crossing in vector-based neural network transformations for manifold-based representation learning and manifold data generation. A prior constraint, called locally isometric smoothness (LIS), is imposed across-layers and encoded into a Markov random field (MRF)-Gibbs distribution. This leads to the best possible solutions for local geometry preservation and robustness as measured by locally geometric distortion and locally bi-Lipschitz continuity. Consequently, the layer-wise vector transformations are enhanced into well-behaved, LIS-constrained metric homeomorphisms. Extensive experiments, comparisons, and ablation study demonstrate significant advantages of MLDL for manifold learning and manifold data generation. MLDL is general enough to enhance any vector transformation-based networks. The code is available at https://github.com/westlake-cairi/Markov-Lipschitz-Deep-Learning.
翻訳日:2022-11-21 02:56:48 公開日:2020-09-30
# 人を含む画像から水位を解釈したボランティア地理情報からの洪水重大度マッピング:ハリケーン・ハーベイを事例として

Flood severity mapping from Volunteered Geographic Information by interpreting water level from images containing people: a case study of Hurricane Harvey ( http://arxiv.org/abs/2006.11802v2 )

ライセンス: Link先を確認
Yu Feng, Claus Brenner, Monika Sester(参考訳) 都市化が進むにつれて、近年は都市洪水の監視と分析への関心とニーズが高まっている。 ソーシャルメディアは、新しいデータソースとして、洪水モニタリングのためのリアルタイム情報を提供することができる。 位置情報のあるソーシャルメディア投稿は、しばしばVGI(Volunteered Geographic Information)と呼ばれ、そのような出来事の空間的パターンを明らかにすることができる。 これまでにないほど多くの画像がソーシャルメディアで共有されているため、近年の研究では、テキストに加えて画像分析による洪水関連投稿の抽出に焦点が当てられている。 単に投稿を洪水と分類するだけでなく、より詳細な情報(例えば洪水の重大さ)も画像解釈に基づいて抽出することができる。 しかし, あまり取り組まれておらず, 洪水重大度マッピングには適用されていない。 本稿では,洪水重大度情報を抽出し,マッピングする新しい3段階プロセスを提案する。 まず、事前訓練された畳み込みニューラルネットワークを特徴抽出器として、洪水関連画像を検索する。 第2に、人を含む画像は、体部とその部分浸水の関係を観察して、さらに4つの重症度レベルに分類され、すなわち、足首、膝、股関節、胸部など異なる身体部位について水位に応じて画像が分類される。 最後に、ツイートの場所は、洪水の規模と深刻度の推定マップを生成するために使用される。 このプロセスは、2017年のハリケーン・ハーベイで収集された画像データセットに適用された。 以上の結果から,VGIは水深マッピングのためのリモートセンシング観測の補助として利用でき,特にインフラが水を取り除きがちな都市部において有用であることが示唆された。 抽出した水位情報に基づいて,緊急対応の初期段階において,洪水重大度を総合的に概観することができる。

With increasing urbanization, in recent years there has been a growing interest and need in monitoring and analyzing urban flood events. Social media, as a new data source, can provide real-time information for flood monitoring. The social media posts with locations are often referred to as Volunteered Geographic Information (VGI), which can reveal the spatial pattern of such events. Since more images are shared on social media than ever before, recent research focused on the extraction of flood-related posts by analyzing images in addition to texts. Apart from merely classifying posts as flood relevant or not, more detailed information, e.g. the flood severity, can also be extracted based on image interpretation. However, it has been less tackled and has not yet been applied for flood severity mapping. In this paper, we propose a novel three-step process to extract and map flood severity information. First, flood relevant images are retrieved with the help of pre-trained convolutional neural networks as feature extractors. Second, the images containing people are further classified into four severity levels by observing the relationship between body parts and their partial inundation, i.e. images are classified according to the water level with respect to different body parts, namely ankle, knee, hip, and chest. Lastly, locations of the Tweets are used for generating a map of estimated flood extent and severity. This process was applied to an image dataset collected during Hurricane Harvey in 2017, as a proof of concept. The results show that VGI can be used as a supplement to remote sensing observations for flood extent mapping and is beneficial, especially for urban areas, where the infrastructure is often occluding water. Based on the extracted water level information, an integrated overview of flood severity can be provided for the early stages of emergency response.
翻訳日:2022-11-18 12:24:56 公開日:2020-09-30
# マルチスケール空間注意による自律走行車の意味セグメンテーション

Semantic Segmentation With Multi Scale Spatial Attention For Self Driving Cars ( http://arxiv.org/abs/2007.12685v3 )

ライセンス: Link先を確認
Abhinav Sagar, RajKumar Soundrapandiyan(参考訳) 本稿では,複数スケールのマルチスケール特徴フュージョンを用いたニューラルニューラルネットワークについて,高精度かつ効率的なセマンティックイメージセグメンテーションを提案する。 resnetベースの特徴抽出器、ダウンサンプリング部の拡張畳み込み層、アップサンプリング部の重畳み込み層を使用し、それらをマージするためにconcat操作を用いた。 より文脈的な情報をエンコードし、ネットワークの受容領域を強化する新しいアテンションモジュールを提案する。 我々は、トレーニングと最適化の詳細を含むネットワークの奥行き理論解析を提示する。 私たちのネットワークはcamvidデータセットとcityscapeデータセットで、クラスごとの平均精度とiou(intersection over union)を評価指標としてトレーニングとテストを行いました。 提案モデルは,100fps以上の動作で平均iou値を74.12で達成する意味セグメンテーションに関する従来の手法を上回っている。

In this paper, we present a novel neural network using multi scale feature fusion at various scales for accurate and efficient semantic image segmentation. We used ResNet based feature extractor, dilated convolutional layers in downsampling part, atrous convolutional layers in the upsampling part and used concat operation to merge them. A new attention module is proposed to encode more contextual information and enhance the receptive field of the network. We present an in depth theoretical analysis of our network with training and optimization details. Our network was trained and tested on the Camvid dataset and Cityscapes dataset using mean accuracy per class and Intersection Over Union (IOU) as the evaluation metrics. Our model outperforms previous state of the art methods on semantic segmentation achieving mean IOU value of 74.12 while running at >100 FPS.
翻訳日:2022-11-15 05:01:27 公開日:2020-09-30
# 希薄化・強化モデルによるトラッカー追従

Tracking-by-Trackers with a Distilled and Reinforced Model ( http://arxiv.org/abs/2007.04108v2 )

ライセンス: Link先を確認
Matteo Dunnhofer, Niki Martinel, Christian Micheloni(参考訳) ビジュアルオブジェクトのトラッキングは、高速処理アルゴリズム、正確なオンライン適応方法、トラッカーの融合など、独立して行われる。 本稿では,オフラインとオンラインの他のビジュアルトラッカを活用した新しいトラッキング手法を提案することで,目標を統一する。 コンパクトな学生モデルは知識蒸留と強化学習の融合によって訓練される。 1つ目は、他のトラッカーの追跡知識の転送と圧縮を可能にする。 2つ目は、オンラインで活用される評価尺度の学習を可能にする。 学習後、学生は最終的に構築に使用できる (i)非常に速い単発追跡装置。 (ii)簡易かつ効果的なオンライン適応機構を備えた追跡装置 (iii)他のトラッカーとの融合を行うトラッカー。 大規模な検証の結果,提案アルゴリズムはリアルタイムの最先端トラッカーと競合することがわかった。

Visual object tracking was generally tackled by reasoning independently on fast processing algorithms, accurate online adaptation methods, and fusion of trackers. In this paper, we unify such goals by proposing a novel tracking methodology that takes advantage of other visual trackers, offline and online. A compact student model is trained via the marriage of knowledge distillation and reinforcement learning. The first allows to transfer and compress tracking knowledge of other trackers. The second enables the learning of evaluation measures which are then exploited online. After learning, the student can be ultimately used to build (i) a very fast single-shot tracker, (ii) a tracker with a simple and effective online adaptation mechanism, (iii) a tracker that performs fusion of other trackers. Extensive validation shows that the proposed algorithms compete with real-time state-of-the-art trackers.
翻訳日:2022-11-12 13:13:55 公開日:2020-09-30
# 摂動を超えて: 任意の逆テスト例による学習保証

Beyond Perturbations: Learning Guarantees with Arbitrary Adversarial Test Examples ( http://arxiv.org/abs/2007.05145v3 )

ライセンス: Link先を確認
Shafi Goldwasser, Adam Tauman Kalai, Yael Tauman Kalai, and Omar Montasser(参考訳) 提案手法は,配布された$p$ と任意の (ラベルなし) テスト例から入力学習例を取り,おそらくは敵によって選択される。 これは、テスト例が$P$の小さな摂動であると仮定する以前の作業とは異なる。 提案アルゴリズムは選択型分類器を出力し,いくつかの例で予測を棄却する。 選択的帰納的学習を考慮し、任意の列車と試験分布を持つ有界VC次元の学習クラスに対する最初の非自明な保証を与える。 特に、有界vc次元のクラス$c$の任意の関数に対して、私たちは、テストエラー率が低いことと、$p$に対する拒絶率が低いことを保証します。 提案アルゴリズムは, 経験的リスク最小化器(ERM)を$C$で提案する。 私たちの保証は、境界のないホワイトボックスの敵が選んだテスト例にも当てはまります。 また、一般化、非依存、教師なし設定の保証も提供します。

We present a transductive learning algorithm that takes as input training examples from a distribution $P$ and arbitrary (unlabeled) test examples, possibly chosen by an adversary. This is unlike prior work that assumes that test examples are small perturbations of $P$. Our algorithm outputs a selective classifier, which abstains from predicting on some examples. By considering selective transductive learning, we give the first nontrivial guarantees for learning classes of bounded VC dimension with arbitrary train and test distributions---no prior guarantees were known even for simple classes of functions such as intervals on the line. In particular, for any function in a class $C$ of bounded VC dimension, we guarantee a low test error rate and a low rejection rate with respect to $P$. Our algorithm is efficient given an Empirical Risk Minimizer (ERM) for $C$. Our guarantees hold even for test examples chosen by an unbounded white-box adversary. We also give guarantees for generalization, agnostic, and unsupervised settings.
翻訳日:2022-11-11 21:06:53 公開日:2020-09-30
# 内因-外因比ガイダンスによるメッシュ点雲

Meshing Point Clouds with Predicted Intrinsic-Extrinsic Ratio Guidance ( http://arxiv.org/abs/2007.09267v2 )

ライセンス: Link先を確認
Minghua Liu, Xiaoshuai Zhang, Hao Su(参考訳) 我々は点雲から物体表面のメッシュ表現を再構築することに興味を持っている。 表面再構成は、レンダリング、計画の衝突回避、アニメーションなど、下流アプリケーションにとって必須条件である。 しかし、実際のシナリオ(LiDARやKinectセンサーなど)で一般的な低解像度の入力ポイントクラウドの場合、このタスクは難しい。 既存の学習ベースのメッシュ生成手法では、まずオブジェクトレベル全体にある形状埋め込みを構築することで表面を予測している。 代わりに、既存のポイントに接続情報を追加するだけで、できるだけインプットポイントクラウドを活用することを提案する。 特に、どの点のトリプルが顔を形成するべきかを予測する。 私たちの重要なイノベーションは、内在的/外在的なメトリクスを比較することによって計算される、ローカル接続の代理です。 ディープポイントクラウドネットワークを使ってこのサロゲートを予測し、高品質なメッシュ生成のための効率的な後処理モジュールに供給することを学びました。 本手法は, 詳細を保存できるだけでなく, 曖昧な構造を処理できるだけでなく, 合成データおよび実データ実験により, カテゴリを認識できないような強い一般化性を有することを実証する。 コードはhttps://github.com/colin97/point2meshで入手できる。

We are interested in reconstructing the mesh representation of object surfaces from point clouds. Surface reconstruction is a prerequisite for downstream applications such as rendering, collision avoidance for planning, animation, etc. However, the task is challenging if the input point cloud has a low resolution, which is common in real-world scenarios (e.g., from LiDAR or Kinect sensors). Existing learning-based mesh generative methods mostly predict the surface by first building a shape embedding that is at the whole object level, a design that causes issues in generating fine-grained details and generalizing to unseen categories. Instead, we propose to leverage the input point cloud as much as possible, by only adding connectivity information to existing points. Particularly, we predict which triplets of points should form faces. Our key innovation is a surrogate of local connectivity, calculated by comparing the intrinsic/extrinsic metrics. We learn to predict this surrogate using a deep point cloud network and then feed it to an efficient post-processing module for high-quality mesh generation. We demonstrate that our method can not only preserve details, handle ambiguous structures, but also possess strong generalizability to unseen categories by experiments on synthetic and real data. The code is available at https://github.com/Colin97/Point2Mesh.
翻訳日:2022-11-09 14:40:56 公開日:2020-09-30
# 補助教師付きdeep adversarial learningを用いたロボット手術における実時間楽器セグメンテーション

Real-Time Instrument Segmentation in Robotic Surgery using Auxiliary Supervised Deep Adversarial Learning ( http://arxiv.org/abs/2007.11319v2 )

ライセンス: Link先を確認
Mobarakol Islam, Daniel A. Atputharuban, Ravikiran Ramesh, Hongliang Ren(参考訳) ロボット支援手術は、ロボット工学とイメージングシステムの開発で急速に成長を遂げた新興技術である。 ロボットアームの視覚、触覚、正確な動作の革新により、外科医は正確な侵襲的な手術を行えるようになった。 ロボット機器と組織のリアルタイムセマンティクスセグメンテーションは、ロボット支援手術において重要なステップである。 手術シーンの高精度かつ効率的な分割は, 機器の識別と追跡に役立つだけでなく, 操作中の異なる組織や器具の文脈情報も提供した。 そこで本研究では,商用ロボットシステムから得られた高分解能映像から手術器具を分割する軽量カスケード畳み込みニューラルネットワーク(cnn)を開発した。 本稿では,補助枝と主枝の異なる次元とチャネルの特徴マップを融合するマルチレゾリューション機能融合モジュール(mff)を提案する。 また,セグメンテーションモデルに補助損失と逆損失を組み合わせた新たな手法を導入する。 補助損失はモデルが低解像度の特徴を学ぶのに役立ち、逆損失は高次構造情報を学習することでセグメンテーション予測を改善する。 このモデルは、中間段階の豊富なコンテキスト情報を集約する軽量空間ピラミッドプール(SPP)ユニットも構成している。 本モデルは,高精度映像の予測精度とセグメンテーション時間の両方において,既存の手術器具の画素分割アルゴリズムを上回っていることを示す。

Robot-assisted surgery is an emerging technology which has undergone rapid growth with the development of robotics and imaging systems. Innovations in vision, haptics and accurate movements of robot arms have enabled surgeons to perform precise minimally invasive surgeries. Real-time semantic segmentation of the robotic instruments and tissues is a crucial step in robot-assisted surgery. Accurate and efficient segmentation of the surgical scene not only aids in the identification and tracking of instruments but also provided contextual information about the different tissues and instruments being operated with. For this purpose, we have developed a light-weight cascaded convolutional neural network (CNN) to segment the surgical instruments from high-resolution videos obtained from a commercial robotic system. We propose a multi-resolution feature fusion module (MFF) to fuse the feature maps of different dimensions and channels from the auxiliary and main branch. We also introduce a novel way of combining auxiliary loss and adversarial loss to regularize the segmentation model. Auxiliary loss helps the model to learn low-resolution features, and adversarial loss improves the segmentation prediction by learning higher order structural information. The model also consists of a light-weight spatial pyramid pooling (SPP) unit to aggregate rich contextual information in the intermediate stage. We show that our model surpasses existing algorithms for pixel-wise segmentation of surgical instruments in both prediction accuracy and segmentation time of high-resolution videos.
翻訳日:2022-11-07 23:33:31 公開日:2020-09-30
# コントラスト学習によるビデオ検索のための時間的文脈集約

Temporal Context Aggregation for Video Retrieval with Contrastive Learning ( http://arxiv.org/abs/2008.01334v2 )

ライセンス: Link先を確認
Jie Shao, Xin Wen, Bingchen Zhao and Xiangyang Xue(参考訳) コンテンツベースのビデオ検索に関する最近の研究は、関連するインシデントやイベントなどの長距離意味的依存関係を記述する高レベルなビデオ表現を必要としている。 しかし、既存の手法では、ビデオのフレームを個々の画像やショートクリップとして処理することが多いため、長距離セマンティック依存関係のモデリングは困難である。 本稿では,フレームレベルの特徴間の時間的長期情報を含むビデオ表現学習フレームワークであるTCA(Temporal Context Aggregation for Video Retrieval)を提案する。 そこで本研究では,ビデオ検索データセット上で学習を行うために,自動ハードネガマイニングを行い,メモリバンク機構を利用してネガサンプルの容量を増加させる教師付きコントラスト学習手法を提案する。 CC_WEB_VIDEO,FIVR-200K,EVVEなど,複数のビデオ検索タスクに対して大規模な実験を行った。 提案手法は, 映像レベルの特徴を持つ最先端手法に比べて, 17% mAP (約17% mAP) の優れた性能を示し, フレームレベルの特徴と比較して22倍高速な推論時間で競合結果を提供する。

The current research focus on Content-Based Video Retrieval requires higher-level video representation describing the long-range semantic dependencies of relevant incidents, events, etc. However, existing methods commonly process the frames of a video as individual images or short clips, making the modeling of long-range semantic dependencies difficult. In this paper, we propose TCA (Temporal Context Aggregation for Video Retrieval), a video representation learning framework that incorporates long-range temporal information between frame-level features using the self-attention mechanism. To train it on video retrieval datasets, we propose a supervised contrastive learning method that performs automatic hard negative mining and utilizes the memory bank mechanism to increase the capacity of negative samples. Extensive experiments are conducted on multiple video retrieval tasks, such as CC_WEB_VIDEO, FIVR-200K, and EVVE. The proposed method shows a significant performance advantage (~17% mAP on FIVR-200K) over state-of-the-art methods with video-level features, and deliver competitive results with 22x faster inference time comparing with frame-level features.
翻訳日:2022-11-02 23:55:49 公開日:2020-09-30
# エントロピー : プロセスマイニングのためのエントロピーに基づくコンフォーマンスチェックの家族

Entropia: A Family of Entropy-Based Conformance Checking Measures for Process Mining ( http://arxiv.org/abs/2008.09558v2 )

ライセンス: Link先を確認
Artem Polyvyanyy, Hanan Alkhammash, Claudio Di Ciccio, Luciano Garc\'ia-Ba\~nuelos, Anna Kalenkova, Sander J. J. Leemans, Jan Mendling, Alistair Moffat, Matthias Weidlich(参考訳) 本稿では,情報理論からのエントロピーの概念に基づくプロセスマイニングにおける適合性チェックのファミリを実装した,Entropiaというコマンドラインツールを提案する。 この措置により、ITシステムによって実行されるトレースから自動的に検出され、イベントログに記録されるプロセスモデルの古典的非決定的および確率的精度とリコール品質基準を定量化することができる。 プロセスモデルは、ログに含まれない多くのトレースをエンコードしていない場合から発見されたログに対して"良い"精度を持ち、ログからほとんどのトレースをエンコードしている場合、"良い"リコールがある。 定義上、この測度は有用な性質を持ち、しばしば素早く計算できる。

This paper presents a command-line tool, called Entropia, that implements a family of conformance checking measures for process mining founded on the notion of entropy from information theory. The measures allow quantifying classical non-deterministic and stochastic precision and recall quality criteria for process models automatically discovered from traces executed by IT-systems and recorded in their event logs. A process model has "good" precision with respect to the log it was discovered from if it does not encode many traces that are not part of the log, and has "good" recall if it encodes most of the traces from the log. By definition, the measures possess useful properties and can often be computed quickly.
翻訳日:2022-10-26 21:09:57 公開日:2020-09-30
# 時空間を考慮した都市音聴取のためのCRNN

CRNNs for Urban Sound Tagging with spatiotemporal context ( http://arxiv.org/abs/2008.10413v2 )

ライセンス: Link先を確認
Augustin Arnault and Nicolas Riche(参考訳) 本稿では,dcase 2020 課題のタスク5に参加した crnn について述べる。 この課題は時空間を考慮した階層型マルチラベル都市音のタグ付けに焦点をあてる。 コードはgithubリポジトリのhttps://github.com/multitel-ai/urban-sound-taggingで利用できます。

This paper describes CRNNs we used to participate in Task 5 of the DCASE 2020 challenge. This task focuses on hierarchical multilabel urban sound tagging with spatiotemporal context. The code is available on our GitHub repository at https://github.com/multitel-ai/urban-sound-tagging.
翻訳日:2022-10-25 12:42:41 公開日:2020-09-30
# 自然言語処理のためのデータ準備

Data Readiness for Natural Language Processing ( http://arxiv.org/abs/2009.02043v2 )

ライセンス: Link先を確認
Fredrik Olsson, Magnus Sahlgren(参考訳) この文書は、機械学習と自然言語処理の文脈におけるデータの準備性に関するものである。 自動分析手法を促進するために、組織がどのようにしてデータの特定、作成、検証、準備を進めていくかを説明している。 ドキュメントの内容は、当社の応用研究所としての取り組みで遭遇した課題と頻繁な質問に基づいており、公的および民間の両方の組織や企業がビジネスプロセスでデータを使用するように支援しています。

This document concerns data readiness in the context of machine learning and Natural Language Processing. It describes how an organization may proceed to identify, make available, validate, and prepare data to facilitate automated analysis methods. The contents of the document is based on the practical challenges and frequently asked questions we have encountered in our work as an applied research institute with helping organizations and companies, both in the public and private sectors, to use data in their business processes.
翻訳日:2022-10-22 01:31:31 公開日:2020-09-30
# curatornet:アートイメージの視覚的なレコメンデーション

CuratorNet: Visually-aware Recommendation of Art Images ( http://arxiv.org/abs/2009.04426v2 )

ライセンス: Link先を確認
Pablo Messina, Manuel Cartagena, Patricio Cerda-Mardini, Felipe del Rio and Denis Parra(参考訳) ファッションや映画のようなドメインには視覚的に認識されるレコメンデーションモデルがいくつかあるが、オンラインアート市場が近年成長しているにもかかわらず、アートドメインには研究のレベルが欠如している。 このギャップを軽減するために、この記事では、アートイメージを視覚的に認識するためのニューラルネットワークアーキテクチャであるCuratorNetを紹介します。 CuratorNetは、一般化の最大化を目標として、コアに設計されている:ネットワークには、一度しかトレーニングする必要のないパラメータの固定セットがあり、その後、モデルは、それ以上のトレーニングをすることなく、今まで見たことのない新しいユーザやアイテムに一般化することができる。 アイテムはビジュアル埋め込みを通じてアイテムベクターにマッピングされ、ユーザは消費したアイテムのビジュアルコンテントを集約することで、ユーザベクターにマッピングされる。 モデルアーキテクチャの他に,アート領域におけるランク学習のための訓練セットを構築するための新しい三重項サンプリング戦略も導入し,ナイーブなランダムサンプリングよりも効果的な学習を実現する。 実世界の物理的絵画データセットの評価により、curatornetは最先端モデルvbprを含むいくつかのベースラインで最高のパフォーマンスを達成している。 CuratorNetはアートドメインでモチベーションと評価を受けているが、そのアーキテクチャとトレーニングスキームは、他の領域のイメージに適応することができる。

Although there are several visually-aware recommendation models in domains like fashion or even movies, the art domain lacks thesame level of research attention, despite the recent growth of the online artwork market. To reduce this gap, in this article we introduceCuratorNet, a neural network architecture for visually-aware recommendation of art images. CuratorNet is designed at the core withthe goal of maximizing generalization: the network has a fixed set of parameters that only need to be trained once, and thereafter themodel is able to generalize to new users or items never seen before, without further training. This is achieved by leveraging visualcontent: items are mapped to item vectors through visual embeddings, and users are mapped to user vectors by aggregating the visualcontent of items they have consumed. Besides the model architecture, we also introduce novel triplet sampling strategies to build atraining set for rank learning in the art domain, resulting in more effective learning than naive random sampling. With an evaluationover a real-world dataset of physical paintings, we show that CuratorNet achieves the best performance among several baselines,including the state-of-the-art model VBPR. CuratorNet is motivated and evaluated in the art domain, but its architecture and trainingscheme could be adapted to recommend images in other areas
翻訳日:2022-10-20 12:04:59 公開日:2020-09-30
# コンテキスト帯域を持つ音楽ストリーミングアプリのカルーセルパーソナライズ

Carousel Personalization in Music Streaming Apps with Contextual Bandits ( http://arxiv.org/abs/2009.06546v2 )

ライセンス: Link先を確認
Walid Bendada and Guillaume Salha and Th\'eo Bontempelli(参考訳) 音楽ストリーミングプラットフォームなどのメディアサービスプロバイダは、しばしばスワイプ可能なカルーセルを活用して、ユーザにパーソナライズされたコンテンツを推奨する。 しかし、これらのカルーセルに表示される最も関連性の高いアイテム(アルバム、アーティスト、プレイリスト...)を選択することは、アイテムが多数あり、ユーザーが好みが異なるため、難しい作業である。 本稿では,複数プレイ,カスケードベース更新,バッチフィードバックの遅延を伴うマルチアームバンディット問題としてカルーセルパーソナライゼーションをモデル化する。 グローバル音楽ストリーミングモバイルアプリ上で大規模プレイリストレコメンデーションタスクに対処し,実世界のカルーセルの特徴を捉えるためのフレームワークの有効性を実証的に示す。 本稿では,我々の実験から得られた産業データと,同等のカルーセルパーソナライゼーション学習問題をシミュレートするオープンソース環境を公開する。

Media services providers, such as music streaming platforms, frequently leverage swipeable carousels to recommend personalized content to their users. However, selecting the most relevant items (albums, artists, playlists...) to display in these carousels is a challenging task, as items are numerous and as users have different preferences. In this paper, we model carousel personalization as a contextual multi-armed bandit problem with multiple plays, cascade-based updates and delayed batch feedback. We empirically show the effectiveness of our framework at capturing characteristics of real-world carousels by addressing a large-scale playlist recommendation task on a global music streaming mobile app. Along with this paper, we publicly release industrial data from our experiments, as well as an open-source environment to simulate comparable carousel personalization learning problems.
翻訳日:2022-10-18 11:41:08 公開日:2020-09-30
# PESAO:アクティブオブザーバのための心理物理学実験セット

PESAO: Psychophysical Experimental Setup for Active Observers ( http://arxiv.org/abs/2009.09933v2 )

ライセンス: Link先を確認
Markus D. Solbach, John K. Tsotsos(参考訳) コンピュータビジョンにおけるほとんどの研究は、受動的に観測されたデータを含む。 しかし、人間は研究室の外で活動的な観察者であり、探索し、探索し、どのように見えるかを選択する。 それでも、アクティブなコンピュータビジョンシステムの設計を知らせるために、人間がどれだけ活発に観察するかは、オープンな問題である。 PESAOは、3Dの世界における活発で視覚的な観察を調査するために設計された。 目標は、頭部と視線を追跡できる人間の被験者(アクティブオブザーバー)を念頭に、様々なアクティブな知覚タスクのための実験的なセットアップを構築することであった。 人間のパフォーマンスを探索する研究は多いが、通常は2Dで描かれた線画を用いており、アクティブな観察者はいない。 PESAOは、アクティブな観察者でさえも、多くの研究を3次元の世界に持ち込むことができます。 私たちのインスタンスでは、400cm x 300cmの範囲に広がり、120Hzの周波数でアクティブオブザーバーを追跡することができます。 さらに、pesaoは6dヘッドモーション、視線、眼球運動タイプ、ファーストパーソンビデオ、ヘッドマウントimuセンサー、鳥眼ビデオ、実験者ノートの追跡と記録を提供する。 全てマイクロ秒の解像度で同期される。

Most past and present research in computer vision involves passively observed data. Humans, however, are active observers outside the lab; they explore, search, select what and how to look. Nonetheless, how exactly active observation occurs in humans so that it can inform the design of active computer vision systems is an open problem. PESAO is designed for investigating active, visual observation in a 3D world. The goal was to build an experimental setup for various active perception tasks with human subjects (active observers) in mind that is capable of tracking the head and gaze. While many studies explore human performances, usually, they use line drawings portrayed in 2D, and no active observer is involved. PESAO allows us to bring many studies to the three-dimensional world, even involving active observers. In our instantiation, it spans an area of 400cm x 300cm and can track active observers at a frequency of 120Hz. Furthermore, PESAO provides tracking and recording of 6D head motion, gaze, eye movement-type, first-person video, head-mounted IMU sensor, birds-eye video, and experimenter notes. All are synchronized at microsecond resolution.
翻訳日:2022-10-18 06:41:19 公開日:2020-09-30
# DynamicVAE:デカップリング再構成誤りとアンタングル表現学習

DynamicVAE: Decoupling Reconstruction Error and Disentangled Representation Learning ( http://arxiv.org/abs/2009.06795v2 )

ライセンス: Link先を確認
Huajie Shao, Haohong Lin, Qinmin Yang, Shuochao Yao, Han Zhao, Tarek Abdelzaher(参考訳) 本論文は, 潜在因子を効果的に分離するために, 重量$\beta$, $\beta$-vae が$$$より大きいべきであるという共通の仮定に挑戦する。 我々は,$\beta < 1$ を持つ$\beta$-vae が良好な絡み合いを達成するだけでなく,動的制御による再構成精度を大幅に向上できることを実証する。 本稿は,$\beta$-VAEの復元精度と絡み合いの本質的にのトレードオフを除去する。 既存のメソッド、例えば$\beta$-VAE や FactorVAE は、目的関数の KL 分割項に大きな重みを割り当て、より良い絡み合いのために高い復元誤差をもたらす。 この問題を軽減するため,KL分割重みを動的に調整し,トレードオフをより有利な点に制御する制御VAEが最近開発された。 しかし、ControlVAEは大きな$\beta$の必要性と小さな$\beta$の必要性の間の競合を取り除くことができない。 代わりに、トレーニングの異なる段階で異なる$\beta$を維持するDynamicVAEを提案する。 ウェイトを進化させるために、$\beta$はそのようなデカップリングを可能にする軌道に沿って、DynamicVAEは修正されたインクリメンタルPI(proportional-integral)コントローラを利用し、移動平均とハイブリッドアニール法を用い、KL分割の値を厳密に制御された方法でスムーズに進化させる。 提案手法の安定性を理論的に証明する。 3つのベンチマークデータセットによる評価結果から,DynamicVAEは既存手法に匹敵する歪みを達成しつつ,再構成精度を著しく向上することが示された。 提案手法は,両手法が互いに絡み合った表現学習と再構成を分離し,両者の緊張関係を解消できることを確認した。

This paper challenges the common assumption that the weight $\beta$, in $\beta$-VAE, should be larger than $1$ in order to effectively disentangle latent factors. We demonstrate that $\beta$-VAE, with $\beta < 1$, can not only attain good disentanglement but also significantly improve reconstruction accuracy via dynamic control. The paper removes the inherent trade-off between reconstruction accuracy and disentanglement for $\beta$-VAE. Existing methods, such as $\beta$-VAE and FactorVAE, assign a large weight to the KL-divergence term in the objective function, leading to high reconstruction errors for the sake of better disentanglement. To mitigate this problem, a ControlVAE has recently been developed that dynamically tunes the KL-divergence weight in an attempt to control the trade-off to more a favorable point. However, ControlVAE fails to eliminate the conflict between the need for a large $\beta$ (for disentanglement) and the need for a small $\beta$. Instead, we propose DynamicVAE that maintains a different $\beta$ at different stages of training, thereby decoupling disentanglement and reconstruction accuracy. In order to evolve the weight, $\beta$, along a trajectory that enables such decoupling, DynamicVAE leverages a modified incremental PI (proportional-integral) controller, and employs a moving average as well as a hybrid annealing method to evolve the value of KL-divergence smoothly in a tightly controlled fashion. We theoretically prove the stability of the proposed approach. Evaluation results on three benchmark datasets demonstrate that DynamicVAE significantly improves the reconstruction accuracy while achieving disentanglement comparable to the best of existing methods. The results verify that our method can separate disentangled representation learning and reconstruction, removing the inherent tension between the two.
翻訳日:2022-10-18 05:30:46 公開日:2020-09-30
# ContourCNN:contourデータ分類のための畳み込みニューラルネットワーク

ContourCNN: convolutional neural network for contour data classification ( http://arxiv.org/abs/2009.09412v2 )

ライセンス: Link先を確認
Ahmad Droby, Jihad El-Sana(参考訳) 本稿では,輪郭データ解析(ContourCNN)と形状分類のための新しい畳み込みニューラルネットワークモデルを提案する。 輪郭は閉じた形を表す点の円列である。 輪郭表現の循環特性を扱うために、円形の畳み込み層を用いる。 輪郭はしばしばまばらに表される。 情報の空間性に対処するために,その大きさに基づいて特徴を選別する優先度プーリング層を導入する。 優先度プール層は、残りをそのままにして低等級でプールする。 EMNISTデータセットから抽出した文字と桁の形状を用いて提案モデルを評価し,高い分類精度を得た。

This paper proposes a novel Convolutional Neural Network model for contour data analysis (ContourCNN) and shape classification. A contour is a circular sequence of points representing a closed shape. For handling the cyclical property of the contour representation, we employ circular convolution layers. Contours are often represented sparsely. To address information sparsity, we introduce priority pooling layers that select features based on their magnitudes. Priority pooling layers pool features with low magnitudes while leaving the rest unchanged. We evaluated the proposed model using letters and digits shapes extracted from the EMNIST dataset and obtained a high classification accuracy.
翻訳日:2022-10-16 13:01:56 公開日:2020-09-30
# イベントデータの教師なし特徴学習:直接対逆問題定式化

Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem Formulation ( http://arxiv.org/abs/2009.11044v2 )

ライセンス: Link先を確認
Dimche Kostadinov and Davide Scaramuzza(参考訳) イベントベースのカメラは、ピクセル毎の輝度変化の非同期ストリームを記録する。 そのため、高時間分解能、高ダイナミックレンジ、動きのぼやけなど、標準のフレームベースのカメラよりも多くの利点がある。 非同期性のため、イベントデータのコンパクト表現の効率的な学習は困難である。 空間的・時間的事象"情報"がパターン認識タスクに有用である程度は、まだ検討されていない。 本稿では,単層アーキテクチャに焦点をあてる。 ローカルイベントデータ(時空に記述されたイベントのローカルボリューム)から教師なし特徴学習を行うための,直接問題と逆問題という2つの一般的な問題定式化の性能を分析する。 それぞれのアプローチの主な利点を特定し、示します。 理論的には、最適解の保証、非同期、並列パラメータ更新の可能性、計算複雑性を解析する。 物体認識のための数値実験を行った。 直接的および逆問題に基づく解法の評価を行い,最先端手法との比較を行った。 私たちの経験的結果は、イベントデータからの表現学習における両方のアプローチの利点を強調します。 また,同一手法の認識精度が最大9 %向上し,同一手法の認識精度が向上した。

Event-based cameras record an asynchronous stream of per-pixel brightness changes. As such, they have numerous advantages over the standard frame-based cameras, including high temporal resolution, high dynamic range, and no motion blur. Due to the asynchronous nature, efficient learning of compact representation for event data is challenging. While it remains not explored the extent to which the spatial and temporal event "information" is useful for pattern recognition tasks. In this paper, we focus on single-layer architectures. We analyze the performance of two general problem formulations: the direct and the inverse, for unsupervised feature learning from local event data (local volumes of events described in space-time). We identify and show the main advantages of each approach. Theoretically, we analyze guarantees for an optimal solution, possibility for asynchronous, parallel parameter update, and the computational complexity. We present numerical experiments for object recognition. We evaluate the solution under the direct and the inverse problem and give a comparison with the state-of-the-art methods. Our empirical results highlight the advantages of both approaches for representation learning from event data. We show improvements of up to 9 % in the recognition accuracy compared to the state-of-the-art methods from the same class of methods.
翻訳日:2022-10-15 15:18:56 公開日:2020-09-30
# SceneGen: Scene Graph Priorsを用いた生成コンテキストシーン拡張

SceneGen: Generative Contextual Scene Augmentation using Scene Graph Priors ( http://arxiv.org/abs/2009.12395v2 )

ライセンス: Link先を確認
Mohammad Keshavarzi, Aakash Parikh, Xiyu Zhai, Melody Mao, Luisa Caldas, Allen Y. Yang(参考訳) 空間コンピューティング体験は、ユーザの実環境によって制約される。 このような経験では、仮想オブジェクトを既存のシーンに拡張するには、幾何学的衝突を避けるためのコンテキスト的アプローチが必要であり、他のオブジェクトに対する機能的かつ妥当な関係は、ターゲット環境で維持される。 しかし、ユーザ環境の複雑さと多様性のため、シーンのコンテキストに適応した仮想コンテンツの理想的な位置を自動的に計算することは難しい課題である。 そこで本稿では,既存のシーンにおける仮想オブジェクトの位置や方向を予測する,生成的コンテキスト拡張フレームワークであるscenegenを提案する。 SceneGenはセグメンテーションされたシーンを入力として、仮想コンテンツを置くための位置と向きの確率マップを出力する。 オブジェクト, オブジェクト群, 部屋間の明確な位相特性をカプセル化した空間的シーングラフ表現を定式化する。 明示的で直感的な機能を提供することは、暗黙のモデルでは捉えられない品質である空間コンピューティング設定の情報コンテンツ作成やユーザインタラクションにおいて重要な役割を担っていると考えています。 実世界の3次元スキャンデータから抽出した事前空間シーングラフを用いて学習した多変量条件付知識モデルの構築にカーネル密度推定(kde)を用いる。 そこで我々は,現在現実のデータセットを向きラベルで拡張する高速ポーズアノテーションツールを開発した。 最後に,本システムが動作していることを示すために,オブジェクトをリアルタイムに拡張可能な拡張現実アプリケーションを開発した。

Spatial computing experiences are constrained by the real-world surroundings of the user. In such experiences, augmenting virtual objects to existing scenes require a contextual approach, where geometrical conflicts are avoided, and functional and plausible relationships to other objects are maintained in the target environment. Yet, due to the complexity and diversity of user environments, automatically calculating ideal positions of virtual content that is adaptive to the context of the scene is considered a challenging task. Motivated by this problem, in this paper we introduce SceneGen, a generative contextual augmentation framework that predicts virtual object positions and orientations within existing scenes. SceneGen takes a semantically segmented scene as input, and outputs positional and orientational probability maps for placing virtual content. We formulate a novel spatial Scene Graph representation, which encapsulates explicit topological properties between objects, object groups, and the room. We believe providing explicit and intuitive features plays an important role in informative content creation and user interaction of spatial computing settings, a quality that is not captured in implicit models. We use kernel density estimation (KDE) to build a multivariate conditional knowledge model trained using prior spatial Scene Graphs extracted from real-world 3D scanned data. To further capture orientational properties, we develop a fast pose annotation tool to extend current real-world datasets with orientational labels. Finally, to demonstrate our system in action, we develop an Augmented Reality application, in which objects can be contextually augmented in real-time.
翻訳日:2022-10-14 23:15:13 公開日:2020-09-30
# テキスト編集における繰り返し推論

Recurrent Inference in Text Editing ( http://arxiv.org/abs/2009.12643v2 )

ライセンス: Link先を確認
Ning Shi, Ziheng Zeng, Haotian Zhang, Yichen Gong(参考訳) ニューラルテキスト編集では、未編集テキストを編集テキストまたは編集操作に直接マッピングし、限られたソーステキストエンコーディングと長い復号ステップによって性能が低下する。 そこで本研究では, 反復的な編集作業を行い, 問題空間を著しく狭める新しい推定法を提案する。 各イテレーションにおいて、部分的に編集されたテキストをエンコードするRecurrenceは、潜在表現をデコードし、短い固定長のアクションを生成し、単一の編集を完了させる。 包括的に比較するために,算術演算子復元(aor),算術方程式単純化(aes),算術方程式修正(aec)という3種類のテキスト編集タスクを導入する。 これらの課題に対する多種多様な実験により,従来の推論手法よりも改善が得られた。

In neural text editing, prevalent sequence-to-sequence based approaches directly map the unedited text either to the edited text or the editing operations, in which the performance is degraded by the limited source text encoding and long, varying decoding steps. To address this problem, we propose a new inference method, Recurrence, that iteratively performs editing actions, significantly narrowing the problem space. In each iteration, encoding the partially edited text, Recurrence decodes the latent representation, generates an action of short, fixed-length, and applies the action to complete a single edit. For a comprehensive comparison, we introduce three types of text editing tasks: Arithmetic Operators Restoration (AOR), Arithmetic Equation Simplification (AES), Arithmetic Equation Correction (AEC). Extensive experiments on these tasks with varying difficulties demonstrate that Recurrence achieves improvements over conventional inference methods.
翻訳日:2022-10-14 08:55:04 公開日:2020-09-30
# 非マルコフ報酬モデルのオンライン学習

Online Learning of Non-Markovian Reward Models ( http://arxiv.org/abs/2009.12600v2 )

ライセンス: Link先を確認
Gavin Rens, Jean-Fran\c{c}ois Raskin, Rapha\"el Reynouad, Giuseppe Marra(参考訳) エージェントが報酬を受けるべき状況は、一連の以前のタスクを完了した後、すなわち報酬が非マルコフ的である場合に限られる。 歴史に依存した報酬を表現する自然な方法として、入力シーケンスから出力シーケンスを生成する有限状態オートマトンであるMealy Machineがある。 公式設定では,エージェントが進化する環境のダイナミクスをモデル化するマルコフ決定プロセス (mdp) と,非マルコフ報酬関数を定式化するためにこのmdpと同期する食事機械を考える。 MDPはエージェントによって知られているが、報酬関数はエージェントに未知であり、学習されなければならない。 この課題を克服するために、Angluinの$L^*$アクティブラーニングアルゴリズムを使用して、基礎となる非マルコフ報酬マシン(MRM)を表すMealyマシンを学習する。 形式的手法は、$l^*$で与えられるいわゆる会員クエリに答える最適戦略を決定するために用いられる。 さらに、達成される期待された報酬が、ドメインエキスパートが提供した所定の妥当な価値の少なくとも1つとなることを証明します。 枠組みを3つの問題で評価する。 その結果,非マルコフ報酬決定プロセスにおけるMRM学習には$L^*$が有効であることが示唆された。

There are situations in which an agent should receive rewards only after having accomplished a series of previous tasks, that is, rewards are non-Markovian. One natural and quite general way to represent history-dependent rewards is via a Mealy machine, a finite state automaton that produces output sequences from input sequences. In our formal setting, we consider a Markov decision process (MDP) that models the dynamics of the environment in which the agent evolves and a Mealy machine synchronized with this MDP to formalize the non-Markovian reward function. While the MDP is known by the agent, the reward function is unknown to the agent and must be learned. Our approach to overcome this challenge is to use Angluin's $L^*$ active learning algorithm to learn a Mealy machine representing the underlying non-Markovian reward machine (MRM). Formal methods are used to determine the optimal strategy for answering so-called membership queries posed by $L^*$. Moreover, we prove that the expected reward achieved will eventually be at least as much as a given, reasonable value provided by a domain expert. We evaluate our framework on three problems. The results show that using $L^*$ to learn an MRM in a non-Markovian reward decision process is effective.
翻訳日:2022-10-14 08:54:36 公開日:2020-09-30
# 半教師付きメタ学習によるドメイン一般化

Domain Generalization via Semi-supervised Meta Learning ( http://arxiv.org/abs/2009.12658v2 )

ライセンス: Link先を確認
Hossein Sharifi-Noghabi, Hossein Asghari, Nazanin Mehrasa, Martin Ester(参考訳) ドメインの一般化の目標は、複数のソースドメインから学習し、分布の相違の下で未確認のターゲットドメインに一般化することである。 この領域における最先端の手法は完全に監視されているが、実世界の多くの問題では十分なラベル付きサンプルを得ることは不可能である。 本稿では,メタラーニングのエピソード学習と,DGSMLと呼ばれる半教師あり学習を組み合わせた,ラベルなしサンプルを利用するドメイン一般化手法を提案する。 dgsmlは、ラベルのないサンプルにラベルを割り当てるエントロピーベースの擬似ラベルアプローチを採用し、ラベルなしサンプルのラベル付け前後のクラスセントロイドが互いに近接していることを保証するために、新しい不一致損失を利用する。 ドメイン不変表現を学習するために、新しいアライメント損失を利用して、ラベルなしサンプルの追加後に計算された一対のクラスセントロイド間の距離が、異なるドメインにわたって保持されることを保証する。 DGSMLは、入力ソースドメインと見えないターゲットドメイン間の分散シフトを模倣するメタ学習アプローチによって訓練される。 ベンチマークデータセットによる実験結果から、DGSMLは最先端のドメイン一般化と半教師付き学習法より優れていることが示された。

The goal of domain generalization is to learn from multiple source domains to generalize to unseen target domains under distribution discrepancy. Current state-of-the-art methods in this area are fully supervised, but for many real-world problems it is hardly possible to obtain enough labeled samples. In this paper, we propose the first method of domain generalization to leverage unlabeled samples, combining of meta learning's episodic training and semi-supervised learning, called DGSML. DGSML employs an entropy-based pseudo-labeling approach to assign labels to unlabeled samples and then utilizes a novel discrepancy loss to ensure that class centroids before and after labeling unlabeled samples are close to each other. To learn a domain-invariant representation, it also utilizes a novel alignment loss to ensure that the distance between pairs of class centroids, computed after adding the unlabeled samples, is preserved across different domains. DGSML is trained by a meta learning approach to mimic the distribution shift between the input source domains and unseen target domains. Experimental results on benchmark datasets indicate that DGSML outperforms state-of-the-art domain generalization and semi-supervised learning methods.
翻訳日:2022-10-14 08:27:23 公開日:2020-09-30
# ビデオ動作認識のための知識融合トランスフォーマ

Knowledge Fusion Transformers for Video Action Recognition ( http://arxiv.org/abs/2009.13782v2 )

ライセンス: Link先を確認
Ganesh Samarth, Sheetal Ojha, Nikhil Pareek(参考訳) ビデオアクション分類のための知識融合変換器を提案する。 分類対象のビデオクリップの3次元インセプションに基づく時空間的文脈における行動知識を融合する自己注意型特徴強調器を提案する。 ストリームネットワークを1つだけ使う方法と、事前トレーニングをほとんど行わずに、現在の最先端に近いパフォーマンスを実現する方法が示されています。 さらに,ネットワークの異なるレベルで使用するセルフアテンションアーキテクチャをブレンドして,機能表現を強化する方法について述べる。 私たちのアーキテクチャは、UCF-101とCharadesのデータセットでトレーニングされ、評価されています。 また、前もってトレーニングをしないシングルストリームネットワークとの大きなギャップも超えている。

We introduce Knowledge Fusion Transformers for video action classification. We present a self-attention based feature enhancer to fuse action knowledge in 3D inception based spatio-temporal context of the video clip intended to be classified. We show, how using only one stream networks and with little or, no pretraining can pave the way for a performance close to the current state-of-the-art. Additionally, we present how different self-attention architectures used at different levels of the network can be blended-in to enhance feature representation. Our architecture is trained and evaluated on UCF-101 and Charades dataset, where it is competitive with the state of the art. It also exceeds by a large gap from single stream networks with no to less pretraining.
翻訳日:2022-10-13 06:39:06 公開日:2020-09-30
# ドメイン内埋め込み初期化による低言語モデリングの改善

Improving Low Compute Language Modeling with In-Domain Embedding Initialisation ( http://arxiv.org/abs/2009.14109v2 )

ライセンス: Link先を確認
Charles Welch, Rada Mihalcea, Jonathan K. Kummerfeld(参考訳) バイオメディカルデータや技術サポートなどの多くのNLPアプリケーションは、ドメイン内のデータのトークンが10~1億個あり、そこから学習するための限られた計算資源がある。 このシナリオでは、どのように言語モデルを訓練すべきか? ほとんどの言語モデリング研究では、閉じた語彙を持つ小さなデータセット(標準的な100万トークンのツリーバンクなど)か、バイトペアエンコーディングを備えたweb全体を検討する。 英語のターゲット設定では、ドメイン内データを用いて入力埋め込みを初期化し、凍結することで、レアワードの有用な表現を提供することで言語モデルの性能を向上させることができることを示す。 この過程では、入力と出力の埋め込みを結合する標準的な規約は、ドメイン内データでトレーニングされた埋め込みで初期化する場合のパープレキシティを改善しないことを示す。

Many NLP applications, such as biomedical data and technical support, have 10-100 million tokens of in-domain data and limited computational resources for learning from it. How should we train a language model in this scenario? Most language modeling research considers either a small dataset with a closed vocabulary (like the standard 1 million token Penn Treebank), or the whole web with byte-pair encoding. We show that for our target setting in English, initialising and freezing input embeddings using in-domain data can improve language model performance by providing a useful representation of rare words, and this pattern holds across several different domains. In the process, we show that the standard convention of tying input and output embeddings does not improve perplexity when initializing with embeddings trained on in-domain data.
翻訳日:2022-10-13 06:19:59 公開日:2020-09-30
# embedded emotions -- 感情認識のための生音声入力から転送可能な特徴表現を学ぶデータ駆動アプローチ

Embedded Emotions -- A Data Driven Approach to Learn Transferable Feature Representations from Raw Speech Input for Emotion Recognition ( http://arxiv.org/abs/2009.14523v1 )

ライセンス: Link先を確認
Dominik Schiller, Silvan Mertes, Elisabeth Andr\'e(参考訳) 感情の自動認識に対する従来のアプローチは、手作りの機能の適用に依存している。 しかし最近では、ディープラーニングの登場により、アルゴリズムは入力データの有意義な表現を自動的に学習できるようになった。 本稿では,大規模テキストと音声コーパスから学習した知識を自動感情認識のタスクに適用する可能性を検討する。 提案手法の実用性を評価するため,今年のインタースペッチでは,高齢者の感情について,高齢者の話し言葉の分類を目的とし,高齢者の感情比較を行った。 その結果,学習した特徴表現を音声言語からの感情の分類に効果的に適用できることが示唆された。 その結果、音声信号から抽出された特徴の性能は、書き起こしから抽出された特徴と一致しないことがわかった。 音響的特徴は、開発セットでクラスで最高の結果を得たが、ベースラインシステムと比較すると、課題のテストセットで性能が大幅に低下した。 しかし、テキストフォームから抽出された特徴は、両方のセットで有望な結果を示しており、公式ベースラインを5.7%上回っている。

Traditional approaches to automatic emotion recognition are relying on the application of handcrafted features. More recently however the advent of deep learning enabled algorithms to learn meaningful representations of input data automatically. In this paper, we investigate the applicability of transferring knowledge learned from large text and audio corpora to the task of automatic emotion recognition. To evaluate the practicability of our approach, we are taking part in this year's Interspeech ComParE Elderly Emotion Sub-Challenge, where the goal is to classify spoken narratives of elderly people with respect to the emotion of the speaker. Our results show that the learned feature representations can be effectively applied for classifying emotions from spoken language. We found the performance of the features extracted from the audio signal to be not as consistent as those that have been extracted from the transcripts. While the acoustic features achieved best in class results on the development set, when compared to the baseline systems, their performance dropped considerably on the test set of the challenge. The features extracted from the text form, however, are showing promising results on both sets and are outperforming the official baseline by 5.7 percentage points unweighted average recall.
翻訳日:2022-10-13 00:40:21 公開日:2020-09-30
# 航空機アクティベーションシステムのリアルタイム診断と診断のための計算フレームワーク

Computational framework for real-time diagnostics and prognostics of aircraft actuation systems ( http://arxiv.org/abs/2009.14645v1 )

ライセンス: Link先を確認
Pier Carlo Berri, Matteo D.L. Dalla Vedova, Laura Mainini(参考訳) PHM(Prognostics and Health Management)は、システムの安全性を維持し、信頼性を向上させるとともに、運用コストとメンテナンスコストを削減する製品ライフサイクルへの新たなアプローチである。 これは、高レベルの整合性と高性能を同時に要求する航空宇宙システムにとって特に意味がある。 本稿では,動的アセンブリのほぼリアルタイムな故障検出と同定(FDI)のための新しい手法を提案し,システムの残存寿命(RUL)を推定する。 システムの健康状態のタイムリーな見積が可能となると、メンテナンスの適応的な計画とミッションプロファイルの動的再構成が可能になり、運用コストの削減と信頼性の向上が図られる。 本研究は,(1) 信号取得,(2) 故障検出と同定,(3) 有効な寿命推定,(3) 予測フローの3つのフェーズに対処し,リアルタイム・オンボード実行に適した計算効率の高い手法を提案する。 この目的を達成するために,異なる忠実度を持つ物理モデルと機械学習技術を組み合わせて,ほぼリアルタイムなアプリケーションに適した効率的な表現(代理モデル)を求める。 さらに, 動的システムの損傷伝播をモデル化するための重要サンプリング戦略と新しいアプローチを提案する。 この手法は、二次飛行制御のための航空機電気機械アクチュエータ(EMA)のFDIおよびRUL推定のために評価される。 提案手法は,計算時間の観点から,一般的なモデルベース手法よりも高い精度でシステムRULの評価を行うことができることを示す。

Prognostics and Health Management (PHM) are emerging approaches to product life cycle that will maintain system safety and improve reliability, while reducing operating and maintenance costs. This is particularly relevant for aerospace systems, where high levels of integrity and high performances are required at the same time. We propose a novel strategy for the nearly real-time Fault Detection and Identification (FDI) of a dynamical assembly, and for the estimation of Remaining Useful Life (RUL) of the system. The availability of a timely estimate of the health status of the system will allow for an informed adaptive planning of maintenance and a dynamical reconfiguration of the mission profile, reducing operating costs and improving reliability. This work addresses the three phases of the prognostic flow - namely (1) signal acquisition, (2) Fault Detection and Identification, and (3) Remaining Useful Life estimation - and introduces a computationally efficient procedure suitable for real-time, on-board execution. To achieve this goal, we propose to combine information from physical models of different fidelity with machine learning techniques to obtain efficient representations (surrogate models) suitable for nearly real-time applications. Additionally, we propose an importance sampling strategy and a novel approach to model damage propagation for dynamical systems. The methodology is assessed for the FDI and RUL estimation of an aircraft electromechanical actuator (EMA) for secondary flight controls. The results show that the proposed method allows for a high precision in the evaluation of the system RUL, while outperforming common model-based techniques in terms of computational time.
翻訳日:2022-10-13 00:40:02 公開日:2020-09-30
# 単言語ASRから転写自由言語間音声変換への変換学習

Transfer Learning from Monolingual ASR to Transcription-free Cross-lingual Voice Conversion ( http://arxiv.org/abs/2009.14668v1 )

ライセンス: Link先を確認
Che-Jui Chang(参考訳) 言語間音声変換(VC)は、ソースとターゲット話者が異なる言語で話しながら、同じ内容のターゲット音声を合成することを目的としたタスクである。 その課題は、ソースとターゲットデータが自然に非並列であり、文字起こしのない言語間のギャップを埋めることさえ困難であるという事実にある。 本稿では,モノリン言語ASRから言語間VCへの知識伝達に着目し,このミスマッチ問題に対処する。 これを実現するために、まずソース言語のための単言語音響モデルをトレーニングし、VCデータセットの全音声の特徴を抽出し、次にSeq2Seq変換モデルをトレーニングし、メルスペクトルを予測します。 外国語音声の書き起こしや言語固有の知識を必要とせず,言語間VCの対応に成功した。 これを音声変換チャレンジ2020データセットで実験し、話者依存変換モデルがゼロショットベースラインを上回り、言語間変換のための音声品質および話者類似度において3.83および3.54のmosを達成していることを示す。 Cascade ASR-TTS法と比較して,提案手法はMOS滴の内・言語間変換を著しく低減する。

Cross-lingual voice conversion (VC) is a task that aims to synthesize target voices with the same content while source and target speakers speak in different languages. Its challenge lies in the fact that the source and target data are naturally non-parallel, and it is even difficult to bridge the gaps between languages with no transcriptions provided. In this paper, we focus on knowledge transfer from monolin-gual ASR to cross-lingual VC, in order to address the con-tent mismatch problem. To achieve this, we first train a monolingual acoustic model for the source language, use it to extract phonetic features for all the speech in the VC dataset, and then train a Seq2Seq conversion model to pre-dict the mel-spectrograms. We successfully address cross-lingual VC without any transcription or language-specific knowledge for foreign speech. We experiment this on Voice Conversion Challenge 2020 datasets and show that our speaker-dependent conversion model outperforms the zero-shot baseline, achieving MOS of 3.83 and 3.54 in speech quality and speaker similarity for cross-lingual conversion. When compared to Cascade ASR-TTS method, our proposed one significantly reduces the MOS drop be-tween intra- and cross-lingual conversion.
翻訳日:2022-10-13 00:39:36 公開日:2020-09-30
# 量子デバイスの効率的な測定のための深部強化学習

Deep Reinforcement Learning for Efficient Measurement of Quantum Devices ( http://arxiv.org/abs/2009.14825v1 )

ライセンス: Link先を確認
V. Nguyen, S.B. Orbell, D.T. Lennon, H. Moon, F. Vigneau, L.C. Camenzind, L. Yu, D.M. Zumb\"uhl, G.A.D. Briggs, M.A. Osborne, D. Sejdinovic, and N. Ares(参考訳) 深層強化学習(deep reinforcement learning)は、人間が経験から学ぶ方法と同じように、コンピュータに行動や報酬から学ぶことを教える、新たな機械学習アプローチである。 これは、大きなパラメータ空間をナビゲートする決定プロセスを自動化する多くの利点を提供する。 本稿では,深層強化学習に基づく量子デバイスの効率的な測定手法を提案する。 我々は2つの量子ドットデバイスに注目し、バイアス三角形と呼ばれる特定の輸送特性の完全な自動識別を示す。 これらの特徴を対象とする測定は、パラメータ空間の非機能領域でバイアス三角形が見つかるため、自動化が難しい。 提案アルゴリズムでは,30分以内,時には1分以内の偏差三角形を同定する。 このアプローチは、ディープQ-ネットワークに基づくもので、幅広いデバイスやターゲットトランスポート機能に適応することができる。 これは、量子デバイスの測定と操作における決定のための深層強化学習の有用性の重要な実証である。

Deep reinforcement learning is an emerging machine learning approach which can teach a computer to learn from their actions and rewards similar to the way humans learn from experience. It offers many advantages in automating decision processes to navigate large parameter spaces. This paper proposes a novel approach to the efficient measurement of quantum devices based on deep reinforcement learning. We focus on double quantum dot devices, demonstrating the fully automatic identification of specific transport features called bias triangles. Measurements targeting these features are difficult to automate, since bias triangles are found in otherwise featureless regions of the parameter space. Our algorithm identifies bias triangles in a mean time of less than 30 minutes, and sometimes as little as 1 minute. This approach, based on dueling deep Q-networks, can be adapted to a broad range of devices and target transport features. This is a crucial demonstration of the utility of deep reinforcement learning for decision making in the measurement and operation of quantum devices.
翻訳日:2022-10-13 00:39:13 公開日:2020-09-30
# MIDI分解ツールキット:シンボリック・ミュージックの強化と補正

The MIDI Degradation Toolkit: Symbolic Music Augmentation and Correction ( http://arxiv.org/abs/2010.00059v1 )

ライセンス: Link先を確認
Andrew McLeod, James Owers, Kazuyoshi Yoshii(参考訳) 本稿では,MIDI分解ツールキット(MDTK)を導入し,音符(音符,音符,音符,音符,音符,音符,音符,音符)を入力として入力し,その「劣化」バージョンを何らかの誤り(または誤り)で返却する機能について述べる。 このツールキットを用いて、Altered and Corrupted MIDI Excerpts dataset Version 1.0 (ACME v1.0)を作成し、劣化の検出、分類、発見、修正を困難にする4つのタスクを提案する。 これらのタスク用にトレーニングされたモデルが、(例えば)後処理ステップとして適用すれば、自動書き起こし性能を改善するのに役立つと仮定する。 この目的のために、MDTKは書き起こし中の異なるタイプのエラーの分布を測定し、同様の特性を持つ劣化データセットを生成するスクリプトを含んでいる。 MDTKの劣化は、トレーニング中のデータセット(上記スクリプトの有無に関わらず)に動的に適用することができ、各エポックごとに新しく劣化した抜粋を生成する。 MDTKはまた、MIDI(または類似した)データを入力(例えば、音声分離、メートル法アライメント、コード検出のために設計されたシステム)として、このような書き起こしエラーやノイズの多いデータに使用するように設計されたシステムの堅牢性をテストするためにも使用できる。 toolkitとdatasetはどちらもオンラインで公開されており、コミュニティからのコントリビューションとフィードバックを奨励しています。

In this paper, we introduce the MIDI Degradation Toolkit (MDTK), containing functions which take as input a musical excerpt (a set of notes with pitch, onset time, and duration), and return a "degraded" version of that excerpt with some error (or errors) introduced. Using the toolkit, we create the Altered and Corrupted MIDI Excerpts dataset version 1.0 (ACME v1.0), and propose four tasks of increasing difficulty to detect, classify, locate, and correct the degradations. We hypothesize that models trained for these tasks can be useful in (for example) improving automatic music transcription performance if applied as a post-processing step. To that end, MDTK includes a script that measures the distribution of different types of errors in a transcription, and creates a degraded dataset with similar properties. MDTK's degradations can also be applied dynamically to a dataset during training (with or without the above script), generating novel degraded excerpts each epoch. MDTK could also be used to test the robustness of any system designed to take MIDI (or similar) data as input (e.g. systems designed for voice separation, metrical alignment, or chord detection) to such transcription errors or otherwise noisy data. The toolkit and dataset are both publicly available online, and we encourage contribution and feedback from the community.
翻訳日:2022-10-13 00:38:59 公開日:2020-09-30
# クリックスルー率に基づくtwitterのエンゲージメントの理解

Understanding Twitter Engagement with a Click-Through Rate-based Method ( http://arxiv.org/abs/2010.06985v1 )

ライセンス: Link先を確認
Andrea Fiandro, Jeanpierre Francois, Isabeau Oliveri, Simone Leonardi, Matteo A. Senese, Giorgio Crepaldi, Alberto Benincasa, Giuseppe Rizzo(参考訳) 本稿では,最終大会で6位となったRecSys Challenge 2020に対するPOLINKSソリューションを提案する。 課題に対処するためにクリックスルーレート値を利用するソリューションの性能を分析し,それを勾配向上モデルと比較し,最終リーダーボードの計算に使用する品質指標について報告する。

This paper presents the POLINKS solution to the RecSys Challenge 2020 that ranked 6th in the final leaderboard. We analyze the performance of our solution that utilizes the click-through rate value to address the challenge task, we compare it with a gradient boosting model, and we report the quality indicators utilized for computing the final leaderboard.
翻訳日:2022-10-13 00:37:36 公開日:2020-09-30
# スマートビルにおける作業追跡に関するプライバシー問題

Privacy Concerns Regarding Occupant Tracking in Smart Buildings ( http://arxiv.org/abs/2010.07028v1 )

ライセンス: Link先を確認
Ellis Kessler, Moeti Masiane, Awad Abdelhalim(参考訳) 建物内の住民の追跡は、過去10年間に注目の的となっている。 占有者追跡は公共の安全、エネルギー保全、マーケティングの分野で使われている。 gps、監視カメラを用いた視覚ベースの追跡、加速度計などのセンサーを用いた振動ベースの追跡など、建物外を追跡する様々な方法が実証されている。 本研究では,利用者を追跡する主なシステムは,利用者がどこにいるか,それぞれのプライバシーの懸念,収集された追跡情報をどの程度特定可能か,といった詳細度を比較して比較する。 最近,バージニア工科大学グッドウィンホールに設置した振動センサを用いたケーススタディについて検討し,現状の手法において,占有位置推定における類似したレベルの精度を実現できることを示すとともに,振動信号データセットにおける識別情報の量に着目した。 最後に, 使用者のプライバシーを守るために振動データを変換する手法を提案し, 実験を行った。 その結果,提案手法は,振動データから既往の性別情報の匿名化に成功し,かつ,匿名化を伴わない局所化精度を最小限に抑えることができた。

Tracking of occupants within buildings has become a topic of interest in the past decade. Occupant tracking has been used in the public safety, energy conservation, and marketing fields. Various methods have been demonstrated which can track people outside of and inside buildings; including GPS, visual-based tracking using surveillance cameras, and vibration-based tracking using sensors such as accelerometers. In this work, those main systems for tracking occupants are compared and contrasted for the levels of detail they give about where occupants are, as well as their respective privacy concerns and how identifiable the tracking information collected is to a specific person. We discuss a case study using vibrations sensors mounted in Virginia Tech's Goodwin Hall that was recently conducted, demonstrating that similar levels of accuracy in occupant localization can be achieved to current methods, and highlighting the amount of identifying information in the vibration signals dataset. Finally, a method of transforming the vibration data to preserve occupant privacy was proposed and tested on the dataset. The results indicate that our proposed method has successfully resulted in anonymizing the occupant's gender information which was previously identifiable from the vibration data, while minimally impacting the localization accuracy achieved without anonymization.
翻訳日:2022-10-13 00:37:30 公開日:2020-09-30
# 学習と強真正なマルチタスクピア予測--変分的アプローチ

Learning and Strongly Truthful Multi-Task Peer Prediction: A Variational Approach ( http://arxiv.org/abs/2009.14730v1 )

ライセンス: Link先を確認
Grant Schoenebeck and Fang-Yi Yu(参考訳) ピア予測メカニズムは、エージェントの報告と仲間の報告を比較して、検証がなくても、エージェントが真にその信号を報告するように動機付ける。 詳細フリーのマルチタスク設定では、エージェントは複数の独立かつ同一に分散したタスクに応答し、そのメカニズムはエージェントのシグナルの事前分布を知らない。 目標は、$\epsilon$-strongly truthful mechanismを提供することで、真理を測る報酬は他の戦略プロファイル($\epsilon$additive error)よりも「厳格」にエージェントを報酬し、できるだけ少ないタスクを必要としながらそれを行う。 我々は、レポートのペアをスコアにマッピングするスコア関数を持つメカニズムのファミリーを設計する。 このメカニズムは、スコアリング関数が「優先イデアル」であり、スコアリング関数が理想関数に十分近い限り、$\epsilon$-strongly truefulである場合に強く真である。 これにより、上記のメカニズム設計の問題を学習問題、特に理想的なスコアリング関数の学習に還元する。 この還元を利用して以下の3つの結果を得る。 1) 異なる種類の先行作業に必要なタスク数に対して,適切な境界を導出する方法を示す。 我々の削減は無数の連続信号空間設定に適用できる。 これはマルチタスク設定用に設計された連続信号に対する最初のピア予測機構である。 2) エージェントの信号(他のエージェントの信号を付加する)のソフト予測器をメカニズムに変換する方法を示す。 これにより、多くのエージェントが騒がしい情報を提供しても良い結果を与える機械学習アルゴリズムを実用化することができる。 3) 有限信号空間に対して、任意の確率論的に関係する任意の先行について$\epsilon$-strongly truthful mechanism を得る。 対照的に、先行研究は、真理性(真理性)の弱い概念しか達成しないし、事前のより強い仮定を必要とする。

Peer prediction mechanisms incentivize agents to truthfully report their signals even in the absence of verification by comparing agents' reports with those of their peers. In the detail-free multi-task setting, agents respond to multiple independent and identically distributed tasks, and the mechanism does not know the prior distribution of agents' signals. The goal is to provide an $\epsilon$-strongly truthful mechanism where truth-telling rewards agents "strictly" more than any other strategy profile (with $\epsilon$ additive error), and to do so while requiring as few tasks as possible. We design a family of mechanisms with a scoring function that maps a pair of reports to a score. The mechanism is strongly truthful if the scoring function is "prior ideal," and $\epsilon$-strongly truthful as long as the scoring function is sufficiently close to the ideal one. This reduces the above mechanism design problem to a learning problem -- specifically learning an ideal scoring function. We leverage this reduction to obtain the following three results. 1) We show how to derive good bounds on the number of tasks required for different types of priors. Our reduction applies to myriad continuous signal space settings. This is the first peer-prediction mechanism on continuous signals designed for the multi-task setting. 2) We show how to turn a soft-predictor of an agent's signals (given the other agents' signals) into a mechanism. This allows the practical use of machine learning algorithms that give good results even when many agents provide noisy information. 3) For finite signal spaces, we obtain $\epsilon$-strongly truthful mechanisms on any stochastically relevant prior, which is the maximal possible prior. In contrast, prior work only achieves a weaker notion of truthfulness (informed truthfulness) or requires stronger assumptions on the prior.
翻訳日:2022-10-13 00:31:14 公開日:2020-09-30
# アナログ回路レイアウトにおける階層対称性制約の一般化

A general approach for identifying hierarchical symmetry constraints for analog circuit layout ( http://arxiv.org/abs/2010.00051v1 )

ライセンス: Link先を確認
Kishor Kunal, Jitesh Poojary, Tonmoy Dhar, Meghna Madhusudan, Ramesh Harjani, Sachin S. Sapatnekar(参考訳) アナログレイアウト合成では、回路ネットリスト内のいくつかの要素をマッチングして対称に配置する必要がある。 しかし、対称性のセットは非常に回路固有であり、多種多様な回路に適用可能な多用途アルゴリズムは、不可解である。 本稿では,対称性制約の自動生成のための一般的な手法を提案し,これらの制約を自動レイアウト合成のガイドに適用する。 従来の手法は単純な対称性の同定に限られていたが、提案手法は階層的に動作し、グラフベースのアルゴリズムを用いて回路内の複数の対称性軸を抽出する。 このアルゴリズムの重要な要素は、繰り返し構造の配列を特定する能力である。 一部の回路では、反復構造は完全な複製ではなく、近似グラフマッチングによってのみ発見できる。 この目的のために,グラフ編集距離の評価に基づく高速グラフニューラルネットワークに基づく手法を開発した。 このアルゴリズムの有用性は、演算増幅器、データ変換器、等化器、低雑音増幅器など、様々な回路で実証されている。

Analog layout synthesis requires some elements in the circuit netlist to be matched and placed symmetrically. However, the set of symmetries is very circuit-specific and a versatile algorithm, applicable to a broad variety of circuits, has been elusive. This paper presents a general methodology for the automated generation of symmetry constraints, and applies these constraints to guide automated layout synthesis. While prior approaches were restricted to identifying simple symmetries, the proposed method operates hierarchically and uses graph-based algorithms to extract multiple axes of symmetry within a circuit. An important ingredient of the algorithm is its ability to identify arrays of repeated structures. In some circuits, the repeated structures are not perfect replicas and can only be found through approximate graph matching. A fast graph neural network based methodology is developed for this purpose, based on evaluating the graph edit distance. The utility of this algorithm is demonstrated on a variety of circuits, including operational amplifiers, data converters, equalizers, and low-noise amplifiers.
翻訳日:2022-10-13 00:30:39 公開日:2020-09-30
# 深層学習による乳癌画像診断支援システム : 批判的レビュー

Deep Learning Based Computer-Aided Systems for Breast Cancer Imaging : A Critical Review ( http://arxiv.org/abs/2010.00961v1 )

ライセンス: Link先を確認
Yuliana Jim\'enez-Gaona, Mar\'ia Jos\'e Rodr\'iguez-\'Alvarez and Vasudevan Lakshminarayanan(参考訳) 本稿では,超音波およびマンモグラフィー画像を用いた乳癌診断における深層学習の応用に関する文献的考察を行う。 また,画像を自動的に認識し,放射線技師による診断精度を向上させるための新しい深層学習手法を応用したコンピュータ支援診断システム(CAD)の最近の進歩を要約した。 このレビューは、過去10年間の出版文献(2010年1月)に基づいている。 分類過程における主な知見は,新しいDL-CAD法が乳癌のスクリーニングツールとして有用であり,手動による特徴抽出の必要性が軽減されたことである。 乳腺腫瘍研究コミュニティは、この調査を現在および将来の研究の基礎として活用することができる。

This paper provides a critical review of the literature on deep learning applications in breast tumor diagnosis using ultrasound and mammography images. It also summarizes recent advances in computer-aided diagnosis (CAD) systems, which make use of new deep learning methods to automatically recognize images and improve the accuracy of diagnosis made by radiologists. This review is based upon published literature in the past decade (January 2010 January 2020). The main findings in the classification process reveal that new DL-CAD methods are useful and effective screening tools for breast cancer, thus reducing the need for manual feature extraction. The breast tumor research community can utilize this survey as a basis for their current and future studies.
翻訳日:2022-10-13 00:29:26 公開日:2020-09-30
# 機械学習による企業投資価値の評価

Evaluation of company investment value based on machine learning ( http://arxiv.org/abs/2010.01996v1 )

ライセンス: Link先を確認
Junfeng Hu, Xiaosa Li, Yuru Xu, Shaowu Wu, Bin Zheng(参考訳) 本稿では,包括的企業情報に基づく企業投資価値評価モデルを構築した。 データマイニングと436個の特徴パラメータの抽出の後、木に基づく特徴選択による次元削減と、XGBoostとLightGBMモデルを用いた5倍のクロスバリデーションによって特徴の最適サブセットを得る。 その結果、Root-Mean-Square Error(RMSE)はそれぞれ3.098と3.059に達した。 安定性と一般化能力をさらに向上するために、ベイジアンリッジ回帰はXGBoostとLightGBMモデルに基づいた積み重ねモデルの訓練に使用されている。 RMSEは最大3.047である。 最後に、LightGBMモデルに対する異なる機能の重要性を分析する。

In this paper, company investment value evaluation models are established based on comprehensive company information. After data mining and extracting a set of 436 feature parameters, an optimal subset of features is obtained by dimension reduction through tree-based feature selection, followed by the 5-fold cross-validation using XGBoost and LightGBM models. The results show that the Root-Mean-Square Error (RMSE) reached 3.098 and 3.059, respectively. In order to further improve the stability and generalization capability, Bayesian Ridge Regression has been used to train a stacking model based on the XGBoost and LightGBM models. The corresponding RMSE is up to 3.047. Finally, the importance of different features to the LightGBM model is analysed.
翻訳日:2022-10-13 00:29:13 公開日:2020-09-30
# 離散方向およびベクトル場における特異点と指数推定のためのロバスト性尺度

A robustness measure for singular point and index estimation in discretized orientation and vector fields ( http://arxiv.org/abs/2009.14570v1 )

ライセンス: Link先を確認
Karl B. Hoffmann and Ivo F. Sbalzarini(参考訳) 離散化されたベクトル場における特異点や位相的欠陥の同定は、宇宙マイクロ波背景の偏光から液晶、指紋認識や生体医用画像まで幅広い領域で発生する。 その離散的な性質のため、欠陥とその位相電荷は個々のベクトルに連続的に依存することはできないが、ベクトルがしきい値を超えるとすぐに不連続に変化する。 ベクトルのレベルにおける許容変化のしきい値を考慮して,離散欠陥推定器に対するロバスト性尺度を開発した。 本稿では,離散ベクトル場や方向場における欠陥推定のためのテンプレートパスの比較を行う。 欠陥を取り巻く原型ベクトル場パターンをサンプリングすると、テンプレートパスの長さによってロバスト性は増大するが、ベクターのノイズの存在下では弱くなる。 したがって,ゼロロバスト性は排除できない「シングルピクセル」欠陥解析を除いて,比較的小さなテンプレートの分解能と雑音に対するロバスト性との最適トレードオフを見出した。 提示されたロバスト性尺度は、離散ベクトル場の欠陥の不確かさを定量化する方法である。

The identification of singular points or topological defects in discretized vector fields occurs in diverse areas ranging from the polarization of the cosmic microwave background to liquid crystals to fingerprint recognition and bio-medical imaging. Due to their discrete nature, defects and their topological charge cannot depend continuously on each single vector, but they discontinuously change as soon as a vector changes by more than a threshold. Considering this threshold of admissible change at the level of vectors, we develop a robustness measure for discrete defect estimators. Here, we compare different template paths for defect estimation in discretized vector or orientation fields. Sampling prototypical vector field patterns around defects shows that the robustness increases with the length of template path, but less so in the presence of noise on the vectors. We therefore find an optimal trade-off between resolution and robustness against noise for relatively small templates, except for the "single pixel" defect analysis, which cannot exclude zero robustness. The presented robustness measure paves the way for uncertainty quantification of defects in discretized vector fields.
翻訳日:2022-10-13 00:29:01 公開日:2020-09-30
# 畳み込みニューラルネットワークとシミュレーションを用いた基本図の文化的側面の検討

Investigating Cultural Aspects in the Fundamental Diagram using Convolutional Neural Networks and Simulation ( http://arxiv.org/abs/2010.11995v1 )

ライセンス: Link先を確認
Rodolfo M. Favaretto, Roberto R. Santos, Marcio Ballotin, Paulo Knob, Soraia R. Musse, Felipe Vilanova, Angelo B. Costa(参考訳) 本稿では、ブラジルとドイツという2つの国の文化(個人空間)にまたがる重要な特性の違いに着目した、コントロール実験における集団行動に関する研究を行う。 ドイツとブラジルの進化を同一の人口で同一のタスクでコヒーレントに比較するため,ブラジルで実施した歩行者基本図実験をドイツで実施した。 我々は、CNNを使って、ビデオシーケンス中の人々を検知し、追跡する。 このデータを用いて,voronoiダイアグラムを用いて人間間の隣接関係を探索し,歩行距離を計算し,個人空間を探索する。 個人空間分析の結果,人口密度の高い個体群では人の行動がより類似し,低密度・中密度では変化がみられた。 そこで我々は,低密度と中密度の2国間の文化的差異に着目した。 その結果, 映像系列の文化的側面を理解する上で, 個人空間分析が重要な特徴であることが示唆された。 文化の違いに加えて,OCEANを用いて,観衆の個性モデルについても検討する。 また、OCEAN心理特性モデルを入力として、他国からのFD実験をシミュレートする方法も提案した。 模擬諸国は文学と一致していた。

This paper presents a study regarding group behavior in a controlled experiment focused on differences in an important attribute that vary across cultures -- the personal spaces -- in two Countries: Brazil and Germany. In order to coherently compare Germany and Brazil evolutions with same population applying same task, we performed the pedestrian Fundamental Diagram experiment in Brazil, as performed in Germany. We use CNNs to detect and track people in video sequences. With this data, we use Voronoi Diagrams to find out the neighbor relation among people and then compute the walking distances to find out the personal spaces. Based on personal spaces analyses, we found out that people behavior is more similar, in terms of their behaviours, in high dense populations and vary more in low and medium densities. So, we focused our study on cultural differences between the two Countries in low and medium densities. Results indicate that personal space analyses can be a relevant feature in order to understand cultural aspects in video sequences. In addition to the cultural differences, we also investigate the personality model in crowds, using OCEAN. We also proposed a way to simulate the FD experiment from other countries using the OCEAN psychological traits model as input. The simulated countries were consistent with the literature.
翻訳日:2022-10-13 00:28:44 公開日:2020-09-30
# マルチチャネル深部3次元顔認識

Multi-channel Deep 3D Face Recognition ( http://arxiv.org/abs/2009.14743v1 )

ライセンス: Link先を確認
Zhiqian You, Tingting Yang, Miao Jin(参考訳) 顔認識は多くのアプリケーションにおいて、そのスループット、利便性、非侵襲性のバイオメトリックとして非常に重要である。 近年の深層畳み込みニューラルネットワーク(CNN)アーキテクチャの進歩は,二次元(2次元)顔テクスチャ画像に基づく顔認識の性能を著しく向上させ,従来手法による先行技術よりも優れていた。 しかし, 2次元顔認識の精度には, 姿勢, 照明, 化粧, 表情の変化が課題となっている。 一方、3次元(3次元)顔データに含まれる幾何学情報は、2次元顔データの基本的な制限を克服する可能性がある。 3次元顔データに基づく顔認識のためのマルチチャネル深部3次元顔ネットワークを提案する。 直交する三角形メッシュ構造に基づいて3次元面の幾何情報を計算し、3次元面から2次元面までの色と整合的に平坦化し、最先端の深層CNNアーキテクチャを利用する。 ネットワークの入力層を変更して9チャンネルの画像を取り出すことにより、より幾何学的な情報を明示的に供給できるようにした。 我々は、VGG-Face \cite{Parkhi2015}の画像を用いてネットワークを事前訓練し、生成したマルチチャネル顔画像で微調整する。 マルチチャネル深層3d顔ネットワークの顔認識精度は98.6。 実験結果から,9チャンネル画像が平面に平面的に平ら化した場合のネットワーク性能は,直交射影よりも良好であることが明らかとなった。

Face recognition has been of great importance in many applications as a biometric for its throughput, convenience, and non-invasiveness. Recent advancements in deep Convolutional Neural Network (CNN) architectures have boosted significantly the performance of face recognition based on two-dimensional (2D) facial texture images and outperformed the previous state of the art using conventional methods. However, the accuracy of 2D face recognition is still challenged by the change of pose, illumination, make-up, and expression. On the other hand, the geometric information contained in three-dimensional (3D) face data has the potential to overcome the fundamental limitations of 2D face data. We propose a multi-Channel deep 3D face network for face recognition based on 3D face data. We compute the geometric information of a 3D face based on its piecewise-linear triangular mesh structure and then conformally flatten geometric information along with the color from 3D to 2D plane to leverage the state-of-the-art deep CNN architectures. We modify the input layer of the network to take images with nine channels instead of three only such that more geometric information can be explicitly fed to it. We pre-train the network using images from the VGG-Face \cite{Parkhi2015} and then fine-tune it with the generated multi-channel face images. The face recognition accuracy of the multi-Channel deep 3D face network has achieved 98.6. The experimental results also clearly show that the network performs much better when a 9-channel image is flattened to plane based on the conformal map compared with the orthographic projection.
翻訳日:2022-10-13 00:23:01 公開日:2020-09-30
# 画像に基づく機械学習手法を用いた切手成形シミュレーションのサロゲートモデルの開発に関する研究

A study on using image based machine learning methods to develop the surrogate models of stamp forming simulations ( http://arxiv.org/abs/2010.03370v1 )

ライセンス: Link先を確認
Haosu Zhou, Qingfeng Xu, Nan Li(参考訳) 金属成形の設計最適化において、有限要素解析(FEA)シミュレーションの解析に代理モデルを用いることがますます重要になっている。 しかし、スカラーベース機械学習手法(SBMLM)を用いた従来のサロゲートモデルは、精度と一般化性に欠ける。 これはSBMLMがシミュレーションの位置情報を利用できないためである。 これらの欠点を克服するために,画像ベース機械学習手法(IBMLM)を応用した。 IBMLMの利点を支持する位置情報の基本的な理論は質的に解釈されている。 この理論に基づき、res-se-u-net ibmlmサーロゲートモデルを開発し、参照sbmlmサーロゲートモデルとして多層パーセプトロン(mlp)と比較した。 IBMLMモデルは, MLP SBMLMモデルよりも精度, 一般化性, 堅牢性, 情報性において有利であることを示す。 本稿では,IBMLMを代理モデルに活用し,FAA結果からの情報を最大限活用するための有望な手法を提案する。 本論文に触発された今後の展望研究についても述べる。

In the design optimization of metal forming, it is increasingly significant to use surrogate models to analyse the finite element analysis (FEA) simulations. However, traditional surrogate models using scalar based machine learning methods (SBMLMs) fall in short of accuracy and generalizability. This is because SBMLMs fail to harness the location information of the simulations. To overcome these shortcomings, image based machine learning methods (IBMLMs) are leveraged in this paper. The underlying theory of location information, which supports the advantages of IBMLM, is qualitatively interpreted. Based on this theory, a Res-SE-U-Net IBMLM surrogate model is developed and compared with a multi-layer perceptron (MLP) as a referencing SBMLM surrogate model. It is demonstrated that the IBMLM model is advantageous over the MLP SBMLM model in accuracy, generalizability, robustness, and informativeness. This paper presents a promising methodology of leveraging IBMLMs in surrogate models to make maximum use of info from FEA results. Future prospective studies that inspired by this paper are also discussed.
翻訳日:2022-10-13 00:21:36 公開日:2020-09-30
# ビデオストリームにおける複合イベント検出のための視覚意味マルチメディアイベントモデル

Visual Semantic Multimedia Event Model for Complex Event Detection in Video Streams ( http://arxiv.org/abs/2009.14525v1 )

ライセンス: Link先を確認
Piyush Yadav, Edward Curry(参考訳) マルチメディアデータは表現力が高く、伝統的に機械が解釈するのが非常に困難であった。 複雑なイベント処理(CEP)のようなミドルウェアシステムは、データストリームからパターンをマイニングし、タイムリーな方法でユーザに通知を送信する。 現在、cepシステムは、データの複雑さと基盤となる構造化データモデルがないため、マルチメディアストリームの処理に固有の制限がある。 本稿では,低レベルメディアストリームから派生した意味的知識表現を作成することで,複雑なマルチメディアイベント処理を可能にする視覚イベント仕様を提案する。 パターン検出機能のアンサンブルを用いて、メディアストリームから高レベルなセマンティック概念を検出することができる。 セマンティックモデルはマルチメディアCEPエンジンのディープラーニングモデルと一致し、時空間のイベント計算を使用してルールを構築するエンドユーザに柔軟性を提供する。 これにより、メディアストリームからパターンを検出し、高度に表現力のある知識中心のユーザクエリとマルチメディアデータの低レベルの特徴とのセマンティックギャップを埋めるCEP機能が強化される。 私たちはアプローチとパフォーマンスを検証するために、小さなトラフィックイベントオントロジーのプロトタイプを構築しました。 論文の寄稿は3倍です i)マルチメディアストリームのための知識グラフ表現を提案する。 二 メディアストリームから視覚的なパターンを検知する階層的イベントネットワーク iii)イベント計算を用いた複合マルチメディアイベント推論のための複雑なパターンルールの定義

Multimedia data is highly expressive and has traditionally been very difficult for a machine to interpret. Middleware systems such as complex event processing (CEP) mine patterns from data streams and send notifications to users in a timely fashion. Presently, CEP systems have inherent limitations to process multimedia streams due to its data complexity and the lack of an underlying structured data model. In this work, we present a visual event specification method to enable complex multimedia event processing by creating a semantic knowledge representation derived from low-level media streams. The method enables the detection of high-level semantic concepts from the media streams using an ensemble of pattern detection capabilities. The semantic model is aligned with a multimedia CEP engine deep learning models to give flexibility to end-users to build rules using spatiotemporal event calculus. This enhances CEP capability to detect patterns from media streams and bridge the semantic gap between highly expressive knowledge-centric user queries to the low-level features of the multi-media data. We have built a small traffic event ontology prototype to validate the approach and performance. The paper contribution is threefold: i) we present a knowledge graph representation for multimedia streams, ii) a hierarchical event network to detect visual patterns from media streams and iii) define complex pattern rules for complex multimedia event reasoning using event calculus
翻訳日:2022-10-13 00:21:18 公開日:2020-09-30
# 動的医用画像のセグメンテーションのための深層ネットワークのスペクトル分解

Spectral Decomposition in Deep Networks for Segmentation of Dynamic Medical Images ( http://arxiv.org/abs/2010.00003v1 )

ライセンス: Link先を確認
Edgar A. Rios Piedra, Morteza Mardani, Frank Ong, Ukash Nakarmi, Joseph Y. Cheng, Shreyas Vasanawala(参考訳) dynamic contrast-enhanced magnetic resonance imaging (dce-mri) は臨床で日常的に使用される多相法である。 ダイナミック医療データのDCEと類似したデータセットは、興味の対象の検出に関係しない空間的および時間的成分の冗長な情報を含む傾向があり、不均一な異種データが豊富に存在するため、テスト時にも性能が劣る長いトレーニング時間を持つ複雑なコンピュータモデルをもたらす。 本研究は,空間的およびスペクトル的成分の冗長情報を決定することにより,深層ネットワークのトレーニング効果と性能の向上を図り,セグメンテーション精度の維持と改善の可能性を示す。 報告された実験は、小児DCE患者の腹部画像からなる異種データセットのトレーニング・テストの有効性の評価を含み、劇的なデータ削減(80%以上)は、セグメント化モデルの動的情報と性能を効果的に抑制し、画像のノイズや不要部分を効果的に抑制できることを示した。

Dynamic contrast-enhanced magnetic resonance imaging (DCE- MRI) is a widely used multi-phase technique routinely used in clinical practice. DCE and similar datasets of dynamic medical data tend to contain redundant information on the spatial and temporal components that may not be relevant for detection of the object of interest and result in unnecessarily complex computer models with long training times that may also under-perform at test time due to the abundance of noisy heterogeneous data. This work attempts to increase the training efficacy and performance of deep networks by determining redundant information in the spatial and spectral components and show that the performance of segmentation accuracy can be maintained and potentially improved. Reported experiments include the evaluation of training/testing efficacy on a heterogeneous dataset composed of abdominal images of pediatric DCE patients, showing that drastic data reduction (higher than 80%) can preserve the dynamic information and performance of the segmentation model, while effectively suppressing noise and unwanted portion of the images.
翻訳日:2022-10-13 00:20:56 公開日:2020-09-30
# 圧電トランスデューサを用いたパイプライン損傷検出のための隠れマルコフモデル

Hidden Markov Models for Pipeline Damage Detection Using Piezoelectric Transducers ( http://arxiv.org/abs/2009.14589v1 )

ライセンス: Link先を確認
Mingchi Zhang, Xuemin Chen and Wei Li(参考訳) 石油とガスパイプラインの漏出は、経済的損失だけでなく、環境災害にも繋がる。 漏れやひび割れを含むパイプラインの損傷を検出する方法が研究の注目を集めている。 有望な漏洩検出方法の1つは、鉛ジルコネート(pzt)トランスデューサを使用して漏れが発生したときに負の圧力波を検出することである。 PZTトランスデューサは、ひび割れ検出のための誘導応力波を発生および検出することができる。 しかし, 沖合環境における油・ガスパイプラインなどの環境干渉では, 負圧波や誘導応力波は容易には検出できない。 本稿では,ガウス混合モデルに基づく隠れマルコフモデル (GMM-HMM) を提案し,環境変化と時間変動操作条件におけるパイプラインの漏れや亀裂深さを検出する。 異なるセクションや亀裂深さの漏れは隠れマルコフモデル(HMM)の異なる状態と見なされる。 実験室実験により,GMM-HMM法は漏れの有無などのパイプラインの亀裂深さと漏れを認識できることがわかった。

Oil and gas pipeline leakages lead to not only enormous economic loss but also environmental disasters. How to detect the pipeline damages including leakages and cracks has attracted much research attention. One of the promising leakage detection method is to use lead zirconate titanate (PZT) transducers to detect the negative pressure wave when leakage occurs. PZT transducers can generate and detect guided stress waves for crack detection also. However, the negative pressure waves or guided stress waves may not be easily detected with environmental interference, e.g., the oil and gas pipelines in offshore environment. In this paper, a Gaussian mixture model based hidden Markov model (GMM-HMM) method is proposed to detect the pipeline leakage and crack depth in changing environment and time-varying operational conditions. Leakages in different sections or crack depths are considered as different states in hidden Markov models (HMM). Laboratory experiments show that the GMM-HMM method can recognize the crack depth and leakage of pipeline such as whether there is a leakage, where the leakage is.
翻訳日:2022-10-13 00:19:40 公開日:2020-09-30
# 動的拘束アグリゲーションのための初期クラスタ構築のためのエアラインクルーペアの機械学習

Machine Learning in Airline Crew Pairing to Construct Initial Clusters for Dynamic Constraint Aggregation ( http://arxiv.org/abs/2010.00134v1 )

ライセンス: Link先を確認
Yassine Yaakoubi, Fran\c{c}ois Soumis, Simon Lacoste-Julien(参考訳) 乗組員ペアリング問題(CPP)は一般的に、飛行をペアリングで分割する必要がある設定分割問題としてモデル化される。 ペアリング(英: pairing)とは、接続時間と休息期間によって切り離された飛行脚の連続であり、同じ基地で始まり、終了する。 複雑な規則と規則の広範なリストのため、一連の飛行が単独で実現可能なペアリングを構成するかどうかを決定することは極めて困難であり、cppは航空会社計画の最も難しい問題の一つとなっている。 本稿では,まず,大規模cppsの効率的な解法を実現するために動的制御戦略を追加することで,desaulniers et al. (2020) のプロトタイプベースラインソルバの改良を提案する。 これらの解法は、制約をカバーする飛行を集約して問題のサイズを減らすように設計されている。 次に、機械学習(ML)を用いて、同じ乗組員によって連続的に実行される確率の高い飛行群を生成する。 このソルバはいくつかの高度なOperations Research技術を組み合わせて、これらのクラスタを組み立て、必要に応じて修正し、優れたソリューションを生成する。 最大50万便の月次CPPにおいて、MLベースのヒューリスティックスによって生成されたクラスタによるCommercial-GENCOL-DCAは、GenCOLと水平方向に転がったソリューションのペアである初期クラスタによって供給されるベースラインよりも優れていることを示す。 ソリューションコストの平均は6.8%から8.52%であり、これは主に69.79%から78.11%のグローバル制約のコストの削減によるものである。

The crew pairing problem (CPP) is generally modelled as a set partitioning problem where the flights have to be partitioned in pairings. A pairing is a sequence of flight legs separated by connection time and rest periods that starts and ends at the same base. Because of the extensive list of complex rules and regulations, determining whether a sequence of flights constitutes a feasible pairing can be quite difficult by itself, making CPP one of the hardest of the airline planning problems. In this paper, we first propose to improve the prototype Baseline solver of Desaulniers et al. (2020) by adding dynamic control strategies to obtain an efficient solver for large-scale CPPs: Commercial-GENCOL-DCA. These solvers are designed to aggregate the flights covering constraints to reduce the size of the problem. Then, we use machine learning (ML) to produce clusters of flights having a high probability of being performed consecutively by the same crew. The solver combines several advanced Operations Research techniques to assemble and modify these clusters, when necessary, to produce a good solution. We show, on monthly CPPs with up to 50 000 flights, that Commercial-GENCOL-DCA with clusters produced by ML-based heuristics outperforms Baseline fed by initial clusters that are pairings of a solution obtained by rolling horizon with GENCOL. The reduction of solution cost averages between 6.8% and 8.52%, which is mainly due to the reduction in the cost of global constraints between 69.79% and 78.11%.
翻訳日:2022-10-13 00:12:47 公開日:2020-09-30
# コロナの時に劇場を満たす

Filling a theatre in times of corona ( http://arxiv.org/abs/2010.01981v1 )

ライセンス: Link先を確認
Danny Blom, Rudi Pendavingh and Frits C.R. Spieksma(参考訳) 本稿では,劇場ホールにおける新型コロナウイルスパンデミックの経済的影響に対応するため,音楽ビルディング・アイントホーフェン(MBE)による最適化問題を提案する。 本研究は, 社会的分散ルールを尊重する劇場ホールの客数を最大化するためのモデルを提案する。 計算の結果、通常容量の最大40%が1回のショーで使用でき、アーティストが毎晩2回の連続公演を選ぶ場合、最大70%が使用可能であることが示された。

In this paper, we introduce an optimization problem posed by the Music Building Eindhoven (MBE) to deal with the economical consequences of the COVID-19 pandemic for theatre halls. We propose a model for maximizing the number of guests in a theatre hall that respects social distancing rules, and is based on trapezoid packings. Computational results show that up to 40% of the normal capacity can be used for a single show setting, and up to 70% in case artists opt for two consecutive performances per evening.
翻訳日:2022-10-13 00:12:18 公開日:2020-09-30
# 距離相関に基づく脳機能結合度推定と非凸マルチタスク学習による発達fMRI研究

Distance Correlation Based Brain Functional Connectivity Estimation and Non-Convex Multi-Task Learning for Developmental fMRI Studies ( http://arxiv.org/abs/2010.00116v1 )

ライセンス: Link先を確認
Li Xiao, Biao Cai, Gang Qu, Julia M. Stephen, Tony W. Wilson, Vince D. Calhoun, and Yu-Ping Wang(参考訳) 安静時機能的磁気共鳴イメージング(rs-fMRI)による機能的接続パターンは、健康、発達、神経精神疾患において、人間の脳のグローバルな機能的組織を規定するために広く利用されている。 本稿では,男女間の機能的接続が年齢予測の枠組みでどのように異なるかを検討する。 まず,ピアソンの相関に代えて距離相関を用いて,関心領域間(rois)の機能的結合度を推定する。 多変量統計法として、距離相関は個々のROI内のボクセルの時間コースの空間的関係を探索し、線形および非線形の依存度を測り、ROI間の相互作用のより複雑な情報を取得する。 次に,男女別年齢予測を1つの課題とする機能接続における年齢関連性差を研究するために,新しい非凸型マルチタスク学習(nc-mtl)モデルを提案する。 具体的には,提案するnc-mtlモデルにおいて,非凸 $\ell_{2,1-2}$ と $\ell_{1-2}$ を組み合わせた複合正規化器を導入する。 最後に,このNC-MTLモデルと距離相関に基づく機能接続を併用したフィラデルフィア・ニューロ開発コホートのrs-fMRIを用いて,両者の性別の年齢を推定する。 実験の結果,nc-mtlモデルは年齢予測において他のmtlモデルよりも優れており,機能的接続パターンにおける発達的性差を特徴付ける。

Resting-state functional magnetic resonance imaging (rs-fMRI)-derived functional connectivity patterns have been extensively utilized to delineate global functional organization of the human brain in health, development, and neuropsychiatric disorders. In this paper, we investigate how functional connectivity in males and females differs in an age prediction framework. We first estimate functional connectivity between regions-of-interest (ROIs) using distance correlation instead of Pearson's correlation. Distance correlation, as a multivariate statistical method, explores spatial relations of voxel-wise time courses within individual ROIs and measures both linear and nonlinear dependence, capturing more complex information of between-ROI interactions. Then, a novel non-convex multi-task learning (NC-MTL) model is proposed to study age-related gender differences in functional connectivity, where age prediction for each gender group is viewed as one task. Specifically, in the proposed NC-MTL model, we introduce a composite regularizer with a combination of non-convex $\ell_{2,1-2}$ and $\ell_{1-2}$ regularization terms for selecting both common and task-specific features. Finally, we validate the proposed NC-MTL model along with distance correlation based functional connectivity on rs-fMRI of the Philadelphia Neurodevelopmental Cohort for predicting ages of both genders. The experimental results demonstrate that the proposed NC-MTL model outperforms other competing MTL models in age prediction, as well as characterizing developmental gender differences in functional connectivity patterns.
翻訳日:2022-10-13 00:12:07 公開日:2020-09-30
# イメージキャプションのための教師クリティカルトレーニング戦略

Teacher-Critical Training Strategies for Image Captioning ( http://arxiv.org/abs/2009.14405v1 )

ライセンス: Link先を確認
Yiqing Huang, Jiansheng Chen(参考訳) 既存の画像キャプションモデルは通常、クロスエントロピー(XE)損失と強化学習(RL)によって訓練される。 しかしながら、広く採用されているトレーニング戦略は、XEトレーニングにおける不正調整とRLトレーニングにおける不適切な報酬割り当てに悩まされている。 このような問題に対処するため,我々は,接頭辞と字幕モデルの橋渡しを行う教師モデルを提案する。 教師モデルは、ベースラインキャプションモデルに接地画像属性を組み込むことにより構成される。 教師モデルから効果的に学習するために,xe と rl の教育訓練における教師クリティカルトレーニング戦略 (tcts) を提案し,キャプションモデルの学習プロセスを改善する。 ベンチマークMSCOCOデータセットで広く採用されているいくつかのキャプションモデルの実験的評価により、提案したTCTSは、両方のトレーニング段階において、最も多くの評価指標、特にBleuとRoge-Lのスコアを包括的に強化することが示された。 TCTSはMSCOCOのカルパシーテストの分割でBleu-4とRoge-Lのパフォーマンスを40.2%と59.4%で達成した。 私たちのコードと事前訓練されたモデルはオープンソースになります。

Existing image captioning models are usually trained by cross-entropy (XE) loss and reinforcement learning (RL), which set ground-truth words as hard targets and force the captioning model to learn from them. However, the widely adopted training strategies suffer from misalignment in XE training and inappropriate reward assignment in RL training. To tackle these problems, we introduce a teacher model that serves as a bridge between the ground-truth caption and the caption model by generating some easier-to-learn word proposals as soft targets. The teacher model is constructed by incorporating the ground-truth image attributes into the baseline caption model. To effectively learn from the teacher model, we propose Teacher-Critical Training Strategies (TCTS) for both XE and RL training to facilitate better learning processes for the caption model. Experimental evaluations of several widely adopted caption models on the benchmark MSCOCO dataset show the proposed TCTS comprehensively enhances most evaluation metrics, especially the Bleu and Rouge-L scores, in both training stages. TCTS is able to achieve to-date the best published single model Bleu-4 and Rouge-L performances of 40.2% and 59.4% on the MSCOCO Karpathy test split. Our codes and pre-trained models will be open-sourced.
翻訳日:2022-10-13 00:11:19 公開日:2020-09-30
# リアルタイム写真強調のための画像適応型3次元ルックアップテーブルの学習

Learning Image-adaptive 3D Lookup Tables for High Performance Photo Enhancement in Real-time ( http://arxiv.org/abs/2009.14468v1 )

ライセンス: Link先を確認
Hui Zeng, Jianrui Cai, Lida Li, Zisheng Cao, Lei Zhang(参考訳) 近年、写真の色やトーンを高めるための学習ベースの手法の人気が高まっている。 しかし、既存の多くの写真強調手法は、満足のいく結果を提供するか、計算とメモリ資源を消費しすぎるかのいずれかであり、実際には高解像度の画像(通常12メガピクセル以上)への応用を妨げる。 本稿では,画像適応型3次元ルックアップテーブル(3D LUT)を学習し,高速でロバストな画像強調を実現する。 3D LUTは写真の色やトーンを操作するために広く使われているが、通常は手動で調整され、カメラ画像パイプラインや写真編集ツールで固定される。 私たちは、初めて、ペアワイドまたはアンペアラーニングを用いて注釈付きデータから3D LUTを学ぶことを提案する。 さらに重要なことは、3D LUTはフレキシブルな写真強調に適応しています。 我々は、複数のベース3D LUTと小さな畳み込みニューラルネットワーク(CNN)をエンドツーエンドで同時に学習する。 小型CNNは、入力画像のダウンサンプリングバージョンで動作し、コンテンツ依存重量を予測することで、複数のベース3D LUTを画像適応型に融合させ、ソース画像の色とトーンを効率よく変換する。 我々のモデルは600K未満のパラメータを含み、Titan RTX GPUを用いて4K解像度の画像を処理するのに2ms未満である。 また,PSNR,SSIM,および2つの公開ベンチマークデータセットにおける色差測定値において,高効率であると同時に,最先端の写真強調手法よりも優れていた。

Recent years have witnessed the increasing popularity of learning based methods to enhance the color and tone of photos. However, many existing photo enhancement methods either deliver unsatisfactory results or consume too much computational and memory resources, hindering their application to high-resolution images (usually with more than 12 megapixels) in practice. In this paper, we learn image-adaptive 3-dimensional lookup tables (3D LUTs) to achieve fast and robust photo enhancement. 3D LUTs are widely used for manipulating color and tone of photos, but they are usually manually tuned and fixed in camera imaging pipeline or photo editing tools. We, for the first time to our best knowledge, propose to learn 3D LUTs from annotated data using pairwise or unpaired learning. More importantly, our learned 3D LUT is image-adaptive for flexible photo enhancement. We learn multiple basis 3D LUTs and a small convolutional neural network (CNN) simultaneously in an end-to-end manner. The small CNN works on the down-sampled version of the input image to predict content-dependent weights to fuse the multiple basis 3D LUTs into an image-adaptive one, which is employed to transform the color and tone of source images efficiently. Our model contains less than 600K parameters and takes less than 2 ms to process an image of 4K resolution using one Titan RTX GPU. While being highly efficient, our model also outperforms the state-of-the-art photo enhancement methods by a large margin in terms of PSNR, SSIM and a color difference metric on two publically available benchmark datasets.
翻訳日:2022-10-13 00:10:52 公開日:2020-09-30
# 画像分類のための注意型雑音ラベル学習

Attention-Aware Noisy Label Learning for Image Classification ( http://arxiv.org/abs/2009.14757v1 )

ライセンス: Link先を確認
Zhenzhen Wang, Chunyan Xu, Yap-Peng Tan and Junsong Yuan(参考訳) 大規模ラベル付きサンプルで学習した深層畳み込みニューラルネットワーク(cnns)は,画像や映像の分類など,コンピュータビジョンにおいて著しい進歩を遂げている。 大量のラベル付きビジュアルデータを取得する最も安価な方法は、Flickrのようなユーザーが提供するラベルでウェブサイトからクロールすることである。 しかしながら、これらのサンプルは、しばしば間違ったラベル(すなわちノイズラベル)を含む傾向があり、ネットワーク性能を著しく低下させる。 本稿では,潜在的なラベルノイズのあるデータセットで学習したネットワークの識別能力を向上させるために,注目を意識したラベル学習手法(A^2NL$)を提案する。 特に、複数のノイズ固有ユニットを含むノイズアテンションモデルは、ノイズ情報をよりよく捉えるように設計されている。 各ユニットは、画像のサブセットに対して特定のノイズ分布を学習し、異なる外乱をより正確にモデル化することが期待される。 さらに、学習したハイレベルな知識を活用して、注目ネットワークの学習能力を高めるために、再帰学習プロセスを導入する。 提案手法を十分に評価するために,CIFAR-10,SVHNを含む大規模画像分類データセットのラベルノイズを手動でフリップし,複数属性のオンラインクロール衣料データセットのラベルノイズを実世界のラベルノイズとする実験を行った。 最先端手法よりも優れた結果が提案手法の有効性を検証した。

Deep convolutional neural networks (CNNs) learned on large-scale labeled samples have achieved remarkable progress in computer vision, such as image/video classification. The cheapest way to obtain a large body of labeled visual data is to crawl from websites with user-supplied labels, such as Flickr. However, these samples often tend to contain incorrect labels (i.e. noisy labels), which will significantly degrade the network performance. In this paper, the attention-aware noisy label learning approach ($A^2NL$) is proposed to improve the discriminative capability of the network trained on datasets with potential label noise. Specifically, a Noise-Attention model, which contains multiple noise-specific units, is designed to better capture noisy information. Each unit is expected to learn a specific noisy distribution for a subset of images so that different disturbances are more precisely modeled. Furthermore, a recursive learning process is introduced to strengthen the learning ability of the attention network by taking advantage of the learned high-level knowledge. To fully evaluate the proposed method, we conduct experiments from two aspects: manually flipped label noise on large-scale image classification datasets, including CIFAR-10, SVHN; and real-world label noise on an online crawled clothing dataset with multiple attributes. The superior results over state-of-the-art methods validate the effectiveness of our proposed approach.
翻訳日:2022-10-13 00:03:54 公開日:2020-09-30
# 逆学習による3次元密度幾何誘導顔面表情合成

3D Dense Geometry-Guided Facial Expression Synthesis by Adversarial Learning ( http://arxiv.org/abs/2009.14798v1 )

ライセンス: Link先を確認
Rumeysa Bodur, Binod Bhattarai, Tae-Kyun Kim(参考訳) 表情の操作は、顔の筋肉によって生じるきめ細かい形状の変化と、教師付き学習のための入出力ペアの欠如により難しい課題である。 表現合成のサイクルコンシステンシー損失やスパース幾何損失(ランドマーク)に依存するgan(generative adversarial networks)を用いた従来の手法とは異なり,表現操作に3次元高密度(深度および表面正規化)情報を利用する新しいganフレームワークを提案する。 しかし,表現アノテーションと対応する深度マップを備えたRGB画像を含む大規模データセットは利用できない。 そこで本研究では,最先端の3次元復元モデルを用いて奥行きを推定し,手作業によるデータクリーンアップ処理後の大規模rgb深部データセットを作成することを提案する。 我々は,このデータセットを利用して,対向学習による新たな深度一貫性の損失を最小化する(生成した顔画像の真相深度マップは存在しない)。 さらに, 深さパラメータの一般化とバイアス低減のために, フレームワークの判別器側で新しい信頼度正規化器を使用することを提案する。 AffectNetとRaFDの2つの顔表情ベンチマークにおいて,定量的および定性的な評価を行った。 実験により,提案手法は競争ベースラインと既存の芸術を大きなマージンで上回ることを示した。

Manipulating facial expressions is a challenging task due to fine-grained shape changes produced by facial muscles and the lack of input-output pairs for supervised learning. Unlike previous methods using Generative Adversarial Networks (GAN), which rely on cycle-consistency loss or sparse geometry (landmarks) loss for expression synthesis, we propose a novel GAN framework to exploit 3D dense (depth and surface normals) information for expression manipulation. However, a large-scale dataset containing RGB images with expression annotations and their corresponding depth maps is not available. To this end, we propose to use an off-the-shelf state-of-the-art 3D reconstruction model to estimate the depth and create a large-scale RGB-Depth dataset after a manual data clean-up process. We utilise this dataset to minimise the novel depth consistency loss via adversarial learning (note we do not have ground truth depth maps for generated face images) and the depth categorical loss of synthetic data on the discriminator. In addition, to improve the generalisation and lower the bias of the depth parameters, we propose to use a novel confidence regulariser on the discriminator side of the framework. We extensively performed both quantitative and qualitative evaluations on two publicly available challenging facial expression benchmarks: AffectNet and RaFD. Our experiments demonstrate that the proposed method outperforms the competitive baseline and existing arts by a large margin.
翻訳日:2022-10-13 00:03:30 公開日:2020-09-30
# DOT: Visual SLAMのための動的オブジェクト追跡

DOT: Dynamic Object Tracking for Visual SLAM ( http://arxiv.org/abs/2010.00052v1 )

ライセンス: Link先を確認
Irene Ballester, Alejandro Fontan, Javier Civera, Klaus H. Strobl, Rudolph Triebel(参考訳) 本稿では,既存のSLAMシステムに追加されるフロントエンドであるDOT(Dynamic Object Tracking)を提案する。 DOTはインスタンスセグメンテーションとマルチビュー幾何を組み合わせて動的オブジェクトのマスクを生成し、厳密なシーンモデルに基づくSLAMシステムでそれらの最適化の領域を避ける。 どのオブジェクトが実際に動いているかを決定するために、ドットセグメントはまず動的オブジェクトのインスタンスを作成し、推定されたカメラの動きで、測光再投影誤差を最小化し、オブジェクトを追跡する。 この短期追跡は、他のアプローチに対するセグメンテーションの精度を向上させる。 最後に、実際には動的マスクのみが生成される。 ORB-SLAM 2を用いたDOTを3つの公開データセットで評価した。 その結果,本手法はorb-slam 2の精度とロバスト性,特に高ダイナミックな場面において著しく向上することがわかった。

In this paper we present DOT (Dynamic Object Tracking), a front-end that added to existing SLAM systems can significantly improve their robustness and accuracy in highly dynamic environments. DOT combines instance segmentation and multi-view geometry to generate masks for dynamic objects in order to allow SLAM systems based on rigid scene models to avoid such image areas in their optimizations. To determine which objects are actually moving, DOT segments first instances of potentially dynamic objects and then, with the estimated camera motion, tracks such objects by minimizing the photometric reprojection error. This short-term tracking improves the accuracy of the segmentation with respect to other approaches. In the end, only actually dynamic masks are generated. We have evaluated DOT with ORB-SLAM 2 in three public datasets. Our results show that our approach improves significantly the accuracy and robustness of ORB-SLAM 2, especially in highly dynamic scenes.
翻訳日:2022-10-13 00:03:04 公開日:2020-09-30
# 単眼画像とスパースレーダデータからの深さ推定

Depth Estimation from Monocular Images and Sparse Radar Data ( http://arxiv.org/abs/2010.00058v1 )

ライセンス: Link先を確認
Juan-Ting Lin, Dengxin Dai, and Luc Van Gool(参考訳) 本稿では,深部ニューラルネットワークを用いた単眼画像とレーダー点の融合により,より正確な深度推定を実現する可能性を検討する。 本稿では,RGB画像とレーダ計測の融合について,様々な側面から総合的に検討し,その観測に基づく作業解を提案する。 我々は、レーダデータと画像の新たな融合問題に対して、LiDARデータと画像のために開発された既存の融合手法を適用することを阻止する主要な理由の1つとして、レーダ測定に存在するノイズが知られている。 実験はnuScenesデータセット上で行われ、カメラ、レーダー、LiDARの記録を様々な場面と気象条件で記録する最初のデータセットの1つである。 本手法が既存の核融合法より優れていることを示す。 また,本手法における各成分の有効性を示すための詳細なアブレーション研究も行った。

In this paper, we explore the possibility of achieving a more accurate depth estimation by fusing monocular images and Radar points using a deep neural network. We give a comprehensive study of the fusion between RGB images and Radar measurements from different aspects and proposed a working solution based on the observations. We find that the noise existing in Radar measurements is one of the main key reasons that prevents one from applying the existing fusion methods developed for LiDAR data and images to the new fusion problem between Radar data and images. The experiments are conducted on the nuScenes dataset, which is one of the first datasets which features Camera, Radar, and LiDAR recordings in diverse scenes and weather conditions. Extensive experiments demonstrate that our method outperforms existing fusion methods. We also provide detailed ablation studies to show the effectiveness of each component in our method.
翻訳日:2022-10-13 00:02:48 公開日:2020-09-30
# MaterialGAN:生成SVBRDFモデルを用いた反射率キャプチャ

MaterialGAN: Reflectance Capture using a Generative SVBRDF Model ( http://arxiv.org/abs/2010.00114v1 )

ライセンス: Link先を確認
Yu Guo, Cameron Smith, Milo\v{s} Ha\v{s}an, Kalyan Sunkavalli and Shuang Zhao(参考訳) 画像の小さな集合から空間変化のあるBRDFを再構成する問題に対処する。 これは基本的に未熟な問題であり、以前の研究は様々な正規化前処理や多くの画像の撮影に頼り、妥当な結果を生み出してきた。 本稿では,現実的なSVBRDFパラメータマップを合成するために,StyleGAN2に基づく深層生成畳み込みネットワークであるMaterialGANを提案する。 逆レンダリングフレームワークにおいて,MaterialGANは強力な素材として利用できることを示す。我々は,その潜在表現を最適化して,キャプチャ画像の外観にマッチする物質マップを生成する。 携帯端末を用いたフラッシュ照明下で撮影された画像からSVBRDFを再構成する作業において,この枠組みを実証する。 提案手法は,対象画像を正確に再現する可塑性材料マップの作成に成功し,合成データと実データの両方の評価において,従来の最先端材料キャプチャー法より優れていた。 さらに,ganベースの潜在空間では,材料変動生成や材料形態形成といった高レベルな意味材料編集操作が可能となる。

We address the problem of reconstructing spatially-varying BRDFs from a small set of image measurements. This is a fundamentally under-constrained problem, and previous work has relied on using various regularization priors or on capturing many images to produce plausible results. In this work, we present MaterialGAN, a deep generative convolutional network based on StyleGAN2, trained to synthesize realistic SVBRDF parameter maps. We show that MaterialGAN can be used as a powerful material prior in an inverse rendering framework: we optimize in its latent representation to generate material maps that match the appearance of the captured images when rendered. We demonstrate this framework on the task of reconstructing SVBRDFs from images captured under flash illumination using a hand-held mobile phone. Our method succeeds in producing plausible material maps that accurately reproduce the target images, and outperforms previous state-of-the-art material capture methods in evaluations on both synthetic and real data. Furthermore, our GAN-based latent space allows for high-level semantic material editing operations such as generating material variations and material morphing.
翻訳日:2022-10-13 00:02:19 公開日:2020-09-30
# 認知障害のある人とのマルチモーダル自発会話を倫理的に収集する

Ethically Collecting Multi-Modal Spontaneous Conversations with People that have Cognitive Impairments ( http://arxiv.org/abs/2009.14361v1 )

ライセンス: Link先を確認
Angus Addlesee and Pierre Albert(参考訳) 音声対話システム(amazon alexaやgoogle assistantなど)を認知障害を持つ人々にとってよりアクセスしやすく、自然にインタラクティブにするためには、適切なデータを取得する必要がある。 脆弱なユーザグループとのマルチモーダル自発的な会話の記録は少なく、この貴重なデータは収集が難しい。 このデータを求める研究者は通常、脆弱な参加者との作業に関する倫理的および法的問題に経験がない。 さらに、標準記録装置は安全ではなく、機密データをキャプチャするために使用するべきではない。 私たちは1年間,マルチモーダル自発的な会話の記録を,脆弱なユーザグループと倫理的に捉え,共有する方法に関するコンサルティング専門家に取り組んできました。 本稿では,これらの専門家から,これらのデータを倫理的に収集する方法に関するガイダンスを提供し,センシティブなデータを収集し,転送し,安全に交換するための新しいシステム「cusco」を提案する。 このフレームワークは、類似のコーパスのさらなる出版を促進するために、簡単に追従され、実装されることを意図している。 このガイドと安全な記録システムを用いて、研究者は倫理的措置を見直し、洗練することができる。

In order to make spoken dialogue systems (such as Amazon Alexa or Google Assistant) more accessible and naturally interactive for people with cognitive impairments, appropriate data must be obtainable. Recordings of multi-modal spontaneous conversations with vulnerable user groups are scarce however and this valuable data is challenging to collect. Researchers that call for this data are commonly inexperienced in ethical and legal issues around working with vulnerable participants. Additionally, standard recording equipment is insecure and should not be used to capture sensitive data. We spent a year consulting experts on how to ethically capture and share recordings of multi-modal spontaneous conversations with vulnerable user groups. In this paper we provide guidance, collated from these experts, on how to ethically collect such data and we present a new system - "CUSCO" - to capture, transport and exchange sensitive data securely. This framework is intended to be easily followed and implemented to encourage further publications of similar corpora. Using this guide and secure recording system, researchers can review and refine their ethical measures.
翻訳日:2022-10-13 00:01:59 公開日:2020-09-30
# 臨床テキストからの医用コード割り当てのための拡張畳み込み注意ネットワーク

Dilated Convolutional Attention Network for Medical Code Assignment from Clinical Text ( http://arxiv.org/abs/2009.14578v1 )

ライセンス: Link先を確認
Shaoxiong Ji, Erik Cambria and Pekka Marttinen(参考訳) 臨床テキストから医療コードを予測する医療コード割り当ては、インテリジェントな医療情報システムの基本的なタスクである。 自然言語処理における深層モデルの出現は、自動代入手法の開発を加速させた。 しかし、フラットな畳み込みや多チャンネル特徴結合を伴う最近の先進的ニューラルアーキテクチャは、テキストシーケンス内のシーケンシャルな因果制約を無視し、特に長期のシーケンシャルな依存関係を持つ長い臨床ノートについて有意義な臨床テキスト表現を学ばない可能性がある。 本稿では,拡張畳み込み,残差接続,ラベルアテンションを統合した拡張畳み込み注意ネットワーク(DCAN)を提案する。 拡張畳み込みを用いて、拡張サイズとともに指数関数的に増加する受容野で複雑な医療パターンを捉える。 実世界の臨床データセットの実験は、我々のモデルが芸術の状態を改善することを実証的に示している。

Medical code assignment, which predicts medical codes from clinical texts, is a fundamental task of intelligent medical information systems. The emergence of deep models in natural language processing has boosted the development of automatic assignment methods. However, recent advanced neural architectures with flat convolutions or multi-channel feature concatenation ignore the sequential causal constraint within a text sequence and may not learn meaningful clinical text representations, especially for lengthy clinical notes with long-term sequential dependency. This paper proposes a Dilated Convolutional Attention Network (DCAN), integrating dilated convolutions, residual connections, and label attention, for medical code assignment. It adopts dilated convolutions to capture complex medical patterns with a receptive field which increases exponentially with dilation size. Experiments on a real-world clinical dataset empirically show that our model improves the state of the art.
翻訳日:2022-10-13 00:01:41 公開日:2020-09-30
# 生物医学文献からの精密腫瘍学概念の抽出

Extracting Concepts for Precision Oncology from the Biomedical Literature ( http://arxiv.org/abs/2010.00074v1 )

ライセンス: Link先を確認
Nicholas Greenspan and Yuqi Si and Kirk Roberts(参考訳) 本稿では,生物医学研究論文から精度オンコロジーに関する概念を抽出するための,初期データセットと自動自然言語処理(NLP)手法について述べる。 がん,突然変異,人口,治療,アウトカムの5つの概念タイプを抽出する。 標準的な二重アノテーションの手順に従って250のバイオメディカル抽象化のコーパスにこれらの概念を付加した。 次に,概念抽出のためのBERTモデル実験を行った。 最高性能モデルは63.8%、リコールは71.9%、F1は67.1だった。 最後に,下流の精度オンコロジーへの応用において,抽出性能の向上とNLPシステムの利用のための新たな方向を提案する。

This paper describes an initial dataset and automatic natural language processing (NLP) method for extracting concepts related to precision oncology from biomedical research articles. We extract five concept types: Cancer, Mutation, Population, Treatment, Outcome. A corpus of 250 biomedical abstracts were annotated with these concepts following standard double-annotation procedures. We then experiment with BERT-based models for concept extraction. The best-performing model achieved a precision of 63.8%, a recall of 71.9%, and an F1 of 67.1. Finally, we propose additional directions for research for improving extraction performance and utilizing the NLP system in downstream precision oncology applications.
翻訳日:2022-10-12 23:55:32 公開日:2020-09-30
# 反対側でそれを見つける: 変更キャプションのためのビューポイント適応マッチングエンコーダ

Finding It at Another Side: A Viewpoint-Adapted Matching Encoder for Change Captioning ( http://arxiv.org/abs/2009.14352v1 )

ライセンス: Link先を確認
Xiangxi Shi, Xu Yang, Jiuxiang Gu, Shafiq Joty, and Jianfei Cai(参考訳) Change Captioningは、自然言語による画像の違いを記述することを目的としたタスクである。 既存のほとんどの手法では、視点の変化のような障害のない差分判定としてこの問題を扱う。 しかし、実際には視点の変化が頻繁に起こり、説明すべき意味的な違いを圧倒することがある。 本稿では,変化キャプションタスクにおける意味的変化と視点変化を明確に区別する新しいビジュアルエンコーダを提案する。 さらに,人間の注意選好をシミュレートし,言語評価の報奨と直接注意を調整するための新しい強化学習プロセスを提案する。 実験結果から,本手法はSpot-the-DiffとCLEVR-Changeの両方のデータセットにおいて,最先端の手法よりも高い性能を示した。

Change Captioning is a task that aims to describe the difference between images with natural language. Most existing methods treat this problem as a difference judgment without the existence of distractors, such as viewpoint changes. However, in practice, viewpoint changes happen often and can overwhelm the semantic difference to be described. In this paper, we propose a novel visual encoder to explicitly distinguish viewpoint changes from semantic changes in the change captioning task. Moreover, we further simulate the attention preference of humans and propose a novel reinforcement learning process to fine-tune the attention directly with language evaluation rewards. Extensive experimental results show that our method outperforms the state-of-the-art approaches by a large margin in both Spot-the-Diff and CLEVR-Change datasets.
翻訳日:2022-10-12 23:55:22 公開日:2020-09-30
# マンモグラム分類のための左右非対称性誘導偽物生成ネットワーク

Bilateral Asymmetry Guided Counterfactual Generating Network for Mammogram Classification ( http://arxiv.org/abs/2009.14406v1 )

ライセンス: Link先を確認
Chu-ran Wang, Jing Li, Fandong Zhang, Xinwei Sun, Hao Dong, Yizhou Yu, Yizhou Wang(参考訳) 画像レベルラベルのみを用いたマンモグラム良性または悪性分類は,病変の注釈がないため困難である。 乳房の左右の病変は, 病変部位の特定のため, 病変部位の特定のために, 画像の左右の病変が左右の部位にほとんど現れないことから, 画像に病変がなければ, 特徴がどう振る舞うかという, 逆向きの問題を探ることができた。 対称前置法に基づく反事実生成のための新しい理論結果を得る。 このような二者間画像に先行する因果モデルを構築することにより,新たに提案する対人生成ネットワークにより実現可能な対人生成のための2つの最適化目標を得る。 提案するモデルは, 主にジェネレータ逆ネットワークと \emph{prediction feedback mechanism} で構成され, 協調的に最適化し, 相互にプロンプトする。 特に、前者は、障害領域を計算するために、対物的特徴を生成することにより、分類性能をさらに向上させることができる。 一方,後者は,分類損失の監督による反事実生成を支援する。 提案手法の有効性とモデルにおける各モジュールの有効性は,INBreastの最先端性能と社内データセットおよびアブレーション研究により検証できる。

Mammogram benign or malignant classification with only image-level labels is challenging due to the absence of lesion annotations. Motivated by the symmetric prior that the lesions on one side of breasts rarely appear in the corresponding areas on the other side, given a diseased image, we can explore a counterfactual problem that how would the features have behaved if there were no lesions in the image, so as to identify the lesion areas. We derive a new theoretical result for counterfactual generation based on the symmetric prior. By building a causal model that entails such a prior for bilateral images, we obtain two optimization goals for counterfactual generation, which can be accomplished via our newly proposed counterfactual generative network. Our proposed model is mainly composed of Generator Adversarial Network and a \emph{prediction feedback mechanism}, they are optimized jointly and prompt each other. Specifically, the former can further improve the classification performance by generating counterfactual features to calculate lesion areas. On the other hand, the latter helps counterfactual generation by the supervision of classification loss. The utility of our method and the effectiveness of each module in our model can be verified by state-of-the-art performance on INBreast and an in-house dataset and ablation studies.
翻訳日:2022-10-12 23:55:09 公開日:2020-09-30
# 漸進的特徴洗練による適応的意味セグメンテーションに向けて

Towards Adaptive Semantic Segmentation by Progressive Feature Refinement ( http://arxiv.org/abs/2009.14420v1 )

ライセンス: Link先を確認
Bin Zhang, Shengjie Zhao, Rongqing Zhang(参考訳) コンピュータビジョンにおける基本的なタスクの1つとして、セマンティックセグメンテーションは現実世界のアプリケーションにおいて重要な役割を果たす。 多くのディープラーニングモデルは、畳み込みネットワークの急速な開発によって、いくつかの主流データセットで顕著な進歩を遂げてきたが、実際的なシナリオでは、さまざまな課題に直面している。 教師なし適応セマンティックセグメンテーションは、ソースドメインデータで訓練された堅牢な分類器を得ることを目的としており、異なるデータ分布を持つターゲットドメインにデプロイされた場合、安定したパフォーマンスを維持することができる。 本稿では,セグメンテーションネットワークの転送性を高めるために,ドメイン逆学習とともに,革新的特徴リファインメントフレームワークを提案する。 具体的には、まず、ソースおよびターゲットドメインイメージの多段階中間特徴マップを調整し、次に、セグメンテーション出力を識別するドメイン分類器を採用する。 その結果、ソースドメインイメージでトレーニングされたセグメンテーションモデルは、パフォーマンスが著しく低下することなく、ターゲットドメインに転送できる。 提案手法の有効性を最先端法と比較し, 実験により検証した。

As one of the fundamental tasks in computer vision, semantic segmentation plays an important role in real world applications. Although numerous deep learning models have made notable progress on several mainstream datasets with the rapid development of convolutional networks, they still encounter various challenges in practical scenarios. Unsupervised adaptive semantic segmentation aims to obtain a robust classifier trained with source domain data, which is able to maintain stable performance when deployed to a target domain with different data distribution. In this paper, we propose an innovative progressive feature refinement framework, along with domain adversarial learning to boost the transferability of segmentation networks. Specifically, we firstly align the multi-stage intermediate feature maps of source and target domain images, and then a domain classifier is adopted to discriminate the segmentation output. As a result, the segmentation models trained with source domain images can be transferred to a target domain without significant performance degradation. Experimental results verify the efficiency of our proposed method compared with state-of-the-art methods.
翻訳日:2022-10-12 23:53:59 公開日:2020-09-30
# 赤外小目標検出のための非対称文脈変調

Asymmetric Contextual Modulation for Infrared Small Target Detection ( http://arxiv.org/abs/2009.14530v1 )

ライセンス: Link先を確認
Yimian Dai and Yiquan Wu and Fei Zhou and Kobus Barnard(参考訳) 単一フレーム赤外線小目標検出は、本質的目標特性の不足だけでなく、パブリックデータセットの欠如による課題である。 本稿では,まず,この分野の研究を進めるために,高品質なアノテーションを備えたオープンデータセットを提案する。 また,赤外線小目標を検出するために特別に設計された非対称文脈変調モジュールを提案する。 小さなターゲットをより強調するために、トップダウンのグローバルコンテキストフィードバックに加えて、ポイントワイズチャネルの注意に基づくボトムアップ変調経路を補完し、ハイレベルセマンティクスと微妙な低レベル詳細を交換します。 本稿では,最先端手法との比較とアブレーション研究を報告する。 私たちのデータセットとコードはオンラインで利用可能です。

Single-frame infrared small target detection remains a challenge not only due to the scarcity of intrinsic target characteristics but also because of lacking a public dataset. In this paper, we first contribute an open dataset with high-quality annotations to advance the research in this field. We also propose an asymmetric contextual modulation module specially designed for detecting infrared small targets. To better highlight small targets, besides a top-down global contextual feedback, we supplement a bottom-up modulation pathway based on point-wise channel attention for exchanging high-level semantics and subtle low-level details. We report ablation studies and comparisons to state-of-the-art methods, where we find that our approach performs significantly better. Our dataset and code are available online.
翻訳日:2022-10-12 23:53:41 公開日:2020-09-30
# テキストシーン属性によるキャプションからの物体検出の学習

Learning Object Detection from Captions via Textual Scene Attributes ( http://arxiv.org/abs/2009.14558v1 )

ライセンス: Link先を確認
Achiya Jerbi, Roei Herzig, Jonathan Berant, Gal Chechik, Amir Globerson(参考訳) オブジェクト検出はコンピュータビジョンの基本的なタスクであり、アノテータがオブジェクトとそのバウンディングボックスをラベル付けする必要があるため、収集が難しい大規模なアノテートデータセットを必要とする。 したがって、より安価な監視方式を効果的に活用することは重要な課題である。 近年, イメージキャプションを弱監督源として探究する研究が始まっているが, オブジェクト検出の文脈では, イメージ内のオブジェクトのカテゴリを推測するためにのみ, キャプションが用いられている。 本研究では,画像の属性や関連性など,画像に関するより豊かな情報を含むキャプションについて論じる。 すなわち、最近文献に記述されたように、本文は画像の場面を表している。 本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。 その結果得られたモデルがいくつかの挑戦的なオブジェクト検出データセットで最先端の結果を達成できることを実証的に証明し、最近のアプローチを上回っている。

Object detection is a fundamental task in computer vision, requiring large annotated datasets that are difficult to collect, as annotators need to label objects and their bounding boxes. Thus, it is a significant challenge to use cheaper forms of supervision effectively. Recent work has begun to explore image captions as a source for weak supervision, but to date, in the context of object detection, captions have only been used to infer the categories of the objects in the image. In this work, we argue that captions contain much richer information about the image, including attributes of objects and their relations. Namely, the text represents a scene of the image, as described recently in the literature. We present a method that uses the attributes in this "textual scene graph" to train object detectors. We empirically demonstrate that the resulting model achieves state-of-the-art results on several challenging object detection datasets, outperforming recent approaches.
翻訳日:2022-10-12 23:53:27 公開日:2020-09-30
# 専門家ネットワークの混合を用いた空間的ヘテロゲン歪みの復元

Restoring Spatially-Heterogeneous Distortions using Mixture of Experts Network ( http://arxiv.org/abs/2009.14563v1 )

ライセンス: Link先を確認
Sijin Kim, Namhyuk Ahn, Kyung-Ah Sohn(参考訳) 近年,画像の歪み復元に深層学習を用いた手法が応用されている。 しかし、単一の歪みを仮定するシナリオは、多くの現実世界のアプリケーションには適さないかもしれない。 このようなケースに対処するために、連続的に組み合わせた歪みデータセットを提案する研究もある。 異なる視点を組み合わせることで、画像の異なる場所に複数の破損を施す空間的ヘテロジェンス歪データセットを導入する。 また,マルチディストリビュート画像を効果的に復元するための専門家ネットワークの混合を提案する。 マルチタスク学習に動機づけられたネットワークは,共通表現と歪み表現の両方を学習する複数の経路を持つように設計する。 本モデルは実世界の歪みの復元に有効であり,本手法が単一歪みと複数歪みの両方を管理するために設計された他のモデルよりも優れていることを実験的に検証する。

In recent years, deep learning-based methods have been successfully applied to the image distortion restoration tasks. However, scenarios that assume a single distortion only may not be suitable for many real-world applications. To deal with such cases, some studies have proposed sequentially combined distortions datasets. Viewing in a different point of combining, we introduce a spatially-heterogeneous distortion dataset in which multiple corruptions are applied to the different locations of each image. In addition, we also propose a mixture of experts network to effectively restore a multi-distortion image. Motivated by the multi-task learning, we design our network to have multiple paths that learn both common and distortion-specific representations. Our model is effective for restoring real-world distortions and we experimentally verify that our method outperforms other models designed to manage both single distortion and multiple distortions.
翻訳日:2022-10-12 23:53:10 公開日:2020-09-30
# ニューラルネットワークにおけるモジュール選択手順のグラフベースヒューリスティック探索

Graph-based Heuristic Search for Module Selection Procedure in Neural Module Network ( http://arxiv.org/abs/2009.14759v1 )

ライセンス: Link先を確認
Yuxuan Wu and Hideki Nakayama(参考訳) Neural Module Network(NMN)は、視覚的質問応答タスクを解決する機械学習モデルである。 NMNはモジュールの構造をエンコードするためにプログラムを使用し、モジュール化されたアーキテクチャにより論理的な問題をより合理的に解くことができる。 しかし、モジュール選択の非微分不可能な手順のため、NMNはエンドツーエンドで訓練することは困難である。 この問題を克服するため、既存の研究には、トレーニングデータに地中修練プログラムを組み込んだり、プログラムの探索に強化学習を適用したりした。 しかし、どちらの方法にも弱点がある。 そこで我々は,NMNのための新しい学習フレームワークを提案する。 グラフに基づくヒューリスティック探索は,プログラムグラフと呼ばれるデータ構造のヒューリスティック探索を通じて最適なプログラムを探索するアルゴリズムである。 図qaとclevrデータセットを用いた実験により,本手法は基礎プログラムを使わずにnmnのトレーニングを実現でき,既存の強化学習手法よりも優れたプログラム探索が可能となった。

Neural Module Network (NMN) is a machine learning model for solving the visual question answering tasks. NMN uses programs to encode modules' structures, and its modularized architecture enables it to solve logical problems more reasonably. However, because of the non-differentiable procedure of module selection, NMN is hard to be trained end-to-end. To overcome this problem, existing work either included ground-truth program into training data or applied reinforcement learning to explore the program. However, both of these methods still have weaknesses. In consideration of this, we proposed a new learning framework for NMN. Graph-based Heuristic Search is the algorithm we proposed to discover the optimal program through a heuristic search on the data structure named Program Graph. Our experiments on FigureQA and CLEVR dataset show that our methods can realize the training of NMN without ground-truth programs and achieve superior efficiency over existing reinforcement learning methods in program exploration.
翻訳日:2022-10-12 23:45:25 公開日:2020-09-30
# ベイズネットワークによる確率論的ペトリネットの不確実性推論

Uncertainty Reasoning for Probabilistic Petri Nets via Bayesian Networks ( http://arxiv.org/abs/2009.14817v1 )

ライセンス: Link先を確認
Rebecca Bernemann and Benjamin Cabrera and Reiko Heckel and Barbara K\"onig(参考訳) 本稿では,遷移の発火が確率的であるペトリネット上での不確実性推論のためにベイズネットワークを拡張した。 特にベイズネットワークは確率分布の象徴表現として使われ、観測者のネットのトークンに関する知識をモデル化している。 オブザーバは、成功と失敗のステップを監視することで、ネットを研究することができる。 ベイジアンネットの更新メカニズムは、いくつかの制限を緩和することで実現され、モジュラーベイジアンネットは便利に表現および修正できる。 すべての記号表現について、問題は情報(この場合、モジュラーベイズネットからの限界確率分布)を導出する方法である。 本稿では,既知の変数除去法を一般化してこれを行う方法を示す。 このアプローチは、病気の拡散(SIRモデル)とソーシャルネットワークにおける情報拡散の例によって説明される。 このアプローチを実装し、実行結果を提供しました。

This paper exploits extended Bayesian networks for uncertainty reasoning on Petri nets, where firing of transitions is probabilistic. In particular, Bayesian networks are used as symbolic representations of probability distributions, modelling the observer's knowledge about the tokens in the net. The observer can study the net by monitoring successful and failed steps. An update mechanism for Bayesian nets is enabled by relaxing some of their restrictions, leading to modular Bayesian nets that can conveniently be represented and modified. As for every symbolic representation, the question is how to derive information - in this case marginal probability distributions - from a modular Bayesian net. We show how to do this by generalizing the known method of variable elimination. The approach is illustrated by examples about the spreading of diseases (SIR model) and information diffusion in social networks. We have implemented our approach and provide runtime results.
翻訳日:2022-10-12 23:44:28 公開日:2020-09-30
# 異種チームのための時相論理仕様の高速分解

Fast Decomposition of Temporal Logic Specifications for Heterogeneous Teams ( http://arxiv.org/abs/2010.00030v1 )

ライセンス: Link先を確認
Kevin Leahy, Austin Jones, Cristian-Ioan Vasile(参考訳) 本研究では,大域的時間論理目標(すべてのエージェントに共通する)による大規模マルチエージェントパス計画問題を,独立して解決・実行可能な小さなサブプロブレムに分解することに焦点を当てる。 重要なことに、サブプロブレムの解決策は共通のグローバルミッション仕様を共同で満たさなければならない。 エージェントの任務は能力時相論理(capability temporal logic, catl)の式、信号時相論理の断片として与えられ、厳格なタイミング制約の下で複数のエージェント能力(例えば、カメラ、赤外線、エフェクタ、例えば車輪、飛行、マニピュレータ)を含むタスク上の特性を表現することができる。 私たちが採用するアプローチは、時相論理仕様とエージェントチームの両方を分解することです。 我々は、サブチームへのエージェントの割り当てと、SMT(Satisfiability modulo theory)アプローチを用いた公式の分解について共同で推論する。 SMTの出力はサブチームに分散され、計画時の大幅なスピードアップにつながる。 我々は,SMT符号化の保守的な性質によって導入されたトレードオフに加えて,解の効率を評価するための計算結果を含む。

In this work, we focus on decomposing large multi-agent path planning problems with global temporal logic goals (common to all agents) into smaller sub-problems that can be solved and executed independently. Crucially, the sub-problems' solutions must jointly satisfy the common global mission specification. The agents' missions are given as Capability Temporal Logic (CaTL) formulas, a fragment of signal temporal logic, that can express properties over tasks involving multiple agent capabilities (sensors, e.g., camera, IR, and effectors, e.g., wheeled, flying, manipulators) under strict timing constraints. The approach we take is to decompose both the temporal logic specification and the team of agents. We jointly reason about the assignment of agents to subteams and the decomposition of formulas using a satisfiability modulo theories (SMT) approach. The output of the SMT is then distributed to subteams and leads to a significant speed up in planning time. We include computational results to evaluate the efficiency of our solution, as well as the trade-offs introduced by the conservative nature of the SMT encoding.
翻訳日:2022-10-12 23:44:15 公開日:2020-09-30
# 創造的なキャプション:dixitボードゲームに基づくaiの壮大な挑戦

Creative Captioning: An AI Grand Challenge Based on the Dixit Board Game ( http://arxiv.org/abs/2010.00048v1 )

ライセンス: Link先を確認
Maithilee Kunda and Irina Rabkina(参考訳) 我々は、創造的なキャプションと呼ばれる、画像の巧妙で興味深い、あるいは抽象的なキャプションを生成する、新しいタイプの「グランドチャレンジ」AI問題と、そのようなキャプションを理解することを提案する。 創造的なキャプションは、視覚、自然言語処理、物語推論、社会的推論のコアAI研究領域を描き、これらすべての領域において、常識と文化知識の洗練された利用を必要とする。 本稿では、人気ボードゲーム「ディクシット」をインスピレーションとして、創造的なキャプションの下のいくつかの特定の研究課題を分析する。 Dixitは今後10~20年間、多くのAI研究コミュニティで、創造的なキャプションのための魅力的なモチベーションベンチマークとして機能することを期待しています。

We propose a new class of "grand challenge" AI problems that we call creative captioning---generating clever, interesting, or abstract captions for images, as well as understanding such captions. Creative captioning draws on core AI research areas of vision, natural language processing, narrative reasoning, and social reasoning, and across all these areas, it requires sophisticated uses of common sense and cultural knowledge. In this paper, we analyze several specific research problems that fall under creative captioning, using the popular board game Dixit as both inspiration and proposed testing ground. We expect that Dixit could serve as an engaging and motivating benchmark for creative captioning across numerous AI research communities for the coming 1-2 decades.
翻訳日:2022-10-12 23:43:58 公開日:2020-09-30
# 空間情報符号化のための分散ベクトル表現能力の解析

Analyzing the Capacity of Distributed Vector Representations to Encode Spatial Information ( http://arxiv.org/abs/2010.00055v1 )

ライセンス: Link先を確認
Florian Mirus, Terrence C. Stewart, Jorg Conradt(参考訳) ベクトル記号アーキテクチャは、高次元ベクトルの記号と構造を符号化する関連する認知モデリング手法のファミリーに属している。 短期記憶に情報や概念を処理・保存する能力を有する人間の被験者と同様に、そのようなベクトル表現でエンコードできる情報の容量は制限され、認知への数値制限をモデル化する方法の一つとなる。 本稿では、分散表現の情報容量に関するこれらの制限を解析する。 我々は,空間情報をエンコードする畳み込み力を含む,単純な重ね合わせとより複雑な構造表現に注目した。 2つの実験で、1つのベクトルに効率的に格納できる概念の数について上限を求める。

Vector Symbolic Architectures belong to a family of related cognitive modeling approaches that encode symbols and structures in high-dimensional vectors. Similar to human subjects, whose capacity to process and store information or concepts in short-term memory is subject to numerical restrictions,the capacity of information that can be encoded in such vector representations is limited and one way of modeling the numerical restrictions to cognition. In this paper, we analyze these limits regarding information capacity of distributed representations. We focus our analysis on simple superposition and more complex, structured representations involving convolutive powers to encode spatial information. In two experiments, we find upper bounds for the number of concepts that can effectively be stored in a single vector.
翻訳日:2022-10-12 23:43:41 公開日:2020-09-30
# 単言語・多言語逆辞書のためのBERT

BERT for Monolingual and Cross-Lingual Reverse Dictionary ( http://arxiv.org/abs/2009.14790v1 )

ライセンス: Link先を確認
Hang Yan, Xiaonan Li, Xipeng Qiu(参考訳) 逆辞書は、単語記述が与えられた適切なターゲット語を見つけるタスクである。 本稿では,この課題にBERTを組み込もうとした。 しかし、BERTはバイトペアエンコーディング(BPE)サブワードエンコーディングに基づいているため、BERTが記述された単語を生成するのは簡単ではない。 本稿では,このタスクのターゲット語を生成するための単純かつ効果的な手法を提案する。 さらに、言語間の逆辞書は、他の言語で記述された適切なターゲット語を見つけるタスクである。 以前のモデルは2つの異なる単語埋め込みを保持し、これらの埋め込みを調整することを学ぶ必要がある。 それでも、Multilingual BERT (mBERT) を用いることで、1つのサブワードを埋め込んだ言語間逆辞書を効率的に行うことができ、言語間のアライメントは不要である。 より重要なことに、mbertは並列コーパスがなくても著しい言語間逆辞書性能を達成できるため、対応する単言語データのみを用いて言語間逆辞書を実行できる。 コードはhttps://github.com/yhcc/BertForRD.gitで公開されている。

Reverse dictionary is the task to find the proper target word given the word description. In this paper, we tried to incorporate BERT into this task. However, since BERT is based on the byte-pair-encoding (BPE) subword encoding, it is nontrivial to make BERT generate a word given the description. We propose a simple but effective method to make BERT generate the target word for this specific task. Besides, the cross-lingual reverse dictionary is the task to find the proper target word described in another language. Previous models have to keep two different word embeddings and learn to align these embeddings. Nevertheless, by using the Multilingual BERT (mBERT), we can efficiently conduct the cross-lingual reverse dictionary with one subword embedding, and the alignment between languages is not necessary. More importantly, mBERT can achieve remarkable cross-lingual reverse dictionary performance even without the parallel corpus, which means it can conduct the cross-lingual reverse dictionary with only corresponding monolingual data. Code is publicly available at https://github.com/yhcc/BertForRD.git.
翻訳日:2022-10-12 23:37:36 公開日:2020-09-30
# ニューラルマシン翻訳におけるスクリプト間のモデル伝達のローマ化について

On Romanization for Model Transfer Between Scripts in Neural Machine Translation ( http://arxiv.org/abs/2009.14824v1 )

ライセンス: Link先を確認
Chantal Amrhein and Rico Sennrich(参考訳) 転送学習は、低リソース機械翻訳の品質を改善するための一般的な戦略である。 埋め込み層を最適に転送するには、子と親モデルは語彙のかなりの部分を共有すべきである。 異なるスクリプトを持つ言語に転送する場合は、そうではない。 このシナリオでロマン化の利点を探求する。 以上の結果から,ロマン化は情報損失を伴い,より単純な語彙変換法よりも必ずしも優れているとは限りませんが,異なるスクリプトを持つ関連言語間の転送を改善することが可能です。 2つのローマン化ツールを比較し,翻訳品質に影響を及ぼす情報損失の程度が異なることを示した。 最後に,ロマン化を対象側に拡張することにより,単純なデロマン化モデルと組み合わせることで,この戦略が成功することを示す。

Transfer learning is a popular strategy to improve the quality of low-resource machine translation. For an optimal transfer of the embedding layer, the child and parent model should share a substantial part of the vocabulary. This is not the case when transferring to languages with a different script. We explore the benefit of romanization in this scenario. Our results show that romanization entails information loss and is thus not always superior to simpler vocabulary transfer methods, but can improve the transfer between related languages with different scripts. We compare two romanization tools and find that they exhibit different degrees of information loss, which affects translation quality. Finally, we extend romanization to the target side, showing that this can be a successful strategy when coupled with a simple deromanization model.
翻訳日:2022-10-12 23:36:59 公開日:2020-09-30
# 誤解から学ぶ:対話生成のための自己学習によるオントロジーの組み合わせ

Learning from Mistakes: Combining Ontologies via Self-Training for Dialogue Generation ( http://arxiv.org/abs/2010.00150v1 )

ライセンス: Link先を確認
Lena Reed, Vrindavan Harrison, Shereen Oraby, Dilek Hakkani-Tur and Marilyn Walker(参考訳) タスク指向対話のための自然言語ジェネレータ(NLG)は通常、意味表現(MR)を入力とする。 これらはMR/音声ペアのコーパスでエンドツーエンドにトレーニングされ、MRは特定の対話動作とドメイン属性のセットをカバーする。 このようなデータセットの作成は労働集約的で時間を要する。 したがって、新しいドメインオントロジーのための対話システムは、既存のオントロジーにデータを使う利点がある。 ここでは、レストランドメインの既存のトレーニングセットを用いて、新しい大きなオントロジーのためにNLGをトレーニングできるかどうかを、各セットが異なるオントロジーに基づいて、初めて検討する。 新たにより大きく結合したオントロジーを作成し、NLGをトレーニングして、それをカバーする発話を生成します。 例えば、あるデータセットが家族にやさしい情報や評価情報があり、もう1つは装飾とサービスの属性がある場合、私たちの目標は、家族にやさしい、評価、装飾、サービスの価値を実現する発話を生成できる、オントロジーの組み合わせのためのNLGです。 ベースラインニューラルシークエンス・ツー・シーケンスモデルによる最初の実験は、このタスクが驚くほど難しいことを示している。 次に、新しい自己学習手法を開発し、(誤り)モデル出力を特定し、修正されたMR入力を自動生成し、新しい(MR、発話)トレーニングペアを作成し、これらの新しいインスタンスをトレーニングデータに繰り返し追加する。 そして、新しいテストセットで結果のモデルをテストします。 その結果、ベースラインモデルよりも75.4%向上した自己学習モデルが得られた。 また, 自然性, 意味的一貫性, 文法性が高まることを示す最終モデルの質的評価について報告する。

Natural language generators (NLGs) for task-oriented dialogue typically take a meaning representation (MR) as input. They are trained end-to-end with a corpus of MR/utterance pairs, where the MRs cover a specific set of dialogue acts and domain attributes. Creation of such datasets is labor-intensive and time-consuming. Therefore, dialogue systems for new domain ontologies would benefit from using data for pre-existing ontologies. Here we explore, for the first time, whether it is possible to train an NLG for a new larger ontology using existing training sets for the restaurant domain, where each set is based on a different ontology. We create a new, larger combined ontology, and then train an NLG to produce utterances covering it. For example, if one dataset has attributes for family-friendly and rating information, and the other has attributes for decor and service, our aim is an NLG for the combined ontology that can produce utterances that realize values for family-friendly, rating, decor and service. Initial experiments with a baseline neural sequence-to-sequence model show that this task is surprisingly challenging. We then develop a novel self-training method that identifies (errorful) model outputs, automatically constructs a corrected MR input to form a new (MR, utterance) training pair, and then repeatedly adds these new instances back into the training data. We then test the resulting model on a new test set. The result is a self-trained model whose performance is an absolute 75.4% improvement over the baseline model. We also report a human qualitative evaluation of the final model showing that it achieves high naturalness, semantic coherence and grammaticality
翻訳日:2022-10-12 23:36:47 公開日:2020-09-30
# 深層強化学習を用いた添加物製造のためのツールパス設計

Toolpath design for additive manufacturing using deep reinforcement learning ( http://arxiv.org/abs/2009.14365v1 )

ライセンス: Link先を確認
Mojtaba Mozaffar, Ablodghani Ebrahimi, Jian Cao(参考訳) 金属系添加物製造プロセスのツールパス最適化は、現在設計空間の高次元化によって阻害されている。 本研究では,任意の部分を構築するためのツールパス戦略を動的に学習する強化学習プラットフォームを提案する。 この目的のために, モデルフリーの強化学習式を3種類検討し, 付加物製造用具パスの設計を行い, 濃密な報酬構造と希薄な報酬構造の2例について実証した。 その結果,この学習ベースのツールパス設計手法は,特に高い報酬構造が存在する場合に高いスコアが得られることがわかった。

Toolpath optimization of metal-based additive manufacturing processes is currently hampered by the high-dimensionality of its design space. In this work, a reinforcement learning platform is proposed that dynamically learns toolpath strategies to build an arbitrary part. To this end, three prominent model-free reinforcement learning formulations are investigated to design additive manufacturing toolpaths and demonstrated for two cases of dense and sparse reward structures. The results indicate that this learning-based toolpath design approach achieves high scores, especially when a dense reward structure is present.
翻訳日:2022-10-12 23:36:02 公開日:2020-09-30
# AUBER:BERTの正規化自動化

AUBER: Automated BERT Regularization ( http://arxiv.org/abs/2009.14409v1 )

ライセンス: Link先を確認
Hyun Dong Lee, Seongmin Lee and U Kang(参考訳) BERTを効果的に正規化するには? BERTは、下流の自然言語処理タスクでその効果を証明しているが、少数のトレーニングインスタンスがある場合、しばしば過度に適合する。 BERTを正規化するための有望な方向は、頭部重要度のためのプロキシスコアに基づいてアテンションヘッドをプルーニングすることに基づいている。 しかしながら、ヒューリスティックに基づく手法は通常、注意を向ける順序を決定するため、最適以下である。 このような制限を克服するために,強化学習を利用した効果的な正規化手法であるAUBERを提案する。 auberは、ヒューリスティックスやルールに基づくポリシーに頼る代わりに、どの頭が正規化のために刈り取るべきかどうかを決定する刈り込みポリシーを学習する。 実験結果から, AUBERは, 最大10%の精度で既存の刈り出し方法より優れていた。 さらに,我々のアブレーション研究は,auberの設計選択の有効性を実証的に示している。

How can we effectively regularize BERT? Although BERT proves its effectiveness in various downstream natural language processing tasks, it often overfits when there are only a small number of training instances. A promising direction to regularize BERT is based on pruning its attention heads based on a proxy score for head importance. However, heuristic-based methods are usually suboptimal since they predetermine the order by which attention heads are pruned. In order to overcome such a limitation, we propose AUBER, an effective regularization method that leverages reinforcement learning to automatically prune attention heads from BERT. Instead of depending on heuristics or rule-based policies, AUBER learns a pruning policy that determines which attention heads should or should not be pruned for regularization. Experimental results show that AUBER outperforms existing pruning methods by achieving up to 10% better accuracy. In addition, our ablation study empirically demonstrates the effectiveness of our design choices for AUBER.
翻訳日:2022-10-12 23:35:50 公開日:2020-09-30
# オンラインソーシャルネットワークにおけるコミュニティ標準違反の不確実性推定

Uncertainty Estimation For Community Standards Violation In Online Social Networks ( http://arxiv.org/abs/2009.14519v1 )

ライセンス: Link先を確認
Narjes Torabi, Nimar S. Arora, Emma Yu, Kinjal Shah, Wenshun Liu, Michael Tingley(参考訳) オンラインソーシャルネットワーク(OSN)は、ユーザーが自分の考えや意見を友人や一般大衆のコミュニティと共有するためのプラットフォームを提供する。 プラットフォームをすべてのユーザに対して安全に保つとともに、ローカルな法律に準拠させるため、OSNは通常、ポリシーグループに組織されたコミュニティ標準のセットを作成し、マシンラーニング(ML)モデルを使用して、ポリシーに違反するコンテンツを識別および削除する。 しかし、毎日アップロードされる何十億ものコンテンツのうち、少数のコンテンツだけが明らかに違反しているため、自動化されたモデルによって削除できる。 有病率推定は,これらの項目の少量のサンプルを人間ラベルに送って残余項目の違反内容を推定し,真理ラベルを取得するタスクである。 なぜなら、何十億ものアイテムのmlスコアや機能を簡単に得ることができるにもかかわらず、実用上の考慮によって、これらのアイテムの数千の事実ラベルしか得られないからです。 実際、感染率は非常に低いため、ラベル付けすべきアイテムの公平な選択の後でも、1つのアイテムでさえも違反するラベルがつけられない日が数日間ある可能性がある。 10^{-4}$ to 10^{-5}$、レジームは、サンプリングおよびラベリングプロセスの不確実性を考慮して、滑らかな見積もりを与えるアップバウンドまたは97.5\%$信頼区間(ubp)を報告することである。 そこで本研究では,この ubp タスクに対してバケット・ベータ・バイノマル法とバケット・ガウシアン法という2つの新しい手法を提案し,実データとシミュレーションデータを用いて,一般的なブートストラップ法よりもはるかに優れたカバレッジを有することを示す。

Online Social Networks (OSNs) provide a platform for users to share their thoughts and opinions with their community of friends or to the general public. In order to keep the platform safe for all users, as well as to keep it compliant with local laws, OSNs typically create a set of community standards organized into policy groups, and use Machine Learning (ML) models to identify and remove content that violates any of the policies. However, out of the billions of content that is uploaded on a daily basis only a small fraction is so unambiguously violating that it can be removed by the automated models. Prevalence estimation is the task of estimating the fraction of violating content in the residual items by sending a small sample of these items to human labelers to get ground truth labels. This task is exceedingly hard because even though we can easily get the ML scores or features for all of the billions of items we can only get ground truth labels on a few thousands of these items due to practical considerations. Indeed the prevalence can be so low that even after a judicious choice of items to be labeled there can be many days in which not even a single item is labeled violating. A pragmatic choice for such low prevalence, $10^{-4}$ to $10^{-5}$, regimes is to report the upper bound, or $97.5\%$ confidence interval, prevalence (UBP) that takes the uncertainties of the sampling and labeling processes into account and gives a smoothed estimate. In this work we present two novel techniques Bucketed-Beta-Binomial and a Bucketed-Gaussian Process for this UBP task and demonstrate on real and simulated data that it has much better coverage than the commonly used bootstrapping technique.
翻訳日:2022-10-12 23:35:32 公開日:2020-09-30
# 胸部x線写真における弱教師付き疾患分類と局在の自己誘導型多重インスタンス学習

Self-Guided Multiple Instance Learning for Weakly Supervised Disease Classification and Localization in Chest Radiographs ( http://arxiv.org/abs/2010.00127v1 )

ライセンス: Link先を確認
Constantin Seibold, Jens Kleesiek, Heinz-Peter Schlemmer and Rainer Stiefelhagen(参考訳) 細かなアノテーションの欠如は、自動診断システムの導入を妨げる。 本稿では,胸部X線写真における異常の同定と局所化に関する問題点に対処する。 そこで,本研究では,畳み込みニューラルネットワークの学習のための新たな損失関数を導入し,emph{localization confidence}を増大させ,全体のemph{disease identification}を支援する。 この損失はイメージレベルの予測とパッチレベルの予測の両方を利用して補助的な監視を生成する。 従来の損失定式化のように予測から厳密なバイナリを形成するのではなく、よりカスタマイズされた方法でターゲットを作成することで、損失が誤分類の可能性を考慮できるのです。 提案手法では,複数インスタンス学習用データセットやNIH〜ChestX-Ray14ベンチマークにおいて,従来使用していた損失よりも,より優れたパフォーマンスと精度の予測が可能であることが示唆された。

The lack of fine-grained annotations hinders the deployment of automated diagnosis systems, which require human-interpretable justification for their decision process. In this paper, we address the problem of weakly supervised identification and localization of abnormalities in chest radiographs. To that end, we introduce a novel loss function for training convolutional neural networks increasing the \emph{localization confidence} and assisting the overall \emph{disease identification}. The loss leverages both image- and patch-level predictions to generate auxiliary supervision. Rather than forming strictly binary from the predictions as done in previous loss formulations, we create targets in a more customized manner, which allows the loss to account for possible misclassification. We show that the supervision provided within the proposed learning scheme leads to better performance and more precise predictions on prevalent datasets for multiple-instance learning as well as on the NIH~ChestX-Ray14 benchmark for disease recognition than previously used losses.
翻訳日:2022-10-12 23:28:42 公開日:2020-09-30
# 勾配降下・上昇は有限時間スケール分離を伴う厳密な局所minmax平衡に収束する

Gradient Descent-Ascent Provably Converges to Strict Local Minmax Equilibria with a Finite Timescale Separation ( http://arxiv.org/abs/2009.14820v1 )

ライセンス: Link先を確認
Tanner Fiez, Lillian Ratliff(参考訳) プレイヤー1の学習率を$\gamma_1$とし、プレイヤー2の学習率を$\gamma_2=\tau\gamma_1$とする2段非凸非凹ゼロサムゲームにおいて、有限時間スケール分離パラメータ$\tau$が勾配勾配上昇に与える影響を考察する。 勾配降下における時間スケール分離の役割を分析する既存の研究は、主に学習率(\tau =1$)を共有するプレイヤーのエッジケースと、最小化プレイヤーの更新(\tau \rightarrow \infty$)間でほぼ収束する最大化プレイヤーに焦点を当てている。 パラメータ選択が$\tau=1$の場合、学習力学は一般にゲーム理論上意味のある平衡に収束することが保証されていないことが知られている。 対照的に、jin et al. (2020) は勾配降下の安定な臨界点と厳密な局所minmax平衡のセットが$\tau\rightarrow\infty$と一致することを示した。 この研究において、x^{\ast}$ がすべての$\tau \in (\tau^{\ast}, \infty)$ に対して安定な勾配降下の臨界点となるように、有限の時間スケール分離パラメータ $\tau^{\ast}$ が存在すること、そしてそれが厳密な局所minmax平衡であることと場合に限り、過去の仕事の間のギャップを橋渡しする。 さらに、決定論的および確率的勾配フィードバックの下で、対応する収束率と結果と共に$\tau^{\ast}$を計算するための明示的な構成を提供する。 厳密な局所ミンマックス平衡でない臨界点 $x^{\ast}$ が与えられたとき、すべての$\tau\in (\tau_0, \infty)$ に対して$x^{\ast}$ が不安定となるような有限時間スケール分離 $\tau_0$ が存在する。 最後に,CIFAR-10とCelebAデータセットを用いて,トレーニング性能に対する時間スケール分離の影響を実証した。

We study the role that a finite timescale separation parameter $\tau$ has on gradient descent-ascent in two-player non-convex, non-concave zero-sum games where the learning rate of player 1 is denoted by $\gamma_1$ and the learning rate of player 2 is defined to be $\gamma_2=\tau\gamma_1$. Existing work analyzing the role of timescale separation in gradient descent-ascent has primarily focused on the edge cases of players sharing a learning rate ($\tau =1$) and the maximizing player approximately converging between each update of the minimizing player ($\tau \rightarrow \infty$). For the parameter choice of $\tau=1$, it is known that the learning dynamics are not guaranteed to converge to a game-theoretically meaningful equilibria in general. In contrast, Jin et al. (2020) showed that the stable critical points of gradient descent-ascent coincide with the set of strict local minmax equilibria as $\tau\rightarrow\infty$. In this work, we bridge the gap between past work by showing there exists a finite timescale separation parameter $\tau^{\ast}$ such that $x^{\ast}$ is a stable critical point of gradient descent-ascent for all $\tau \in (\tau^{\ast}, \infty)$ if and only if it is a strict local minmax equilibrium. Moreover, we provide an explicit construction for computing $\tau^{\ast}$ along with corresponding convergence rates and results under deterministic and stochastic gradient feedback. The convergence results we present are complemented by a non-convergence result: given a critical point $x^{\ast}$ that is not a strict local minmax equilibrium, then there exists a finite timescale separation $\tau_0$ such that $x^{\ast}$ is unstable for all $\tau\in (\tau_0, \infty)$. Finally, we empirically demonstrate on the CIFAR-10 and CelebA datasets the significant impact timescale separation has on training performance.
翻訳日:2022-10-12 23:28:26 公開日:2020-09-30
# 低ランク分布の線形サンプル学習

Linear-Sample Learning of Low-Rank Distributions ( http://arxiv.org/abs/2010.00064v1 )

ライセンス: Link先を確認
Ayush Jain, Alon Orlitsky(参考訳) コミュニティ検出、コラボレーティブフィルタリング、ゲノム解析、NLPなど、多くの潜在変数アプリケーションは、低ランク行列によって生成されたモデルデータである。 しかし、非常に特殊なケースを除いて、基礎となるマトリックスを効率的に回収するために必要なサンプルの数は分かっていない。 いくつかの一般的な潜在変数設定で学習の開始を決定する。 それらすべてについて、$k\times k$, rank-$r$, matrices to normalized $l_{1}$ distance $\epsilon$ requires $\omega(\frac{kr}{\epsilon^2})$ sample を学習し、${\cal o}(\frac{kr}{\epsilon^2}\log^2\frac r\epsilon)$ sample, a number linear in the high dimension, but almost linear in the low, rank を用いるアルゴリズムを提案する。 このアルゴリズムは既存のスペクトル技術を改善し、多項式時間で走る。 これらの証明は、モデルと観測行列の間のスペクトル距離の急速な収束に関する新しい結果を確立し、独立した興味を持つかもしれない。

Many latent-variable applications, including community detection, collaborative filtering, genomic analysis, and NLP, model data as generated by low-rank matrices. Yet despite considerable research, except for very special cases, the number of samples required to efficiently recover the underlying matrices has not been known. We determine the onset of learning in several common latent-variable settings. For all of them, we show that learning $k\times k$, rank-$r$, matrices to normalized $L_{1}$ distance $\epsilon$ requires $\Omega(\frac{kr}{\epsilon^2})$ samples, and propose an algorithm that uses ${\cal O}(\frac{kr}{\epsilon^2}\log^2\frac r\epsilon)$ samples, a number linear in the high dimension, and nearly linear in the, typically low, rank. The algorithm improves on existing spectral techniques and runs in polynomial time. The proofs establish new results on the rapid convergence of the spectral distance between the model and observation matrices, and may be of independent interest.
翻訳日:2022-10-12 23:27:42 公開日:2020-09-30
# 音楽音声クリップを条件とした歌詞線の生成

Generation of lyrics lines conditioned on music audio clips ( http://arxiv.org/abs/2009.14375v1 )

ライセンス: Link先を確認
Olga Vechtomova, Gaurav Sahu, Dhruv Kumar(参考訳) 本稿では,音楽音声に基づく新しい歌詞線を生成するシステムを提案する。 バイモーダルニューラルネットワークモデルは、任意の短い音声クリップに条件付き線を生成することを学習する。 モデルは、スペクトル変動オートエンコーダ(VAE)とテキストVAEで構成される。 自動評価と人的評価の両方が、与えられた音声クリップに一致する感情的な影響を持つ線を生成する上で、我々のモデルの有効性を示す。 このシステムはソングライターのためのクリエイティビティツールとして機能することを目的としている。

We present a system for generating novel lyrics lines conditioned on music audio. A bimodal neural network model learns to generate lines conditioned on any given short audio clip. The model consists of a spectrogram variational autoencoder (VAE) and a text VAE. Both automatic and human evaluations demonstrate effectiveness of our model in generating lines that have an emotional impact matching a given audio clip. The system is intended to serve as a creativity tool for songwriters.
翻訳日:2022-10-12 23:27:17 公開日:2020-09-30
# ウズベク語における単語埋め込みの開発

Development of Word Embeddings for Uzbek Language ( http://arxiv.org/abs/2009.14384v1 )

ライセンス: Link先を確認
B. Mansurov and A. Mansurov(参考訳) 本稿では,ウズベク語のキリル文字変形のための単語埋め込みの開発プロセスについて述べる。 我々の研究成果は、社内で開発された高品質なWebクロールコーパスを使用して、ワード2vec、GloVe、fastTextアルゴリズムでトレーニングされたワードベクトルの最初の公開セットである。 開発された単語埋め込みは、多くの自然言語処理下流タスクで使用できる。

In this paper, we share the process of developing word embeddings for the Cyrillic variant of the Uzbek language. The result of our work is the first publicly available set of word vectors trained on the word2vec, GloVe, and fastText algorithms using a high-quality web crawl corpus developed in-house. The developed word embeddings can be used in many natural language processing downstream tasks.
翻訳日:2022-10-12 23:27:11 公開日:2020-09-30
# 自動編集はNMTを改善するか?

Can Automatic Post-Editing Improve NMT? ( http://arxiv.org/abs/2009.14395v1 )

ライセンス: Link先を確認
Shamil Chollampatt, Raymond Hendy Susanto, Liling Tan, Ewa Szymanska(参考訳) 自動後編集(automatic post-editing, ape)は、機械翻訳を改善することを目的としている。 APEは統計機械翻訳(SMT)システムで使用されているが、ニューラル機械翻訳(NMT)システムでは成功していない。 これは現在のシナリオにおけるapタスクの関連性に関する疑問を提起している。 しかし、APEモデルのトレーニングは、大規模な人工コーパスと、限定された人事後データに大きく依存している。 APEモデルは, 適切な監督が欠如しているため, NMT翻訳の改善には不十分であると考えられる。 我々の仮説を確かめるために、我々は人間のポストエジットのより大きなコーパスをドイツのNMTにコンパイルする。 このコーパスで訓練された最先端のニューラル ape モデルが,領域内の強力なnmt システムを大幅に改善し,この分野の理解に挑戦できることを実証的に示す。 さらに, 各種トレーニングデータサイズ, 人工トレーニングデータ, APEタスクに対するドメイン特異性の影響について検討した。 我々はこの新しいコーパスをCC BY-NC-SA 4.0ライセンスでhttps://github.com/shamilcm/pedra.comでリリースする。

Automatic post-editing (APE) aims to improve machine translations, thereby reducing human post-editing effort. APE has had notable success when used with statistical machine translation (SMT) systems but has not been as successful over neural machine translation (NMT) systems. This has raised questions on the relevance of APE task in the current scenario. However, the training of APE models has been heavily reliant on large-scale artificial corpora combined with only limited human post-edited data. We hypothesize that APE models have been underperforming in improving NMT translations due to the lack of adequate supervision. To ascertain our hypothesis, we compile a larger corpus of human post-edits of English to German NMT. We empirically show that a state-of-art neural APE model trained on this corpus can significantly improve a strong in-domain NMT system, challenging the current understanding in the field. We further investigate the effects of varying training data sizes, using artificial training data, and domain specificity for the APE task. We release this new corpus under CC BY-NC-SA 4.0 license at https://github.com/shamilcm/pedra.
翻訳日:2022-10-12 23:26:49 公開日:2020-09-30
# ニューラルRTTによる談話コヒーレンスの評価

Neural RST-based Evaluation of Discourse Coherence ( http://arxiv.org/abs/2009.14463v1 )

ライセンス: Link先を確認
Grigorii Guz, Peyman Bateni, Darius Muglich, Giuseppe Carenini(参考訳) 本稿では、レトリック構造理論(RST)木の有用性と談話コヒーレンス評価における関係性を評価する。 銀標準のrst機能を組み込むことでコヒーレンス分類の精度が向上することを示す。 我々は、木再帰的ニューラルモデル、すなわち、アートRTTパーサの状態によって生成されたテキストのRTT特徴を生かしたRTT-Recursiveを通してこれを実証する。 我々は,Grammarly Corpus for Discourse Coherence (GCDC) に対する我々のアプローチを評価し,現在の技術状況に合わせると,このベンチマークで新たな技術精度を実現することができることを示す。 さらに、RST-Recursiveは単独でデプロイすると、62%のパラメータで競合精度を達成できる。

This paper evaluates the utility of Rhetorical Structure Theory (RST) trees and relations in discourse coherence evaluation. We show that incorporating silver-standard RST features can increase accuracy when classifying coherence. We demonstrate this through our tree-recursive neural model, namely RST-Recursive, which takes advantage of the text's RST features produced by a state of the art RST parser. We evaluate our approach on the Grammarly Corpus for Discourse Coherence (GCDC) and show that when ensembled with the current state of the art, we can achieve the new state of the art accuracy on this benchmark. Furthermore, when deployed alone, RST-Recursive achieves competitive accuracy while having 62% fewer parameters.
翻訳日:2022-10-12 23:26:33 公開日:2020-09-30
# ビンガム分布からの効率的なサンプリング

Efficient sampling from the Bingham distribution ( http://arxiv.org/abs/2010.00137v1 )

ライセンス: Link先を確認
Rong Ge, Holden Lee, Jianfeng Lu, Andrej Risteski(参考訳) ビンガム分布から正確にサンプリングするためのアルゴリズムを与える: $p(x)\propto \exp(x^\top a x)$ on the sphere $\mathcal s^{d-1}$ で、$\operatorname{poly}(d, \lambda_{\max}(a)-\lambda_{\min}(a)$ の期待実行時間を持つ。 このアルゴリズムは、提案分布がpdfの多項式近似である拒絶サンプリングに基づいており、球面上の多項式の積分を明示的に評価することでサンプル化することができる。 我々のアルゴリズムは多項式の逆関数の正確な計算を仮定して、正確なサンプルを与える。 これは、マルコフ・チェイン・モンテカルロのアルゴリズムとは対照的であり、この問題を素早く混合することは知られておらず、近似サンプルのみを与える。 直接の応用として, 多項式時間でのrank-1行列推論問題の後方分布から, これをサンプルとして用いる。

We give a algorithm for exact sampling from the Bingham distribution $p(x)\propto \exp(x^\top A x)$ on the sphere $\mathcal S^{d-1}$ with expected runtime of $\operatorname{poly}(d, \lambda_{\max}(A)-\lambda_{\min}(A))$. The algorithm is based on rejection sampling, where the proposal distribution is a polynomial approximation of the pdf, and can be sampled from by explicitly evaluating integrals of polynomials over the sphere. Our algorithm gives exact samples, assuming exact computation of an inverse function of a polynomial. This is in contrast with Markov Chain Monte Carlo algorithms, which are not known to enjoy rapid mixing on this problem, and only give approximate samples. As a direct application, we use this to sample from the posterior distribution of a rank-1 matrix inference problem in polynomial time.
翻訳日:2022-10-12 23:19:57 公開日:2020-09-30
# MARS-Gym: マーケットプレース向けのRecommender Systemsをモデル化、トレーニング、評価するためのGymフレームワーク

MARS-Gym: A Gym framework to model, train, and evaluate Recommender Systems for Marketplaces ( http://arxiv.org/abs/2010.07035v1 )

ライセンス: Link先を確認
Marlesson R. O. Santana, Luckeciano C. Melo, Fernando H. F. Camargo, Bruno Brand\~ao, Anderson Soares, Renan M. Oliveira and Sandor Caetano(参考訳) Recommender Systemsは、こうしたエコシステムの健全性と公平性を維持しながら、ユーザの満足度を最大化しなければならないため、マーケットプレースにとって特に難しい。 この文脈では、これらの環境の中で相互作用することで学習するエージェントを設計、訓練、評価するためのリソースの欠如を観察した。 そこで我々は,市場におけるレコメンデーションのための強化学習エージェントの構築と評価を,研究者や技術者が迅速に行えるようにするためのオープンソースフレームワークMARS-Gymを提案する。 MARS-Gymは、データ処理、モデル設計と最適化、マルチサイド評価という、開発パイプライン全体に対処する。 また,Trivagoのマーケットプレースデータセットにおいて,さまざまなベースラインエージェントのセットを実装し,そのメトリクスによる分析を行い,レコメンデーション,非政治推定,公正性といった指標を用いて全体的評価を行う方法を説明する。 MARS-Gymでは,学術研究と生産システムのギャップを埋めるとともに,新しいアルゴリズムやアプリケーションの設計を容易にすることが期待されている。

Recommender Systems are especially challenging for marketplaces since they must maximize user satisfaction while maintaining the healthiness and fairness of such ecosystems. In this context, we observed a lack of resources to design, train, and evaluate agents that learn by interacting within these environments. For this matter, we propose MARS-Gym, an open-source framework to empower researchers and engineers to quickly build and evaluate Reinforcement Learning agents for recommendations in marketplaces. MARS-Gym addresses the whole development pipeline: data processing, model design and optimization, and multi-sided evaluation. We also provide the implementation of a diverse set of baseline agents, with a metrics-driven analysis of them in the Trivago marketplace dataset, to illustrate how to conduct a holistic assessment using the available metrics of recommendation, off-policy estimation, and fairness. With MARS-Gym, we expect to bridge the gap between academic research and production systems, as well as to facilitate the design of new algorithms and applications.
翻訳日:2022-10-12 23:19:30 公開日:2020-09-30
# FAN: リアルタイム超解像のための周波数アグリゲーションネットワーク

FAN: Frequency Aggregation Network for Real Image Super-resolution ( http://arxiv.org/abs/2009.14547v1 )

ライセンス: Link先を確認
Yingxue Pang, Xin Li, Xin Jin, Yaojun Wu, Jianzhao Liu, Sen Liu, and Zhibo Chen(参考訳) 単一画像超解像(SISR)は、低解像度(LR)入力画像から高解像度(HR)画像を復元することを目的としている。 ディープラーニングの発展により、SISRは大きな進歩を遂げた。 しかし、現実のLR画像を複雑な精度で復元することは依然として困難である。 そこで本研究では,実世界画像のスーパーレゾルション問題に対処するため,周波数アグリゲーションネットワークであるfanを提案する。 具体的には、LR画像の異なる周波数を抽出し、個別にチャネル注意グループ化された残留高密度ネットワーク(CA-GRDB)に渡して対応する特徴写像を出力する。 そして、これらの高密度な特徴マップを適応的に集約し、詳細とテクスチャを拡張してHRイメージを復元する。 我々は、AIM 2020チャレンジの実際の画像超解像タスクにおいて、FANがうまく機能していることを確認するために、定量的かつ定性的に広範な実験を行う。 最終結果によると、我々のSR-IMはPSNR31.1735、SSIM0.8728でX4トラックで4位を獲得した。

Single image super-resolution (SISR) aims to recover the high-resolution (HR) image from its low-resolution (LR) input image. With the development of deep learning, SISR has achieved great progress. However, It is still a challenge to restore the real-world LR image with complicated authentic degradations. Therefore, we propose FAN, a frequency aggregation network, to address the real-world image super-resolu-tion problem. Specifically, we extract different frequencies of the LR image and pass them to a channel attention-grouped residual dense network (CA-GRDB) individually to output corresponding feature maps. And then aggregating these residual dense feature maps adaptively to recover the HR image with enhanced details and textures. We conduct extensive experiments quantitatively and qualitatively to verify that our FAN performs well on the real image super-resolution task of AIM 2020 challenge. According to the released final results, our team SR-IM achieves the fourth place on the X4 track with PSNR of 31.1735 and SSIM of 0.8728.
翻訳日:2022-10-12 23:19:10 公開日:2020-09-30
# Markowitz計画と深層強化学習のギャップを埋める

Bridging the gap between Markowitz planning and deep reinforcement learning ( http://arxiv.org/abs/2010.09108v1 )

ライセンス: Link先を確認
Eric Benhamou, David Saltiel, Sandrine Ungari, Abhishek Mukhopadhyay(参考訳) While researchers in the asset management industry have mostly focused on techniques based on financial and risk planning techniques like Markowitz efficient frontier, minimum variance, maximum diversification or equal risk parity, in parallel, another community in machine learning has started working on reinforcement learning and more particularly deep reinforcement learning to solve other decision making problems for challenging task like autonomous driving, robot learning, and on a more conceptual side games solving like Go. 本稿では, ポートフォリオ割り当てを一段階の最適化ではなく, 遅延した報酬を伴う継続的制御最適化として, ポートフォリオ割り当てを最適制御問題とする, より汎用的な最適化設定により, ポートフォリオ割り当てに新たな光を当てることができることを示すことによって, 両者のギャップを埋めることを目的とする。 利点はたくさんあります 一 DRLは、直接市場条件を設計による行動にマッピングし、環境の変化に適応させる。 (二)DRLは、リスクがばらつきによって表されるような従来の金融リスクの前提に依存しない。 (iii)DRLは、従来の最適化手法とは対照的に、追加データを組み込むことができ、マルチ入力方式となる。 本稿では,畳み込みネットワークを用いた実験を行った。

While researchers in the asset management industry have mostly focused on techniques based on financial and risk planning techniques like Markowitz efficient frontier, minimum variance, maximum diversification or equal risk parity, in parallel, another community in machine learning has started working on reinforcement learning and more particularly deep reinforcement learning to solve other decision making problems for challenging task like autonomous driving, robot learning, and on a more conceptual side games solving like Go. This paper aims to bridge the gap between these two approaches by showing Deep Reinforcement Learning (DRL) techniques can shed new lights on portfolio allocation thanks to a more general optimization setting that casts portfolio allocation as an optimal control problem that is not just a one-step optimization, but rather a continuous control optimization with a delayed reward. The advantages are numerous: (i) DRL maps directly market conditions to actions by design and hence should adapt to changing environment, (ii) DRL does not rely on any traditional financial risk assumptions like that risk is represented by variance, (iii) DRL can incorporate additional data and be a multi inputs method as opposed to more traditional optimization methods. We present on an experiment some encouraging results using convolution networks.
翻訳日:2022-10-12 23:11:34 公開日:2020-09-30
# 不確実性マッチンググラフニューラルネットワークによる中毒攻撃防御

Uncertainty-Matching Graph Neural Networks to Defend Against Poisoning Attacks ( http://arxiv.org/abs/2009.14455v1 )

ライセンス: Link先を確認
Uday Shankar Shanthamallu, Jayaraman J. Thiagarajan and Andreas Spanias(参考訳) グラフ構造化データへのニューラルネットワークの一般化であるグラフニューラルネットワーク(GNN)は、しばしばグラフのエンティティ間のメッセージパスを使用して実装される。 gnnはノードの分類、リンクの予測、グラフの分類に有効であるが、敵の攻撃に弱い。 本稿では,メッセージパッシングフレームワークの認識的不確実性を利用して,gnnモデルのロバスト性,特にグラフ構造への中毒攻撃に対するロバスト性を改善することを目的とした,不確実性マッチングgnn(um-gnn)を提案する。 より具体的には、グラフ構造に直接アクセスせず、新しい不確実性マッチング戦略を通じて標準gnnから信頼できる知識を体系的に抽出するサーロゲート予測器を構築することを提案する。 興味深いことに、このアンカップリングはUM-GNNを設計によって回避攻撃に免疫させ、毒殺攻撃に対する堅牢性を大幅に向上させる。 標準ベンチマークとグローバルおよびターゲット攻撃のスイートを用いた実証的研究を用いて、最先端の堅牢GCNを含む既存のベースラインと比較した場合、UM-GNNの有効性を実証する。

Graph Neural Networks (GNNs), a generalization of neural networks to graph-structured data, are often implemented using message passes between entities of a graph. While GNNs are effective for node classification, link prediction and graph classification, they are vulnerable to adversarial attacks, i.e., a small perturbation to the structure can lead to a non-trivial performance degradation. In this work, we propose Uncertainty Matching GNN (UM-GNN), that is aimed at improving the robustness of GNN models, particularly against poisoning attacks to the graph structure, by leveraging epistemic uncertainties from the message passing framework. More specifically, we propose to build a surrogate predictor that does not directly access the graph structure, but systematically extracts reliable knowledge from a standard GNN through a novel uncertainty-matching strategy. Interestingly, this uncoupling makes UM-GNN immune to evasion attacks by design, and achieves significantly improved robustness against poisoning attacks. Using empirical studies with standard benchmarks and a suite of global and target attacks, we demonstrate the effectiveness of UM-GNN, when compared to existing baselines including the state-of-the-art robust GCN.
翻訳日:2022-10-12 23:11:02 公開日:2020-09-30
# ワッサーシュタイン分布ロバスト逆多目的最適化

Wasserstein Distributionally Robust Inverse Multiobjective Optimization ( http://arxiv.org/abs/2009.14552v1 )

ライセンス: Link先を確認
Chaosheng Dong, Bo Zeng(参考訳) 逆多目的最適化は、人間の専門家による一連の決定に基づいて、多目的意思決定問題(DMP)のパラメータを推論する教師なし学習タスクのための一般的なフレームワークを提供する。 しかし、このフレームワークの性能は、正確なDMPの可用性、高品質の十分な決定、DMPに関する十分な情報を含むパラメータ空間に依存している。 仮説的DMP, データ, パラメータ空間の不確かさに対処するため, 本論文では, 逆多目的最適化に対する分布的ロバストなアプローチについて検討する。 具体的には、wassersteinメトリックを利用して、これらの決定の実証的な分布を中心とするボールを構築します。 次に,WRO-IMOP (Warerstein distributionally robust inverse multijective optimization problem) を定式化し,Warerstein 球のすべての分布に対して最悪のケースが取られる最悪のケース予測損失関数を最小化する。 wro-imop推定器の過剰なリスクは、サブリニア収束率を持つことを示す。 さらに、WRO-IMOPの半無限再構成を提案し、有限反復で近似解に収束する切断平面アルゴリズムを開発した。 最後に,合成多目的二次プログラムと実世界のポートフォリオ最適化問題において,本手法の有効性を示す。

Inverse multiobjective optimization provides a general framework for the unsupervised learning task of inferring parameters of a multiobjective decision making problem (DMP), based on a set of observed decisions from the human expert. However, the performance of this framework relies critically on the availability of an accurate DMP, sufficient decisions of high quality, and a parameter space that contains enough information about the DMP. To hedge against the uncertainties in the hypothetical DMP, the data, and the parameter space, we investigate in this paper the distributionally robust approach for inverse multiobjective optimization. Specifically, we leverage the Wasserstein metric to construct a ball centered at the empirical distribution of these decisions. We then formulate a Wasserstein distributionally robust inverse multiobjective optimization problem (WRO-IMOP) that minimizes a worst-case expected loss function, where the worst case is taken over all distributions in the Wasserstein ball. We show that the excess risk of the WRO-IMOP estimator has a sub-linear convergence rate. Furthermore, we propose the semi-infinite reformulations of the WRO-IMOP and develop a cutting-plane algorithm that converges to an approximate solution in finite iterations. Finally, we demonstrate the effectiveness of our method on both a synthetic multiobjective quadratic program and a real world portfolio optimization problem.
翻訳日:2022-10-12 23:10:13 公開日:2020-09-30
# 多関係データセットにおける同型クラスの役割

The Role of Isomorphism Classes in Multi-Relational Datasets ( http://arxiv.org/abs/2009.14593v1 )

ライセンス: Link先を確認
Vijja Wichitwechkarn, Ben Day, Cristian Bodnar, Matthew Wales, Pietro Li\`o(参考訳) コロイドサスペンションから遺伝子制御回路まで、自然界に存在する多相互作用系。 これらのシステムは複雑な力学を生み出し、基礎となる相互作用を抽出し、システムがどのように進化するかを予測する方法としてグラフニューラルネットワークが提案されている。 しかしながら、これらのモデルの現在のトレーニングおよび評価手順は、合成マルチリレーショナルデータセットを使用しており、相互作用ネットワークの同型クラスに非依存であり、初期条件まで同じダイナミクスを生成する。 我々は、同型クラス認識がこれらのモデルにどのように影響するかを広範囲に分析し、ニューラルネットワーク推論(NRI)モデルに焦点を当てた。 具体的には,マルチリレーショナル推論の性能を過大評価し,マルチインターアクションネットワーク生成プロセスに存在するサンプリングバイアスが一般化を損なうことを実証する。 そこで本研究では,モデル評価のための同型対応合成ベンチマークを提案する。 これらのベンチマークを用いて一般化能力のテストを行い、学習を成功させるために同型クラスのしきい値サンプリング周波数の存在を実証する。 さらに, モデル性能, トレーニング中の安定性, トレーニング時間を短縮するために, 単純な事前化スキームを用いて同型クラスを活用できることを実証する。

Multi-interaction systems abound in nature, from colloidal suspensions to gene regulatory circuits. These systems can produce complex dynamics and graph neural networks have been proposed as a method to extract underlying interactions and predict how systems will evolve. The current training and evaluation procedures for these models through the use of synthetic multi-relational datasets however are agnostic to interaction network isomorphism classes, which produce identical dynamics up to initial conditions. We extensively analyse how isomorphism class awareness affects these models, focusing on neural relational inference (NRI) models, which are unique in explicitly inferring interactions to predict dynamics in the unsupervised setting. Specifically, we demonstrate that isomorphism leakage overestimates performance in multi-relational inference and that sampling biases present in the multi-interaction network generation process can impair generalisation. To remedy this, we propose isomorphism-aware synthetic benchmarks for model evaluation. We use these benchmarks to test generalisation abilities and demonstrate the existence of a threshold sampling frequency of isomorphism classes for successful learning. In addition, we demonstrate that isomorphism classes can be utilised through a simple prioritisation scheme to improve model performance, stability during training and reduce training time.
翻訳日:2022-10-12 23:09:24 公開日:2020-09-30
# 区分多項式トレンドの適応オンライン推定

Adaptive Online Estimation of Piecewise Polynomial Trends ( http://arxiv.org/abs/2010.00073v1 )

ライセンス: Link先を確認
Dheeraj Baby and Yu-Xiang Wang(参考訳) 我々は,オンライン学習者の時間変化コンパレータシーケンスに対する動的後悔を考慮し,二乗誤差損失と雑音勾配フィードバックを伴う非定常確率最適化(Besbes et al, 2015)の枠組みを検討する。 非パラメトリック回帰の理論から動機付けられた新しい変分制約を導入し、コンパレータ列を半径$C_n$の離散な$k^{th}$次トータル変分球に属するように強制する。 この変分制約モデルは、多くの関連する実用的応用を持つピースワイズ多項式構造を持つコンパレータである[Tibshirani, 2014]。 ウェーブレットに基づく非パラメトリック回帰の理論との接続を確立することにより、$\tilde{o}(n^{\frac{1}{2k+3}}c_n^{\frac{2}{2k+3}})$のほぼ最適な動的後悔を達成する多項式時間アルゴリズムを設計する。 提案方針は未知の半径$C_n$に適応する。 さらに、他のいくつかの非パラメトリックな関心族に対して、同じ方針が最小限最適であることを示す。

We consider the framework of non-stationary stochastic optimization [Besbes et al, 2015] with squared error losses and noisy gradient feedback where the dynamic regret of an online learner against a time varying comparator sequence is studied. Motivated from the theory of non-parametric regression, we introduce a new variational constraint that enforces the comparator sequence to belong to a discrete $k^{th}$ order Total Variation ball of radius $C_n$. This variational constraint models comparators that have piece-wise polynomial structure which has many relevant practical applications [Tibshirani, 2014]. By establishing connections to the theory of wavelet based non-parametric regression, we design a polynomial time algorithm that achieves the nearly optimal dynamic regret of $\tilde{O}(n^{\frac{1}{2k+3}}C_n^{\frac{2}{2k+3}})$. The proposed policy is adaptive to the unknown radius $C_n$. Further, we show that the same policy is minimax optimal for several other non-parametric families of interest.
翻訳日:2022-10-12 23:08:31 公開日:2020-09-30
# 逆向き半教師付きマルチドメイントラッキング

Adversarial Semi-Supervised Multi-Domain Tracking ( http://arxiv.org/abs/2009.14635v1 )

ライセンス: Link先を確認
Kourosh Meshgi, Maryam Sadat Mirzaei(参考訳) マルチドメイン学習のためのニューラルネットワークは、パラメータの共有と共学習によって、異なるドメインからの情報の効果的な組み合わせを促進する。 視覚的トラッキングでは、さまざまなシーケンスでトレーニングされたマルチドメイントラッカーの共有レイヤに出現する機能は、目に見えないビデオのトラッキングに不可欠である。 しかし、完全に共有されたアーキテクチャでは、新しい機能のいくつかは特定のドメインでのみ有用であり、学習した特徴表現の一般化を減らすことができる。 逆学習を用いてドメイン不変性とドメイン固有特徴を分離し,それらの相互排除を促進する半教師あり学習スキームを提案し,ラベルなし貯水池を用いた共有機能強化のために自己教師あり学習を活用する。 これらの機能を活用し、各シーケンス用の専用レイヤをトレーニングすることで、さまざまなタイプのビデオで例外的に機能するトラッカーを構築します。

Neural networks for multi-domain learning empowers an effective combination of information from different domains by sharing and co-learning the parameters. In visual tracking, the emerging features in shared layers of a multi-domain tracker, trained on various sequences, are crucial for tracking in unseen videos. Yet, in a fully shared architecture, some of the emerging features are useful only in a specific domain, reducing the generalization of the learned feature representation. We propose a semi-supervised learning scheme to separate domain-invariant and domain-specific features using adversarial learning, to encourage mutual exclusion between them, and to leverage self-supervised learning for enhancing the shared features using the unlabeled reservoir. By employing these features and training dedicated layers for each sequence, we build a tracker that performs exceptionally on different types of videos.
翻訳日:2022-10-12 23:02:25 公開日:2020-09-30
# ドメイン内知識を用いたリモートセンシングのための一般的な訓練

Training general representations for remote sensing using in-domain knowledge ( http://arxiv.org/abs/2010.00332v1 )

ライセンス: Link先を確認
Maxim Neumann, Andr\'e Susano Pinto, Xiaohua Zhai, and Neil Houlsby(参考訳) 良質で一般的なリモートセンシング表現を自動的に見つければ、幅広いアプリケーションで転送学習が可能になり、精度が向上し、必要なトレーニングサンプル数が削減される。 本稿では,汎用的なリモートセンシング表現の開発について検討し,データセットが表現学習に適した情報源となるための特徴について検討する。 この分析には,上流表現学習と下流モデルの学習と評価という5つの多様なリモートセンシングデータセットが選択され,その両方に使用される。 共通評価プロトコルは、最先端のパフォーマンスを実現するこれらのデータセットのベースラインを確立するために使用される。 結果が示すように、特に利用可能なトレーニングサンプルの数が少ない場合には、ImageNet上でのスクラッチモデルや微調整モデル(100のトレーニングサンプルでそれぞれ11%と40%)と比較して、ドメイン内の追加データを含むと、パフォーマンスが大幅に向上する。 すべてのデータセットと事前訓練された表現モデルはオンラインで公開されている。

Automatically finding good and general remote sensing representations allows to perform transfer learning on a wide range of applications - improving the accuracy and reducing the required number of training samples. This paper investigates development of generic remote sensing representations, and explores which characteristics are important for a dataset to be a good source for representation learning. For this analysis, five diverse remote sensing datasets are selected and used for both, disjoint upstream representation learning and downstream model training and evaluation. A common evaluation protocol is used to establish baselines for these datasets that achieve state-of-the-art performance. As the results indicate, especially with a low number of available training samples a significant performance enhancement can be observed when including additionally in-domain data in comparison to training models from scratch or fine-tuning only on ImageNet (up to 11% and 40%, respectively, at 100 training samples). All datasets and pretrained representation models are published online.
翻訳日:2022-10-12 23:01:54 公開日:2020-09-30
# 全文を含まないエンドツーエンドの音声言語理解

End-to-End Spoken Language Understanding Without Full Transcripts ( http://arxiv.org/abs/2009.14386v1 )

ライセンス: Link先を確認
Hong-Kwang J. Kuo, Zolt\'an T\"uske, Samuel Thomas, Yinghui Huang, Kartik Audhkhasi, Brian Kingsbury, Gakuto Kurata, Zvi Kons, Ron Hoory, and Luis Lastras(参考訳) 音声言語理解(slu)の重要な構成要素はスロット充填(slot fill)である。 本稿では,音声入力を直接意味的エンティティに変換するエンド・ツー・エンド(E2E)音声言語理解システムを開発した。 このようなモデルのトレーニングは、データ収集のコストを大幅に削減できるため、非常に有用です。 音声認識のために訓練されたモデルを適応させることにより,ctcモデルと注意に基づくエンコーダ・デコーダモデルという2種類の音声対関係モデルを作成した。 実験では音声入力が関係していることを考えると,エンティティラベルとエンティティ値を表す単語の両方を正しく認識する必要がある。 ATISコーパスでのスピーチ・トゥ・エンティリティ実験では、CTCとアテンションモデルの両方が、非エンティリティ語をスキップする印象的な能力を示した。 また,発話中の発話順序に必ずしも関係しない順序のエンティティが存在するシナリオについても検討した。 再注文が可能であったため, 注意モデルは非常に良好であり, F1得点は2%程度しか低下しなかった。

An essential component of spoken language understanding (SLU) is slot filling: representing the meaning of a spoken utterance using semantic entity labels. In this paper, we develop end-to-end (E2E) spoken language understanding systems that directly convert speech input to semantic entities and investigate if these E2E SLU models can be trained solely on semantic entity annotations without word-for-word transcripts. Training such models is very useful as they can drastically reduce the cost of data collection. We created two types of such speech-to-entities models, a CTC model and an attention-based encoder-decoder model, by adapting models trained originally for speech recognition. Given that our experiments involve speech input, these systems need to recognize both the entity label and words representing the entity value correctly. For our speech-to-entities experiments on the ATIS corpus, both the CTC and attention models showed impressive ability to skip non-entity words: there was little degradation when trained on just entities versus full transcripts. We also explored the scenario where the entities are in an order not necessarily related to spoken order in the utterance. With its ability to do re-ordering, the attention model did remarkably well, achieving only about 2% degradation in speech-to-bag-of-entities F1 score.
翻訳日:2022-10-12 23:01:36 公開日:2020-09-30
# 単目的最適化景観に対する線形行列分解埋め込み

Linear Matrix Factorization Embeddings for Single-objective Optimization Landscapes ( http://arxiv.org/abs/2009.14506v1 )

ライセンス: Link先を確認
Tome Eftimov, Gorjan Popovski, Quentin Renau, Peter Korosec, Carola Doerr(参考訳) インスタンスごとのアルゴリズム選択と構成の自動化は、満足度、AI計画、TSPなど、数多くの古典的な最適化問題に対して有望なパフォーマンスを示している。 これらのテクニックは、しばしば問題インスタンスのいくつかの特性を測定する一連の機能に依存しています。 ブラックボックス最適化の文脈では、これらの特徴は$(x,f(x))$サンプルの集合から導き出さなければならない。 文学では、例えばモダリティ、分離性、または手元にあるインスタンスの頑丈さなど、いくつかの異なる特徴が提案されている。 しかし、一般的に使われるいくつかの特徴は高い相関関係にある。 最先端の機械学習技術は、その相関を日常的にフィルタリングすることができるが、アルゴリズム設計手法の説明可能性を妨げる。 そこで本研究では,実測した景観特徴を表現学習により前処理する手法を提案する。 より正確には、行列因子分解による線形次元の削減は、異なる問題インスタンス間の相関をより良く検出するのに役立つことが示され、これはアルゴリズム設計の成功に重要な前提条件である。

Automated per-instance algorithm selection and configuration have shown promising performances for a number of classic optimization problems, including satisfiability, AI planning, and TSP. The techniques often rely on a set of features that measure some characteristics of the problem instance at hand. In the context of black-box optimization, these features have to be derived from a set of $(x,f(x))$ samples. A number of different features have been proposed in the literature, measuring, for example, the modality, the separability, or the ruggedness of the instance at hand. Several of the commonly used features, however, are highly correlated. While state-of-the-art machine learning techniques can routinely filter such correlations, they hinder explainability of the derived algorithm design techniques. We therefore propose in this work to pre-process the measured (raw) landscape features through representation learning. More precisely, we show that a linear dimensionality reduction via matrix factorization significantly contributes towards a better detection of correlation between different problem instances -- a key prerequisite for successful automated algorithm design.
翻訳日:2022-10-12 23:01:11 公開日:2020-09-30
# 分解型進化アルゴリズムにおけるマルチモーダル多目的最適化処理フレームワーク

A Framework to Handle Multi-modal Multi-objective Optimization in Decomposition-based Evolutionary Algorithms ( http://arxiv.org/abs/2009.14700v1 )

ライセンス: Link先を確認
Ryoji Tanabe and Hisao Ishibuchi(参考訳) マルチモーダル多目的最適化は、可能な限り(ほぼ)同等のパレート最適解を見つけることである。 分解に基づく進化的アルゴリズムは、多目的最適化に優れた性能を持つが、解空間の多様性を維持するメカニズムが欠如しているため、多目的最適化には不十分である可能性が高い。 本稿では,マルチモーダル多目的最適化のための分解型進化アルゴリズムの性能向上のためのフレームワークを提案する。 私たちのフレームワークは、割り当て、削除、追加操作の3つの操作に基づいています。 1つ以上の個人は、複数の等価解を扱うために同じサブプロブレムに割り当てられる。 それぞれのイテレーションにおいて、子供は目的ベクトル、すなわち目的空間における位置に基づいてサブプロブレムに割り当てられる。 子供は、同じサブプロブレムに割り当てられたソリューション空間の隣人と比較される。 本フレームワークによる6つの分解型進化的アルゴリズムの改良版の性能を,目的数,決定変数,等価pareto最適解集合に関する様々なテスト問題について評価した。 その結果、改良版は元のアルゴリズムよりも明らかに優れた性能を示した。

Multi-modal multi-objective optimization is to locate (almost) equivalent Pareto optimal solutions as many as possible. While decomposition-based evolutionary algorithms have good performance for multi-objective optimization, they are likely to perform poorly for multi-modal multi-objective optimization due to the lack of mechanisms to maintain the solution space diversity. To address this issue, this paper proposes a framework to improve the performance of decomposition-based evolutionary algorithms for multi-modal multi-objective optimization. Our framework is based on three operations: assignment, deletion, and addition operations. One or more individuals can be assigned to the same subproblem to handle multiple equivalent solutions. In each iteration, a child is assigned to a subproblem based on its objective vector, i.e., its location in the objective space. The child is compared with its neighbors in the solution space assigned to the same subproblem. The performance of improved versions of six decomposition-based evolutionary algorithms by our framework is evaluated on various test problems regarding the number of objectives, decision variables, and equivalent Pareto optimal solution sets. Results show that the improved versions perform clearly better than their original algorithms.
翻訳日:2022-10-12 23:00:54 公開日:2020-09-30
# 非エリート進化型多目的オプティマイザの再検討

Non-elitist Evolutionary Multi-objective Optimizers Revisited ( http://arxiv.org/abs/2009.14717v1 )

ライセンス: Link先を確認
Ryoji Tanabe and Hisao Ishibuchi(参考訳) 2000年ごろから、エリート的進化的多目的最適化アルゴリズム(EMOAs)は、常に非エリートなEMOAよりも優れていると考えられてきた。 本稿では,2目的連続最適化のための非楕円型EMOAの性能を再考する。 本稿では,2つのエリート主義者と1つの環境選択によるEMOAの性能について検討する。 COCOプラットフォームが提供する双方向BBOB問題スイート上で, EMOAの性能を評価する。 従来の知見とは対照的に,非エリートエモアと特定のクロスオーバー手法は,非境界外部アーカイブを用いた場合,決定変数の多い二目的bbob問題に対して有意な効果を示した。 本稿では,非エリート選択の特性についても検討する。

Since around 2000, it has been considered that elitist evolutionary multi-objective optimization algorithms (EMOAs) always outperform non-elitist EMOAs. This paper revisits the performance of non-elitist EMOAs for bi-objective continuous optimization when using an unbounded external archive. This paper examines the performance of EMOAs with two elitist and one non-elitist environmental selections. The performance of EMOAs is evaluated on the bi-objective BBOB problem suite provided by the COCO platform. In contrast to conventional wisdom, results show that non-elitist EMOAs with particular crossover methods perform significantly well on the bi-objective BBOB problems with many decision variables when using the unbounded external archive. This paper also analyzes the properties of the non-elitist selection.
翻訳日:2022-10-12 23:00:28 公開日:2020-09-30
# 空間重み付き情報融合と深層強化学習に基づく制御による自律運転の促進

Facilitating Connected Autonomous Vehicle Operations Using Space-weighted Information Fusion and Deep Reinforcement Learning Based Control ( http://arxiv.org/abs/2009.14665v1 )

ライセンス: Link先を確認
Jiqian Dong, Sikai Chen, Yujie Li, Runjia Du, Aaron Steinfeld, Samuel Labi(参考訳) 接続型自動運転車(CAV)の接続性は、V2X通信による車両への交通関連情報の拡散を容易にするために有用である。 LiDARやカメラなどのオンボードセンシング装置は、CAVの即時位置において、交通環境を合理的に特徴付けることができる。 しかし、その性能はセンサー範囲(SR)によって制限される。 一方, 下流の近況を特徴付けるには, 長距離情報の利用が有用である。 短距離及び長距離情報を同時に結合することにより、CAVは周囲環境を包括的に構築し、短期(車線変更を含む局所的な決定)と長期(ルート選択)において、情報、安全、効果的な移動計画を容易にする。 本稿では,キャビブ近傍の他車両や下流の車両からセンサと接続機能を通じて収集したデータを統合する,深層強化学習に基づくアプローチについて述べる。 さらに,実際の運転環境において,アルゴリズムだけでなく車両の性能にも接続範囲(CR)が重要であることを認識し,ケーススタディを行った。 ケーススタディでは,提案アルゴリズムの適用を実証し,交通密度のレベル毎に適切なCRを正しく同定する。 CAVにおけるアルゴリズムの実装は、CAV運転操作に伴う安全性と移動性を高めることが期待されている。 一般的な観点からは、CAVのデフォルトのCR設定や所定の交通環境における推奨CR設定について、接続機器メーカーやCAVオペレーターにガイダンスを提供することができる。

The connectivity aspect of connected autonomous vehicles (CAV) is beneficial because it facilitates dissemination of traffic-related information to vehicles through Vehicle-to-External (V2X) communication. Onboard sensing equipment including LiDAR and camera can reasonably characterize the traffic environment in the immediate locality of the CAV. However, their performance is limited by their sensor range (SR). On the other hand, longer-range information is helpful for characterizing imminent conditions downstream. By contemporaneously coalescing the short- and long-range information, the CAV can construct comprehensively its surrounding environment and thereby facilitate informed, safe, and effective movement planning in the short-term (local decisions including lane change) and long-term (route choice). In this paper, we describe a Deep Reinforcement Learning based approach that integrates the data collected through sensing and connectivity capabilities from other vehicles located in the proximity of the CAV and from those located further downstream, and we use the fused data to guide lane changing, a specific context of CAV operations. In addition, recognizing the importance of the connectivity range (CR) to the performance of not only the algorithm but also of the vehicle in the actual driving environment, the paper carried out a case study. The case study demonstrates the application of the proposed algorithm and duly identifies the appropriate CR for each level of prevailing traffic density. It is expected that implementation of the algorithm in CAVs can enhance the safety and mobility associated with CAV driving operations. From a general perspective, its implementation can provide guidance to connectivity equipment manufacturers and CAV operators, regarding the default CR settings for CAVs or the recommended CR setting in a given traffic environment.
翻訳日:2022-10-12 23:00:16 公開日:2020-09-30
# aamdrl:深層強化学習によるアセットマネジメントの拡張

AAMDRL: Augmented Asset Management with Deep Reinforcement Learning ( http://arxiv.org/abs/2010.08497v1 )

ライセンス: Link先を確認
Eric Benhamou and David Saltiel and Sandrine Ungari and Abhishek Mukhopadhyay and Jamal Atif(参考訳) エージェントは、連続的、非定常的、非均質な観察を伴うノイズの多い自己適応環境で効率的に学習できるか? ボットの取引を通じて、Deep Reinforcement Learning(DRL)がこの課題にどのように対処できるかを説明する。 私たちの貢献は3倍です (i)drlにおける拡張状態とも呼ばれる文脈情報の使用 二 資産管理環境においてより現実的な観察と行動の間の一期間の遅れの影響 (iii)時系列のクロス検証に類似した、ウォークフォワード分析(walk forward analysis)と呼ばれる新しい繰り返し列車試験法の実装。 実験はトレーディングボットを対象とするが,レジーム変化やノイズのあるデータを含むシーケンシャルな環境で動作する他のボット環境への変換が容易である。 AAMDRLが優れたリターンを達成し、リスクを低く抑えるため、集積戦略の最良のポートフォリオを見つけることに関心のある資産運用者に対する実験を行った。

Can an agent learn efficiently in a noisy and self adapting environment with sequential, non-stationary and non-homogeneous observations? Through trading bots, we illustrate how Deep Reinforcement Learning (DRL) can tackle this challenge. Our contributions are threefold: (i) the use of contextual information also referred to as augmented state in DRL, (ii) the impact of a one period lag between observations and actions that is more realistic for an asset management environment, (iii) the implementation of a new repetitive train test method called walk forward analysis, similar in spirit to cross validation for time series. Although our experiment is on trading bots, it can easily be translated to other bot environments that operate in sequential environment with regime changes and noisy data. Our experiment for an augmented asset manager interested in finding the best portfolio for hedging strategies shows that AAMDRL achieves superior returns and lower risk.
翻訳日:2022-10-12 22:59:28 公開日:2020-09-30
# resgcn: 帰属ネットワーク上の異常検出のための注意に基づく深い残差モデル

ResGCN: Attention-based Deep Residual Modeling for Anomaly Detection on Attributed Networks ( http://arxiv.org/abs/2009.14738v1 )

ライセンス: Link先を確認
Yulong Pei, Tianjin Huang, Werner van Ipenburg, Mykola Pechenizkiy(参考訳) 属性付きネットワークにおける異常ノードを効果的に検出することは、不正や侵入検知といった現実世界の多くのアプリケーションの成功に不可欠である。 既存のアプローチは、スパーシティと非線形性キャプチャ、残留モデリング、ネットワークスムージングという3つの主要な問題で困難である。 我々は,これらの問題に対処可能な,残差グラフ畳み込みネットワーク (resgcn) を提案する。 帰結したネットワークをgcnでモデル化することで,スパーシティと非線形性を捉えること,ディープニューラルネットワークを利用することで入力から残差を直接学習すること,残差に基づく注意機構により異常ノードからの悪影響を低減し,過度な動作を防止すること,などである。 resgcnが異常検出に有効であることを示す実験がいくつか行われた。

Effectively detecting anomalous nodes in attributed networks is crucial for the success of many real-world applications such as fraud and intrusion detection. Existing approaches have difficulties with three major issues: sparsity and nonlinearity capturing, residual modeling, and network smoothing. We propose Residual Graph Convolutional Network (ResGCN), an attention-based deep residual modeling approach that can tackle these issues: modeling the attributed networks with GCN allows to capture the sparsity and nonlinearity; utilizing a deep neural network allows to directly learn residual from the input, and a residual-based attention mechanism reduces the adverse effect from anomalous nodes and prevents over-smoothing. Extensive experiments on several real-world attributed networks demonstrate the effectiveness of ResGCN in detecting anomalies.
翻訳日:2022-10-12 22:53:57 公開日:2020-09-30
# 確率的活性化pruningに対する難読勾配攻撃に関するerratum

Erratum Concerning the Obfuscated Gradients Attack on Stochastic Activation Pruning ( http://arxiv.org/abs/2010.00071v1 )

ライセンス: Link先を確認
Guneet S. Dhillon, Nicholas Carlini(参考訳) Stochastic Activation Pruning (SAP) (Dhillon et al., 2018) は、「Obfuscated Gradients」紙(Athalye et al., 2018)によって攻撃され破壊された敵の事例に対する防衛である。 人工的にSAPを弱める再実装の欠陥を発見する。 SAPを適切に適用した場合、提案した攻撃は効果がない。 しかし,新たなBPDA攻撃手法を用いることで,SAPの精度を0.1%に低下させることができる。

Stochastic Activation Pruning (SAP) (Dhillon et al., 2018) is a defense to adversarial examples that was attacked and found to be broken by the "Obfuscated Gradients" paper (Athalye et al., 2018). We discover a flaw in the re-implementation that artificially weakens SAP. When SAP is applied properly, the proposed attack is not effective. However, we show that a new use of the BPDA attack technique can still reduce the accuracy of SAP to 0.1%.
翻訳日:2022-10-12 22:52:20 公開日:2020-09-30
# KNN密度推定の解析

Analysis of KNN Density Estimation ( http://arxiv.org/abs/2010.00438v1 )

ライセンス: Link先を確認
Puning Zhao, Lifeng Lai(参考訳) k近傍密度推定法の$\ell_1$および$\ell_\infty$収束率を分析する。 我々の分析は、サポートセットが有界かどうかによって2つの異なるケースを含む。 第一のケースでは、確率密度関数は有界な支持を持ち、ゼロから離れて有界である。 kNN密度推定は、サポートセットが知られている場合、$\ell_1$と$\ell_\infty$の条件の両方で最小値最適であることを示す。 サポートセットが未知であれば、$\ell_1$エラーの収束率は影響を受けないが、$\ell_\infty$エラーは収束しない。 第二の場合、確率密度関数はゼロに近づき、至るところで滑らかである。 さらに、ヘシアンは密度値とともに崩壊すると仮定される。 この場合、kNN密度推定の$\ell_\infty$誤差はほぼ極小であることを示す。 $\ell_1$エラーは最小限の上限に達しないが、カーネル密度推定よりも優れている。

We analyze the $\ell_1$ and $\ell_\infty$ convergence rates of k nearest neighbor density estimation method. Our analysis includes two different cases depending on whether the support set is bounded or not. In the first case, the probability density function has a bounded support and is bounded away from zero. We show that kNN density estimation is minimax optimal under both $\ell_1$ and $\ell_\infty$ criteria, if the support set is known. If the support set is unknown, then the convergence rate of $\ell_1$ error is not affected, while $\ell_\infty$ error does not converge. In the second case, the probability density function can approach zero and is smooth everywhere. Moreover, the Hessian is assumed to decay with the density values. For this case, our result shows that the $\ell_\infty$ error of kNN density estimation is nearly minimax optimal. The $\ell_1$ error does not reach the minimax lower bound, but is better than kernel density estimation.
翻訳日:2022-10-12 22:52:07 公開日:2020-09-30
# AttendNets:ビジュアル・アテンション・コンデンサによるエッジ用Tiny Deep Image Recognition Neural Networks

AttendNets: Tiny Deep Image Recognition Neural Networks for the Edge via Visual Attention Condensers ( http://arxiv.org/abs/2009.14385v1 )

ライセンス: Link先を確認
Alexander Wong, Mahmoud Famouri, and Mohammad Javad Shafiee(参考訳) ディープラーニングの大幅な進歩は、多数の複雑な視覚的タスクにまたがって最先端のパフォーマンスをもたらす一方で、デバイス上の低消費電力の画像認識を含むTinyMLアプリケーションのためのディープニューラルネットワークの広範な展開は、ディープニューラルネットワークの複雑さを考えれば大きな課題である。 本研究では,デバイス上での画像認識に適した,低精度・高コンパクトなディープニューラルネットワークについて紹介する。 より具体的には、AttendNetsは視覚的アテンション・コンデンサに基づく深い自己注意アーキテクチャを持ち、空間チャネル選択的アテンションを改善するために最近導入されたスタンドアローンアテンション・コンデンサを拡張している。 さらに、AttendNetsは独自のマシン設計のマクロアーキテクチャとマイクロアーキテクチャをマシン駆動設計探索戦略によって実現している。 Experimental results on ImageNet$_{50}$ benchmark dataset for the task of on-device image recognition showed that AttendNets have significantly lower architectural and computational complexity when compared to several deep neural networks in research literature designed for efficiency while achieving highest accuracies (with the smallest AttendNet achieving $\sim$7.2% higher accuracy, while requiring $\sim$3$\times$ fewer multiply-add operations, $\sim$4.17$\times$ fewer parameters, and $\sim$16.7$\times$ lower weight memory requirements than MobileNet-V1). これらの有望な結果に基づき、参加者ネットはtinymlアプリケーションのための様々なオンデバイス視覚知覚タスクを可能にするビルディングブロックとしての視覚注意凝縮器の有効性を示す。

While significant advances in deep learning has resulted in state-of-the-art performance across a large number of complex visual perception tasks, the widespread deployment of deep neural networks for TinyML applications involving on-device, low-power image recognition remains a big challenge given the complexity of deep neural networks. In this study, we introduce AttendNets, low-precision, highly compact deep neural networks tailored for on-device image recognition. More specifically, AttendNets possess deep self-attention architectures based on visual attention condensers, which extends on the recently introduced stand-alone attention condensers to improve spatial-channel selective attention. Furthermore, AttendNets have unique machine-designed macroarchitecture and microarchitecture designs achieved via a machine-driven design exploration strategy. Experimental results on ImageNet$_{50}$ benchmark dataset for the task of on-device image recognition showed that AttendNets have significantly lower architectural and computational complexity when compared to several deep neural networks in research literature designed for efficiency while achieving highest accuracies (with the smallest AttendNet achieving $\sim$7.2% higher accuracy, while requiring $\sim$3$\times$ fewer multiply-add operations, $\sim$4.17$\times$ fewer parameters, and $\sim$16.7$\times$ lower weight memory requirements than MobileNet-V1). Based on these promising results, AttendNets illustrate the effectiveness of visual attention condensers as building blocks for enabling various on-device visual perception tasks for TinyML applications.
翻訳日:2022-10-12 22:51:25 公開日:2020-09-30
# ベクトル量子変分オートエンコーダにおける色空間のデコレーションの有用性

The Utility of Decorrelating Colour Spaces in Vector Quantised Variational Autoencoders ( http://arxiv.org/abs/2009.14487v1 )

ライセンス: Link先を確認
Arash Akbarinia, Raquel Gil-Rodr\'iguez, Alban Flachot and Matteo Toscani(参考訳) ベクトル量子化変分オートエンコーダ(VQ-VAE)は3つの主成分によって特徴づけられる。 1) 視覚データの符号化 2)いわゆる埋め込み空間において、k$ 異なるベクトルを割り当てること、および 3) 学習特徴の復号化。 画像はしばしばRGB色空間で表現されるが、他の空間における特定の色の組織は、例えばCIE L*a*b*のように、色度を反対の軸に相関させる興味深い特徴も提供する。 本稿では,ネットワーク学習の構造化表現を強制するために,単純な準教師なしタスクである色空間変換を提案する。 この目的のために、入力が1色空間のイメージであるVQ-VAEのいくつかの例を訓練し、RGBからCIE L*a*b*(合計5色空間)への出力について検討した。 VQ-VAEモデルの色表現をアンタングルするために,トレーニングネットワークの有限埋め込み空間について検討した。 解析の結果,特定のベクトルが色や輝度情報を符号化していることが示唆された。 さらに,画像分類やシーンセグメンテーションネットワークに組み込むことにより,画素単位のカラーメトリクスを用いて低レベルの再構成画像の品質を高く評価した。 我々は、ImageNet、COCO、CelebAの3つのベンチマークデータセットで実験を行った。 その結果、ベースラインネットワーク(入力と出力はrgb)に関して、デコリティー空間への色変換は1-2 デルタ-e 以下の色差と5-10%高い分類精度が得られることがわかった。 また,学習埋め込み空間は色相反モデルにおいて容易に解釈できることも観察した。

Vector quantised variational autoencoders (VQ-VAE) are characterised by three main components: 1) encoding visual data, 2) assigning $k$ different vectors in the so-called embedding space, and 3) decoding the learnt features. While images are often represented in RGB colour space, the specific organisation of colours in other spaces also offer interesting features, e.g. CIE L*a*b* decorrelates chromaticity into opponent axes. In this article, we propose colour space conversion, a simple quasi-unsupervised task, to enforce a network learning structured representations. To this end, we trained several instances of VQ-VAE whose input is an image in one colour space, and its output in another, e.g. from RGB to CIE L*a*b* (in total five colour spaces were considered). We examined the finite embedding space of trained networks in order to disentangle the colour representation in VQ-VAE models. Our analysis suggests that certain vectors encode hue and others luminance information. We further evaluated the quality of reconstructed images at low-level using pixel-wise colour metrics, and at high-level by inputting them to image classification and scene segmentation networks. We conducted experiments in three benchmark datasets: ImageNet, COCO and CelebA. Our results show, with respect to the baseline network (whose input and output are RGB), colour conversion to decorrelated spaces obtains 1-2 Delta-E lower colour difference and 5-10% higher classification accuracy. We also observed that the learnt embedding space is easier to interpret in colour opponent models.
翻訳日:2022-10-12 22:50:55 公開日:2020-09-30
# 自己監督型3次元物体検出のための単眼微分可能レンダリング

Monocular Differentiable Rendering for Self-Supervised 3D Object Detection ( http://arxiv.org/abs/2009.14524v1 )

ライセンス: Link先を確認
Deniz Beker, Hiroharu Kato, Mihai Adrian Morariu, Takahiro Ando, Toru Matsuoka, Wadim Kehl, Adrien Gaidon(参考訳) 単眼画像からの3次元物体検出は、深さとスケールの投影的絡み合いによる不適切な問題である。 この曖昧さを克服するため, 立体形状復元のための新しい自己教師手法を提案し, 強靭な形状先行と2次元インスタンスマスクの助けを借りて剛体物体を推定する。 画像内の各物体の3次元位置とメッシュを微分可能レンダリングと事前学習した単眼深度推定ネットワークから導出した自己教師付き目標を用いて予測する。 提案手法の精度を評価するために,KITTI 3Dオブジェクト検出データセットを用いた。 実験により,高価な3DグラウンドトラスラベルやLiDAR情報の代替として,ノイズのある単分子深度と微分可能なレンダリングを効果的に利用できることが示された。

3D object detection from monocular images is an ill-posed problem due to the projective entanglement of depth and scale. To overcome this ambiguity, we present a novel self-supervised method for textured 3D shape reconstruction and pose estimation of rigid objects with the help of strong shape priors and 2D instance masks. Our method predicts the 3D location and meshes of each object in an image using differentiable rendering and a self-supervised objective derived from a pretrained monocular depth estimation network. We use the KITTI 3D object detection dataset to evaluate the accuracy of the method. Experiments demonstrate that we can effectively use noisy monocular depth and differentiable rendering as an alternative to expensive 3D ground-truth labels or LiDAR information.
翻訳日:2022-10-12 22:50:27 公開日:2020-09-30
# 環境変化におけるオンライン凸最適化と資源配分への応用

Online Convex Optimization in Changing Environments and its Application to Resource Allocation ( http://arxiv.org/abs/2009.14436v1 )

ライセンス: Link先を確認
Jianjun Yuan(参考訳) ビッグデータの時代、私たちはインターネット、センサー、消費者市場など、あらゆる種類のソースから大量のデータを作成し、収集します。 多くのデータが順次やってくるので、迅速に処理して理解したいと考えています。 データ分析の古典的な方法の1つは、データをオフラインで保存して分析するバッチ処理に基づいている。 しかし、データのボリュームが大きすぎると、シーケンシャルな処理よりもバッチ処理が難しく、時間がかかります。 さらに、シーケンシャルなデータは一般的に動的に変化しており、変更をキャプチャするためにオンザフライで理解する必要があります。 Online Convex Optimization (OCO)は、上記のシーケンシャルなデータ処理要件に適合する人気のあるフレームワークである。 OCOを使用するアプリケーションは、オンラインルーティング、オンラインオークション、オンライン分類と回帰、およびオンラインリソース割り当てを含む。 シーケンシャルデータに対するOCOの適用性と厳密な理論的保証により、多くの研究者が異なるニーズを満たすための有用なアルゴリズムを開発してきた。 本稿では,OCOの環境に適応するアルゴリズムを設計することで,OCO開発への貢献を示す。

In the era of the big data, we create and collect lots of data from all different kinds of sources: the Internet, the sensors, the consumer market, and so on. Many of the data are coming sequentially, and would like to be processed and understood quickly. One classic way of analyzing data is based on batch processing, in which the data is stored and analyzed in an offline fashion. However, when the volume of the data is too large, it is much more difficult and time-consuming to do batch processing than sequential processing. What's more, sequential data is usually changing dynamically, and needs to be understood on-the-fly in order to capture the changes. Online Convex Optimization (OCO) is a popular framework that matches the above sequential data processing requirement. Applications using OCO include online routing, online auctions, online classification and regression, as well as online resource allocation. Due to the general applicability of OCO to the sequential data and the rigorous theoretical guarantee, it has attracted lots of researchers to develop useful algorithms to fulfill different needs. In this thesis, we show our contributions to OCO's development by designing algorithms to adapt to changing environments.
翻訳日:2022-10-12 22:44:12 公開日:2020-09-30
# 分布シフトによる高精度かつロバストな特徴重要度推定

Accurate and Robust Feature Importance Estimation under Distribution Shifts ( http://arxiv.org/abs/2009.14454v1 )

ライセンス: Link先を確認
Jayaraman J. Thiagarajan, Vivek Narayanaswamy, Rushil Anirudh, Peer-Timo Bremer and Andreas Spanias(参考訳) クリティカルなアプリケーションにおけるブラックボックスモデルの結果への依存が高まるにつれて、モデル内部へのアクセスを必要としないポストホックな説明可能性ツールは、人間がこれらのモデルを理解し信頼できるようにするためにしばしば使用される。 特に,入力特徴が予測出力に与える影響を明らかにする手法のクラスに着目した。 広く普及しているにもかかわらず、既存の手法は、計算の複雑さ、大きな不確実性、そして最も重要なことは、現実世界のドメインシフトを扱えないことである。 本稿では,これらの課題に対処する特徴重要度推定手法であるPRoFILEを提案する。 予測モデルと因果目的とを共同で訓練した損失推定器を用いることで、プロファイルは、複雑な分布シフト下でも、追加の再訓練なしに、特徴重要度を正確に推定することができる。 この目的のために,損失推定器(コントラストとドロップアウトのキャリブレーション)を訓練するための学習戦略を開発し,分布シフトを効果的に検出できることを示す。 いくつかのベンチマーク画像と非画像データを用いた実証研究により,忠実性とロバスト性の両方の観点から,最先端のアプローチに対する大幅な改善が示された。

With increasing reliance on the outcomes of black-box models in critical applications, post-hoc explainability tools that do not require access to the model internals are often used to enable humans understand and trust these models. In particular, we focus on the class of methods that can reveal the influence of input features on the predicted outputs. Despite their wide-spread adoption, existing methods are known to suffer from one or more of the following challenges: computational complexities, large uncertainties and most importantly, inability to handle real-world domain shifts. In this paper, we propose PRoFILE, a novel feature importance estimation method that addresses all these challenges. Through the use of a loss estimator jointly trained with the predictive model and a causal objective, PRoFILE can accurately estimate the feature importance scores even under complex distribution shifts, without any additional re-training. To this end, we also develop learning strategies for training the loss estimator, namely contrastive and dropout calibration, and find that it can effectively detect distribution shifts. Using empirical studies on several benchmark image and non-image data, we show significant improvements over state-of-the-art approaches, both in terms of fidelity and robustness.
翻訳日:2022-10-12 22:43:30 公開日:2020-09-30
# 機械学習を用いた自閉症スペクトラム障害の検出

Detecting Autism Spectrum Disorder using Machine Learning ( http://arxiv.org/abs/2009.14499v1 )

ライセンス: Link先を確認
Md Delowar Hossain, Muhammad Ashad Kabir, Adnan Anwar, Md Zahidul Islam(参考訳) 自閉症スペクトラム障害(asd、英: autism spectrum disorder)は、神経発達障害であり、過敏症や、音や嗅覚や触覚に対する過敏症などの感覚障害を伴うことが多い。 その主な原因は遺伝学であるが、早期発見と治療は疾患の改善に役立つ。 近年,時間と費用のかかる従来の臨床手法を補完するために,機械学習に基づく知的診断が進化している。 本研究の目的は,最も重要な特徴を解明し,診断目的を改善するために利用可能な分類手法を用いて診断プロセスを自動化することである。 Toddler, Child, Adolescent, adult の ASD データセットの解析を行った。 評価指標のリコール,精度,f-測定値,分類誤差を用いて,これらのバイナリデータセットの最適性能分類器を決定する。 この結果から, 逐次最小最適化(SMO)に基づくサポートベクトルマシン(SVM)分類器は, ASD ケース検出時の精度で他のベンチマーク機械学習アルゴリズムよりも優れ, 他のアルゴリズムと比較して分類誤差が少ないことがわかった。 また、Relief AttributesアルゴリズムはASDデータセットの最も重要な属性を特定するのに最適であることがわかった。

Autism Spectrum Disorder (ASD), which is a neuro development disorder, is often accompanied by sensory issues such an over sensitivity or under sensitivity to sounds and smells or touch. Although its main cause is genetics in nature, early detection and treatment can help to improve the conditions. In recent years, machine learning based intelligent diagnosis has been evolved to complement the traditional clinical methods which can be time consuming and expensive. The focus of this paper is to find out the most significant traits and automate the diagnosis process using available classification techniques for improved diagnosis purpose. We have analyzed ASD datasets of Toddler, Child, Adolescent and Adult. We determine the best performing classifier for these binary datasets using the evaluation metrics recall, precision, F-measures and classification errors. Our finding shows that Sequential minimal optimization (SMO) based Support Vector Machines (SVM) classifier outperforms all other benchmark machine learning algorithms in terms of accuracy during the detection of ASD cases and produces less classification errors compared to other algorithms. Also, we find that Relief Attributes algorithm is the best to identify the most significant attributes in ASD datasets.
翻訳日:2022-10-12 22:43:09 公開日:2020-09-30
# 確率的精度アンサンブル:量子化深部ニューラルネットワークのための自己知識蒸留

Stochastic Precision Ensemble: Self-Knowledge Distillation for Quantized Deep Neural Networks ( http://arxiv.org/abs/2009.14502v1 )

ライセンス: Link先を確認
Yoonho Boo, Sungho Shin, Jungwook Choi, and Wonyong Sung(参考訳) 深層ニューラルネットワーク(QDNN)の量子化はエッジデバイスへの展開のために活発に研究されている。 近年,量子化ネットワークの性能向上のために知識蒸留法 (kd) が採用されている。 本研究では,QDNN(SPEQ)のための確率的精度アンサンブルトレーニングを提案する。 speqは知識蒸留訓練であるが、教師は生徒ネットワークのモデルパラメータを共有することによって形成される。 フォワードパス計算の各層におけるアクティベーションのビット精度を確率的に変化させることにより,教師のソフトラベルを得る。 学生モデルは、アクティベーション量子化ノイズを低減するために、これらのソフトラベルで訓練される。 kdトレーニングでは、kl-divergenceの代わりにコサイン類似性損失が用いられる。 教師モデルはランダムなビット精度の割り当てによって連続的に変化するため、確率的アンサンブルKDの効果を利用する。 SPEQは、画像分類、質問応答、伝達学習などの様々なタスクにおいて、面倒な教師ネットワークを必要とせず、既存の量子化訓練方法より優れている。

The quantization of deep neural networks (QDNNs) has been actively studied for deployment in edge devices. Recent studies employ the knowledge distillation (KD) method to improve the performance of quantized networks. In this study, we propose stochastic precision ensemble training for QDNNs (SPEQ). SPEQ is a knowledge distillation training scheme; however, the teacher is formed by sharing the model parameters of the student network. We obtain the soft labels of the teacher by changing the bit precision of the activation stochastically at each layer of the forward-pass computation. The student model is trained with these soft labels to reduce the activation quantization noise. The cosine similarity loss is employed, instead of the KL-divergence, for KD training. As the teacher model changes continuously by random bit-precision assignment, it exploits the effect of stochastic ensemble KD. SPEQ outperforms the existing quantization training methods in various tasks, such as image classification, question-answering, and transfer learning without the need for cumbersome teacher networks.
翻訳日:2022-10-12 22:42:47 公開日:2020-09-30
# 一つの反射効果

One Reflection Suffice ( http://arxiv.org/abs/2009.14554v1 )

ライセンス: Link先を確認
Alexander Mathiasen and Frederik Hvilsh{\o}j(参考訳) 直交重量行列は深層学習の多くの分野で用いられている。 以前の多くの作業では、重み行列を直交に制約する必要がある計算資源を緩和しようと試みていた。 一般的なアプローチのひとつが,“many* householder reflections”だ。 唯一の現実的な欠点は、多くのリフレクションがGPU使用率を低下させることである。 この最終的な欠点は、もし反射が補助ニューラルネットワークによって計算された場合、 *one* 反射が十分であることを示すことによって緩和される。

Orthogonal weight matrices are used in many areas of deep learning. Much previous work attempt to alleviate the additional computational resources it requires to constrain weight matrices to be orthogonal. One popular approach utilizes *many* Householder reflections. The only practical drawback is that many reflections cause low GPU utilization. We mitigate this final drawback by proving that *one* reflection is sufficient, if the reflection is computed by an auxiliary neural network.
翻訳日:2022-10-12 22:42:30 公開日:2020-09-30
# EWS-GCN:トランザクションバンキングデータのためのエッジ重み付きグラフ畳み込みネットワーク

EWS-GCN: Edge Weight-Shared Graph Convolutional Network for Transactional Banking Data ( http://arxiv.org/abs/2009.14588v1 )

ライセンス: Link先を確認
Ivan Sukharev, Valentina Shumovskaia, Kirill Fedyanin, Maxim Panov and Dmitry Berestnev(参考訳) 本稿では,銀行クライアントのクレジットスコアリングに,最新のディープラーニングアプローチを適用する方法について論じる。 本研究は,顧客間の金銭移動に基づく関係情報により,ターゲットクライアントの情報のみを用いたアプローチと比較して,クレジットスコアの質を著しく向上させることができることを示す。 最後に,グラフ畳み込みと再帰的ニューラルネットワークのアイデアをアテンション機構を通じて組み合わせた新しいグラフニューラルネットワークモデル EWS-GCN を提案する。 結果として得られるモデルは、大規模データの堅牢なトレーニングと効率的な処理を可能にする。 また、我々のモデルは最先端のグラフニューラルネットワークよりも優れた結果が得られることを示す。

In this paper, we discuss how modern deep learning approaches can be applied to the credit scoring of bank clients. We show that information about connections between clients based on money transfers between them allows us to significantly improve the quality of credit scoring compared to the approaches using information about the target client solely. As a final solution, we develop a new graph neural network model EWS-GCN that combines ideas of graph convolutional and recurrent neural networks via attention mechanism. The resulting model allows for robust training and efficient processing of large-scale data. We also demonstrate that our model outperforms the state-of-the-art graph neural networks achieving excellent results
翻訳日:2022-10-12 22:41:55 公開日:2020-09-30
# 誤りラベルデータの存在下での深部断層検出モデルの一般化

Improving Generalization of Deep Fault Detection Models in the Presence of Mislabeled Data ( http://arxiv.org/abs/2009.14606v1 )

ライセンス: Link先を確認
Katharina Rombach, Gabriel Michau and Olga Fink(参考訳) ミスラベルされたサンプルは現実のデータセットでユビキタスであり、ルールベースまたは専門家のラベル付けは通常、誤った仮定や偏見のある意見に基づく。 ニューラルネットワークはこれらのミスラベルされたサンプルを「記憶する」ことができ、結果として一般化が不十分である。 これは、トレーニングだけでなく、検証データセットが間違ったラベル付きサンプルを含む傾向にある、障害検出アプリケーションにおいて重大な問題を引き起こす。 本研究では,ラベル雑音を伴うロバストトレーニングのための新しい2段階フレームワークを提案する。 最初のステップでは、仮説空間の更新に基づいて外れ値(誤記されたサンプルを含む)を識別します。 第2のステップでは、識別された異常値とデータ拡張技術に基づいて、トレーニングデータを変更するための異なるアプローチを提案する。 従来のアプローチとは対照的に,クリーンで"ノイズフリー"なバリデーションデータセットが利用できない障害検出など,現実のアプリケーションに適した堅牢なソリューションを見つけることを目指している。 ラベルノイズの上限に関する近似的な仮定の下では,大規模ラベル雑音下で訓練されたモデルの一般化能力を大幅に向上する。

Mislabeled samples are ubiquitous in real-world datasets as rule-based or expert labeling is usually based on incorrect assumptions or subject to biased opinions. Neural networks can "memorize" these mislabeled samples and, as a result, exhibit poor generalization. This poses a critical issue in fault detection applications, where not only the training but also the validation datasets are prone to contain mislabeled samples. In this work, we propose a novel two-step framework for robust training with label noise. In the first step, we identify outliers (including the mislabeled samples) based on the update in the hypothesis space. In the second step, we propose different approaches to modifying the training data based on the identified outliers and a data augmentation technique. Contrary to previous approaches, we aim at finding a robust solution that is suitable for real-world applications, such as fault detection, where no clean, "noise-free" validation dataset is available. Under an approximate assumption about the upper limit of the label noise, we significantly improve the generalization ability of the model trained under massive label noise.
翻訳日:2022-10-12 22:41:45 公開日:2020-09-30
# 著者識別のためのモデル設計の改善に向けて:書体スタイル理解に関する調査

Towards Improved Model Design for Authorship Identification: A Survey on Writing Style Understanding ( http://arxiv.org/abs/2009.14445v1 )

ライセンス: Link先を確認
Weicheng Ma, Ruibo Liu, Lili Wang and Soroush Vosoughi(参考訳) 言語スタイルに大きく依存する著者識別タスクは、自然言語理解(NLU)研究において常に重要な部分を占めてきた。 言語スタイルの理解に基づく他のタスクは深層学習法から恩恵を受けるが、これらの手法は多くの著者によるタスクにおいて従来の機械学習手法と同様に振る舞うことはなかった。 しかし、これらのタスクがますます困難になるにつれて、手作りの機能セットに基づいた従来の機械学習手法はすでに性能限界に近づいている。 そこで本研究では,著者のスタイル的特徴の抽出に役立てる方法で,著者のスタイル的理解に関連するタスクを学習する深層学習手法の今後の活用を促すために,著者のスタイル的理解に関連するタスクを調査する。 まず,両タスクにおける研究の現状に関する調査結果について述べ,著者関係課題における既存の成果と問題点を要約する。 次に、スタイル関連タスクにおける優れた手法を概ね記述し、それらがトップパフォーマンスモデルでどのように使用されるかを分析する。 我々は、これらのモデルが著者によるタスクに適用可能であることに楽観的であり、この分野での研究を前進させることを願っている。

Authorship identification tasks, which rely heavily on linguistic styles, have always been an important part of Natural Language Understanding (NLU) research. While other tasks based on linguistic style understanding benefit from deep learning methods, these methods have not behaved as well as traditional machine learning methods in many authorship-based tasks. With these tasks becoming more and more challenging, however, traditional machine learning methods based on handcrafted feature sets are already approaching their performance limits. Thus, in order to inspire future applications of deep learning methods in authorship-based tasks in ways that benefit the extraction of stylistic features, we survey authorship-based tasks and other tasks related to writing style understanding. We first describe our survey results on the current state of research in both sets of tasks and summarize existing achievements and problems in authorship-related tasks. We then describe outstanding methods in style-related tasks in general and analyze how they are used in combination in the top-performing models. We are optimistic about the applicability of these models to authorship-based tasks and hope our survey will help advance research in this field.
翻訳日:2022-10-12 22:35:04 公開日:2020-09-30
# LEBANONUPRISING:レバノンのツイートを徹底的に調査

LEBANONUPRISING: a thorough study of Lebanese tweets ( http://arxiv.org/abs/2009.14459v1 )

ライセンス: Link先を確認
Reda Khalaf and Mireille Makary(参考訳) 近年の研究では、ソーシャルネットワークの感情分析に大きな関心が寄せられている。 マイクロブログサービスであるtwitterは、ユーザーが特定のトピックについてどう感じているか、あるいは、社会的、経済的、そして政治的問題に関する彼らの意見について、素晴らしい情報源になり得る。 10月17日、レバノンは革命の開始を目撃し、レバノンアップライジングのハッシュタグはTwitter上でバイラルになった。 10月18日から21日までに10万0ツイートからなるデータセットが収集された。 本稿では,異なる機械学習アルゴリズムを用いて,レバノンアップライジングハッシュタグに関連するレバノン・アラビア語話者のツイートに対する感情分析を行った。 データセットは手動で注釈付けされ、精度を測定し、メトリクスをリコールし、異なるアルゴリズムを比較する。 さらに,本稿で完結した作品には,さらに2つの貢献がある。 1つは、ツイートの前処理に使われたレバノン語から現代アラビア語のマッピング辞書の構築、もう1つは感情分析から絵文字を用いた感情検出に移行しようとする試みであり、私たちが予測しようとした2つの感情は「皮肉」と「楽しい」感情であった。 2019年10月に収集したツイートからトレーニングセットを構築し、2020年5月から8月にかけて収集したツイートの感情や感情を予測するためにこのセットを使用しました。 分析の結果,2つのデータセット間の感情,感情,ユーザの変化が明らかになった。 特に、レバノンのアラビア語のつぶやきに関する前例や類似した研究は、私たちの知る限りでは不十分だった。

Recent studies showed a huge interest in social networks sentiment analysis. Twitter, which is a microblogging service, can be a great source of information on how the users feel about a certain topic, or what their opinion is regarding a social, economic and even political matter. On October 17, Lebanon witnessed the start of a revolution; the LebanonUprising hashtag became viral on Twitter. A dataset consisting of a 100,0000 tweets was collected between 18 and 21 October. In this paper, we conducted a sentiment analysis study for the tweets in spoken Lebanese Arabic related to the LebanonUprising hashtag using different machine learning algorithms. The dataset was manually annotated to measure the precision and recall metrics and to compare between the different algorithms. Furthermore, the work completed in this paper provides two more contributions. The first is related to building a Lebanese to Modern Standard Arabic mapping dictionary that was used for the preprocessing of the tweets and the second is an attempt to move from sentiment analysis to emotion detection using emojis, and the two emotions we tried to predict were the "sarcastic" and "funny" emotions. We built a training set from the tweets collected in October 2019 and then we used this set to predict sentiments and emotions of the tweets we collected between May and August 2020. The analysis we conducted shows the variation in sentiments, emotions and users between the two datasets. The results we obtained seem satisfactory especially considering that there was no previous or similar work done involving Lebanese Arabic tweets, to our knowledge.
翻訳日:2022-10-12 22:34:46 公開日:2020-09-30
# 正規化表現アライメントを用いた言語間理解

Cross-lingual Spoken Language Understanding with Regularized Representation Alignment ( http://arxiv.org/abs/2009.14510v1 )

ライセンス: Link先を確認
Zihan Liu, Genta Indra Winata, Peng Xu, Zhaojiang Lin, Pascale Fung(参考訳) 現在の音声言語理解システムにおける言語間モデルの有望な結果にもかかわらず、ソースとターゲット言語間の不完全な言語間表現アライメントに悩まされ、パフォーマンスが準最適となる。 この問題に対処するため,外部リソースを使わずに,言語間の単語レベルおよび文レベルの表現をさらに整合させる正規化手法を提案する。 まず,対応するラベルに基づいてユーザ発話の表現を規則化する。 第2に,潜在変数モデル (liu et al., 2019) を,潜在変数の絡み合いを回避すべく,敵対的トレーニングを活用して定式化する。 クロスランゲージ言語理解タスクの実験により,我々のモデルがマイトショットシナリオとゼロショットシナリオの両方において最先端の手法を上回っており,対象言語トレーニングデータの3-%しか持たない数ショット設定でトレーニングされたモデルが,すべてのトレーニングデータで教師あり訓練と同等の性能を達成していることが示された。

Despite the promising results of current cross-lingual models for spoken language understanding systems, they still suffer from imperfect cross-lingual representation alignments between the source and target languages, which makes the performance sub-optimal. To cope with this issue, we propose a regularization approach to further align word-level and sentence-level representations across languages without any external resource. First, we regularize the representation of user utterances based on their corresponding labels. Second, we regularize the latent variable model (Liu et al., 2019) by leveraging adversarial training to disentangle the latent variables. Experiments on the cross-lingual spoken language understanding task show that our model outperforms current state-of-the-art methods in both few-shot and zero-shot scenarios, and our model, trained on a few-shot setting with only 3\% of the target language training data, achieves comparable performance to the supervised training with all the training data.
翻訳日:2022-10-12 22:34:20 公開日:2020-09-30
# RDSGAN:ジェネレーティブ・ディバイザ・フレームワークを用いたランクベース距離スーパービジョン関係抽出

RDSGAN: Rank-based Distant Supervision Relation Extraction with Generative Adversarial Framework ( http://arxiv.org/abs/2009.14722v1 )

ライセンス: Link先を確認
Guoqing Luo, Jiaxin Pan, Min Peng(参考訳) 距離監視は関係抽出に広く用いられているが,ノイズラベリングの問題に悩まされている。 注意機構はニューラルネットワークモデルによって無視されるが、その非ゼロ重みによるノイズデータを排除することはできない。 不正にラベルされたインスタンスを正のセットから削除することは難しい決定であるが、削除されたインスタンスに含まれる有用な情報が失われる。 本稿では,遠隔監督関係抽出のための有効なインスタンスを自動的に生成するrdsgan(rank-based distant supervisor gan)という新しい生成型ニューラルネットワークフレームワークを提案する。 本枠組みは, 正の正の分布を敵対的訓練によって学習するソフトアテンションと難易度を組み合わせ, 正の正の分布に対処する正の分布に適合する正のインスタンスを選択する。 実験の結果,強力なベースラインよりも優れたフレームワークが得られた。

Distant supervision has been widely used for relation extraction but suffers from noise labeling problem. Neural network models are proposed to denoise with attention mechanism but cannot eliminate noisy data due to its non-zero weights. Hard decision is proposed to remove wrongly-labeled instances from the positive set though causes loss of useful information contained in removed instances. In this paper, we propose a novel generative neural framework named RDSGAN (Rank-based Distant Supervision GAN) which automatically generates valid instances for distant supervision relation extraction. Our framework combines soft attention and hard decision to learn the distribution of true positive instances via adversarial training and selects valid instances conforming to the distribution via rank-based distant supervision, which addresses the false positive problem. Experimental results show the superiority of our framework over strong baselines.
翻訳日:2022-10-12 22:33:59 公開日:2020-09-30
# 単語埋め込み改善手法としてのインタラクティブリフィッティング

Interactive Re-Fitting as a Technique for Improving Word Embeddings ( http://arxiv.org/abs/2010.00121v1 )

ライセンス: Link先を確認
James Powell, Kari Sentz(参考訳) 単語埋め込みは、単語共起から学習したコーパス内の単語の文脈の固定された分布表現である。 単語の埋め込みは自然言語処理タスクに多くの実用的な用途があることが証明されているが、それらは訓練されたコーパスの属性を反映している。 近年の研究では、語彙辞書にある情報を適用するための単語埋め込みの処理が品質を向上させることが示されている。 インタラクティブにすることで、この後処理技術を構築します。 提案手法により,単語の集合を互いに近づけることで,単語の埋め込み空間の一部を調整することができる。 この機能のモチベーションのあるユースケースは、ユーザーが単語埋め込みにおけるバイアスの存在を識別し、軽減できるようにすることである。 提案手法では,単語埋め込みにおける潜在的なバイアスをユーザが操作する際に選択的な後処理をトリガーし,評価することができる。

Word embeddings are a fixed, distributional representation of the context of words in a corpus learned from word co-occurrences. While word embeddings have proven to have many practical uses in natural language processing tasks, they reflect the attributes of the corpus upon which they are trained. Recent work has demonstrated that post-processing of word embeddings to apply information found in lexical dictionaries can improve their quality. We build on this post-processing technique by making it interactive. Our approach makes it possible for humans to adjust portions of a word embedding space by moving sets of words closer to one another. One motivating use case for this capability is to enable users to identify and reduce the presence of bias in word embeddings. Our approach allows users to trigger selective post-processing as they interact with and assess potential bias in word embeddings.
翻訳日:2022-10-12 22:33:43 公開日:2020-09-30
# バランス付きデータセットの重要性:ニューラルネットワークと分散表現に基づく車両軌道予測モデルの解析

The Importance of Balanced Data Sets: Analyzing a Vehicle Trajectory Prediction Model based on Neural Networks and Distributed Representations ( http://arxiv.org/abs/2010.00084v1 )

ライセンス: Link先を確認
Florian Mirus, Terrence C. Stewart, Jorg Conradt(参考訳) 他の交通参加者の将来の行動を予測することは、安全かつ状況に配慮した運転を実現するために、自動運転車や人間ドライバーによって解決される必要のある重要なタスクである。 車両軌道予測に対する現代のアプローチは、一般的にニューラルネットワークのようなデータ駆動モデル、特にLSTM(Long Short-Term Memorys)に依存し、有望な結果を達成する。 しかし、基礎となるトレーニングデータの最適構成に関する問題は、あまり注目されていない。 本稿では,自動車シーンをセマンティックベクタ基板にエンコードする分散表現を用いたニューラルネットワークモデルに基づく車両軌道予測に関するこれまでの研究を拡大する。 トレーニングデータの変化が予測モデルの性能に及ぼす影響を分析した。 そこで,本モデルでは,適切なデータセットをトレーニングした場合に,意味ベクトル表現を用いたモデルの方が数値モデルより優れており,車両軌道予測におけるトレーニングデータの構成が訓練の成功に不可欠であることを示す。 実世界の運転データに挑戦する分析を行う。

Predicting future behavior of other traffic participants is an essential task that needs to be solved by automated vehicles and human drivers alike to achieve safe and situationaware driving. Modern approaches to vehicles trajectory prediction typically rely on data-driven models like neural networks, in particular LSTMs (Long Short-Term Memorys), achieving promising results. However, the question of optimal composition of the underlying training data has received less attention. In this paper, we expand on previous work on vehicle trajectory prediction based on neural network models employing distributed representations to encode automotive scenes in a semantic vector substrate. We analyze the influence of variations in the training data on the performance of our prediction models. Thereby, we show that the models employing our semantic vector representation outperform the numerical model when trained on an adequate data set and thereby, that the composition of training data in vehicle trajectory prediction is crucial for successful training. We conduct our analysis on challenging real-world driving data.
翻訳日:2022-10-12 22:33:31 公開日:2020-09-30
# 傾斜クリッピングによるパラメトリック次元低減の促進

Facilitate the Parametric Dimension Reduction by Gradient Clipping ( http://arxiv.org/abs/2009.14373v1 )

ライセンス: Link先を確認
Chien-Hsun Lai, Yu-Shuen Wang(参考訳) ニューラルネットの訓練により,よく知られた次元縮小法であるt-distributed stochastic neighbor embedded (t-sne) を非パラメトリックからパラメトリックへと拡張する。 パラメトリック技術の主な利点は、特にストリーミングデータ探索において有益である、新しいデータを扱う一般化である。 しかし、t-SNE目的関数を最適化するためにニューラルネットワークをトレーニングすることは頻繁に失敗する。 以前の方法は、事前トレーニングとネットワークの微調整によってこの問題を克服した。 トレーニング失敗は,高次元空間におけるデータポイントを近傍の埋め込み位置に投影した場合に発生する勾配爆発問題から生じる。 そこで本研究では,勾配クリッピング法を適用した。 ネットワークは,t-SNEの目的関数を直接最適化することによって訓練されるので,一般化を楽しみながら,非パラメトリックt-SNEと互換性のある埋め込み品質を実現する。 ミニバッチネットワークトレーニングにより,パラメトリック次元低減手法は非常に効率的である。 我々はさらに、LargeVisやUMAPといった非パラメトリックな最先端アプローチをパラメトリック版に拡張した。 実験の結果,本手法の有効性が示された。 その実践性を考えると、まもなく公開コードをリリースします。

We extend a well-known dimension reduction method, t-distributed stochastic neighbor embedding (t-SNE), from non-parametric to parametric by training neural networks. The main advantage of a parametric technique is the generalization of handling new data, which is particularly beneficial for streaming data exploration. However, training a neural network to optimize the t-SNE objective function frequently fails. Previous methods overcome this problem by pre-training and then fine-tuning the network. We found that the training failure comes from the gradient exploding problem, which occurs when data points distant in high-dimensional space are projected to nearby embedding positions. Accordingly, we applied the gradient clipping method to solve the problem. Since the networks are trained by directly optimizing the t-SNE objective function, our method achieves an embedding quality that is compatible with the non-parametric t-SNE while enjoying the ability of generalization. Due to mini-batch network training, our parametric dimension reduction method is highly efficient. We further extended other non-parametric state-of-the-art approaches, such as LargeVis and UMAP, to the parametric versions. Experiment results demonstrate the feasibility of our method. Considering its practicability, we will soon release the codes for public use.
翻訳日:2022-10-12 22:32:59 公開日:2020-09-30
# 時系列予測のための少数ショット学習

Few-shot Learning for Time-series Forecasting ( http://arxiv.org/abs/2009.14379v1 )

ライセンス: Link先を確認
Tomoharu Iwata, Atsutoshi Kumagai(参考訳) 時系列予測は多くのアプリケーションにとって重要である。 予測モデルは、通常、特定の目標タスクで時系列データを使用して訓練される。 しかし、ターゲットタスクで十分なデータが利用できない場合があり、パフォーマンスが低下する。 本稿では,対象タスクに数回の時系列が与えられた場合,対象タスクにおける時系列の将来値を予測する,数ショット学習手法を提案する。 本モデルは,対象タスクとは異なる複数のトレーニングタスクにおいて時系列データを用いて訓練される。 本モデルでは,注意機構を持つ再帰ニューラルネットワークに基づく予測関数を構築するために,いくつかの時系列を用いる。 注意機構により,現在の状況に対して少数の時系列で有用なパターンを検索できる。 我々のモデルは、次のタイムステップ値を予測するテストエラーを最小化することで訓練される。 提案手法の有効性を90の時系列データセットを用いて示す。

Time-series forecasting is important for many applications. Forecasting models are usually trained using time-series data in a specific target task. However, sufficient data in the target task might be unavailable, which leads to performance degradation. In this paper, we propose a few-shot learning method that forecasts a future value of a time-series in a target task given a few time-series in the target task. Our model is trained using time-series data in multiple training tasks that are different from target tasks. Our model uses a few time-series to build a forecasting function based on a recurrent neural network with an attention mechanism. With the attention mechanism, we can retrieve useful patterns in a small number of time-series for the current situation. Our model is trained by minimizing an expected test error of forecasting next timestep values. We demonstrate the effectiveness of the proposed method using 90 time-series datasets.
翻訳日:2022-10-12 22:32:41 公開日:2020-09-30
# クラスタリングのためのManifold Adaptive Multiple Kernel K-Means

Manifold Adaptive Multiple Kernel K-Means for Clustering ( http://arxiv.org/abs/2009.14389v1 )

ライセンス: Link先を確認
Liang Du, Haiying Zhang, Xin Ren, Xiaolin Lv(参考訳) k-meansに基づく複数のカーネルメソッドは、カーネルk-meansクラスタリングのパフォーマンスを改善するためにカーネルのグループを統合することを目的としている。 しかし,既存のマルチカーネルk平均法はカーネル内の非線形関係を利用するが,マルチカーネル空間内の局所多様体構造は十分に考慮されていない。 本稿では,カーネルの局所多様体構造を統合するために,元のカーネルではなく多様体適応型カーネルを採用する。 したがって、誘導多重多様体適応核は非線形関係だけでなく局所多様体構造も反映する。 次に、複数のカーネルk-meansクラスタリングフレームワーク内で複数のカーネルクラスタリングを実行する。 提案手法が,様々なデータセットにおける最先端のベースラインメソッドよりも優れていることが検証されている。

Multiple kernel methods based on k-means aims to integrate a group of kernels to improve the performance of kernel k-means clustering. However, we observe that most existing multiple kernel k-means methods exploit the nonlinear relationship within kernels, whereas the local manifold structure among multiple kernel space is not sufficiently considered. In this paper, we adopt the manifold adaptive kernel, instead of the original kernel, to integrate the local manifold structure of kernels. Thus, the induced multiple manifold adaptive kernels not only reflect the nonlinear relationship but also the local manifold structure. We then perform multiple kernel clustering within the multiple kernel k-means clustering framework. It has been verified that the proposed method outperforms several state-of-the-art baseline methods on a variety of data sets.
翻訳日:2022-10-12 22:32:31 公開日:2020-09-30
# Ask-n-Learn:画像分類のための信頼度勾配表現によるアクティブラーニング

Ask-n-Learn: Active Learning via Reliable Gradient Representations for Image Classification ( http://arxiv.org/abs/2009.14448v1 )

ライセンス: Link先を確認
Bindya Venkatesh and Jayaraman J. Thiagarajan(参考訳) 深い予測モデルは、ラベル付きトレーニングデータという形で人間の監督に依存する。 大量のアノテートされたトレーニングデータを取得することは、コストと時間がかかるため、実際にモデルを構築しながら、これは重大なボトルネックとなる。 このようなシナリオでは、ラベル付けの取り組みにおいて、より高速な収束を実現するためにアクティブラーニング(AL)戦略が使用される。 既存のアクティブラーニングでは、不確実性と多様性に基づく様々なヒューリスティックを用いてクエリサンプルを選択する。 広範にわたる使用にもかかわらず、実際にはその性能は、不確実性、データ探索と搾取の間のトレードオフ不足、確認バイアスの存在など、多くの要因によって制限されている。 これらの課題に対処するために,アルゴリズムの各イテレーションで推定されるペスドラベルを用いた勾配埋め込みに基づくアクティブラーニングアプローチであるask-n-learnを提案する。 さらに,信頼性の高い勾配埋め込みを得るための予測キャリブレーションの活用を提唱し,疑似ラベル付け時の確認バイアスの影響を軽減するためのデータ拡張戦略を提案する。 ベンチマーク画像分類タスク(CIFAR-10、SVHN、Fashion-MNIST、MNIST)の実証研究を通じて、最近提案されたBADGEアルゴリズムを含む最先端のベースラインを大幅に改善したことを示す。

Deep predictive models rely on human supervision in the form of labeled training data. Obtaining large amounts of annotated training data can be expensive and time consuming, and this becomes a critical bottleneck while building such models in practice. In such scenarios, active learning (AL) strategies are used to achieve faster convergence in terms of labeling efforts. Existing active learning employ a variety of heuristics based on uncertainty and diversity to select query samples. Despite their wide-spread use, in practice, their performance is limited by a number of factors including non-calibrated uncertainties, insufficient trade-off between data exploration and exploitation, presence of confirmation bias etc. In order to address these challenges, we propose Ask-n-Learn, an active learning approach based on gradient embeddings obtained using the pesudo-labels estimated in each iteration of the algorithm. More importantly, we advocate the use of prediction calibration to obtain reliable gradient embeddings, and propose a data augmentation strategy to alleviate the effects of confirmation bias during pseudo-labeling. Through empirical studies on benchmark image classification tasks (CIFAR-10, SVHN, Fashion-MNIST, MNIST), we demonstrate significant improvements over state-of-the-art baselines, including the recently proposed BADGE algorithm.
翻訳日:2022-10-12 22:27:03 公開日:2020-09-30
# ステージワイズ保存リニアバンディット

Stage-wise Conservative Linear Bandits ( http://arxiv.org/abs/2010.00081v1 )

ライセンス: Link先を確認
Ahmadreza Moradipari, Christos Thrampoulidis, Mahnoosh Alizadeh(参考訳) 段階的に保守的な線形確率的包帯について検討する: オンライン広告や医療裁判などのアプリケーションに現れる(未知の)安全制約を考慮した帯域最適化の例である。 各段階では、学習者は累積報酬を時間軸全体にわたって最大化するだけでなく、瞬時報酬の下のバウンドの形をとる線形ベースライン制約を満たすアクションを選択する必要がある。 この問題に対して、次数 O(\sqrt{T} \log^{3/2}T) と O(\sqrt{T} \log T) の確率的後悔境界をそれぞれ楽しむ2つの新しいアルゴリズム、Stage-wise conservative linear Thompson Smpling (SCLTS) とStage-wise conservative linear UCB (SCLUCB) を提案する。 特に,提案アルゴリズムは,Bandit-feedbackの制約や未知のベースライン動作といった,様々な問題に対処するための小さな修正のみで調整することができる。 最先端技術に対するこれらの改善について論じる。 例えば、既存の解と比較して、SCLTS が O(\log{T}) の時間(O(\sqrt{T}) と比較)で(最適でない)ベースラインの作用をすることを示す。 最後に、私たちは、即時報酬の上限の形式を取る、他の研究された安全制約形式につながります。 最適動作が各ラウンドの安全セットに属することが保証されていないため、学習プロセスにさらなる複雑さが生じるが、SCLUCBはこの設定を簡単な修正によって適切に調整できることを示す。

We study stage-wise conservative linear stochastic bandits: an instance of bandit optimization, which accounts for (unknown) safety constraints that appear in applications such as online advertising and medical trials. At each stage, the learner must choose actions that not only maximize cumulative reward across the entire time horizon but further satisfy a linear baseline constraint that takes the form of a lower bound on the instantaneous reward. For this problem, we present two novel algorithms, stage-wise conservative linear Thompson Sampling (SCLTS) and stage-wise conservative linear UCB (SCLUCB), that respect the baseline constraints and enjoy probabilistic regret bounds of order O(\sqrt{T} \log^{3/2}T) and O(\sqrt{T} \log T), respectively. Notably, the proposed algorithms can be adjusted with only minor modifications to tackle different problem variations, such as constraints with bandit-feedback, or an unknown sequence of baseline actions. We discuss these and other improvements over the state-of-the-art. For instance, compared to existing solutions, we show that SCLTS plays the (non-optimal) baseline action at most O(\log{T}) times (compared to O(\sqrt{T})). Finally, we make connections to another studied form of safety constraints that takes the form of an upper bound on the instantaneous reward. While this incurs additional complexity to the learning process as the optimal action is not guaranteed to belong to the safe set at each round, we show that SCLUCB can properly adjust in this setting via a simple modification.
翻訳日:2022-10-12 22:26:16 公開日:2020-09-30
# 離散マルチタスク(CoVNS)のための共進化可変近傍探索アルゴリズム : グラフ上のコミュニティ検出への応用

A Coevolutionary Variable Neighborhood Search Algorithm for Discrete Multitasking (CoVNS): Application to Community Detection over Graphs ( http://arxiv.org/abs/2009.14477v1 )

ライセンス: Link先を確認
Eneko Osaba, Esther Villar-Rodriguez, Javier Del Ser(参考訳) マルチタスク最適化のパラダイムの主な目的は、複数の同時最適化タスクを単一の探索プロセスで同時に解決することである。 有望な結果を得るためには、潜在的な相補性とタスク間の相乗効果を適切に活用し、遺伝物質の交換によって互いに助け合う。 本稿では,進化計算の概念を取り入れたマルチタスク最適化のシナリオを扱う視点として,進化的マルチタスクに着目した。 この研究は、Cevolutionary Variable Neighborhood Search Algorithmと呼ばれる新しいマルチタスク手法を提示することで、この分野に寄与し、可変近傍探索メタヒューリスティックと共進化戦略の両方に着想を得た。 この論文の2つ目の貢献は、ノード間の接続が方向付けされ重み付けされるグラフインスタンスの最適分割であるアプリケーションフィールドである。 本稿では,このようなタスクの同時解法を開拓する。 11のグラフインスタンスで構成される2つの異なるマルチタスクシナリオが検討されている。 本手法により得られた結果は, 並列変数近傍探索と基本変数近傍探索の独立実行とを比較した。 その結果,提案手法は,グラフ上でのコミュニティ検出問題を同時に解決する有望な手法であることが示唆された。

The main goal of the multitasking optimization paradigm is to solve multiple and concurrent optimization tasks in a simultaneous way through a single search process. For attaining promising results, potential complementarities and synergies between tasks are properly exploited, helping each other by virtue of the exchange of genetic material. This paper is focused on Evolutionary Multitasking, which is a perspective for dealing with multitasking optimization scenarios by embracing concepts from Evolutionary Computation. This work contributes to this field by presenting a new multitasking approach named as Coevolutionary Variable Neighborhood Search Algorithm, which finds its inspiration on both the Variable Neighborhood Search metaheuristic and coevolutionary strategies. The second contribution of this paper is the application field, which is the optimal partitioning of graph instances whose connections among nodes are directed and weighted. This paper pioneers on the simultaneous solving of this kind of tasks. Two different multitasking scenarios are considered, each comprising 11 graph instances. Results obtained by our method are compared to those issued by a parallel Variable Neighborhood Search and independent executions of the basic Variable Neighborhood Search. The discussion on such results support our hypothesis that the proposed method is a promising scheme for simultaneous solving community detection problems over graphs.
翻訳日:2022-10-12 22:25:44 公開日:2020-09-30
# 最大Marginal Relevance-Guided Reinforcement Learningを用いた多文書要約

Multi-document Summarization with Maximal Marginal Relevance-guided Reinforcement Learning ( http://arxiv.org/abs/2010.00117v1 )

ライセンス: Link先を確認
Yuning Mao, Yanru Qu, Yiqing Xie, Xiang Ren, Jiawei Han(参考訳) ニューラルシークエンス学習法は,SDS(Single-document summarization)において大きな進歩を遂げているが,MDS(Multi-document summarization)では不十分な結果が得られた。 1) MDSはより広い検索空間とより限られた訓練データを持ち、ニューラルネットワークが適切な表現を学習するための障害を設定し、(2) MDSは、SDS手法が扱えないソース文書間の高い情報冗長性を解決する必要がある。 このギャップを埋めるために,古典的MDSで用いられる高度なニューラルネットワークSDS法と統計的尺度を統一したMDSのための最大Margin Relevance-Guided Reinforcement LearningであるRL-MMRを提案する。 RL-MMRは、より少ない有望な候補にMMRガイダンスを投入し、探索空間を抑え、より良い表現学習をもたらす。 さらに、MMRの明示的な冗長度測定は、要約の神経表現が冗長性をよりよく捉えるのに役立つ。 大規模な実験により、RL-MMRはベンチマークMDSデータセット上で最先端のパフォーマンスを達成することが示された。 特に、学習効率と効率の両面から、SDSをMDSに適応させる際に、MMRをエンドツーエンド学習に組み込むことの利点を示す。

While neural sequence learning methods have made significant progress in single-document summarization (SDS), they produce unsatisfactory results on multi-document summarization (MDS). We observe two major challenges when adapting SDS advances to MDS: (1) MDS involves larger search space and yet more limited training data, setting obstacles for neural methods to learn adequate representations; (2) MDS needs to resolve higher information redundancy among the source documents, which SDS methods are less effective to handle. To close the gap, we present RL-MMR, Maximal Margin Relevance-guided Reinforcement Learning for MDS, which unifies advanced neural SDS methods and statistical measures used in classical MDS. RL-MMR casts MMR guidance on fewer promising candidates, which restrains the search space and thus leads to better representation learning. Additionally, the explicit redundancy measure in MMR helps the neural representation of the summary to better capture redundancy. Extensive experiments demonstrate that RL-MMR achieves state-of-the-art performance on benchmark MDS datasets. In particular, we show the benefits of incorporating MMR into end-to-end learning when adapting SDS to MDS in terms of both learning effectiveness and efficiency.
翻訳日:2022-10-12 22:24:26 公開日:2020-09-30
# CrowS-Pairs: マスキング言語モデルにおける社会的バイアス測定のための課題データセット

CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models ( http://arxiv.org/abs/2010.00133v1 )

ライセンス: Link先を確認
Nikita Nangia, Clara Vania, Rasika Bhalerao, Samuel R. Bowman(参考訳) 事前訓練された言語モデル、特にマスキング言語モデル(MLM)は多くのNLPタスクで成功している。 しかし、彼らが訓練されたコーパスに明らかに存在する文化的バイアスを使って、偏りのある表現に暗黙的に害をもたらすという証拠はたくさんある。 米国における保護された集団に対する言語モデルにおける社会的バイアスを測定するために、クラウドソースステレオタイプペアベンチマーク(crows-pairs)を紹介する。 CrowS-Pairsには1508の例があり、人種、宗教、年齢など9種類の偏見を扱うステレオタイプをカバーしている。 crows-pairsでは、モデルは2つの文で示される: 1つはよりステレオタイプ、もう1つはよりステレオタイプである。 データは歴史的に不利な群に関するステレオタイプに焦点を当て、それらと有利な群を対比する。 我々は, CrowS-Pairs の各カテゴリーのステレオタイプを表す文を, 広く利用されている MLM の3つすべてで有意に好適であることが判明した。 バイアスの少ないモデルを構築する作業が進むにつれ、このデータセットは進捗を評価するベンチマークとして使用できる。

Pretrained language models, especially masked language models (MLMs) have seen success across many NLP tasks. However, there is ample evidence that they use the cultural biases that are undoubtedly present in the corpora they are trained on, implicitly creating harm with biased representations. To measure some forms of social bias in language models against protected demographic groups in the US, we introduce the Crowdsourced Stereotype Pairs benchmark (CrowS-Pairs). CrowS-Pairs has 1508 examples that cover stereotypes dealing with nine types of bias, like race, religion, and age. In CrowS-Pairs a model is presented with two sentences: one that is more stereotyping and another that is less stereotyping. The data focuses on stereotypes about historically disadvantaged groups and contrasts them with advantaged groups. We find that all three of the widely-used MLMs we evaluate substantially favor sentences that express stereotypes in every category in CrowS-Pairs. As work on building less biased models advances, this dataset can be used as a benchmark to evaluate progress.
翻訳日:2022-10-12 22:24:01 公開日:2020-09-30
# 信頼はどこで崩壊するの? 信頼行列と条件付き信頼密度を用いたディープニューラルネットワークの定量的信頼解析

Where Does Trust Break Down? A Quantitative Trust Analysis of Deep Neural Networks via Trust Matrix and Conditional Trust Densities ( http://arxiv.org/abs/2009.14701v1 )

ライセンス: Link先を確認
Andrew Hryniowski, Xiao Yu Wang, and Alexander Wong(参考訳) 近年のディープラーニングの進歩と成功は、パーソナルアシスタントやインテリジェントナビゲーションから、eコマースにおける検索や製品レコメンデーションまで、幅広い用途で広く普及しているアプリケーションへの、かなりの努力と投資につながっている。 ディープラーニング採用のこの飛躍的な増加に伴い、これらのアプリケーションを動かすディープニューラルネットワークの信頼性に関する疑問が浮かび上がっている。 このような疑問に答えるために、信頼の定量化に対する非常に最近の関心が高まっている。 本研究では,Wongらが最近導入した質問応答信頼度を利用した新しい信頼量化戦略である信頼行列の概念を導入し,与えられた深いニューラルネットワークに対して,信頼がどこで破られるのか,より詳細な知見を提供する。 より具体的には、信頼マトリックスは、与えられたアクター-オークルの回答シナリオに対する期待される質問-回答信頼を定義し、ディープニューラルネットワークの信頼性を改善するために対処すべき低い信頼領域を素早く見つけることができる。 提案する信頼行列は、計算が簡単で、人間的に解釈可能であり、著者の知識が、アクターとオラクルの回答レベルで信頼を研究する最初の方法である。 我々は、条件付き信頼密度の概念により、信頼密度の概念をさらに拡張する。 信頼行列を用いて画像認識のためのいくつかの有名なディープニューラルネットワークアーキテクチャを実験的に研究し、さらに興味深いアクターとoracleの回答シナリオに対する信頼密度と条件付き信頼密度について研究した。 以上の結果から,信頼度と条件付き信頼度は,信頼性操作のための深層学習ソリューションの作成と認定を行う上で,実践者や規制当局を指導するための既存の信頼量化指標に加えて有用なツールであることが示唆された。

The advances and successes in deep learning in recent years have led to considerable efforts and investments into its widespread ubiquitous adoption for a wide variety of applications, ranging from personal assistants and intelligent navigation to search and product recommendation in e-commerce. With this tremendous rise in deep learning adoption comes questions about the trustworthiness of the deep neural networks that power these applications. Motivated to answer such questions, there has been a very recent interest in trust quantification. In this work, we introduce the concept of trust matrix, a novel trust quantification strategy that leverages the recently introduced question-answer trust metric by Wong et al. to provide deeper, more detailed insights into where trust breaks down for a given deep neural network given a set of questions. More specifically, a trust matrix defines the expected question-answer trust for a given actor-oracle answer scenario, allowing one to quickly spot areas of low trust that needs to be addressed to improve the trustworthiness of a deep neural network. The proposed trust matrix is simple to calculate, humanly interpretable, and to the best of the authors' knowledge is the first to study trust at the actor-oracle answer level. We further extend the concept of trust densities with the notion of conditional trust densities. We experimentally leverage trust matrices to study several well-known deep neural network architectures for image recognition, and further study the trust density and conditional trust densities for an interesting actor-oracle answer scenario. The results illustrate that trust matrices, along with conditional trust densities, can be useful tools in addition to the existing suite of trust quantification metrics for guiding practitioners and regulators in creating and certifying deep learning solutions for trusted operation.
翻訳日:2022-10-12 22:17:30 公開日:2020-09-30
# 混合属性データを用いたニューロファジー分類器のオンライン学習アルゴリズム

An Online Learning Algorithm for a Neuro-Fuzzy Classifier with Mixed-Attribute Data ( http://arxiv.org/abs/2009.14670v1 )

ライセンス: Link先を確認
Thanh Tung Khuat and Bogdan Gabrys(参考訳) General Fuzzy min-max Neural Network (GFMMNN)は、データ分類のための効率的な神経ファジィシステムの一つである。 しかし、元の学習アルゴリズムの欠点の1つは、混合属性データから処理と学習ができないことである。 GFMMNN学習アルゴリズムでは、分類的特徴符号化法が利用できるが、多くの欠点がある。 この文献で提案される他のアプローチは、学習フェーズで利用可能なトレーニングデータ全体を必要とするため、オンライン学習には適さない。 多くのアプリケーション領域におけるストリーミングデータのボリュームと速度の急激な変化により、構築されたモデルは、履歴データへの完全な再トレーニングやアクセスを必要とせずに、リアルタイムで連続的なデータ変更を学習し、適応することがますます求められている。 本稿ではGFMMNNのための拡張オンライン学習アルゴリズムを提案する。 提案手法は連続的特徴と分類的特徴の両方でデータセットを処理できる。 GFMMモデルの他の関連する学習アルゴリズムと比較して,提案手法の優れた,安定した分類性能が確認された。

General fuzzy min-max neural network (GFMMNN) is one of the efficient neuro-fuzzy systems for data classification. However, one of the downsides of its original learning algorithms is the inability to handle and learn from the mixed-attribute data. While categorical features encoding methods can be used with the GFMMNN learning algorithms, they exhibit a lot of shortcomings. Other approaches proposed in the literature are not suitable for on-line learning as they require entire training data available in the learning phase. With the rapid change in the volume and velocity of streaming data in many application areas, it is increasingly required that the constructed models can learn and adapt to the continuous data changes in real-time without the need for their full retraining or access to the historical data. This paper proposes an extended online learning algorithm for the GFMMNN. The proposed method can handle the datasets with both continuous and categorical features. The extensive experiments confirmed superior and stable classification performance of the proposed approach in comparison to other relevant learning algorithms for the GFMM model.
翻訳日:2022-10-12 22:16:37 公開日:2020-09-30
# グラフネットワークのスペクトル埋め込み

Spectral Embedding of Graph Networks ( http://arxiv.org/abs/2009.14441v1 )

ライセンス: Link先を確認
Shay Deutsch, Stefano Soatto(参考訳) ローカルノードの類似性と接続性、グローバル構造をトレードオフする教師なしグラフ埋め込みを導入する。 この埋め込みは一般化されたグラフラプラシアンに基づいており、固有ベクトルはネットワーク構造と近傍近傍の両方を単一の表現でコンパクトにキャプチャする。 鍵となる考え方は、与えられたグラフを、そのエッジを通る最短経路の数の分数でエッジの中央度を測るグラフに変換し、その表現にそのスペクトル性を利用することである。 グラフネットワークの表現をテストした結果、ソーシャルネットワークやマテリアルサイエンスといったデータ分析タスクにおいて、その技術が大幅に改善されていることが分かりました。 また,ヒト-SARS CoV-2タンパク質間相互作用体からのノード分類についても検討した。

We introduce an unsupervised graph embedding that trades off local node similarity and connectivity, and global structure. The embedding is based on a generalized graph Laplacian, whose eigenvectors compactly capture both network structure and neighborhood proximity in a single representation. The key idea is to transform the given graph into one whose weights measure the centrality of an edge by the fraction of the number of shortest paths that pass through that edge, and employ its spectral proprieties in the representation. Testing the resulting graph network representation shows significant improvement over the sate of the art in data analysis tasks including social networks and material science. We also test our method on node classification from the human-SARS CoV-2 protein-protein interactome.
翻訳日:2022-10-12 22:15:06 公開日:2020-09-30