このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201015となっている論文です。

PDF登録状況(公開日: 20201015)

TitleAuthorsAbstract論文公表日・翻訳日
# 非負cpテンソル分解による大規模動的トピックモデリングについて

On Large-Scale Dynamic Topic Modeling with Nonnegative CP Tensor Decomposition ( http://arxiv.org/abs/2001.00631v2 )

ライセンス: Link先を確認
Miju Ahn, Nicole Eikmeier, Jamie Haddock, Lara Kassab, Alona Kryshchenko, Kathryn Leonard, Deanna Needell, R. W. M. A. Madushani, Elena Sizikova, Chuntian Wang(参考訳) 現在、データの爆発的な成長により、大規模な時間データ分析に対する前例のない需要がある。 動的トピックモデリングは、時間とともに出現し、進化し、消滅する潜在トピックを学ぶことを目的として、社会科学やデータサイエンスで広く使われている。 動的トピックモデリングにおける従来の研究は主に非負行列分解法(NMF)を用いており、データテンソルのスライスはそれぞれ低次元非負行列の積に分解される。 しかし、このアプローチでは、データの時間次元に含まれる情報は、しばしば無視されるか、使われない。 この問題を解決するために、データテンソルを直接非負ベクトルの外積の最小和に分解し、時間情報を保存する非負のCANDECOMP/PARAPACテンソル分解法(NNCPD)を採用することを提案する。 NNCPDの有効性は、合成データと実データの両方に適用することで示され、典型的なNMF法と比較して大幅に改善された結果が得られる。 このようなアプローチに対するncpdの利点を考察し考察した。 我々の知る限り、NNCPDが動的トピックモデリングの目的に利用されたのはこれが初めてであり、我々の発見はアプリケーションとさらなる開発の両方に変革をもたらすだろう。

There is currently an unprecedented demand for large-scale temporal data analysis due to the explosive growth of data. Dynamic topic modeling has been widely used in social and data sciences with the goal of learning latent topics that emerge, evolve, and fade over time. Previous work on dynamic topic modeling primarily employ the method of nonnegative matrix factorization (NMF), where slices of the data tensor are each factorized into the product of lower-dimensional nonnegative matrices. With this approach, however, information contained in the temporal dimension of the data is often neglected or underutilized. To overcome this issue, we propose instead adopting the method of nonnegative CANDECOMP/PARAPAC (CP) tensor decomposition (NNCPD), where the data tensor is directly decomposed into a minimal sum of outer products of nonnegative vectors, thereby preserving the temporal information. The viability of NNCPD is demonstrated through application to both synthetic and real data, where significantly improved results are obtained compared to those of typical NMF-based methods. The advantages of NNCPD over such approaches are studied and discussed. To the best of our knowledge, this is the first time that NNCPD has been utilized for the purpose of dynamic topic modeling, and our findings will be transformative for both applications and further developments.
翻訳日:2023-01-16 03:54:11 公開日:2020-10-15
# 周波数適合性割当:目的関数値の単射変換下で不変な最適化アルゴリズムを作る

Frequency Fitness Assignment: Making Optimization Algorithms Invariant under Bijective Transformations of the Objective Function Value ( http://arxiv.org/abs/2001.01416v5 )

ライセンス: Link先を確認
Thomas Weise and Zhize Wu and Xinlu Li and Yan Chen(参考訳) 周波数適合度割り当て(FFA)では、目標値に対応する適合度は、フィットネス割り当てステップにおける遭遇頻度であり、最小化される。 FFAは目的関数値の単射変換の下で最適化過程を不変にする。 次元 s の TwoMax, Jump, Trap 関数では、1/s で標準突然変異を持つ古典的な (1+1)-EA は s で指数関数的に実行可能となる。 我々の実験では、(1+1)-FEAは、同じアルゴリズムであるが、FFAを用いており、平均ランタイムは$s^2\ln{s}$とスケールしている。 Jump と Trap は OneMax の単射変換であるため、3つすべてで同一の振る舞いをする。 OneMax、LeadingOnes、およびPlatauの問題では、s の係数が (1+1)-EA よりも遅いようである。 1+1)-FEAは、W-ModelインスタンスやMaxSatインスタンスの(1+1)-EAよりもはるかにパフォーマンスがよい。 さらに、Md5チェックサム計算を上記の問題への変換として適用することにより、ビジェクション不変性を検証し、同じ挙動を与える。 最後に,ffaがジョブショップスケジューリングのためのmemeticアルゴリズムの性能を向上させることを示す。

Under Frequency Fitness Assignment (FFA), the fitness corresponding to an objective value is its encounter frequency in fitness assignment steps and is subject to minimization. FFA renders optimization processes invariant under bijective transformations of the objective function value. On TwoMax, Jump, and Trap functions of dimension s, the classical (1+1)-EA with standard mutation at rate 1/s can have expected runtimes exponential in s. In our experiments, a (1+1)-FEA, the same algorithm but using FFA, exhibits mean runtimes that seem to scale as $s^2\ln{s}$. Since Jump and Trap are bijective transformations of OneMax, it behaves identical on all three. On OneMax, LeadingOnes, and Plateau problems, it seems to be slower than the (1+1)-EA by a factor linear in s. The (1+1)-FEA performs much better than the (1+1)-EA on W-Model and MaxSat instances. We further verify the bijection invariance by applying the Md5 checksum computation as transformation to some of the above problems and yield the same behaviors. Finally, we show that FFA can improve the performance of a memetic algorithm for job shop scheduling.
翻訳日:2023-01-14 02:01:34 公開日:2020-10-15
# 強化学習のためのブールタスク代数

A Boolean Task Algebra for Reinforcement Learning ( http://arxiv.org/abs/2001.01394v2 )

ライセンス: Link先を確認
Geraud Nangue Tasse, Steven James, Benjamin Rosman(参考訳) 新しい課題を解くための学習スキルを構成する能力は、生涯学習エージェントの重要な特性である。 本研究では,タスクの論理構成をブール代数として定式化する。 これにより、一連の基本タスクの否定、解離、結合という観点から、新しいタスクを定式化できます。 次に,目標指向の価値関数を学習し,タスクの遷移ダイナミクスを制限することにより,エージェントが新たなタスクをそれ以上学習することなく解決できることを示す。 これらの値関数を特定の方法で構成することにより、ブール代数の下で表現可能なすべてのタスクに対する最適ポリシーを直ちに回復することを示す。 エージェントがまずベーススキルのセットを学習し、次にそれらを合成して、超指数的な数の新しいタスクを解くという、高次元のビデオゲーム環境を含む2つの領域におけるアプローチを検証する。

The ability to compose learned skills to solve new tasks is an important property of lifelong-learning agents. In this work, we formalise the logical composition of tasks as a Boolean algebra. This allows us to formulate new tasks in terms of the negation, disjunction and conjunction of a set of base tasks. We then show that by learning goal-oriented value functions and restricting the transition dynamics of the tasks, an agent can solve these new tasks with no further learning. We prove that by composing these value functions in specific ways, we immediately recover the optimal policies for all tasks expressible under the Boolean algebra. We verify our approach in two domains---including a high-dimensional video game environment requiring function approximation---where an agent first learns a set of base skills, and then composes them to solve a super-exponential number of new tasks.
翻訳日:2023-01-14 02:00:48 公開日:2020-10-15
# 多レベル非巡回ハイパーグラフパーティショニング

Multilevel Acyclic Hypergraph Partitioning ( http://arxiv.org/abs/2002.02962v2 )

ライセンス: Link先を確認
Merten Popp, Sebastian Schlag, Christian Schulz, Daniel Seemaier(参考訳) 有向非巡回ハイパーグラフは、有向非巡回グラフの一般化概念であり、各ハイパーエッジは任意の数の尾と頭部を含むことができる。 有向ハイパーグラフは、ストリーミングアプリケーションにおけるデータフローと実行依存性のモデル化に使用できる。 したがって、ハイパーグラフ分割アルゴリズムはマルチプロセッサアーキテクチャの効率的な並列化を実現するのに利用できる。 しかし、この種のハードウェアのリソース制限のため、ストリーミングアプリケーションを組み込みマルチプロセッサにマッピングする場合、パーティションに対する非循環的な制約が必要である。 非巡回ハイパーグラフ分割問題は、有向非巡回ハイパーグラフのハイパーノードを、対応する商グラフが非巡回であるように、その分割上の目的関数を最小限に抑えながら、ほぼ等しい大きさのブロックに分割することである。 本稿では,非巡回超グラフ分割問題に対する最初のnレベルアルゴリズムを提案する。 ハイパーエッジは1つの頭部と任意の多くの尾を持つことができる。 これに基づいて,通信コストをさらに削減し,組み込みマルチプロセッサアーキテクチャのスケジューリング効率を向上させるためのmemeticアルゴリズムを考案した。 実験により,従来アプリケーション領域で用いられてきた有向非巡回グラフケースに着目した従来のアルゴリズムよりもアルゴリズムが優れていることが示された。 さらに,このタイプのアプリケーションに対して有向ハイパーグラフモデルを用いることで,makespanが大幅に小さくなることを示す実験を行った。

A directed acyclic hypergraph is a generalized concept of a directed acyclic graph, where each hyperedge can contain an arbitrary number of tails and heads. Directed hypergraphs can be used to model data flow and execution dependencies in streaming applications. Thus, hypergraph partitioning algorithms can be used to obtain efficient parallelizations for multiprocessor architectures. However, an acyclicity constraint on the partition is necessary when mapping streaming applications to embedded multiprocessors due to resource restrictions on this type of hardware. The acyclic hypergraph partitioning problem is to partition the hypernodes of a directed acyclic hypergraph into a given number of blocks of roughly equal size such that the corresponding quotient graph is acyclic while minimizing an objective function on the partition. Here, we contribute the first n-level algorithm for the acyclic hypergraph partitioning problem. Our focus is on acyclic hypergraphs where hyperedges can have one head and arbitrary many tails. Based on this, we engineer a memetic algorithm to further reduce communication cost, as well as to improve scheduling makespan on embedded multiprocessor architectures. Experiments indicate that our algorithm outperforms previous algorithms that focus on the directed acyclic graph case which have previously been employed in the application domain. Moreover, our experiments indicate that using the directed hypergraph model for this type of application yields a significantly smaller makespan.
翻訳日:2023-01-03 12:48:27 公開日:2020-10-15
# カーネルヒルベルト空間における強化学習政策の表現

Representation of Reinforcement Learning Policies in Reproducing Kernel Hilbert Spaces ( http://arxiv.org/abs/2002.02863v2 )

ライセンス: Link先を確認
Bogdan Mazoure, Thang Doan, Tianyu Li, Vladimir Makarenkov, Joelle Pineau, Doina Precup, Guillaume Rabusseau(参考訳) 強化学習タスクのためのポリシー表現のための汎用フレームワークを提案する。 このフレームワークは、再生されたカーネルヒルベルト空間(RKHS)にポリシーの低次元埋め込みを見つけることを含む。 RKHSに基づく手法を用いることで、再建された方針の復活を期待する理論的保証を得ることができる。 このような保証はブラックボックスモデルには通常欠けているが、安定性を必要とするタスクでは非常に望ましい。 古典的なRL領域についていくつかの実験を行う。 その結果、ポリシーは低次元空間にロバストに埋め込まれるが、組み込みポリシーはほとんどリターンの低下を生じないことがわかった。

We propose a general framework for policy representation for reinforcement learning tasks. This framework involves finding a low-dimensional embedding of the policy on a reproducing kernel Hilbert space (RKHS). The usage of RKHS based methods allows us to derive strong theoretical guarantees on the expected return of the reconstructed policy. Such guarantees are typically lacking in black-box models, but are very desirable in tasks requiring stability. We conduct several experiments on classic RL domains. The results confirm that the policies can be robustly embedded in a low-dimensional space while the embedded policy incurs almost no decrease in return.
翻訳日:2023-01-03 04:02:00 公開日:2020-10-15
# しっかりつかまって! 判別的特徴がディープネットワーク境界に及ぼす影響

Hold me tight! Influence of discriminative features on deep network boundaries ( http://arxiv.org/abs/2002.06349v4 )

ライセンス: Link先を確認
Guillermo Ortiz-Jimenez, Apostolos Modas, Seyed-Mohsen Moosavi-Dezfooli, Pascal Frossard(参考訳) ニューラルネットワークの説明可能性に対する重要な洞察は、その決定境界の特徴にある。 本研究では,敵対的ロバスト性の分野からツールを借用し,データセットの特徴とサンプルの距離を決定境界に関連付ける新しい視点を提案する。 これにより、トレーニングサンプルの位置を慎重に調整し、大規模ビジョンデータセットでトレーニングされたcnnの境界の変化を測定することができます。 このフレームワークを使って、CNNの興味深い特性を明らかにします。 具体的には、ニューラルネットワークが非識別的特徴に対して高い不変性を示すことを厳密に確認し、DNNの決定境界は、分類器がそれらを保持するいくつかの特徴で訓練される限り存在することを示す。 最後に、決定境界の構築は、トレーニングサンプルの小さな摂動に非常に敏感であり、特定の方向の変化は、直交領域の急激な不変性をもたらす可能性があることを示す。 これはまさに、敵のトレーニングが堅牢性を達成するために使うメカニズムです。

Important insights towards the explainability of neural networks reside in the characteristics of their decision boundaries. In this work, we borrow tools from the field of adversarial robustness, and propose a new perspective that relates dataset features to the distance of samples to the decision boundary. This enables us to carefully tweak the position of the training samples and measure the induced changes on the boundaries of CNNs trained on large-scale vision datasets. We use this framework to reveal some intriguing properties of CNNs. Specifically, we rigorously confirm that neural networks exhibit a high invariance to non-discriminative features, and show that the decision boundaries of a DNN can only exist as long as the classifier is trained with some features that hold them together. Finally, we show that the construction of the decision boundary is extremely sensitive to small perturbations of the training samples, and that changes in certain directions can lead to sudden invariances in the orthogonal ones. This is precisely the mechanism that adversarial training uses to achieve robustness.
翻訳日:2022-12-31 22:44:18 公開日:2020-10-15
# ドロップアウトの暗黙的および明示的正規化効果

The Implicit and Explicit Regularization Effects of Dropout ( http://arxiv.org/abs/2002.12915v3 )

ライセンス: Link先を確認
Colin Wei, Sham Kakade, Tengyu Ma(参考訳) ドロップアウトは広く使われている正規化技術であり、多くのアーキテクチャの最先端を得るためにしばしば必要とされる。 この研究は、ドロップアウトが2つの異なるが絡み合った正規化効果をもたらすことを示した: ドロップアウトから生じる明示的な効果(先行研究でも研究されている)は、期待されるトレーニング目標を変更する。 この暗黙の正規化効果は、小さなミニバッチ確率勾配降下における確率効果に類似している。 我々はこの2つの効果を制御実験によって解消する。 次に、深層ニューラルネットワークに対するモデルの導出と損失の観点から各効果を特徴づける解析的単純化を導出する。 これらの単純化された解析的正規化器は、ドロップアウトの重要な側面を正確に捉え、実際にドロップアウトを忠実に置き換えている。

Dropout is a widely-used regularization technique, often required to obtain state-of-the-art for a number of architectures. This work demonstrates that dropout introduces two distinct but entangled regularization effects: an explicit effect (also studied in prior work) which occurs since dropout modifies the expected training objective, and, perhaps surprisingly, an additional implicit effect from the stochasticity in the dropout training update. This implicit regularization effect is analogous to the effect of stochasticity in small mini-batch stochastic gradient descent. We disentangle these two effects through controlled experiments. We then derive analytic simplifications which characterize each effect in terms of the derivatives of the model and the loss, for deep neural networks. We demonstrate these simplified, analytic regularizers accurately capture the important aspects of dropout, showing they faithfully replace dropout in practice.
翻訳日:2022-12-28 01:37:31 公開日:2020-10-15
# 無線リソース割り当てのための一般化ベンダ分解の高速化

Accelerating Generalized Benders Decomposition for Wireless Resource Allocation ( http://arxiv.org/abs/2003.01294v2 )

ライセンス: Link先を確認
Mengyuan Lee, Ning Ma, Guanding Yu, and Huaiyu Dai(参考訳) 一般化ベンダー分解(GBD)は、NPハードであり、無線リソース割り当ての領域で広く見られる混合整数非線形プログラミング(MINLP)問題に対して、グローバルに最適化されたアルゴリズムである。 GBDの主な考え方は、MINLP問題を原始問題とマスター問題に分解することであり、それらの解が収束するまで反復的に解決される。 しかし、GBDの直接実装は時間とメモリ消費である。 主なボトルネックは、マスター問題の複雑さが高く、イテレーションによって増加することです。 そこで本稿では,機械学習(ML)技術を活用し,マスター問題の複雑性の低減を目的としたGBDの高速化を提案する。 具体的には、このアクセラレーションタスクに対処するために、分類と回帰の2つの異なるML技術を利用する。 このようにして、カット分類器とカット回帰器をそれぞれ学習し、有用かつ無駄なカットを区別する。 有用なカットだけがマスター問題に追加され、マスター問題の複雑さが低減される。 デバイス間通信ネットワークにおけるリソース割り当て問題を例として、最適性を失わずにGBDの計算複雑性を低減し、強力な一般化能力を有することを示す。 提案手法は,異なる問題に対して設計が不変であるため,無線ネットワークにおける様々なminlp問題に対して適用可能である。

Generalized Benders decomposition (GBD) is a globally optimal algorithm for mixed integer nonlinear programming (MINLP) problems, which are NP-hard and can be widely found in the area of wireless resource allocation. The main idea of GBD is decomposing an MINLP problem into a primal problem and a master problem, which are iteratively solved until their solutions converge. However, a direct implementation of GBD is time- and memory-consuming. The main bottleneck is the high complexity of the master problem, which increases over the iterations. Therefore, we propose to leverage machine learning (ML) techniques to accelerate GBD aiming at decreasing the complexity of the master problem. Specifically, we utilize two different ML techniques, classification and regression, to deal with this acceleration task. In this way, a cut classifier and a cut regressor are learned, respectively, to distinguish between useful and useless cuts. Only useful cuts are added to the master problem and thus the complexity of the master problem is reduced. By using a resource allocation problem in device-to-device communication networks as an example, we validate that the proposed method can reduce the computational complexity of GBD without loss of optimality and has strong generalization ability. The proposed method is applicable for solving various MINLP problems in wireless networks since the designs are invariant for different problems.
翻訳日:2022-12-26 23:37:49 公開日:2020-10-15
# CRATOS: 時系列最適解に対する信頼性アルゴリズムの認識

CRATOS: Cognition of Reliable Algorithm for Time-series Optimal Solution ( http://arxiv.org/abs/2003.01412v3 )

ライセンス: Link先を確認
Ziling Wu, Ping Liu, Zheng Hu, Bocheng Li and Jun Wang(参考訳) 時系列の異常検出は信頼性システム工学において重要な役割を果たす。 しかし、実際のアプリケーションでは、異なるアプリケーションシナリオにおける正常な振る舞いと異常な振る舞いの境界が正確に定義されていない。 したがって、異なる状況下で時系列に対して異なる異常検出アルゴリズムとプロセスを採用する必要がある。 このような戦略により異常検出の精度は向上するが、様々なアルゴリズムを数百万のシリーズに設定するには多くの時間がかかるため、異常検出プロセスの開発とメンテナンスコストが大幅に向上する。 本稿では,時系列から特徴を抽出する自己適応型アルゴリズムであるcratosを提案する。 各グループについて,進化的アルゴリズムを用いて最善の異常検出手法とプロセスを探索する。 本手法は異常検出の開発と維持に要するコストを大幅に削減できる。 実験により,我々のクラスタリング手法は最先端の結果を得ることができた。 本論文における異常検出アルゴリズムの精度は85.1%である。

Anomaly detection of time series plays an important role in reliability systems engineering. However, in practical application, there is no precisely defined boundary between normal and anomalous behaviors in different application scenarios. Therefore, different anomaly detection algorithms and processes ought to be adopted for time series in different situation. Although such strategy improve the accuracy of anomaly detection, it takes a lot of time for practitioners to configure various algorithms to millions of series, which greatly increases the development and maintenance cost of anomaly detection processes. In this paper, we propose CRATOS which is a self-adapt algorithms that extract features from time series, and then cluster series with similar features into one group. For each group we utilize evolutionary algorithm to search the best anomaly detection methods and processes. Our methods can significantly reduce the cost of development and maintenance of anomaly detection. According to experiments, our clustering methods achieves the state-of-art results. The accuracy of the anomaly detection algorithms in this paper is 85.1%.
翻訳日:2022-12-26 21:41:22 公開日:2020-10-15
# ヒント: コンテキストバンディットにおける損失予測器の活用方法?

Taking a hint: How to leverage loss predictors in contextual bandits? ( http://arxiv.org/abs/2003.01922v2 )

ライセンス: Link先を確認
Chen-Yu Wei, Haipeng Luo, Alekh Agarwal(参考訳) 我々は,損失予測者の助けを借りて,文脈的バンディットにおける学習の研究を開始する。 主な疑問は、予測子 $\mathcal{E} \leq T$ の総誤差が比較的小さいとき、$T$ 以上のラウンドを学習するために、minimax regret $\mathcal{O}(\sqrt{T})$ よりも改善できるかどうかである。 この質問に対する完全な答えは、様々な設定における上界と下界を含む:敵対確率環境、既知の対未知の$\mathcal{e}$、単一対複数の予測器。 我々はいくつかの驚くべき結果を示す。 1) 最適な後悔は$\mathcal{O}(\min\{\sqrt{T}, \sqrt{\mathcal{E}}T^\frac{1}{4}\})$である。 2)$\mathcal{E}$が未知ならば同じ境界は達成できないが、救済策として$\mathcal{O}(\sqrt{\mathcal{E}}T^\frac{1}{3})$は達成可能である。 3)$m$予測器では,非文脈問題に対して対数依存が可能であっても,$m$に対する線形依存が必要である。 また,上界のマッチングを実現するための新しいアルゴリズム手法もいくつか開発している。 1) 既知の$\mathcal{e}$, を持つ最適後悔のためのキーアクション再マッピング手法 2)ermオラクルによるカトーニのロバスト平均推定器の効率的な実装は、最適後悔を伴う確率的設定において効率的なアルゴリズムをもたらす。 3) 未知の$\mathcal{E}$の確率的設定に対して指数関数的に増加する大きさのビンでヒストグラムを推定することで、$\mathcal{E}$の過小評価器を構築する。 4) 複数の予測者による学習のための自己推論スキーム。

We initiate the study of learning in contextual bandits with the help of loss predictors. The main question we address is whether one can improve over the minimax regret $\mathcal{O}(\sqrt{T})$ for learning over $T$ rounds, when the total error of the predictor $\mathcal{E} \leq T$ is relatively small. We provide a complete answer to this question, including upper and lower bounds for various settings: adversarial versus stochastic environments, known versus unknown $\mathcal{E}$, and single versus multiple predictors. We show several surprising results, such as 1) the optimal regret is $\mathcal{O}(\min\{\sqrt{T}, \sqrt{\mathcal{E}}T^\frac{1}{4}\})$ when $\mathcal{E}$ is known, a sharp contrast to the standard and better bound $\mathcal{O}(\sqrt{\mathcal{E}})$ for non-contextual problems (such as multi-armed bandits); 2) the same bound cannot be achieved if $\mathcal{E}$ is unknown, but as a remedy, $\mathcal{O}(\sqrt{\mathcal{E}}T^\frac{1}{3})$ is achievable; 3) with $M$ predictors, a linear dependence on $M$ is necessary, even if logarithmic dependence is possible for non-contextual problems. We also develop several novel algorithmic techniques to achieve matching upper bounds, including 1) a key action remapping technique for optimal regret with known $\mathcal{E}$, 2) implementing Catoni's robust mean estimator efficiently via an ERM oracle leading to an efficient algorithm in the stochastic setting with optimal regret, 3) constructing an underestimator for $\mathcal{E}$ via estimating the histogram with bins of exponentially increasing size for the stochastic setting with unknown $\mathcal{E}$, and 4) a self-referential scheme for learning with multiple predictors, all of which might be of independent interest.
翻訳日:2022-12-26 12:25:31 公開日:2020-10-15
# 領域適応セマンティックセマンティックセグメンテーションのための不確かさ推定による擬似ラベル学習

Rectifying Pseudo Label Learning via Uncertainty Estimation for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2003.03773v3 )

ライセンス: Link先を確認
Zhedong Zheng and Yi Yang(参考訳) 本稿では、意味的セグメンテーションの文脈において、ソースドメインからターゲットドメインへの知識伝達の教師なし領域適応に焦点を当てる。 既存のアプローチでは、通常、擬似ラベルを未ラベルのターゲットドメインデータを完全に活用するための基礎的真理とみなす。 しかし、ターゲットドメインデータの擬似ラベルは通常、ソースドメインでトレーニングされたモデルによって予測される。 これにより、生成されたラベルは、トレーニングドメインとテストドメインとの相違による誤予測を必然的に含み、最終適応モデルに転送することができ、トレーニングプロセスを大きく損なうことができる。 本稿では,教師なし意味セグメンテーション適応のための擬似ラベル学習を正すために,学習中の予測の不確かさを明示的に推定することを提案する。 入力画像が与えられた場合、モデルはセマンティックセグメンテーション予測と予測の不確実性を出力する。 具体的には,予測分散による不確かさをモデル化し,不確実性を最適化目標に含める。 提案手法の有効性を検証するために,gta5 ->都市景観とシンセシア ->都市景観の2つの一般的な合成・実意味セグメンテーションベンチマークと,都市横断ベンチマーク,すなわち都市景観 ->オックスフォードロボットカーについて評価を行った。 提案手法は,(1)予測のばらつきに応じて異なる信頼度閾値を動的に設定し,(2)うるさい擬似ラベルからの学習を補正し,(3)従来の擬似ラベル学習よりも大幅に改善し,3つのベンチマークすべてにおいて競合性能が得られることを示す。

This paper focuses on the unsupervised domain adaptation of transferring the knowledge from the source domain to the target domain in the context of semantic segmentation. Existing approaches usually regard the pseudo label as the ground truth to fully exploit the unlabeled target-domain data. Yet the pseudo labels of the target-domain data are usually predicted by the model trained on the source domain. Thus, the generated labels inevitably contain the incorrect prediction due to the discrepancy between the training domain and the test domain, which could be transferred to the final adapted model and largely compromises the training process. To overcome the problem, this paper proposes to explicitly estimate the prediction uncertainty during training to rectify the pseudo label learning for unsupervised semantic segmentation adaptation. Given the input image, the model outputs the semantic segmentation prediction as well as the uncertainty of the prediction. Specifically, we model the uncertainty via the prediction variance and involve the uncertainty into the optimization objective. To verify the effectiveness of the proposed method, we evaluate the proposed method on two prevalent synthetic-to-real semantic segmentation benchmarks, i.e., GTA5 -> Cityscapes and SYNTHIA -> Cityscapes, as well as one cross-city benchmark, i.e., Cityscapes -> Oxford RobotCar. We demonstrate through extensive experiments that the proposed approach (1) dynamically sets different confidence thresholds according to the prediction variance, (2) rectifies the learning from noisy pseudo labels, and (3) achieves significant improvements over the conventional pseudo label learning and yields competitive performance on all three benchmarks.
翻訳日:2022-12-25 14:34:53 公開日:2020-10-15
# 保証可能な不正確なモデルを用いた計画と実行

Planning and Execution using Inaccurate Models with Provable Guarantees ( http://arxiv.org/abs/2003.04394v5 )

ライセンス: Link先を確認
Anirudh Vemula, Yash Oza, J. Andrew Bagnell, Maxim Likhachev(参考訳) 現実の行動実行の結果をシミュレートするために現代の計画問題で使用されるモデルは、物理学に基づく推論を行うシミュレーターから、事前計算された解析運動プリミティブまで、ますます複雑になりつつある。 しかし、現実世界で動作しているロボットは、実行前にこれらのモデルによってモデル化されない状況に直面することが多い。 この不完全なモデリングは、実行中に非常に最適あるいは不完全な振る舞いを引き起こす可能性がある。 本稿では,計画と実行のインターリーブ手法としてCMAXを提案する。 cmaxは、実世界の実行中に計画戦略をオンラインで適用し、計画中のダイナミクスの相違を考慮し、モデルのダイナミクスのアップデートを必要としない。 これは、プランナーが不正確なモデル化がなされた遷移から逸脱し、不正確なモデルがあるにもかかわらずタスクを完了しようとするロボットの動作につながる。 我々は,提案する計画・実行フレームワークの完全性と効率性について,小規模かつ大規模な状態空間に対して,モデル上の特定の仮定の下で証明可能な保証を提供する。 提案手法は, 物体の質量が正しくモデル化されていない3次元ピック・アンド・プレイス・タスクと, 片方の関節が動作しない7次元アーム計画タスクを含む, PR2を用いた実動ロボット実験において, 4次元平面押下を含むシミュレーションロボット作業において有効であることが実証された。 私たちの物理ロボット実験のビデオはhttps://youtu.be/eQmAeWIhjO8で見ることができる。

Models used in modern planning problems to simulate outcomes of real world action executions are becoming increasingly complex, ranging from simulators that do physics-based reasoning to precomputed analytical motion primitives. However, robots operating in the real world often face situations not modeled by these models before execution. This imperfect modeling can lead to highly suboptimal or even incomplete behavior during execution. In this paper, we propose CMAX an approach for interleaving planning and execution. CMAX adapts its planning strategy online during real-world execution to account for any discrepancies in dynamics during planning, without requiring updates to the dynamics of the model. This is achieved by biasing the planner away from transitions whose dynamics are discovered to be inaccurately modeled, thereby leading to robot behavior that tries to complete the task despite having an inaccurate model. We provide provable guarantees on the completeness and efficiency of the proposed planning and execution framework under specific assumptions on the model, for both small and large state spaces. Our approach CMAX is shown to be efficient empirically in simulated robotic tasks including 4D planar pushing, and in real robotic experiments using PR2 involving a 3D pick-and-place task where the mass of the object is incorrectly modeled, and a 7D arm planning task where one of the joints is not operational leading to discrepancy in dynamics. The video of our physical robot experiments can be found at https://youtu.be/eQmAeWIhjO8
翻訳日:2022-12-25 09:27:23 公開日:2020-10-15
# laserflow:効率的な確率的物体検出と動き予測

LaserFlow: Efficient and Probabilistic Object Detection and Motion Forecasting ( http://arxiv.org/abs/2003.05982v4 )

ライセンス: Link先を確認
Gregory P. Meyer, Jake Charland, Shreyash Pandey, Ankit Laddha, Shivam Gautam, Carlos Vallespi-Gonzalez, Carl K. Wellington(参考訳) 本稿では,LiDARからの3次元物体検出と動き予測の効率的な手法であるLaserFlowを提案する。 従来の手法と異なり,本手法ではLiDARのネイティブレンジビュー表現を利用して,データのボキセル化や圧縮を伴わずに,センサの全範囲でリアルタイムに動作することができる。 本稿では,画像から時間的特徴を直接抽出し,マージするマルチスウィープ融合アーキテクチャを提案する。 さらに,カリキュラム学習に触発された将来の軌道上の確率分布を学習する新しい手法を提案する。 2つの自律運転データセット上でのレーザーフローを評価し,既存の最先端手法と比較した場合の競合結果を示す。

In this work, we present LaserFlow, an efficient method for 3D object detection and motion forecasting from LiDAR. Unlike the previous work, our approach utilizes the native range view representation of the LiDAR, which enables our method to operate at the full range of the sensor in real-time without voxelization or compression of the data. We propose a new multi-sweep fusion architecture, which extracts and merges temporal features directly from the range images. Furthermore, we propose a novel technique for learning a probability distribution over future trajectories inspired by curriculum learning. We evaluate LaserFlow on two autonomous driving datasets and demonstrate competitive results when compared to the existing state-of-the-art methods.
翻訳日:2022-12-24 14:32:34 公開日:2020-10-15
# サンプリングと圧縮による学習:超限定アノテーションを用いた効率的なグラフ表現学習

Learning by Sampling and Compressing: Efficient Graph Representation Learning with Extremely Limited Annotations ( http://arxiv.org/abs/2003.06100v2 )

ライセンス: Link先を確認
Xiaoming Liu, Qirui Li, Chao Shen, Xi Peng, Yadong Zhou, Xiaohong Guan(参考訳) グラフ畳み込みネットワーク (GCN) は幅広い用途で研究の関心を集めている。 既存の作業は主にパフォーマンス向上のために新しいGCNアーキテクチャの設計に重点を置いているが、実際的かつ難しい問題を研究している人はほとんどいない: 極めて限定的なアノテーションでデータからGCNを学ぶにはどうすればいいのか? 本稿では,この課題を克服するために,サンプリング戦略とモデル圧縮による新しい学習手法を提案する。 私たちのアプローチには 様々な利点があります 1) 適応サンプリング戦略は, 均一サンプリングに対するGCNトレーニング偏差を大幅に抑制する。 2) パラメータの小さい圧縮GCNベースの手法は、トレーニングするラベル付きデータを少なくする。 3) 学習データの小規模化は, ラベル付けに要する人的資源コストの低減に有用である。 我々は6つの一般的なGCNベースラインを選択し、3つの実世界のデータセットで広範な実験を行う。 その結果,提案手法を適用することで,GCNベースラインのアノテーション要件を90$\%$まで削減し,強い性能を犠牲にすることなく6$\times$以上のパラメータのスケールを圧縮できることが判明した。 トレーニング手法が既存の半教師付きGCNベースの手法を非常に小さなラベル付きデータでシナリオに拡張できることを検証する。

Graph convolution network (GCN) attracts intensive research interest with broad applications. While existing work mainly focused on designing novel GCN architectures for better performance, few of them studied a practical yet challenging problem: How to learn GCNs from data with extremely limited annotation? In this paper, we propose a new learning method by sampling strategy and model compression to overcome this challenge. Our approach has multifold advantages: 1) the adaptive sampling strategy largely suppresses the GCN training deviation over uniform sampling; 2) compressed GCN-based methods with a smaller scale of parameters need fewer labeled data to train; 3) the smaller scale of training data is beneficial to reduce the human resource cost to label them. We choose six popular GCN baselines and conduct extensive experiments on three real-world datasets. The results show that by applying our method, all GCN baselines cut down the annotation requirement by as much as 90$\%$ and compress the scale of parameters more than 6$\times$ without sacrificing their strong performance. It verifies that the training method could extend the existing semi-supervised GCN-based methods to the scenarios with the extremely small scale of labeled data.
翻訳日:2022-12-24 01:22:36 公開日:2020-10-15
# プレトレーニングトランスの校正

Calibration of Pre-trained Transformers ( http://arxiv.org/abs/2003.07892v3 )

ライセンス: Link先を確認
Shrey Desai and Greg Durrett(参考訳) 事前学習されたトランスフォーマーは現在、自然言語処理においてユビキタスであるが、その高いエンドタスク性能にもかかわらず、それらのキャリブレーションについて実証的にはほとんど知られていない。 具体的には、これらのモデルの後方確率は、与えられた例でモデルがどの程度正しいかの正確な経験的尺度を提供するか? 本研究ではBERTとRoBERTaに着目し,自然言語推論,パラフレーズ検出,コモンセンス推論という3つのタスクのキャリブレーションを分析した。 各タスクに対して、ドメイン内だけでなく、モデルが不確実であるべき多くの例に直面しているドメイン外の設定にも挑戦する。 その結果,(1)事前学習済みモデルを用いてドメイン内校正を行い,ベースラインと比較した場合,キャリブレーション誤差を最大3.5倍低くすることができること,(2)ドメイン内キャリブレーション誤差を更に低減するために温度スケーリングが有効であること,およびラベル平滑化を故意に経験的不確かさを増加させることが,ドメイン外校正に有効であることがわかった。

Pre-trained Transformers are now ubiquitous in natural language processing, but despite their high end-task performance, little is known empirically about whether they are calibrated. Specifically, do these models' posterior probabilities provide an accurate empirical measure of how likely the model is to be correct on a given example? We focus on BERT and RoBERTa in this work, and analyze their calibration across three tasks: natural language inference, paraphrase detection, and commonsense reasoning. For each task, we consider in-domain as well as challenging out-of-domain settings, where models face more examples they should be uncertain about. We show that: (1) when used out-of-the-box, pre-trained models are calibrated in-domain, and compared to baselines, their calibration error out-of-domain can be as much as 3.5x lower; (2) temperature scaling is effective at further reducing calibration error in-domain, and using label smoothing to deliberately increase empirical uncertainty helps calibrate posteriors out-of-domain.
翻訳日:2022-12-22 20:39:09 公開日:2020-10-15
# Across Scales and Across Dimensions: 深層学習を用いた時間的超解法

Across Scales & Across Dimensions: Temporal Super-Resolution using Deep Internal Learning ( http://arxiv.org/abs/2003.08872v3 )

ライセンス: Link先を確認
Liad Pollak Zuckerman, Eyal Naor, George Pisha, Shai Bagon, Michal Irani(参考訳) 低フレームカメラで非常に高速なダイナミックイベントを記録すると、結果として生じるビデオは、(露光時間による)激しい動きのぼやけと、(時間のサンプリングレートが低いため)動きのエイリアスに苦しむ。 真の時間的超解像(tsr)は単に時間的補間(フレームレートの増大)以上のものである。 また、入力ビデオの時間的ニキスト限界を超える新しい高時間周波数を復元し、時間的フレーム補間(おそらくは洗練された)が不可能なモーションブルー効果とモーションエイリアス効果の両方を解消する。 本稿では,真のTSRに対する「深層内部学習」手法を提案する。 低フレームの入力ビデオから抽出したサンプルにビデオ固有のcnnを訓練する。 提案手法は,ビデオの時空間スケール内および時間間隔の異なる1つのビデオシーケンス内において,小さな時空間パッチの強い再帰性を利用する。 さらに、空間的および時間的次元を切り替えることで、小さな時空間パッチがビデオシーケンスの寸法をまたいで再帰することを(初めて)観察する。 特に、ビデオフレームの高解像度化は、そのビデオの時間分解能を高める方法についての強い例を提供する。 このような内部ビデオ固有の例は、入力ビデオ自体にデータを必要としない強力な自己スーパービジョンをもたらす。 これにより、複雑なビデオのZero-ShotテンポラルSRが実現し、モーションボケとモーションエイリアシングの両方を取り除き、外部ビデオデータセットでトレーニングされた従来の教師付き手法よりも優れている。

When a very fast dynamic event is recorded with a low-framerate camera, the resulting video suffers from severe motion blur (due to exposure time) and motion aliasing (due to low sampling rate in time). True Temporal Super-Resolution (TSR) is more than just Temporal-Interpolation (increasing framerate). It can also recover new high temporal frequencies beyond the temporal Nyquist limit of the input video, thus resolving both motion-blur and motion-aliasing effects that temporal frame interpolation (as sophisticated as it maybe) cannot undo. In this paper we propose a "Deep Internal Learning" approach for true TSR. We train a video-specific CNN on examples extracted directly from the low-framerate input video. Our method exploits the strong recurrence of small space-time patches inside a single video sequence, both within and across different spatio-temporal scales of the video. We further observe (for the first time) that small space-time patches recur also across-dimensions of the video sequence - i.e., by swapping the spatial and temporal dimensions. In particular, the higher spatial resolution of video frames provides strong examples as to how to increase the temporal resolution of that video. Such internal video-specific examples give rise to strong self-supervision, requiring no data but the input video itself. This results in Zero-Shot Temporal-SR of complex videos, which removes both motion blur and motion aliasing, outperforming previous supervised methods trained on external video datasets.
翻訳日:2022-12-22 04:33:20 公開日:2020-10-15
# 複数の対向的摂動に対する近似的マニフォールド防御

Approximate Manifold Defense Against Multiple Adversarial Perturbations ( http://arxiv.org/abs/2004.02183v2 )

ライセンス: Link先を確認
Jay Nandy, Wynne Hsu, Mong Li Lee(参考訳) 既存の敵攻撃に対する防御は、通常特定の摂動タイプに合わせて調整される。 複数のタイプの摂動から防御するために逆行訓練を使用するには、各トレーニングステップで異なる摂動タイプからの高価な逆行例が必要となる。 対照的に、多様体ベースの防御は生成ネットワークを組み込んで、入力サンプルをクリーンデータ多様体に投影する。 このアプローチでは、複数の摂動タイプに対して堅牢性を達成しながら、高価な対向例を生成する必要がなくなる。 しかし、このアプローチの成功は、生成ネットワークが完全なクリーンなデータ多様体をキャプチャできるかどうかに依存する。 本研究では,画像分類のための近似多様体防御機構RBF-CNNを提案する。 完全なデータ多様体をキャプチャする代わりに、RBF層を使って小さな画像パッチの密度を学習する。 RBF-CNNはまた、小さな敵の摂動を緩和する再構成層も利用している。 さらに,提案手法をトレーニングに取り入れることで,RBF-CNNモデルの対角的ロバスト性を向上させることができる。 MNISTとCIFAR-10データセットの実験結果から、RBF-CNNは高い対向訓練を必要とせず、複数の摂動に対して堅牢性を提供することが示された。

Existing defenses against adversarial attacks are typically tailored to a specific perturbation type. Using adversarial training to defend against multiple types of perturbation requires expensive adversarial examples from different perturbation types at each training step. In contrast, manifold-based defense incorporates a generative network to project an input sample onto the clean data manifold. This approach eliminates the need to generate expensive adversarial examples while achieving robustness against multiple perturbation types. However, the success of this approach relies on whether the generative network can capture the complete clean data manifold, which remains an open problem for complex input domain. In this work, we devise an approximate manifold defense mechanism, called RBF-CNN, for image classification. Instead of capturing the complete data manifold, we use an RBF layer to learn the density of small image patches. RBF-CNN also utilizes a reconstruction layer that mitigates any minor adversarial perturbations. Further, incorporating our proposed reconstruction process for training improves the adversarial robustness of our RBF-CNN models. Experiment results on MNIST and CIFAR-10 datasets indicate that RBF-CNN offers robustness for multiple perturbations without the need for expensive adversarial training.
翻訳日:2022-12-16 12:37:31 公開日:2020-10-15
# CVPR 2019 WADによる軌道予測と3次元知覚の課題

CVPR 2019 WAD Challenge on Trajectory Prediction and 3D Perception ( http://arxiv.org/abs/2004.05966v2 )

ライセンス: Link先を確認
Sibo Zhang, Yuexin Ma, Ruigang Yang(参考訳) 本稿では、自動運転に関するcvpr 2019チャレンジを概観する。 BaiduのRobotics and Autonomous Driving Lab (RAL)は、およそ80kのライダーポイントクラウドと1000kmの都市交通トラジェクトリを含む、Trajectoryと3D知覚データセットに150分間のラベルを付けた。 課題は(1)軌道予測と(2)3次元ライダー物体検出の2つの課題である。 このワークショップには200以上のチームが参加し、1000人以上の参加者が参加した。

This paper reviews the CVPR 2019 challenge on Autonomous Driving. Baidu's Robotics and Autonomous Driving Lab (RAL) providing 150 minutes labeled Trajectory and 3D Perception dataset including about 80k lidar point cloud and 1000km trajectories for urban traffic. The challenge has two tasks in (1) Trajectory Prediction and (2) 3D Lidar Object Detection. There are more than 200 teams submitted results on Leaderboard and more than 1000 participants attended the workshop.
翻訳日:2022-12-16 06:02:23 公開日:2020-10-15
# Mallat Scattering Transformation を用いたMagLIF形態の定量化

Quantification of MagLIF morphology using the Mallat Scattering Transformation ( http://arxiv.org/abs/2005.01600v2 )

ライセンス: Link先を確認
Michael E. Glinsky, Thomas W. Moore, William E. Lewis, Matthew R. Weis, Christopher A. Jennings, David J. Ampleford, Patrick F. Knapp, Eric C. Harding, Matthew R. Gomez, Adam J. Harvey-Thompson(参考訳) 磁化リニア慣性核融合(MagLIF)による静止プラズマの形態は、マルチkeVプラズマからの自己放出X線を撮像することによって測定される。 等価な診断応答は、HYDRAやGORGONのようなプログラムからの放射-磁気流体力学(rad-MHD)シミュレーションによって生成される。 画像形態、すなわちテクスチャ、シミュレーションと実験を比較するための定量的な方法は限られている。 我々は, テクスチャ, 音, 文字の識別に有効な変換法であるMallat Scattering Transformation (MST) に基づいて, 画像形態の指標を開発した。 この計量は、合成停滞画像のアンサンブル(すなわちクラス)を分類し、合成停滞画像のアンサンブルを合成画像を生成するのに用いられる形態(すなわちモデル)パラメータに回帰させることによって設計、実証、洗練される。 本研究では,実験画像と実験画像とのシミュレーションを定量的に比較し,不確かさを伴う実験画像の形態パラメータを推定する。 この座標空間は、MST空間において洗練された相対的背景減算を行うのに非常に適していることが証明されている。 これは実験的な自己発光画像をrad-MHDシミュレーション画像と比較するために必要であった。

The morphology of the stagnated plasma resulting from Magnetized Liner Inertial Fusion (MagLIF) is measured by imaging the self-emission x-rays coming from the multi-keV plasma. Equivalent diagnostic response can be generated by integrated radiation-magnetohydrodynamic (rad-MHD) simulations from programs such as HYDRA and GORGON. There have been only limited quantitative ways to compare the image morphology, that is the texture, of simulations and experiments. We have developed a metric of image morphology based on the Mallat Scattering Transformation (MST), a transformation that has proved to be effective at distinguishing textures, sounds, and written characters. This metric is designed, demonstrated, and refined by classifying ensembles (i.e., classes) of synthetic stagnation images, and by regressing an ensemble of synthetic stagnation images to the morphology (i.e., model) parameters used to generate the synthetic images. We use this metric to quantitatively compare simulations to experimental images, experimental images to each other, and to estimate the morphological parameters of the experimental images with uncertainty. This coordinate space has proved very adept at doing a sophisticated relative background subtraction in the MST space. This was needed to compare the experimental self emission images to the rad-MHD simulation images.
翻訳日:2022-12-14 00:30:15 公開日:2020-10-15
# 地球規模から見た分類器の逆ロバスト性の比較

How to compare adversarial robustness of classifiers from a global perspective ( http://arxiv.org/abs/2004.10882v2 )

ライセンス: Link先を確認
Niklas Risse, Christina G\"opfert, and Jan Philip G\"opfert(参考訳) 機械学習モデルの逆の堅牢性は近年大きな注目を集めている。 敵対的攻撃は機械学習モデルの信頼性と信頼性を損なうが、より堅牢なモデルの構築は、与えられたモデルの特性としての敵対的ロバスト性に対する厳密な理解にかかっている。 特定の脅威モデルのポイントワイド測度は、現在、分類器の堅牢性を比較する最も一般的なツールであり、敵の堅牢性に関する最近の論文で使われている。 本研究では,最近提案されたロバスト性曲線を用いて,異なる分類器のロバスト性を確実に比較する上で必須となる重要なグローバル特性を,ポイントワイズ測度が捉えることができないことを示す。 我々は,これらの特性を体系的に解明するためにロバストネス曲線を用いる新しい方法を紹介し,訓練モデルのロバスト性の評価と比較を行う際に,研究者や実践者に具体的な推奨を与える。 さらに,小規模と大規模の摂動を識別する手段としてスケールを特徴付け,データセットの固有特性と関連づけることにより,頑健性閾値を適切に選択する必要があることを示す。 この記事では、任意のデータセットと分類器のロバストネス曲線を計算するPythonモジュールを含む、この論文で提示されたすべての実験を再現するコードをリリースし、TensorFlow、PyTorch、JAX.jsなど、多数のフレームワークをサポートする。

Adversarial robustness of machine learning models has attracted considerable attention over recent years. Adversarial attacks undermine the reliability of and trust in machine learning models, but the construction of more robust models hinges on a rigorous understanding of adversarial robustness as a property of a given model. Point-wise measures for specific threat models are currently the most popular tool for comparing the robustness of classifiers and are used in most recent publications on adversarial robustness. In this work, we use recently proposed robustness curves to show that point-wise measures fail to capture important global properties that are essential to reliably compare the robustness of different classifiers. We introduce new ways in which robustness curves can be used to systematically uncover these properties and provide concrete recommendations for researchers and practitioners when assessing and comparing the robustness of trained models. Furthermore, we characterize scale as a way to distinguish small and large perturbations, and relate it to inherent properties of data sets, demonstrating that robustness thresholds must be chosen accordingly. We release code to reproduce all experiments presented in this paper, which includes a Python module to calculate robustness curves for arbitrary data sets and classifiers, supporting a number of frameworks, including TensorFlow, PyTorch and JAX.
翻訳日:2022-12-10 17:30:16 公開日:2020-10-15
# ユーザインタラクションから意味的パーサを学ぶための模倣ゲーム

An Imitation Game for Learning Semantic Parsers from User Interaction ( http://arxiv.org/abs/2005.00689v3 )

ライセンス: Link先を確認
Ziyu Yao, Yiqi Tang, Wen-tau Yih, Huan Sun, Yu Su(参考訳) 広く成功したアプリケーションにもかかわらず、ブートストラップと微調整のセマンティックパーザは、コストのかかるデータアノテーションやプライバシリスクといった課題を伴う面倒なプロセスである。 本稿では,ユーザから直接セマンティックパーザを学習するための代替手法を提案する。 セマンティックパーザはその不確かさを内省し、不確かさがあればユーザデモを促さなければならない。 そうすることで、ユーザーの振る舞いを模倣し、自らを自律的に改善し続け、最終的にはユーザーが質問を解釈するのと同じくらい良いものになることを期待します。 提案アルゴリズムは,実証された状態と確実な予測を混合し,新たなデータセットを反復的に収集し,セマンティック・パーサーをデータセット・アグリゲーション方式で再学習する手法である(Ross et al., 2011)。 我々は,そのコスト境界に関する理論的分析と,テキスト対sql問題におけるその有望な性能を実証する。 コードはhttps://github.com/sunlab-osu/mispで入手できる。

Despite the widely successful applications, bootstrapping and fine-tuning semantic parsers are still a tedious process with challenges such as costly data annotation and privacy risks. In this paper, we suggest an alternative, human-in-the-loop methodology for learning semantic parsers directly from users. A semantic parser should be introspective of its uncertainties and prompt for user demonstration when uncertain. In doing so it also gets to imitate the user behavior and continue improving itself autonomously with the hope that eventually it may become as good as the user in interpreting their questions. To combat the sparsity of demonstration, we propose a novel annotation-efficient imitation learning algorithm, which iteratively collects new datasets by mixing demonstrated states and confident predictions and re-trains the semantic parser in a Dataset Aggregation fashion (Ross et al., 2011). We provide a theoretical analysis of its cost bound and also empirically demonstrate its promising performance on the text-to-SQL problem. Code will be available at https://github.com/sunlab-osu/MISP.
翻訳日:2022-12-07 11:40:08 公開日:2020-10-15
# 時系列の早期分類のアプローチと応用:レビュー

Approaches and Applications of Early Classification of Time Series: A Review ( http://arxiv.org/abs/2005.02595v2 )

ライセンス: Link先を確認
Ashish Gupta, Hari Prabhat Gupta, Bhaskar Biswas, Tanima Dutta(参考訳) 時系列の初期の分類は、医療や金融などの時間に敏感なアプリケーションにおけるクラス予測遅延を最小化するために広く研究されてきた。 初期の分類アプローチの第一の課題は、所望の精度でできるだけ早く不完全な時系列を分類することである。 近年、時系列の早期分類のためのいくつかのアプローチが見られた。 多くのアプローチが早期分類問題を異なる側面で解決しているため、既存のソリューションを徹底的にレビューし、その領域の現状を知ることが非常に重要である。 これらのソリューションは、ヒトの活動認識、遺伝子発現に基づく健康診断、産業モニタリングなど、幅広い応用において合理的な性能を示している。 本稿では,一変量時系列と多変量時系列の両方の早期分類手法に関する文献を体系的にレビューする。 提案手法に基づき,既存のアプローチを4つの排他的カテゴリに分割する。 4つのカテゴリにはプレフィックスベース、シェープレットベース、モデルベース、雑多なアプローチが含まれる。 筆者らは,産業モニタリング,インテリジェントトランスポーテーション,医療など,多くの分野における早期分類の適用についても論じた。 最後に,現在の文献をざっと要約し,今後の研究の方向性について述べる。

Early classification of time series has been extensively studied for minimizing class prediction delay in time-sensitive applications such as healthcare and finance. A primary task of an early classification approach is to classify an incomplete time series as soon as possible with some desired level of accuracy. Recent years have witnessed several approaches for early classification of time series. As most of the approaches have solved the early classification problem with different aspects, it becomes very important to make a thorough review of the existing solutions to know the current status of the area. These solutions have demonstrated reasonable performance in a wide range of applications including human activity recognition, gene expression based health diagnostic, industrial monitoring, and so on. In this paper, we present a systematic review of current literature on early classification approaches for both univariate and multivariate time series. We divide various existing approaches into four exclusive categories based on their proposed solution strategies. The four categories include prefix based, shapelet based, model based, and miscellaneous approaches. The authors also discuss the applications of early classification in many areas including industrial monitoring, intelligent transportation, and medical. Finally, we provide a quick summary of the current literature with future research directions.
翻訳日:2022-12-06 04:56:28 公開日:2020-10-15
# 深層学習によるissの化学・運動・電気的アーティファクトの除去

Deep learning method to remove chemical, kinetic and electric artifacts on ISEs ( http://arxiv.org/abs/2005.13400v4 )

ライセンス: Link先を確認
Byunghyun Ban(参考訳) 本稿では, イオン選択電極の測定値から化学, 運動, 電気的アーティファクトを除去する深層学習に基づくセンサ信号処理法を提案する。 ISEはガラス膜に沿ってNernst電位を測定することにより、水溶液から特定のイオンの濃度を調べるために用いられる。 しかし、多イオン混合体へのISEの適用にはいくつかの問題がある。 第1の問題は、イオン干渉効果と呼ばれる化学アーティファクトである。 電気的に荷電された粒子は互いに相互作用し、異なる ise のガラス膜を流れる。 第2の問題は、液体の運動によって引き起こされる運動的アーティファクトである。 水分子はガラス膜と衝突し、異常なピーク値の電圧が生じる。 最後の成果物はISEの干渉です。 複数のISEを同じ溶液に浸すと、ある電極の他の電極の信号放電干渉電圧測定を行う。 したがって、ISEは、他のセンサを同時に適用することなく、単一イオン溶液に適用することが推奨される。 ディープラーニングアプローチは、両方のアーティファクトを同時に削除することができる。 提案手法では, ニューラルネットワークの5層を用いて, 1ショット計算で複雑なアーティファクトを除去する。 MAPEは1.8%以下であり、回帰R2は0.997である。 AI処理データのランダムに選択された値は、MAPEが5%未満である(p値0.016)。

We suggest a deep learning based sensor signal processing method to remove chemical, kinetic and electrical artifacts from ion selective electrodes' measured values. An ISE is used to investigate the concentration of a specific ion from aqueous solution, by measuring the Nernst potential along the glass membrane. However, application of ISE on a mixture of multiple ion has some problem. First problem is a chemical artifact which is called ion interference effect. Electrically charged particles interact with each other and flows through the glass membrane of different ISEs. Second problem is the kinetic artifact caused by the movement of the liquid. Water molecules collide with the glass membrane causing abnormal peak values of voltage. The last artifact is the interference of ISEs. When multiple ISEs are dipped into same solution, one electrode's signal emission interference voltage measurement of other electrodes. Therefore, an ISE is recommended to be applied on single-ion solution, without any other sensors applied at the same time. Deep learning approach can remove both 3 artifacts at the same time. The proposed method used 5 layers of artificial neural networks to regress correct signal to remove complex artifacts with one-shot calculation. Its MAPE was less than 1.8% and R2 of regression was 0.997. A randomly chosen value of AI-processed data has MAPE less than 5% (p-value 0.016).
翻訳日:2022-12-01 06:15:20 公開日:2020-10-15
# 新型コロナウイルスのアウトブレイクアライメントのための言語間移動学習

Cross-lingual Transfer Learning for COVID-19 Outbreak Alignment ( http://arxiv.org/abs/2006.03202v2 )

ライセンス: Link先を確認
Sharon Levy and William Yang Wang(参考訳) 新型コロナウイルスの感染拡大は、2020年に社会の重要かつ厄介な局面となった。 全国で何百万ものケースが報告され、新たなアウトブレイクが発生し、以前影響を受けた地域のパターンが続いた。 多くの病気検出モデルは、その拡散のモデル化と予測に利用できるソーシャルメディアの豊富なデータを取り入れていない。 この場合、ある国でこの知識を活用して、別の国のアウトブレイクをモデル化することは可能でしょうか? これに対応するために,疫学的アライメントのための言語間移動学習の課題を提案する。 マクロテキスト機能とマイクロテキスト機能の両方を利用することで,イタリアでは早期のcovid-19流行をtwitterを通じてトレーニングし,他の国に移管しています。 クロスカントリー予測では,最大0.85スピアマン相関の強い結果を示した。

The spread of COVID-19 has become a significant and troubling aspect of society in 2020. With millions of cases reported across countries, new outbreaks have occurred and followed patterns of previously affected areas. Many disease detection models do not incorporate the wealth of social media data that can be utilized for modeling and predicting its spread. In this case, it is useful to ask, can we utilize this knowledge in one country to model the outbreak in another? To answer this, we propose the task of cross-lingual transfer learning for epidemiological alignment. Utilizing both macro and micro text features, we train on Italy's early COVID-19 outbreak through Twitter and transfer to several other countries. Our experiments show strong results with up to 0.85 Spearman correlation in cross-country predictions.
翻訳日:2022-11-25 03:17:32 公開日:2020-10-15
# AutoPrivacy: セキュアニューラルネットワーク推論のためのレイヤワイズパラメータ自動選択

AutoPrivacy: Automated Layer-wise Parameter Selection for Secure Neural Network Inference ( http://arxiv.org/abs/2006.04219v2 )

ライセンス: Link先を確認
Qian Lou and Song Bian and Lei Jiang(参考訳) 準同型暗号化(he)による線形層と、garbled circuit(gc)による非線形層を実装するハイブリッドプライバシ保存ニューラルネットワーク(hppnn)は、新興のマシンラーニング・アズ・ア・サービス(mlaas)に対して、最も有望なセキュアなソリューションの1つである。 残念なことに、HPPNNは画像毎の$\sim100$ secondsなどの長時間の推論遅延に悩まされており、MLaaSは満足できない。 HPPNN の HE ベースの線形層は 93 %$ の推論遅延を必要とするため,線形層の計算オーバーヘッドを最小限に抑えるため,HE パラメータのセットを選択することが重要である。 HPPNNは、ネットワーク全体で同じHEパラメータセットを使用して、ネットワークのエラー許容能力を無視するため、大きなノイズ予算を維持するために巨大なHEパラメータを過小評価的に選択する。 本稿では,高速かつ高精度な安全なニューラルネットワーク推定のために,hpcnn内の各線形層に対するheパラメータのセットを自動決定するために,深層強化学習を利用する自動階層型パラメータセレクタautoprivacyを提案する。 学習に基づくHEパラメータ選択ポリシーは、従来のルールベースのHEパラメータ選択ポリシーよりも優れている。 従来の hppnn と比較して、autoprivacy-optimized hppnn は推論遅延を 53\%\sim70\%$ 削減し、精度は無視できる。

Hybrid Privacy-Preserving Neural Network (HPPNN) implementing linear layers by Homomorphic Encryption (HE) and nonlinear layers by Garbled Circuit (GC) is one of the most promising secure solutions to emerging Machine Learning as a Service (MLaaS). Unfortunately, a HPPNN suffers from long inference latency, e.g., $\sim100$ seconds per image, which makes MLaaS unsatisfactory. Because HE-based linear layers of a HPPNN cost $93\%$ inference latency, it is critical to select a set of HE parameters to minimize computational overhead of linear layers. Prior HPPNNs over-pessimistically select huge HE parameters to maintain large noise budgets, since they use the same set of HE parameters for an entire network and ignore the error tolerance capability of a network. In this paper, for fast and accurate secure neural network inference, we propose an automated layer-wise parameter selector, AutoPrivacy, that leverages deep reinforcement learning to automatically determine a set of HE parameters for each linear layer in a HPPNN. The learning-based HE parameter selection policy outperforms conventional rule-based HE parameter selection policy. Compared to prior HPPNNs, AutoPrivacy-optimized HPPNNs reduce inference latency by $53\%\sim70\%$ with negligible loss of accuracy.
翻訳日:2022-11-24 08:40:42 公開日:2020-10-15
# 点依存推定のためのニューラル手法

Neural Methods for Point-wise Dependency Estimation ( http://arxiv.org/abs/2006.05553v4 )

ライセンス: Link先を確認
Yao-Hung Hubert Tsai, Han Zhao, Makoto Yamada, Louis-Philippe Morency, Ruslan Salakhutdinov(参考訳) その開始以来、相互情報(mi)のニューラル推定は、高次元確率変数間の期待依存性をモデル化する経験的成功を示している。 しかし、MIは集計統計量であり、異なるイベント間のポイントワイズ依存を測定するには使用できない。 本研究では,期待される依存性を見積もる代わりに,2つの結果が共起する確率を定量的に測定する点依存性(PD)の推定に焦点をあてる。 MIニューラル変動境界を最適化する場合に自然にPDが得られることを示す。 しかし、これらの境界の最適化は、実際には大きなばらつきのため困難である。 この問題に対処するため、確率的分類法と密度比フィッティングという2つの手法(MI変動境界を最適化しない)を開発した。 我々は我々のアプローチの有効性を実証する。 1)MI推定。 2)自己指導型表現学習,及び 3)クロスモーダル検索タスク。

Since its inception, the neural estimation of mutual information (MI) has demonstrated the empirical success of modeling expected dependency between high-dimensional random variables. However, MI is an aggregate statistic and cannot be used to measure point-wise dependency between different events. In this work, instead of estimating the expected dependency, we focus on estimating point-wise dependency (PD), which quantitatively measures how likely two outcomes co-occur. We show that we can naturally obtain PD when we are optimizing MI neural variational bounds. However, optimizing these bounds is challenging due to its large variance in practice. To address this issue, we develop two methods (free of optimizing MI variational bounds): Probabilistic Classifier and Density-Ratio Fitting. We demonstrate the effectiveness of our approaches in 1) MI estimation, 2) self-supervised representation learning, and 3) cross-modal retrieval task.
翻訳日:2022-11-23 14:36:24 公開日:2020-10-15
# lfq: 深層強化学習を用いたフローキュー政策のオンライン学習

LFQ: Online Learning of Per-flow Queuing Policies using Deep Reinforcement Learning ( http://arxiv.org/abs/2007.02735v3 )

ライセンス: Link先を確認
Maximilian Bachl, Joachim Fabini, Tanja Zseby(参考訳) 異なる非互換な渋滞制御アルゴリズムが増加し、公正な待ち行列の展開が増加した。 フェアキューイングは各ネットワークフローを分離し、フローの混雑制御が本質的にフェアでない場合でも、フローごとの公平性を保証する。 今のところ、フェアキューシステムの各キューは、固定された、静的な最大サイズを持つか、CoDelのようなアクティブキュー管理(AQM)アルゴリズムによって管理される。 本稿では,各フローの最適バッファサイズをオンラインの報酬関数に応じて動的に学習する,aqm機構(learning fair qdisc (lfq))を設計する。 提案手法では,混雑制御や遅延,帯域幅に応じて,各フローに最適なキューサイズを動的に割り当てることができることを示す。 競合するAQMスケジューラと比較して、同じまたは高いスループットを実現しながら、より小さなキューを提供する。

The increasing number of different, incompatible congestion control algorithms has led to an increased deployment of fair queuing. Fair queuing isolates each network flow and can thus guarantee fairness for each flow even if the flows' congestion controls are not inherently fair. So far, each queue in the fair queuing system either has a fixed, static maximum size or is managed by an Active Queue Management (AQM) algorithm like CoDel. In this paper we design an AQM mechanism (Learning Fair Qdisc (LFQ)) that dynamically learns the optimal buffer size for each flow according to a specified reward function online. We show that our Deep Learning based algorithm can dynamically assign the optimal queue size to each flow depending on its congestion control, delay and bandwidth. Comparing to competing fair AQM schedulers, it provides significantly smaller queues while achieving the same or higher throughput.
翻訳日:2022-11-13 03:22:51 公開日:2020-10-15
# 進化的グラフ強化学習を用いたメモリ配置最適化

Optimizing Memory Placement using Evolutionary Graph Reinforcement Learning ( http://arxiv.org/abs/2007.07298v2 )

ライセンス: Link先を確認
Shauharda Khadka, Estelle Aflalo, Mattias Marder, Avrech Ben-David, Santiago Miret, Shie Mannor, Tamir Hazan, Hanlin Tang, Somdeb Majumdar(参考訳) ディープニューラルネットワークアクセラレーターでは、メモリ移動はエネルギー的に高価であり、計算を制限できる。 したがって、テンソルのメモリ階層への最適マッピングは性能にとって重要である。 ニューラルネットワークの複雑さが増大する中で、手動のヒューリスティックなアプローチではなく、自動メモリマッピングが求められている。 本稿では,グラフニューラルネットワーク,強化学習,進化探索を組み合わせた大規模探索空間のための進化的グラフ強化学習(EGRL)を紹介する。 高速でステートレスな一連のポリシーは、サンプル効率を改善するために進化的探索を導く。 我々は、推論のためにintel nnp-iチップ上で直接アプローチを訓練し検証する。 EGRLは、BERT、ResNet-101、ResNet-50のポリシー段階、進化的検索、動的プログラミングベースラインを上回っている。 また,NNP-Iコンパイラと比較して28~78倍の高速化を実現している。

For deep neural network accelerators, memory movement is both energetically expensive and can bound computation. Therefore, optimal mapping of tensors to memory hierarchies is critical to performance. The growing complexity of neural networks calls for automated memory mapping instead of manual heuristic approaches; yet the search space of neural network computational graphs have previously been prohibitively large. We introduce Evolutionary Graph Reinforcement Learning (EGRL), a method designed for large search spaces, that combines graph neural networks, reinforcement learning, and evolutionary search. A set of fast, stateless policies guide the evolutionary search to improve its sample-efficiency. We train and validate our approach directly on the Intel NNP-I chip for inference. EGRL outperforms policy-gradient, evolutionary search and dynamic programming baselines on BERT, ResNet-101 and ResNet-50. We additionally achieve 28-78\% speed-up compared to the native NNP-I compiler on all three workloads.
翻訳日:2022-11-10 13:39:48 公開日:2020-10-15
# ガウス過程エミュレーションを用いた非侵入的減階モデルの潜時時間発展

Latent-space time evolution of non-intrusive reduced-order models using Gaussian process emulation ( http://arxiv.org/abs/2007.12167v2 )

ライセンス: Link先を確認
Romit Maulik, Themistoklis Botsas, Nesar Ramachandra, Lachlan Robert Mason and Indranil Pan(参考訳) 様々な領域科学から出現する非線形力学系を計算的に効率的に構築するために、非侵襲的減階モデル (ROM) が最近大きな関心を集めている。 これらは本質的に高次元である可能性のあるシステムのための低次元エミュレーションフレームワークを提供する。 これは純粋にデータ駆動である構成アルゴリズムを利用することで実現される。 したがって、機械学習のアルゴリズム的な進歩により、非インタラクティブromの精度と計算能力が向上したことは驚くにあたらない。 しかし、方程式ベースの進化の活用を回避して、ROMフレームワークの解釈可能性に悩まされることがしばしば見られる。 ブラックボックス深層学習法は、観測データの物理状態以外の堅牢性を欠いていることで有名である。 本稿では,ガウス過程回帰に基づく新しい潜在空間補間アルゴリズムの利用を提案する。 特に、この系の低次進化は、空間の補間を可能にするために制御パラメータによってパラメータ化される。 この手順を使用することで、時間的補間を可能にする時間の連続的な解釈が可能になる。 後者の側面は、定量化された不確実性を持ち、ROMのトレーニングに使用されるものよりも微細な解像度でのフルステート進化に関する情報を提供する。 本アルゴリズムの有効性を評価するため, 浅水式から得られる対流支配システムについて検討した。

Non-intrusive reduced-order models (ROMs) have recently generated considerable interest for constructing computationally efficient counterparts of nonlinear dynamical systems emerging from various domain sciences. They provide a low-dimensional emulation framework for systems that may be intrinsically high-dimensional. This is accomplished by utilizing a construction algorithm that is purely data-driven. It is no surprise, therefore, that the algorithmic advances of machine learning have led to non-intrusive ROMs with greater accuracy and computational gains. However, in bypassing the utilization of an equation-based evolution, it is often seen that the interpretability of the ROM framework suffers. This becomes more problematic when black-box deep learning methods are used which are notorious for lacking robustness outside the physical regime of the observed data. In this article, we propose the use of a novel latent-space interpolation algorithm based on Gaussian process regression. Notably, this reduced-order evolution of the system is parameterized by control parameters to allow for interpolation in space. The use of this procedure also allows for a continuous interpretation of time which allows for temporal interpolation. The latter aspect provides information, with quantified uncertainty, about full-state evolution at a finer resolution than that utilized for training the ROMs. We assess the viability of this algorithm for an advection-dominated system given by the inviscid shallow water equations.
翻訳日:2022-11-07 12:22:43 公開日:2020-10-15
# EagerNet: 計算効率の良い侵入検知のためのニューラルネットワークの早期予測

EagerNet: Early Predictions of Neural Networks for Computationally Efficient Intrusion Detection ( http://arxiv.org/abs/2007.13444v2 )

ライセンス: Link先を確認
Fares Meghdouri, Maximilian Bachl, Tanja Zseby(参考訳) FCNN(Fully Connected Neural Networks)は近年、最先端の機械学習(ML)アプリケーションの中核であり、侵入検知システム(IDS)にも広く使われている。 過去数年間の実験結果によると、多くの層を持つディープニューラルネットワークは、浅いモデルよりも優れた性能を発揮する。 それでも、層数の増加に伴い、gpuのような特別なハードウェアを使用しているにも関わらず、少ないリソースで高速な予測を得ることは難しい課題となっている。 ネットワーク攻撃を最小のリソースで検出する新しいアーキテクチャを提案する。 アーキテクチャはバイナリまたはマルチクラスの分類問題に対処でき、予測速度をネットワークの精度に切り替えることができる。 提案手法を2つの異なるネットワーク侵入検出データセットを用いて評価する。 その結果,ほとんどの試料のすべての層を評価せずに単純なFCNNに匹敵する精度を得ることができ,早期の予測と省エネ,計算作業が可能であることが示唆された。

Fully Connected Neural Networks (FCNNs) have been the core of most state-of-the-art Machine Learning (ML) applications in recent years and also have been widely used for Intrusion Detection Systems (IDSs). Experimental results from the last years show that generally deeper neural networks with more layers perform better than shallow models. Nonetheless, with the growing number of layers, obtaining fast predictions with less resources has become a difficult task despite the use of special hardware such as GPUs. We propose a new architecture to detect network attacks with minimal resources. The architecture is able to deal with either binary or multiclass classification problems and trades prediction speed for the accuracy of the network. We evaluate our proposal with two different network intrusion detection datasets. Results suggest that it is possible to obtain comparable accuracies to simple FCNNs without evaluating all layers for the majority of samples, thus obtaining early predictions and saving energy and computational efforts.
翻訳日:2022-11-06 08:10:12 公開日:2020-10-15
# 因果モデルに対する情報理論近似

Information-Theoretic Approximation to Causal Models ( http://arxiv.org/abs/2007.15047v2 )

ライセンス: Link先を確認
Peter Gmeiner(参考訳) 有限サンプルから2つの離散確率変数 x と y の因果方向と因果効果を推測することは、しばしば重要な問題であり、困難な課題である。 しかし、観察データや介入データにアクセスできれば、その問題を解決することができる。 X が Y を引き起こすとき、X の変化を観察したり、X に積極的に介入することによって Y における効果を観察するかどうかは問題ではない。 我々は、X と Y のサンプルから派生した分布を、その高次元空間に埋め込むと、埋め込み分布は相対エントロピーに関して不変原理に従う分布に最も近い。 これにより、仮定された因果モデルに従う与えられた経験的分布に対する最良の情報理論的近似を計算することができる。 線形最適化問題を解くことにより, 因果モデル (IACM) に対する情報理論近似が実現できることを示す。 特に、経験的分布を単調因果モデルに近似することにより、因果確率を計算することができる。 また,二変量離散の場合の因果発見問題にもIACMを用いることができる。 しかし, 付加雑音モデルを用いたラベル付き合成データを用いた実験結果から, 因果関係に必要条件のみをエンコードするため, 因果発見手法は最先端手法よりも遅れていることが示された。 それにもかかわらず、合成乗法ノイズデータや実世界のデータについては、代替手法と競合する場合もある。

Inferring the causal direction and causal effect between two discrete random variables X and Y from a finite sample is often a crucial problem and a challenging task. However, if we have access to observational and interventional data, it is possible to solve that task. If X is causing Y, then it does not matter if we observe an effect in Y by observing changes in X or by intervening actively on X. This invariance principle creates a link between observational and interventional distributions in a higher dimensional probability space. We embed distributions that originate from samples of X and Y into that higher dimensional space such that the embedded distribution is closest to the distributions that follow the invariance principle, with respect to the relative entropy. This allows us to calculate the best information-theoretic approximation for a given empirical distribution, that follows an assumed underlying causal model. We show that this information-theoretic approximation to causal models (IACM) can be done by solving a linear optimization problem. In particular, by approximating the empirical distribution to a monotonic causal model, we can calculate probabilities of causation. We can also use IACM for causal discovery problems in the bivariate, discrete case. However, experimental results on labeled synthetic data from additive noise models show that our causal discovery approach is lagging behind state-of-the-art approaches because the invariance principle encodes only a necessary condition for causal relations. Nevertheless, for synthetic multiplicative noise data and real-world data, our approach can compete in some cases with alternative methods.
翻訳日:2022-11-05 20:00:19 公開日:2020-10-15
# 浅いreluモデルにおけるヘッシアンの解析的特徴:対称性の物語

Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale of Symmetry ( http://arxiv.org/abs/2008.01805v2 )

ライセンス: Link先を確認
Yossi Arjevani, Michael Field(参考訳) ターゲットネットワークによってラベルが生成される正方形損失に対して、2層ReLUネットワークの適合に伴う最適化問題を考察する。 我々はリッチ対称性構造を利用して、入力数$d$と隠されたニューロン数$k$が有限である自然状態において、スプリアスミニマの様々な族におけるヘシアンを解析的に特徴づける。 特に、$d\ge k$ 標準ガウス入力に対して、 (a) ヘッセンの $dk$ 固有値の$dk - O(d)$ が 0 に近づき、 (b) $\Omega(d)$ 固有値の$k$ が線型的に増加することを証明している。 この非常に歪んだスペクトルの現象は以前にも何度も観測されてきたが、我々の知る限りではそれが確立されたのはこれが初めてである。 我々の分析的アプローチは、対称性の破れと表現論から新しい手法を使用し、局所曲率による統計的一般化について議論する能力に重要な意味を持つ。

We consider the optimization problem associated with fitting two-layers ReLU networks with respect to the squared loss, where labels are generated by a target network. We leverage the rich symmetry structure to analytically characterize the Hessian at various families of spurious minima in the natural regime where the number of inputs $d$ and the number of hidden neurons $k$ is finite. In particular, we prove that for $d\ge k$ standard Gaussian inputs: (a) of the $dk$ eigenvalues of the Hessian, $dk - O(d)$ concentrate near zero, (b) $\Omega(d)$ of the eigenvalues grow linearly with $k$. Although this phenomenon of extremely skewed spectrum has been observed many times before, to our knowledge, this is the first time it has been established {rigorously}. Our analytic approach uses techniques, new to the field, from symmetry breaking and representation theory, and carries important implications for our ability to argue about statistical generalization through local curvature.
翻訳日:2022-11-02 23:57:04 公開日:2020-10-15
# 幾何データによるTiny-YOLO物体検出

Tiny-YOLO object detection supplemented with geometrical data ( http://arxiv.org/abs/2008.02170v2 )

ライセンス: Link先を確認
Ivan Khokhlov, Egor Davydenko, Ilya Osokin, Ilya Ryakin, Azer Babaev, Vladimir Litvinenko, Roman Gorbachev(参考訳) 本研究では,シーン形状に関する事前知識を活かして検出精度(map)を向上させる手法を提案し,シーンを物体を配置した平面と仮定する。 我々は自律型ロボットに注目するので、ロボットの寸法とカメラの傾斜角を考えると、入力フレームの各ピクセルの空間スケールを予測することができる。 わずかに修正されたYOLOv3-tinyでは、Sと呼ばれるスケールチャネルで補足された検出が、計算オーバーヘッドを小さくして標準RGBベースの検出より優れていることを示す。

We propose a method of improving detection precision (mAP) with the help of the prior knowledge about the scene geometry: we assume the scene to be a plane with objects placed on it. We focus our attention on autonomous robots, so given the robot's dimensions and the inclination angles of the camera, it is possible to predict the spatial scale for each pixel of the input frame. With slightly modified YOLOv3-tiny we demonstrate that the detection supplemented by the scale channel, further referred as S, outperforms standard RGB-based detection with small computational overhead.
翻訳日:2022-11-02 18:48:29 公開日:2020-10-15
# 超高速大規模分類のためのGPU加速プリマルラーニング

GPU-Accelerated Primal Learning for Extremely Fast Large-Scale Classification ( http://arxiv.org/abs/2008.03433v2 )

ライセンス: Link先を確認
John T. Halloran and David M. Rocke(参考訳) ロジスティック回帰や線形サポートベクターマシン(SVM)分類などのL2正規化原始問題を解く最も効率的な方法の1つは、広く使われている信頼領域ニュートンアルゴリズムであるTRONである。 TRONは近年、共有メモリのマルチコアシステムにおいて大幅に高速化されていることが示されているが、アルゴリズムの高度でシーケンシャルな性質のため、グラフィカルな処理ユニット(GPU)を利用してメソッドを高速化することは極めて困難である。 本稿では,gpu最適化原理を用いて,異なる損失や特徴表現に対するトロントレーニング時間を劇的に削減できることを示す。 スパース機能セットでは,LIBLINEARでGPUを用いてロジスティック回帰分類器を訓練することは,単にマルチスレッドを使用するよりも高速であることを示す。 より厳密なメモリ制約を課す、高度な機能セットのために、gpuは最先端のプロテオミクス解析に必要な長いsvm学習時間を実質的に削減し、最近提案されたスピードアップよりも劇的な改善をもたらすことを示した。 さらに、データセットがgpuメモリ要件に大きすぎる場合に、このようなスピードアップを可能にするために、gpuのスピードアップをマルチスレッディングとどのように混ぜ合わせるかを示し、約4億のデータセットからなる巨大なプロテオミクスデータセットでは、これらの混合アーキテクチャのスピードアップにより、限られたgpuメモリを使用する場合、svm分析時間を半週以上から1日未満に短縮する。

One of the most efficient methods to solve L2-regularized primal problems, such as logistic regression and linear support vector machine (SVM) classification, is the widely used trust region Newton algorithm, TRON. While TRON has recently been shown to enjoy substantial speedups on shared-memory multi-core systems, exploiting graphical processing units (GPUs) to speed up the method is significantly more difficult, owing to the highly complex and heavily sequential nature of the algorithm. In this work, we show that using judicious GPU-optimization principles, TRON training time for different losses and feature representations may be drastically reduced. For sparse feature sets, we show that using GPUs to train logistic regression classifiers in LIBLINEAR is up to an order-of-magnitude faster than solely using multithreading. For dense feature sets--which impose far more stringent memory constraints--we show that GPUs substantially reduce the lengthy SVM learning times required for state-of-the-art proteomics analysis, leading to dramatic improvements over recently proposed speedups. Furthermore, we show how GPU speedups may be mixed with multithreading to enable such speedups when the dataset is too large for GPU memory requirements; on a massive dense proteomics dataset of nearly a quarter-billion data instances, these mixed-architecture speedups reduce SVM analysis time from over half a week to less than a single day while using limited GPU memory.
翻訳日:2022-11-01 11:37:28 公開日:2020-10-15
# Wikidataにおける常識知識

Commonsense Knowledge in Wikidata ( http://arxiv.org/abs/2008.08114v2 )

ライセンス: Link先を確認
Filip Ilievski, Pedro Szekely, and Daniel Schwabe(参考訳) wikidataとwikipediaは、質問応答やエンティティリンクといった自然言語アプリケーションにおける推論に有用であることが証明されている。 しかし、wikidata for commonsense reasoningの可能性を研究していない。 本稿では,wikidata が既存の commonsense ソースを補完する commonsense 知識を共用するかどうかについて検討する。 共通感覚の定義から始め,3つの指針を考案し,Wikidata(Wikidata-CS)の共通感覚のサブグラフを生成する。 提案手法では,WikidataとConceptNetの関係をマッピングし,Wikidata-CSを既存のコモンセンスグラフに統合する。 私たちの実験では 1)Wikidata-CSは,Wikidataのごく一部を表すものであるが,Wikidataが関連するコモンセンス知識を含んでいて,15のConceptNet関係にマッピング可能であることの指標である。 2) wikidata-cs と他の commonsense ソースとの重複は低く,知識統合の価値を動機付けている。 3)Wikidata-CSはWikidataに比べてわずかに緩やかに進化しており,コモンセンスの知識に焦点が当てられていない可能性が示唆されている。 これらの知見に基づいて,Wikidata-CSのカバレッジと品質をさらに向上するための3つの推奨行動を提案する。

Wikidata and Wikipedia have been proven useful for reason-ing in natural language applications, like question answering or entitylinking. Yet, no existing work has studied the potential of Wikidata for commonsense reasoning. This paper investigates whether Wikidata con-tains commonsense knowledge which is complementary to existing commonsense sources. Starting from a definition of common sense, we devise three guiding principles, and apply them to generate a commonsense subgraph of Wikidata (Wikidata-CS). Within our approach, we map the relations of Wikidata to ConceptNet, which we also leverage to integrate Wikidata-CS into an existing consolidated commonsense graph. Our experiments reveal that: 1) albeit Wikidata-CS represents a small portion of Wikidata, it is an indicator that Wikidata contains relevant commonsense knowledge, which can be mapped to 15 ConceptNet relations; 2) the overlap between Wikidata-CS and other commonsense sources is low, motivating the value of knowledge integration; 3) Wikidata-CS has been evolving over time at a slightly slower rate compared to the overall Wikidata, indicating a possible lack of focus on commonsense knowledge. Based on these findings, we propose three recommended actions to improve the coverage and quality of Wikidata-CS further.
翻訳日:2022-10-27 21:31:13 公開日:2020-10-15
# 画像光源マニピュレーションのためのディープリライトネットワーク

Deep Relighting Networks for Image Light Source Manipulation ( http://arxiv.org/abs/2008.08298v2 )

ライセンス: Link先を確認
Li-Wen Wang, Wan-Chi Siu, Zhi-Song Liu, Chu-Tak Li, Daniel P.K. Lun(参考訳) 与えられた画像の光源を操作することは興味深い作業であり、写真や撮影など様々な用途で有用である。 既存の手法は通常、シーンの幾何学的構造のような追加情報を必要とするが、ほとんどの画像では利用できない。 本稿では,1つの画像リライトタスクを定式化し,3つの部分からなる新しいDeep Relighting Network(DRN)を提案する。 1)ディープオートエンコーダネットワークを通じてシーン構造を明らかにすることを目的としたシーン再構成。 2)逆学習による新しい光方向からの光効果予測のための影先行推定 3) 一次構造を再構成したシャドウビューと組み合わせて, 目標光源下で必要な推定を行う再レンダリング装置。 実験の結果,提案手法は質的および定量的に他の手法よりも優れていることがわかった。 具体的には、提案されたDRNは、2020 ECCVカンファレンスの"AIM2020 - Any to one relighting Challenge"で最高のPSNRを達成した。

Manipulating the light source of given images is an interesting task and useful in various applications, including photography and cinematography. Existing methods usually require additional information like the geometric structure of the scene, which may not be available for most images. In this paper, we formulate the single image relighting task and propose a novel Deep Relighting Network (DRN) with three parts: 1) scene reconversion, which aims to reveal the primary scene structure through a deep auto-encoder network, 2) shadow prior estimation, to predict light effect from the new light direction through adversarial learning, and 3) re-renderer, to combine the primary structure with the reconstructed shadow view to form the required estimation under the target light source. Experimental results show that the proposed method outperforms other possible methods, both qualitatively and quantitatively. Specifically, the proposed DRN has achieved the best PSNR in the "AIM2020 - Any to one relighting challenge" of the 2020 ECCV conference.
翻訳日:2022-10-27 12:26:07 公開日:2020-10-15
# 論理的自然言語理解のための離散語埋め込み

Discrete Word Embedding for Logical Natural Language Understanding ( http://arxiv.org/abs/2008.11649v2 )

ライセンス: Link先を確認
Masataro Asai, Zilu Tang(参考訳) 単語の離散埋め込み学習のための教師なしニューラルモデルを提案する。 既存の離散埋め込みとは異なり、バイナリ埋め込みは連続埋め込みと同様のベクトル演算をサポートする。 我々の埋め込みは、古典的/STRIPS計画形式主義における遷移規則を記述する命題文の集合として各単語を表す。 これにより、埋め込みは古典的計画問題解決者の象徴的な状態と直接互換性がある。

We propose an unsupervised neural model for learning a discrete embedding of words. Unlike existing discrete embeddings, our binary embedding supports vector arithmetic operations similar to continuous embeddings. Our embedding represents each word as a set of propositional statements describing a transition rule in classical/STRIPS planning formalism. This makes the embedding directly compatible with symbolic, state of the art classical planning solvers.
翻訳日:2022-10-24 20:43:34 公開日:2020-10-15
# 分布的一般化:新しい種類の一般化

Distributional Generalization: A New Kind of Generalization ( http://arxiv.org/abs/2009.08092v2 )

ライセンス: Link先を確認
Preetum Nakkiran, Yamini Bansal(参考訳) これは、列車とテスト時間における分類器の出力が、平均誤差だけをクローズするのではなく、*as distributions*である、と大まかに述べています。 例えば、cifar-10の列車セットで、犬の30%を猫と誤記した場合、補間訓練された再ネットは、実際には*テストセット上では、およそ30%を猫と誤記し、他のクラスは影響を受けない。 この振る舞いは古典的な一般化では捉えられず、平均エラーのみを考慮し、入力ドメイン上のエラーの分布を考慮しない。 我々の公式な予想は、この例よりもはるかに一般的なものであり、モデルアーキテクチャ、トレーニング手順、サンプルの数、データ分布といった問題パラメータの観点で期待できる分布一般化の形式を特徴付ける。 ニューラルネットワーク、カーネルマシン、決定木など、機械学習のさまざまな領域におけるこれらの予想に関する実証的な証拠を提供する。 その結果,補間分類器に対する経験的理解が促進される。

We introduce a new notion of generalization -- Distributional Generalization -- which roughly states that outputs of a classifier at train and test time are close *as distributions*, as opposed to close in just their average error. For example, if we mislabel 30% of dogs as cats in the train set of CIFAR-10, then a ResNet trained to interpolation will in fact mislabel roughly 30% of dogs as cats on the *test set* as well, while leaving other classes unaffected. This behavior is not captured by classical generalization, which would only consider the average error and not the distribution of errors over the input domain. Our formal conjectures, which are much more general than this example, characterize the form of distributional generalization that can be expected in terms of problem parameters: model architecture, training procedure, number of samples, and data distribution. We give empirical evidence for these conjectures across a variety of domains in machine learning, including neural networks, kernel machines, and decision trees. Our results thus advance our empirical understanding of interpolating classifiers.
翻訳日:2022-10-17 07:59:47 公開日:2020-10-15
# 電力線絶縁体のセグメント化と欠陥分類:深層学習に基づくアプローチ

Segmentation and Defect Classification of the Power Line Insulators: A Deep Learning-based Approach ( http://arxiv.org/abs/2009.10163v2 )

ライセンス: Link先を確認
Arman Alahyari and Anton Hinneck and Rahim Tariverdi and David Pozo(参考訳) 送電網は発電装置を電気消費者に物理的に接続する。 このようなシステムは数百km以上伸びる。 トランスミッションインフラストラクチャには、不完全なパフォーマンスと信頼性の高いデリバリを保証するための適切な検査を必要とする多くのコンポーネントがあります。 重要な構成要素は絶縁体である。 その故障は送電線全体の中断または広範な停電を引き起こす可能性がある。 自動故障検出は検査時間と関連するコストを大幅に削減することができる。 近年、前述の問題に対処する畳み込みニューラルネットワークに基づくいくつかの研究が提案されている。 しかし、既存の研究は特定の種類の絶縁体断層に焦点を当てている。 そこで本研究では,インシュレータを背景からセグメンテーションし,健康的,破壊的,焼損/腐食,キャップ不足の4つのカテゴリに分類する2段階モデルを提案する。 実験結果から, 提案手法は絶縁体の有効セグメンテーションを実現し, 複数種類の故障検出において高い精度を達成できることが示唆された。

Power transmission networks physically connect the power generators to the electric consumers. Such systems extend over hundreds of kilometers. There are many components in the transmission infrastructure that require a proper inspection to guarantee flawless performance and reliable delivery, which, if done manually, can be very costly and time consuming. One essential component is the insulator. Its failure can cause an interruption of the entire transmission line or a widespread power failure. Automated fault detection could significantly decrease inspection time and related costs. Recently, several works have been proposed based on convolutional neural networks, which address the issue mentioned above. However, existing studies focus on a specific type of insulator faults. Thus, in this study, we introduce a two-stage model that segments insulators from their background to then classify their states based on four different categories, namely: healthy, broken, burned/corroded and missing cap. The test results show that the proposed approach can realize the effective segmentation of insulators and achieve high accuracy in detecting several types of faults.
翻訳日:2022-10-16 05:16:51 公開日:2020-10-15
# PP-OCR: 実用的超軽量OCRシステム

PP-OCR: A Practical Ultra Lightweight OCR System ( http://arxiv.org/abs/2009.09941v3 )

ライセンス: Link先を確認
Yuning Du, Chenxia Li, Ruoyu Guo, Xiaoting Yin, Weiwei Liu, Jun Zhou, Yifan Bai, Zilin Yu, Yehua Yang, Qingqing Dang, Haoshuang Wang(参考訳) 光文字認識(OCR)システムは、オフィスオートメーション(OA)システム、工場自動化、オンライン教育、地図制作など、様々なアプリケーションシナリオで広く利用されている。 しかし,テキストの出現や計算効率の要求により,OCRは依然として困難な課題である。 本稿では,実用的で軽量なOCRシステムであるPP-OCRを提案する。 PP-OCRの全体的なモデルサイズは、6622文字を識別する3.5Mと、63の数字記号を識別する2.8Mのみである。 我々は,モデル能力を向上させるか,あるいはモデルサイズを減らすための戦略の袋を導入する。 また、実データによる対応するアブレーション実験も提供する。 一方、中国語と英語の認識のための事前学習されたモデルがいくつかリリースされており、テキスト検出器(97k画像)、方向分類器(600k画像)、テキスト認識器(17.9m画像)が使用される。 さらに、提案したPP-OCRは、フランス語、韓国語、日本語、ドイツ語を含むいくつかの言語認識タスクでも検証されている。 上記のモデルはすべてオープンソースであり、コードはgithubリポジトリ、すなわちhttps://github.com/paddlepaddle/paddleocrで入手できる。

The Optical Character Recognition (OCR) systems have been widely used in various of application scenarios, such as office automation (OA) systems, factory automations, online educations, map productions etc. However, OCR is still a challenging task due to the various of text appearances and the demand of computational efficiency. In this paper, we propose a practical ultra lightweight OCR system, i.e., PP-OCR. The overall model size of the PP-OCR is only 3.5M for recognizing 6622 Chinese characters and 2.8M for recognizing 63 alphanumeric symbols, respectively. We introduce a bag of strategies to either enhance the model ability or reduce the model size. The corresponding ablation experiments with the real data are also provided. Meanwhile, several pre-trained models for the Chinese and English recognition are released, including a text detector (97K images are used), a direction classifier (600K images are used) as well as a text recognizer (17.9M images are used). Besides, the proposed PP-OCR are also verified in several other language recognition tasks, including French, Korean, Japanese and German. All of the above mentioned models are open-sourced and the codes are available in the GitHub repository, i.e., https://github.com/PaddlePaddle/PaddleOCR.
翻訳日:2022-10-16 05:07:25 公開日:2020-10-15
# CMAX++ : 不正確なモデルを用いた計画と実行の経験の活用

CMAX++ : Leveraging Experience in Planning and Execution using Inaccurate Models ( http://arxiv.org/abs/2009.09942v3 )

ライセンス: Link先を確認
Anirudh Vemula, J. Andrew Bagnell, Maxim Likhachev(参考訳) 正確な力学モデルへのアクセスを考えると、現代の計画手法は反復的なロボット作業において実現可能な最適計画の計算に有効である。 しかし、特にパラメータが不明なオブジェクトとのインタラクションを必要とするタスクにおいて、実行前に実世界の真のダイナミクスをモデル化することは困難である。 最近の計画手法であるCMAXは、実行中にプランナーをオンラインに適応させ、その結果の計画を不正確なモデル化された領域から逸脱させることによってこの問題に対処する。 CMAXは、目標を達成するために確実に保証されているが、計画に使用されるモデルの正確性について強い仮定を必要とし、同じタスクの繰り返しよりもソリューションの品質を改善するのに失敗する。 本稿では,ロボットタスクを繰り返し繰り返すことで得られる計画の品質を向上させるために,実世界体験を活用する手法であるcmax++を提案する。 CMAX++は、獲得した経験と、潜在的に不正確なモデルを使ったモデルベースプランニングを統合することで、これを実現している。 繰り返し回数が増えるにつれて、cmax++の完全性と漸近収束性が最適経路コストに保証できる保証を提供する。 また、CMAX++は、トラック摩擦が誤ってモデル化された3D移動ロボットナビゲーションや、物体の質量が不明な7Dピック・アンド・プレイスタスクなど、シミュレーションされたロボットタスクのベースラインよりも優れている。

Given access to accurate dynamical models, modern planning approaches are effective in computing feasible and optimal plans for repetitive robotic tasks. However, it is difficult to model the true dynamics of the real world before execution, especially for tasks requiring interactions with objects whose parameters are unknown. A recent planning approach, CMAX, tackles this problem by adapting the planner online during execution to bias the resulting plans away from inaccurately modeled regions. CMAX, while being provably guaranteed to reach the goal, requires strong assumptions on the accuracy of the model used for planning and fails to improve the quality of the solution over repetitions of the same task. In this paper we propose CMAX++, an approach that leverages real-world experience to improve the quality of resulting plans over successive repetitions of a robotic task. CMAX++ achieves this by integrating model-free learning using acquired experience with model-based planning using the potentially inaccurate model. We provide provable guarantees on the completeness and asymptotic convergence of CMAX++ to the optimal path cost as the number of repetitions increases. CMAX++ is also shown to outperform baselines in simulated robotic tasks including 3D mobile robot navigation where the track friction is incorrectly modeled, and a 7D pick-and-place task where the mass of the object is unknown leading to discrepancy between true and modeled dynamics.
翻訳日:2022-10-16 04:33:35 公開日:2020-10-15
# Dataset Cartography:トレーニングダイナミクスを用いたデータセットのマッピングと診断

Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics ( http://arxiv.org/abs/2009.10795v2 )

ライセンス: Link先を確認
Swabha Swayamdipta, Roy Schwartz, Nicholas Lourie, Yizhong Wang, Hannaneh Hajishirzi, Noah A. Smith, Yejin Choi(参考訳) NLP研究では大規模なデータセットが一般的になっている。 しかし,データ量への注目が高まり,データ品質の評価が困難になっている。 データマップ - データセットの特徴付けと診断を行うモデルベースのツール。 データマップを構築するためのトレーニング(トレーニングダイナミクス)中の個々のインスタンスにおけるモデルの振る舞いです。 これにより、モデルの真のクラスに対する信頼度と、エポック全体の信頼度の変化という、それぞれの例に対する直感的な尺度が2つ生まれます。 4つのデータセットにわたる実験により、これらのモデルに依存した測定により、データマップ内の3つの異なる領域が明らかになる。 まず,データマップは,分布の一般化に最も寄与するモデルに関して「曖昧」な領域の存在を示す。 第二に、データの最も人口の多い領域はモデルの"学習が容易"であり、モデルの最適化において重要な役割を果たす。 最後に、データマップは、モデルが"学習しにくい"と判断するインスタンスを持つ領域を明らかにする。 その結果,データ量から品質への焦点シフトはロバストなモデルにつながり,アウトオブディストリビューションの一般化が改善される可能性が示唆された。

Large datasets have become commonplace in NLP research. However, the increased emphasis on data quantity has made it challenging to assess the quality of data. We introduce Data Maps---a model-based tool to characterize and diagnose datasets. We leverage a largely ignored source of information: the behavior of the model on individual instances during training (training dynamics) for building data maps. This yields two intuitive measures for each example---the model's confidence in the true class, and the variability of this confidence across epochs---obtained in a single run of training. Experiments across four datasets show that these model-dependent measures reveal three distinct regions in the data map, each with pronounced characteristics. First, our data maps show the presence of "ambiguous" regions with respect to the model, which contribute the most towards out-of-distribution generalization. Second, the most populous regions in the data are "easy to learn" for the model, and play an important role in model optimization. Finally, data maps uncover a region with instances that the model finds "hard to learn"; these often correspond to labeling errors. Our results indicate that a shift in focus from quantity to quality of data could lead to robust models and improved out-of-distribution generalization.
翻訳日:2022-10-15 22:35:22 公開日:2020-10-15
# 多モード不規則収集型縦型スマートフォンを用いたパーキンソン病の予測

Predicting Parkinson's Disease with Multimodal Irregularly Collected Longitudinal Smartphone Data ( http://arxiv.org/abs/2009.11999v2 )

ライセンス: Link先を確認
Weijian Li, Wei Zhu, E. Ray Dorsey, Jiebo Luo(参考訳) パーキンソン病は神経疾患であり、高齢者に多い。 従来の診断方法は、個人による主観的な臨床評価と、一連の活動テストの品質に依存する。 近年,スマートフォンアプリケーションによって収集された高分解能縦断活動データにより,遠隔および簡便な健康評価が可能となった。 しかし、ラボ外のテストは品質の悪い制御と不規則に収集された観察に苦しめられ、ノイズの多いテスト結果に繋がる。 そこで本研究では,野生のスマートフォンから収集した生活動テストデータを用いてパーキンソン病を予測するための時系列手法を提案する。 提案手法は, 離散的アクティビティテストとマルチモーダルな特徴を統一した時点に同期する。 次に、2つの注意モジュールによるモーダル性および時間的観察のノイズデータから局所的および大域的表現を蒸留し、濃縮する。 提案手法では,ノイズ観測を処理できると同時に,予測性能を向上させるために洗練された時間的特徴を抽出できる。 大規模な公開データセット上での定量的および定性的な結果は,提案手法の有効性を示す。

Parkinsons Disease is a neurological disorder and prevalent in elderly people. Traditional ways to diagnose the disease rely on in-person subjective clinical evaluations on the quality of a set of activity tests. The high-resolution longitudinal activity data collected by smartphone applications nowadays make it possible to conduct remote and convenient health assessment. However, out-of-lab tests often suffer from poor quality controls as well as irregularly collected observations, leading to noisy test results. To address these issues, we propose a novel time-series based approach to predicting Parkinson's Disease with raw activity test data collected by smartphones in the wild. The proposed method first synchronizes discrete activity tests into multimodal features at unified time points. Next, it distills and enriches local and global representations from noisy data across modalities and temporal observations by two attention modules. With the proposed mechanisms, our model is capable of handling noisy observations and at the same time extracting refined temporal features for improved prediction performance. Quantitative and qualitative results on a large public dataset demonstrate the effectiveness of the proposed approach.
翻訳日:2022-10-14 23:24:31 公開日:2020-10-15
# 加算ニューラルネットワークのためのカーネルベースのプログレッシブ蒸留

Kernel Based Progressive Distillation for Adder Neural Networks ( http://arxiv.org/abs/2009.13044v3 )

ライセンス: Link先を確認
Yixing Xu, Chang Xu, Xinghao Chen, Wei Zhang, Chunjing Xu, Yunhe Wang(参考訳) 追加のみを含むAdder Neural Networks(ANN)は、エネルギー消費の少ないディープニューラルネットワークを新たに開発する方法を提供する。 残念ながら、すべての畳み込みフィルタを加算フィルタで置き換える場合、精度が低下する。 ここでの主な理由は、バック伝搬の勾配の推定が不正確である$\ell_1$-normを使ったANNの最適化の難しさである。 本稿では、プログレッシブカーネルベースの知識蒸留(PKKD)手法を用いて、トレーニング可能なパラメータを増大させることなく、ANNの性能を向上する新しい手法を提案する。 同じアーキテクチャを持つ畳み込みニューラルネットワーク(CNN)は、教師ネットワークとして同時に初期化および訓練され、ANNとCNNの特徴と重みは、精度低下を排除するために新しい空間に変換される。 類似性は高次元空間で行われ、カーネルベースの手法を用いて分布の差分をアンタングルする。 最後に,目的とするANNは,教職と教師の両方から情報に基づいて,段階的に学習される。 提案手法の有効性を複数のベンチマークで検証した。 例えば、提案したPKKD法を用いてトレーニングされたANN-50は、ImageNetデータセット上で76.8\%のトップ-1精度を得る。

Adder Neural Networks (ANNs) which only contain additions bring us a new way of developing deep neural networks with low energy consumption. Unfortunately, there is an accuracy drop when replacing all convolution filters by adder filters. The main reason here is the optimization difficulty of ANNs using $\ell_1$-norm, in which the estimation of gradient in back propagation is inaccurate. In this paper, we present a novel method for further improving the performance of ANNs without increasing the trainable parameters via a progressive kernel based knowledge distillation (PKKD) method. A convolutional neural network (CNN) with the same architecture is simultaneously initialized and trained as a teacher network, features and weights of ANN and CNN will be transformed to a new space to eliminate the accuracy drop. The similarity is conducted in a higher-dimensional space to disentangle the difference of their distributions using a kernel based method. Finally, the desired ANN is learned based on the information from both the ground-truth and teacher, progressively. The effectiveness of the proposed method for learning ANN with higher performance is then well-verified on several benchmarks. For instance, the ANN-50 trained using the proposed PKKD method obtains a 76.8\% top-1 accuracy on ImageNet dataset, which is 0.6\% higher than that of the ResNet-50.
翻訳日:2022-10-13 21:13:54 公開日:2020-10-15
# 情報橋渡し : 人間の視線と機械の読み理解

Bridging Information-Seeking Human Gaze and Machine Reading Comprehension ( http://arxiv.org/abs/2009.14780v2 )

ライセンス: Link先を確認
Jonathan Malmaud, Roger Levy, Yevgeni Berzak(参考訳) 本研究では,与えられた読解質問に対して,読解時の人間の視線がどのように条件付けされ,この信号が機械読解に有用かを分析する。 この目的のために,多数の参加者が複数の選択読解課題に携わる視線追跡データセットを新たに収集する。 このデータの解析により,疑問に答える上で最も関係のあるテキストの一部に対する修正時間の増加が明らかになった。 そこで本研究では,読解時の情報検索行動の模倣により,読解の自動化を人間に近いものにすることを提案する。 そこで本研究では,この手法が英語の多言語質問応答の性能向上に繋がることを示す。

In this work, we analyze how human gaze during reading comprehension is conditioned on the given reading comprehension question, and whether this signal can be beneficial for machine reading comprehension. To this end, we collect a new eye-tracking dataset with a large number of participants engaging in a multiple choice reading comprehension task. Our analysis of this data reveals increased fixation times over parts of the text that are most relevant for answering the question. Motivated by this finding, we propose making automated reading comprehension more human-like by mimicking human information-seeking reading behavior during reading comprehension. We demonstrate that this approach leads to performance gains on multiple choice question answering in English for a state-of-the-art reading comprehension model.
翻訳日:2022-10-12 23:37:48 公開日:2020-10-15
# WNUT-2020 タスク2: COVID Twitter BERT を用いたシークエンス分類と多目的投票に基づくバギングアンサンブル手法

Phonemer at WNUT-2020 Task 2: Sequence Classification Using COVID Twitter BERT and Bagging Ensemble Technique based on Plurality Voting ( http://arxiv.org/abs/2010.00294v3 )

ライセンス: Link先を確認
Anshul Wadhawan(参考訳) 本稿では,emnlp wnut-2020共有タスク2 : 情報提供型covid-19英語つぶやきの同定に用いたアプローチを提案する。 新型コロナウイルスに関連する英語ツイート(covid-19)が有益かどうかを自動的に識別するシステムを開発することが課題だ。 私たちはその仕事を3段階解決する。 最初のステージでは、関連する情報のみをフィルタリングしてデータセットを前処理する。 その後、cnn、rnn、transformerベースのモデルなど、複数のディープラーニングモデルを実験する。 最後の段階では、提供されたデータセットの異なるサブセットでトレーニングされた最良のモデルのアンサンブルを提案する。 最終アプローチでは0.9037のF1スコアを達成し,評価基準としてF1スコアを総合6位とした。

This paper presents the approach that we employed to tackle the EMNLP WNUT-2020 Shared Task 2 : Identification of informative COVID-19 English Tweets. The task is to develop a system that automatically identifies whether an English Tweet related to the novel coronavirus (COVID-19) is informative or not. We solve the task in three stages. The first stage involves pre-processing the dataset by filtering only relevant information. This is followed by experimenting with multiple deep learning models like CNNs, RNNs and Transformer based models. In the last stage, we propose an ensemble of the best model trained on different subsets of the provided dataset. Our final approach achieved an F1-score of 0.9037 and we were ranked sixth overall with F1-score as the evaluation criteria.
翻訳日:2022-10-12 08:01:46 公開日:2020-10-15
# 「本当に何を言ったか」 : バイリンガル語埋め込みを用いたヒンディー語コードミクスデータにおけるサーカスム検出

"Did you really mean what you said?" : Sarcasm Detection in Hindi-English Code-Mixed Data using Bilingual Word Embeddings ( http://arxiv.org/abs/2010.00310v3 )

ライセンス: Link先を確認
Akshita Aggarwal, Anshul Wadhawan, Anshima Chaudhary, Kavita Maurya(参考訳) 世界中の人々によるソーシャルメディアプラットフォームの利用の増加に伴い、興味深いNLP問題が数多く発生している。 一つは、ソーシャルメディアのテキストにおける皮肉の検出である。 本稿では,カスタム単語埋め込み学習のためのツイートコーパスと,サーカズム検出のためのラベル付きhinglishデータセットを提案する。 我々は,FastText と Word2Vec から派生したバイリンガル単語埋め込みを用いて,ヒンディー語と英語の混合ツイートにおけるサルカズム検出の問題に対処する深層学習手法を提案する。 CNN,LSTM,双方向LSTM(無注意・無注意)など,さまざまなディープラーニングモデルの実験を行った。 私たちはディープラーニングモデルで最先端のパフォーマンスをすべて上回り、注目に基づく双方向LSTMは78.49%の精度で最高のパフォーマンスを実現しました。

With the increased use of social media platforms by people across the world, many new interesting NLP problems have come into existence. One such being the detection of sarcasm in the social media texts. We present a corpus of tweets for training custom word embeddings and a Hinglish dataset labelled for sarcasm detection. We propose a deep learning based approach to address the issue of sarcasm detection in Hindi-English code mixed tweets using bilingual word embeddings derived from FastText and Word2Vec approaches. We experimented with various deep learning models, including CNNs, LSTMs, Bi-directional LSTMs (with and without attention). We were able to outperform all state-of-the-art performances with our deep learning models, with attention based Bi-directional LSTMs giving the best performance exhibiting an accuracy of 78.49%.
翻訳日:2022-10-12 08:01:30 公開日:2020-10-15
# ニューラル言語モデルにおける動詞バイアスの表現の探索

Investigating representations of verb bias in neural language models ( http://arxiv.org/abs/2010.02375v2 )

ライセンス: Link先を確認
Robert D. Hawkins, Takateru Yamakoshi, Thomas L. Griffiths, Adele E. Goldberg(参考訳) 言語は通常、ある種のメッセージを表現するために複数の文法構造を提供する。 話者の構成の選択は、主動詞の選択を含む複数の要因に依存することが知られており、これは「emph{verb bias}」として知られている。 ここでは,5Kの異なる文対に対する50Kの人的判断を含む大規模なベンチマークデータセットであるDAISを紹介する。 このデータセットは200のユニークな動詞を含み、引数の定性と長さを体系的に変化させる。 このデータセットと、既存の自然発生データコーパスを使用して、最近のニューラルネットワークモデルがいかに人間の好みを捉えるかを評価する。 その結果、より大きなモデルはより小さなモデルよりも優れた性能を示し、トランスフォーマーアーキテクチャ(例:GPT-2)は、同等のパラメータやトレーニング設定の下でも、繰り返しアーキテクチャ(例:LSTM)よりも優れた性能を示すことが示された。 内部特徴表現のさらなる分析は、トランスフォーマーが特定の語彙情報を文法的構成とよりよく統合できることを示唆している。

Languages typically provide more than one grammatical construction to express certain types of messages. A speaker's choice of construction is known to depend on multiple factors, including the choice of main verb -- a phenomenon known as \emph{verb bias}. Here we introduce DAIS, a large benchmark dataset containing 50K human judgments for 5K distinct sentence pairs in the English dative alternation. This dataset includes 200 unique verbs and systematically varies the definiteness and length of arguments. We use this dataset, as well as an existing corpus of naturally occurring data, to evaluate how well recent neural language models capture human preferences. Results show that larger models perform better than smaller models, and transformer architectures (e.g. GPT-2) tend to out-perform recurrent architectures (e.g. LSTMs) even under comparable parameter and training settings. Additional analyses of internal feature representations suggest that transformers may better integrate specific lexical information with grammatical constructions.
翻訳日:2022-10-10 21:39:53 公開日:2020-10-15
# PublishInCovid19 at WNUT 2020 Shared Task-1:Entity Recognition in Wet Lab Protocols using Structured Learning Ensembles and Contextualized Embeddings (英語)

PublishInCovid19 at WNUT 2020 Shared Task-1: Entity Recognition in Wet Lab Protocols using Structured Learning Ensemble and Contextualised Embeddings ( http://arxiv.org/abs/2010.02142v2 )

ライセンス: Link先を確認
Janvijay Singh, Anshul Wadhawan(参考訳) 本稿では,emnlp wnut-2020ワークショップにおける共有タスクであるwet labプロトコル上でのエンティティ認識の課題に対処するためのアプローチについて述べる。 私たちのアプローチは2つのフェーズで構成されています。 第1フェーズでは,フレイアやBERTをベースとした各種単語埋め込みとBiLSTM-CRFモデルを用いて,最高の性能のアーキテクチャを実現する。 第2段階では,11種類のBiLSTM-CRFモデルからなるアンサンブルを生成する。 個々のモデルは、完全なデータセットのランダムな列車評価分割で訓練される。 ここでは、多数決投票(Majority Voting)や構造化学習組立(Structured Learning Ensembling, SLE)など、さまざまな出力マージ方式を実験する。 最終提案では,0.8175のマイクロf1スコアと0.7757のエンティティスパンの部分的一致をそれぞれ達成した。 私たちはそれぞれ、部分試合と正確な試合で1位と2位にランクされた。

In this paper, we describe the approach that we employed to address the task of Entity Recognition over Wet Lab Protocols -- a shared task in EMNLP WNUT-2020 Workshop. Our approach is composed of two phases. In the first phase, we experiment with various contextualised word embeddings (like Flair, BERT-based) and a BiLSTM-CRF model to arrive at the best-performing architecture. In the second phase, we create an ensemble composed of eleven BiLSTM-CRF models. The individual models are trained on random train-validation splits of the complete dataset. Here, we also experiment with different output merging schemes, including Majority Voting and Structured Learning Ensembling (SLE). Our final submission achieved a micro F1-score of 0.8175 and 0.7757 for the partial and exact match of the entity spans, respectively. We were ranked first and second, in terms of partial and exact match, respectively.
翻訳日:2022-10-10 21:31:29 公開日:2020-10-15
# danetqa: ロシア語のためのyes/no質問応答データセット

DaNetQA: a yes/no Question Answering Dataset for the Russian Language ( http://arxiv.org/abs/2010.02605v2 )

ライセンス: Link先を確認
Taisia Glushkova and Alexey Machnev and Alena Fenogenova and Tatiana Shavrina and Ekaterina Artemova and Dmitry I. Ignatov(参考訳) 新しい質問回答コーパスであるDaNetQAは、(Clark et. al, 2019)設計に従っている。 各質問は、Wikipediaの段落と、その段落から派生した回答とがペアリングされる。 課題は、質問と段落の両方を入力として取り、イエス/ノーの回答、すなわちバイナリ出力を生成することである。 本稿では,danetqa作成のための再現可能なアプローチを提案し,タスクと言語変換のためのトランスファー学習手法について検討する。 タスク転送には3つの類似した文モデリングタスクを利用する。 1) パラフレーズ,パラフレーズのコーパス 2) XNLI のロシア語部分を使用する NLI タスク。 3)別の質問応答タスク、SberQUAD。 言語伝達には、英語からロシア語への翻訳と、多言語言語の微調整を用いる。

DaNetQA, a new question-answering corpus, follows (Clark et. al, 2019) design: it comprises natural yes/no questions. Each question is paired with a paragraph from Wikipedia and an answer, derived from the paragraph. The task is to take both the question and a paragraph as input and come up with a yes/no answer, i.e. to produce a binary output. In this paper, we present a reproducible approach to DaNetQA creation and investigate transfer learning methods for task and language transferring. For task transferring we leverage three similar sentence modelling tasks: 1) a corpus of paraphrases, Paraphraser, 2) an NLI task, for which we use the Russian part of XNLI, 3) another question answering task, SberQUAD. For language transferring we use English to Russian translation together with multilingual language fine-tuning.
翻訳日:2022-10-10 07:42:13 公開日:2020-10-15
# MOCHA: 生成的可読性メトリクスのトレーニングと評価のためのデータセット

MOCHA: A Dataset for Training and Evaluating Generative Reading Comprehension Metrics ( http://arxiv.org/abs/2010.03636v2 )

ライセンス: Link先を確認
Anthony Chen, Gabriel Stanovsky, Sameer Singh and Matt Gardner(参考訳) 世代問題としての読解理解は、多くの柔軟性をもたらし、可能な答えに制限がほとんどないオープンエンドの質問を可能にします。 しかし、トークンの重複に依存し、読解のニュアンスに非依存な既存の世代メトリクスによって進行が妨げられている。 そこで本研究では,生成的読解指標であるModeling Correctness with Human Annotationsのトレーニングと評価を行うベンチマークを提案する。 MOCHAには、6つの多様な質問応答データセットから得られたモデル出力に対する40万の人的判断スコアと、評価のための最小ペアの追加セットが含まれている。 MOCHAを用いて、人間の判断スコアを模倣する学習評価尺度LERCを訓練する。 LERCはベースラインのメトリクスを10から36の絶対的なピアソンポイントで上回る。 最小対のロバスト性を評価すると、LERCは80%の精度でベースラインを14から26の絶対パーセンテージで上回り、改善の余地は大きい。 MOCHAは、正確で堅牢な生成的読解尺度を開発する上で難しい問題である。

Posing reading comprehension as a generation problem provides a great deal of flexibility, allowing for open-ended questions with few restrictions on possible answers. However, progress is impeded by existing generation metrics, which rely on token overlap and are agnostic to the nuances of reading comprehension. To address this, we introduce a benchmark for training and evaluating generative reading comprehension metrics: MOdeling Correctness with Human Annotations. MOCHA contains 40K human judgement scores on model outputs from 6 diverse question answering datasets and an additional set of minimal pairs for evaluation. Using MOCHA, we train a Learned Evaluation metric for Reading Comprehension, LERC, to mimic human judgement scores. LERC outperforms baseline metrics by 10 to 36 absolute Pearson points on held-out annotations. When we evaluate robustness on minimal pairs, LERC achieves 80% accuracy, outperforming baselines by 14 to 26 absolute percentage points while leaving significant room for improvement. MOCHA presents a challenging problem for developing accurate and robust generative reading comprehension metrics.
翻訳日:2022-10-09 22:08:21 公開日:2020-10-15
# 言語理解と生成を改善するためのデュアル推論

Dual Inference for Improving Language Understanding and Generation ( http://arxiv.org/abs/2010.04246v2 )

ライセンス: Link先を確認
Shang-Yu Su, Yung-Sung Chuang, Yun-Nung Chen(参考訳) 自然言語理解(NLU)と自然言語生成(NLG)のタスクは強い二重関係を持ち、NLUは自然言語の発話に基づいて意味ラベルを予測し、NLGは反対する。 先行研究は主に、より優れたモデルを得るために、モデルトレーニングにおける双対性の利用に重点を置いていた。 しかし,現在のNLP領域におけるモデルの急速な拡大については,NLUモデルとNLGモデル全体の再訓練が困難になる場合がある。 そこで本研究では,推論段階における双対性を,再学習を必要とせずに活用することを提案する。 3つのベンチマークデータセットを用いた実験は,NLUとNLGの両方において提案手法の有効性を実証し,実用化の可能性を示した。

Natural language understanding (NLU) and Natural language generation (NLG) tasks hold a strong dual relationship, where NLU aims at predicting semantic labels based on natural language utterances and NLG does the opposite. The prior work mainly focused on exploiting the duality in model training in order to obtain the models with better performance. However, regarding the fast-growing scale of models in the current NLP area, sometimes we may have difficulty retraining whole NLU and NLG models. To better address the issue, this paper proposes to leverage the duality in the inference stage without the need of retraining. The experiments on three benchmark datasets demonstrate the effectiveness of the proposed method in both NLU and NLG, providing the great potential of practical usage.
翻訳日:2022-10-09 12:15:44 公開日:2020-10-15
# 線形関数近似を用いた非定常強化学習

Nonstationary Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2010.04244v2 )

ライセンス: Link先を確認
Huozhi Zhou, Jinglin Chen, Lav R. Varshney, and Ashish Jagmohan(参考訳) ドリフト環境下での線形関数近似によるマルコフ決定過程(MDP)における強化学習(RL)を検討する。 具体的には、報酬関数と状態遷移関数の両方が時間とともに進化し、それぞれの総変分が適切なメトリクスによって定量化される限り、特定の \textit{variation budget} を超えない。 我々はまず,最小二乗値反復と周期的再起動を併用した楽観的な修正法である$\texttt{LSVI-UCB-Restart}$アルゴリズムを開発し,変動予算が分かっている場合にその動的後悔境界を確立する。 次にパラメータフリーアルゴリズムである$\texttt{Ada-LSVI-UCB-Restart}$を提案する。 また, 提案アルゴリズムがほぼ最適であることを示すため, 非定常MDPに対して, 最小限のリフレッシュダウンバウンドを導出する。 副生成物として、線型 MDP に対するミニマックス後悔の下限を確立し、これは \cite{jin2020provably} によって解決されない。 さらに,提案アルゴリズムの有効性を示す数値実験を行った。 我々の知る限り、これは関数近似を用いた非定常強化学習における最初の動的後悔解析である。

We consider reinforcement learning (RL) in episodic Markov decision processes (MDPs) with linear function approximation under drifting environment. Specifically, both the reward and state transition functions can evolve over time, as long as their respective total variations, quantified by suitable metrics, do not exceed certain \textit{variation budgets}. We first develop the $\texttt{LSVI-UCB-Restart}$ algorithm, an optimistic modification of least-squares value iteration combined with periodic restart, and establish its dynamic regret bound when variation budgets are known. We then propose a parameter-free algorithm, $\texttt{Ada-LSVI-UCB-Restart}$, that works without knowing the variation budgets, but with a slightly worse dynamic regret bound. We also derive the first minimax dynamic regret lower bound for nonstationary MDPs to show that our proposed algorithms are near-optimal. As a byproduct, we establish a minimax regret lower bound for linear MDPs, which is unsolved by \cite{jin2020provably}. In addition, we provide numerical experiments to demonstrate the effectiveness of our proposed algorithms. As far as we know, this is the first dynamic regret analysis in nonstationary reinforcement learning with function approximation.
翻訳日:2022-10-09 11:30:26 公開日:2020-10-15
# フランクウルフアルゴリズムによる局所最適軌道のRNN訓練

RNN Training along Locally Optimal Trajectories via Frank-Wolfe Algorithm ( http://arxiv.org/abs/2010.05397v3 )

ライセンス: Link先を確認
Yun Yue, Ming Li, Venkatesh Saligrama, Ziming Zhang(参考訳) 本稿では,小さな領域内の損失面に局所最小値を求めることにより,RNNの新規かつ効率的なトレーニング手法を提案し,その方向ベクトルを外ループで活用する。 この文脈でフランク・ウルフ (FW) アルゴリズムを活用することを提案する。 FWは正規化勾配を暗黙的に含み、収束速度が遅くなる可能性があるが、驚くべきことに、追加コストにもかかわらず、全体的なトレーニングコストがバックプロパゲーションよりも低いと実証的に観察される新しいRNNトレーニング手法を開発した。 提案手法は,再起動方式のSGDアルゴリズムであるFrank-Wolfe法に導かれる。 ある条件下では、我々のアルゴリズムは$O(1/\epsilon)$ for $\epsilon$ error という部分線型収束率を持つ。 次に、長期依存を示すものを含むいくつかのベンチマークデータセットで実証実験を行い、大幅な性能改善を示す。 また、深層RNNアーキテクチャを実験し、効率的なトレーニング性能を示す。 最後に、トレーニング手法がノイズの多いデータに対して堅牢であることを示す。

We propose a novel and efficient training method for RNNs by iteratively seeking a local minima on the loss surface within a small region, and leverage this directional vector for the update, in an outer-loop. We propose to utilize the Frank-Wolfe (FW) algorithm in this context. Although, FW implicitly involves normalized gradients, which can lead to a slow convergence rate, we develop a novel RNN training method that, surprisingly, even with the additional cost, the overall training cost is empirically observed to be lower than back-propagation. Our method leads to a new Frank-Wolfe method, that is in essence an SGD algorithm with a restart scheme. We prove that under certain conditions our algorithm has a sublinear convergence rate of $O(1/\epsilon)$ for $\epsilon$ error. We then conduct empirical experiments on several benchmark datasets including those that exhibit long-term dependencies, and show significant performance improvement. We also experiment with deep RNN architectures and show efficient training performance. Finally, we demonstrate that our training method is robust to noisy data.
翻訳日:2022-10-08 06:16:30 公開日:2020-10-15
# 直接フィードバックアライメントを用いた学習型貯留層重み付き深層貯留層ネットワーク

Deep Reservoir Networks with Learned Hidden Reservoir Weights using Direct Feedback Alignment ( http://arxiv.org/abs/2010.06209v3 )

ライセンス: Link先を確認
Matthew Evanusa and Cornelia Ferm\"uller and Yiannis Aloimonos(参考訳) ディープラーニングのための新しいパラダイムとしてDeep Reservoir Computingが登場した。これは、階層的なディープラーニングと組み合わせたランダムなニューロンプールを維持するための貯水池コンピューティングの原則に基づいている。 貯水池のパラダイムは、生物学的脳における高い再発度と、学習においてニューロンのダイナミクスが果たす役割を反映し、尊重する。 しかしながら、深い貯水池ネットワーク開発を妨げる問題の一つは、貯水池層をバックプロパゲートできないことである。 近年の深層貯留層アーキテクチャは、深い人工ニューラルネットワークと同様の方法で隠れたあるいは階層的な表現を学習せず、伝統的な回帰を行うためにすべての隠れた貯留層を結合している。 本稿では,脳内ドーパミン信号の送信に類似した,生物学的にインスパイアされたバックプロパゲーション手法であるDirect Feedback Alignmentを用いた,時系列予測と分類のための新しいDeep Reservoir Networkを提案する。 2つの実世界多次元時系列データセットでその効果を示す。

Deep Reservoir Computing has emerged as a new paradigm for deep learning, which is based around the reservoir computing principle of maintaining random pools of neurons combined with hierarchical deep learning. The reservoir paradigm reflects and respects the high degree of recurrence in biological brains, and the role that neuronal dynamics play in learning. However, one issue hampering deep reservoir network development is that one cannot backpropagate through the reservoir layers. Recent deep reservoir architectures do not learn hidden or hierarchical representations in the same manner as deep artificial neural networks, but rather concatenate all hidden reservoirs together to perform traditional regression. Here we present a novel Deep Reservoir Network for time series prediction and classification that learns through the non-differentiable hidden reservoir layers using a biologically-inspired backpropagation alternative called Direct Feedback Alignment, which resembles global dopamine signal broadcasting in the brain. We demonstrate its efficacy on two real world multidimensional time series datasets.
翻訳日:2022-10-07 22:36:08 公開日:2020-10-15
# エッジデバイス上のAIソリューションのための効果的なアルゴリズムアクセラレータ共設計

Effective Algorithm-Accelerator Co-design for AI Solutions on Edge Devices ( http://arxiv.org/abs/2010.07185v2 )

ライセンス: Link先を確認
Cong Hao, Yao Chen, Xiaofan Zhang, Yuhong Li, Jinjun Xiong, Wen-mei Hwu and Deming Chen(参考訳) 高品質なAIソリューションには、ディープニューラルネットワーク(DNN)やハードウェアアクセラレータといったAIアルゴリズムの共同最適化が必要である。 ソリューション全体の品質を向上させると同時に,設計の生産性を高めるためには,効率的なアルゴリズムとアクセルの共同設計手法が不可欠である。 本稿ではまず,アルゴリズム/加速器の共設計問題に対する動機と課題について論じ,その上でいくつかの効果的な解決策を提供する。 特に、効果的な共同設計手法の3つの主要な成果を強調する。 1)最初の同時DNN/FPGA共設計法 2 双方向軽量DNN及び加速器共同設計方法 3) 微分可能かつ効率的なdnnおよび加速器共探索法。 FPGAとGPUの双方で広範囲な実験を行い,提案手法の有効性を実証し,既存手法との比較を行った。 本稿では,アルゴリズムアクセラレータの共同設計の重要性と有効性を強調し,この興味深く要求の多い領域におけるさらなる研究のブレークスルーを求める。

High quality AI solutions require joint optimization of AI algorithms, such as deep neural networks (DNNs), and their hardware accelerators. To improve the overall solution quality as well as to boost the design productivity, efficient algorithm and accelerator co-design methodologies are indispensable. In this paper, we first discuss the motivations and challenges for the Algorithm/Accelerator co-design problem and then provide several effective solutions. Especially, we highlight three leading works of effective co-design methodologies: 1) the first simultaneous DNN/FPGA co-design method; 2) a bi-directional lightweight DNN and accelerator co-design method; 3) a differentiable and efficient DNN and accelerator co-search method. We demonstrate the effectiveness of the proposed co-design approaches using extensive experiments on both FPGAs and GPUs, with comparisons to existing works. This paper emphasizes the importance and efficacy of algorithm-accelerator co-design and calls for more research breakthroughs in this interesting and demanding area.
翻訳日:2022-10-07 14:32:05 公開日:2020-10-15
# X線学的アプローチによるCT画像上の消化管間質腫瘍の鑑別診断と分子層化

Differential diagnosis and molecular stratification of gastrointestinal stromal tumors on CT images using a radiomics approach ( http://arxiv.org/abs/2010.06824v2 )

ライセンス: Link先を確認
Martijn P.A. Starmans, Milea J.M. Timbergen, Melissa Vos, Michel Renckens, Dirk J. Gr\"unhagen, Geert J.L.H. van Leenders, Roy S. Dwarkasing, Fran\c{c}ois E. J. A. Willemssen, Wiro J. Niessen, Cornelis Verhoef, Stefan Sleijfer, Jacob J. Visser, and Stefan Klein(参考訳) 他の腹腔内腫瘍やGISTs分子解析から胃腸管間質腫瘍(GISTs)を摘出することは治療計画に必要であるが,その希少性のため困難である。 本研究の目的は, 他の腹腔内腫瘍とGISTを鑑別するための放射線学的検討であり, GISTではc-KIT, PDGFRA, BRAF変異状況およびミトーシス指標(MI)を予測することである。 247例中125例(非GIST122例)に造影CTを施行した。 gist 対 non-gist radiomics モデル (画像, 年齢, 性別, 位置を含む) では, 平均面積は 0.82 であった。 3人の放射線学者はそれぞれ0.69、0.76、0.84のAUCを持っていた。 放射能モデルは、c-KITは0.52、c-KITエキソン11は0.56、MIは0.52である。 したがって,我々は放射線科医3名と同様の性能でgistと非gistを区別することができたが,c-kit変異やmiは予測できなかった。

Distinguishing gastrointestinal stromal tumors (GISTs) from other intra-abdominal tumors and GISTs molecular analysis is necessary for treatment planning, but challenging due to its rarity. The aim of this study was to evaluate radiomics for distinguishing GISTs from other intra-abdominal tumors, and in GISTs, predict the c-KIT, PDGFRA,BRAF mutational status and mitotic index (MI). All 247 included patients (125 GISTS, 122 non-GISTs) underwent a contrast-enhanced venous phase CT. The GIST vs. non-GIST radiomics model, including imaging, age, sex and location, had a mean area under the curve (AUC) of 0.82. Three radiologists had an AUC of 0.69, 0.76, and 0.84, respectively. The radiomics model had an AUC of 0.52 for c-KIT, 0.56 for c-KIT exon 11, and 0.52 for the MI. Hence, our radiomics model was able to distinguish GIST from non-GISTS with a performance similar to three radiologists, but was not able to predict the c-KIT mutation or MI.
翻訳日:2022-10-07 14:13:21 公開日:2020-10-15
# データ準備状況報告

Data Readiness Report ( http://arxiv.org/abs/2010.07213v2 )

ライセンス: Link先を確認
Shazia Afzal, Rajmohan C, Manish Kesarwani, Sameep Mehta, Hima Patel(参考訳) データ探索と品質分析は、AIパイプラインにおいて重要だが面倒なプロセスである。 機械学習タスクにおけるデータクリーニングとデータ準備性評価の現在の実践は、主に任意の方法で行われ、再利用が制限され生産性が低下する。 本稿では,データ利用者が入力データの品質に関する詳細な洞察を得ることのできるデータセットのドキュメントとして,データ準備レポートの概念を紹介する。 さまざまな品質次元に関するデータ特性と課題を識別し、透明性と説明可能性の原則を念頭に置いて文書化します。 Data Readiness Reportは、適用された変換を含むすべてのデータアセスメント操作の記録としても機能する。 これは、データのガバナンスと管理のために詳細な系統を提供する。 レポートは、データ準備および評価ワークフローにおいて、さまざまなペルソナがとったアクションをキャプチャし、文書化する。 これはベストプラクティスのリポジトリとなり、AutoML [8]のラインで自動データ準備ワークフローを構築するためのレコメンデーションシステムを駆動する可能性がある。 データシート [9]、データセット栄養ラベル [11]、ファクトシート [1]、モデルカード [15] と共に、データ準備レポートはデータとaiライフサイクルのドキュメントに向けて大きな進歩を遂げることを期待している。

Data exploration and quality analysis is an important yet tedious process in the AI pipeline. Current practices of data cleaning and data readiness assessment for machine learning tasks are mostly conducted in an arbitrary manner which limits their reuse and results in loss of productivity. We introduce the concept of a Data Readiness Report as an accompanying documentation to a dataset that allows data consumers to get detailed insights into the quality of input data. Data characteristics and challenges on various quality dimensions are identified and documented keeping in mind the principles of transparency and explainability. The Data Readiness Report also serves as a record of all data assessment operations including applied transformations. This provides a detailed lineage for the purpose of data governance and management. In effect, the report captures and documents the actions taken by various personas in a data readiness and assessment workflow. Overtime this becomes a repository of best practices and can potentially drive a recommendation system for building automated data readiness workflows on the lines of AutoML [8]. We anticipate that together with the Datasheets [9], Dataset Nutrition Label [11], FactSheets [1] and Model Cards [15], the Data Readiness Report makes significant progress towards Data and AI lifecycle documentation.
翻訳日:2022-10-07 14:04:55 公開日:2020-10-15
# 自然言語フィードバックの逆修正によるチャットボットの学習

Learning Improvised Chatbots from Adversarial Modifications of Natural Language Feedback ( http://arxiv.org/abs/2010.07261v2 )

ライセンス: Link先を確認
Makesh Narsimhan Sreedhar, Kun Ni, Siva Reddy(参考訳) チャットボットのユビキタスな性質とユーザとのインタラクションは、膨大なデータを生成します。 このデータを使ってチャットボットを改善できますか? 自給自足チャットボットは、ユーザが応答に不満を抱いたときに自然言語フィードバックを求め、このフィードバックを追加のトレーニングサンプルとして使用することにより、自己改善を図る。 しかし、多くの場合、ユーザーフィードバックにはトレーニングサンプルとしての有用性を妨げる外部シーケンスが含まれている。 そこで本研究では,会話中の雑音フィードバックを自然な応答に変換する生成的会話モデルを提案する。 ジェネレータの目標は、ユーザの以前の発話に応答する応答にフィードバックを変換し、自然な応答からフィードバックを区別する判別器を騙すことである。 これらの修正されたフィードバック応答によるトレーニングデータの強化は、Personachatデータセット上での正しいレスポンスのランク付けにおいて、元のチャットボットのパフォーマンスを69.94%から75.96%に向上させる。

The ubiquitous nature of chatbots and their interaction with users generate an enormous amount of data. Can we improve chatbots using this data? A self-feeding chatbot improves itself by asking natural language feedback when a user is dissatisfied with its response and uses this feedback as an additional training sample. However, user feedback in most cases contains extraneous sequences hindering their usefulness as a training sample. In this work, we propose a generative adversarial model that converts noisy feedback into a plausible natural response in a conversation. The generator's goal is to convert the feedback into a response that answers the user's previous utterance and to fool the discriminator which distinguishes feedback from natural responses. We show that augmenting original training data with these modified feedback responses improves the original chatbot performance from 69.94% to 75.96% in ranking correct responses on the Personachat dataset, a large improvement given that the original model is already trained on 131k samples.
翻訳日:2022-10-07 12:17:25 公開日:2020-10-15
# ベイズ最適化を用いたLLVM Clang/Polly Loop Optimization Pragmasを用いたPolyBenchベンチマークの自動最適化

Autotuning PolyBench Benchmarks with LLVM Clang/Polly Loop Optimization Pragmas Using Bayesian Optimization ( http://arxiv.org/abs/2010.08040v1 )

ライセンス: Link先を確認
Xingfu Wu, Michael Kruse, Prasanna Balaprakash, Hal Finkel, Paul Hovland, Valerie Taylor, Mary Hall(参考訳) 自動チューニング(autotuning)は、ターゲットプラットフォーム上の実装/構成のサブセットを選択して評価することで、カーネルやアプリケーションの可能な実装/構成の検索空間を探索するアプローチである。 本稿では,ベイズ最適化を利用してパラメータ空間探索を行う自動チューニングフレームワークを開発した。 我々は、PolyBenchベンチマーク(syr2k, 3mm, heat-3d, lu, covariance, Floyd-Warshall)のアプリケーションドメインから最も複雑なベンチマークを6つ選び、新たに開発されたLLVM Clang/Pollyループ最適化アルゴリズムをベンチマークに適用して最適化する。 次に、自動チューニングフレームワークを使用して、pragmaパラメータを最適化し、パフォーマンスを向上させます。 実験の結果,我々の自動チューニング手法は,最大170,368の異なるパラメータ空間を効率的に探索するための200のコード評価において,2つの大きなデータセットに対して,ベンチマーク syr2k, 3mm, Heat-3d, lu, covariance の最小実行時間を提供するために,他のコンパイル手法よりも優れていた。 ベイズ最適化における4つの教師付き学習手法を比較し,その有効性を評価する。 Floyd-Warshallベンチマークは、Pollyがヒューリスティックスを使用してベンチマークを最適化し、実行をはるかに遅くするため、自動チューニングの恩恵を受けなかったことが分かりました。 この問題に対処するため、パフォーマンスを改善するためのコンパイラオプションソリューションをいくつか提供します。

An autotuning is an approach that explores a search space of possible implementations/configurations of a kernel or an application by selecting and evaluating a subset of implementations/configurations on a target platform and/or use models to identify a high performance implementation/configuration. In this paper, we develop an autotuning framework that leverages Bayesian optimization to explore the parameter space search. We select six of the most complex benchmarks from the application domains of the PolyBench benchmarks (syr2k, 3mm, heat-3d, lu, covariance, and Floyd-Warshall) and apply the newly developed LLVM Clang/Polly loop optimization pragmas to the benchmarks to optimize them. We then use the autotuning framework to optimize the pragma parameters to improve their performance. The experimental results show that our autotuning approach outperforms the other compiling methods to provide the smallest execution time for the benchmarks syr2k, 3mm, heat-3d, lu, and covariance with two large datasets in 200 code evaluations for effectively searching the parameter spaces with up to 170,368 different configurations. We compare four different supervised learning methods within Bayesian optimization and evaluate their effectiveness. We find that the Floyd-Warshall benchmark did not benefit from autotuning because Polly uses heuristics to optimize the benchmark to make it run much slower. To cope with this issue, we provide some compiler option solutions to improve the performance.
翻訳日:2022-10-07 05:43:31 公開日:2020-10-15
# Blending Search and Discovery: 文脈強化学習によるタグベースのクエリリファインメント

Blending Search and Discovery: Tag-Based Query Refinement with Contextual Reinforcement Learning ( http://arxiv.org/abs/2010.09495v1 )

ライセンス: Link先を確認
Bingqing Yu and Jacopo Tagliabue(参考訳) 標準的なファセット検索に代わるモバイルフレンドリーな代替として,タグベースのクエリ改善に取り組む。 強化学習による推論課題にアプローチし,マルチテナントsaasシナリオにおいて効率的にスケール可能な,深いコンテキストのバンディットを提案する。

We tackle tag-based query refinement as a mobile-friendly alternative to standard facet search. We approach the inference challenge with reinforcement learning, and propose a deep contextual bandit that can be efficiently scaled in a multi-tenant SaaS scenario.
翻訳日:2022-10-07 05:39:45 公開日:2020-10-15
# 主成分分析と特徴量を用いた関数データのニューラルネットワーク予測

Explaining Neural Network Predictions for Functional Data Using Principal Component Analysis and Feature Importance ( http://arxiv.org/abs/2010.12063v1 )

ライセンス: Link先を確認
Katherine Goode, Daniel Ries, Joshua Zollweg(参考訳) 爆発のビデオから抽出された光学スペクトル時間信号は、対応する爆発装置の特性を特定するための情報を提供する。 現在、この同定はヒューリスティックアルゴリズムと直接主語エキスパートレビューを用いて行われている。 機械学習を用いて予測性能を向上させることができるが、このアプリケーションは国家の安全判断を高い結果に導くため、モデルに対する信頼性を高めるために、高い正確さと明確な説明を提供することが重要である。 機械学習モデルの説明可能性法を開発するために多くの研究が行われてきたが、光学スペクトル-時間的シグネチャのような関数型データの入力変数の状況に焦点を当てていない。 本稿では,データの性質を考慮に入れた関数型データを用いた機械学習モデルの説明手法を提案する。 提案手法は機能主成分分析(fPCA)と置換特徴重要度(PFI)を利用する。 fPCAは関数を変換して非相関な機能主成分(fPC)を生成する。 このモデルを入力としてfPCを用いて訓練し、予測のためにモデルにとって重要なfPCを特定するためにPFIを適用した。 可視化は、予測に重要な関数の側面を決定するために、PFIによって重要とされているfPCによって説明される変数を解釈するために用いられる。 本手法は,爆発装置の特性を予測するために,光スペクトル・時空間シグネチャに適合するニューラルネットワークを説明することで実証する。

Optical spectral-temporal signatures extracted from videos of explosions provide information for identifying characteristics of the corresponding explosive devices. Currently, the identification is done using heuristic algorithms and direct subject matter expert review. An improvement in predictive performance may be obtained by using machine learning, but this application lends itself to high consequence national security decisions, so it is not only important to provide high accuracy but clear explanations for the predictions to garner confidence in the model. While much work has been done to develop explainability methods for machine learning models, not much of the work focuses on situations with input variables of the form of functional data such optical spectral-temporal signatures. We propose a procedure for explaining machine learning models fit using functional data that accounts for the functional nature the data. Our approach makes use of functional principal component analysis (fPCA) and permutation feature importance (PFI). fPCA is used to transform the functions to create uncorrelated functional principal components (fPCs). The model is trained using the fPCs as inputs, and PFI is applied to identify the fPCs important to the model for prediction. Visualizations are used to interpret the variability explained by the fPCs that are found to be important by PFI to determine the aspects of the functions that are important for prediction. We demonstrate the technique by explaining neural networks fit to explosion optical spectral-temporal signatures for predicting characteristics of the explosive devices.
翻訳日:2022-10-07 05:39:40 公開日:2020-10-15
# 強化学習による緊急サービスシステムの最適派遣

Optimal Dispatch in Emergency Service System via Reinforcement Learning ( http://arxiv.org/abs/2010.07513v1 )

ライセンス: Link先を確認
Cheng Hua and Tauhid Zaman(参考訳) アメリカ合衆国では、過去40年間の消防署の医療反応が367%増加した。 これにより、緊急対応部門の意思決定者にとって、既存のリソースが効率的に使用されることが重要になった。 本稿では,救急搬送問題を平均コストマルコフ決定プロセスとしてモデル化し,最適な派遣方針を求めるための政策反復アプローチを提案する。 次に、元のモデルに数学的に同値であるが、より小さい状態空間を持つと示される、決定後状態を用いた別の定式化を提案する。 本稿では,決定後状態に基づくディスパッチ問題に対する時間差学習手法を提案する。 数値実験により, 得られた時間差ポリシーが, 基準筋力政策よりも優れていることを示した。 以上より,緊急対応部は最小限の費用で性能を向上できることが示唆された。

In the United States, medical responses by fire departments over the last four decades increased by 367%. This had made it critical to decision makers in emergency response departments that existing resources are efficiently used. In this paper, we model the ambulance dispatch problem as an average-cost Markov decision process and present a policy iteration approach to find an optimal dispatch policy. We then propose an alternative formulation using post-decision states that is shown to be mathematically equivalent to the original model, but with a much smaller state space. We present a temporal difference learning approach to the dispatch problem based on the post-decision states. In our numerical experiments, we show that our obtained temporal-difference policy outperforms the benchmark myopic policy. Our findings suggest that emergency response departments can improve their performance with minimal to no cost.
翻訳日:2022-10-07 05:39:16 公開日:2020-10-15
# 制御のためのクープマン表現の深層学習

Deep Learning of Koopman Representation for Control ( http://arxiv.org/abs/2010.07546v1 )

ライセンス: Link先を確認
Yiqiang Han, Wenjian Hao, Umesh Vaidya(参考訳) 動的システムの最適制御のためのデータ駆動型モデルフリーアプローチを開発した。 提案手法は、制御のために、Deep Neural Network(DNN)ベースのKoopman演算子の学習に依存する。 特にDNNは非線形制御系力学の線形昇降に使用される基底関数のデータ駆動同定に使用される。 コントローラ合成は純粋にデータ駆動であり、事前のドメイン知識に依存しない。 強化学習に基づく制御設計に使用されるOpenAI Gym環境は、制御設定においてクープマン演算子のデータ生成と学習に使用される。 この手法はOpenAI Gym環境上の2つの古典力学系に適用され,その性能を示す。

We develop a data-driven, model-free approach for the optimal control of the dynamical system. The proposed approach relies on the Deep Neural Network (DNN) based learning of Koopman operator for the purpose of control. In particular, DNN is employed for the data-driven identification of basis function used in the linear lifting of nonlinear control system dynamics. The controller synthesis is purely data-driven and does not rely on a priori domain knowledge. The OpenAI Gym environment, employed for Reinforcement Learning-based control design, is used for data generation and learning of Koopman operator in control setting. The method is applied to two classic dynamical systems on OpenAI Gym environment to demonstrate the capability.
翻訳日:2022-10-07 05:39:04 公開日:2020-10-15
# マルチエージェント強化学習を用いた共通プール資源管理のためのネットワークシステム制御のゲーム理論解析

A game-theoretic analysis of networked system control for common-pool resource management using multi-agent reinforcement learning ( http://arxiv.org/abs/2010.07777v1 )

ライセンス: Link先を確認
Arnu Pretorius, Scott Cameron, Elan van Biljon, Tom Makkink, Shahil Mawjee, Jeremy du Plessis, Jonathan Shock, Alexandre Laterre, Karim Beguir(参考訳) マルチエージェント強化学習は近年,ネットワーク型システム制御へのアプローチとして大きな可能性を秘めている。 大規模ネットワークシステム制御が適用可能な最も困難かつ重要なタスクの1つは、共通プールリソース管理である。 重要なコモンプール資源は耕作可能な土地、淡水、湿地、野生生物、魚類の備蓄、森林、大気であり、適切な管理は食料安全保障、不平等、気候変動といった社会の最大の課題に関係している。 ここでは,コモンズの悲劇のような社会的ジレンマ状況における人間のゲーム理論的インセンティブを研究する最近の研究プログラムから着想を得た。 しかし, 生物学的に進化した人型エージェントに焦点をあてるのではなく, 汎用強化学習エージェントからなるネットワークシステムにおいて, 記憶, 計算, 通信帯域幅といった非生物学的制約のみを考慮し, 学習と操作の振る舞いをよりよく理解することに関心がある。 経験的ゲーム理論の分析から,ネットワーク型マルチエージェントシステムの設計において,異なる情報構造を用いた結果の解概念の違いを解析する。 これらの情報構造は、エージェント間で共有される情報の種類と、採用される通信プロトコルとネットワークトポロジに関するものである。 我々の分析は、ある設計選択に関連する結果に対する新たな洞察を提供し、効率性、堅牢性、スケーラビリティ、平均制御性能を超えたシステム間の比較の余分な次元を提供する。

Multi-agent reinforcement learning has recently shown great promise as an approach to networked system control. Arguably, one of the most difficult and important tasks for which large scale networked system control is applicable is common-pool resource management. Crucial common-pool resources include arable land, fresh water, wetlands, wildlife, fish stock, forests and the atmosphere, of which proper management is related to some of society's greatest challenges such as food security, inequality and climate change. Here we take inspiration from a recent research program investigating the game-theoretic incentives of humans in social dilemma situations such as the well-known tragedy of the commons. However, instead of focusing on biologically evolved human-like agents, our concern is rather to better understand the learning and operating behaviour of engineered networked systems comprising general-purpose reinforcement learning agents, subject only to nonbiological constraints such as memory, computation and communication bandwidth. Harnessing tools from empirical game-theoretic analysis, we analyse the differences in resulting solution concepts that stem from employing different information structures in the design of networked multi-agent systems. These information structures pertain to the type of information shared between agents as well as the employed communication protocol and network topology. Our analysis contributes new insights into the consequences associated with certain design choices and provides an additional dimension of comparison between systems beyond efficiency, robustness, scalability and mean control performance.
翻訳日:2022-10-07 05:38:39 公開日:2020-10-15
# 対人関係におけるフェデレーション学習

Federated Learning in Adversarial Settings ( http://arxiv.org/abs/2010.07808v1 )

ライセンス: Link先を確認
Raouf Kerkouche, Gergely \'Acs and Claude Castelluccia(参考訳) フェデレートラーニング(Federated Learning)は、トレーニングデータをローカルに保持しながら、共有予測モデルを共同で学習することを可能にする。 データ収集とアグリゲーションを防ぎ、それ故に関連するプライバシーリスクを軽減します。 しかし、悪意のある参加者が生成したモデルを分解したり、バックドアを挿入したり、他の参加者のトレーニングデータを推測したりするさまざまなセキュリティ攻撃に対して、依然として脆弱である。 本稿では,ロバスト性,プライバシ,帯域幅効率,モデル精度の異なるトレードオフを提供する新しいフェデレーション学習手法を提案する。 提案手法はモデル更新のバイアス付き量子化を用いるため,帯域効率が向上する。 また、大多数のノードが悪意のある場合でも、最先端のバックドアやモデル劣化攻撃に対して堅牢である。 本稿では,参加するエンティティのデータセット全体を保護するための,現実的な差分的拡張を提案する。 この拡張は、厳密なプライバシ要件であっても、非プライベートだが堅牢なスキームと同じくらい効率的に動作するが、モデルの劣化やバックドア攻撃に対する堅牢性は低い。 これは、差分プライバシと堅牢性の間の根本的なトレードオフを示唆する。

Federated Learning enables entities to collaboratively learn a shared prediction model while keeping their training data locally. It prevents data collection and aggregation and, therefore, mitigates the associated privacy risks. However, it still remains vulnerable to various security attacks where malicious participants aim at degrading the generated model, inserting backdoors, or inferring other participants' training data. This paper presents a new federated learning scheme that provides different trade-offs between robustness, privacy, bandwidth efficiency, and model accuracy. Our scheme uses biased quantization of model updates and hence is bandwidth efficient. It is also robust against state-of-the-art backdoor as well as model degradation attacks even when a large proportion of the participant nodes are malicious. We propose a practical differentially private extension of this scheme which protects the whole dataset of participating entities. We show that this extension performs as efficiently as the non-private but robust scheme, even with stringent privacy requirements but are less robust against model degradation and backdoor attacks. This suggests a possible fundamental trade-off between Differential Privacy and robustness.
翻訳日:2022-10-07 05:38:14 公開日:2020-10-15
# ガウス推論の基本線形代数問題

Fundamental Linear Algebra Problem of Gaussian Inference ( http://arxiv.org/abs/2010.08022v1 )

ライセンス: Link先を確認
Timothy D Barfoot(参考訳) ガウス分布として後部を近似しようとする多くのベイズ推論技法は、共分散の平均成分と鍵成分の両方に対して解かなければならない基本線型代数問題である。 真の後方がガウス的でない場合でも(例えば非線形測度関数の場合)、各反復でこの線型代数問題を繰り返し解く変分スキームを使うことができる。 ほとんどの場合、この問題に対する解決策が存在するかどうかではなく、問題固有の構造を効果的に活用する方法である。 我々の貢献は、ガウス推論の基本線形代数問題(FLAPOGI)を明確に記述し、高橋ら(1973)のよく知られていない結果に対する新しいプレゼンテーション(クローネッカー代数を用いた)を提供することであり、共分散行列のキーエントリを解くことができる。 まずグローバルなソリューションを提供し、次に並列に計算するエージェントの集合の中でローカルメッセージパッシングを使って実装できるローカルバージョンを提供する。 信念の伝播とは対照的に、我々の局所的なスキームは、基礎となる因子グラフがループである場合でも平均と所望の共分散量の両方を大域的解に収束させることが保証される。 信念伝達と比較して、この保証された収束は、ループの場合、追加の記憶、計算、通信リンクのコストがかかるが、ローカル情報のみを用いて、フライで自動的に構築できることが示される。

Underlying many Bayesian inference techniques that seek to approximate the posterior as a Gaussian distribution is a fundamental linear algebra problem that must be solved for both the mean and key entries of the covariance. Even when the true posterior is not Gaussian (e.g., in the case of nonlinear measurement functions) we can use variational schemes that repeatedly solve this linear algebra problem at each iteration. In most cases, the question is not whether a solution to this problem exists, but rather how we can exploit problem-specific structure to find it efficiently. Our contribution is to clearly state the Fundamental Linear Algebra Problem of Gaussian Inference (FLAPOGI) and to provide a novel presentation (using Kronecker algebra) of the not-so-well-known result of Takahashi et al. (1973) that makes it possible to solve for key entries of the covariance matrix. We first provide a global solution and then a local version that can be implemented using local message passing amongst a collection of agents calculating in parallel. Contrary to belief propagation, our local scheme is guaranteed to converge in both the mean and desired covariance quantities to the global solution even when the underlying factor graph is loopy; in the case of synchronous updates, we provide a bound on the number of iterations required for convergence. Compared to belief propagation, this guaranteed convergence comes at the cost of additional storage, calculations, and communication links in the case of loops; however, we show how these can be automatically constructed on the fly using only local information.
翻訳日:2022-10-07 05:37:29 公開日:2020-10-15
# dslib: 支配的な集合クラスタリング方法のためのオープンソースライブラリ

DSLib: An open source library for the dominant set clustering method ( http://arxiv.org/abs/2010.07906v1 )

ライセンス: Link先を確認
Sebastiano Vascon, Samuel Rota Bul\`o, Vittorio Murino, Marcello Pelillo(参考訳) DSLib は、完全に Matlab で記述された Dominant Set (DS) クラスタリングアルゴリズムのオープンソース実装である。 DS法は、進化ゲーム理論に根ざしたグラフベースのクラスタリング手法であり、コンピュータ科学コミュニティで多くの関心を集め始めている。 ゲーム理論との双対性と、最大傾きの概念との厳密な関係のおかげで、クラスタリング問題に限らずいくつかの方向に探索されてきた。 グラフマッチング、セグメンテーション、分類、医療画像の応用は文献で一般的である。 このパッケージは、コードはまだ公式にリリースされていないため、オリジナルのDSクラスタリングアルゴリズムの実装を提供する。 私たちのライブラリは依存せずにmatlabパイプラインに統合できます。 最新のソースコード、ドキュメント、サンプルはhttps://xwasco.github.io/dominantsetlibraryからダウンロードできる。

DSLib is an open-source implementation of the Dominant Set (DS) clustering algorithm written entirely in Matlab. The DS method is a graph-based clustering technique rooted in the evolutionary game theory that starts gaining lots of interest in the computer science community. Thanks to its duality with game theory and its strict relation to the notion of maximal clique, has been explored in several directions not only related to clustering problems. Applications in graph matching, segmentation, classification and medical imaging are common in literature. This package provides an implementation of the original DS clustering algorithm since no code has been officially released yet, together with a still growing collection of methods and variants related to it. Our library is integrable into a Matlab pipeline without dependencies, it is simple to use and easily extendable for upcoming works. The latest source code, the documentation and some examples can be downloaded from https://xwasco.github.io/DominantSetLibrary.
翻訳日:2022-10-07 05:30:59 公開日:2020-10-15
# 単一長期記憶ネットワークを用いた複数時間スケールでの降雨流出予測

Rainfall-Runoff Prediction at Multiple Timescales with a Single Long Short-Term Memory Network ( http://arxiv.org/abs/2010.07921v1 )

ライセンス: Link先を確認
Martin Gauch, Frederik Kratzert, Daniel Klotz, Grey Nearing, Jimmy Lin, Sepp Hochreiter(参考訳) 長期短期記憶ネットワーク(lstms)は日々の放電予測に応用され、顕著な成功を収めている。 しかし、多くの現実的なシナリオはより詳細な時間スケールで予測を必要とする。 例えば、短いが極端な洪水ピークの正確な予測は、救命効果の差をもたらすが、そのようなピークは日々の予測の粗い時間的解決を逃れる可能性がある。 しかし、時間ごとにLSTMをトレーニングするには非常に長い入力シーケンスが必要で、学習が困難で計算コストがかかる。 本研究では,1つの時間分解能で長期入力を処理し,より最近の入力ステップのために各時間スケールに分岐する2つのマルチタイムスケールLSTM(MTS-LSTM)アーキテクチャを提案する。 これらのモデルを米国大陸の516の盆地でテストし,米国国家水モデルに対するベンチマークを行った。 時間スケール毎のLSTMを区別した単純な予測と比較すると、マルチタイムスケールのアーキテクチャは精度を損なわずに計算的に効率的である。 予測品質以外にも、多時間スケールのLSTMは異なる時間スケールで異なる入力変数を処理できる。

Long Short-Term Memory Networks (LSTMs) have been applied to daily discharge prediction with remarkable success. Many practical scenarios, however, require predictions at more granular timescales. For instance, accurate prediction of short but extreme flood peaks can make a life-saving difference, yet such peaks may escape the coarse temporal resolution of daily predictions. Naively training an LSTM on hourly data, however, entails very long input sequences that make learning hard and computationally expensive. In this study, we propose two Multi-Timescale LSTM (MTS-LSTM) architectures that jointly predict multiple timescales within one model, as they process long-past inputs at a single temporal resolution and branch out into each individual timescale for more recent input steps. We test these models on 516 basins across the continental United States and benchmark against the US National Water Model. Compared to naive prediction with a distinct LSTM per timescale, the multi-timescale architectures are computationally more efficient with no loss in accuracy. Beyond prediction quality, the multi-timescale LSTM can process different input variables at different timescales, which is especially relevant to operational applications where the lead time of meteorological forcings depends on their temporal resolution.
翻訳日:2022-10-07 05:30:45 公開日:2020-10-15
# 学習課題におけるトピックモデリングのための半教師付きNMFモデル

Semi-supervised NMF Models for Topic Modeling in Learning Tasks ( http://arxiv.org/abs/2010.07956v1 )

ライセンス: Link先を確認
Jamie Haddock, Lara Kassab, Sixian Li, Alona Kryshchenko, Rachel Grotheer, Elena Sizikova, Chuntian Wang, Thomas Merkh, R. W. M. A. Madushani, Miju Ahn, Deanna Needell, Kathryn Leonard(参考訳) 半教師付き非負行列因子分解 (ssnmf) のモデルをいくつか提案し, 不確かさの特定の分布が与えられた場合, ssnmfモデルに対するモチベーションを与える。 本稿では,新しいモデル毎の乗法的更新学習法を示し,他の教師付き学習タスクに対して柔軟ではあるが,これらのモデルの分類への応用を実証する。 合成データと実データの両方において、これらのモデルとトレーニング手法の約束を述べ、20のニュースグループデータセット上で高い分類精度を実現する。

We propose several new models for semi-supervised nonnegative matrix factorization (SSNMF) and provide motivation for SSNMF models as maximum likelihood estimators given specific distributions of uncertainty. We present multiplicative updates training methods for each new model, and demonstrate the application of these models to classification, although they are flexible to other supervised learning tasks. We illustrate the promise of these models and training methods on both synthetic and real data, and achieve high classification accuracy on the 20 Newsgroups dataset.
翻訳日:2022-10-07 05:29:59 公開日:2020-10-15
# インデクサブルクラス学習のためのマップ

Maps for Learning Indexable Classes ( http://arxiv.org/abs/2010.09460v1 )

ライセンス: Link先を確認
Julian Berger, Maximilian B\"other, Vanja Dosko\v{c}, Jonathan Gadea Harder, Nicolas Klodt, Timo K\"otzing, Winfried L\"otzsch, Jannik Peters, Leon Schiller, Lars Seifert, Armin Wells, Simon Wietheger(参考訳) 学習者が学習対象言語を含む仮説空間(一様に決定可能なメンバーシップ)を自由に選択できるポジティブデータから,指標付き家族を学習する。 これは非常に普遍的な学習課題を抽象化しており、例えば正規言語の学習(サブセット)や自然言語の学習など、多くの領域で見られる。 我々は、一貫性、保守性、セット駆動性といった学習に対する様々な制限に興味を持ち、様々な自然学習制限を実証しています。 文献から得られた過去の結果に基づいて,モノトニティ制約の地図や類似基準の地図,データ提示制限の地図など,さまざまな学習基準のグループの複数のマップ(全対関係の抽出)を提供する。 さらに,様々な学習基準について,学習者が一貫性を持つことができるかを検討する。

We study learning of indexed families from positive data where a learner can freely choose a hypothesis space (with uniformly decidable membership) comprising at least the languages to be learned. This abstracts a very universal learning task which can be found in many areas, for example learning of (subsets of) regular languages or learning of natural languages. We are interested in various restrictions on learning, such as consistency, conservativeness or set-drivenness, exemplifying various natural learning restrictions. Building on previous results from the literature, we provide several maps (depictions of all pairwise relations) of various groups of learning criteria, including a map for monotonicity restrictions and similar criteria and a map for restrictions on data presentation. Furthermore, we consider, for various learning criteria, whether learners can be assumed consistent.
翻訳日:2022-10-07 05:29:02 公開日:2020-10-15
# インダクティブ推論における(逐次的に)知性に基づく学習者の正規形式

Normal Forms for (Semantically) Witness-Based Learners in Inductive Inference ( http://arxiv.org/abs/2010.09461v1 )

ライセンス: Link先を確認
Vanja Dosko\v{c} and Timo K\"otzing(参考訳) 本研究では,形式言語を推論する学習者(計算可能なデバイス)について,限定的あるいは帰納的推論において言語学習と呼ばれる設定について検討する。 特に、調査対象の学習者は、証人に基づく、つまり、それぞれの心の変化を正当化する必要がある。 学習課題の自然な要件であるだけでなく、この制限は様々な重要な学習パラダイムの専門化であり、特別な注意に値する。 特に、証人に基づく学習の助けを借りて、説明的学習者は、これらの相容れないパラダイムの下で等しく強力であることが示されている。 しかし、これまでは証人ベースの学習者は少なからぬ研究しか行われていなかった。 本研究では,構文的および意味的収束を必要とする場合と,その正規形を求める場合の両方において,これらの学習者の徹底的な研究を行う。 前者では、証人ベースの学習を含む既知の結果を拡張し、これらを一般化して様々な学習者を保持する。 行動学的に正しい学習へと移行し、意味的目撃者に基づく学習者には通常の形式を提供する。 とくに、セット駆動のグローバルなセマンティックな目撃者ベースの学習者は、ゴールドスタイルのセマンティックな保守的な学習者と同じくらい強力であることを示す。 このような結果は、振る舞いを正しく学習する際の重要な学習パラダイム間の相互関係を理解する上で重要である。

We study learners (computable devices) inferring formal languages, a setting referred to as language learning in the limit or inductive inference. In particular, we require the learners we investigate to be witness-based, that is, to justify each of their mind changes. Besides being a natural requirement for a learning task, this restriction deserves special attention as it is a specialization of various important learning paradigms. In particular, with the help of witness-based learning, explanatory learners are shown to be equally powerful under these seemingly incomparable paradigms. Nonetheless, until now, witness-based learners have only been studied sparsely. In this work, we conduct a thorough study of these learners both when requiring syntactic and semantic convergence and obtain normal forms thereof. In the former setting, we extend known results such that they include witness-based learning and generalize these to hold for a variety of learners. Transitioning to behaviourally correct learning, we also provide normal forms for semantically witness-based learners. Most notably, we show that set-driven globally semantically witness-based learners are equally powerful as their Gold-style semantically conservative counterpart. Such results are key to understanding the, yet undiscovered, mutual relation between various important learning paradigms when learning behaviourally correctly.
翻訳日:2022-10-07 05:28:49 公開日:2020-10-15
# 帰納的推論における単調制限のマッピング

Mapping Monotonic Restrictions in Inductive Inference ( http://arxiv.org/abs/2010.09464v1 )

ライセンス: Link先を確認
Vanja Dosko\v{c} and Timo K\"otzing(参考訳) 言語学習においては,形式言語を学習する計算可能なデバイス(学習者)について検討する。 長年にわたり、学習者に対して多くの自然制限が課されてきた。 このように、モノトニックな制限は常に特別な注意を向けており、自然の要求であるにもかかわらず、モノトニックな学習者は異なる設定で研究する場合に非常に多様な行動を示す。 最近の研究では、メモリ制限と様々な追加要件を課した強い単調学習者の学習能力を徹底的に分析した。 説明的および行動的に正しい学習者間の差異は,同じ制限を扱う単調学習者の研究を動機づける。 本研究は, 単調学習者と強い単調学習者との違いと類似点を明らかにする。 特に,説明的単調学習者は強く強いが,強い単調学習に見られるような対関係をほとんど(ほとんど)維持していることを示す。 この類似性とは対照的に、行動学的に正しい単調学習者を研究する際、かなりの違いがある。 とくに、モノトーン学習者は、強いモノトーン学習とは対照的に、情報が与える順序に大きく依存していることが示され、これは行動的に正しい学習者にとって珍しい結果である。

In language learning in the limit we investigate computable devices (learners) learning formal languages. Through the years, many natural restrictions have been imposed on the studied learners. As such, monotonic restrictions always enjoyed particular attention as, although being a natural requirement, monotonic learners show significantly diverse behaviour when studied in different settings. A recent study thoroughly analysed the learning capabilities of strongly monotone learners imposed with memory restrictions and various additional requirements. The unveiled differences between explanatory and behaviourally correct such learners motivate our studies of monotone learners dealing with the same restrictions. We reveal differences and similarities between monotone learners and their strongly monotone counterpart when studied with various additional restrictions. In particular, we show that explanatory monotone learners, although known to be strictly stronger, do (almost) preserve the pairwise relation as seen in strongly monotone learning. Contrasting this similarity, we find substantial differences when studying behaviourally correct monotone learners. Most notably, we show that monotone learners, as opposed to their strongly monotone counterpart, do heavily rely on the order the information is given in, an unusual result for behaviourally correct learners.
翻訳日:2022-10-07 05:28:28 公開日:2020-10-15
# 食事行動とダッシュ摂食計画最適化制約に関するオープンソースデータセット

An Open-Source Dataset on Dietary Behaviors and DASH Eating Plan Optimization Constraints ( http://arxiv.org/abs/2010.07531v1 )

ライセンス: Link先を確認
Farzin Ahmadi, Fardin Ganjkhanloo, Kimia Ghobadi(参考訳) 線形制約最適化技術は多くの実世界の設定に適用されている。 近年,最適化モデル内で未知のパラメータや関数を推定する手法も注目されている。 この推論は、しばしば既存の観測や既知のパラメータに基づいている。 そのため、そのようなモデルは信頼性が高く、容易にアクセスでき、容易に解釈できる例を必要とする。 このような方向の研究を容易にするために,様々な集団の食事行動,その人口動態,および既存の条件に基づくデータセットの修正を行った。 このデータはnational health and nutrition examination survey (nhanes) から収集され、アメリカ合衆国農務省(usda)の栄養データと補完される。 また,高血圧およびプレ糖尿病患者を対象に,高血圧予防のための食事アプローチ(DASH)摂食計画などの目標食の恩恵を受けることができるグループとして,適切なデータセットを提供する。 データは線形最適化モデルへの入力として適するようにコンパイルされ、キュレートされる。 このデータとその補足的なオープンアクセス材料が、線形最適化と制約付き推論モデルに関する解釈と研究を加速し、単純化できることを願っている。 完全なデータセットは以下のリポジトリにある。 https://github.com/cssehealthcare/inverselearning。

Linear constrained optimization techniques have been applied to many real-world settings. In recent years, inferring the unknown parameters and functions inside an optimization model has also gained traction. This inference is often based on existing observations and/or known parameters. Consequently, such models require reliable, easily accessed, and easily interpreted examples to be evaluated. To facilitate research in such directions, we provide a modified dataset based on dietary behaviors of different groups of people, their demographics, and pre-existing conditions, among other factors. This data is gathered from the National Health and Nutrition Examination Survey (NHANES) and complemented with the nutritional data from the United States Department of Agriculture (USDA). We additionally provide tailored datasets for hypertension and pre-diabetic patients as groups of interest who may benefit from targetted diets such as the Dietary Approaches to Stop Hypertension (DASH) eating plan. The data is compiled and curated in such a way that it is suitable as input to linear optimization models. We hope that this data and its supplementary, open-accessed materials can accelerate and simplify interpretations and research on linear optimization and constrained inference models. The complete dataset can be found in the following repository: https://github.com/CSSEHealthcare/InverseLearning
翻訳日:2022-10-07 05:22:22 公開日:2020-10-15
# 雑音2値測定による疎信号回復のためのロバストなディープアンフォールドネットワーク

A Robust Deep Unfolded Network for Sparse Signal Recovery from Noisy Binary Measurements ( http://arxiv.org/abs/2010.07564v1 )

ライセンス: Link先を確認
Y.Yang, P.Xiao, B.Liao, N.Deligiannis(参考訳) 本稿では1ビット圧縮センシング問題を解くために,DeepFPC-$\ell_2$という新しいディープニューラルネットワークを提案する。 このネットワークは、固定点継続(FPC)アルゴリズムの反復を片側$\ell_2$-norm (FPC-$\ell_2$)で展開することによって設計されている。 DeepFPC-$\ell_2$法は従来のFPC-$\ell_2$法よりも高い信号再構成精度と収束速度を示す。 さらに、FPC-$\ell_1$アルゴリズムを展開させたDeepFPCネットワークとノイズとのロバスト性を比較し、異なる信号対雑音比(SNR)と符号フリップ比(フリップ比)のシナリオについて検討した。 提案手法は,従来のDeepFPC法よりもノイズ免疫性が高いことを示す。 この結果は、ディープアンフォールドニューラルネットワークのロバスト性は、それに由来するアルゴリズムのロバスト性と関連していることを示している。

We propose a novel deep neural network, coined DeepFPC-$\ell_2$, for solving the 1-bit compressed sensing problem. The network is designed by unfolding the iterations of the fixed-point continuation (FPC) algorithm with one-sided $\ell_2$-norm (FPC-$\ell_2$). The DeepFPC-$\ell_2$ method shows higher signal reconstruction accuracy and convergence speed than the traditional FPC-$\ell_2$ algorithm. Furthermore, we compare its robustness to noise with the previously proposed DeepFPC network---which stemmed from unfolding the FPC-$\ell_1$ algorithm---for different signal to noise ratio (SNR) and sign-flipped ratio (flip ratio) scenarios. We show that the proposed network has better noise immunity than the previous DeepFPC method. This result indicates that the robustness of a deep-unfolded neural network is related with that of the algorithm it stems from.
翻訳日:2022-10-07 05:22:04 公開日:2020-10-15
# スキーマ変更の回避:ディープラーニングを用いた非マネージドデータの統合

Survive the Schema Changes: Integration of Unmanaged Data Using Deep Learning ( http://arxiv.org/abs/2010.07586v1 )

ライセンス: Link先を確認
Zijie Wang, Lixi Zhou, Amitabh Das, Valay Dave, Zhanpeng Jin, Jia Zou(参考訳) データはAI時代の王である。 しかし、データ統合は自動化が難しい面倒な作業であることが多い。 スキーマ変更は、エンドツーエンドのデータ統合プロセスを自動化するための大きな障害のひとつです。 この問題に対処するためのクエリ発見やスキーマ修正言語のようなメカニズムは存在するが、これらのアプローチは、スキーマがデータベースによって維持されているという仮定でのみ機能する。 しかし,我々は異種データとオープンデータにおけるスキーマ変更の多様化を観察し,そのほとんどがスキーマ定義されていない。 本研究では,ディープラーニングを用いて,スーパーセル表現によるスキーマ変更の自動処理と,トレーニングデータへの摂動の自動注入を行い,モデルをスキーマ変更に対して堅牢にする手法を提案する。 実験の結果,提案手法は2つの実世界のデータ統合シナリオ – 新型コロナウイルスデータ統合とマシンログ統合 – に有効であることが示された。

Data is the king in the age of AI. However data integration is often a laborious task that is hard to automate. Schema change is one significant obstacle to the automation of the end-to-end data integration process. Although there exist mechanisms such as query discovery and schema modification language to handle the problem, these approaches can only work with the assumption that the schema is maintained by a database. However, we observe diversified schema changes in heterogeneous data and open data, most of which has no schema defined. In this work, we propose to use deep learning to automatically deal with schema changes through a super cell representation and automatic injection of perturbations to the training data to make the model robust to schema changes. Our experimental results demonstrate that our proposed approach is effective for two real-world data integration scenarios: coronavirus data integration, and machine log integration.
翻訳日:2022-10-07 05:21:18 公開日:2020-10-15
# マルチラベル心電図信号分類のための散乱変換とディープニューラルネットワークの組み合わせ

Combining Scatter Transform and Deep Neural Networks for Multilabel Electrocardiogram Signal Classification ( http://arxiv.org/abs/2010.07639v1 )

ライセンス: Link先を確認
Maximilian P Oppelt, Maximilian Riehl, Felix P Kemeth, Jan Steffan(参考訳) 心電図(ECG)信号の正確な分類には、疾患を識別できる情報的だが一般的な特徴の抽出が不可欠である。 心血管異常は、p波の欠如のような小さな形態的特徴や心拍数尺度で見られるリズム的特徴など、様々な時間尺度で特徴として現れる。 このため、我々は、深層残留ニューラルネットワーク(resnet)に、散乱変換と呼ばれる複素ウェーブレット変換の変種を組み込む。 前者は理論から導かれる利点があり、入力のある種の変換の下でうまく振る舞う。 後者はECG分類において有用であることが証明されており、特徴抽出と分類をエンドツーエンドで学習することができる。 散乱変換間のトレーニング可能な層を組み込むことにより、モデルは異なるチャネルからの情報を結合し、分類タスクのより情報的な特徴を与え、それらを特定の領域に適応させることができる。 評価のため,2020年のPhysioNet/Computing in Cardiology Challengeにおいて,本モデルを公式フェーズに提出した。 チームトライアージ(Team Triage)アプローチは、挑戦検証スコア0.640、完全テストスコア0.485を達成し、41点中4位にランクインしました。

An essential part for the accurate classification of electrocardiogram (ECG) signals is the extraction of informative yet general features, which are able to discriminate diseases. Cardiovascular abnormalities manifest themselves in features on different time scales: small scale morphological features, such as missing P-waves, as well as rhythmical features apparent on heart rate scales. For this reason we incorporate a variant of the complex wavelet transform, called a scatter transform, in a deep residual neural network (ResNet). The former has the advantage of being derived from theory, making it well behaved under certain transformations of the input. The latter has proven useful in ECG classification, allowing feature extraction and classification to be learned in an end-to-end manner. Through the incorporation of trainable layers in between scatter transforms, the model gains the ability to combine information from different channels, yielding more informative features for the classification task and adapting them to the specific domain. For evaluation, we submitted our model in the official phase in the PhysioNet/Computing in Cardiology Challenge 2020. Our (Team Triage) approach achieved a challenge validation score of 0.640, and full test score of 0.485, placing us 4th out of 41 in the official ranking.
翻訳日:2022-10-07 05:21:06 公開日:2020-10-15
# encod: 圧縮および暗号化されたファイルフラグメントの識別

EnCoD: Distinguishing Compressed and Encrypted File Fragments ( http://arxiv.org/abs/2010.07754v1 )

ライセンス: Link先を確認
Fabio De Gaspari, Dorjan Hitaj, Giulio Pagnotta, Lorenzo De Carli, Luigi V. Mancini(参考訳) 暗号化されたファイルフラグメントの信頼性の高い識別は、ランサムウェア検出、デジタル法医学、トラフィック分析など、いくつかのセキュリティアプリケーションに対する要件である。 一般的なアプローチは、ランダム性のプロキシとして高いエントロピーを推定することである。 しかし、現代の多くのコンテンツタイプ(例えば、オフィス文書、メディアファイルなど)は、ストレージと伝送効率のために高度に圧縮されている。 圧縮アルゴリズムは高エントロピーデータを出力し、エントロピーベースの暗号化検出器の精度を低下させる。 長年にわたり、暗号化されたファイルフラグメントと高エントロピー圧縮フラグメントを区別する様々なアプローチが提案されてきた。 しかしながら、これらのアプローチは通常、少数のデータ型とフラグメントサイズでのみ評価されるため、実際の適用可能性の公正な評価は不可能である。 本稿では,大規模で標準化されたデータセット上での既存の統計テストを比較することにより,このギャップを解消することを目的とする。 提案手法は, 大規模な断片サイズであっても, 暗号化と圧縮を確実に区別できないことを示す。 この問題に対処するため、我々は、圧縮されたデータと暗号化されたデータを確実に区別できる学習ベースの分類器encodを設計した。 異なるデータ型の大規模なデータセットに対する現在のアプローチに対するEnCoDの評価を行い、最も検討されたフラグメントサイズやデータタイプに対して、現在の最先端よりも優れていることを示す。

Reliable identification of encrypted file fragments is a requirement for several security applications, including ransomware detection, digital forensics, and traffic analysis. A popular approach consists of estimating high entropy as a proxy for randomness. However, many modern content types (e.g. office documents, media files, etc.) are highly compressed for storage and transmission efficiency. Compression algorithms also output high-entropy data, thus reducing the accuracy of entropy-based encryption detectors. Over the years, a variety of approaches have been proposed to distinguish encrypted file fragments from high-entropy compressed fragments. However, these approaches are typically only evaluated over a few, select data types and fragment sizes, which makes a fair assessment of their practical applicability impossible. This paper aims to close this gap by comparing existing statistical tests on a large, standardized dataset. Our results show that current approaches cannot reliably tell apart encryption and compression, even for large fragment sizes. To address this issue, we design EnCoD, a learning-based classifier which can reliably distinguish compressed and encrypted data, starting with fragments as small as 512 bytes. We evaluate EnCoD against current approaches over a large dataset of different data types, showing that it outperforms current state-of-the-art for most considered fragment sizes and data types.
翻訳日:2022-10-07 05:20:43 公開日:2020-10-15
# 実地球物理データによる深層学習:分散音響センシング研究の事例研究

Deep Learning on Real Geophysical Data: A Case Study for Distributed Acoustic Sensing Research ( http://arxiv.org/abs/2010.07842v1 )

ライセンス: Link先を確認
Vincent Dumont, Ver\'onica Rodr\'iguez Tribaldos, Jonathan Ajo-Franklin, Kesheng Wu(参考訳) リアルで大規模で複雑な科学的データセットに対するディープラーニングアプローチは、設計が非常に難しい。 本研究では,DAS(Distributed Acoustic Sensing)を用いて得られた地震データから使用可能なエネルギーを同定するために,微調整および効率よくスケールしたディープラーニング分類器の完全探索を行う。 トレーニング中にラベル付き画像のサブセットのみを使用して、未知の信号パターンに正確に一般化できる適切なモデルを特定することができた。 16倍のGPUを使用すれば、5万のデータセット上で2桁以上のトレーニング速度を向上できることを示す。

Deep Learning approaches for real, large, and complex scientific data sets can be very challenging to design. In this work, we present a complete search for a finely-tuned and efficiently scaled deep learning classifier to identify usable energy from seismic data acquired using Distributed Acoustic Sensing (DAS). While using only a subset of labeled images during training, we were able to identify suitable models that can be accurately generalized to unknown signal patterns. We show that by using 16 times more GPUs, we can increase the training speed by more than two orders of magnitude on a 50,000-image data set.
翻訳日:2022-10-07 05:19:59 公開日:2020-10-15
# LiteDepthwiseNet:ハイパースペクトル画像分類のための超軽量ネットワーク

LiteDepthwiseNet: An Extreme Lightweight Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2010.07726v1 )

ライセンス: Link先を確認
Benlei Cui, XueMei Dong, Qiaoqiao Zhan, Jiangtao Peng, Weiwei Sun(参考訳) 深層学習法は高スペクトル画像(HSI)分類に有意な可能性を示しており,従来の手法と比較して精度が高い。 しかし、多くの場合、大量のトレーニングサンプルを必要とし、多くのパラメータと高い計算オーバーヘッドを持っている。 そこで本研究では,HSI分類のための新しいネットワークアーキテクチャLiteDepthwiseNetを提案する。 3次元奥行き畳み込みに基づいて、LiteDepthwiseNetは標準畳み込みを奥行き畳み込みとポイントワイド畳み込みに分解し、最小限のパラメータで高い分類性能を達成する。 さらに,ReLU層とバッチ正規化層を元の3次元奥行き畳み込みで除去し,小型データセット上でのモデルのオーバーフィット現象を大幅に改善する。 さらに、損失関数として焦点損失を用い、難サンプルや不均衡データに対するモデルの注意を向上し、そのトレーニング性能は、クロスエントロピー損失やバランスの取れたクロスエントロピー損失よりも大幅に向上する。 3つのベンチマークハイパースペクトルデータセットの実験結果は、litedepthwisenetが極めて少ないパラメータと低い計算コストで最先端のパフォーマンスを達成していることを示している。

Deep learning methods have shown considerable potential for hyperspectral image (HSI) classification, which can achieve high accuracy compared with traditional methods. However, they often need a large number of training samples and have a lot of parameters and high computational overhead. To solve these problems, this paper proposes a new network architecture, LiteDepthwiseNet, for HSI classification. Based on 3D depthwise convolution, LiteDepthwiseNet can decompose standard convolution into depthwise convolution and pointwise convolution, which can achieve high classification performance with minimal parameters. Moreover, we remove the ReLU layer and Batch Normalization layer in the original 3D depthwise convolution, which significantly improves the overfitting phenomenon of the model on small sized datasets. In addition, focal loss is used as the loss function to improve the model's attention on difficult samples and unbalanced data, and its training performance is significantly better than that of cross-entropy loss or balanced cross-entropy loss. Experiment results on three benchmark hyperspectral datasets show that LiteDepthwiseNet achieves state-of-the-art performance with a very small number of parameters and low computational cost.
翻訳日:2022-10-07 05:14:04 公開日:2020-10-15
# DynaSLAM II: 密結合型マルチオブジェクトトラッキングとSLAM

DynaSLAM II: Tightly-Coupled Multi-Object Tracking and SLAM ( http://arxiv.org/abs/2010.07820v1 )

ライセンス: Link先を確認
Berta Bescos, Carlos Campos, Juan D. Tard\'os, Jos\'e Neira(参考訳) シーン剛性の仮定は視覚SLAMアルゴリズムで一般的である。 しかし、実環境における適用性には制限がある。 さらに、自律運転、マルチロボットコラボレーション、拡張現実/仮想現実を含むほとんどのシナリオは、意思決定やシーン理解を支援するために周囲の明確な動き情報を必要とする。 本稿では,マルチオブジェクトトラッキング機能を密に統合したステレオおよびrgb-d構成用ビジュアルスラムシステムdynaslam iiについて述べる。 DynaSLAM IIはインスタンスセマンティックセグメンテーションとORB機能を使って動的オブジェクトを追跡する。 静的シーンの構造と動的オブジェクトの構造は、新しいバンドル調整提案において、カメラと移動エージェントの両方の軌跡と共同で最適化される。 オブジェクトの3Dバウンディングボックスも推定され、固定時間ウィンドウ内で緩やかに最適化される。 動的物体の追跡はシーン理解のための豊富な手がかりを提供するだけでなく、カメラ追跡にも有用であることを示す。 プロジェクトのコードは受け入れ次第リリースされます。

The assumption of scene rigidity is common in visual SLAM algorithms. However, it limits their applicability in populated real-world environments. Furthermore, most scenarios including autonomous driving, multi-robot collaboration and augmented/virtual reality, require explicit motion information of the surroundings to help with decision making and scene understanding. We present in this paper DynaSLAM II, a visual SLAM system for stereo and RGB-D configurations that tightly integrates the multi-object tracking capability. DynaSLAM II makes use of instance semantic segmentation and of ORB features to track dynamic objects. The structure of the static scene and of the dynamic objects is optimized jointly with the trajectories of both the camera and the moving agents within a novel bundle adjustment proposal. The 3D bounding boxes of the objects are also estimated and loosely optimized within a fixed temporal window. We demonstrate that tracking dynamic objects does not only provide rich clues for scene understanding but is also beneficial for camera tracking. The project code will be released upon acceptance.
翻訳日:2022-10-07 05:13:40 公開日:2020-10-15
# 外部変数を持つ$\ell_1$-penalized autoregressiveに対するオンラインペナルティパラメータ選択手順の改良

An Improved Online Penalty Parameter Selection Procedure for $\ell_1$-Penalized Autoregressive with Exogenous Variables ( http://arxiv.org/abs/2010.07594v1 )

ライセンス: Link先を確認
William B. Nicholson, Xiaohan Yan(参考訳) 高次元統計時系列文学における最近の多くの発展は、正規化された最小二乗に適応できる時間依存の応用を中心にしている。 特に興味があるのはラッソであり、どちらも規則化と特徴選択を提供する。 lassoは、課すべきスパーシティの程度を決定するペナルティパラメータの仕様を必要とする。 時間依存を尊重する最も一般的なペナルティパラメータ選択アプローチは非常に計算量が多く、時系列の特定のクラスをモデル化するのには適さない。 本稿では,時系列データの逐次的性質を生かしたオンラインペナルティパラメータ選択手法を用いて,シミュレーションとマクロ経済指標を用いた経験的応用の両方において,既存の手法と比較して計算性能と予測精度を向上させる手法を提案する。

Many recent developments in the high-dimensional statistical time series literature have centered around time-dependent applications that can be adapted to regularized least squares. Of particular interest is the lasso, which both serves to regularize and provide feature selection. The lasso requires the specification of a penalty parameter that determines the degree of sparsity to impose. The most popular penalty parameter selection approaches that respect time dependence are very computationally intensive and are not appropriate for modeling certain classes of time series. We propose enhancing a canonical time series model, the autoregressive model with exogenous variables, with a novel online penalty parameter selection procedure that takes advantage of the sequential nature of time series data to improve both computational performance and forecast accuracy relative to existing methods in both a simulation and empirical application involving macroeconomic indicators.
翻訳日:2022-10-07 05:11:56 公開日:2020-10-15
# ヒューマンガイド型ロボット行動学習:GANによる推論に基づく強化学習アプローチ

Human-guided Robot Behavior Learning: A GAN-assisted Preference-based Reinforcement Learning Approach ( http://arxiv.org/abs/2010.07467v1 )

ライセンス: Link先を確認
Huixin Zhan, Feng Tao, and Yongcan Cao(参考訳) 人間のデモは、ロボットが現実世界で複雑な行動を学ぶために強化学習アルゴリズムを訓練するための信頼できるサンプルを提供することができる。 しかし、十分な実演を得ることは、多くの行動が人間の実演では難しいため、実用的ではないかもしれない。 より実践的なアプローチは、人間のデモンストレーションを人間のクエリによって置き換えることである。 既存のアルゴリズムの重要な制限の1つは、連続した高次元の報酬関数の近似のためにニューラルネットワークを訓練するために大量のラベル付きデータが必要であるため、大量のヒューマンクエリを必要とすることである。 そこで本研究では、GAN(Generative Adversarial Network)を用いて、人間の嗜好を積極的に学習し、嗜好を割り当てる上での人間の役割を置き換える、新しいGAN支援ヒト嗜好に基づく強化学習手法を提案する。 対向ニューラルネットワークは単純でバイナリ出力しか持たないため、トレーニングする人間のクエリをはるかに少なくすることができる。 さらに、最大エントロピーに基づく強化学習アルゴリズムは、望ましくない領域から所望の領域への損失を形作るように設計されている。 提案手法の有効性を示すために,典型的なムジョコロボットの歩行環境において,環境報酬にアクセスできない複雑なロボットタスクについて検討する。 その結果,性能犠牲を伴わずに約99.8%の人的時間を短縮できることがわかった。

Human demonstrations can provide trustful samples to train reinforcement learning algorithms for robots to learn complex behaviors in real-world environments. However, obtaining sufficient demonstrations may be impractical because many behaviors are difficult for humans to demonstrate. A more practical approach is to replace human demonstrations by human queries, i.e., preference-based reinforcement learning. One key limitation of the existing algorithms is the need for a significant amount of human queries because a large number of labeled data is needed to train neural networks for the approximation of a continuous, high-dimensional reward function. To reduce and minimize the need for human queries, we propose a new GAN-assisted human preference-based reinforcement learning approach that uses a generative adversarial network (GAN) to actively learn human preferences and then replace the role of human in assigning preferences. The adversarial neural network is simple and only has a binary output, hence requiring much less human queries to train. Moreover, a maximum entropy based reinforcement learning algorithm is designed to shape the loss towards the desired regions or away from the undesired regions. To show the effectiveness of the proposed approach, we present some studies on complex robotic tasks without access to the environment reward in a typical MuJoCo robot locomotion environment. The obtained results show our method can achieve a reduction of about 99.8% human time without performance sacrifice.
翻訳日:2022-10-07 05:11:08 公開日:2020-10-15
# 交通予測のためのベイズ時空間グラフ畳み込みネットワーク

Bayesian Spatio-Temporal Graph Convolutional Network for Traffic Forecasting ( http://arxiv.org/abs/2010.07498v1 )

ライセンス: Link先を確認
Jun Fu and Wei Zhou and Zhibo Chen(参考訳) トラフィック予測において,トラフィックフローを時空間グラフとしてモデル化したグラフ畳み込みネットワーク(GCN)は,優れた性能を実現している。 しかし、既存のGCNベースの手法では、トラヒックデータに対するグラフ構造の潜在的依存を無視して、グラフ構造を道路ネットワークの物理的トポロジとしてヒューリスティックに定義している。 定義されたグラフ構造は決定論的であり、不確実性の調査を欠いている。 本稿では,交通予測のためのベイズ時空間グラフ畳み込みネットワーク(BSTGCN)を提案する。 本ネットワークのグラフ構造は,道路網と交通データの物理的トポロジーからエンドツーエンドで学習し,交通流間の関係をより正確に記述する。 さらに、GCNの一般化能力を高めるグラフ構造を表現するために、パラメトリック生成モデルを提案する。 実世界の2つのデータセットに対する本手法の有効性を検証し,BSTGCNが最先端の手法と比較して優れた性能を発揮することを示した。

In traffic forecasting, graph convolutional networks (GCNs), which model traffic flows as spatio-temporal graphs, have achieved remarkable performance. However, existing GCN-based methods heuristically define the graph structure as the physical topology of the road network, ignoring potential dependence of the graph structure over traffic data. And the defined graph structure is deterministic, which lacks investigation of uncertainty. In this paper, we propose a Bayesian Spatio-Temporal Graph Convolutional Network (BSTGCN) for traffic prediction. The graph structure in our network is learned from the physical topology of the road network and traffic data in an end-to-end manner, which discovers a more accurate description of the relationship among traffic flows. Moreover, a parametric generative model is proposed to represent the graph structure, which enhances the generalization capability of GCNs. We verify the effectiveness of our method on two real-world datasets, and the experimental results demonstrate that BSTGCN attains superior performance compared with state-of-the-art methods.
翻訳日:2022-10-07 05:10:42 公開日:2020-10-15
# FPRaker: ニューラルネットワークトレーニングを加速するための処理要素

FPRaker: A Processing Element For Accelerating Neural Network Training ( http://arxiv.org/abs/2010.08065v1 )

ライセンス: Link先を確認
Omar Mohamed Awad, Mostafa Mahmoud, Isak Edo, Ali Hadi Zadeh, Ciaran Bannon, Anand Jayarajan, Gennady Pekhimenko, Andreas Moshovos(参考訳) 本稿では,トレーニングアクセラレータを構成する処理要素であるfprakerを提案する。 FPRakerは複数の浮動小数点乗算演算を同時に処理し、その結果を高い精度の累積器に蓄積する。 FPRakerは、トレーニング中に自然に現れる値を利用して、トレーニング中のパフォーマンスとエネルギー効率を高める。 具体的には、各乗算のオペランドのシグニフィカンドを2の符号付きパワーの列として処理する。 この形式への変換はオンザフライで行われる。 これはスキップできる非効率な作業を公開する:エンコードされたときの値にはいくつかの用語があり、浮動小数点の限られた精度でアキュムレータの範囲外に落ちるため、いくつかは破棄できる。 fpraker を用いて学習用加速器の構成を行い,iso-compute 領域制約下での従来の浮動小数点単位と比較して性能とエネルギー効率を向上できることを実証した。 また,pruningとquantizationを組み込んだトレーニングでは,fprakerにさらにメリットがあることを示す。 最後に、FPRakerはレイヤーごとに異なる精度のトレーニング手法で自然に性能を増幅することを示す。

We present FPRaker, a processing element for composing training accelerators. FPRaker processes several floating-point multiply-accumulation operations concurrently and accumulates their result into a higher precision accumulator. FPRaker boosts performance and energy efficiency during training by taking advantage of the values that naturally appear during training. Specifically, it processes the significand of the operands of each multiply-accumulate as a series of signed powers of two. The conversion to this form is done on-the-fly. This exposes ineffectual work that can be skipped: values when encoded have few terms and some of them can be discarded as they would fall outside the range of the accumulator given the limited precision of floating-point. We demonstrate that FPRaker can be used to compose an accelerator for training and that it can improve performance and energy efficiency compared to using conventional floating-point units under ISO-compute area constraints. We also demonstrate that FPRaker delivers additional benefits when training incorporates pruning and quantization. Finally, we show that FPRaker naturally amplifies performance with training methods that use a different precision per layer.
翻訳日:2022-10-07 05:04:21 公開日:2020-10-15
# モノのインターネットとしての深層学習に対する敵対的攻撃に対する進歩的防御

Progressive Defense Against Adversarial Attacks for Deep Learning as a Service in Internet of Things ( http://arxiv.org/abs/2010.11143v1 )

ライセンス: Link先を確認
Ling Wang, Cheng Zhang, Zejian Luo, Chenguang Liu, Jie Liu, Xi Zheng, and Athanasios Vasilakos(参考訳) 現在、Deep Learning as a ServiceはIoT(Internet of Things)にデプロイして、スマートサービスとセンサデータ処理を提供することができる。 しかし、最近の研究では、入力に比較的小さいが逆の摂動を加えることで、いくつかのディープニューラルネットワーク(DNN)が容易に誤認できることが明らかになった(例えば、入力画像のピクセル突然変異)。 DNNをこれらの攻撃から守る上での課題のひとつは、敵のピクセルを効率的に識別し、フィルタリングすることである。 高い堅牢性を持つ最先端の防衛戦略は、しばしば特定の攻撃に対する追加のモデル訓練を必要とする。 汎用性を損なうことなく計算コストを削減し、攻撃タイプに関する予備知識を必要とせず、ニューラルネットワークを誤った出力へと導く敵のピクセル変異を効果的かつ効果的にフィルタリングするpdaaa(progressive defense against adversarial attack)と呼ばれる防御戦略を提案する。 我々は、2つの既知のデータセットに対する様々な攻撃方法に対するプログレッシブ・ディフェンス戦略を評価した。 その結果、モデルトレーニングのコストを平均50%削減しながら、最先端技術よりも優れています。

Nowadays, Deep Learning as a service can be deployed in Internet of Things (IoT) to provide smart services and sensor data processing. However, recent research has revealed that some Deep Neural Networks (DNN) can be easily misled by adding relatively small but adversarial perturbations to the input (e.g., pixel mutation in input images). One challenge in defending DNN against these attacks is to efficiently identifying and filtering out the adversarial pixels. The state-of-the-art defense strategies with good robustness often require additional model training for specific attacks. To reduce the computational cost without loss of generality, we present a defense strategy called a progressive defense against adversarial attacks (PDAAA) for efficiently and effectively filtering out the adversarial pixel mutations, which could mislead the neural network towards erroneous outputs, without a-priori knowledge about the attack type. We evaluated our progressive defense strategy against various attack methods on two well-known datasets. The result shows it outperforms the state-of-the-art while reducing the cost of model training by 50% on average.
翻訳日:2022-10-07 05:04:00 公開日:2020-10-15
# 顔画像からのAIベースのBMI推論:体重モニタリングへの応用

AI-based BMI Inference from Facial Images: An Application to Weight Monitoring ( http://arxiv.org/abs/2010.07442v1 )

ライセンス: Link先を確認
Hera Siddiqui, Ajita Rattani, Dakshina Ranjan Kisku, Tanner Dean(参考訳) 健康な体重モニタリングのための自己診断型画像ベース手法は,肥満の危機的傾向にともなう関心が高まっている。 健康的な体重監視と管理の解決策として、顔画像からAIベースのBMI(Body Mass Index)推論方法を研究する学術研究は、ごくわずかである。 この領域におけるさらなる研究と開発を促進するため、顔画像からのBMI推論のために、VGG19、ResNet50、DenseNet、MobileNet、LightCNNの5つの異なるディープラーニングベースの畳み込みニューラルネットワーク(CNN)アーキテクチャの性能を評価し比較する。 VisualBMI、VIP-Attributes、Bllywoodの3つのソーシャルメディアから集められた3つの顔画像データセット、すなわちVisualBMI、VIP-Attributes、Bllywoodのデータセットに対する実験結果は、ResNet50を用いて得られた1.04ドルの平均絶対誤差(MAE)を持つ顔画像からのBMI推論におけるディープラーニング手法の有効性を示唆している。

Self-diagnostic image-based methods for healthy weight monitoring is gaining increased interest following the alarming trend of obesity. Only a handful of academic studies exist that investigate AI-based methods for Body Mass Index (BMI) inference from facial images as a solution to healthy weight monitoring and management. To promote further research and development in this area, we evaluate and compare the performance of five different deep-learning based Convolutional Neural Network (CNN) architectures i.e., VGG19, ResNet50, DenseNet, MobileNet, and lightCNN for BMI inference from facial images. Experimental results on the three publicly available BMI annotated facial image datasets assembled from social media, namely, VisualBMI, VIP-Attributes, and Bollywood datasets, suggest the efficacy of the deep learning methods in BMI inference from face images with minimum Mean Absolute Error (MAE) of $1.04$ obtained using ResNet50.
翻訳日:2022-10-07 05:03:15 公開日:2020-10-15
# 薄膜太陽電池モジュールのエレクトロルミネッセンス画像に対するエンコーダ・デコーダセマンティックセグメンテーションモデル

Encoder-decoder semantic segmentation models for electroluminescence images of thin-film photovoltaic modules ( http://arxiv.org/abs/2010.07556v1 )

ライセンス: Link先を確認
Evgenii Sovetkin and Elbert Jan Achterberg and Thomas Weber, and Bart E. Pieters(参考訳) 本研究では,薄膜モジュールのel画像のセマンティックセグメンテーションを行うために,ディープニューラルネットワークに基づく一連の画像セグメンテーション手法を検討する。 エンコーダ-デコーダディープニューラルネットワークアーキテクチャを利用する。 この枠組みは、他の種類の画像(例えば、サーモグラフィ)や太陽電池技術(例えば、結晶シリコンモジュール)に容易に拡張できるように一般的である。 これらのネットワークは、シセレン化銅インジウム(cigs)薄膜モジュールの6000個のel画像を持つデータベースからの画像のサンプルを訓練し、テストする。 我々は2種類の特徴を抽出し,シャント,いわゆる「ドロップレット」を抽出した。 後者の特徴はしばしば画像群で観察される。 いくつかのモデルをエンコーダ-デコーダ層の組み合わせを用いてテストし、最適なモデルを選択する手順を提案する。 最適選択モデルを用いて模範的な結果を示す。 さらに, 最良モデルを6000枚の画像の全集合に適用し, EL画像の自動分割により, 画像の小さなサンプルから推定できない微妙な特徴を多数明らかにできることを実証した。 これらの機能はプロセスの最適化と品質管理に寄与できると考えています。

We consider a series of image segmentation methods based on the deep neural networks in order to perform semantic segmentation of electroluminescence (EL) images of thin-film modules. We utilize the encoder-decoder deep neural network architecture. The framework is general such that it can easily be extended to other types of images (e.g. thermography) or solar cell technologies (e.g. crystalline silicon modules). The networks are trained and tested on a sample of images from a database with 6000 EL images of Copper Indium Gallium Diselenide (CIGS) thin film modules. We selected two types of features to extract, shunts and so called "droplets". The latter feature is often observed in the set of images. Several models are tested using various combinations of encoder-decoder layers, and a procedure is proposed to select the best model. We show exemplary results with the best selected model. Furthermore, we applied the best model to the full set of 6000 images and demonstrate that the automated segmentation of EL images can reveal many subtle features which cannot be inferred from studying a small sample of images. We believe these features can contribute to process optimization and quality control.
翻訳日:2022-10-07 05:02:31 公開日:2020-10-15
# MNISTデータセット上の対話型潜時補間

Interactive Latent Interpolation on MNIST Dataset ( http://arxiv.org/abs/2010.07581v1 )

ライセンス: Link先を確認
Mazeyar Moeini Feizabadi, Ali Mohammed Shujjat, Sarah Shahid, Zainab Hasnain (Habib University)(参考訳) 本稿では,Web を利用した GAN による次元削減の可能性について論じる。 様々な実験を通して、視覚的応用サンプルの合成、サンプル間の有意義な補間、潜在ベクトルを用いた線形算術を行う。 GANは、オリジナルの画像と非常によく似た、コンピュータ生成画像を作成するための驚くべき技術であることが証明された。 これは,本アルゴリズムの有効応用として,次元還元と組み合わせることで主に有用である。 我々はgansの新しいアーキテクチャを提案したが、後に数学的理由のために機能しなかった。 その後、我々は、.2ミリ秒までのブラウザにおける速度生成の次元削減を引き続き活用する、Webベースの新しいGANを提案しました。 最後に、作業を示すために線形補間を備えたモダンなUIを作成しました。 高速な生成では、アニメーションタイプのエフェクトを生成できるので、Webとモバイルの両方で動くのはこれまで見たことがありません。

This paper will discuss the potential of dimensionality reduction with a web-based use of GANs. Throughout a variety of experiments, we show synthesizing visually-appealing samples, interpolating meaningfully between samples, and performing linear arithmetic with latent vectors. GANs have proved to be a remarkable technique to produce computer-generated images, very similar to an original image. This is primarily useful when coupled with dimensionality reduction as an effective application of our algorithm. We proposed a new architecture for GANs, which ended up not working for mathematical reasons later explained. We then proposed a new web-based GAN that still takes advantage of dimensionality reduction to speed generation in the browser to .2 milliseconds. Lastly, we made a modern UI with linear interpolation to present the work. With the speedy generation, we can generate so fast that we can create an animation type effect that we have never seen before that works on both web and mobile.
翻訳日:2022-10-07 05:02:11 公開日:2020-10-15
# Empty Cities: Visual SLAMのための動的オブジェクト不変空間

Empty Cities: a Dynamic-Object-Invariant Space for Visual SLAM ( http://arxiv.org/abs/2010.07646v1 )

ライセンス: Link先を確認
Berta Bescos, Cesar Cadena, Jose Neira(参考訳) 本稿では,シーンの静的な画像を得るためのデータ駆動型アプローチを提案する。 一般的な目的は、動的環境における視覚に基づくローカライゼーションとマッピングタスクの改善であり、異なる瞬間における異なる動的オブジェクトの存在(または欠如)により、これらのタスクはより堅牢になる。 本研究では,車や歩行者などの動的コンテンツを含む都市環境の画像を,ローカライズやマッピングに適した現実的な静的フレームに変換する,エンドツーエンドのディープラーニングフレームワークを提案する。 この目標は、動的オブジェクトの検出と、静的にオクルードされたバックグラウンドの塗り込みという、2つの大きな課題に直面している。 最初の課題は、画像のマルチクラスのセマンティックセグメンテーションを学ぶ畳み込みネットワークを使用することで解決される。 第2の課題は、元のダイナミックイメージと計算された動的/静的なバイナリマスクを入力として、最終的な静的イメージを生成することができる生成逆モデルによってアプローチされる。 本フレームワークでは, 画像ステガナリシス技術に基づく2つの新たな損失を生かし, 塗装品質の向上に有用なものと, 実画像領域と幻画像領域の特徴マッチングを向上するためのORB特徴に基づくものである。 提案手法を検証するために,視覚オドメトリ,位置認識,多視点ステレオといった動的実体の影響を受ける様々なタスクを幻覚画像を用いて広範囲に評価する。 コードはhttps://github.com/bertabescos/EmptyCities_SLAMで公開されている。

In this paper we present a data-driven approach to obtain the static image of a scene, eliminating dynamic objects that might have been present at the time of traversing the scene with a camera. The general objective is to improve vision-based localization and mapping tasks in dynamic environments, where the presence (or absence) of different dynamic objects in different moments makes these tasks less robust. We introduce an end-to-end deep learning framework to turn images of an urban environment that include dynamic content, such as vehicles or pedestrians, into realistic static frames suitable for localization and mapping. This objective faces two main challenges: detecting the dynamic objects, and inpainting the static occluded back-ground. The first challenge is addressed by the use of a convolutional network that learns a multi-class semantic segmentation of the image. The second challenge is approached with a generative adversarial model that, taking as input the original dynamic image and the computed dynamic/static binary mask, is capable of generating the final static image. This framework makes use of two new losses, one based on image steganalysis techniques, useful to improve the inpainting quality, and another one based on ORB features, designed to enhance feature matching between real and hallucinated image regions. To validate our approach, we perform an extensive evaluation on different tasks that are affected by dynamic entities, i.e., visual odometry, place recognition and multi-view stereo, with the hallucinated images. Code has been made available on https://github.com/bertabescos/EmptyCities_SLAM.
翻訳日:2022-10-07 05:01:57 公開日:2020-10-15
# 歴史依存報酬を用いた協調競争強化学習

Cooperative-Competitive Reinforcement Learning with History-Dependent Rewards ( http://arxiv.org/abs/2010.08030v1 )

ライセンス: Link先を確認
Keyang He, Bikramjit Banerjee, Prashant Doshi(参考訳) 労働者エージェントがその全般的な改善のために協力しようとする典型的な組織を考える。 しかし、個々のエージェントは、通常 {\displaystyle {\em fixed} ポットから得られる補償の年次増額の同僚よりも大きなチャンクを確保するために同時に行動しようとする。 そのため、組織の個々のエージェントは協力し、競争しなければならない。 多くの組織のもう1つの特徴は、労働者がボーナスを受け取ることである。 そのため、エージェントは歴史的パフォーマンスにも部分的に依存する報酬を導出する。 個々のエージェントはこの状況でどのように振る舞うべきか? 近年, 協調競争的設定の手法がほとんど提示されていないが, 報酬関数が現状と行動のみに依存しない問題領域では課題となっている。 近年、長期記憶(LSTM)を用いた深層多エージェント強化学習(MARL)法が用いられているが、これらは相互作用に対する共同視点を採用するか、エージェント間で情報交換が必要である。 本稿では,まず,エージェントの意思決定問題を対話型部分可観測マルコフ決定プロセス (i-pomdp) としてモデル化し,履歴依存報酬のダイナミクスをとらえることを示す。 本稿では,他のエージェントのモデルに対する信念分布を維持する信念フィルタと,独立したアドバンテージアクタ-クリティックネットワークを組み合わせた対話型アドバタイズ・アクタ-クリティック手法(ia2c$^+$)を提案する。 実験の結果、IA2C$^+$は、属性モデルが正しくない場合でもLSTMを使用するものを含め、他のいくつかのベースラインよりも速く、より堅牢に最適なポリシーを学ぶことを示す。

Consider a typical organization whose worker agents seek to collectively cooperate for its general betterment. However, each individual agent simultaneously seeks to act to secure a larger chunk than its co-workers of the annual increment in compensation, which usually comes from a {\em fixed} pot. As such, the individual agent in the organization must cooperate and compete. Another feature of many organizations is that a worker receives a bonus, which is often a fraction of previous year's total profit. As such, the agent derives a reward that is also partly dependent on historical performance. How should the individual agent decide to act in this context? Few methods for the mixed cooperative-competitive setting have been presented in recent years, but these are challenged by problem domains whose reward functions do not depend on the current state and action only. Recent deep multi-agent reinforcement learning (MARL) methods using long short-term memory (LSTM) may be used, but these adopt a joint perspective to the interaction or require explicit exchange of information among the agents to promote cooperation, which may not be possible under competition. In this paper, we first show that the agent's decision-making problem can be modeled as an interactive partially observable Markov decision process (I-POMDP) that captures the dynamic of a history-dependent reward. We present an interactive advantage actor-critic method (IA2C$^+$), which combines the independent advantage actor-critic network with a belief filter that maintains a belief distribution over other agents' models. Empirical results show that IA2C$^+$ learns the optimal policy faster and more robustly than several other baselines including one that uses a LSTM, even when attributed models are incorrect.
翻訳日:2022-10-07 04:56:21 公開日:2020-10-15
# 線形周波数原理ダイナミクスの精密計算とその一般化について

On the exact computation of linear frequency principle dynamics and its generalization ( http://arxiv.org/abs/2010.08153v1 )

ライセンス: Link先を確認
Tao Luo, Zheng Ma, Zhi-Qin John Xu, Yaoyu Zhang(参考訳) 近年の研究では、深層ニューラルネットワーク(DNN)がトレーニング中に低頻度から高頻度までターゲット機能に適合し、複雑なタスクにおけるDNNのトレーニングと一般化行動に関する洞察を提供するという、周波数原理(F-Principle)の興味深い現象が示されている。 本稿では,ニューラルタンジェントカーネル(NTK)系における無限幅2層NNの解析を通じて,線形周波数原理(LFP)モデルという正確な微分方程式を導出し,トレーニング中の周波数領域におけるNN出力関数の進化を制御した。 トレーニングデータのサイズや分布を前提にせず,汎用的なアクティベーション関数に対して正確な計算を行う。 このLFPモデルは、活性化関数の滑らかさ/規則性に応じて、高周波数が低周波数よりも多項式的にまたは指数的に遅いことを明らかにする。 さらに、LFPモデルが学習関数の周波数原理ノルム(FP-norm)を暗黙的に最小化することを示すことによって、トレーニングダイナミクスと一般化のギャップを埋める。 最後に、ターゲット関数のFP-ノルムによって制御される \textit{a priori} 一般化誤差を導出し、DNNが低周波関数に対してよく一般化する経験的結果に対する理論的正当化を与える。

Recent works show an intriguing phenomenon of Frequency Principle (F-Principle) that deep neural networks (DNNs) fit the target function from low to high frequency during the training, which provides insight into the training and generalization behavior of DNNs in complex tasks. In this paper, through analysis of an infinite-width two-layer NN in the neural tangent kernel (NTK) regime, we derive the exact differential equation, namely Linear Frequency-Principle (LFP) model, governing the evolution of NN output function in the frequency domain during the training. Our exact computation applies for general activation functions with no assumption on size and distribution of training data. This LFP model unravels that higher frequencies evolve polynomially or exponentially slower than lower frequencies depending on the smoothness/regularity of the activation function. We further bridge the gap between training dynamics and generalization by proving that LFP model implicitly minimizes a Frequency-Principle norm (FP-norm) of the learned function, by which higher frequencies are more severely penalized depending on the inverse of their evolution rate. Finally, we derive an \textit{a priori} generalization error bound controlled by the FP-norm of the target function, which provides a theoretical justification for the empirical results that DNNs often generalize well for low frequency functions.
翻訳日:2022-10-07 04:55:50 公開日:2020-10-15
# 深層強化学習を用いたグローバルルーティングのためのネステロフ加速準ニュートン法

A Nesterov's Accelerated quasi-Newton method for Global Routing using Deep Reinforcement Learning ( http://arxiv.org/abs/2010.09465v1 )

ライセンス: Link先を確認
S. Indrapriyadarsini, Shahrzad Mahboubi, Hiroshi Ninomiya, Takeshi Kamio, Hideki Asai(参考訳) ディープQ学習法は、ディープニューラルネットワークを用いてアクション値関数の推定を近似する最も一般的なディープ強化学習アルゴリズムの1つである。 ディープQネットワーク(DQN)のトレーニングは通常、一階勾配に基づく手法に制限される。 本稿では,第2次ネステロフ加速準ニュートン法を導入することにより,深層qネットワークの学習を高速化する。 グローバルルーティングのための二重DQNを用いた深層強化学習における提案手法の性能評価を行った。 提案手法は,第1次Adam法とRMSprop法で訓練したDQNよりも優れたルーティング解が得られることを示す。

Deep Q-learning method is one of the most popularly used deep reinforcement learning algorithms which uses deep neural networks to approximate the estimation of the action-value function. Training of the deep Q-network (DQN) is usually restricted to first order gradient based methods. This paper attempts to accelerate the training of deep Q-networks by introducing a second order Nesterov's accelerated quasi-Newton method. We evaluate the performance of the proposed method on deep reinforcement learning using double DQNs for global routing. The results show that the proposed method can obtain better routing solutions compared to the DQNs trained with first order Adam and RMSprop methods.
翻訳日:2022-10-07 04:55:26 公開日:2020-10-15
# 弾塑性平滑化モデルのための熱力学インフォームニューラルネットワークのソボレフトレーニング

Sobolev training of thermodynamic-informed neural networks for smoothed elasto-plasticity models with level set hardening ( http://arxiv.org/abs/2010.11265v1 )

ライセンス: Link先を確認
Nikolaos N. Vlassis and WaiChing Sun(参考訳) 本研究では,スムーズな弾性エネルギー関数,収率面,深層ニューラルネットワーク予測に基づいて進化する塑性流など,解釈可能な成分を用いた弾塑性モデルの学習を目的としたディープラーニングフレームワークを提案する。 収率関数を進化レベル集合として再キャストすることにより、ハードニング機構を支配するハミルトン・ヤコビ方程式の解を予測する機械学習手法を導入する。 この機械学習のハードニング法則は、古典的なハードニングモデルを回復し、予測と手工芸が非常に難しい新しいメカニズムを発見できる。 この処理により、教師付き機械学習を使用して、熱力学的に一貫性があり、解釈可能で、優れた学習能力を持つモデルを生成することができる。 3次元fftソルバを用いて多結晶データベースを作成し, 数値実験を行い, モデルの各成分の実装を個別に検証した。 数値実験により, この手法は, 繰り返しニューラルネットワーク, 1次元畳み込みニューラルネットワーク, 多段階フィードフォワードモデルなどのブラックボックス深層ニューラルネットワークモデルより, よりロバストで高精度な, 周期的応力経路の予測を可能にすることが明らかになった。

We introduce a deep learning framework designed to train smoothed elastoplasticity models with interpretable components, such as a smoothed stored elastic energy function, a yield surface, and a plastic flow that are evolved based on a set of deep neural network predictions. By recasting the yield function as an evolving level set, we introduce a machine learning approach to predict the solutions of the Hamilton-Jacobi equation that governs the hardening mechanism. This machine learning hardening law may recover classical hardening models and discover new mechanisms that are otherwise very difficult to anticipate and hand-craft. This treatment enables us to use supervised machine learning to generate models that are thermodynamically consistent, interpretable, but also exhibit excellent learning capacity. Using a 3D FFT solver to create a polycrystal database, numerical experiments are conducted and the implementations of each component of the models are individually verified. Our numerical experiments reveal that this new approach provides more robust and accurate forward predictions of cyclic stress paths than these obtained from black-box deep neural network models such as a recurrent GRU neural network, a 1D convolutional neural network, and a multi-step feedforward model.
翻訳日:2022-10-07 04:55:16 公開日:2020-10-15
# スポンサー検索広告における干渉の有無の因果推論

Causal Inference in the Presence of Interference in Sponsored Search Advertising ( http://arxiv.org/abs/2010.07458v1 )

ライセンス: Link先を確認
Razieh Nabi, Joel Pfeiffer, Murat Ali Bayir, Denis Charles, Emre K{\i}c{\i}man(参考訳) 古典的因果推論では、データから因果関係を推定することは、単位が独立で同一に分布しているという仮定に依存する。 この仮定は、依存関係のネットワークを介してユニットが関連付けられる設定で違反する。 そのような設定の例として、スポンサー付き検索広告における広告配置があり、特定の広告のクリック性は、その広告がどこに置かれているか、他の広告が検索結果ページに置かれているかによって潜在的に影響を受ける。 このようなシナリオでは、個々の広告レベルの共変量だけでなく、システム内の他の広告の配置や共変量も原因となる。 本稿では,広告間の相互作用をモデル化するために,干渉の存在下で因果推論の言語を利用する。 このようなインタラクションの定量化は、ユーザのクリック動作をよりよく理解し、結果として、ホスト検索エンジンの収益に影響を与え、ユーザの満足度を高めることができます。 我々は,bing 検索エンジンの広告配置システム上で行った実験を通じて,形式化の有用性を示す。

In classical causal inference, inferring cause-effect relations from data relies on the assumption that units are independent and identically distributed. This assumption is violated in settings where units are related through a network of dependencies. An example of such a setting is ad placement in sponsored search advertising, where the clickability of a particular ad is potentially influenced by where it is placed and where other ads are placed on the search result page. In such scenarios, confounding arises due to not only the individual ad-level covariates but also the placements and covariates of other ads in the system. In this paper, we leverage the language of causal inference in the presence of interference to model interactions among the ads. Quantification of such interactions allows us to better understand the click behavior of users, which in turn impacts the revenue of the host search engine and enhances user satisfaction. We illustrate the utility of our formalization through experiments carried out on the ad placement system of the Bing search engine.
翻訳日:2022-10-07 04:54:54 公開日:2020-10-15
# コンテキストベースAPIレコメンデーションのための構造的およびテクスチャ的コード情報の完全結合

Holistic Combination of Structural and Textual Code Information for Context based API Recommendation ( http://arxiv.org/abs/2010.07514v1 )

ライセンス: Link先を確認
Chi Chen, Xin Peng, Zhenchang Xing, Jun Sun, Xin Wang, Yifan Zhao, and Wenyun Zhao(参考訳) コンテキストベースのAPIレコメンデーションは、開発者が必要なAPIを効果的かつ効率的に見つけるのに役立つ重要な方法である。 効果的なAPIレコメンデーションには、構造的およびテキスト的コード情報の両方のジョイントビューだけでなく、コントロールとデータフローグラフ全体における関連API使用の全体ビューも必要です。 残念ながら、既存のAPIレコメンデーションメソッドは、構造的またはテキスト的なコード情報を別々に利用する。 本研究では,APIRec-CST (API Recommendation by Combining Structure and Textual code information) と呼ばれる新しいAPIレコメンデーション手法を提案する。 APIRec-CSTは、APIの使い方と、APIコンテキストグラフネットワークとCode Token Networkに基づくソースコードのテキスト情報を組み合わせて、APIレコメンデーションのための構造的およびテキスト的機能を同時に学習するディープラーニングモデルである。 我々は、APIRec-CSTを使用して、1,914のオープンソースJavaプロジェクトに基づいてJDKライブラリのモデルをトレーニングし、別の6つのオープンソースプロジェクトでAPIレコメンデーションの正確性とMRR(Mean Reciprocal Rank)を評価する。 その結果,提案手法はトップ1,トップ5,トップ10の精度,MRRが60.3%,81.5%,87.7%,69.4%でそれぞれ達成され,既存のグラフベース統計手法とツリーベースディープラーニングアプローチのAPIレコメンデーションを著しく上回っていることがわかった。 さらなる分析により、テキストコード情報は理にかなったものであり、精度とmrrが向上する。 また,APIRec-CSTプラグインの有無に関わらず,学生の2つのグループに6つのプログラミングタスクの完了を依頼するユーザスタディも実施する。 その結果、APIRec-CSTは、学生がタスクを迅速かつ正確に完了するのに役立つことが示され、ユーザビリティに対するフィードバックは圧倒的にポジティブである。

Context based API recommendation is an important way to help developers find the needed APIs effectively and efficiently. For effective API recommendation, we need not only a joint view of both structural and textual code information, but also a holistic view of correlated API usage in control and data flow graph as a whole. Unfortunately, existing API recommendation methods exploit structural or textual code information separately. In this work, we propose a novel API recommendation approach called APIRec-CST (API Recommendation by Combining Structural and Textual code information). APIRec-CST is a deep learning model that combines the API usage with the text information in the source code based on an API Context Graph Network and a Code Token Network that simultaneously learn structural and textual features for API recommendation. We apply APIRec-CST to train a model for JDK library based on 1,914 open-source Java projects and evaluate the accuracy and MRR (Mean Reciprocal Rank) of API recommendation with another 6 open-source projects. The results show that our approach achieves respectively a top-1, top-5, top-10 accuracy and MRR of 60.3%, 81.5%, 87.7% and 69.4%, and significantly outperforms an existing graph-based statistical approach and a tree-based deep learning approach for API recommendation. A further analysis shows that textual code information makes sense and improves the accuracy and MRR. We also conduct a user study in which two groups of students are asked to finish 6 programming tasks with or without our APIRec-CST plugin. The results show that APIRec-CST can help the students to finish the tasks faster and more accurately and the feedback on the usability is overwhelmingly positive.
翻訳日:2022-10-07 04:54:13 公開日:2020-10-15
# 倫理・デザインAIシステムの方法論--人的価値紛争への対応

A Methodology for Ethics-by-Design AI Systems: Dealing with Human Value Conflicts ( http://arxiv.org/abs/2010.07610v1 )

ライセンス: Link先を確認
Fabrice Muhlenbach(参考訳) 人類が伝統的に行う活動に人工知能を導入することは、残酷な変化をもたらす。 これは人的価値に影響を及ぼすものではない。 本稿では,AIに基づくシステムにおける倫理的行動モデルの設計と実装について論じるとともに,より具体的には,倫理的側面を早期に考慮し,人間の価値観に影響を及ぼさない革新的な解決策を見出すための方法論を提案する。 この方法論により、aiベースのイノベーションが経済的および社会的提案を補完する2つのケーススタディが提示される:1つは民間企業によって運営され、もう1つは科学研究の分野であり、もう1つは国家組織によって支援されている。

The introduction of artificial intelligence into activities traditionally carried out by human beings produces brutal changes. This is not without consequences for human values. This paper is about designing and implementing models of ethical behaviors in AI-based systems, and more specifically it presents a methodology for designing systems that take ethical aspects into account at an early stage while finding an innovative solution to prevent human values from being affected. Two case studies where AI-based innovations complement economic and social proposals with this methodology are presented: one in the field of culture and operated by a private company, the other in the field of scientific research and supported by a state organization.
翻訳日:2022-10-07 04:53:35 公開日:2020-10-15
# 階層型テキストインタラクションによるレーティング予測

Hierarchical Text Interaction for Rating Prediction ( http://arxiv.org/abs/2010.07628v1 )

ライセンス: Link先を確認
Jiahui Wen and Jingwei Ma and Hongkui Tu and Wei Yin and Jian Fang(参考訳) 従来のレコメンデーションシステムは、データスパーシティや説明できないレコメンデーションなど、いくつかの課題に遭遇する。 これらの課題に対処するため、多くの研究がレビューデータから意味情報を活用することを提案する。 しかし、これらの手法には、テキストの特徴をモデル化し、テキストインタラクションをキャプチャする方法の2つの大きな制限がある。 テキストモデリングでは、ユーザ/テーマのすべてのレビューを単一のレビューにまとめるだけである。 しかし、単語/フレーズレベルの特徴抽出は、オリジナルのレビューの意味に反する可能性がある。 テキストインタラクションに関しては、予測層へのインタラクションを推論し、ユーザとアイテムの複雑な相関を捉えることができない。 これらの制約に対処するために、評価予測のための新しい階層的テキストインタラクションモデル(HTI)を提案する。 HTIでは,低レベルの単語意味論と高レベルのレビュー表現を階層的にモデル化する。 階層構造によって、異なる粒度でテキストの特徴を活用できます。 複雑なユーザ-テーマ間インタラクションをより多く捉えるために,各ユーザ-テーマペア間の意味的相関を異なる階層で活用する。 単語レベルでは,各ユーザとイズムのペアに特化するアテンション機構を提案し,各レビューを表す重要な単語をキャプチャする。 レビューレベルでは、ユーザとアイテム間でテキストの特徴を相互に伝達し、情報的レビューをキャプチャする。 集約されたレビュー表現は、評価予測のための協調フィルタリングフレームワークに統合される。 5つの実世界のデータセットの実験により、HTIは最先端のモデルよりも大きなマージンで優れていることが示された。 さらなるケーススタディは、評価予測のための様々なレベルの粒度で意味的相関をキャプチャするHTIの能力について深い洞察を与える。

Traditional recommender systems encounter several challenges such as data sparsity and unexplained recommendation. To address these challenges, many works propose to exploit semantic information from review data. However, these methods have two major limitations in terms of the way to model textual features and capture textual interaction. For textual modeling, they simply concatenate all the reviews of a user/item into a single review. However, feature extraction at word/phrase level can violate the meaning of the original reviews. As for textual interaction, they defer the interactions to the prediction layer, making them fail to capture complex correlations between users and items. To address those limitations, we propose a novel Hierarchical Text Interaction model(HTI) for rating prediction. In HTI, we propose to model low-level word semantics and high-level review representations hierarchically. The hierarchy allows us to exploit textual features at different granularities. To further capture complex user-item interactions, we propose to exploit semantic correlations between each user-item pair at different hierarchies. At word level, we propose an attention mechanism specialized to each user-item pair, and capture the important words for representing each review. At review level, we mutually propagate textual features between the user and item, and capture the informative reviews. The aggregated review representations are integrated into a collaborative filtering framework for rating prediction. Experiments on five real-world datasets demonstrate that HTI outperforms state-of-the-art models by a large margin. Further case studies provide a deep insight into HTI's ability to capture semantic correlations at different levels of granularities for rating prediction.
翻訳日:2022-10-07 04:53:23 公開日:2020-10-15
# ネットワーク侵入検出のためのsingle-spike時間符号化ニューロンを用いたスパイクニューラルネットワーク

Spiking Neural Networks with Single-Spike Temporal-Coded Neurons for Network Intrusion Detection ( http://arxiv.org/abs/2010.07803v1 )

ライセンス: Link先を確認
Shibo Zhou, Xiaohua Li(参考訳) スパイキングニューラルネット(SNN)は、その強い生物楽観性と高いエネルギー効率のために興味深い。 しかし、その性能は従来のディープニューラルネットワーク(dnn)よりもずっと遅れている。 本稿では, 単一スパイク時間符号化統合火災ニューロンの一般クラスを考慮し, 漏洩ニューロンと非リークニューロンの入力出力表現を解析する。 漏洩ニューロンで構築されたsnは、過剰に非線形で複雑な入力出力応答に苦しむため、トレーニングが困難でパフォーマンスが低下する主な原因となっている。 この理由は、非微分的スパイクの一般的な問題よりも根本的なものである。 この主張を支持するために、非リーキーニューロンで構築されたSNNは、より複雑で非線形な入出力応答を持つことを示す。 NSL-KDDとAWIDデータセットという2つの一般的なネットワーク侵入検出データセットをSNNで実験することで、訓練が容易で優れたパフォーマンスを得ることができる。 実験の結果,提案したSNNは,DNNモデルと古典的機械学習モデルの包括的リストよりも優れていた。 本稿では,SNNが共通の信念とは対照的に有望かつ競争的であることを示す。

Spiking neural network (SNN) is interesting due to its strong bio-plausibility and high energy efficiency. However, its performance is falling far behind conventional deep neural networks (DNNs). In this paper, considering a general class of single-spike temporal-coded integrate-and-fire neurons, we analyze the input-output expressions of both leaky and nonleaky neurons. We show that SNNs built with leaky neurons suffer from the overly-nonlinear and overly-complex input-output response, which is the major reason for their difficult training and low performance. This reason is more fundamental than the commonly believed problem of nondifferentiable spikes. To support this claim, we show that SNNs built with nonleaky neurons can have a less-complex and less-nonlinear input-output response. They can be easily trained and can have superior performance, which is demonstrated by experimenting with the SNNs over two popular network intrusion detection datasets, i.e., the NSL-KDD and the AWID datasets. Our experiment results show that the proposed SNNs outperform a comprehensive list of DNN models and classic machine learning models. This paper demonstrates that SNNs can be promising and competitive in contrast to common beliefs.
翻訳日:2022-10-07 04:46:23 公開日:2020-10-15
# ルールベース手法による深層学習モデルの解釈

Interpreting Deep Learning Model Using Rule-based Method ( http://arxiv.org/abs/2010.07824v1 )

ライセンス: Link先を確認
Xiaojian Wang, Jingyuan Wang, Ke Tang(参考訳) 深層学習モデルは、多くの研究や産業分野で好まれており、人間のレベルを超える精度に達している。 しかし、彼らは長い間、複雑な非線形特性のブラックボックスモデルと見なされてきた。 本稿では,ディープニューラルネットワークモデルの包括的解釈を提供するためのマルチレベル決定フレームワークを提案する。 このマルチレベル決定フレームワークでは、各ニューロンに決定木をフィッティングし、それらを集約することにより、まず、ターゲットニューラルネットワークモデルの性能を高い効率と高い忠実度で近似できるマルチレベル決定構造(mld)を構築する。 サンプルの局所的な説明に関しては,サンプル決定を行う前方決定生成アルゴリズムと,サンプル規則を再帰的に抽出する後方規則帰納アルゴリズムという,MDD構造に基づく2つのアルゴリズムを提案する。 大域的な説明のために,ニューラルネットワーク決定における重要な特徴を抽出するために,周波数ベースおよびアウトオブバッグ方式を提案する。 さらに,MNISTとNational Free Pre-Pregnancy Check-up (NFPC)データセットの実験を行い,MDDフレームワークの有効性と解釈性を示した。 評価プロセスでは,機能的グラウンド法と人的グラウンド法の両方を用いて信頼性を確保する。

Deep learning models are favored in many research and industry areas and have reached the accuracy of approximating or even surpassing human level. However they've long been considered by researchers as black-box models for their complicated nonlinear property. In this paper, we propose a multi-level decision framework to provide comprehensive interpretation for the deep neural network model. In this multi-level decision framework, by fitting decision trees for each neuron and aggregate them together, a multi-level decision structure (MLD) is constructed at first, which can approximate the performance of the target neural network model with high efficiency and high fidelity. In terms of local explanation for sample, two algorithms are proposed based on MLD structure: forward decision generation algorithm for providing sample decisions, and backward rule induction algorithm for extracting sample rule-mapping recursively. For global explanation, frequency-based and out-of-bag based methods are proposed to extract important features in the neural network decision. Furthermore, experiments on the MNIST and National Free Pre-Pregnancy Check-up (NFPC) dataset are carried out to demonstrate the effectiveness and interpretability of MLD framework. In the evaluation process, both functionally-grounded and human-grounded methods are used to ensure credibility.
翻訳日:2022-10-07 04:45:47 公開日:2020-10-15
# 低次多項式近似器としての多層パーセプトロンの構成-信号処理アプローチ

Constructing Multilayer Perceptrons as Piecewise Low-Order Polynomial Approximators: A Signal Processing Approach ( http://arxiv.org/abs/2010.07871v1 )

ライセンス: Link先を確認
Ruiyuan Lin, Suya You, Raghuveer Rao, C.-C. Jay Kuo(参考訳) 本稿では,信号処理手法を用いた低次多項式近似器として多層パーセプトロン(MLP)の構築について述べる。 構築されたMLPは、1つの入力、1つの中間層および1つの出力層を含む。 その構成には、ニューロン数と全てのフィルター重みの仕様が含まれる。 この構成により、MLPの近似と小数次低次多項式の近似との1対1対応が確立される。 ピースワイズ多項式とMLP近似の比較を行う。 片方向の低次多項式の近似能力はよく理解されているので,我々はMLPの普遍近似能力に光を当てた。

The construction of a multilayer perceptron (MLP) as a piecewise low-order polynomial approximator using a signal processing approach is presented in this work. The constructed MLP contains one input, one intermediate and one output layers. Its construction includes the specification of neuron numbers and all filter weights. Through the construction, a one-to-one correspondence between the approximation of an MLP and that of a piecewise low-order polynomial is established. Comparison between piecewise polynomial and MLP approximations is made. Since the approximation capability of piecewise low-order polynomials is well understood, our findings shed light on the universal approximation capability of an MLP.
翻訳日:2022-10-07 04:45:08 公開日:2020-10-15
# Marginal Contribution Feature Importance -- 自然症例に対する軸索的アプローチ

Marginal Contribution Feature Importance -- an Axiomatic Approach for The Natural Case ( http://arxiv.org/abs/2010.07910v1 )

ライセンス: Link先を確認
Amnon Catav, Boyang Fu, Jason Ernst, Sriram Sankararaman, Ran Gilad-Bachrach(参考訳) 医療データよりも予測モデルをトレーニングする場合、ある病気についての洞察を得ることが目標となる。 このような場合、その疾患に寄与する重要な要因を明らかにするツールとして、特徴の重要性を用いるのが一般的である。 機能重要度を計算するための既存の方法が数多く存在するため、その相対的なメリットを理解することは容易ではない。 さらに、それらを使用するシナリオの多様性は、機能の重要性スコアとは異なる期待を導きます。 個々の予測に焦点をあてる局所的なスコアと、モデルに対する特徴の寄与に目を向けるグローバルスコアとを区別することは一般的であるが、別の重要な区分では、あるモデルの予測を自然のシナリオから理解すること、疾患のような現象を理解することを目標とするモデルシナリオを区別する。 我々は,自然シナリオにおける特徴重要関数から期待される特性を表す公理の集合を開発し,それら全てを満たす関数が1つ存在することを証明した。 この関数を理論的および経験的性質で解析し,他の特徴重要度と比較する。 私たちの焦点は自然なシナリオですが、私たちの公理的なアプローチは他のシナリオでも実行可能であることを提案します。

When training a predictive model over medical data, the goal is sometimes to gain insights about a certain disease. In such cases, it is common to use feature importance as a tool to highlight significant factors contributing to that disease. As there are many existing methods for computing feature importance scores, understanding their relative merits is not trivial. Further, the diversity of scenarios in which they are used lead to different expectations from the feature importance scores. While it is common to make the distinction between local scores that focus on individual predictions and global scores that look at the contribution of a feature to the model, another important division distinguishes model scenarios, in which the goal is to understand predictions of a given model from natural scenarios, in which the goal is to understand a phenomenon such as a disease. We develop a set of axioms that represent the properties expected from a feature importance function in the natural scenario and prove that there exists only one function that satisfies all of them, the Marginal Contribution Feature Importance (MCI). We analyze this function for its theoretical and empirical properties and compare it to other feature importance scores. While our focus is the natural scenario, we suggest that our axiomatic approach could be carried out in other scenarios too.
翻訳日:2022-10-07 04:44:46 公開日:2020-10-15
# ALPaCA vs. GP-based Prior Learning:2つのベイズメタ学習アルゴリズムの比較

ALPaCA vs. GP-based Prior Learning: A Comparison between two Bayesian Meta-Learning Algorithms ( http://arxiv.org/abs/2010.07994v1 )

ライセンス: Link先を確認
Yilun Wu(参考訳) メタラーニングや少数ショット学習は、コンピュータビジョンから強化学習まで、幅広い領域でうまく適用されている。 メタラーニングのために提案された多くのフレームワークの中で、ベイズ的手法は正確で校正された不確実性推定が必要な場合に特に好まれる。 本稿では,最近発表された2つのベイズメタラーニング手法,ALPaCA(Harrison et al. [2018])とPACOH(Rothfuss et al. [2020])の類似点と相違点について検討する。 理論的解析と、合成および実世界のデータセットにわたる経験的ベンチマークを提供する。 ALPaCAは線形カーネルの使用によって計算時間に利点があるが、一般的なGPベースの手法はSE(Squared Exponential)カーネルのような共通カーネルを使用する場合、より柔軟性があり、データセット間でより良い結果が得られる。 異なる損失関数の選択の影響についても考察する。

Meta-learning or few-shot learning, has been successfully applied in a wide range of domains from computer vision to reinforcement learning. Among the many frameworks proposed for meta-learning, bayesian methods are particularly favoured when accurate and calibrated uncertainty estimate is required. In this paper, we investigate the similarities and disparities among two recently published bayesian meta-learning methods: ALPaCA (Harrison et al. [2018]) and PACOH (Rothfuss et al. [2020]). We provide theoretical analysis as well as empirical benchmarks across synthetic and real-world dataset. While ALPaCA holds advantage in computation time by the usage of a linear kernel, general GP-based methods provide much more flexibility and achieves better result across datasets when using a common kernel such as SE (Squared Exponential) kernel. The influence of different loss function choice is also discussed.
翻訳日:2022-10-07 04:44:25 公開日:2020-10-15
# パンデミックにおける食の言語--covid-19の食効果を示唆する

The Language of Food during the Pandemic: Hints about the Dietary Effects of Covid-19 ( http://arxiv.org/abs/2010.07466v1 )

ライセンス: Link先を確認
Hoang Van, Ahmad Musa, Mihai Surdeanu and Stephen Kobourov(参考訳) 我々は,米国におけるパンデミックロックダウン中のTwitter上での食事の言語について調査し,2020年3月15日から5月15日までの2ヶ月の期間に着目した。 具体的には、ロックダウン期間中に公開された770,000件以上のツイートと、過去5年間の同等の期間を分析し、懸念すべきトレンドをいくつか強調する。 まず、ロックダウンの間、健康食品の言及から不健康食品への顕著な変化が観察された。 第2に、ロックダウン中に投稿されたフード関連ツイートによるうつ病ハッシュタグのポイント別相互情報の増加と、ロックダウン中のうつ病ハッシュタグと不健康食品、タバコ、アルコールとの関連性の増加を示す。

We study the language of food on Twitter during the pandemic lockdown in the United States, focusing on the two month period of March 15 to May 15, 2020. Specifically, we analyze over770,000 tweets published during the lockdown and the equivalent period in the five previous years and highlight several worrying trends. First, we observe that during the lockdown there was a notable shift from mentions of healthy foods to unhealthy foods. Second, we show an increased pointwise mutual information of depression hashtags with food-related tweets posted during the lockdown and an increased association between depression hashtags and unhealthy foods, tobacco, and alcohol during the lockdown.
翻訳日:2022-10-07 04:37:58 公開日:2020-10-15
# dialoguetrm: 会話におけるモダリティ内およびモダリティ間感情行動の探索

DialogueTRM: Exploring the Intra- and Inter-Modal Emotional Behaviors in the Conversation ( http://arxiv.org/abs/2010.07637v1 )

ライセンス: Link先を確認
Yuzhao Mao, Qi Sun, Guang Liu, Xiaojie Wang, Weiguo Gao, Xuan Li, Jianping Shen(参考訳) Emotion Recognition in Conversations (ERC) は共感的人間機械構築に不可欠である。 ERCに関する既存の研究は、主に会話における文脈情報を要約することに焦点を当てているが、異なるモダリティの内外における異なる感情的行動を無視している。 異なるマルチモーダルな感情行動に適合する適切な戦略を設計することは、より正確な感情予測をもたらす。 そこで我々はダイアログトランスフォーマーを提案し,モーダル内およびモーダル間の観点から異なる感情行動について検討した。 イントラモーダルでは,各モーダリティ内の異なるコンテキスト嗜好に応じてシーケンシャル構造とフィードフォワード構造の切り替えが容易な,新しい階層的トランスフォーマーを構築した。 様相間融合では,ニューロン間相互作用とベクトル的粒度の相互作用を併用し,全ての様相の異なる寄与を学習する。 実験結果から,DialogueTRMは3つのベンチマークデータセットに対して,最先端のマージンで優れていた。

Emotion Recognition in Conversations (ERC) is essential for building empathetic human-machine systems. Existing studies on ERC primarily focus on summarizing the context information in a conversation, however, ignoring the differentiated emotional behaviors within and across different modalities. Designing appropriate strategies that fit the differentiated multi-modal emotional behaviors can produce more accurate emotional predictions. Thus, we propose the DialogueTransformer to explore the differentiated emotional behaviors from the intra- and inter-modal perspectives. For intra-modal, we construct a novel Hierarchical Transformer that can easily switch between sequential and feed-forward structures according to the differentiated context preference within each modality. For inter-modal, we constitute a novel Multi-Grained Interactive Fusion that applies both neuron- and vector-grained feature interactions to learn the differentiated contributions across all modalities. Experimental results show that DialogueTRM outperforms the state-of-the-art by a significant margin on three benchmark datasets.
翻訳日:2022-10-07 04:37:43 公開日:2020-10-15
# 強化学習のためのマスキングコントラスト表現学習

Masked Contrastive Representation Learning for Reinforcement Learning ( http://arxiv.org/abs/2010.07470v1 )

ライセンス: Link先を確認
Jinhua Zhu, Yingce Xia, Lijun Wu, Jiajun Deng, Wengang Zhou, Tao Qin, Houqiang Li(参考訳) サンプル効率の改善は強化学習(rl)における重要な研究課題であり、コントラスト学習を用いて個々のビデオフレームの生画素からハイレベルな特徴を抽出するcurlは効率的なアルゴリズムである。 ゲーム内の連続するビデオフレームは高い相関関係にあるが,CURLは独立して扱う。 さらにデータ効率を向上させるために,連続入力間の相関を考慮したrlのためのマスキングコントラスト表現学習を提案する。 CNNエンコーダとCURLのポリシネットワークに加えて,ビデオフレーム間の相関性を活用するための補助トランスフォーマーモジュールを導入する。 トレーニング中、複数のフレームの特徴をランダムにマスキングし、CNNエンコーダとTransformerを使用してコンテキストフレームに基づいてそれらを再構築する。 cnnエンコーダとトランスフォーマは、コントラスト学習を通じて共同で訓練され、再構成された特徴は他のものと異なるものの、接地した特徴と類似すべきである。 推論の間、cnnエンコーダとポリシーネットワークはアクションを取るために使用され、トランスフォーマーモジュールは破棄される。 DMControlスイートの16ドル環境中14ドル,Atari 2600 Gamesの26ドル環境中21ドル環境中26ドル環境中24ドルで,CURLに対する一貫した改善を実現している。 コードはhttps://github.com/teslacool/m-curlで入手できる。

Improving sample efficiency is a key research problem in reinforcement learning (RL), and CURL, which uses contrastive learning to extract high-level features from raw pixels of individual video frames, is an efficient algorithm~\citep{srinivas2020curl}. We observe that consecutive video frames in a game are highly correlated but CURL deals with them independently. To further improve data efficiency, we propose a new algorithm, masked contrastive representation learning for RL, that takes the correlation among consecutive inputs into consideration. In addition to the CNN encoder and the policy network in CURL, our method introduces an auxiliary Transformer module to leverage the correlations among video frames. During training, we randomly mask the features of several frames, and use the CNN encoder and Transformer to reconstruct them based on the context frames. The CNN encoder and Transformer are jointly trained via contrastive learning where the reconstructed features should be similar to the ground-truth ones while dissimilar to others. During inference, the CNN encoder and the policy network are used to take actions, and the Transformer module is discarded. Our method achieves consistent improvements over CURL on $14$ out of $16$ environments from DMControl suite and $21$ out of $26$ environments from Atari 2600 Games. The code is available at https://github.com/teslacool/m-curl.
翻訳日:2022-10-07 04:37:02 公開日:2020-10-15
# 深部ニューラルネットワークの逆工学的非受容バックドア攻撃によるクリーンシンキングの検出と訓練

Reverse Engineering Imperceptible Backdoor Attacks on Deep Neural Networks for Detection and Training Set Cleansing ( http://arxiv.org/abs/2010.07489v1 )

ライセンス: Link先を確認
Zhen Xiang, David J. Miller, George Kesidis(参考訳) バックドアデータ中毒は、一般的にディープニューラルネットワークイメージ分類器に対する敵攻撃の新たな形態である。 攻撃者は、1つの(または複数の)ソースクラスからの比較的小さなイメージセットでトレーニングセットを毒化し、バックドアパターンに埋め込まれ、ターゲットクラスにラベル付けされる。 攻撃を成功させるために、作戦中、訓練された分類器は次のようになる。 1) 同じバックドアパターンが存在する場合、テストイメージをソースクラス(es)からターゲットクラスに誤分類する。 2) バックドアフリーテスト画像の分類精度は高い。 本稿では,トレーニングフェーズの前後で,非受容的なバックドアパターン(透かしなど)でバックドア攻撃を防御するためのブレークスルーを行う。 これは、トレーニングセットのどのサブセットが毒殺されているか(もしあるなら)、事前不明であるため、難しい問題である。 共同で最適化に基づくリバースエンジニアリングディフェンスを提案する。 1) トレーニングセットが毒であるか否かを検出する。 2)もしそうなら、ターゲットクラスとトレーニングイメージをバックドアパターンが埋め込まれた状態で識別し、 3) さらに,攻撃者が使用するバックドアパターンの推定をリバースエンジニアリングする。 cifar-10のベンチマーク実験では,検出された不審なトレーニング画像を削除することで,攻撃成功率を4.9%に抑えることで,新たな最先端の防御を実現する。

Backdoor data poisoning is an emerging form of adversarial attack usually against deep neural network image classifiers. The attacker poisons the training set with a relatively small set of images from one (or several) source class(es), embedded with a backdoor pattern and labeled to a target class. For a successful attack, during operation, the trained classifier will: 1) misclassify a test image from the source class(es) to the target class whenever the same backdoor pattern is present; 2) maintain a high classification accuracy for backdoor-free test images. In this paper, we make a break-through in defending backdoor attacks with imperceptible backdoor patterns (e.g. watermarks) before/during the training phase. This is a challenging problem because it is a priori unknown which subset (if any) of the training set has been poisoned. We propose an optimization-based reverse-engineering defense, that jointly: 1) detects whether the training set is poisoned; 2) if so, identifies the target class and the training images with the backdoor pattern embedded; and 3) additionally, reversely engineers an estimate of the backdoor pattern used by the attacker. In benchmark experiments on CIFAR-10, for a large variety of attacks, our defense achieves a new state-of-the-art by reducing the attack success rate to no more than 4.9% after removing detected suspicious training images.
翻訳日:2022-10-07 04:36:34 公開日:2020-10-15
# マルチビュー階層クラスタリング

Multi-view Hierarchical Clustering ( http://arxiv.org/abs/2010.07573v1 )

ライセンス: Link先を確認
Qinghai Zheng, Jihua Zhu and Shuangxun Ma(参考訳) 本稿では,マルチビューデータによるクラスタリング結果の促進を目的としたマルチビュークラスタリングについて述べる。 通常、既存の作品の多くはパラメータ選択と高い計算複雑性の問題に苦しむ。 これらの制約を克服するために,マルチビュー階層クラスタリング(mhc)を提案し,マルチビューデータを複数の粒度で再帰的に分割する。 具体的には、MHCはCDI(cosine distance integration)とNNA( Near neighbor agglomeration)の2つの重要な構成要素から構成される。 CDIは、NNAで使用される本質的な距離行列を学習してクラスタリング結果を得るために、マルチビューデータの基本的な補完情報を探索することができる。 提案したMHCは,パラメータ選択なしで実世界のアプリケーションに容易に効果的に利用することができる。 9つのベンチマークデータセットに対する実験は、いくつかの最先端のマルチビュークラスタリング手法と比較して、我々の手法の優位性を示している。

This paper focuses on the multi-view clustering, which aims to promote clustering results with multi-view data. Usually, most existing works suffer from the issues of parameter selection and high computational complexity. To overcome these limitations, we propose a Multi-view Hierarchical Clustering (MHC), which partitions multi-view data recursively at multiple levels of granularity. Specifically, MHC consists of two important components: the cosine distance integration (CDI) and the nearest neighbor agglomeration (NNA). The CDI can explore the underlying complementary information of multi-view data so as to learn an essential distance matrix, which is utilized in NNA to obtain the clustering results. Significantly, the proposed MHC can be easily and effectively employed in real-world applications without parameter selection. Experiments on nine benchmark datasets illustrate the superiority of our method comparing to several state-of-the-art multi-view clustering methods.
翻訳日:2022-10-07 04:35:52 公開日:2020-10-15
# トポロジカルエントロピーによるニューラルネットワークの深さ-幅トレードオフ

Depth-Width Trade-offs for Neural Networks via Topological Entropy ( http://arxiv.org/abs/2010.07587v1 )

ライセンス: Link先を確認
Kaifeng Bu, Yaobo Zhang, Qingxian Luo(参考訳) 深層学習理論の研究における中心的な問題の1つは、深さ、幅、ノード数といった構造特性がディープニューラルネットワークの表現性にどのように影響するかを理解することである。 本研究では,ニューラルネットワークの深さ幅トレードオフを特徴付けるために,深部ニューラルネットワークの表現性と力学系からのトポロジ的エントロピーとの新たな関係を示す。 ニューラルネットワークのトポロジ的エントロピーに,構造パラメータによる連続半代数単位の上限を与える。 具体的には、$l$層と$m$層を持つReLUネットワークのトポロジ的エントロピーは、$O(l\log m)$で上限となる。 さらに、ニューラルネットワークが何らかの関数 $f$ のよい近似であるなら、ニューラルネットワークのサイズは、位相エントロピー $f$ に対して指数的に低い境界を持つ。 さらに,位相エントロピー,振動数,周期,リプシッツ定数との関係について考察する。

One of the central problems in the study of deep learning theory is to understand how the structure properties, such as depth, width and the number of nodes, affect the expressivity of deep neural networks. In this work, we show a new connection between the expressivity of deep neural networks and topological entropy from dynamical system, which can be used to characterize depth-width trade-offs of neural networks. We provide an upper bound on the topological entropy of neural networks with continuous semi-algebraic units by the structure parameters. Specifically, the topological entropy of ReLU network with $l$ layers and $m$ nodes per layer is upper bounded by $O(l\log m)$. Besides, if the neural network is a good approximation of some function $f$, then the size of the neural network has an exponential lower bound with respect to the topological entropy of $f$. Moreover, we discuss the relationship between topological entropy, the number of oscillations, periods and Lipschitz constant.
翻訳日:2022-10-07 04:35:38 公開日:2020-10-15
# LTN:長期動作予測のための長期ネットワーク

LTN: Long-Term Network for Long-Term Motion Prediction ( http://arxiv.org/abs/2010.07931v1 )

ライセンス: Link先を確認
YingQiao Wang(参考訳) ロボットが自律的なナビゲーションタスクを実行しようとしている場合、歩行者や車両などの周辺エージェントの正確な動作予測が重要な課題である。 回帰と分類のアプローチを含むマルチモーダル軌道予測に関する最近の研究は、短期予測において非常によく機能している。 しかし、長期予測に関しては、LSTM(Long Short-Term Memory)ベースのモデルのほとんどは、真実から遠く離れる傾向にある。 そこで本研究では,Long-Term Network (LTN) と呼ばれる長期軌道予測のための2段階のフレームワークを提案する。 我々の長期ネットワークは回帰と分類の両方のアプローチを統合している。 まず,条件付き変分オートエンコーダ(CVAE)を用いて提案したトラジェクトリの集合を生成し,それらをバイナリラベルで分類し,最も高いスコアでトラジェクトリを出力する。 ETH/UCY、Stanford Drone Dataset(SDD)、および現実の運転予測データセットであるnuScenesの2つの実世界の歩行者データセットに関する実験で、Long-Term Networkのパフォーマンスを実証した。 その結果,提案手法は,長期軌道予測における複数の最先端手法よりも精度が高いことがわかった。

Making accurate motion prediction of surrounding agents such as pedestrians and vehicles is a critical task when robots are trying to perform autonomous navigation tasks. Recent research on multi-modal trajectory prediction, including regression and classification approaches, perform very well at short-term prediction. However, when it comes to long-term prediction, most Long Short-Term Memory (LSTM) based models tend to diverge far away from the ground truth. Therefore, in this work, we present a two-stage framework for long-term trajectory prediction, which is named as Long-Term Network (LTN). Our Long-Term Network integrates both the regression and classification approaches. We first generate a set of proposed trajectories with our proposed distribution using a Conditional Variational Autoencoder (CVAE), and then classify them with binary labels, and output the trajectories with the highest score. We demonstrate our Long-Term Network's performance with experiments on two real-world pedestrian datasets: ETH/UCY, Stanford Drone Dataset (SDD), and one challenging real-world driving forecasting dataset: nuScenes. The results show that our method outperforms multiple state-of-the-art approaches in long-term trajectory prediction in terms of accuracy.
翻訳日:2022-10-07 04:28:16 公開日:2020-10-15
# ラプラシアン法に代わるBlur画像検出のための畳み込みニューラルネットワーク

Convolutional Neural Network for Blur Images Detection as an Alternative for Laplacian Method ( http://arxiv.org/abs/2010.07936v1 )

ライセンス: Link先を確認
Tomasz Szandala(参考訳) デジタルカメラの普及に伴い、デジタル画像の数は急速に増加し、非手動画像品質評価の需要が高まる。 本稿では, 画像がぼやけているか否かを判定する深層畳み込みニューラルネットワークを用いた新しい手法を提案し, 評価する。 提案手法の有効性を実験的に実証し,混乱行列を用いた決定論的手法と比較した。

With the prevalence of digital cameras, the number of digital images increases quickly, which raises the demand for non-manual image quality assessment. While there are many methods considered useful for detecting blurriness, in this paper we propose and evaluate a new method that uses a deep convolutional neural network, which can determine whether an image is blurry or not. Experimental results demonstrate the effectiveness of the proposed scheme and are compared to deterministic methods using the confusion matrix.
翻訳日:2022-10-07 04:27:56 公開日:2020-10-15
# 適応的特徴バンクと不確かさリファインメントを用いたビデオオブジェクト分割

Video Object Segmentation with Adaptive Feature Bank and Uncertain-Region Refinement ( http://arxiv.org/abs/2010.07958v1 )

ライセンス: Link先を確認
Yongqing Liang, Xin Li, Navid Jafari, Qin Chen(参考訳) 半教師付きビデオオブジェクトセグメンテーション(VOS)のための新しいマッチングベースのフレームワークを提案する。 近年,領域マッチングと分類のための特徴バンクを作成するマッチングベースのアルゴリズムによって,最先端のVOS性能が達成されている。 しかし、継続的に成長するフィーチャーバンクで情報を効果的に整理する方法はまだ探索されていないため、銀行の非効率な設計につながる。 適応的機能バンク更新方式を導入し、新機能を動的に吸収し、古い機能を捨てる。 また,不確実領域のセグメンテーション精度を高めるために,新たな信頼損失ときめ細かなセグメンテーションモジュールを設計する。 公開ベンチマークでは、我々のアルゴリズムは既存の最先端よりも優れています。

We propose a new matching-based framework for semi-supervised video object segmentation (VOS). Recently, state-of-the-art VOS performance has been achieved by matching-based algorithms, in which feature banks are created to store features for region matching and classification. However, how to effectively organize information in the continuously growing feature bank remains under-explored, and this leads to inefficient design of the bank. We introduce an adaptive feature bank update scheme to dynamically absorb new features and discard obsolete features. We also design a new confidence loss and a fine-grained segmentation module to enhance the segmentation accuracy in uncertain regions. On public benchmarks, our algorithm outperforms existing state-of-the-arts.
翻訳日:2022-10-07 04:27:49 公開日:2020-10-15
# 商用顔認識アルゴリズムにおける人種・性別特徴の識別範囲の定量化

Quantifying the Extent to Which Race and Gender Features Determine Identity in Commercial Face Recognition Algorithms ( http://arxiv.org/abs/2010.07979v1 )

ライセンス: Link先を確認
John J. Howard, Yevgeniy B. Sirotin, Jerry L. Tipton, and Arun R. Vemury(参考訳) 人間の顔の特徴は、性別や人種などの人口統計情報だけでなく、個人のアイデンティティも決定できる。 しかし、ブラックボックスの商用顔認識アルゴリズム(cfras)が性別や人種の特徴を使ってアイデンティティを決定する程度は、政府や業界による展開の増加にもかかわらず、あまり理解されていない。 本研究では、性別と人種の特徴が、異なる人物間の顔認識類似度スコア、すなわち非距離スコアに与える影響を定量化した。 5種類のCFRAと333種類の被験者のサンプルを用いて本研究を行った。 制御として,これらの非機械分布の挙動を商用虹彩認識アルゴリズム(CIRA)と比較した。 以前の仕事を確認すると、全てのcfraは、同じ性別と人種の人々に高い類似度スコア("broad homogeneity")を生み出した。 CIRAにはそのような効果は見られなかった。 次に、類似度スコア行列に主成分分析(PCA)を適用した。 CFRAのいくつかの主要コンポーネント(PC)が、性別や人種によって人々をクラスタリングしているが、大多数はそうではない。 PCにおけるデモグラフィッククラスタリングはCFRAスコアのばらつきの10%に過ぎなかった。 CIRAにはクラスタリングは見られなかった。 これは、CFRAが性別や人種の特徴を利用してアイデンティティを確立するが、現在のCFRAで使われているほとんどの機能は、CIRAで使われているアイリステクスチャパターンと無関係であることを示している。 最後に, 集団クラスタリングを行わないPCを用いた類似度スコア行列の再構成により, 広い均一性効果が低下しただけでなく, 交配点と非交配点の分離も低下した。 これはCFRAが性別や人種とは無関係な機能で運用可能であることを示唆している。

Human face features can be used to determine individual identity as well as demographic information like gender and race. However, the extent to which black-box commercial face recognition algorithms (CFRAs) use gender and race features to determine identity is poorly understood despite increasing deployments by government and industry. In this study, we quantified the degree to which gender and race features influenced face recognition similarity scores between different people, i.e. non-mated scores. We ran this study using five different CFRAs and a sample of 333 diverse test subjects. As a control, we compared the behavior of these non-mated distributions to a commercial iris recognition algorithm (CIRA). Confirming prior work, all CFRAs produced higher similarity scores for people of the same gender and race, an effect known as "broad homogeneity". No such effect was observed for the CIRA. Next, we applied principal components analysis (PCA) to similarity score matrices. We show that some principal components (PCs) of CFRAs cluster people by gender and race, but the majority do not. Demographic clustering in the PCs accounted for only 10 % of the total CFRA score variance. No clustering was observed for the CIRA. This demonstrates that, although CFRAs use some gender and race features to establish identity, most features utilized by current CFRAs are unrelated to gender and race, similar to the iris texture patterns utilized by the CIRA. Finally, reconstruction of similarity score matrices using only PCs that showed no demographic clustering reduced broad homogeneity effects, but also decreased the separation between mated and non-mated scores. This suggests it's possible for CFRAs to operate on features unrelated to gender and race, albeit with somewhat lower recognition accuracy, but that this is not the current commercial practice.
翻訳日:2022-10-07 04:27:38 公開日:2020-10-15
# 動作単位の出現パターンが検出に及ぼす影響

Impact of Action Unit Occurrence Patterns on Detection ( http://arxiv.org/abs/2010.07982v1 )

ライセンス: Link先を確認
Saurabh Hinduja, Shaun Canavan, Saandeep Aathreya(参考訳) 行動単位の検出は顔分析、特に表情認識において重要なタスクである。 これは、式を複数のアクションユニットに分解できるという考えに起因している。 本稿では,行動単位の出現パターンが行動単位の検出に与える影響について検討する。 本研究では,この課題によく使用される2つの最先端の顔データベースであるdisFAとBP4Dについて,AU検出のための技術文献の現状を概観する。 この文献レビューから,行動単位の発生パターンが評価指標(例えばf1-binary)に強く影響することが示唆された。 文献レビューと合わせて,多行動単位検出と単一行動単位検出を行うとともに,出現パターンを用いて深層ニューラルネットワークを明示的に訓練し,行動単位検出の精度を高める新たなアプローチを提案する。 これらの実験は、アクションユニットパターンが評価メトリクスに直接影響を与えることを検証します。

Detecting action units is an important task in face analysis, especially in facial expression recognition. This is due, in part, to the idea that expressions can be decomposed into multiple action units. In this paper we investigate the impact of action unit occurrence patterns on detection of action units. To facilitate this investigation, we review state of the art literature, for AU detection, on 2 state-of-the-art face databases that are commonly used for this task, namely DISFA, and BP4D. Our findings, from this literature review, suggest that action unit occurrence patterns strongly impact evaluation metrics (e.g. F1-binary). Along with the literature review, we also conduct multi and single action unit detection, as well as propose a new approach to explicitly train deep neural networks using the occurrence patterns to boost the accuracy of action unit detection. These experiments validate that action unit patterns directly impact the evaluation metrics.
翻訳日:2022-10-07 04:27:07 公開日:2020-10-15
# きめ細かい画像検索のためのインクリメンタル学習の探索について

On the Exploration of Incremental Learning for Fine-grained Image Retrieval ( http://arxiv.org/abs/2010.08020v1 )

ライセンス: Link先を確認
Wei Chen and Yu Liu and Weiping Wang and Tinne Tuytelaars and Erwin M. Bakker and Michael Lew(参考訳) 本稿では,時間とともに新たなカテゴリが追加される場合に,画像の細粒度検索の問題を漸進的に考慮する。 一方、拡張データセットの表現を繰り返しトレーニングすることは時間がかかります。 一方、学習した表現を新しいクラスでのみ微調整すると、破滅的な忘れが生じる。 そこで本研究では,忘れ問題による検索性能低下を軽減するためのインクリメンタル学習手法を提案する。 元のクラスのサンプルにアクセスすることなく、元のネットワークの分類器は、以前の分類能力を維持するために、適応的なネットワークを訓練するために知識を伝達するためのソフトな"ラベル"を提供する。 さらに、最大平均離散度に基づく正規化関数は、それぞれ元のネットワークと適応ネットワークとの新しいクラス機能の相違を最小限に抑えるために考案された。 2つのデータセットに対する大規模な実験により,本手法は,新しいクラスにおいて高い性能を保ちながら,元のクラスに対する破滅的な忘れを効果的に軽減することを示した。

In this paper, we consider the problem of fine-grained image retrieval in an incremental setting, when new categories are added over time. On the one hand, repeatedly training the representation on the extended dataset is time-consuming. On the other hand, fine-tuning the learned representation only with the new classes leads to catastrophic forgetting. To this end, we propose an incremental learning method to mitigate retrieval performance degradation caused by the forgetting issue. Without accessing any samples of the original classes, the classifier of the original network provides soft "labels" to transfer knowledge to train the adaptive network, so as to preserve the previous capability for classification. More importantly, a regularization function based on Maximum Mean Discrepancy is devised to minimize the discrepancy of new classes features from the original network and the adaptive network, respectively. Extensive experiments on two datasets show that our method effectively mitigates the catastrophic forgetting on the original classes while achieving high performance on the new classes.
翻訳日:2022-10-07 04:26:53 公開日:2020-10-15
# 階層型学習はスケールアップが難しい理由と,高速化ダウンサンプリングによる解決法

Why Layer-Wise Learning is Hard to Scale-up and a Possible Solution via Accelerated Downsampling ( http://arxiv.org/abs/2010.08038v1 )

ライセンス: Link先を確認
Wenchi Ma, Miao Yu, Kaidong Li, Guanghui Wang(参考訳) 階層学習は、グローバルなバックプロパゲーションの代替として、解釈、解析が容易であり、メモリ効率がよい。 近年の研究では、階層学習が様々なデータセット上の画像分類において最先端のパフォーマンスを達成できることが示されている。 しかし,階層構造が単純なネットワークに限られており,ResNetのような深層ネットワークでは性能が著しく低下する。 本稿では,浅層層における特徴空間の分離性が比較的低いため,レイヤワイズ学習のスケールアップを阻害する根本的な理由を初めて明らかにする。 この議論は局所的な層における畳み込み操作の強度を制御することによって実証的に検証される。 浅層層から分離しにくい特徴は,ネットワーク全体の強い監督制約と一致せず,ネットワーク深度に敏感な層知学習を実現する。 さらに,浅層学習の貧弱化を図り,分離性が抑止力とよく一致した深部特徴空間に学習強調を移すためのダウンサンプリング高速化手法を提案する。 新たな発見を検証し,層間学習の性能向上におけるダウンサンプリング・アクセラレーションの利点を実証するために,広範な実験が行われている。

Layer-wise learning, as an alternative to global back-propagation, is easy to interpret, analyze, and it is memory efficient. Recent studies demonstrate that layer-wise learning can achieve state-of-the-art performance in image classification on various datasets. However, previous studies of layer-wise learning are limited to networks with simple hierarchical structures, and the performance decreases severely for deeper networks like ResNet. This paper, for the first time, reveals the fundamental reason that impedes the scale-up of layer-wise learning is due to the relatively poor separability of the feature space in shallow layers. This argument is empirically verified by controlling the intensity of the convolution operation in local layers. We discover that the poorly-separable features from shallow layers are mismatched with the strong supervision constraint throughout the entire network, making the layer-wise learning sensitive to network depth. The paper further proposes a downsampling acceleration approach to weaken the poor learning of shallow layers so as to transfer the learning emphasis to deep feature space where the separability matches better with the supervision restraint. Extensive experiments have been conducted to verify the new finding and demonstrate the advantages of the proposed downsampling acceleration in improving the performance of layer-wise learning.
翻訳日:2022-10-07 04:26:36 公開日:2020-10-15
# 360度映像における光フロー推定の再検討

Revisiting Optical Flow Estimation in 360 Videos ( http://arxiv.org/abs/2010.08045v1 )

ライセンス: Link先を確認
Keshav Bhandari, Ziliang Zong, Yan Yan(参考訳) 今日、360度ビデオ分析は高品質で低コストな360度ウェアラブルデバイスが登場して以来、この分野で重要な研究テーマとなっている。 本稿では,360度ビデオ光フロー推定のための新しいLiteFlowNet360アーキテクチャを提案する。 我々は、視点ビデオドメインから360ビデオドメインへのドメイン適応フレームワークとしてLiteFlowNet360を設計する。 我々は、カーネルトランスフォーマネットワーク(ktn)に触発された単純なカーネル変換技術を用いて、球面間投影による360度ビデオの固有歪みに対処する。 まず、機能ピラミッドネットワークにおける畳み込み層のインクリメンタル変換を適用し、推論層と正規化層のさらなる変換が重要ではないことを示し、サイズと計算コストの観点からネットワークの成長を減少させる。 第2に,拡張データを用いたトレーニングによってネットワークを洗練する。 我々は,画像を球面に投影し,平面に再投影することでデータ拡張を行う。 第3に,LiteFlowNet360を対象のドメイン360ビデオを用いて自己指導的に訓練する。 実験の結果,提案アーキテクチャを用いた360度ビデオ光流量推定の有望な結果が得られた。

Nowadays 360 video analysis has become a significant research topic in the field since the appearance of high-quality and low-cost 360 wearable devices. In this paper, we propose a novel LiteFlowNet360 architecture for 360 videos optical flow estimation. We design LiteFlowNet360 as a domain adaptation framework from perspective video domain to 360 video domain. We adapt it from simple kernel transformation techniques inspired by Kernel Transformer Network (KTN) to cope with inherent distortion in 360 videos caused by the sphere-to-plane projection. First, we apply an incremental transformation of convolution layers in feature pyramid network and show that further transformation in inference and regularization layers are not important, hence reducing the network growth in terms of size and computation cost. Second, we refine the network by training with augmented data in a supervised manner. We perform data augmentation by projecting the images in a sphere and re-projecting to a plane. Third, we train LiteFlowNet360 in a self-supervised manner using target domain 360 videos. Experimental results show the promising results of 360 video optical flow estimation using the proposed novel architecture.
翻訳日:2022-10-07 04:26:15 公開日:2020-10-15
# Egok360:360度エゴセントリックな人間活動ビデオデータセット

Egok360: A 360 Egocentric Kinetic Human Activity Video Dataset ( http://arxiv.org/abs/2010.08055v1 )

ライセンス: Link先を確認
Keshav Bhandari, Mario A. DeLaGarza, Ziliang Zong, Hugo Latapie, Yan Yan(参考訳) 近年,360度ビデオ解析のための新たな研究視点を提供するウェアラブルセンサへの関心が高まっている。 しかし、文学における360 {\deg}データセットの欠如は、この分野の研究を妨げる。 本稿では,このギャップを埋めるために,エゴセントリックな(一人称)360{\deg} Kinetic Human Activity Video data (EgoK360)を提案する。 EgoK360データセットには、例えば、ピックアップボール、ヒット、バウンスボール、サーブの4つのサブアクションを持つアクティビティPing-Pongのような、さまざまなサブアクションを持つ人間のアクティビティのアノテーションが含まれている。 私たちの知る限りでは、EgoK360は、360{\deg}環境設定によるファーストパーソンアクティビティ認識の領域における最初のデータセットであり、エゴセントリックな360 {\deg}ビデオ理解を促進する。 実験結果と2ストリームネットワークの変種を包括的に分析し,360度エゴセントリックな活動認識を実現する。 EgoK360データセットはhttps://egok360.github.io/からダウンロードできる。

Recently, there has been a growing interest in wearable sensors which provides new research perspectives for 360 {\deg} video analysis. However, the lack of 360 {\deg} datasets in literature hinders the research in this field. To bridge this gap, in this paper we propose a novel Egocentric (first-person) 360{\deg} Kinetic human activity video dataset (EgoK360). The EgoK360 dataset contains annotations of human activity with different sub-actions, e.g., activity Ping-Pong with four sub-actions which are pickup-ball, hit, bounce-ball and serve. To the best of our knowledge, EgoK360 is the first dataset in the domain of first-person activity recognition with a 360{\deg} environmental setup, which will facilitate the egocentric 360 {\deg} video understanding. We provide experimental results and comprehensive analysis of variants of the two-stream network for 360 egocentric activity recognition. The EgoK360 dataset can be downloaded from https://egok360.github.io/.
翻訳日:2022-10-07 04:25:58 公開日:2020-10-15
# HS-ResNet:畳み込みニューラルネットワーク上の階層分割ブロック

HS-ResNet: Hierarchical-Split Block on Convolutional Neural Network ( http://arxiv.org/abs/2010.07621v1 )

ライセンス: Link先を確認
Pengcheng Yuan, Shufei Lin, Cheng Cui, Yuning Du, Ruoyu Guo, Dongliang He, Errui Ding and Shumin Han(参考訳) 本稿では,既存の畳み込みニューラルネットワークをアップグレードするためのプラグ・アンド・プレイブロックとして使用可能な階層的スプリットブロックという表現ブロックについて述べる。 階層分割ブロックは1つの残余ブロック内に多くの階層分割および連結接続を含む。 マルチスケール機能は、多くの視覚タスクにおいて非常に重要である。 さらにHierarchical-Splitブロックは非常に柔軟で効率的であり、異なるアプリケーションのための潜在的なネットワークアーキテクチャの広いスペースを提供する。 本稿では,画像分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックイメージセグメンテーション/パーシングといったタスクのための階層的分割ブロックに基づく共通バックボーンを提案する。 提案手法は,これらのコアタスクに対して,ベースラインに比べて大幅に改善されている。 図1に示すように、イメージ分類において、50層ネットワーク(HS-ResNet50)は、ImageNet-1kデータセット上で競合遅延を伴う81.28%のトップ1の精度を達成する。 また、ほとんどの最先端モデルより優れている。 ソースコードとモデルは、https://github.com/paddlepaddle/paddleclasで入手できる。

This paper addresses representational block named Hierarchical-Split Block, which can be taken as a plug-and-play block to upgrade existing convolutional neural networks, improves model performance significantly in a network. Hierarchical-Split Block contains many hierarchical split and concatenate connections within one single residual block. We find multi-scale features is of great importance for numerous vision tasks. Moreover, Hierarchical-Split block is very flexible and efficient, which provides a large space of potential network architectures for different applications. In this work, we present a common backbone based on Hierarchical-Split block for tasks: image classification, object detection, instance segmentation and semantic image segmentation/parsing. Our approach shows significant improvements over all these core tasks in comparison with the baseline. As shown in Figure1, for image classification, our 50-layers network(HS-ResNet50) achieves 81.28% top-1 accuracy with competitive latency on ImageNet-1k dataset. It also outperforms most state-of-the-art models. The source code and models will be available on: https://github.com/PaddlePaddle/PaddleClas
翻訳日:2022-10-07 04:20:31 公開日:2020-10-15
# 画像美的スコア分布予測のための深部ドリフト拡散モデル

A Deep Drift-Diffusion Model for Image Aesthetic Score Distribution Prediction ( http://arxiv.org/abs/2010.07661v1 )

ライセンス: Link先を確認
Xin Jin, Xiqiao Li, Heng Huang, Xiaodong Li, and Xinghui Zhou(参考訳) 美的品質評価のタスクは主観性のため複雑である。 近年,画像の美的品質の目標表現は,1次元のバイナリ分類ラベルや数値スコアから多次元のスコア分布へと変化している。 現在の方法により、基底的真理スコア分布は直接回帰する。 しかし、美学の主観性は考慮されておらず、つまり、人間の心理的プロセスは考慮されていないため、タスクの実行が制限される。 本稿では,画像から美的スコア分布を予測するために,心理学者からインスパイアされた深いドリフト拡散(ddd)モデルを提案する。 DDDモデルは、評価結果の伝統的なモデリングではなく、美的知覚の心理的プロセスを記述することができる。 深層畳み込みニューラルネットワークを用いてドリフト拡散モデルのパラメータを回帰させる。 大規模な美的画像データセットによる実験結果から,新しいDDDモデルはシンプルだが効率的であり,審美的スコア分布予測における最先端の手法よりも優れていることがわかった。 さらに、モデルによって異なる心理的プロセスを予測することもできる。

The task of aesthetic quality assessment is complicated due to its subjectivity. In recent years, the target representation of image aesthetic quality has changed from a one-dimensional binary classification label or numerical score to a multi-dimensional score distribution. According to current methods, the ground truth score distributions are straightforwardly regressed. However, the subjectivity of aesthetics is not taken into account, that is to say, the psychological processes of human beings are not taken into consideration, which limits the performance of the task. In this paper, we propose a Deep Drift-Diffusion (DDD) model inspired by psychologists to predict aesthetic score distribution from images. The DDD model can describe the psychological process of aesthetic perception instead of traditional modeling of the results of assessment. We use deep convolution neural networks to regress the parameters of the drift-diffusion model. The experimental results in large scale aesthetic image datasets reveal that our novel DDD model is simple but efficient, which outperforms the state-of-the-art methods in aesthetic score distribution prediction. Besides, different psychological processes can also be predicted by our model.
翻訳日:2022-10-07 04:20:04 公開日:2020-10-15
# 人物識別のための大域的特徴と粗粒度部分的特徴の統合

Integrating Coarse Granularity Part-level Features with Supervised Global-level Features for Person Re-identification ( http://arxiv.org/abs/2010.07675v1 )

ライセンス: Link先を確認
Xiaofei Mao, Jiahao Cao, Dongfang Li, Xia Jia, Qingfang Zheng(参考訳) ホロスティックな人物再同定(Re-ID)と部分的な人物再同定は,近年大きく進歩している。 しかし、現実のシナリオには、全体像と部分的な歩行者像の両方が含まれており、単一の全体像と部分的な人物の再識別が難しい。 本稿では,ロバストな地域レベルの身体特徴を抽出するだけでなく,全体像と部分像の両方に教師付きグローバルな特徴を統合する,頑健な粗粒度部分レベル人物Re-IDネットワーク(CGPN)を提案する。 CGPNは人物Re-IDの精度を高めるために2倍の利益を得る。 一方、CGPNは、全体像と部分像の両方に有効な身体部分の特徴を抽出することを学ぶ。 一方,CGPNは,バックボーンネットワークによって直接グローバルな特徴を抽出することと比較して,より正確なグローバルな特徴を統括戦略で抽出することを学ぶ。 Market-1501、DukeMTMC-reID、CUHK03を含む3つのRe-IDデータセットでトレーニングされた単一のモデルは、最先端のパフォーマンスを達成し、既存のアプローチよりも優れている。 特に、人物再識別の最も難しいデータセットであるcuhk03において、単一クエリモードでは、ランク1/map=87.1\%/83.6\%の上位結果を得ることができ、現在のベストメソッドを+7.0\%/+6.7\%で上回っている。

Holistic person re-identification (Re-ID) and partial person re-identification have achieved great progress respectively in recent years. However, scenarios in reality often include both holistic and partial pedestrian images, which makes single holistic or partial person Re-ID hard to work. In this paper, we propose a robust coarse granularity part-level person Re-ID network (CGPN), which not only extracts robust regional level body features, but also integrates supervised global features for both holistic and partial person images. CGPN gains two-fold benefit toward higher accuracy for person Re-ID. On one hand, CGPN learns to extract effective body part features for both holistic and partial person images. On the other hand, compared with extracting global features directly by backbone network, CGPN learns to extract more accurate global features with a supervision strategy. The single model trained on three Re-ID datasets including Market-1501, DukeMTMC-reID and CUHK03 achieves state-of-the-art performances and outperforms any existing approaches. Especially on CUHK03, which is the most challenging dataset for person Re-ID, in single query mode, we obtain a top result of Rank-1/mAP=87.1\%/83.6\% with this method without re-ranking, outperforming the current best method by +7.0\%/+6.7\%.
翻訳日:2022-10-07 04:19:49 公開日:2020-10-15
# 地球観測における半監督セマンティックセマンティックセグメンテーション:MiniFrance Suite,データセット解析,マルチタスクネットワーク研究

Semi-Supervised Semantic Segmentation in Earth Observation: The MiniFrance Suite, Dataset Analysis and Multi-task Network Study ( http://arxiv.org/abs/2010.07830v1 )

ライセンス: Link先を確認
Javiera Castillo-Navarro, Bertrand Le Saux, Alexandre Boulch, Nicolas Audebert and S\'ebastien Lef\`evre(参考訳) 半教師付き学習技術の開発は、機械学習アルゴリズムの一般化能力を高めるために不可欠である。 実際、生の画像データはラベルが乏しい間は豊富であり、ラベルのない入力を利用してより良いモデルを構築することが重要である。 大規模データベースの可用性は、ハイレベルなパフォーマンスを持つ学習アルゴリズムの開発に鍵を握っている。 地球観測における機械学習の主な役割は、土地被覆地図などの製品を導出することにあるが、現場のデータセットは、穏やかな表面積、様々な場面の欠如、特定するための制限されたクラスがあるため、まだ限られている。 本稿では,地球観測における半教師付き意味セグメンテーションのための新しい大規模データセット,minifrance suiteを提案する。 ミニフランは、2000以上の超高解像度の空中画像を含み、200億枚以上のサンプル(ピクセル)を計上し、様々な気候、異なる風景、都市、および田舎の風景を含むフランスの16の地域をカバーし、高レベルのセマンティクスを持つ土地利用の授業を考えると困難である。 しかし、MiniFranceの最も特徴的な品質は、特に半教師付き学習のために設計されたフィールドで唯一のデータセットであり、トレーニングパーティションにラベル付きおよびラベルなしの画像が含まれており、ライフライクなシナリオを再現している。 このデータセットとともに、外観類似性およびMiniFranceデータの徹底的な研究の観点からデータ代表性分析のためのツールを提案し、半教師付き環境での学習や一般化に適していることを示す。 最後に,マルチタスク学習に基づく半教師付きディープアーキテクチャと,minifranceに関する最初の実験について述べる。

The development of semi-supervised learning techniques is essential to enhance the generalization capacities of machine learning algorithms. Indeed, raw image data are abundant while labels are scarce, therefore it is crucial to leverage unlabeled inputs to build better models. The availability of large databases have been key for the development of learning algorithms with high level performance. Despite the major role of machine learning in Earth Observation to derive products such as land cover maps, datasets in the field are still limited, either because of modest surface coverage, lack of variety of scenes or restricted classes to identify. We introduce a novel large-scale dataset for semi-supervised semantic segmentation in Earth Observation, the MiniFrance suite. MiniFrance has several unprecedented properties: it is large-scale, containing over 2000 very high resolution aerial images, accounting for more than 200 billions samples (pixels); it is varied, covering 16 conurbations in France, with various climates, different landscapes, and urban as well as countryside scenes; and it is challenging, considering land use classes with high-level semantics. Nevertheless, the most distinctive quality of MiniFrance is being the only dataset in the field especially designed for semi-supervised learning: it contains labeled and unlabeled images in its training partition, which reproduces a life-like scenario. Along with this dataset, we present tools for data representativeness analysis in terms of appearance similarity and a thorough study of MiniFrance data, demonstrating that it is suitable for learning and generalizes well in a semi-supervised setting. Finally, we present semi-supervised deep architectures based on multi-task learning and the first experiments on MiniFrance.
翻訳日:2022-10-07 04:18:16 公開日:2020-10-15
# 確率的敵対的攻撃と学習のためのハミルトニアンモンテカルロ法

A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack and Learning ( http://arxiv.org/abs/2010.07849v1 )

ライセンス: Link先を確認
Hongjun Wang, Guanbin Li, Xiaobai Liu and Liang Lin(参考訳) 深層畳み込みニューラルネットワーク(Deep Convolutional Neural Network, CNN)は、複数のコンピュータビジョンタスクにおいて顕著な性能を示したが、敵対的学習の研究により、深層モデルは、入力画像に視覚的に知覚できない摂動を加えることで、敵の例に弱いことが示されている。 既存の敵攻撃法のほとんどは、入力の単一の逆例しか生成しないため、逆例の基盤となるデータ多様体を垣間見るだけである。 魅力的な解決策は、敵の例のソリューション空間を探索し、さまざまなものを生成し、現実世界のシステムの堅牢性を改善し、深刻なセキュリティの脅威や脆弱性を防ぐのに役立つ可能性がある。 本稿では,本論文で提案する,累積運動量(hmcam)を持つハミルトニアンモンテカルロ法(hamiltonian monte carlo)という効果的な手法を提案する。 本研究では,HMCの効率を向上させるために,軌道長を自動的に制御する新しい方式を提案する。 さらに, MCMC の観点から, 対人訓練の計算コストが高い理由を再考し, 対人訓練(Contrastive Adversarial Training, CAT) と呼ばれる新たな生成手法を考案し, 標準対人訓練(Contrastive Divergence, CD) の小さな修正から, 少数の反復で対人訓練の平衡分布にアプローチし, 効率と精度のトレードオフを実現する。 複数の自然画像データセットの定量的・定性的解析と実用システムの両方が,提案手法の優越性を確認した。

Although deep convolutional neural networks (CNNs) have demonstrated remarkable performance on multiple computer vision tasks, researches on adversarial learning have shown that deep models are vulnerable to adversarial examples, which are crafted by adding visually imperceptible perturbations to the input images. Most of the existing adversarial attack methods only create a single adversarial example for the input, which just gives a glimpse of the underlying data manifold of adversarial examples. An attractive solution is to explore the solution space of the adversarial examples and generate a diverse bunch of them, which could potentially improve the robustness of real-world systems and help prevent severe security threats and vulnerabilities. In this paper, we present an effective method, called Hamiltonian Monte Carlo with Accumulated Momentum (HMCAM), aiming to generate a sequence of adversarial examples. To improve the efficiency of HMC, we propose a new regime to automatically control the length of trajectories, which allows the algorithm to move with adaptive step sizes along the search direction at different positions. Moreover, we revisit the reason for high computational cost of adversarial training under the view of MCMC and design a new generative method called Contrastive Adversarial Training (CAT), which approaches equilibrium distribution of adversarial examples with only few iterations by building from small modifications of the standard Contrastive Divergence (CD) and achieve a trade-off between efficiency and accuracy. Both quantitative and qualitative analysis on several natural image datasets and practical systems have confirmed the superiority of the proposed algorithm.
翻訳日:2022-10-07 04:17:45 公開日:2020-10-15
# 都市シーンにおける複数物体追跡のための視覚特徴の実証分析

An Empirical Analysis of Visual Features for Multiple Object Tracking in Urban Scenes ( http://arxiv.org/abs/2010.07881v1 )

ライセンス: Link先を確認
Mehdi Miah, Justine Pepin, Nicolas Saunier and Guillaume-Alexandre Bilodeau(参考訳) 本稿では,都市景観における複数物体追跡(MOT)の外観特徴の選択の問題に対処する。 長年にわたり、MOTには多数の機能が使われてきた。 しかし、その一部が他より優れているかどうかは定かではない。 一般的に用いられる特徴は、色ヒストグラム、方向勾配のヒストグラム、畳み込みニューラルネットワークからの深い特徴、再識別(ReID)特徴である。 本研究では,都市景観追跡シナリオにおいて,境界ボックスで囲まれた物体を識別する上で,これらの特徴がいかに優れているかを評価する。 いくつかの親和性測度、例えば$\mathrm{L}_1$, $\mathrm{L}_2$, and the Bhattacharyya distances, Rank-1 counts and the cosine similarity も特徴の識別力への影響について評価される。 いくつかのデータセットの結果から、ReIDネットワークの特徴は、検出器の品質に関わらず、互いにインスタンスを識別するのに最適であることが示された。 もしReIDモデルが利用できない場合、検出器が良好なリコールを有しており、オクルージョンが少ない場合、色ヒストグラムが選択される。 プロジェクトページはhttp://www.mehdimiah.com/visual_features。

This paper addresses the problem of selecting appearance features for multiple object tracking (MOT) in urban scenes. Over the years, a large number of features has been used for MOT. However, it is not clear whether some of them are better than others. Commonly used features are color histograms, histograms of oriented gradients, deep features from convolutional neural networks and re-identification (ReID) features. In this study, we assess how good these features are at discriminating objects enclosed by a bounding box in urban scene tracking scenarios. Several affinity measures, namely the $\mathrm{L}_1$, $\mathrm{L}_2$ and the Bhattacharyya distances, Rank-1 counts and the cosine similarity, are also assessed for their impact on the discriminative power of the features. Results on several datasets show that features from ReID networks are the best for discriminating instances from one another regardless of the quality of the detector. If a ReID model is not available, color histograms may be selected if the detector has a good recall and there are few occlusions; otherwise, deep features are more robust to detectors with lower recall. The project page is http://www.mehdimiah.com/visual_features.
翻訳日:2022-10-07 04:17:12 公開日:2020-10-15
# 人間とデジタルの労働者統合のためのDo's and Don's

Do's and Don'ts for Human and Digital Worker Integration ( http://arxiv.org/abs/2010.07738v1 )

ライセンス: Link先を確認
Vinod Muthusamy, Merve Unuvar, Hagen V\"olzer, Justin D. Weisz(参考訳) ロボットプロセス自動化(rpa)とその次の進化段階であるインテリジェントプロセス自動化は、効率とプロセス結果の改善を推進することを約束する。 しかし、ビジネスリーダーは、インテリジェントな自動化をビジネスプロセスに統合する方法をどのように評価できるだろうか? 人間と機械の間の適切な労働分業とは何か。 統合AIチームはどのように評価されるべきか? rpaの場合、人間の労働コストとロボット労働コストを直接比較して自動化決定を行うことが多い。 本稿では,デジタルワーカーをビジネスプロセスに統合する際の生産性を超えて,多段階の自律性と人的関与の可能性を取り入れた幅広い視点を論じる。

Robotic process automation (RPA) and its next evolutionary stage, intelligent process automation, promise to drive improvements in efficiencies and process outcomes. However, how can business leaders evaluate how to integrate intelligent automation into business processes? What is an appropriate division of labor between humans and machines? How should combined human-AI teams be evaluated? For RPA, often the human labor cost and the robotic labor cost are directly compared to make an automation decision. In this position paper, we argue for a broader view that incorporates the potential for multiple levels of autonomy and human involvement, as well as a wider range of metrics beyond productivity when integrating digital workers into a business process
翻訳日:2022-10-07 04:11:00 公開日:2020-10-15
# 音楽ルールに基づくai合成認識に関する研究

Research on AI Composition Recognition Based on Music Rules ( http://arxiv.org/abs/2010.07805v1 )

ライセンス: Link先を確認
Yang Deng, Ziyao Xu, Li Zhou, Huanping Liu, Anqi Huang(参考訳) 人工知能による構成が発達し、機械生成作品の人気が高まり、著作権論争が頻発した。 人工的・機械的作品の判断に関する研究は不十分であり、これらの作品を特定し識別する手法の作成は特に重要である。 音楽の本質から、本論文は、機械生成音楽のモードの安定性を識別するモードを抽出し、それが人工知能であるかどうかを判断する音楽ルール識別アルゴリズムを構築する。 評価データセットは、CSMT(Conference on Sound and Music Technology)によって提供される。 実験結果から、異なるソース分布を持つデータセット間での識別が成功することを示す。 このアルゴリズムはまた、音楽著作権と人工知能音楽の良質な発展に関する技術的言及も提供する。

The development of artificial intelligent composition has resulted in the increasing popularity of machine-generated pieces, with frequent copyright disputes consequently emerging. There is an insufficient amount of research on the judgement of artificial and machine-generated works; the creation of a method to identify and distinguish these works is of particular importance. Starting from the essence of the music, the article constructs a music-rule-identifying algorithm through extracting modes, which will identify the stability of the mode of machine-generated music, to judge whether it is artificial intelligent. The evaluation datasets used are provided by the Conference on Sound and Music Technology(CSMT). Experimental results demonstrate the algorithm to have a successful distinguishing ability between datasets with different source distributions. The algorithm will also provide some technological reference to the benign development of the music copyright and artificial intelligent music.
翻訳日:2022-10-07 04:10:49 公開日:2020-10-15
# 画像合成のための人間の目に基づくテキストカラー生成法

A Human Eye-based Text Color Scheme Generation Method for Image Synthesis ( http://arxiv.org/abs/2010.07510v1 )

ライセンス: Link先を確認
Shao Wei Wang, Guan Jie Huang, Xiang Yu Luo(参考訳) シーンテキストの検出と認識タスクに使用される合成データが有効であることが証明された。 ひとつは、既存の方法でテキストの着色に使用されるカラースキームは、実際のデータセットから学習した比較的固定色のキー値対である。 実際のデータセットの汚いデータは、テキストと背景の色が互いに区別できないほど似ているという問題を引き起こす可能性がある。 第二に、生成されたテキストは画像の同じ深さに一様に制限されるが、現実には、テキストが奥行きにわたって現れる特別なケースがある。 これらの問題に対処するために,本論文では,人間の目の特徴と一致した色調を生成する新しい手法を設計する。 提案手法の利点は,(1) 汚れたデータによるテキストと背景の色の混同を克服すること,(2) 生成したテキストは,奥行きであっても,任意の画像のほとんどの場所に現れることを許すこと,(3) 手法の性能が最先端の手法を超えるような背景の深さを分析すること,(4) 生成速度が速いこと,(3) 3ミリ秒に1枚の画像を生成すること,である。 本手法の有効性をいくつかの公開データセットで検証した。

Synthetic data used for scene text detection and recognition tasks have proven effective. However, there are still two problems: First, the color schemes used for text coloring in the existing methods are relatively fixed color key-value pairs learned from real datasets. The dirty data in real datasets may cause the problem that the colors of text and background are too similar to be distinguished from each other. Second, the generated texts are uniformly limited to the same depth of a picture, while there are special cases in the real world that text may appear across depths. To address these problems, in this paper we design a novel method to generate color schemes, which are consistent with the characteristics of human eyes to observe things. The advantages of our method are as follows: (1) overcomes the color confusion problem between text and background caused by dirty data; (2) the texts generated are allowed to appear in most locations of any image, even across depths; (3) avoids analyzing the depth of background, such that the performance of our method exceeds the state-of-the-art methods; (4) the speed of generating images is fast, nearly one picture generated per three milliseconds. The effectiveness of our method is verified on several public datasets.
翻訳日:2022-10-07 04:10:19 公開日:2020-10-15
# 一貫性トレーニングによる自己監督型ドメイン適応

Self-Supervised Domain Adaptation with Consistency Training ( http://arxiv.org/abs/2010.07539v1 )

ライセンス: Link先を確認
L. Xiao, J. Xu, D. Zhao, Z. Wang, L. Wang, Y. Nie, B. Dai(参考訳) 画像分類における教師なし領域適応の問題を考える。 ラベルなしデータから対象領域認識特徴を学習するために,ラベルなしデータをある種の変換(特に画像回転)で拡張し,学習者に変換特性の予測を依頼することにより,自己教師付きプリテキストタスクを作成する。 しかし、得られた特徴表現は、メインタスクに関して大量の無関係な情報を含むことができる。 さらなるガイダンスを提供するため、我々は拡張データの特徴表現を元のデータと整合させるよう強制する。 直感的には、一貫性は表現学習にさらなる制約をもたらすため、学習された表現はメインタスクに関する正しい情報に集中する傾向にある。 提案手法を検証し,古典的ドメイン適応ベンチマークにおける最新性能を示す。 コードはhttps://github.com/jiaolong/ss-da-consistencyで入手できる。

We consider the problem of unsupervised domain adaptation for image classification. To learn target-domain-aware features from the unlabeled data, we create a self-supervised pretext task by augmenting the unlabeled data with a certain type of transformation (specifically, image rotation) and ask the learner to predict the properties of the transformation. However, the obtained feature representation may contain a large amount of irrelevant information with respect to the main task. To provide further guidance, we force the feature representation of the augmented data to be consistent with that of the original data. Intuitively, the consistency introduces additional constraints to representation learning, therefore, the learned representation is more likely to focus on the right information about the main task. Our experimental results validate the proposed method and demonstrate state-of-the-art performance on classical domain adaptation benchmarks. Code is available at https://github.com/Jiaolong/ss-da-consistency.
翻訳日:2022-10-07 04:09:33 公開日:2020-10-15
# 時空間予測を用いた物体追跡

Object Tracking Using Spatio-Temporal Future Prediction ( http://arxiv.org/abs/2010.07605v1 )

ライセンス: Link先を確認
Yuan Liu, Ruoteng Li, Robby T. Tan, Yu Cheng, Xiubao Sui(参考訳) 閉塞は、多くの現代の追跡方法を誤ったものにする長期にわたる問題である。 本稿では,対象物体の現在および将来的な位置を過去の軌道から利用することで,閉塞問題に対処する。 そこで本研究では,背景運動モデルと軌道予測を考慮した学習ベースの追跡手法を提案する。 軌道予測モジュールは,対象物体の過去の軌跡に基づいて,現在および将来のフレームにおける対象物体の位置を予測する。 入力ビデオでは、対象物体の軌道は物体の動きだけでなくカメラの動きにも影響されるため、背景運動モジュールはカメラの動きを推定する。 そのため、オブジェクトの軌道はそれとは独立にすることができる。 本研究では,外見に基づくトラッカーと軌道予測を動的に切り替えるために,トラッキング予測の精度を評価するネットワークを用いて,外見に基づくトラッカーの予測と軌道予測のどちらを選択するかを選択する。 包括的評価により,提案手法は,一般的な追跡ベンチマーク上での最先端性能を新たに設定することを示す。

Occlusion is a long-standing problem that causes many modern tracking methods to be erroneous. In this paper, we address the occlusion problem by exploiting the current and future possible locations of the target object from its past trajectory. To achieve this, we introduce a learning-based tracking method that takes into account background motion modeling and trajectory prediction. Our trajectory prediction module predicts the target object's locations in the current and future frames based on the object's past trajectory. Since, in the input video, the target object's trajectory is not only affected by the object motion but also the camera motion, our background motion module estimates the camera motion. So that the object's trajectory can be made independent from it. To dynamically switch between the appearance-based tracker and the trajectory prediction, we employ a network that can assess how good a tracking prediction is, and we use the assessment scores to choose between the appearance-based tracker's prediction and the trajectory-based prediction. Comprehensive evaluations show that the proposed method sets a new state-of-the-art performance on commonly used tracking benchmarks.
翻訳日:2022-10-07 04:08:40 公開日:2020-10-15
# 不確実性による神経抽象要約モデル理解

Understanding Neural Abstractive Summarization Models via Uncertainty ( http://arxiv.org/abs/2010.07882v1 )

ライセンス: Link先を確認
Jiacheng Xu, Shrey Desai, Greg Durrett(参考訳) seq2seq抽象要約モデルの利点は、自由形式でテキストを生成することであるが、この柔軟性はモデルの振る舞いを解釈することが困難である。 本研究では,モデルのトークンレベルの予測のエントロピーや不確実性を研究することにより,ブラックボックスとホワイトボックスの両方の方法で要約デコーダを分析する。 PEGASUS と BART という2つの強力な事前学習モデルに対して,予測エントロピーの低さと,新しいテキストを生成するのではなくトークンをコピーする場所との相関関係が強い。 デコーダの不確実性は、隣接するトークンのペア間の文の位置や構文距離といった要素にもつながり、モデルの次の出力トークンに対して、コンテキストを特に選択的にする要因の感覚を与える。 最後に,デコーダの不確かさと注意行動の関係について検討し,これらの観測結果がモデルに与える影響について考察する。 要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。

An advantage of seq2seq abstractive summarization models is that they generate text in a free-form manner, but this flexibility makes it difficult to interpret model behavior. In this work, we analyze summarization decoders in both blackbox and whitebox ways by studying on the entropy, or uncertainty, of the model's token-level predictions. For two strong pre-trained models, PEGASUS and BART on two summarization datasets, we find a strong correlation between low prediction entropy and where the model copies tokens rather than generating novel text. The decoder's uncertainty also connects to factors like sentence position and syntactic distance between adjacent pairs of tokens, giving a sense of what factors make a context particularly selective for the model's next output token. Finally, we study the relationship of decoder uncertainty and attention behavior to understand how attention gives rise to these observed effects in the model. We show that uncertainty is a useful perspective for analyzing summarization and text generation models more broadly.
翻訳日:2022-10-07 04:02:04 公開日:2020-10-15
# 可算性と塩分モデルを用いた圧縮要約

Compressive Summarization with Plausibility and Salience Modeling ( http://arxiv.org/abs/2010.07886v1 )

ライセンス: Link先を確認
Shrey Desai and Jiacheng Xu and Greg Durrett(参考訳) 圧縮要約システムは、典型的には合成規則に頼り、可能な要約文のどの範囲を削除できるかを判断し、コンテンツ選択(ROUGE)を最適化することで、実際に何を削除すべきかのモデルを学ぶ。 本研究では,候補スパンに対する厳格な構文制約を緩和し,その代わりに圧縮決定を2つのデータ駆動型基準に委ねる手法を提案する。 スパンの削除は、文の文法性と事実性を維持することで可能であり、要約から重要な情報を含む場合、スパンは有益である。 これらのそれぞれは、事前訓練されたトランスフォーマーモデルによって判断され、正当で有望でない削除のみを適用できる。 提案手法は,単純な抽出圧縮パイプラインに統合された場合,ベンチマーク要約データセット上で強いドメイン内結果が得られる。 新たなドメインから500のサンプルのみを微調整したシステムは、より多くのデータでトレーニングされたドメイン内抽出モデルにマッチするか、あるいは超えます。

Compressive summarization systems typically rely on a crafted set of syntactic rules to determine what spans of possible summary sentences can be deleted, then learn a model of what to actually delete by optimizing for content selection (ROUGE). In this work, we propose to relax the rigid syntactic constraints on candidate spans and instead leave compression decisions to two data-driven criteria: plausibility and salience. Deleting a span is plausible if removing it maintains the grammaticality and factuality of a sentence, and spans are salient if they contain important information from the summary. Each of these is judged by a pre-trained Transformer model, and only deletions that are both plausible and not salient can be applied. When integrated into a simple extraction-compression pipeline, our method achieves strong in-domain results on benchmark summarization datasets, and human evaluation shows that the plausibility model generally selects for grammatical and factual deletions. Furthermore, the flexibility of our approach allows it to generalize cross-domain: our system fine-tuned on only 500 samples from a new domain can match or exceed an in-domain extractive model trained on much more data.
翻訳日:2022-10-07 04:01:45 公開日:2020-10-15
# CXP949 - WNUT-2020 Task 2: Extracting Informative COVID-19 Tweets -RoBERTa Ensembles and the Continued Relevance of Handcrafted Features

CXP949 at WNUT-2020 Task 2: Extracting Informative COVID-19 Tweets -- RoBERTa Ensembles and The Continued Relevance of Handcrafted Features ( http://arxiv.org/abs/2010.07988v1 )

ライセンス: Link先を確認
Calum Perrio and Harish Tayyar Madabushi(参考訳) 本稿では,うるさいユーザ生成テキストに関するワークショップのタスク2に提案する。 本研究では,コーパスレベル情報と手作り機能を利用したアンサンブル実装により,テキスト分類のための微調整済み変換言語モデルの性能向上を検討する。 本研究は,事前学習データの制限外において,特定の被験者を対象としたノイズデータセットの課題に対処する上で,前述の特徴を含めることの有効性を検証する。 追加機能を含めることで、分類結果が改善され、トップパフォーマンスチームの2ポイント以内のスコアが得られます。

This paper presents our submission to Task 2 of the Workshop on Noisy User-generated Text. We explore improving the performance of a pre-trained transformer-based language model fine-tuned for text classification through an ensemble implementation that makes use of corpus level information and a handcrafted feature. We test the effectiveness of including the aforementioned features in accommodating the challenges of a noisy data set centred on a specific subject outside the remit of the pre-training data. We show that inclusion of additional features can improve classification results and achieve a score within 2 points of the top performing team.
翻訳日:2022-10-07 04:01:23 公開日:2020-10-15
# モンタギュー文法誘導

Montague Grammar Induction ( http://arxiv.org/abs/2010.08067v1 )

ライセンス: Link先を確認
Gene Louis Kim and Aaron Steven White(参考訳) 本稿では,任意の行動データから組合せ分類文法を誘導する計算モデルを提案する。 このフレームワークは分析者に、誘導文法が従うべき仮定を詳細に制御する。 (i)プリミティブ型とは何か (ii) 複雑な型の構築方法 (iii)型を組み合わせるのに使えるコンビネータの組 (iv)いくつかの語彙項目の型が固定されるべきか否か(及び何に対して)。 概念実証実験では,分布解析に使用するフレームワークをデプロイする。 我々は,s(emantic)-selectionとc(ategory)-selectionの関係に着目し,英語動詞の構文分布(メガアクセプティビリティデータセット)に着目した語彙スケールのアクセプティビリティ判断データセットを入力として,帰納文法のセマンティクス文献から標準仮定を強制する。

We propose a computational modeling framework for inducing combinatory categorial grammars from arbitrary behavioral data. This framework provides the analyst fine-grained control over the assumptions that the induced grammar should conform to: (i) what the primitive types are; (ii) how complex types are constructed; (iii) what set of combinators can be used to combine types; and (iv) whether (and to what) the types of some lexical items should be fixed. In a proof-of-concept experiment, we deploy our framework for use in distributional analysis. We focus on the relationship between s(emantic)-selection and c(ategory)-selection, using as input a lexicon-scale acceptability judgment dataset focused on English verbs' syntactic distribution (the MegaAcceptability dataset) and enforcing standard assumptions from the semantics literature on the induced grammar.
翻訳日:2022-10-07 04:00:55 公開日:2020-10-15
# 緊急対応パイプラインの設計 : 教訓と課題

Designing Emergency Response Pipelines : Lessons and Challenges ( http://arxiv.org/abs/2010.07504v1 )

ライセンス: Link先を確認
Ayan Mukhopadhyay and Geoffrey Pettet and Mykel Kochenderfer and Abhishek Dubey(参考訳) 事故、犯罪、火災などの事件に対する緊急対応は、コミュニティが直面する大きな問題である。 緊急対応管理は、予測、リソース割り当て、ディスパッチなど、いくつかの段階とサブ問題から構成されている。 各問題に対処するための原則的アプローチの設計は、効率的な緊急応答管理(ERM)パイプラインを作成するために必要である。 過去6年間、私たちはいくつかの最初の対応組織と協力してEMMパイプラインを設計してきました。 本稿では,我々が認識した課題と,この領域での経験から学んだ教訓について紹介する。 このような課題は、特に実践者や研究者にとって重要であり、洪水や地震などの災害を緩和するための対応戦略の設計においても重要な考慮事項である。

Emergency response to incidents such as accidents, crimes, and fires is a major problem faced by communities. Emergency response management comprises of several stages and sub-problems like forecasting, resource allocation, and dispatch. The design of principled approaches to tackle each problem is necessary to create efficient emergency response management (ERM) pipelines. Over the last six years, we have worked with several first responder organizations to design ERM pipelines. In this paper, we highlight some of the challenges that we have identified and lessons that we have learned through our experience in this domain. Such challenges are particularly relevant for practitioners and researchers, and are important considerations even in the design of response strategies to mitigate disasters like floods and earthquakes.
翻訳日:2022-10-07 04:00:42 公開日:2020-10-15
# tdre:関係抽出のためのテンソル分解に基づくアプローチ

TDRE: A Tensor Decomposition Based Approach for Relation Extraction ( http://arxiv.org/abs/2010.07533v1 )

ライセンス: Link先を確認
Bin-Bin Zhao and Liang Li and Hui-Dong Zhang(参考訳) 非構造化テキストから関係型とともにエンティティペアを抽出することは、情報抽出の基本的なサブタスクである。 既存のジョイントモデルのほとんどは、細かなラベリングスキームや共有埋め込みパラメータに焦点を当てている。 これらの手法は、全ての関係型を持つ冗長な三重項抽出に苦しむ多ラベル三重項の結合確率を直接モデル化する。 しかし、各文は、非常に少ない関係型を含むことができる。 本稿では,まず,各関係型に富んだ単語対の3次テンソルとして,最終三重項抽出結果をモデル化する。 また, 文に含まれる関係性を得るために, 独立・共同学習関係分類モジュールを導入する。 テンソル分解戦略を最終的に利用し、予測されていない関係型の計算を省略する予測関係成分で三重項テンソルを分解する。 効果的な分解法により,重なり合う三重項を抽出でき,不要なエンティティペアの検出を回避できるテンソル分解に基づく関係抽出(tdre)手法を提案する。 ベンチマークデータセットであるNYT、CoNLL04、ADEデータセットの実験では、提案手法が既存の強いベースラインより優れていることが示された。

Extracting entity pairs along with relation types from unstructured texts is a fundamental subtask of information extraction. Most existing joint models rely on fine-grained labeling scheme or focus on shared embedding parameters. These methods directly model the joint probability of multi-labeled triplets, which suffer from extracting redundant triplets with all relation types. However, each sentence may contain very few relation types. In this paper, we first model the final triplet extraction result as a three-order tensor of word-to-word pairs enriched with each relation type. And in order to obtain the sentence contained relations, we introduce an independent but joint training relation classification module. The tensor decomposition strategy is finally utilized to decompose the triplet tensor with predicted relational components which omits the calculations for unpredicted relation types. According to effective decomposition methods, we propose the Tensor Decomposition based Relation Extraction (TDRE) approach which is able to extract overlapping triplets and avoid detecting unnecessary entity pairs. Experiments on benchmark datasets NYT, CoNLL04 and ADE datasets demonstrate that the proposed method outperforms existing strong baselines.
翻訳日:2022-10-07 04:00:32 公開日:2020-10-15
# 自動計画エンジンにおけるドメインモデル構成の重要性について

On the Importance of Domain Model Configuration for Automated Planning Engines ( http://arxiv.org/abs/2010.07710v1 )

ライセンス: Link先を確認
Mauro Vallati and Lukas Chrpa and Thomas L. McCluskey and Frank Hutter(参考訳) AI Planningコミュニティ内でのドメインに依存しないプランナの開発は、幅広いアプリケーションで使用可能な“既成の”テクノロジへとつながっている。 さらに、モジュールアプローチ -- プランナーとドメイン知識がより大きなソフトウェアアプリケーションのモジュールである -- を可能にし、システムの他の部分を変更することなく、個々のモジュールの置換や改善を容易にする。 このアプローチは、計画生成の効率を改善するためにモデルがどのように表現されるかを変更する改革と構成技術の使用もサポートする。 本稿では,ドメインに依存しないプランナの性能が,ドメインモデルの構成,すなわちモデルにおける要素の順序,特にプランナ比較の点においてどのように影響するかを検討する。 次に,ドメインモデルのオンラインおよびオフライン構成手法を導入し,マクロなど他の再構成アプローチに対するドメインモデル構成の影響を分析する。

The development of domain-independent planners within the AI Planning community is leading to "off-the-shelf" technology that can be used in a wide range of applications. Moreover, it allows a modular approach --in which planners and domain knowledge are modules of larger software applications-- that facilitates substitutions or improvements of individual modules without changing the rest of the system. This approach also supports the use of reformulation and configuration techniques, which transform how a model is represented in order to improve the efficiency of plan generation. In this article, we investigate how the performance of domain-independent planners is affected by domain model configuration, i.e., the order in which elements are ordered in the model, particularly in the light of planner comparisons. We then introduce techniques for the online and offline configuration of domain models, and we analyse the impact of domain model configuration on other reformulation approaches, such as macros.
翻訳日:2022-10-07 03:59:42 公開日:2020-10-15
# Spurious Region Guided Refinementによるニューラルネットワーク検証の改善

Improving Neural Network Verification through Spurious Region Guided Refinement ( http://arxiv.org/abs/2010.07722v1 )

ライセンス: Link先を確認
Pengfei Yang, Renjue Li, Jianlin Li, Cheng-Chao Huang, Jingyi Wang, Jun Sun, Bai Xue, Lijun Zhang(参考訳) 深層ニューラルネットワークのロバスト性検証のためのスプリアス領域誘導改良手法を提案する。 提案手法は,ネットワーク解析にDeepPoly抽象ドメインを適用することから始まる。 ロバスト性が検証できない場合、結果は決定的ではない。 過剰な近似のため、抽象の計算された領域は、真の反例を含まないという意味では散発的であるかもしれない。 私たちの目標は、そのようなスプリアスな領域を特定し、それらを抽象化の洗練を導くために使うことです。 核となるアイデアは、得られた抽象化の制約を利用してニューロンの新しい境界を推測することである。 これは線形プログラミング技術によって達成される。 新しい境界でDeepPolyを反復的に適用し、刺激的な領域を排除します。 我々は,プロトタイプツールのDeepSRGRにアプローチを実装した。 実験結果から,大量の領域をスプリアスと同定でき,その結果,DeepPolyの精度が著しく向上することが示唆された。 副次的貢献として, 定量的ロバストネス特性の検証に本手法を適用した。

We propose a spurious region guided refinement approach for robustness verification of deep neural networks. Our method starts with applying the DeepPoly abstract domain to analyze the network. If the robustness property cannot be verified, the result is inconclusive. Due to the over-approximation, the computed region in the abstraction may be spurious in the sense that it does not contain any true counterexample. Our goal is to identify such spurious regions and use them to guide the abstraction refinement. The core idea is to make use of the obtained constraints of the abstraction to infer new bounds for the neurons. This is achieved by linear programming techniques. With the new bounds, we iteratively apply DeepPoly, aiming to eliminate spurious regions. We have implemented our approach in a prototypical tool DeepSRGR. Experimental results show that a large amount of regions can be identified as spurious, and as a result, the precision of DeepPoly can be significantly improved. As a side contribution, we show that our approach can be applied to verify quantitative robustness properties.
翻訳日:2022-10-07 03:59:27 公開日:2020-10-15
# スパン注意による構成構文解析の改善

Improving Constituency Parsing with Span Attention ( http://arxiv.org/abs/2010.07543v1 )

ライセンス: Link先を確認
Yuanhe Tian, Yan Song, Fei Xia, Tong Zhang(参考訳) 構成構文解析は自然言語理解において基本かつ重要なタスクであり、文脈情報の適切な表現がこのタスクに役立つ。 従来の文脈情報の特徴であるN-gramは,多くのタスクにおいて有用であることが証明されており,適切にモデル化された場合の選挙区解析にも有用である。 本稿では,n-gram情報を活用するために,ニューラルチャートを用いた選挙区解析に注目する。 現在のグラフベースのパーサとトランスフォーマベースのエンコーダは、スパン境界における隠れた状態の減算によってスパンを表現するため、特に長いスパンにおいて情報損失を引き起こす可能性があるので、解析プロセスへの貢献に応じてn-gramを重み付けてスパン表現に組み込む。 さらに,n-gramを異なる長さのカテゴリで重み付けすることで,モデルをさらに強化し,長文解析に役立てることを提案する。 アラビア語、中国語、英語を解析する上で、我々のアプローチの有効性を示すために、広く使われている3つのベンチマークデータセットの実験結果が得られた。

Constituency parsing is a fundamental and important task for natural language understanding, where a good representation of contextual information can help this task. N-grams, which is a conventional type of feature for contextual information, have been demonstrated to be useful in many tasks, and thus could also be beneficial for constituency parsing if they are appropriately modeled. In this paper, we propose span attention for neural chart-based constituency parsing to leverage n-gram information. Considering that current chart-based parsers with Transformer-based encoder represent spans by subtraction of the hidden states at the span boundaries, which may cause information loss especially for long spans, we incorporate n-grams into span representations by weighting them according to their contributions to the parsing process. Moreover, we propose categorical span attention to further enhance the model by weighting n-grams within different length categories, and thus benefit long-sentence parsing. Experimental results on three widely used benchmark datasets demonstrate the effectiveness of our approach in parsing Arabic, Chinese, and English, where state-of-the-art performance is obtained by our approach on all of them.
翻訳日:2022-10-07 03:53:11 公開日:2020-10-15
# 低誤差密度領域における文法的誤り訂正:新しいベンチマークと解析

Grammatical Error Correction in Low Error Density Domains: A New Benchmark and Analyses ( http://arxiv.org/abs/2010.07574v1 )

ライセンス: Link先を確認
Simon Flachs, Oph\'elie Lacroix, Helen Yannakoudakis, Marek Rei, Anders S{\o}gaard(参考訳) 文法的誤り訂正(GEC)システムの評価は、主に英語の非ネイティブ学習者によるエッセイに焦点が当てられているが、これはGEC応用の完全なスペクトルの一部に過ぎない。 GECのターゲット領域を広げ、様々なレベルの英語話者が生成するWebサイトテキストからなるGECの新しいベンチマークであるCWEBをリリースすることを目指している。 webサイトデータは、学習者エッセイよりもはるかに少ない文法的エラーを含む、一般的で重要なドメインであり、最先端のgecシステムへの挑戦を示す。 この背景にある要因は、低エラー密度領域における強力な内部言語モデルに依存するシステムがないことである。 本研究は,様々なトピックやジャンルに一般化したオープンドメインECCモデルの開発を促進することを願っている。

Evaluation of grammatical error correction (GEC) systems has primarily focused on essays written by non-native learners of English, which however is only part of the full spectrum of GEC applications. We aim to broaden the target domain of GEC and release CWEB, a new benchmark for GEC consisting of website text generated by English speakers of varying levels of proficiency. Website data is a common and important domain that contains far fewer grammatical errors than learner essays, which we show presents a challenge to state-of-the-art GEC systems. We demonstrate that a factor behind this is the inability of systems to rely on a strong internal language model in low error density domains. We hope this work shall facilitate the development of open-domain GEC models that generalize to different topics and genres.
翻訳日:2022-10-07 03:52:23 公開日:2020-10-15
# 複数入力源を用いた対話生成のための事前学習言語モデル

Pretrained Language Models for Dialogue Generation with Multiple Input Sources ( http://arxiv.org/abs/2010.07576v1 )

ライセンス: Link先を確認
Yu Cao, Wei Bi, Meng Fang, Dacheng Tao(参考訳) 大規模事前学習型言語モデルは、自然言語理解タスクにおいて優れた性能を発揮している。 しかし、対話生成タスク、特に複数のソースを条件とした応答処理に適用する方法については、まだ検討中である。 以前の作業では、すべての入力ソースを結合したり、異なる入力ソースからの情報を平均化する。 本研究では,事前学習した言語モデルGPT2から適応した複数の入力源を持つ対話モデルについて検討する。 異なるソースに対応する複数の注意情報を融合する様々な手法を探索する。 実験の結果,単純な核融合ベースラインよりも適切な核融合手法が対話履歴と関連性が高いことがわかった。

Large-scale pretrained language models have achieved outstanding performance on natural language understanding tasks. However, it is still under investigating how to apply them to dialogue generation tasks, especially those with responses conditioned on multiple sources. Previous work simply concatenates all input sources or averages information from different input sources. In this work, we study dialogue models with multiple input sources adapted from the pretrained language model GPT2. We explore various methods to fuse multiple separate attention information corresponding to different sources. Our experimental results show that proper fusion methods deliver higher relevance with dialogue history than simple fusion baselines.
翻訳日:2022-10-07 03:52:10 公開日:2020-10-15
# ハイブリッド損失を有するNMTのための固有目標微調整

Pronoun-Targeted Fine-tuning for NMT with Hybrid Losses ( http://arxiv.org/abs/2010.07638v1 )

ライセンス: Link先を確認
Prathyusha Jwalapuram, Shafiq Joty, Youlin Shen(参考訳) 一般的なニューラルマシン翻訳モデルのトレーニングでは、バックトランスレーションのような戦略を使用してbleuスコアを改善し、大量のデータとトレーニングを必要とする。 学習機械翻訳モデルの微調整に使用する条件生成-識別ハイブリッド損失のクラスを導入する。 対象とする微調整目的とモデルが適切に学習できなかったトレーニングデータの直感的な再利用を組み合わせることで,追加データを用いることなく文レベルと文脈モデルのモデル性能を向上させる。 微調整による代名詞翻訳の改善を目標とし,代名詞ベンチマークテストセットを用いてモデルの評価を行った。 文レベルモデルではWMT14とIWSLT13の両テストセットで0.5BLEUの改善が得られたが, 文脈モデルではWMT14では31.81から32BLEUに, IWSLT13では32.10から33.13に改善され, 発音翻訳が改善した。 さらに,2つの言語ペアfr-enとcs-enの改良を再現することで,その一般化可能性を示す。 コードは <https://github.com/ntunlp/pronoun-finetuning> で公開されている。

Popular Neural Machine Translation model training uses strategies like backtranslation to improve BLEU scores, requiring large amounts of additional data and training. We introduce a class of conditional generative-discriminative hybrid losses that we use to fine-tune a trained machine translation model. Through a combination of targeted fine-tuning objectives and intuitive re-use of the training data the model has failed to adequately learn from, we improve the model performance of both a sentence-level and a contextual model without using any additional data. We target the improvement of pronoun translations through our fine-tuning and evaluate our models on a pronoun benchmark testset. Our sentence-level model shows a 0.5 BLEU improvement on both the WMT14 and the IWSLT13 De-En testsets, while our contextual model achieves the best results, improving from 31.81 to 32 BLEU on WMT14 De-En testset, and from 32.10 to 33.13 on the IWSLT13 De-En testset, with corresponding improvements in pronoun translation. We further show the generalizability of our method by reproducing the improvements on two additional language pairs, Fr-En and Cs-En. Code available at <https://github.com/ntunlp/pronoun-finetuning>.
翻訳日:2022-10-07 03:51:41 公開日:2020-10-15
# ニューラル差分訓練による多変量フレーズ生成

Diverse Keyphrase Generation with Neural Unlikelihood Training ( http://arxiv.org/abs/2010.07665v1 )

ライセンス: Link先を確認
Hareesh Bahuleyan and Layla El Asri(参考訳) 本稿では,s2s(sequence-to-sequence)キーフレーズ生成モデルについて,多様性の観点から検討する。 ニューラル自然言語生成の最近の進歩は、F1スコアのような品質指標の改善を通じて、キーフレーズ生成のタスクにおいて顕著な進歩をもたらした。 しかし,キーフレーズ生成における多様性の重要性は無視されている。 まず,最大誤差推定 (MLE) を用いて学習したベースラインモデルにより生成された出力に含まれる情報冗長度を解析する。 MLE訓練ではキーフレーズの反復が大きな問題であることがわかった。 この問題を軽減するため、我々はs2sモデルのトレーニングにneural unlikelihood(ul)の目的を採用する。 当社のulトレーニングバージョンは,(1)繰り返しトークンの生成を阻害するターゲットトークンレベル,(2)ソーステキストからの繰り返しトークンのコピーを回避するコピートークンレベルで動作します。 さらに,デコードプロセス中のモデル計画を改善するために,今後のトークンに対するmleとulの損失を計算するkステップ先行トークン予測目標も組み込んだ。 3つの異なる領域のデータセットに関する広範囲な実験を通じて、提案手法が競合する出力品質を維持しつつ、かなり大きな多様性の向上を達成できることを実証する。

In this paper, we study sequence-to-sequence (S2S) keyphrase generation models from the perspective of diversity. Recent advances in neural natural language generation have made possible remarkable progress on the task of keyphrase generation, demonstrated through improvements on quality metrics such as F1-score. However, the importance of diversity in keyphrase generation has been largely ignored. We first analyze the extent of information redundancy present in the outputs generated by a baseline model trained using maximum likelihood estimation (MLE). Our findings show that repetition of keyphrases is a major issue with MLE training. To alleviate this issue, we adopt neural unlikelihood (UL) objective for training the S2S model. Our version of UL training operates at (1) the target token level to discourage the generation of repeating tokens; (2) the copy token level to avoid copying repetitive tokens from the source text. Further, to encourage better model planning during the decoding process, we incorporate K-step ahead token prediction objective that computes both MLE and UL losses on future tokens as well. Through extensive experiments on datasets from three different domains we demonstrate that the proposed approach attains considerably large diversity gains, while maintaining competitive output quality.
翻訳日:2022-10-07 03:51:17 公開日:2020-10-15
# 中国のBERTは単語構造をコード化しているか?

Does Chinese BERT Encode Word Structure? ( http://arxiv.org/abs/2010.07711v1 )

ライセンス: Link先を確認
Yile Wang, Leyang Cui, Yue Zhang(参考訳) 文脈化表現は幅広いNLPタスクに対して大幅に改善された結果を与える。 BERTのような代表モデルによってキャプチャされた特徴を分析するために、多くの作業が費やされている。 既存の研究によると、構文、意味、単語感覚の知識はBERTで符号化されている。 しかし、中国語などの文字ベースの言語における単語の特徴についてはほとんど研究されていない。 本研究では,(1)単語情報がBERTによって取得されること,(2)単語レベルの特徴が主に中間表現層にあること,(3)下流タスクがBERTの単語特徴を多用すること,POSタグ付けとチャンキングが単語特徴に最も依存していること,およびそのような特徴に最も依存していない自然言語推論を調査する。

Contextualized representations give significantly improved results for a wide range of NLP tasks. Much work has been dedicated to analyzing the features captured by representative models such as BERT. Existing work finds that syntactic, semantic and word sense knowledge are encoded in BERT. However, little work has investigated word features for character-based languages such as Chinese. We investigate Chinese BERT using both attention weight distribution statistics and probing tasks, finding that (1) word information is captured by BERT; (2) word-level features are mostly in the middle representation layers; (3) downstream tasks make different use of word features in BERT, with POS tagging and chunking relying the most on word features, and natural language inference relying the least on such features.
翻訳日:2022-10-07 03:50:58 公開日:2020-10-15
# ランダム入力雑音に対するニューラルネットワークのロバスト性検証

Certifying Neural Network Robustness to Random Input Noise from Samples ( http://arxiv.org/abs/2010.07532v1 )

ライセンス: Link先を確認
Brendon G. Anderson, Somayeh Sojoudi(参考訳) 入力の不確実性の存在下でのニューラルネットワークの堅牢性を証明する方法は、安全クリティカルな設定において不可欠である。 文献のほとんどの認証方法は、逆入力の不確実性のために設計されているが、研究者は近年、ランダム不確実性を考慮した方法の必要性を示している。 本稿では,入力雑音が任意の確率分布に従う場合に,誤分類の確率を上限とする新しいロバスト性証明法を提案する。 この境界は、確率制約付き最適化問題としてキャストされ、最適化制約を置き換えるために入力出力サンプルを用いて再構成される。 結果として得られる最適化は、解析解を持つ線形プログラムに還元される。 さらに,過大な確率で誤分類バウンドホールドさせるのに必要なサンプル数について十分な条件を定めている。 MNIST分類器のケーススタディでは、この手法が、現在の最先端法よりも50倍近い半径を持つ一様無限ノルム不確かさ領域を証明できることが示されている。

Methods to certify the robustness of neural networks in the presence of input uncertainty are vital in safety-critical settings. Most certification methods in the literature are designed for adversarial input uncertainty, but researchers have recently shown a need for methods that consider random uncertainty. In this paper, we propose a novel robustness certification method that upper bounds the probability of misclassification when the input noise follows an arbitrary probability distribution. This bound is cast as a chance-constrained optimization problem, which is then reformulated using input-output samples to replace the optimization constraints. The resulting optimization reduces to a linear program with an analytical solution. Furthermore, we develop a sufficient condition on the number of samples needed to make the misclassification bound hold with overwhelming probability. Our case studies on MNIST classifiers show that this method is able to certify a uniform infinity-norm uncertainty region with a radius of nearly 50 times larger than what the current state-of-the-art method can certify.
翻訳日:2022-10-07 03:44:29 公開日:2020-10-15
# マルチスケールクラスタリングのための相転移カスケード

Cascade of Phase Transitions for Multi-Scale Clustering ( http://arxiv.org/abs/2010.07955v1 )

ライセンス: Link先を確認
T. Bonnaire, A. Decelle, N. Aghanim(参考訳) 本稿では,マルチスケール構造を持つクラスタデータセットに対する期待最大化アルゴリズムのシミュレーションアニーリング中に発生する相転移のカスケードを利用した新しい枠組みを提案する。 重み付き局所共分散を用いることで,各スケールのクラスタ数とそのサイズに関する情報を,前もって知ることなく,後から抽出することができる。 また,最初の遷移が起こる閾値を導出するための反復スキームの線形安定性についても検討し,次の遷移を近似する方法を示す。 最後に、シミュレーションアニーリングと最近の正規化ガウス混合モデルを組み合わせることで、多くのスケールを示すことができる空間構造データセットから主グラフを学習する。

We present a novel framework exploiting the cascade of phase transitions occurring during a simulated annealing of the Expectation-Maximisation algorithm to cluster datasets with multi-scale structures. Using the weighted local covariance, we can extract, a posteriori and without any prior knowledge, information on the number of clusters at different scales together with their size. We also study the linear stability of the iterative scheme to derive the threshold at which the first transition occurs and show how to approximate the next ones. Finally, we combine simulated annealing together with recent developments of regularised Gaussian mixture models to learn a principal graph from spatially structured datasets that can also exhibit many scales.
翻訳日:2022-10-07 03:44:15 公開日:2020-10-15
# シェープ値を用いた医用画像データ評価:大規模胸部X線データセットへの応用

Data Valuation for Medical Imaging Using Shapley Value: Application on A Large-scale Chest X-ray Dataset ( http://arxiv.org/abs/2010.08006v1 )

ライセンス: Link先を確認
Siyi Tang, Amirata Ghorbani, Rikiya Yamashita, Sameer Rehman, Jared A. Dunnmon, James Zou, Daniel L. Rubin(参考訳) 機械学習モデルの信頼性は、低品質データでトレーニングすると損なわれる可能性がある。 多くの大規模医療画像データセットは、医療報告などの情報源から抽出された低品質なラベルを含んでいる。 さらに、データセット内の画像は、機器や測定エラーに起因するアーティファクトやバイアスによる異質な品質を持つ可能性がある。 したがって、低品質データを自動的に識別するアルゴリズムが要求される。 本研究では,大きな胸部x線データ集合における肺炎検出アルゴリズムの性能に対するトレーニングデータの価値を定量化するために,データ評価指標であるdata shapleyを用いた。 肺炎検出のための低品質データと有用データとの識別におけるデータシェープリーの有用性について検討した。 その結果,shapley値の高いトレーニングデータを削除すると肺炎検出性能が低下し,shapley値の低いデータを削除するとモデル性能が向上した。 さらに,Shapley値の低値データと,Shapley値の高値データにおける真性肺炎の誤記例も多かった。 以上の結果より,Shapley値が低値であるのに対し,Shapley値が高値であることは肺炎検出に有用であることを示している。 本手法は,大規模医用画像データセットを識別するためのデータ共有フレームワークとして機能する。

The reliability of machine learning models can be compromised when trained on low quality data. Many large-scale medical imaging datasets contain low quality labels extracted from sources such as medical reports. Moreover, images within a dataset may have heterogeneous quality due to artifacts and biases arising from equipment or measurement errors. Therefore, algorithms that can automatically identify low quality data are highly desired. In this study, we used data Shapley, a data valuation metric, to quantify the value of training data to the performance of a pneumonia detection algorithm in a large chest X-ray dataset. We characterized the effectiveness of data Shapley in identifying low quality versus valuable data for pneumonia detection. We found that removing training data with high Shapley values decreased the pneumonia detection performance, whereas removing data with low Shapley values improved the model performance. Furthermore, there were more mislabeled examples in low Shapley value data and more true pneumonia cases in high Shapley value data. Our results suggest that low Shapley value indicates mislabeled or poor quality images, whereas high Shapley value indicates data that are valuable for pneumonia detection. Our method can serve as a framework for using data Shapley to denoise large-scale medical imaging datasets.
翻訳日:2022-10-07 03:42:56 公開日:2020-10-15
# テキストのFactual Structureを用いたニューラルディープフェイク検出

Neural Deepfake Detection with Factual Structure of Text ( http://arxiv.org/abs/2010.07475v1 )

ライセンス: Link先を確認
Wanjun Zhong, Duyu Tang, Zenan Xu, Ruize Wang, Nan Duan, Ming Zhou, Jiahai Wang, Jian Yin(参考訳) 近年,自然言語生成モデルの進歩に伴い,機械生成テキストの自動識別作業であるディープフェイク検出がますます重要になっている。 ディープフェイク検出に対する既存のアプローチは、通常粗い粒度の表現を持つ文書を表す。 しかし,本稿の統計解析により,機械生成テキストと人文テキストの区別要因である文書の事実構造を捉えるのに苦慮している。 そこで本研究では,テキストのディープフェイク検出のための文書の事実構造を利用したグラフベースモデルを提案する。 我々のアプローチは、与えられた文書の事実構造をエンティティグラフとして表現し、さらにグラフニューラルネットワークを用いて文表現の学習に活用する。 文表現は、隣接する文間の一貫した関係を逐次モデル化した予測を行う文書表現に構成される。 2つの公開ディープフェイクデータセットの実験結果から,RoBERTaで構築した強力なベースモデルに対して,アプローチが大幅に改善されることが示された。 さらに, モデル解析により, 機械生成テキストと人文テキストとの事実構造の違いを識別できることを示した。

Deepfake detection, the task of automatically discriminating machine-generated text, is increasingly critical with recent advances in natural language generative models. Existing approaches to deepfake detection typically represent documents with coarse-grained representations. However, they struggle to capture factual structures of documents, which is a discriminative factor between machine-generated and human-written text according to our statistical analysis. To address this, we propose a graph-based model that utilizes the factual structure of a document for deepfake detection of text. Our approach represents the factual structure of a given document as an entity graph, which is further utilized to learn sentence representations with a graph neural network. Sentence representations are then composed to a document representation for making predictions, where consistent relations between neighboring sentences are sequentially modeled. Results of experiments on two public deepfake datasets show that our approach significantly improves strong base models built with RoBERTa. Model analysis further indicates that our model can distinguish the difference in the factual structure between machine-generated text and human-written text.
翻訳日:2022-10-07 03:42:19 公開日:2020-10-15
# 言語間抽象要約のためのマルチタスク学習

Multi-Task Learning for Cross-Lingual Abstractive Summarization ( http://arxiv.org/abs/2010.07503v1 )

ライセンス: Link先を確認
Sho Takase and Naoaki Okazaki(参考訳) 本稿では,言語間抽象要約のためのマルチタスク学習フレームワークを提案する。 近年の研究では、ニューラルエンコーダデコーダを訓練するために、擬似言語間抽象要約データを構築している。 一方,翻訳ペアや単言語抽象要約データといった既存の実データもトレーニングに導入する。 提案手法であるtransumは,対象タスクを示すために,入力文の先頭に特別なトークンを付加する。 特別なトークンにより、本物のデータをトレーニングデータに簡単に組み込むことができます。 実験結果から,Transumは擬似言語間要約データのみを用いて学習したモデルよりも優れた性能を示すことがわかった。 また、中国語とアラビア語の抽象的な要約におけるROUGEスコアのトップを達成する。 さらに、transumは機械翻訳にもポジティブな影響を与える。 実験結果から,transumは中国語,アラビア語,英語の翻訳データセットにおいて,強いベースラインであるトランスフォーマーの性能を改善していることが示唆された。

We present a multi-task learning framework for cross-lingual abstractive summarization to augment training data. Recent studies constructed pseudo cross-lingual abstractive summarization data to train their neural encoder-decoders. Meanwhile, we introduce existing genuine data such as translation pairs and monolingual abstractive summarization data into training. Our proposed method, Transum, attaches a special token to the beginning of the input sentence to indicate the target task. The special token enables us to incorporate the genuine data into the training data easily. The experimental results show that Transum achieves better performance than the model trained with only pseudo cross-lingual summarization data. In addition, we achieve the top ROUGE score on Chinese-English and Arabic-English abstractive summarization. Moreover, Transum also has a positive effect on machine translation. Experimental results indicate that Transum improves the performance from the strong baseline, Transformer, in Chinese-English, Arabic-English, and English-Japanese translation datasets.
翻訳日:2022-10-07 03:42:02 公開日:2020-10-15
# RNNは最適なメモリで有界階層言語を生成することができる

RNNs can generate bounded hierarchical languages with optimal memory ( http://arxiv.org/abs/2010.07515v1 )

ライセンス: Link先を確認
John Hewitt, Michael Hahn, Surya Ganguli, Percy Liang, Christopher D. Manning(参考訳) リカレントニューラルネットワークは、構文的忠実度の高い自然言語を経験的に生成する。 しかし、その成功は理論的にはよく理解されていない。 我々はこの成功に関する理論的知見を提供し、RNNが自然言語構文の足場を反映した有界階層言語を効率的に生成できることを有限精度で証明した。 Dyck-($k$,$m$)は、($k$型の)よくネストされた括弧と$m$バウンドなネスト深さの言語で、バウンドメモリのニーズと自然言語構文の長距離依存性を反映している。 最もよく知られている結果は、これらの言語を生成するために$O(k^{\frac{m}{2}})$ memory (hidden unit)を使用する。 O(m \log k)$ の隠れ単位を持つ RNN は、明示的な構成によってメモリの指数的な減少が十分であることを示す。 最後に、非有界な計算であっても、$o(m \log k)$隠れ単位で十分であるアルゴリズムは存在しないことを示す。

Recurrent neural networks empirically generate natural language with high syntactic fidelity. However, their success is not well-understood theoretically. We provide theoretical insight into this success, proving in a finite-precision setting that RNNs can efficiently generate bounded hierarchical languages that reflect the scaffolding of natural language syntax. We introduce Dyck-($k$,$m$), the language of well-nested brackets (of $k$ types) and $m$-bounded nesting depth, reflecting the bounded memory needs and long-distance dependencies of natural language syntax. The best known results use $O(k^{\frac{m}{2}})$ memory (hidden units) to generate these languages. We prove that an RNN with $O(m \log k)$ hidden units suffices, an exponential reduction in memory, by an explicit construction. Finally, we show that no algorithm, even with unbounded computation, can suffice with $o(m \log k)$ hidden units.
翻訳日:2022-10-07 03:41:48 公開日:2020-10-15
# TextMage:ディープラーニングをベースとした自動バングラキャプションジェネレータ

TextMage: The Automated Bangla Caption Generator Based On Deep Learning ( http://arxiv.org/abs/2010.08066v1 )

ライセンス: Link先を確認
Abrar Hasin Kamal, Md. Asifuzzaman Jishan, and Nafees Mansoor(参考訳) ニューラルネットワークとディープラーニングは、改善された結果により、過去10年間に研究が急増している。 与えられた画像からテキストを生成することは、画像を理解し、自然言語を用いて表現するために、コンピュータビジョンと自然言語処理の両方のセクタの組み合わせを必要とする重要なタスクである。 しかしながら、既存の作業はすべて、特定の言語ドメインと同じデータセットで行われています。 これにより、特定の地域住民の地理的文脈に属する画像に悪影響を与えるように開発される。 textmageはバングラデシュの地理的文脈に属する視覚的なシーンを理解し、その知識を使ってベンガル語で何が理解できるかを表現するシステムである。 そこで我々は,以前開発したBanglaLekhaImageCaptionsというデータセットのモデルをトレーニングした。 このデータセットには、9,154のイメージと、各イメージに対する2つのアノテーションが含まれている。 性能にアクセスするため,提案したモデルの実装と評価を行った。

Neural Networks and Deep Learning have seen an upsurge of research in the past decade due to the improved results. Generates text from the given image is a crucial task that requires the combination of both sectors which are computer vision and natural language processing in order to understand an image and represent it using a natural language. However existing works have all been done on a particular lingual domain and on the same set of data. This leads to the systems being developed to perform poorly on images that belong to specific locales' geographical context. TextMage is a system that is capable of understanding visual scenes that belong to the Bangladeshi geographical context and use its knowledge to represent what it understands in Bengali. Hence, we have trained a model on our previously developed and published dataset named BanglaLekhaImageCaptions. This dataset contains 9,154 images along with two annotations for each image. In order to access performance, the proposed model has been implemented and evaluated.
翻訳日:2022-10-07 03:35:49 公開日:2020-10-15
# コンテクストレンズを用いた固定長タンパク質埋め込み

Fixed-Length Protein Embeddings using Contextual Lenses ( http://arxiv.org/abs/2010.15065v1 )

ライセンス: Link先を確認
Amir Shanehsazzadeh, David Belanger, David Dohan(参考訳) Basic Local Alignment Search Tool (BLAST) は現在、生物配列のデータベースを検索する最も一般的な方法である。 BLASTは、重み付けされた編集距離によって定義される類似性によってシーケンスを比較する。 編集距離を扱うのとは対照的に、ベクトル類似性アプローチは現代のハードウェアやハッシュ技術を使って大幅に加速することができる。 このようなアプローチでは、生物配列に対する固定長埋め込みが必要となる。 近年、教師付きまたは半教師付きモデルの隠れた層が潜在的に有用なベクトル埋め込みを生み出すという仮説の下で、ディープラーニングモデルを用いて固定長タンパク質の埋め込みを学習することへの関心が高まっている。 我々は,TrEMBLデータセット上で事前学習された変換子(BERT)タンパク質言語モデルについて検討し,その上にコンテキストレンズで固定長埋め込みを学習する。 埋め込みは、タンパク質がPfamデータベースの配列に属する家族を予測するために訓練される。 最寄りの家族分類では,事前学習がパフォーマンスを著しく向上させ,学習した埋め込みがBLASTと競合することを示した。 さらに,静的なプーリングによって得られる生のトランスフォーマー埋め込みは,最寄りの家族分類ではうまく動作せず,文脈レンズによる教師付き埋め込みは,微調整に代わる計算効率の高い代替手段である可能性が示唆された。

The Basic Local Alignment Search Tool (BLAST) is currently the most popular method for searching databases of biological sequences. BLAST compares sequences via similarity defined by a weighted edit distance, which results in it being computationally expensive. As opposed to working with edit distance, a vector similarity approach can be accelerated substantially using modern hardware or hashing techniques. Such an approach would require fixed-length embeddings for biological sequences. There has been recent interest in learning fixed-length protein embeddings using deep learning models under the hypothesis that the hidden layers of supervised or semi-supervised models could produce potentially useful vector embeddings. We consider transformer (BERT) protein language models that are pretrained on the TrEMBL data set and learn fixed-length embeddings on top of them with contextual lenses. The embeddings are trained to predict the family a protein belongs to for sequences in the Pfam database. We show that for nearest-neighbor family classification, pretraining offers a noticeable boost in performance and that the corresponding learned embeddings are competitive with BLAST. Furthermore, we show that the raw transformer embeddings, obtained via static pooling, do not perform well on nearest-neighbor family classification, which suggests that learning embeddings in a supervised manner via contextual lenses may be a compute-efficient alternative to fine-tuning.
翻訳日:2022-10-07 03:35:19 公開日:2020-10-15
# 決定可能な仮説を用いた言語学習

Learning Languages with Decidable Hypotheses ( http://arxiv.org/abs/2011.09866v1 )

ライセンス: Link先を確認
Julian Berger, Maximilian B\"other, Vanja Dosko\v{c}, Jonathan Gadea Harder, Nicolas Klodt, Timo K\"otzing, Winfried L\"otzsch, Jannik Peters, Leon Schiller, Lars Seifert, Armin Wells, Simon Wietheger(参考訳) 極限における言語学習において、最も一般的な仮説は、ある言語の列挙子を与えることである。 いわゆる$W$-indexは、任意の計算可能可算言語を命名することができるが、会員問題でさえ決定不可能である。 本稿では,任意の決定可能な言語,すなわち特性関数のプログラム($c$-indices と呼ばれる)を命名するシステムについて述べる。 これらの指標は、与えられた仮説が法的に$C$-インデックスであっても決定できないという欠点を持っている。 本稿では,$C$-indicesを用いた学習の初回分析において,$C$-indicesを用いた各種制約の学習能力と,$W$-indicesとの比較を行った。 私たちは、$c$-インデックスが必要かどうかに応じて学習力の階層を確立する (a)すべての出力について b) 学習すべきクラスに関連する出力のみ (c)最終、正しい仮説として限度内でのみ。 さらに、これらの設定はすべて$W$-indicesで学ぶよりも弱い(計算可能な言語のクラスに限定されても)。 データ提示のモードに関しても,これらの質問を全て分析する。 最後に,意味的収束と構文的収束の関係を問うとともに,これら2種類の収束の対関係の写像と,各種データ提示の形式を結合して導出する。

In language learning in the limit, the most common type of hypothesis is to give an enumerator for a language. This so-called $W$-index allows for naming arbitrary computably enumerable languages, with the drawback that even the membership problem is undecidable. In this paper we use a different system which allows for naming arbitrary decidable languages, namely programs for characteristic functions (called $C$-indices). These indices have the drawback that it is now not decidable whether a given hypothesis is even a legal $C$-index. In this first analysis of learning with $C$-indices, we give a structured account of the learning power of various restrictions employing $C$-indices, also when compared with $W$-indices. We establish a hierarchy of learning power depending on whether $C$-indices are required (a) on all outputs; (b) only on outputs relevant for the class to be learned and (c) only in the limit as final, correct hypotheses. Furthermore, all these settings are weaker than learning with $W$-indices (even when restricted to classes of computable languages). We analyze all these questions also in relation to the mode of data presentation. Finally, we also ask about the relation of semantic versus syntactic convergence and derive the map of pairwise relations for these two kinds of convergence coupled with various forms of data presentation.
翻訳日:2022-10-07 03:34:44 公開日:2020-10-15
# 深層学習を用いた宇宙用マルチエージェント運動計画

Multi-Agent Motion Planning using Deep Learning for Space Applications ( http://arxiv.org/abs/2010.07935v1 )

ライセンス: Link先を確認
Kyongsik Yun, Changrak Choi, Ryan Alimo, Anthony Davis, Linda Forster, Amir Rahmani, Muhammad Adil, Ramtin Madani(参考訳) 最先端のモーションプランナーは、多数のシステムにスケールできない。 複数のエージェントの動作計画はNP(非決定論的多項式時間)の難しい問題であり、エージェントの追加ごとに計算時間が指数関数的に増加する。 この計算要求は、将来のNASAの宇宙車両の群れを含むミッションへのモーションプランナーの応用にとって大きな障害となる。 深層ニューラルネットワークを用いて計算的に要求される数理運動計画問題を深層学習に基づく数値問題に変換する。 複数のエージェントを用いた2次元および3次元システムにおいて,深層学習に基づく数値モデルを用いて,最適運動軌跡を正確に再現できることを示した。 深層学習に基づく数値モデルでは、計算効率が向上し、数理モデルよりも1000倍高速に計画が生成される。

State-of-the-art motion planners cannot scale to a large number of systems. Motion planning for multiple agents is an NP (non-deterministic polynomial-time) hard problem, so the computation time increases exponentially with each addition of agents. This computational demand is a major stumbling block to the motion planner's application to future NASA missions involving the swarm of space vehicles. We applied a deep neural network to transform computationally demanding mathematical motion planning problems into deep learning-based numerical problems. We showed optimal motion trajectories can be accurately replicated using deep learning-based numerical models in several 2D and 3D systems with multiple agents. The deep learning-based numerical model demonstrates superior computational efficiency with plans generated 1000 times faster than the mathematical model counterpart.
翻訳日:2022-10-07 03:33:28 公開日:2020-10-15
# スカースデータを用いたモデルのより小さな表現の学習アルゴリズム

An Algorithm for Learning Smaller Representations of Models With Scarce Data ( http://arxiv.org/abs/2010.07990v1 )

ライセンス: Link先を確認
Adrian de Wynter(参考訳) 本稿では,データセットが小さすぎるか,解決されている問題を完全に表現していない状況において,二分分類問題を解くための欲望のあるアルゴリズムを提案する。 このアルゴリズムは、一般化が難しい小さなモデルを訓練する際に特に興味深い。 それは、ゆるい精度の制約のある訓練されたモデル、反復的なハイパーパラメータの刈り取り手順、新しいデータを生成するのに使用される関数に依存する。 理想的な条件下での正確性と実行時の複雑さの分析と深層ニューラルネットワークの拡張を提供する。 In the former case we obtain an asymptotic bound of $O\left(|\Theta^2|\left(\log{|\Theta|} + |\theta^2| + T_f\left(| D|\right)\right) + \bar{S}|\Theta||{E}|\right)$, where $|{\Theta}|$ is the cardinality of the set of hyperparameters $\theta$ to be searched; $|{E}|$ and $|{D}|$ are the sizes of the evaluation and training datasets, respectively; $\bar{S}$ and $\bar{f}$ are the inference times for the trained model and the candidate model; and $T_f({|{D}|})$ is a polynomial on $|{D}|$ and $\bar{f}$. これらの条件下では、このアルゴリズムは、任意の$\theta \in \theta$で単に列挙し訓練するよりも、 1 \leq r \leq 2(1 - {2^{-|{\theta}|}}) の解を返す。 生成関数の解析の一部として、ある仮定の下で、$d$ の開被覆が、基礎となる確率分布の支持が成り立つ多様体と同じホモロジーを持つならば、$d$ は学習可能であり、逆もまた証明する。

We present a greedy algorithm for solving binary classification problems in situations where the dataset is either too small or not fully representative of the problem being solved, and obtaining more data is not possible. This algorithm is of particular interest when training small models that have trouble generalizing. It relies on a trained model with loose accuracy constraints, an iterative hyperparameter pruning procedure, and a function used to generate new data. Analysis on correctness and runtime complexity under ideal conditions and an extension to deep neural networks is provided. In the former case we obtain an asymptotic bound of $O\left(|\Theta^2|\left(\log{|\Theta|} + |\theta^2| + T_f\left(| D|\right)\right) + \bar{S}|\Theta||{E}|\right)$, where $|{\Theta}|$ is the cardinality of the set of hyperparameters $\theta$ to be searched; $|{E}|$ and $|{D}|$ are the sizes of the evaluation and training datasets, respectively; $\bar{S}$ and $\bar{f}$ are the inference times for the trained model and the candidate model; and $T_f({|{D}|})$ is a polynomial on $|{D}|$ and $\bar{f}$. Under these conditions, this algorithm returns a solution that is $1 \leq r \leq 2(1 - {2^{-|{\Theta}|}})$ times better than simply enumerating and training with any $\theta \in \Theta$. As part of our analysis of the generating function we also prove that, under certain assumptions, if an open cover of $D$ has the same homology as the manifold where the support of the underlying probability distribution lies, then $D$ is learnable, and viceversa.
翻訳日:2022-10-07 03:33:04 公開日:2020-10-15
# スパース引数を持つニューラルファンクションモジュール:レイヤ間の情報統合のための動的アプローチ

Neural Function Modules with Sparse Arguments: A Dynamic Approach to Integrating Information across Layers ( http://arxiv.org/abs/2010.08012v1 )

ライセンス: Link先を確認
Alex Lamb, Anirudh Goyal, Agnieszka S{\l}owik, Michael Mozer, Philippe Beaudoin, Yoshua Bengio(参考訳) フィードフォワードニューラルネットワークは、各レイヤが前のレイヤの情報に対して何らかの処理を行う一連のレイヤで構成される。 このアプローチの欠点は、各レイヤ(あるいは複数のモジュールが並列に動作可能であるため、モジュール)が、そのモジュールに最も関係のある状態の特定の部分ではなく、隠れた状態全体を処理しなければならないことだ。 少数の入力変数のみで動作するメソッドは、ほとんどのプログラミング言語で不可欠な部分であり、モジュール化とコードの再利用性が向上している。 提案手法であるNeural Function Modules (NFM) は,ディープラーニングに同じ構造を導入することを目的としている。 トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。 我々の研究の重要な貢献は、注意、疎通、トップダウン、ボトムアップのフィードバックを柔軟なアルゴリズムで組み合わせることであり、これは、私たちが示すように、強化学習の文脈における標準分類、領域外一般化、生成モデリング、学習表現の結果を改善するものである。

Feed-forward neural networks consist of a sequence of layers, in which each layer performs some processing on the information from the previous layer. A downside to this approach is that each layer (or module, as multiple modules can operate in parallel) is tasked with processing the entire hidden state, rather than a particular part of the state which is most relevant for that module. Methods which only operate on a small number of input variables are an essential part of most programming languages, and they allow for improved modularity and code re-usability. Our proposed method, Neural Function Modules (NFM), aims to introduce the same structural capability into deep learning. Most of the work in the context of feed-forward networks combining top-down and bottom-up feedback is limited to classification problems. The key contribution of our work is to combine attention, sparsity, top-down and bottom-up feedback, in a flexible algorithm which, as we show, improves the results in standard classification, out-of-domain generalization, generative modeling, and learning representations in the context of reinforcement learning.
翻訳日:2022-10-07 03:26:21 公開日:2020-10-15
# ばらつき最小化としての非飽和GANトレーニング

Non-saturating GAN training as divergence minimization ( http://arxiv.org/abs/2010.08029v1 )

ライセンス: Link先を確認
Matt Shannon, Ben Poole, Soroosh Mariooryad, Tom Bagby, Eric Battenberg, David Kao, Daisy Stanton, RJ Skerry-Ryan(参考訳) non-saturating generative adversarial network (gan) トレーニングは広く使われており、画期的な結果を得続けている。 しかし、このアプローチは f-GANs や Wasserstein GANs など、近似的発散最小化の観点から動機付けられた代替案とは対照的に、強い理論的な正当化を欠いている。 本稿では,非飽和なGANトレーニングが,f-発散をほぼ最小化することを示す。 我々は、f-分枝を比較・分類するための一般的な理論ツールを開発し、これらを用いて、新しいf-分枝が逆KLと質的に類似していることを示す。 これらの結果から, 試料の品質は高いが, 多様性は低いことが示唆された。

Non-saturating generative adversarial network (GAN) training is widely used and has continued to obtain groundbreaking results. However so far this approach has lacked strong theoretical justification, in contrast to alternatives such as f-GANs and Wasserstein GANs which are motivated in terms of approximate divergence minimization. In this paper we show that non-saturating GAN training does in fact approximately minimize a particular f-divergence. We develop general theoretical tools to compare and classify f-divergences and use these to show that the new f-divergence is qualitatively similar to reverse KL. These results help to explain the high sample quality but poor diversity often observed empirically when using this scheme.
翻訳日:2022-10-07 03:26:01 公開日:2020-10-15
# ベクトル損失をもつ確率帯域:相対損失の$\ell^\infty$-Norm最小化

Stochastic Bandits with Vector Losses: Minimizing $\ell^\infty$-Norm of Relative Losses ( http://arxiv.org/abs/2010.08061v1 )

ライセンス: Link先を確認
Xuedong Shang, Han Shao, Jian Qian(参考訳) マルチアームバンディットは、クリック率の最大化を目標とするレコメンダシステムのようなシナリオで広く採用されている。 しかし、ユーザー持久率、ユーザー成長率、ユーザー体験評価など、より多くの要因が考慮されるべきである。 本稿では,この状況を,複数の損失を伴うk$-armed banditの問題としてモデル化する。 我々は、$i$-th のエントリが$i$-th の損失に対して、arm と最適なarm を比較したarm の相対的損失ベクトルを定義する。 私たちは2つの目標を学びました (a)所定の信頼度(固定信頼度ベストアーム識別)による相対損失の最小$\ell^\infty$-normの腕を求めること。 (b)累積相対損失の$\ell^\infty$ノルムの最小化(後悔の最小化)。 ゴールのために (a)問題依存のサンプル複雑性を低域で導出し,マッチングアルゴリズムの達成方法について議論する。 ゴールのために (b)残念なことに$\omega(t^{2/3})$という下限を提供し、マッチングアルゴリズムを提供する。

Multi-armed bandits are widely applied in scenarios like recommender systems, for which the goal is to maximize the click rate. However, more factors should be considered, e.g., user stickiness, user growth rate, user experience assessment, etc. In this paper, we model this situation as a problem of $K$-armed bandit with multiple losses. We define relative loss vector of an arm where the $i$-th entry compares the arm and the optimal arm with respect to the $i$-th loss. We study two goals: (a) finding the arm with the minimum $\ell^\infty$-norm of relative losses with a given confidence level (which refers to fixed-confidence best-arm identification); (b) minimizing the $\ell^\infty$-norm of cumulative relative losses (which refers to regret minimization). For goal (a), we derive a problem-dependent sample complexity lower bound and discuss how to achieve matching algorithms. For goal (b), we provide a regret lower bound of $\Omega(T^{2/3})$ and provide a matching algorithm.
翻訳日:2022-10-07 03:25:31 公開日:2020-10-15
# ドメイン関係の考察:ドメイン一般化のための仮説不変性

Respecting Domain Relations: Hypothesis Invariance for Domain Generalization ( http://arxiv.org/abs/2010.07591v1 )

ライセンス: Link先を確認
Ziqi Wang, Marco Loog, Jan van Gemert(参考訳) ドメインの一般化では、トレーニング中に複数のラベル付き非独立および非識別的分散ソースドメインが利用可能であり、データも対象ドメインのラベルも利用可能ではない。 現在、いわゆるドメイン不変表現(dirs)の学習は、ドメイン一般化への一般的なアプローチである。 本研究では,既存の作品が採用するディルを確率論的に定義し,ディルを学習することで,不変性に関して過度に厳格な要件が課されることを示す。 特に、DIRは異なる領域の表現、すなわち入力分布を完璧に整列することを目的としている。 しかし、これは対象領域への適切な一般化には必要ないし、貴重な分類情報を処分することもある。 そこで我々は,表現の整列ではなく,単に後続を整列することによって不変な仮定を緩和するいわゆる仮説不変表現(hirs)を学習することを提案する。 本稿では,公共領域の一般化データセットに関する実験結果から,HIRの学習がDIRの学習よりも効果的であることを示す。 実際、私たちのアプローチはドメインに関する事前の知識を使ってアプローチと競合することもできます。

In domain generalization, multiple labeled non-independent and non-identically distributed source domains are available during training while neither the data nor the labels of target domains are. Currently, learning so-called domain invariant representations (DIRs) is the prevalent approach to domain generalization. In this work, we define DIRs employed by existing works in probabilistic terms and show that by learning DIRs, overly strict requirements are imposed concerning the invariance. Particularly, DIRs aim to perfectly align representations of different domains, i.e. their input distributions. This is, however, not necessary for good generalization to a target domain and may even dispose of valuable classification information. We propose to learn so-called hypothesis invariant representations (HIRs), which relax the invariance assumptions by merely aligning posteriors, instead of aligning representations. We report experimental results on public domain generalization datasets to show that learning HIRs is more effective than learning DIRs. In fact, our approach can even compete with approaches using prior knowledge about domains.
翻訳日:2022-10-07 03:24:41 公開日:2020-10-15
# Split BatchNormによるデータ拡張のメリット

Does Data Augmentation Benefit from Split BatchNorms ( http://arxiv.org/abs/2010.07810v1 )

ライセンス: Link先を確認
Amil Merchant, Barret Zoph, Ekin Dogus Cubuk(参考訳) データ拡張は、ディープニューラルネットワークのパフォーマンスを改善するための強力な技術として現れ、コンピュータビジョンにおける最先端の結果をもたらした。 しかし、最先端のデータ拡張はトレーニングイメージを強く歪め、トレーニング中と推論中に見られる例の相違を招いた。 本研究では,この差を補正するために最近提案されたトレーニングパラダイムについて検討する。 実験では、評価に使用されるBatchNormパラメータの定義方法に焦点を当てた。 列車走行試験の相違を解消するため,クリーントレーニング画像のみによって定義されるバッチ統計を用いて実験を行ったが,モデル性能の改善は得られなかった。 そこで本手法は,CIFAR-10, CIFAR-100, ImageNetなどの一般的な画像分類ベンチマークの性能を大幅に向上させる。 次に、異なるBatchNormパラメータの使用による正確性と堅牢性の間の根本的なトレードオフを検討し、モデルパフォーマンスにおけるデータ拡張のメリットについてより深い洞察を提供する。

Data augmentation has emerged as a powerful technique for improving the performance of deep neural networks and led to state-of-the-art results in computer vision. However, state-of-the-art data augmentation strongly distorts training images, leading to a disparity between examples seen during training and inference. In this work, we explore a recently proposed training paradigm in order to correct for this disparity: using an auxiliary BatchNorm for the potentially out-of-distribution, strongly augmented images. Our experiments then focus on how to define the BatchNorm parameters that are used at evaluation. To eliminate the train-test disparity, we experiment with using the batch statistics defined by clean training images only, yet surprisingly find that this does not yield improvements in model performance. Instead, we investigate using BatchNorm parameters defined by weak augmentations and find that this method significantly improves the performance of common image classification benchmarks such as CIFAR-10, CIFAR-100, and ImageNet. We then explore a fundamental trade-off between accuracy and robustness coming from using different BatchNorm parameters, providing greater insight into the benefits of data augmentation on model performance.
翻訳日:2022-10-07 03:24:25 公開日:2020-10-15
# 公正なオンライン決定木

Online Decision Trees with Fairness ( http://arxiv.org/abs/2010.08146v1 )

ライセンス: Link先を確認
Wenbin Zhang and Liang Zhao(参考訳) 人工知能(AI)に基づく意思決定システムはますます普及しているが、AI意思決定プロセスにおける潜在的な差別に対する重要な懸念が観測されている。 例えば、予測の分布は通常偏りがあり、敏感な属性(例えば、性別と民族)に依存する。 したがって、多くのアプローチが、モデル学習のための訓練データの同時利用を必要とするバッチベースで、識別を意識した副設計の意思決定システムを開発するために提案されている。 しかし、現実の世界では、データストリームは通常、モデルが各入力データを"到着時に"一度だけ、ストレージや再処理を必要とせずに処理する必要がある。 さらに、データストリームも時間とともに進化する可能性があるため、モデルが非定常データ分散と時間発展バイアスパターンに同時適応でき、正確性と公平性の間の効果的かつ堅牢なトレードオフが要求される。 本稿では,データストリーム内の公平性と分散ドリフトが可能なオンライン決定木の新たな枠組みを提案する。 具体的には,重要属性への依存を同時に排除しながら,データを可能な限りエンコードする2つの新しい公平性分割基準を提案し,必要に応じて微粒度制御を施した非定常分布にも適応する。 次に,オンラインの公正意思決定要求を満たす2つのオンライン成長アルゴリズムを提案する。 実験の結果,我々のアルゴリズムは,大規模および非定常なストリーミング環境において,公平性と予測性能のトレードオフを向上し,差別に対処できることがわかった。

While artificial intelligence (AI)-based decision-making systems are increasingly popular, significant concerns on the potential discrimination during the AI decision-making process have been observed. For example, the distribution of predictions is usually biased and dependents on the sensitive attributes (e.g., gender and ethnicity). Numerous approaches have therefore been proposed to develop decision-making systems that are discrimination-conscious by-design, which are typically batch-based and require the simultaneous availability of all the training data for model learning. However, in the real-world, the data streams usually come on the fly which requires the model to process each input data once "on arrival" and without the need for storage and reprocessing. In addition, the data streams might also evolve over time, which further requires the model to be able to simultaneously adapt to non-stationary data distributions and time-evolving bias patterns, with an effective and robust trade-off between accuracy and fairness. In this paper, we propose a novel framework of online decision tree with fairness in the data stream with possible distribution drifting. Specifically, first, we propose two novel fairness splitting criteria that encode the data as well as possible, while simultaneously removing dependence on the sensitive attributes, and further adapts to non-stationary distribution with fine-grained control when needed. Second, we propose two fairness decision tree online growth algorithms that fulfills different online fair decision-making requirements. Our experiments show that our algorithms are able to deal with discrimination in massive and non-stationary streaming environments, with a better trade-off between fairness and predictive performance.
翻訳日:2022-10-07 03:17:49 公開日:2020-10-15
# 文脈制約帯域に対する二重線トンプソンサンプリング

Double-Linear Thompson Sampling for Context-Attentive Bandits ( http://arxiv.org/abs/2010.09473v1 )

ライセンス: Link先を確認
Djallel Bouneffouf, Rapha\"el F\'eraud, Sohini Upadhyay, Yasaman Khazaeni and Irina Rish(参考訳) 本稿では,医療診断からダイアログシステムまで,様々な実践的応用を動機とした,コンテキスト認識帯域(Context-Attentive Bandit)と呼ばれるオンライン学習フレームワークの解析と拡張を行う。 本研究では, 線形トンプソンサンプリング法に基づいて, コンテキストアテンティブ・トンプソンサンプリング(CATS)と呼ばれる新しいアルゴリズムを導出し, コンテキストアテンティブ・バンディット設定に適用する。 種々の実生活データセットに対するいくつかのベースライン手法に対する提案手法の利点を示す理論的後悔分析と広範な経験的評価を提供する。

In this paper, we analyze and extend an online learning framework known as Context-Attentive Bandit, motivated by various practical applications, from medical diagnosis to dialog systems, where due to observation costs only a small subset of a potentially large number of context variables can be observed at each iteration;however, the agent has a freedom to choose which variables to observe. We derive a novel algorithm, called Context-Attentive Thompson Sampling (CATS), which builds upon the Linear Thompson Sampling approach, adapting it to Context-Attentive Bandit setting. We provide a theoretical regret analysis and an extensive empirical evaluation demonstrating advantages of the proposed approach over several baseline methods on a variety of real-life datasets
翻訳日:2022-10-07 03:17:22 公開日:2020-10-15
# マルチタスク学習に基づく空力データ予測

Aerodynamic Data Predictions Based on Multi-task Learning ( http://arxiv.org/abs/2010.09475v1 )

ライセンス: Link先を確認
Liwei Hu, Yu Xiang, Jun Zhan, Zifang Shi and Wenzheng Wang(参考訳) データセットの品質は、空力データモデルの精度に影響を与える重要な要因の1つである。 例えば、均一にサンプリングされたBurgersのデータセットでは、不十分な高速データは大量の低速データによって圧倒される。 高速データの予測は、高速データの数が限られているため、低速データの予測よりも難しい。 データセットの品質を改善するために、従来の手法では、通常、データ再サンプリング技術を使用して、モデリング前に元のデータセットの不十分な部分に対して十分なデータを生成する。 近年,自然言語処理において文の異なる部分を扱うために専門家の混合物が用いられており,空力データモデリングにおけるデータ再サンプリングの必要性をなくすためのソリューションを提供している。 そこで本研究では,タスク割り当てと空力特性学習を組み合わせることで,学習タスク全体の圧力を分散させるマルチタスク学習(mtl)を提案する。 タスク割り当ては、学習タスク全体を複数の独立したサブタスクに分割し、空力特性学習は、これらのサブタスクを同時に学習し、より良い精度を達成する。 データセットに対するMTLのデータ品質適応性を検証するために、低品質データセットを用いた2つの実験を行った。 その結果, MTL よりも FCN や GAN よりも質の悪いデータセットの方が精度が高いことがわかった。

The quality of datasets is one of the key factors that affect the accuracy of aerodynamic data models. For example, in the uniformly sampled Burgers' dataset, the insufficient high-speed data is overwhelmed by massive low-speed data. Predicting high-speed data is more difficult than predicting low-speed data, owing to that the number of high-speed data is limited, i.e. the quality of the Burgers' dataset is not satisfactory. To improve the quality of datasets, traditional methods usually employ the data resampling technology to produce enough data for the insufficient parts in the original datasets before modeling, which increases computational costs. Recently, the mixtures of experts have been used in natural language processing to deal with different parts of sentences, which provides a solution for eliminating the need for data resampling in aerodynamic data modeling. Motivated by this, we propose the multi-task learning (MTL), a datasets quality-adaptive learning scheme, which combines task allocation and aerodynamic characteristics learning together to disperse the pressure of the entire learning task. The task allocation divides a whole learning task into several independent subtasks, while the aerodynamic characteristics learning learns these subtasks simultaneously to achieve better precision. Two experiments with poor quality datasets are conducted to verify the data quality-adaptivity of the MTL to datasets. The results show than the MTL is more accurate than FCNs and GANs in poor quality datasets.
翻訳日:2022-10-07 03:17:09 公開日:2020-10-15
# 双曲型原型学習の理論

A Theory of Hyperbolic Prototype Learning ( http://arxiv.org/abs/2010.07744v1 )

ライセンス: Link先を確認
Martin Keller-Ressel(参考訳) 本稿では,ハイパーボリック空間において,クラスラベルを理想点(無限点)で表現する,教師付き学習の一種であるHyperbolic Prototype Learningを紹介する。 学習は双曲幾何学のブセマン関数に基づく新しい損失関数である「ペナルテッド・ブセマン損失」を最小化することで達成される。 この設定のいくつかの理論的特徴について論じる。 特に、双曲型プロトタイプ学習は1次元の場合のロジスティック回帰と等価となる。

We introduce Hyperbolic Prototype Learning, a type of supervised learning, where class labels are represented by ideal points (points at infinity) in hyperbolic space. Learning is achieved by minimizing the 'penalized Busemann loss', a new loss function based on the Busemann function of hyperbolic geometry. We discuss several theoretical features of this setup. In particular, Hyperbolic Prototype Learning becomes equivalent to logistic regression in the one-dimensional case.
翻訳日:2022-10-07 03:16:47 公開日:2020-10-15
# 磁気多様体ハミルトニアンモンテカルロ

Magnetic Manifold Hamiltonian Monte Carlo ( http://arxiv.org/abs/2010.07753v1 )

ライセンス: Link先を確認
James A. Brofos and Roy R. Lederman(参考訳) マルコフ連鎖モンテカルロ (MCMC) アルゴリズムはサンプリングのための様々な戦略を提供しており、ハミルトンモンテカルロ (HMC) ファミリーはMCMCアルゴリズムであり、しばしば改良された混合特性を示す。 最近導入された磁気HMCは、磁場力に影響された粒子の物理によって動機付けられたHMCの一般化であり、HMCの性能を向上させることが実証されている。 多くの応用において、制限された集合に制限された分布からサンプリングしたい場合、しばしば埋め込み多様体(例えば球面の表面)として表される。 本稿では, 多様体に拘束された粒子の物理に動機づけられ, 磁場下を移動する埋め込み多様体上のhmcアルゴリズムである磁気多様体 hmc を紹介する。 多様体上の磁気ハミルトニアンダイナミクスの理論的性質を議論し, hmc更新のための可逆およびシンプレクティック積分器を導入する。 磁気多様体 HMC は、多様体制約 HMC の正準変量に対して好適なサンプリング挙動を示す。

Markov chain Monte Carlo (MCMC) algorithms offer various strategies for sampling; the Hamiltonian Monte Carlo (HMC) family of samplers are MCMC algorithms which often exhibit improved mixing properties. The recently introduced magnetic HMC, a generalization of HMC motivated by the physics of particles influenced by magnetic field forces, has been demonstrated to improve the performance of HMC. In many applications, one wishes to sample from a distribution restricted to a constrained set, often manifested as an embedded manifold (for example, the surface of a sphere). We introduce magnetic manifold HMC, an HMC algorithm on embedded manifolds motivated by the physics of particles constrained to a manifold and moving under magnetic field forces. We discuss the theoretical properties of magnetic Hamiltonian dynamics on manifolds, and introduce a reversible and symplectic integrator for the HMC updates. We demonstrate that magnetic manifold HMC produces favorable sampling behaviors relative to the canonical variant of manifold-constrained HMC.
翻訳日:2022-10-07 03:16:39 公開日:2020-10-15
# 特徴変換による近接近傍分類器の収束について

On Convergence of Nearest Neighbor Classifiers over Feature Transformations ( http://arxiv.org/abs/2010.07765v1 )

ライセンス: Link先を確認
Luka Rimanic, Cedric Renggli, Bo Li, Ce Zhang(参考訳) k-Nearest Neighbors(kNN)分類器は、基本的な非パラメトリック機械学習アルゴリズムである。 しかし、次元の呪いに悩まされることはよく知られているため、実際には(事前訓練された)特徴変換の上にkNN分類器を適用することが多い。 理論的には、kn分類器の理解を目的とした理論的な結果が生の特徴空間に対して導かれるわけではない。 これにより、kNNの理論的理解と実践的応用の間には、新たなギャップが生まれる。 本稿では,このギャップを埋めるための第一歩を踏み出す。 変換された特徴に対するkNN分類器の収束率に関する新しい解析法を提案する。 この解析は変換空間と原特徴空間の両方を接続する性質の深い理解を必要とする。 より正確には、変換空間の2つの重要な特性に束縛された収束性を構築する: (1) 安全性 -- 変換空間からどこまで後方を回復できるか、(2) 滑らかさ -- この回復関数がどれほど複雑か。 この結果に基づいて、kNN分類器に適した(事前訓練された)機能変換が、他のものよりも適している理由を説明することができる。 我々は,視覚からテキスト領域にまたがる6つのベンチマークデータセットを用いた30の機能変換において,両方の特性がkn収束に与える影響を実証的に検証した。

The k-Nearest Neighbors (kNN) classifier is a fundamental non-parametric machine learning algorithm. However, it is well known that it suffers from the curse of dimensionality, which is why in practice one often applies a kNN classifier on top of a (pre-trained) feature transformation. From a theoretical perspective, most, if not all theoretical results aimed at understanding the kNN classifier are derived for the raw feature space. This leads to an emerging gap between our theoretical understanding of kNN and its practical applications. In this paper, we take a first step towards bridging this gap. We provide a novel analysis on the convergence rates of a kNN classifier over transformed features. This analysis requires in-depth understanding of the properties that connect both the transformed space and the raw feature space. More precisely, we build our convergence bound upon two key properties of the transformed space: (1) safety -- how well can one recover the raw posterior from the transformed space, and (2) smoothness -- how complex this recovery function is. Based on our result, we are able to explain why some (pre-trained) feature transformations are better suited for a kNN classifier than other. We empirically validate that both properties have an impact on the kNN convergence on 30 feature transformations with 6 benchmark datasets spanning from the vision to the text domain.
翻訳日:2022-10-07 03:16:21 公開日:2020-10-15
# 0-1損失と性能保証によるminimax分類

Minimax Classification with 0-1 Loss and Performance Guarantees ( http://arxiv.org/abs/2010.07964v1 )

ライセンス: Link先を確認
Santiago Mazuelas and Andrea Zanoni and Aritz Perez(参考訳) 教師付き分類技術は、トレーニングサンプルを使用して、予想される0-1損失の少ない分類規則を見つける。 従来の手法では,ルールの特定のファミリーに対するサロゲート損失を最小限に抑えて,効率的な学習とアウトオブサンプルの一般化を実現している。 本稿では,サロゲート損失とルールファミリの選択に依存しないミニマックスリスク分類器(MRC)を提案する。 mrcsは、線形制約によって定義され、真の基底分布を含む不確実性集合を最小化することにより、効率的な学習とサンプルの一般化を実現する。 さらに、mrcの学習段階は、期待される0-1の損失に対する下限と上限として、パフォーマンス保証を提供する。 また, MRCs の有限サンプル一般化境界をトレーニングサイズと最小限のミニマックスリスクで表し, ベンチマークデータセットを用いた最先端技術と競合する分類性能を示す。

Supervised classification techniques use training samples to find classification rules with small expected 0-1 loss. Conventional methods achieve efficient learning and out-of-sample generalization by minimizing surrogate losses over specific families of rules. This paper presents minimax risk classifiers (MRCs) that do not rely on a choice of surrogate loss and family of rules. MRCs achieve efficient learning and out-of-sample generalization by minimizing worst-case expected 0-1 loss w.r.t. uncertainty sets that are defined by linear constraints and include the true underlying distribution. In addition, MRCs' learning stage provides performance guarantees as lower and upper tight bounds for expected 0-1 loss. We also present MRCs' finite-sample generalization bounds in terms of training size and smallest minimax risk, and show their competitive classification performance w.r.t. state-of-the-art techniques using benchmark datasets.
翻訳日:2022-10-07 03:15:07 公開日:2020-10-15
# エネルギー効率の良い文書分類のためのTopicBERT

TopicBERT for Energy Efficient Document Classification ( http://arxiv.org/abs/2010.16407v1 )

ライセンス: Link先を確認
Yatin Chaudhary, Pankaj Gupta, Khushbu Saxena, Vivek Kulkarni, Thomas Runkler, Hinrich Sch\"utze(参考訳) 以前の研究によると、BERTの計算コストはシーケンス長で2倍に増加し、長いトレーニング時間、GPUメモリの制約、二酸化炭素排出量が増加する。 最近の研究は、事前トレーニングにおけるこれらのスケーラビリティの問題に対処しようとしているが、特に文書分類のような長いシーケンスタスクにおいて、これらの問題は微調整においても顕著である。 そこで本研究では,文書分類における微調整の計算コストの最適化に焦点をあてる。 トピックモデルと言語モデルの両方を,TopicBERTという統合フレームワークで補完的に学習することで,これを実現する。 これは、主なパフォーマンスボトルネックであるセルフアテンション操作の数を大幅に削減する。 その結果、このモデルは 1.4x (\sim40\%$) のスピードアップを達成し、$co_2$ emission の$sim40\%$を削減し、5つのデータセットに対して$99.9\%$のパフォーマンスを維持する。

Prior research notes that BERT's computational cost grows quadratically with sequence length thus leading to longer training times, higher GPU memory constraints and carbon emissions. While recent work seeks to address these scalability issues at pre-training, these issues are also prominent in fine-tuning especially for long sequence tasks like document classification. Our work thus focuses on optimizing the computational cost of fine-tuning for document classification. We achieve this by complementary learning of both topic and language models in a unified framework, named TopicBERT. This significantly reduces the number of self-attention operations - a main performance bottleneck. Consequently, our model achieves a 1.4x ($\sim40\%$) speedup with $\sim40\%$ reduction in $CO_2$ emission while retaining $99.9\%$ performance over 5 datasets.
翻訳日:2022-10-07 03:09:21 公開日:2020-10-15
# 畳み込みニューラルネットワークと転送学習を用いたスウェーデン手話の解釈

Interpretation of Swedish Sign Language using Convolutional Neural Networks and Transfer Learning ( http://arxiv.org/abs/2010.07827v1 )

ライセンス: Link先を確認
Gustaf Halvardsson, Johanna Peterson, C\'esar Soto-Valero, Benoit Baudry(参考訳) 手話の自動解釈は、正確な画像知覚を提供するために高レベルビジョンと高レベルモーションプロセッシングシステムを使用する必要があるため、難しい課題である。 本稿では,スウェーデン手話(SSL)ハンドアルファベットの記号をコンピュータが解釈できるように,畳み込みニューラルネットワーク(CNN)と伝達学習を用いる。 本モデルは,事前学習したinceptionv3ネットワークの実装と,ミニバッチ勾配降下最適化アルゴリズムの利用からなる。 モデルの事前トレーニングとデータの転送学習に依存しています。 モデルの最終精度は8つの被験者と9,400の画像に基づいて85%である。 この結果から,CNNの使用は手話言語を解釈するための有望な手法であり,手話学習は小規模な学習データセットを用いても高いテスト精度を達成することができることがわかった。 さらに,本モデルの実装の詳細を説明し,ユーザフレンドリーなwebアプリケーションとしてサインを解釈する。

The automatic interpretation of sign languages is a challenging task, as it requires the usage of high-level vision and high-level motion processing systems for providing accurate image perception. In this paper, we use Convolutional Neural Networks (CNNs) and transfer learning in order to make computers able to interpret signs of the Swedish Sign Language (SSL) hand alphabet. Our model consist of the implementation of a pre-trained InceptionV3 network, and the usage of the mini-batch gradient descent optimization algorithm. We rely on transfer learning during the pre-training of the model and its data. The final accuracy of the model, based on 8 study subjects and 9,400 images, is 85%. Our results indicate that the usage of CNNs is a promising approach to interpret sign languages, and transfer learning can be used to achieve high testing accuracy despite using a small training dataset. Furthermore, we describe the implementation details of our model to interpret signs as a user-friendly web application.
翻訳日:2022-10-07 03:08:53 公開日:2020-10-15
# DocStruct:汎用形式理解のための文書中の階層構造を抽出するマルチモーダル手法

DocStruct: A Multimodal Method to Extract Hierarchy Structure in Document for General Form Understanding ( http://arxiv.org/abs/2010.11685v1 )

ライセンス: Link先を確認
Zilong Wang, Mingjie Zhan, Xuebo Liu, Ding Liang(参考訳) 形式理解は、テキストの内容と組織構造の両方に依存する。 現代のOCRはよく機能するが、形式が一般的で様々なフォーマットで使われているため、一般的な形式理解を実現することは依然として困難である。 以前の作品における表検出と手作りの機能は、フォーマットに対する要求のために全ての形式に適用できない。 そこで我々は,基本成分であるキー-値対に集中し,特徴抽出にマルチモーダル手法を採用する。 形式構造は,テキスト断片のツリー状あるいはグラフ状階層であると考える。 親子関係は形内のキー値対に対応する。 本稿では,最先端モデルと対象抽出モジュールの設計を用いて,意味コンテンツ,レイアウト情報,視覚画像からマルチモーダルな特徴を抽出する。 結合と特徴シフトのハイブリッド融合法は、異種特徴を融合させ、情報的関節表現を提供するように設計されている。 モデルには非対称なアルゴリズムと負のサンプリングも採用している。 MedForm と FUNSD の2つのベンチマークで本手法の有効性を検証し,本手法の有効性を実証した。

Form understanding depends on both textual contents and organizational structure. Although modern OCR performs well, it is still challenging to realize general form understanding because forms are commonly used and of various formats. The table detection and handcrafted features in previous works cannot apply to all forms because of their requirements on formats. Therefore, we concentrate on the most elementary components, the key-value pairs, and adopt multimodal methods to extract features. We consider the form structure as a tree-like or graph-like hierarchy of text fragments. The parent-child relation corresponds to the key-value pairs in forms. We utilize the state-of-the-art models and design targeted extraction modules to extract multimodal features from semantic contents, layout information, and visual images. A hybrid fusion method of concatenation and feature shifting is designed to fuse the heterogeneous features and provide an informative joint representation. We adopt an asymmetric algorithm and negative sampling in our model as well. We validate our method on two benchmarks, MedForm and FUNSD, and extensive experiments demonstrate the effectiveness of our method.
翻訳日:2022-10-07 03:08:37 公開日:2020-10-15
# 複数のラベルグラフから知識を集約したマルチラベル数/ゼロショット学習

Multi-label Few/Zero-shot Learning with Knowledge Aggregated from Multiple Label Graphs ( http://arxiv.org/abs/2010.07459v1 )

ライセンス: Link先を確認
Jueqing Lu, Lan Du, Ming Liu, Joanna Dipnall(参考訳) Few/Zero-shot Learningは多くの分類タスクにおいて大きな課題であり、分類器はトレーニングサンプルがほとんど、あるいは全くないクラスのインスタンスを認識するために必要である。 マルチラベル分類では、各インスタンスに複数のクラスをラベル付けする方がより難しくなります。 本稿では,異なる意味的ラベル関係を符号化した複数のラベルグラフからの知識を融合した簡易な多グラフ集約モデルを提案する。 このモデルは、事前学習された単語埋め込み、ラベル記述、事前定義されたラベル関係という3種類の意味情報を利用する。 2つの大きな臨床データセット(MIMIC-IIとMIMIC-III)とEUの法定データセットから得られた実験結果から、多グラフ知識集約(multi-graph knowledge aggregate)を備えた手法が、ほとんど全ての小・ゼロショットラベルの指標において、大幅なパフォーマンス改善を実現することが示された。

Few/Zero-shot learning is a big challenge of many classifications tasks, where a classifier is required to recognise instances of classes that have very few or even no training samples. It becomes more difficult in multi-label classification, where each instance is labelled with more than one class. In this paper, we present a simple multi-graph aggregation model that fuses knowledge from multiple label graphs encoding different semantic label relationships in order to study how the aggregated knowledge can benefit multi-label zero/few-shot document classification. The model utilises three kinds of semantic information, i.e., the pre-trained word embeddings, label description, and pre-defined label relations. Experimental results derived on two large clinical datasets (i.e., MIMIC-II and MIMIC-III) and the EU legislation dataset show that methods equipped with the multi-graph knowledge aggregation achieve significant performance improvement across almost all the measures on few/zero-shot labels.
翻訳日:2022-10-07 03:08:21 公開日:2020-10-15
# Auto-STGCN:強化学習と既存研究結果に基づく自律的空間時間グラフ畳み込みネットワーク探索

Auto-STGCN: Autonomous Spatial-Temporal Graph Convolutional Network Search Based on Reinforcement Learning and Existing Research Results ( http://arxiv.org/abs/2010.07474v1 )

ライセンス: Link先を確認
Chunnan Wang, Kaixin Zhang, Hongzhi Wang, Bozhou Chen(参考訳) 近年,多くの時空間グラフ畳み込みネットワーク(STGCN)モデルが,時空間ネットワークデータ予測問題に対処するために提案されている。 これらのSTGCNモデルには、それぞれ独自の利点があり、それぞれが多くの効果的な演算を行ない、実際のアプリケーションで良い予測結果が得られる。 もしユーザーがこれらの優れた操作を効果的に活用し、既存のモデルの利点を統合することができれば、より効果的なSTGCNモデルを得ることができ、既存の作業でより大きな価値を生み出すことができる。 しかし、それらはドメイン知識の欠如と、ユーザーがこの目標を達成するのを助ける自動化システムが欠如しているため、そうはならない。 本稿では,このギャップを埋め,既存のモデルを用いて特定のシナリオに対する高性能STGCNモデルを自動的に探索するAuto-STGCNアルゴリズムを提案する。 具体的には、既存のアーキテクチャの操作を要約したUnified-STGCNフレームワークを設計し、STGCNアーキテクチャのパラメータ化表現と利点の再編成と融合を実現するために、各操作の使用と特性特性を制御するためにパラメータを使用する。 次に、強化学習に基づく最適化手法であるAuto-STGCNを提案し、Unified-STGCNが提供するパラメータ検索空間を迅速に探索し、最適なSTGCNモデルを自動生成する。 実世界のベンチマークデータセットに対する大規模な実験により,提案手法の有効性を示すヒューリスティックパラメータを持つ既存のSTGCNモデルよりも優れたSTGCNモデルを見出すことができた。

In recent years, many spatial-temporal graph convolutional network (STGCN) models are proposed to deal with the spatial-temporal network data forecasting problem. These STGCN models have their own advantages, i.e., each of them puts forward many effective operations and achieves good prediction results in the real applications. If users can effectively utilize and combine these excellent operations integrating the advantages of existing models, then they may obtain more effective STGCN models thus create greater value using existing work. However, they fail to do so due to the lack of domain knowledge, and there is lack of automated system to help users to achieve this goal. In this paper, we fill this gap and propose Auto-STGCN algorithm, which makes use of existing models to automatically explore high-performance STGCN model for specific scenarios. Specifically, we design Unified-STGCN framework, which summarizes the operations of existing architectures, and use parameters to control the usage and characteristic attributes of each operation, so as to realize the parameterized representation of the STGCN architecture and the reorganization and fusion of advantages. Then, we present Auto-STGCN, an optimization method based on reinforcement learning, to quickly search the parameter search space provided by Unified-STGCN, and generate optimal STGCN models automatically. Extensive experiments on real-world benchmark datasets show that our Auto-STGCN can find STGCN models superior to existing STGCN models with heuristic parameters, which demonstrates the effectiveness of our proposed method.
翻訳日:2022-10-07 03:07:59 公開日:2020-10-15
# 課題を考慮した副作用回避

Avoiding Side Effects By Considering Future Tasks ( http://arxiv.org/abs/2010.07877v1 )

ライセンス: Link先を確認
Victoria Krakovna, Laurent Orseau, Richard Ngo, Miljan Martic, Shane Legg(参考訳) 報酬関数の設計は難しい - デザイナーは何をするか(タスクを完了させる意味)、何をすべきか(タスクを完了させる際に避けるべき副作用)を指定しなければならない。 報酬設計者の負担を軽減するため,副次効果を補償する補助報酬関数を自動生成するアルゴリズムを提案する。 この補助的目的は、エージェントが現在のタスク中に副作用を引き起こすと減少する将来のタスクを完了させる能力に報いる。 将来のタスク報酬は、他のエージェントによる不可逆的なアクションなど、将来のタスクが達成不可能な環境におけるイベントを妨害するインセンティブを与える。 この干渉のインセンティブを避けるため、デフォルトのアクション(何もしないなど)を表す基本方針を導入し、それを使って、デフォルトで達成できない将来のタスクをフィルタリングする。 我々は、干渉インセンティブを形式的に定義し、ベースラインポリシーによる将来のタスクアプローチが決定論的ケースにおいてこれらのインセンティブを避けることを示す。 サイドエフェクトと干渉を検査するグリッドワールド環境を用いて,我々の手法は干渉を回避し,非可逆的な動作を罰する一般的なアプローチよりも副作用を回避するのに有効であることを示す。

Designing reward functions is difficult: the designer has to specify what to do (what it means to complete the task) as well as what not to do (side effects that should be avoided while completing the task). To alleviate the burden on the reward designer, we propose an algorithm to automatically generate an auxiliary reward function that penalizes side effects. This auxiliary objective rewards the ability to complete possible future tasks, which decreases if the agent causes side effects during the current task. The future task reward can also give the agent an incentive to interfere with events in the environment that make future tasks less achievable, such as irreversible actions by other agents. To avoid this interference incentive, we introduce a baseline policy that represents a default course of action (such as doing nothing), and use it to filter out future tasks that are not achievable by default. We formally define interference incentives and show that the future task approach with a baseline policy avoids these incentives in the deterministic case. Using gridworld environments that test for side effects and interference, we show that our method avoids interference and is more effective for avoiding side effects than the common approach of penalizing irreversible actions.
翻訳日:2022-10-07 03:06:44 公開日:2020-10-15
# 言語における合成一般化のための階層型ポセットデコーディング

Hierarchical Poset Decoding for Compositional Generalization in Language ( http://arxiv.org/abs/2010.07792v1 )

ライセンス: Link先を確認
Yinuo Guo, Zeqi Lin, Jian-Guang Lou, Dongmei Zhang(参考訳) 我々は、出力が半順序集合(poset)である構造化予測タスクとして、人間の言語理解を形式化する。 現在のエンコーダ・デコーダアーキテクチャは意味論のポーズ構造を適切に考慮していないため、構成一般化能力に乏しい。 本稿では,言語における合成一般化のための新しい階層型ポーズデコーディングパラダイムを提案する。 直感的に:(1)提案するパラダイムでは,意味論における部分的置換不変性が強制されるため,バイアス順序情報への過剰適合を回避できる。 我々は,構成的一般化を測定するために特別に設計された,大規模かつ現実的な自然言語質問応答データセットCFQについて,提案するデコーダの評価を行った。 結果は現在のデコーダよりも優れていることを示している。

We formalize human language understanding as a structured prediction task where the output is a partially ordered set (poset). Current encoder-decoder architectures do not take the poset structure of semantics into account properly, thus suffering from poor compositional generalization ability. In this paper, we propose a novel hierarchical poset decoding paradigm for compositional generalization in language. Intuitively: (1) the proposed paradigm enforces partial permutation invariance in semantics, thus avoiding overfitting to bias ordering information; (2) the hierarchical mechanism allows to capture high-level structures of posets. We evaluate our proposed decoder on Compositional Freebase Questions (CFQ), a large and realistic natural language question answering dataset that is specifically designed to measure compositional generalization. Results show that it outperforms current decoders.
翻訳日:2022-10-07 03:00:46 公開日:2020-10-15
# 不確実性はワイルドファイアマネジメントを意識する

Uncertainty Aware Wildfire Management ( http://arxiv.org/abs/2010.07915v1 )

ライセンス: Link先を確認
Tina Diao and Samriddhi Singla and Ayan Mukhopadhyay and Ahmed Eldawy and Ross Shachter and Mykel Kochenderfer(参考訳) 近年のアメリカ合衆国における山火事は、生命と数十億ドルの損失をもたらし、無数の建物や森林を破壊した。 野火との戦いは非常に複雑である。 煙による火災の真の状態や地上監視に伴うリスクを観測することは困難である。 大規模に展開するリソースは限られており、火災の広がりを予測することは困難である。 本稿では,山火事に対する決定論的アプローチを提案する。 資源割当問題を部分観測可能なマルコフ決定プロセスとしてモデル化する。 また,関連する共変量の関数として火の拡散をシミュレートするデータ駆動モデルも提示する。 ワイルドファイアと戦うためにデータ駆動モデルを使用する際の大きな問題は、火災と関連するコバリアントを関連付ける包括的なデータソースの欠如である。 このようなデータセットを作成するために,大規模ラスタとベクトル解析に基づくアルゴリズム的アプローチを提案する。 われわれのデータと200万以上のデータポイントは、既存の火災データベースと衛星画像から抽出された共変量を組み合わせた最初のオープンソースデータセットである。 実世界のワイルドファイアデータを用いた実験により,我々の予測モデルがワイルドファイアの拡散を正確にモデル化できることを実証した。 最後に, シミュレーションを用いて, 応答戦略がベースライン法に比べて応答時間を著しく短縮できることを示す。

Recent wildfires in the United States have resulted in loss of life and billions of dollars, destroying countless structures and forests. Fighting wildfires is extremely complex. It is difficult to observe the true state of fires due to smoke and risk associated with ground surveillance. There are limited resources to be deployed over a massive area and the spread of the fire is challenging to predict. This paper proposes a decision-theoretic approach to combat wildfires. We model the resource allocation problem as a partially-observable Markov decision process. We also present a data-driven model that lets us simulate how fires spread as a function of relevant covariates. A major problem in using data-driven models to combat wildfires is the lack of comprehensive data sources that relate fires with relevant covariates. We present an algorithmic approach based on large-scale raster and vector analysis that can be used to create such a dataset. Our data with over 2 million data points is the first open-source dataset that combines existing fire databases with covariates extracted from satellite imagery. Through experiments using real-world wildfire data, we demonstrate that our forecasting model can accurately model the spread of wildfires. Finally, we use simulations to demonstrate that our response strategy can significantly reduce response times compared to baseline methods.
翻訳日:2022-10-07 03:00:05 公開日:2020-10-15
# フルスタックビジュアル推論による自然言語の合理化:PixelsからSemantic FramesからCommonsense Graphsへ

Natural Language Rationales with Full-Stack Visual Reasoning: From Pixels to Semantic Frames to Commonsense Graphs ( http://arxiv.org/abs/2010.07526v1 )

ライセンス: Link先を確認
Ana Marasovi\'c, Chandra Bhagavatula, Jae Sung Park, Ronan Le Bras, Noah A. Smith, Yejin Choi(参考訳) 自然言語の合理性は、人間の理解が容易な直感的で高レベルの説明を提供し、勾配や注意重みに基づくより広く研究された下層の説明を補完する。 本稿では,ビジュアル・コモンセンス推論,ビジュアル・テキスト・インテグリメント,ビジュアル・質問応答など,複雑な視覚推論タスクにまたがる自然言語的合理性の生成に焦点を当てた最初の研究を行った。 正確な合理化の鍵となる課題は、ピクセルレベルでの明示的なコンテンツだけでなく、意味的かつ実用的レベルでのコンテクストコンテンツという、あらゆるレベルでの総合的なイメージ理解です。 本稿では,事前学習された言語モデルと物体認識,接地された視覚意味フレーム,視覚コモンセンスグラフを組み合わせることで,自由文の合理化を学習する統合モデルであるratione^vt transformerを提案する。 実験により, 基礎事前学習された言語モデルは, 視覚適応の利点と, 自由テキスト合理化は, 複雑な視覚テキスト推論タスクのモデル解釈性を補完する有望な研究方向であることが示された。

Natural language rationales could provide intuitive, higher-level explanations that are easily understandable by humans, complementing the more broadly studied lower-level explanations based on gradients or attention weights. We present the first study focused on generating natural language rationales across several complex visual reasoning tasks: visual commonsense reasoning, visual-textual entailment, and visual question answering. The key challenge of accurate rationalization is comprehensive image understanding at all levels: not just their explicit content at the pixel level, but their contextual contents at the semantic and pragmatic levels. We present Rationale^VT Transformer, an integrated model that learns to generate free-text rationales by combining pretrained language models with object recognition, grounded visual semantic frames, and visual commonsense graphs. Our experiments show that the base pretrained language model benefits from visual adaptation and that free-text rationalization is a promising research direction to complement model interpretability for complex visual-textual reasoning tasks.
翻訳日:2022-10-07 02:59:47 公開日:2020-10-15
# シーケンス問題に対するセマンティックラベル平滑化

Semantic Label Smoothing for Sequence to Sequence Problems ( http://arxiv.org/abs/2010.07447v1 )

ライセンス: Link先を確認
Michal Lukasik, Himanshu Jain, Aditya Krishna Menon, Seungyeon Kim, Srinadh Bhojanapalli, Felix Yu, Sanjiv Kumar(参考訳) ラベル平滑化は分類において効果的な正規化戦略であることが示されており、過剰フィッティングを防ぎ、ラベル脱ノイズの助けとなる。 しかし、機械翻訳のようなSeq2seq設定に直接拡張することは困難であり、そのような問題の大きなターゲット出力空間は、全ての可能な出力に対してラベルスムーズな適用を困難にしている。 既存のSeq2seq設定のアプローチのほとんどはトークンレベルの平滑化か、ターゲットシーケンス内のトークンをランダムに置換することによって生成されるスムーズなオーバーシーケンスである。 本稿では,これらの研究と異なり,対象配列と十分なn-gram重なりを持つだけでなく,emph{semantically similar}である,関連する配列を平滑化する手法を提案する。 提案手法は, 異なるデータセットにおける最先端技術に対して, 一貫性と大幅な改善を示す。

Label smoothing has been shown to be an effective regularization strategy in classification, that prevents overfitting and helps in label de-noising. However, extending such methods directly to seq2seq settings, such as Machine Translation, is challenging: the large target output space of such problems makes it intractable to apply label smoothing over all possible outputs. Most existing approaches for seq2seq settings either do token level smoothing, or smooth over sequences generated by randomly substituting tokens in the target sequence. Unlike these works, in this paper, we propose a technique that smooths over \emph{well formed} relevant sequences that not only have sufficient n-gram overlap with the target sequence, but are also \emph{semantically similar}. Our method shows a consistent and significant improvement over the state-of-the-art techniques on different datasets.
翻訳日:2022-10-07 02:59:24 公開日:2020-10-15
# 自己学習型コンテキスト埋め込みによる教師なしバイテクストマイニングと翻訳

Unsupervised Bitext Mining and Translation via Self-trained Contextual Embeddings ( http://arxiv.org/abs/2010.07761v1 )

ライセンス: Link先を確認
Phillip Keung, Julian Salazar, Yichao Lu, Noah A. Smith(参考訳) 不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。 我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。 提案手法は,bucc 2017 bitext miningタスクで並列文ペアを抽出し,従来の教師なし手法よりもf1スコアの24.5ポイント増加(絶対値)を観測することで検証する。 そして、同じコーパスから抽出した擬似並列テキストを補足し、WMT'14フランス語とWMT'16ドイツ語のタスクで最大3.5BLEUまで教師なし翻訳性能を高め、以前の最先端のタスクより優れたXLMベースの教師なしニューラルネットワークシステムを改善する。 最後に、IWSLT'15 English-Vietnamese corpusを疑似並列Wikipedia文ペアで強化し、低リソースMTタスクで1.2BLEUの改善を実現した。 教師なしバイテキストマイニングはmtデータセットの拡張に有効な方法であり、事前学習されたコンテキスト埋め込みによる初期化のような既存のテクニックを補完する。

We describe an unsupervised method to create pseudo-parallel corpora for machine translation (MT) from unaligned text. We use multilingual BERT to create source and target sentence embeddings for nearest-neighbor search and adapt the model via self-training. We validate our technique by extracting parallel sentence pairs on the BUCC 2017 bitext mining task and observe up to a 24.5 point increase (absolute) in F1 scores over previous unsupervised methods. We then improve an XLM-based unsupervised neural MT system pre-trained on Wikipedia by supplementing it with pseudo-parallel text mined from the same corpus, boosting unsupervised translation performance by up to 3.5 BLEU on the WMT'14 French-English and WMT'16 German-English tasks and outperforming the previous state-of-the-art. Finally, we enrich the IWSLT'15 English-Vietnamese corpus with pseudo-parallel Wikipedia sentence pairs, yielding a 1.2 BLEU improvement on the low-resource MT task. We demonstrate that unsupervised bitext mining is an effective way of augmenting MT datasets and complements existing techniques like initializing with pre-trained contextual embeddings.
翻訳日:2022-10-07 02:59:07 公開日:2020-10-15
# 質問はどこだ? テキストデータの質問識別のための多チャンネル深層畳み込みニューラルネットワーク

Where's the Question? A Multi-channel Deep Convolutional Neural Network for Question Identification in Textual Data ( http://arxiv.org/abs/2010.07816v1 )

ライセンス: Link先を確認
George Michalopoulos, Helen Chen, Alexander Wong(参考訳) ほとんどのクリニカル・プラクティス・セッティングでは、臨床文書の厳格なレビューは行われず、患者の医療記録に不正確な情報が記録される。 臨床データ取得における金の標準は「専門家レビュー」によって達成され、臨床医はドメインの専門家(レビュー担当者)と対話し、データ入力ルールについて質問することができる。 これらの対話で「本当の質問」を自動的に識別することは、特定の臨床環境でのデータキャプチャにおける曖昧さや一般的な問題を明らかにする可能性がある。 本研究では,質問文以外の問題に対する回答(情報や助け)を期待する真の質問を,近隣の文(例えば,これを明確にできるか?)に言及する質問から分離する目的で,新しい多チャンネル深層畳み込みニューラルネットワークアーキテクチャ(Quest-CNN)を提案し,これを「c-クエスト」と呼ぶ。 提案する多チャンネル深部畳み込みニューラルネットワークと他の深部ニューラルネットワークの総合的な性能比較分析を行った。 さらに,従来の規則ベースおよび学習ベースの質問文検出手法の性能評価を行った。 提案したQuest-CNNは、透析ケア設定におけるデータエントリレビュー対話のデータセットと一般的なドメインデータセットの両方において、最高のF1スコアを達成した。

In most clinical practice settings, there is no rigorous reviewing of the clinical documentation, resulting in inaccurate information captured in the patient medical records. The gold standard in clinical data capturing is achieved via "expert-review", where clinicians can have a dialogue with a domain expert (reviewers) and ask them questions about data entry rules. Automatically identifying "real questions" in these dialogues could uncover ambiguities or common problems in data capturing in a given clinical setting. In this study, we proposed a novel multi-channel deep convolutional neural network architecture, namely Quest-CNN, for the purpose of separating real questions that expect an answer (information or help) about an issue from sentences that are not questions, as well as from questions referring to an issue mentioned in a nearby sentence (e.g., can you clarify this?), which we will refer as "c-questions". We conducted a comprehensive performance comparison analysis of the proposed multi-channel deep convolutional neural network against other deep neural networks. Furthermore, we evaluated the performance of traditional rule-based and learning-based methods for detecting question sentences. The proposed Quest-CNN achieved the best F1 score both on a dataset of data entry-review dialogue in a dialysis care setting, and on a general domain dataset.
翻訳日:2022-10-07 02:58:42 公開日:2020-10-15
# 不変因果メカニズムによる表現学習

Representation Learning via Invariant Causal Mechanisms ( http://arxiv.org/abs/2010.07922v1 )

ライセンス: Link先を確認
Jovana Mitrovic, Brian McWilliams, Jacob Walker, Lars Buesing, Charles Blundell(参考訳) ラベルなしデータのみを用いて表現を事前学習することで、コストのかかる教師付き信号への依存を減らす戦略として自己教師付き学習が登場した。 これらの手法は、ヒューリスティックなプロキシ分類タスクとデータ拡張を組み合わせ、大きな成功を収めましたが、この成功に対する理論的理解は限定的です。 本稿では,自己教師付き表現学習を因果的枠組みを用いて分析する。 プレトレーニング時に使用されるプロキシ分類器の明示的な不変制約により、データ拡張をより効果的に活用する方法を示す。 そこで本研究では,改良された一般化保証を得られる不変正則化器を用いて,拡張によるプロキシターゲットの不変な予測を強制する,自己教師型自己表現学習(Representation Learning via Invariant Causal Mechanisms, Relic)を提案する。 さらに, 因果性を用いて, ある種の自己教師あり手法であるコントラスト学習を一般化し, これらの手法の成功のための代替理論的説明を提供する。 経験上、re relicはimagenetのロバスト性と分散の一般化という点で競合する方法を大幅に上回っており、またatariの57ドルのゲームのうち511ドルの人間レベルのパフォーマンスを上回っている。

Self-supervised learning has emerged as a strategy to reduce the reliance on costly supervised signal by pretraining representations only using unlabeled data. These methods combine heuristic proxy classification tasks with data augmentations and have achieved significant success, but our theoretical understanding of this success remains limited. In this paper we analyze self-supervised representation learning using a causal framework. We show how data augmentations can be more effectively utilized through explicit invariance constraints on the proxy classifiers employed during pretraining. Based on this, we propose a novel self-supervised objective, Representation Learning via Invariant Causal Mechanisms (ReLIC), that enforces invariant prediction of proxy targets across augmentations through an invariance regularizer which yields improved generalization guarantees. Further, using causality we generalize contrastive learning, a particular kind of self-supervised method, and provide an alternative theoretical explanation for the success of these methods. Empirically, ReLIC significantly outperforms competing methods in terms of robustness and out-of-distribution generalization on ImageNet, while also significantly outperforming these methods on Atari achieving above human-level performance on $51$ out of $57$ games.
翻訳日:2022-10-07 02:51:10 公開日:2020-10-15
# 深層ニューラルネットワークにおける一般的なアクティベーション関数のレビューと比較

Review and Comparison of Commonly Used Activation Functions for Deep Neural Networks ( http://arxiv.org/abs/2010.09458v1 )

ライセンス: Link先を確認
Tomasz Szanda{\l}a(参考訳) 主要なニューラルネットワーク決定ユニットはアクティベーション関数である。 さらに、ネットワークニューラルノードの出力を評価し、ネットワーク全体のパフォーマンスに不可欠である。 したがって、ニューラルネットワーク計算において最も適切なアクティベーション関数を選択することが重要である。 Acharya et al. (2018) は、多くのレシピが長年にわたって定式化されてきたことを示唆しているが、一部のレシピは、ある条件下で適切に動作できないため、近年は廃止されていると考えられている。 これらの関数は様々な特性を持ち、学習に欠かせないものと考えられている。 それらの単調性、個々の微分、およびそれらの範囲の有限性はこれらの性質のいくつかである(Bach 2017)。 本稿では,swish,relu,sgmoid等,一般的に用いられる付加関数について検討する。 この後、プロパティ、独自のconsとpro、および特定の公式アプリケーション推奨が続く。

The primary neural networks decision-making units are activation functions. Moreover, they evaluate the output of networks neural node; thus, they are essential for the performance of the whole network. Hence, it is critical to choose the most appropriate activation function in neural networks calculation. Acharya et al. (2018) suggest that numerous recipes have been formulated over the years, though some of them are considered deprecated these days since they are unable to operate properly under some conditions. These functions have a variety of characteristics, which are deemed essential to successfully learning. Their monotonicity, individual derivatives, and finite of their range are some of these characteristics (Bach 2017). This research paper will evaluate the commonly used additive functions, such as swish, ReLU, Sigmoid, and so forth. This will be followed by their properties, own cons and pros, and particular formula application recommendations.
翻訳日:2022-10-07 02:50:17 公開日:2020-10-15
# 統合データセットベンチマークに基づく自然言語推論の信頼性評価

Reliable Evaluations for Natural Language Inference based on a Unified Cross-dataset Benchmark ( http://arxiv.org/abs/2010.07676v1 )

ライセンス: Link先を確認
Guanhua Zhang, Bing Bai, Jian Liang, Kun Bai, Conghui Zhu, Tiejun Zhao(参考訳) 最近の研究では、クラウドソースの自然言語推論(nli)データセットは、アノテーションアーティファクトのような大きなバイアスを被っている可能性がある。 これらの表面的手がかりを利用したモデルでは、ドメイン内テストセットで見事な利点が得られ、評価結果が過大評価される。 信頼できる評価設定とベンチマークの欠如は、NLI研究の進歩を妨げている。 本稿では,モデルの信頼に値する一般化性能をクロスデータセット評価により評価する。 14のNLIデータセットを備えた新しいクロスデータセットベンチマークを提案し、9つの広く使用されているニューラルネットワークベースのNLIモデルと、5つの最近提案されたアコースティックアーティファクトのデバイアス手法を再評価する。 提案手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。

Recent studies show that crowd-sourced Natural Language Inference (NLI) datasets may suffer from significant biases like annotation artifacts. Models utilizing these superficial clues gain mirage advantages on the in-domain testing set, which makes the evaluation results over-estimated. The lack of trustworthy evaluation settings and benchmarks stalls the progress of NLI research. In this paper, we propose to assess a model's trustworthy generalization performance with cross-datasets evaluation. We present a new unified cross-datasets benchmark with 14 NLI datasets, and re-evaluate 9 widely-used neural network-based NLI models as well as 5 recently proposed debiasing methods for annotation artifacts. Our proposed evaluation scheme and experimental baselines could provide a basis to inspire future reliable NLI research.
翻訳日:2022-10-07 02:48:55 公開日:2020-10-15
# 動的トピック追跡による多人数会話の応答選択

Response Selection for Multi-Party Conversations with Dynamic Topic Tracking ( http://arxiv.org/abs/2010.07785v1 )

ライセンス: Link先を確認
Weishi Wang, Shafiq Joty, Steven C.H. Hoi(参考訳) マルチパーティ・マルチターン会話の参加者は、複数の会話トピックを同時に行う一方で、既存の応答選択手法は、主に双方向の単一会話シナリオに焦点を当てている。 したがって、会話トピックの延長と遷移は、現在の方法で無視される。 本研究では、応答選択を動的トピック追跡タスクとしてフレーム化し、応答と関連する会話コンテキストのトピックをマッチングする。 この新たな定式化により,2つの発話しか持たない大規模事前学習モデルを通じて,動的トピックのゆがみと応答選択を行うための効率的な符号化を支援する,新しいマルチタスク学習フレームワークを提案する。 また、トピック情報を自己教師型学習でBERTに組み込むための重要な事前学習ステップとして、Topic-BERTを提案する。 dstc-8 ubuntu ircデータセットの実験的結果は、既存のメソッドよりも優れたレスポンス選択とトピックの絡み合いタスクにおいて、最先端の結果を示している。

While participants in a multi-party multi-turn conversation simultaneously engage in multiple conversation topics, existing response selection methods are developed mainly focusing on a two-party single-conversation scenario. Hence, the prolongation and transition of conversation topics are ignored by current methods. In this work, we frame response selection as a dynamic topic tracking task to match the topic between the response and relevant conversation context. With this new formulation, we propose a novel multi-task learning framework that supports efficient encoding through large pretrained models with only two utterances at once to perform dynamic topic disentanglement and response selection. We also propose Topic-BERT an essential pretraining step to embed topic information into BERT with self-supervised learning. Experimental results on the DSTC-8 Ubuntu IRC dataset show state-of-the-art results in response selection and topic disentanglement tasks outperforming existing methods by a good margin.
翻訳日:2022-10-07 02:48:40 公開日:2020-10-15
# NUIG-Shubhanker@Dravidian-CodeMix-FIRE2020:XLNetを用いたコードミクシングドラヴィディアンテキストの知覚分析

NUIG-Shubhanker@Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Code-Mixed Dravidian text using XLNet ( http://arxiv.org/abs/2010.07773v1 )

ライセンス: Link先を確認
Shubhanker Banerjee, Arun Jayapal and Sajeetha Thavareesan(参考訳) ソーシャルメディアは多言語社会に浸透してきたが、そのほとんどは英語をコミュニケーションの優先言語として使っている。 So it looks natural for them to mix their cultural language with English during conversations resulting in abundance of multilingual data, call this code-mixed data, available in todays' world.Downstream NLP tasks using such data is challenging due to the semantic nature of it being spread across multiple languages.One such Natural Language Processing task is sentiment analysis, for this we use an auto-regressive XLNet model to perform sentiment analysis on code-mixed Tamil-English and Malayalam-English datasets.

Social media has penetrated into multilingual societies, however most of them use English to be a preferred language for communication. So it looks natural for them to mix their cultural language with English during conversations resulting in abundance of multilingual data, call this code-mixed data, available in todays' world.Downstream NLP tasks using such data is challenging due to the semantic nature of it being spread across multiple languages.One such Natural Language Processing task is sentiment analysis, for this we use an auto-regressive XLNet model to perform sentiment analysis on code-mixed Tamil-English and Malayalam-English datasets.
翻訳日:2022-10-07 02:42:46 公開日:2020-10-15
# QReLUとm-QReLU:医学診断に役立つ2つの新しい量子活性化機能

QReLU and m-QReLU: Two novel quantum activation functions to aid medical diagnostics ( http://arxiv.org/abs/2010.08031v1 )

ライセンス: Link先を確認
L. Parisi, D. Neagu, R. Ma, F. Campean(参考訳) ReLUアクティベーション関数(AF)は、ディープニューラルネットワーク、特に畳み込みニューラルネットワーク(CNN)において、信頼できるアプリケーションに課題をもたらす未解決のReLU問題にもかかわらず、画像分類に広く適用されている。 この問題は、医療などの重要な応用に明らかに重要な意味を持っている。 最近のアプローチは、同じ未解決のReLUチャレンジでアクティベーション関数のバリエーションを提案するだけである。 このコントリビューションは、ReLU AFに対する革新的な量子アプローチの開発を調査し、破壊的設計によって死滅するReLU問題を避けることにより、異なる研究方向を報告している。 Leaky ReLUは、量子ReLU(QReLU)と修正QReLU(m-QReLU)の活性化関数を導出するために、量子エンタングルメントと重ね合わせの2つの量子原理を適用したベースラインとして利用された。 QReLUとm-QReLUの両方が実装され、TensorFlowとKerasで自由に利用できる。 このアプローチは、医療画像からCOVID-19とパーキンソン病(PD)の検出を容易にするケーススタディにおいて、効果的かつ広範囲に検証されている。 パーキンソン病患者および健常者からのグラフィックタブレットによるスパイラル・ドローイング画像や、covid-19患者、肺炎患者、健康管理者の肺のポイント・オブ・ケア超音波画像を含む7つのベンチマークデータセットにおいて、reluベースのafsに対して2層cnnで評価した。 計算コストが高いにもかかわらず、結果は7つのベンチマークデータセットのうち5つの量子afsによって引き起こされた全体的な分類精度、精度、リコール、f1-scoreを示し、cnnにおける新しいベンチマークまたはゴールド標準afの可能性を示し、covid-19やpdの医療診断などの重要な応用に関わる画像分類タスクを支援した。

The ReLU activation function (AF) has been extensively applied in deep neural networks, in particular Convolutional Neural Networks (CNN), for image classification despite its unresolved dying ReLU problem, which poses challenges to reliable applications. This issue has obvious important implications for critical applications, such as those in healthcare. Recent approaches are just proposing variations of the activation function within the same unresolved dying ReLU challenge. This contribution reports a different research direction by investigating the development of an innovative quantum approach to the ReLU AF that avoids the dying ReLU problem by disruptive design. The Leaky ReLU was leveraged as a baseline on which the two quantum principles of entanglement and superposition were applied to derive the proposed Quantum ReLU (QReLU) and the modified-QReLU (m-QReLU) activation functions. Both QReLU and m-QReLU are implemented and made freely available in TensorFlow and Keras. This original approach is effective and validated extensively in case studies that facilitate the detection of COVID-19 and Parkinson Disease (PD) from medical images. The two novel AFs were evaluated in a two-layered CNN against nine ReLU-based AFs on seven benchmark datasets, including images of spiral drawings taken via graphic tablets from patients with Parkinson Disease and healthy subjects, and point-of-care ultrasound images on the lungs of patients with COVID-19, those with pneumonia and healthy controls. Despite a higher computational cost, results indicated an overall higher classification accuracy, precision, recall and F1-score brought about by either quantum AFs on five of the seven bench-mark datasets, thus demonstrating its potential to be the new benchmark or gold standard AF in CNNs and aid image classification tasks involved in critical applications, such as medical diagnoses of COVID-19 and PD.
翻訳日:2022-10-07 02:42:35 公開日:2020-10-15
# Room-Across-Room:Dense Spatiotemporal Groundingを用いた多言語視覚・言語ナビゲーション

Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding ( http://arxiv.org/abs/2010.07954v1 )

ライセンス: Link先を確認
Alexander Ku and Peter Anderson and Roma Patel and Eugene Ie and Jason Baldridge(参考訳) 新しいビジョン・アンド・ランゲージ・ナビゲーション(VLN)データセットであるRoom-Across-Room(RxR)を紹介する。 RxRは多言語(英語、ヒンディー語、テルグ語)で、他のVLNデータセットよりも大きい(パスと命令がより多い)。 これはVLNにおける言語の役割を強調し、パスにおける既知のバイアスに対処し、可視化されたエンティティへのより多くの参照を引き出す。 さらに、命令中の各単語は、命令作成者とバリデーターの仮想ポーズにタイムアライメントされる。 部屋間アノテーションを含む場合、単言語および多言語設定とマルチタスク学習のためのベースラインスコアを確立する。 また,人間のデモに参加するパノラマの部分のみに着目して,同期ポーズトレースから学習するモデルの結果も提供する。 RxRのサイズ、範囲、詳細は、シミュレーションされたフォトリアリスティック環境におけるエンボディ言語エージェントの研究のフロンティアを劇的に拡大する。

We introduce Room-Across-Room (RxR), a new Vision-and-Language Navigation (VLN) dataset. RxR is multilingual (English, Hindi, and Telugu) and larger (more paths and instructions) than other VLN datasets. It emphasizes the role of language in VLN by addressing known biases in paths and eliciting more references to visible entities. Furthermore, each word in an instruction is time-aligned to the virtual poses of instruction creators and validators. We establish baseline scores for monolingual and multilingual settings and multitask learning when including Room-to-Room annotations. We also provide results for a model that learns from synchronized pose traces by focusing only on portions of the panorama attended to in human demonstrations. The size, scope and detail of RxR dramatically expands the frontier for research on embodied language agents in simulated, photo-realistic environments.
翻訳日:2022-10-07 02:42:01 公開日:2020-10-15
# 次に起こりそうなものは何か? ビデオと言語によるイベント予測

What is More Likely to Happen Next? Video-and-Language Future Event Prediction ( http://arxiv.org/abs/2010.07999v1 )

ライセンス: Link先を確認
Jie Lei, Licheng Yu, Tamara L. Berg, Mohit Bansal(参考訳) 対話が整ったビデオの場合、人々は次に何が起こるかを見極めることができる。 このような予測を行うには、ビデオと対話の基礎となるリッチなダイナミクスを深く理解するだけでなく、大量の常識知識が必要である。 本研究では,AIモデルがこのようなマルチモーダル・コモンセンスの次世代予測を学べるかどうかを考察する。 この方向の研究を支援するために,ビデオ・アンド・ランゲージ・イベント予測(vlep)という新しいデータセットを10,234の多様なテレビ番組とyoutubeライフスタイルvlogビデオクリップから28,726の将来のイベント予測例とともに収集した。 非自明な難解な事例の収集を促進するために,我々は,対向的なHuman-and-model-in-the-loopデータ収集手法を採用する。 また,ビデオ,対話,コモンセンス知識からの情報を取り入れた強力なベースラインも提示する。 実験の結果,vlepにおける人間の高いパフォーマンスと比較すると,各情報の種類は優れた出発点となるが,将来的な作業には大きな余地が残されていることがわかった。 私たちのデータセットとコードは、https://github.com/jayleicn/videolanguagefuturepredで利用可能です。

Given a video with aligned dialogue, people can often infer what is more likely to happen next. Making such predictions requires not only a deep understanding of the rich dynamics underlying the video and dialogue, but also a significant amount of commonsense knowledge. In this work, we explore whether AI models are able to learn to make such multimodal commonsense next-event predictions. To support research in this direction, we collect a new dataset, named Video-and-Language Event Prediction (VLEP), with 28,726 future event prediction examples (along with their rationales) from 10,234 diverse TV Show and YouTube Lifestyle Vlog video clips. In order to promote the collection of non-trivial challenging examples, we employ an adversarial human-and-model-in-the-loop data collection procedure. We also present a strong baseline incorporating information from video, dialogue, and commonsense knowledge. Experiments show that each type of information is useful for this challenging task, and that compared to the high human performance on VLEP, our model provides a good starting point but leaves large room for future work. Our dataset and code are available at: https://github.com/jayleicn/VideoLanguageFuturePred
翻訳日:2022-10-07 02:41:46 公開日:2020-10-15
# mast: trimodal hierarchy attention を用いたマルチモーダル抽象要約

MAST: Multimodal Abstractive Summarization with Trimodal Hierarchical Attention ( http://arxiv.org/abs/2010.08021v1 )

ライセンス: Link先を確認
Aman Khullar, Udit Arora(参考訳) 本稿では,マルチモーダル映像におけるテキスト,オーディオ,ビデオの3つのモダリティすべてからの情報を活用する,マルチモーダル抽象テキスト要約の新しいモデルであるmastを提案する。 マルチモーダル抽象テキスト要約の先行研究は、テキストとビデオのモダリティからの情報のみを利用した。 本稿では,音声モダリティから情報を引き出すの有用性と課題について検討し,テキストモダリティにもっと注意を払わせることにより,これらの課題を克服するシーケンス・ツー・シーケンシャルな階層的注意に基づくモデルを提案する。 マストは、マルチモーダル言語理解のためのhow2データセットのルージュlスコアの観点で、コンテンツf1スコアで2.51ポイント、1.00ポイントのアートモデル(ビデオテキスト)の現在の状態を上回っている。

This paper presents MAST, a new model for Multimodal Abstractive Text Summarization that utilizes information from all three modalities -- text, audio and video -- in a multimodal video. Prior work on multimodal abstractive text summarization only utilized information from the text and video modalities. We examine the usefulness and challenges of deriving information from the audio modality and present a sequence-to-sequence trimodal hierarchical attention-based model that overcomes these challenges by letting the model pay more attention to the text modality. MAST outperforms the current state of the art model (video-text) by 2.51 points in terms of Content F1 score and 1.00 points in terms of Rouge-L score on the How2 dataset for multimodal language understanding.
翻訳日:2022-10-07 02:40:43 公開日:2020-10-15
# 過失か過失か? 対人訓練におけるロバストネス低下の理解

Overfitting or Underfitting? Understand Robustness Drop in Adversarial Training ( http://arxiv.org/abs/2010.08034v1 )

ライセンス: Link先を確認
Zichao Li and Liyuan Liu and Chengyu Dong and Jingbo Shang(参考訳) 私たちの目標は、敵のトレーニングを長く続けると、なぜロバスト性が低下するのかを理解することです。 この現象はオーバーフィッティングとして一般的に説明されるが,本分析では摂動不適合が主な原因であることが示唆されている。 FGSMによる摂動は, 長時間のトレーニングの後, ランダムノイズに劣化することが観察された。 直感的には、摂動発生器を強化するためのパラメータ更新は行われないので、このプロセスが崩壊すると、そのような局所的な最適化に閉じ込められる可能性がある。 また、このプロセスの高度化は、この現象が過剰なフィッティングではなく過フィッティングによって引き起こされるというロバスト性低下をほとんど避ける可能性がある。 そこで本研究では,摂動発生をパラメータ化し,それらを徐々に強化する適応的対向訓練フレームワークAPARTを提案する。 弱体化から摂動を守ることは、我々のフレームワークの可能性を解き放つ。 我々の実験では、APARTはPGD-10と同等かそれ以上の堅牢性を提供し、計算コストの約1/4しか提供していない。

Our goal is to understand why the robustness drops after conducting adversarial training for too long. Although this phenomenon is commonly explained as overfitting, our analysis suggest that its primary cause is perturbation underfitting. We observe that after training for too long, FGSM-generated perturbations deteriorate into random noise. Intuitively, since no parameter updates are made to strengthen the perturbation generator, once this process collapses, it could be trapped in such local optima. Also, sophisticating this process could mostly avoid the robustness drop, which supports that this phenomenon is caused by underfitting instead of overfitting. In the light of our analyses, we propose APART, an adaptive adversarial training framework, which parameterizes perturbation generation and progressively strengthens them. Shielding perturbations from underfitting unleashes the potential of our framework. In our experiments, APART provides comparable or even better robustness than PGD-10, with only about 1/4 of its computational cost.
翻訳日:2022-10-07 02:40:11 公開日:2020-10-15