このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210124となっている論文です。

PDF登録状況(公開日: 20210124)

TitleAuthorsAbstract論文公表日・翻訳日
# 画像検索のためのマージンスケーラブル制約付き自己教師付き非対称深度ハッシュ

Self-supervised asymmetric deep hashing with margin-scalable constraint for image retrieval ( http://arxiv.org/abs/2012.03820v2 )

ライセンス: Link先を確認
Zhengyang Yu, Zhihao Dou, Erwin M.Bakker and Song Wu(参考訳) 効果性と効率性から,特に大規模視覚探索において,深いハッシュ手法に基づく画像検索が広く用いられている。 しかし,既存のディープハッシュ手法の多くは,より高度な意味空間探索を行うことなく,特徴学習ネットワークのガイダンスとしてラベル情報を不適切に活用している。 また、ハミング空間における類似性相関は完全には発見されず、ハッシュ符号に組み込まれているため、ペアワイズ相関とマルチラベル意味論の非効率な保存により検索品質が低下する。 これらの問題に対処するため,画像検索のための近距離縮小制約(SADH)を用いた自己教師付き非対称深度ハッシュ法を提案する。 sadhは、セマンティクス特徴マップにセマンティクス情報を保存するための自己教師付きネットワークと、与えられたデータセットのセマンティクスのためのセマンティクスコードマップを実装し、機能学習ネットワークを効率的かつ正確にガイドし、非対称学習戦略を用いてマルチラベルセマンティクス情報を保存する。 さらに、特徴学習部では、セマンティックマップをさらに活用することにより、ハミング空間におけるペア関係の高精度な構築とより差別的なハッシュコード表現の両方に、新たなマージンスケータブル制約を用いる。 3つのベンチマークデータセットに関する広範な実証研究は、提案手法を検証し、いくつかの最先端のアプローチよりも優れています。

Due to its effectivity and efficiency, image retrieval based on deep hashing approaches is widely used especially for large-scale visual search. However, many existing deep hashing methods inadequately utilize label information as guidance for feature learning networks without more advanced exploration of the semantic space. Besides the similarity correlations in the Hamming space are not fully discovered and embedded into hash codes, by which the retrieval quality is diminished with inefficient preservation of pairwise correlations and multi-label semantics. To cope with these problems, we propose a novel self-supervised asymmetric deep hashing method with a margin-scalable constraint(SADH) approach for image retrieval. SADH implements a self-supervised network to preserve semantic information in a semantic feature map and a semantic code map for the semantics of the given dataset, which efficiently and precisely guides a feature learning network to preserve multi-label semantic information using an asymmetric learning strategy. Moreover, for the feature learning part, by further exploiting semantic maps, a new margin-scalable constraint is employed for both highly-accurate construction of pairwise correlations in the hamming space and a more discriminative hash code representation. Extensive empirical research on three benchmark datasets validates the proposed method and shows it outperforms several state-of-the-art approaches.
翻訳日:2021-05-16 21:22:26 公開日:2021-01-24
# 最適化のないGAN「ステアビリティ」

GAN "Steerability" without optimization ( http://arxiv.org/abs/2012.05328v2 )

ライセンス: Link先を確認
Nurit Spingarn-Eliezer, Ron Banner and Tomer Michaeli(参考訳) 近年の研究では、事前訓練されたGANの潜伏空間における「操舵」の方向を明らかにすることに成功した。 これらの方向は、例えばシフト、ズーム、色操作といった意味論的に意味のある画像変換に対応し、GANが生成できるすべてのカテゴリで同様の解釈可能な効果を持つ。 ユーザ指定の変換にフォーカスする手法もあるが、教師なしの方法で変換を発見する方法もある。 しかしながら、既存のすべての手法はこれらの方向を公開する最適化手順に依存しており、異なる変換間の許容される相互作用の程度を制御できない。 本稿では, 発電機の重みから直接「操舵」軌道をクローズドな形で計算でき, 訓練や最適化は行わないことを示す。 これは、ユーザが指定した幾何学的変換や、より複雑な効果の教師なし発見に適用できる。 提案手法は線形軌道と非線形軌道の両方を決定できるため,従来の手法よりも多くの利点がある。 特に、ある変換が別の変換を犠牲にすることを許すかどうか(例)を制御できる。 翻訳が対象を中心にしておくことを許さないか、でズームインする)。 さらに、軌道の自然な端点を決定できるが、これは変換が劣化を起こすことなく適用できる最大の範囲に対応する。 最後に,画像間の属性の転送を最適化することなく,カテゴリ毎に行う方法を示す。

Recent research has shown remarkable success in revealing "steering" directions in the latent spaces of pre-trained GANs. These directions correspond to semantically meaningful image transformations e.g., shift, zoom, color manipulations), and have similar interpretable effects across all categories that the GAN can generate. Some methods focus on user-specified transformations, while others discover transformations in an unsupervised manner. However, all existing techniques rely on an optimization procedure to expose those directions, and offer no control over the degree of allowed interaction between different transformations. In this paper, we show that "steering" trajectories can be computed in closed form directly from the generator's weights without any form of training or optimization. This applies to user-prescribed geometric transformations, as well as to unsupervised discovery of more complex effects. Our approach allows determining both linear and nonlinear trajectories, and has many advantages over previous methods. In particular, we can control whether one transformation is allowed to come on the expense of another (e.g. zoom-in with or without allowing translation to keep the object centered). Moreover, we can determine the natural end-point of the trajectory, which corresponds to the largest extent to which a transformation can be applied without incurring degradation. Finally, we show how transferring attributes between images can be achieved without optimization, even across different categories.
翻訳日:2021-05-16 01:58:44 公開日:2021-01-24
# グラフへのトランスフォーマーネットワークの一般化

A Generalization of Transformer Networks to Graphs ( http://arxiv.org/abs/2012.09699v2 )

ライセンス: Link先を確認
Vijay Prakash Dwivedi, Xavier Bresson(参考訳) 任意のグラフに対するトランスフォーマーニューラルネットワークアーキテクチャの一般化を提案する。 元々のトランスフォーマーは自然言語処理(NLP)のために設計され、シーケンス内の単語間のすべての接続を表す完全に連結されたグラフで動作する。 このようなアーキテクチャはグラフ接続帰納バイアスを生かせず、グラフトポロジが重要であり、ノード機能にエンコードされていない場合、パフォーマンスが良くない。 標準モデルと比較して4つの新しい特性を持つグラフ変換器を導入する。 まず、注意機構は、グラフの各ノードの近傍接続の関数である。 第二に、位置エンコーディングはラプラシア固有ベクターによって表現され、NLPでよく使われる正弦波位置エンコーディングを自然に一般化する。 第三に、レイヤー正規化はバッチ正規化層に置き換えられ、より高速なトレーニングとより優れた一般化性能を提供する。 最後に、アーキテクチャはエッジ特徴表現に拡張され、化学(結合型)やリンク予測(知識グラフにおけるエンタリティ関係)といったタスクに重要なものとなる。 グラフベンチマークにおける数値実験により,提案するグラフトランスフォーマーの性能を示す。 この研究は、ライングラフの限られたケース用に設計されたオリジナルのトランスフォーマーと、任意のグラフで動作可能なグラフニューラルネットワークとのギャップを埋めるものだ。 私たちのアーキテクチャはシンプルで汎用的であるため、トランスフォーマーとグラフを考慮に入れたい将来のアプリケーションのためのブラックボックスとして使用できると信じています。

We propose a generalization of transformer neural network architecture for arbitrary graphs. The original transformer was designed for Natural Language Processing (NLP), which operates on fully connected graphs representing all connections between the words in a sequence. Such architecture does not leverage the graph connectivity inductive bias, and can perform poorly when the graph topology is important and has not been encoded into the node features. We introduce a graph transformer with four new properties compared to the standard model. First, the attention mechanism is a function of the neighborhood connectivity for each node in the graph. Second, the positional encoding is represented by the Laplacian eigenvectors, which naturally generalize the sinusoidal positional encodings often used in NLP. Third, the layer normalization is replaced by a batch normalization layer, which provides faster training and better generalization performance. Finally, the architecture is extended to edge feature representation, which can be critical to tasks s.a. chemistry (bond type) or link prediction (entity relationship in knowledge graphs). Numerical experiments on a graph benchmark demonstrate the performance of the proposed graph transformer architecture. This work closes the gap between the original transformer, which was designed for the limited case of line graphs, and graph neural networks, that can work with arbitrary graphs. As our architecture is simple and generic, we believe it can be used as a black box for future applications that wish to consider transformer and graphs.
翻訳日:2021-05-02 07:20:03 公開日:2021-01-24
# 一様安定アルゴリズムの厳密な下限

A Tight Lower Bound for Uniformly Stable Algorithms ( http://arxiv.org/abs/2012.13326v2 )

ライセンス: Link先を確認
Qinghua Liu, Zhou Lu(参考訳) アルゴリズムの安定性を利用して鋭い一般化境界を導出することは、学習理論において古典的かつ強力なアプローチである。 Vapnik と Chervonenkis [1974] が最初に SVM の解析のアイデアを定式化して以来、多くの基本的な学習アルゴリズムの研究に利用されてきた(例えば、$k$-nearest neighbors [Rogers and Wagner, 1978]、確率勾配法 [Hardt et al., 2016]、線形回帰 (Maurer, 2017) など)。 feldman and vondrak [2018, 2019] と bousquet et al による最近の偉大な作品のラインで。 [2020b] は、任意の均一な$\gamma$-stableアルゴリズムと$L$-bounded loss関数に対して、位数 $\tilde{\mathcal{O}}(\gamma +\frac{L}{\sqrt{n}})$ の確率一般化上界を証明する。 安定アルゴリズムの一般化上界の証明には多くの進歩があったが、下界の知識は比較的限られている。 実際、一様安定性の研究 (Bousquet and Elisseeff, 2002) 以来、我々の知る限りでは、非自明な下界は知られていない。 本稿では,最もよく知られた上限値から対数因子に一致する順序 $\omega(\gamma+\frac{l}{\sqrt{n}})$ の厳密な一般化を証明し,そのギャップを埋める。

Leveraging algorithmic stability to derive sharp generalization bounds is a classic and powerful approach in learning theory. Since Vapnik and Chervonenkis [1974] first formalized the idea for analyzing SVMs, it has been utilized to study many fundamental learning algorithms (e.g., $k$-nearest neighbors [Rogers and Wagner, 1978], stochastic gradient method [Hardt et al., 2016], linear regression [Maurer, 2017], etc). In a recent line of great works by Feldman and Vondrak [2018, 2019] as well as Bousquet et al. [2020b], they prove a high probability generalization upper bound of order $\tilde{\mathcal{O}}(\gamma +\frac{L}{\sqrt{n}})$ for any uniformly $\gamma$-stable algorithm and $L$-bounded loss function. Although much progress was achieved in proving generalization upper bounds for stable algorithms, our knowledge of lower bounds is rather limited. In fact, there is no nontrivial lower bound known ever since the study of uniform stability [Bousquet and Elisseeff, 2002], to the best of our knowledge. In this paper we fill the gap by proving a tight generalization lower bound of order $\Omega(\gamma+\frac{L}{\sqrt{n}})$, which matches the best known upper bound up to logarithmic factors
翻訳日:2021-04-25 08:27:45 公開日:2021-01-24
# (参考訳) 半格子と半加群の組み合わせ

Combining Semilattices and Semimodules ( http://arxiv.org/abs/2012.14778v3 )

ライセンス: CC BY 4.0
Filippo Bonchi and Alessio Santamaria(参考訳) 我々は、半環のクラスに対して$s$-left-semimodule monad $\mathcal s$ に対して、powerset monad $\mathcal p$ の標準的弱分散則 $\delta \colon \mathcal s \mathcal p \to \mathcal p \mathcal s$ を記述する。 そのような$\delta$ による $\mathcal P$ と $\mathcal S$ の合成は、それまでヤコブによって導入された凸部分集合のモナドのほとんどを収得する: 唯一の違いは、空凸集合のモナドが存在しないことである。 我々は、生成したモナドの代数理論と同様に、$\mathcal p$ から $\mathbb{em}(\mathcal s)$ の標準的弱持ち上げの便利な特徴付けを提供する。 最後に、構成されたモナドを有限生成凸部分集合に制限し、半加群と半格子と底部を結合した代数理論により、有限集合モナド $\mathcal p_f$ の代数として示されることを示した。

We describe the canonical weak distributive law $\delta \colon \mathcal S \mathcal P \to \mathcal P \mathcal S$ of the powerset monad $\mathcal P$ over the $S$-left-semimodule monad $\mathcal S$, for a class of semirings $S$. We show that the composition of $\mathcal P$ with $\mathcal S$ by means of such $\delta$ yields almost the monad of convex subsets previously introduced by Jacobs: the only difference consists in the absence in Jacobs's monad of the empty convex set. We provide a handy characterisation of the canonical weak lifting of $\mathcal P$ to $\mathbb{EM}(\mathcal S)$ as well as an algebraic theory for the resulting composed monad. Finally, we restrict the composed monad to finitely generated convex subsets and we show that it is presented by an algebraic theory combining semimodules and semilattices with bottom, which are the algebras for the finite powerset monad $\mathcal P_f$.
翻訳日:2021-04-19 01:12:40 公開日:2021-01-24
# Super-k: Voronoiテッセルレーションに基づくPiecewise Linear Classifier

Super-k: A Piecewise Linear Classifier Based on Voronoi Tessellations ( http://arxiv.org/abs/2012.15492v2 )

ライセンス: Link先を確認
Rahman Salim Zengin (1), Volkan Sezer (1) ((1) Istanbul Technical University)(参考訳) ボロノイテッセルレーションはユークリッド空間を、ボロノイ細胞と呼ばれる多面体領域に分割するために用いられる。 クラス情報でボロノイ細胞をラベル付けすることで、分類問題をボロノイテッセルレーションにマッピングすることができる。 このようにして、分類問題は、囲むボロノイセルを見つけるためのクエリに変化する。 この課題を達成するために,訓練データを多面体領域に分割し,間接的な結果としてクラス間境界を得るラベル付きボロノイテッセレーションを生成する新しいアルゴリズムを開発した。 我々は、Super-kを基礎となる新しいアルゴリズムとして導入し、新しいアルゴリズムファミリーの可能性を開く。 本稿では,いくつかのデータセットの比較を通じて,スーパーkアルゴリズムが,svmの既知のアルゴリズムの精度とトレーニング性能を,より少ない複雑さで提供できることを示す。 さらに、Super-kアルゴリズムは例外的な推論性能を有する。 実験結果によると、Super-kアルゴリズムは競合他社よりも少なくとも100倍高速である。

Voronoi tessellations are used to partition the Euclidean space into polyhedral regions, which are called Voronoi cells. Labeling the Voronoi cells with the class information, we can map any classification problem into a Voronoi tessellation. In this way, the classification problem changes into a query of just finding the enclosing Voronoi cell. In order to accomplish this task, we have developed a new algorithm which generates a labeled Voronoi tessellation that partitions the training data into polyhedral regions and obtains interclass boundaries as an indirect result. It is called Supervised k-Voxels or in short Super-k. We are introducing Super-k as a foundational new algorithm and opening the possibility of a new family of algorithms. In this paper, it is shown via comparisons on certain datasets that the Super-k algorithm has the potential of providing similar accuracy and training performance of the well-known SVM family of algorithms with less complexity. Furthermore, the Super-k algorithm has an exceptional inference performance. According to the experimental results, the Super-k algorithm is at least a hundred-fold faster than its competitors.
翻訳日:2021-04-17 17:04:26 公開日:2021-01-24
# 球形変圧器:CNNへの球形信号適応

Spherical Transformer: Adapting Spherical Signal to CNNs ( http://arxiv.org/abs/2101.03848v2 )

ライセンス: Link先を確認
Haikuan Du and Hui Cao and Shen Cai and Junchi Yan and Siyu Zhang(参考訳) 畳み込みニューラルネットワーク(CNN)は様々な視覚タスクで広く使われている。 画像分類、意味セグメンテーションなど。 残念なことに、標準的な2d cnnはパノラマ画像や球面投影のような球面信号には適していない。 本稿では,球面信号のベクトル変換を標準CNNで直接処理できる球面変換器を提案する。 この目的のために,提案手法はまずHEALPixなどの局所的なサンプリング手法を用いて,球点とその隣接点の情報を用いてトランスフォーマグリッドを構築し,次いで,球面信号をグリッドを介してベクトルに変換する。 球面トランスフォーマーモジュールを構築することで、複数のcnnアーキテクチャを直接使用できる。 我々は,球面MNIST認識,3次元オブジェクト分類,全方向画像セマンティックセグメンテーションの課題に対するアプローチを評価する。 さらに, 3次元物体分類のために, 性能向上のためのレンダリングに基づく投影法と, 反回転能力向上のための回転同変モデルを提案する。 3つの課題に対する実験結果から,本手法は最先端手法よりも優れた性能を示すことが示された。

Convolutional neural networks (CNNs) have been widely used in various vision tasks, e.g. image classification, semantic segmentation, etc. Unfortunately, standard 2D CNNs are not well suited for spherical signals such as panorama images or spherical projections, as the sphere is an unstructured grid. In this paper, we present Spherical Transformer which can transform spherical signals into vectors that can be directly processed by standard CNNs such that many well-designed CNNs architectures can be reused across tasks and datasets by pretraining. To this end, the proposed method first uses locally structured sampling methods such as HEALPix to construct a transformer grid by using the information of spherical points and its adjacent points, and then transforms the spherical signals to the vectors through the grid. By building the Spherical Transformer module, we can use multiple CNN architectures directly. We evaluate our approach on the tasks of spherical MNIST recognition, 3D object classification and omnidirectional image semantic segmentation. For 3D object classification, we further propose a rendering-based projection method to improve the performance and a rotational-equivaria nt model to improve the anti-rotation ability. Experimental results on three tasks show that our approach achieves superior performance over state-of-the-art methods.
翻訳日:2021-04-04 14:41:15 公開日:2021-01-24
# 有限vc次元のバイナリ文字列

Binary strings of finite VC dimension ( http://arxiv.org/abs/2101.06490v2 )

ライセンス: Link先を確認
Hunter R Johnson(参考訳) 任意のバイナリ文字列は、unarypredicate $p$ on $\mathbb{n}$と関連付けることができる。 本稿では、P(x+y)$ が有限VC次元を持つような述語 $P$ によって与えられる部分集合について検討する。 これは、標準的な文字列複雑性関数(サブストリングの多様性に基づく)とは異なる性質を持つバイナリ文字列に対する複雑性の尺度を提供する。 我々は、有界なvc次元の文字列が実数体のトポロジーにおいて単純であることを証明し、文字列のvc次元を束縛するための簡単な規則を提供し、vc次元 $d$ の無限の文字列が非実数シフト空間であることを示す。 さらに、低VC次元(0,1,2)の既約文字列を特徴づけ、数学的論理と接続する。

Any binary string can be associated with a unary predicate $P$ on $\mathbb{N}$. In this paper we investigate subsets named by a predicate $P$ such that the relation $P(x+y)$ has finite VC dimension. This provides a measure of complexity for binary strings with different properties than the standard string complexity function (based on diversity of substrings). We prove that strings of bounded VC dimension are meagre in the topology of the reals, provide simple rules for bounding the VC dimension of a string, and show that the bi-infinite strings of VC dimension $d$ are a non-sofic shift space. Additionally we characterize the irreducible strings of low VC dimension (0,1 and 2), and provide connections to mathematical logic.
翻訳日:2021-03-28 04:30:01 公開日:2021-01-24
# 低音源音声認識のための事前学習音響および言語エンコーダの有効利用

Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for Low-resource Speech Recognition ( http://arxiv.org/abs/2101.06699v2 )

ライセンス: Link先を確認
Cheng Yi, Shiyu Zhou, Bo Xu(参考訳) エンドツーエンドモデルは自動音声認識(ASR)のタスクにおいて印象的な結果を得た。 しかし、低リソースのASRタスクでは、ラベル付きデータはエンドツーエンドモデルの要求を満たすことはほとんどできない。 自己教師付きアコースティックプリトレーニングはすでに素晴らしいasr性能を示していますが、エンドツーエンドモデルの言語モデリングには依然として不十分です。 本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。 融合モデルは、限定ラベル付きデータの微調整中に音声から言語への変換を学習するのみである。 2つのモダリティの長さは、追加のパラメータなしで単調な注意機構によって一致します。 さらに、モダリティ間の隠れたマッピングのために、完全連結層が導入された。 さらに,事前学習した言語エンコーダのテキストコンテキストモデリング能力を保存し,活用するための微調整戦略を提案する。 実験により,事前学習モジュールの有効利用が示された。 本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。

End-to-end models have achieved impressive results on the task of automatic speech recognition (ASR). For low-resource ASR tasks, however, labeled data can hardly satisfy the demand of end-to-end models. Self-supervised acoustic pre-training has already shown its amazing ASR performance, while the transcription is still inadequate for language modeling in end-to-end models. In this work, we fuse a pre-trained acoustic encoder (wav2vec2.0) and a pre-trained linguistic encoder (BERT) into an end-to-end ASR model. The fused model only needs to learn the transfer from speech to language during fine-tuning on limited labeled data. The length of the two modalities is matched by a monotonic attention mechanism without additional parameters. Besides, a fully connected layer is introduced for the hidden mapping between modalities. We further propose a scheduled fine-tuning strategy to preserve and utilize the text context modeling ability of the pre-trained linguistic encoder. Experiments show our effective utilizing of pre-trained modules. Our model achieves better recognition performance on CALLHOME corpus (15 hours) than other end-to-end models.
翻訳日:2021-03-27 20:14:04 公開日:2021-01-24
# (参考訳) Kimera:3DダイナミックシーングラフによるSLAMから空間知覚へ

Kimera: from SLAM to Spatial Perception with 3D Dynamic Scene Graphs ( http://arxiv.org/abs/2101.06894v2 )

ライセンス: CC BY 4.0
Antoni Rosinol, Andrew Violette, Marcus Abate, Nathan Hughes, Yun Chang, Jingnan Shi, Arjun Gupta, Luca Carlone(参考訳) 人間は、移動する環境の複雑なメンタルモデルを形成することができる。 このメンタルモデルは、シーンの幾何学的・意味的な側面を捉え、複数の抽象レベル(例えば、オブジェクト、部屋、建物)の環境を記述する。 対照的に、現在のロボットの内部表現は、スパースまたは密集した幾何学的原始体(例えば、点、線、平面、ボクセル)の形で、あるいはオブジェクトの集合として、環境を部分的に断片的に理解している。 本稿では,3次元ダイナミックシーングラフ(DSG)を導入することで,ロボットと人間の知覚のギャップを減らし,ダイナミック環境の計量的側面と意味的側面をシームレスにキャプチャする手法を提案する。 DSGは、ノードが異なる抽象レベルで空間概念を表現する階層グラフであり、エッジはノード間の時空間関係を表す。 第2の貢献はkimeraで、ビジュアル慣性データからdsgを構築する最初の完全自動メソッドです。 Kimeraには、ビジュアル・慣性SLAM、メトリック・セマンティック3D再構成、オブジェクトのローカライゼーション、人間のポーズと形状の推定、シーン解析のための最先端技術が含まれている。 第3のコントリビューションは、屋内と屋外の混み合ったシーンの集合をシミュレートする、新たにリリースされたデータセットuHumans2を含む、実際のデータセットと写真リアルなシミュレーションにおけるKimeraの包括的な評価である。 評価の結果,Kimera は視覚慣性SLAM の最先端性能を実現し,高精度な3次元メトリセマンティックメッシュモデルをリアルタイムで推定し,複雑な屋内環境のDSGを数個のオブジェクトと人間で数分で構築した。 最後のコントリビューションは、DSGをリアルタイムな階層的セマンティックパス計画に利用する方法を示している。 Kimeraのコアモジュールはオープンソースである。

Humans are able to form a complex mental model of the environment they move in. This mental model captures geometric and semantic aspects of the scene, describes the environment at multiple levels of abstractions (e.g., objects, rooms, buildings), includes static and dynamic entities and their relations (e.g., a person is in a room at a given time). In contrast, current robots' internal representations still provide a partial and fragmented understanding of the environment, either in the form of a sparse or dense set of geometric primitives (e.g., points, lines, planes, voxels) or as a collection of objects. This paper attempts to reduce the gap between robot and human perception by introducing a novel representation, a 3D Dynamic Scene Graph(DSG), that seamlessly captures metric and semantic aspects of a dynamic environment. A DSG is a layered graph where nodes represent spatial concepts at different levels of abstraction, and edges represent spatio-temporal relations among nodes. Our second contribution is Kimera, the first fully automatic method to build a DSG from visual-inertial data. Kimera includes state-of-the-art techniques for visual-inertial SLAM, metric-semantic 3D reconstruction, object localization, human pose and shape estimation, and scene parsing. Our third contribution is a comprehensive evaluation of Kimera in real-life datasets and photo-realistic simulations, including a newly released dataset, uHumans2, which simulates a collection of crowded indoor and outdoor scenes. Our evaluation shows that Kimera achieves state-of-the-art performance in visual-inertial SLAM, estimates an accurate 3D metric-semantic mesh model in real-time, and builds a DSG of a complex indoor environment with tens of objects and humans in minutes. Our final contribution shows how to use a DSG for real-time hierarchical semantic path-planning. The core modules in Kimera are open-source.
翻訳日:2021-03-27 17:02:21 公開日:2021-01-24
# 抽象オピニオンタグ

Abstractive Opinion Tagging ( http://arxiv.org/abs/2101.06880v2 )

ライセンス: Link先を確認
Qintong Li, Piji Li, Xinyi Li, Zhaochun Ren, Zhumin Chen, Maarten de Rijke(参考訳) eコマースでは、意見タグは、アイテムのレビューの特徴を反映したEコマースプラットフォームが提供するタグのランクリストを指す。 消費者が商品に関する多くのレビューを素早く把握できるようにするために、電子商取引プラットフォームでは意見タグがますます適用されている。 意見タグを生成するための現在のメカニズムは、手動ラベリングまたはヒューリスティックな手法に依存している。 本稿では,ユーザが生成したレビューのセットに基づいて,意見タグのランク付けリストを自動的に生成しなければならない抽象的意見タグ付けタスクを提案する。 要約的な意見タグ付けタスクには,(1)レビューのうるさい性質,(2)レビューにおける意見タグの形式的性質,(3)レビューにおける口語使用法,(3)非常に類似した側面の異なる項目を区別する必要性,の3つの課題がある。 これらの課題に対処するために,aot-net という抽象的意見タグフレームワークを提案し,多数のレビューを与えられた意見タグのランク付けリストを生成する。 まず、文章レベルのサリエンス推定成分が各レビューのサリエンススコアを推定する。 次に、レビューのクラスタリングとランキングのコンポーネントがレビューを2つのステップでランク付けする。 まず、レビューはクラスタにグループ化され、クラスタのサイズでランク付けされる。 最後に、ランク付けされたレビューから、ランク付けされた意見タグ付けコンポーネントは、アライメント機能とアライメントロスを組み込んで、ランク付けされた意見タグのリストを生成する。 このタスクの研究を容易にするために、現実世界のeコマースウェブサイトからクロールされたeComTagと呼ばれる大規模なデータセットを作成し、リリースする。 eComTagデータセット上で行った大規模な実験は、様々な評価指標を用いて提案したAOT-Netの有効性を検証する。

In e-commerce, opinion tags refer to a ranked list of tags provided by the e-commerce platform that reflect characteristics of reviews of an item. To assist consumers to quickly grasp a large number of reviews about an item, opinion tags are increasingly being applied by e-commerce platforms. Current mechanisms for generating opinion tags rely on either manual labelling or heuristic methods, which is time-consuming and ineffective. In this paper, we propose the abstractive opinion tagging task, where systems have to automatically generate a ranked list of opinion tags that are based on, but need not occur in, a given set of user-generated reviews. The abstractive opinion tagging task comes with three main challenges: (1) the noisy nature of reviews; (2) the formal nature of opinion tags vs. the colloquial language usage in reviews; and (3) the need to distinguish between different items with very similar aspects. To address these challenges, we propose an abstractive opinion tagging framework, named AOT-Net, to generate a ranked list of opinion tags given a large number of reviews. First, a sentence-level salience estimation component estimates each review's salience score. Next, a review clustering and ranking component ranks reviews in two steps: first, reviews are grouped into clusters and ranked by cluster size; then, reviews within each cluster are ranked by their distance to the cluster center. Finally, given the ranked reviews, a rank-aware opinion tagging component incorporates an alignment feature and alignment loss to generate a ranked list of opinion tags. To facilitate the study of this task, we create and release a large-scale dataset, called eComTag, crawled from real-world e-commerce websites. Extensive experiments conducted on the eComTag dataset verify the effectiveness of the proposed AOT-Net in terms of various evaluation metrics.
翻訳日:2021-03-27 06:00:26 公開日:2021-01-24
# 物体検出のための半自動ビデオアノテーション

Semi-Automatic Video Annotation For Object Detection ( http://arxiv.org/abs/2101.06977v2 )

ライセンス: Link先を確認
Kutalmis Gokalp Ince, Aybora Koksal, Arda Fazla, A. Aydin Alatan(参考訳) 本研究では,複数仮説追跡(multiple hypothesis tracking:mht)を用いた追跡・検出手法を用いて,時間情報を用いて偽陽性を除去した半自動ビデオアノテーション手法を提案する。 MHT法は人間の操作者によって確認されたトラックレットを自動生成してトレーニングセットを拡大する。 新しいインクリメンタル学習アプローチは、ビデオに反復的な注釈をつけるのに役立つ。 AUTH Multidrone Datasetで行った実験では、提案手法によりアノテーションのワークロードを最大96%削減できることがわかった。

In this study, a semi-automatic video annotation method is proposed which utilizes temporal information to eliminate false-positives with a tracking-by-detectio n approach by employing multiple hypothesis tracking (MHT). MHT method automatically forms tracklets which are confirmed by human operators to enlarge the training set. A novel incremental learning approach helps to annotate videos in an iterative way. The experiments performed on AUTH Multidrone Dataset reveals that the annotation workload can be reduced up to 96% by the proposed approach.
翻訳日:2021-03-27 05:56:33 公開日:2021-01-24
# (参考訳) 並列コーパス上の微調整埋め込みによる単語アライメント [全文訳有]

Word Alignment by Fine-tuning Embeddings on Parallel Corpora ( http://arxiv.org/abs/2101.08231v2 )

ライセンス: CC BY 4.0
Zi-Yi Dou, Graham Neubig(参考訳) 並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。 単語アライメントに関する過去の研究の大部分は、並列テキストで教師なしの学習を行うことで行われている。 しかし,近年,多言語学習言語モデル (LM) に基づく事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。 本稿では,事前学習したlmsを並列テキストに微調整し,アライメント品質を向上させるための目標と,これらの微調整モデルからアライメントを効果的に抽出する手法を提案する。 我々は5つの言語対の実験を行い、我々のモデルはすべての多様体の過去の最先端モデルより一貫して優れていることを示した。 さらに、異なる言語対上で堅牢な性能が得られる多言語単語整合器を訓練できることを実証した。 AWESOME (Aligning Word Embedding Spaces of Multilingual Encoders)と事前トレーニング済みのモデルはhttps://github.com/n eulab/awesome-alignで利用可能です。

Word alignment over parallel corpora has a wide variety of applications, including learning translation lexicons, cross-lingual transfer of language processing tools, and automatic evaluation or analysis of translation outputs. The great majority of past work on word alignment has worked by performing unsupervised learning on parallel texts. Recently, however, other work has demonstrated that pre-trained contextualized word embeddings derived from multilingually trained language models (LMs) prove an attractive alternative, achieving competitive results on the word alignment task even in the absence of explicit training on parallel data. In this paper, we examine methods to marry the two approaches: leveraging pre-trained LMs but fine-tuning them on parallel text with objectives designed to improve alignment quality, and proposing methods to effectively extract alignments from these fine-tuned models. We perform experiments on five language pairs and demonstrate that our model can consistently outperform previous state-of-the-art models of all varieties. In addition, we demonstrate that we are able to train multilingual word aligners that can obtain robust performance on different language pairs. Our aligner, AWESOME (Aligning Word Embedding Spaces of Multilingual Encoders), with pre-trained models is available at https://github.com/n eulab/awesome-align
翻訳日:2021-03-22 04:51:06 公開日:2021-01-24
# (参考訳) 無人航空機のオールデイ物体追跡 [全文訳有]

All-Day Object Tracking for Unmanned Aerial Vehicle ( http://arxiv.org/abs/2101.08446v2 )

ライセンス: CC BY 4.0
Bowen Li, Changhong Fu, Fangqiang Ding, Junjie Ye, Fuling Lin(参考訳) 画像処理分野に大きな関心を寄せているビジュアルオブジェクトトラッキングは、多くの現実世界のアプリケーションに役立っている。 そのうちの1つは、無人航空機(UAV)にリアルタイムの堅牢なビジュアルトラッカーを1日中搭載し、現在徐々に注目を集めており、物体追跡の適用範囲を大きく広げている。 しかし、先行追跡手法は、照らされたシーンにおけるロバストなトラッキングにのみ焦点を合わせ、暗闇の中でのトラッカーの能力を無視している。 暗闇では、状況はより複雑で厳しくなり、ロバストな追跡や障害追跡が容易になる。 そこで本研究では,照度適応とアンチダーク能力を備えた新しい識別相関フィルタに基づくトラッカー,すなわちADTrackを提案する。 ADTrackはまず画像照度情報を利用して、与えられた光条件へのモデルの適応性を実現する。 そして、効率的かつ効果的な画像強調器により、ターゲット認識マスクが生成される画像前処理を行う。 ADTrackはマスクの利点を生かして、コンテキストフィルタとターゲット集中フィルタを相互制約でトレーニングする二重回帰問題を解くことを目的としている。 したがって、ADTrackは一日中、継続的なパフォーマンスを維持することができる。 この研究は、UAVの夜間追跡ベンチマークであるUAVDark135も構築し、125k以上の手動アノテートフレームで構成された。 露光実験は、UAV123 10fps、DTB70、新しく作られた暗黒ベンチマークUAVDark135で拡張され、単一のCPU上での明るさと暗黒条件の両方でADTrackの優位性を検証した。

Visual object tracking, which is representing a major interest in image processing field, has facilitated numerous real world applications. Among them, equipping unmanned aerial vehicle (UAV) with real time robust visual trackers for all day aerial maneuver, is currently attracting incremental attention and has remarkably broadened the scope of applications of object tracking. However, prior tracking methods have merely focused on robust tracking in the well-illuminated scenes, while ignoring trackers' capabilities to be deployed in the dark. In darkness, the conditions can be more complex and harsh, easily posing inferior robust tracking or even tracking failure. To this end, this work proposed a novel discriminative correlation filter based tracker with illumination adaptive and anti dark capability, namely ADTrack. ADTrack firstly exploits image illuminance information to enable adaptability of the model to the given light condition. Then, by virtue of an efficient and effective image enhancer, ADTrack carries out image pretreatment, where a target aware mask is generated. Benefiting from the mask, ADTrack aims to solve a dual regression problem where dual filters, i.e., the context filter and target focused filter, are trained with mutual constraint. Thus ADTrack is able to maintain continuously favorable performance in all-day conditions. Besides, this work also constructed one UAV nighttime tracking benchmark UAVDark135, comprising of more than 125k manually annotated frames, which is also very first UAV nighttime tracking benchmark. Exhaustive experiments are extended on authoritative daytime benchmarks, i.e., UAV123 10fps, DTB70, and the newly built dark benchmark UAVDark135, which have validated the superiority of ADTrack in both bright and dark conditions on a single CPU.
翻訳日:2021-03-21 21:46:47 公開日:2021-01-24
# (参考訳) マンモグラフィ画像における乳腺腫瘍分類のためのDenseNet [全文訳有]

DenseNet for Breast Tumor Classification in Mammographic Images ( http://arxiv.org/abs/2101.09637v1 )

ライセンス: CC BY 4.0
Yuliana Jim\'enez Gaona, Mar\'ia Jos\'e Rodriguez-Alvarez, Hector Espin\'o Morat\'o, Darwin Castillo Malla, and Vasudevan Lakshminarayanan(参考訳) 乳癌は女性にとって最も一般的な浸潤癌であり、死因は第2位である。 乳癌検診は乳腺病変の早期発見に有効な方法である。 女性のスクリーニングの一般的なアプローチは、トモ合成とマンモグラフィー画像である。 しかし、従来の手技による診断は、診断ミスをしがちな病理医による激しい作業を必要とする。 そこで本研究では,マンモグラフィ画像における乳腺病変の自動検出,分画,分類のための深層畳み込みニューラルネットワーク手法を構築することを目的とする。 ディープラーニングに基づいて,選択と抽出を特徴とするmask-cnn(roialign)法を開発し,drknet architectureを用いて分類を行った。 最後に、クロス検証行列とauc曲線を用いてモデルの精度と精度を評価する。 要約すると,本研究の知見は,医用画像分類による自動腫瘍局在化の診断と効率の向上に有効であると考えられる。

Breast cancer is the most common invasive cancer in women, and the second main cause of death. Breast cancer screening is an efficient method to detect indeterminate breast lesions early. The common approaches of screening for women are tomosynthesis and mammography images. However, the traditional manual diagnosis requires an intense workload by pathologists, who are prone to diagnostic errors. Thus, the aim of this study is to build a deep convolutional neural network method for automatic detection, segmentation, and classification of breast lesions in mammography images. Based on deep learning the Mask-CNN (RoIAlign) method was developed to features selection and extraction; and the classification was carried out by DenseNet architecture. Finally, the precision and accuracy of the model is evaluated by cross validation matrix and AUC curve. To summarize, the findings of this study may provide a helpful to improve the diagnosis and efficiency in the automatic tumor localization through the medical image classification.
翻訳日:2021-03-19 09:19:26 公開日:2021-01-24
# (参考訳) FlowReg:光フローを用いた高速変形不能な医用画像登録

FlowReg: Fast Deformable Unsupervised Medical Image Registration using Optical Flow ( http://arxiv.org/abs/2101.09639v1 )

ライセンス: CC BY 4.0
Sergiu Mocanu, Alan R. Moody, April Khademi(参考訳) 神経画像アプリケーションのための教師なし画像登録のためのディープラーニングベースのフレームワークであるflowregを提案する。 システムは、連続的にトレーニングされる2つのアーキテクチャで構成されている。3Dにおける移動量と固定ボリュームの全体差を親和的に補正するFlowReg-Aと、2Dにおける微調整のためにスライス・バイ・スライスベースで画素方向の変形を実行するFlowReg-Oである。 アフィンネットワークは、大域的類似性を強制する相関損失関数に基づいて、3Dアフィン行列を回帰する。 変形可能なネットワークは、光フローネットワークFlowNet-Simpleに基づく2次元画像スライスで動作するが、3つの損失成分を持つ。 測光損失は画素強度差を最小化し、滑らかさ損失は隣接ベクトル間の等等等級を奨励し、固定画像スライスと移動画像スライス間の強度類似性を維持するために用いられる相関損失を助長する。 提案手法は,ANT,Demons,SE,Voxel morphの4つのオープンソース登録手法と比較した。 総計で4643個のFLAIR MR画像が認知症と血管疾患コホートから使用され、60以上の国際センターから取得され、取得パラメータは様々である。 組織の構造的整合性,空間的アライメント,強度類似性に着目した,定量的な新規登録評価指標の電池を提案する。 実験の結果,flowreg (flowreg-a+o) は,0.65の画素分割,0.80の相関係数,0.29の相互情報で,強度・空間アライメント指標に対する反復型登録アルゴリズムよりも優れた性能を示した。 ディープラーニングフレームワークのうち、FlowReg-AまたはFlowReg-A+Oは、メトリクスの1つを除いて、最高パフォーマンスを提供した。 その結果,flowregは解剖学と病理学の形状と構造を維持しつつ,強度と空間的類似性を得ることができることがわかった。

We propose FlowReg, a deep learning-based framework for unsupervised image registration for neuroimaging applications. The system is composed of two architectures that are trained sequentially: FlowReg-A which affinely corrects for gross differences between moving and fixed volumes in 3D followed by FlowReg-O which performs pixel-wise deformations on a slice-by-slice basis for fine tuning in 2D. The affine network regresses the 3D affine matrix based on a correlation loss function that enforces global similarity. The deformable network operates on 2D image slices based on the optical flow network FlowNet-Simple but with three loss components. The photometric loss minimizes pixel intensity differences differences, the smoothness loss encourages similar magnitudes between neighbouring vectors, and a correlation loss that is used to maintain the intensity similarity between fixed and moving image slices. The proposed method is compared to four open source registration techniques ANTs, Demons, SE, and Voxelmorph. In total, 4643 FLAIR MR imaging volumes are used from dementia and vascular disease cohorts, acquired from over 60 international centres with varying acquisition parameters. A battery of quantitative novel registration validation metrics are proposed that focus on the structural integrity of tissues, spatial alignment, and intensity similarity. Experimental results show FlowReg (FlowReg-A+O) performs better than iterative-based registration algorithms for intensity and spatial alignment metrics with a Pixelwise Agreement of 0.65, correlation coefficient of 0.80, and Mutual Information of 0.29. Among the deep learning frameworks, FlowReg-A or FlowReg-A+O provided the highest performance over all but one of the metrics. Results show that FlowReg is able to obtain high intensity and spatial similarity while maintaining the shape and structure of anatomy and pathology.
翻訳日:2021-03-19 09:08:46 公開日:2021-01-24
# (参考訳) 赤外・可視画像融合のためのデュアルブランチネットワーク [全文訳有]

A Dual-branch Network for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2101.09643v1 )

ライセンス: CC BY 4.0
Yu Fu, Xiao-Jun Wu(参考訳) 深層学習は、赤外線と可視画像融合の分野で急速に発展しているアプローチである。 この文脈では、深層ネットワークにおける高密度ブロックの利用は、浅層情報の利用を著しく改善し、GAN(Generative Adversarial Network)の組み合わせにより、2つのソース画像の融合性能も向上する。 本稿では,ネットワークの各層に入力された画像可視光画像を直接挿入する,密度の高いブロックとganに基づく新しい手法を提案する。 ssimと勾配損失関数を使い、平均二乗誤差損失よりも知覚に一貫性がある。 発電機と判別器の対角訓練後, 最終的に, 訓練されたエンドツーエンド核融合ネットワーク(ジェネレータネットワーク)が得られた。 提案手法により得られた融合画像は,複数の評価指標に基づいて良好なスコアが得られることを示す。 さらに,人間の視覚知覚に満足する複数のコントラストセットにおいて,融合画像の視覚効果が向上した。

Deep learning is a rapidly developing approach in the field of infrared and visible image fusion. In this context, the use of dense blocks in deep networks significantly improves the utilization of shallow information, and the combination of the Generative Adversarial Network (GAN) also improves the fusion performance of two source images. We propose a new method based on dense blocks and GANs , and we directly insert the input image-visible light image in each layer of the entire network. We use SSIM and gradient loss functions that are more consistent with perception instead of mean square error loss. After the adversarial training between the generator and the discriminator, we show that a trained end-to-end fusion network -- the generator network -- is finally obtained. Our experiments show that the fused images obtained by our approach achieve good score based on multiple evaluation indicators. Further, our fused images have better visual effects in multiple sets of contrasts, which are more satisfying to human visual perception.
翻訳日:2021-03-19 09:04:48 公開日:2021-01-24
# (参考訳) 勧告の擁護としての説明 [全文訳有]

Explanation as a Defense of Recommendation ( http://arxiv.org/abs/2101.09656v1 )

ライセンス: CC BY 4.0
Aobo Yang, Nan Wang, Hongbo Deng, Hongning Wang(参考訳) テキストによる説明は、マシンメイドのレコメンデーションに対するユーザの満足度向上に役立つ。 しかし、現在の主流のソリューションは、説明の学習とレコメンデーションの学習を緩やかに結び付けている。 本研究では,レコメンデーションとそれに対応する説明との間に感傷的アライメントの考え方を強制することにより,それらの関係を強化することを提案する。 トレーニング時に、2つの学習タスクは、レコメンデーションモジュールによってエンコードされ、説明生成のための単語選択に使用される潜在感情ベクトルによって結合される。 トレーニング時間と推論時間の両方において、レコメンデーションモジュールによって予測される感情に一致する説明文を生成するために、説明モジュールが必要である。 大規模な実験により,提案手法は提案課題と説明課題の両方において,特に生成した説明の質の向上において,豊富なベースラインを上回ります。 さらに重要なことは、私たちのユーザ研究が生成した説明が、推奨項目の違いをよりよく認識し、なぜ推奨項目が推奨されるのかを理解するのに役立ちます。

Textual explanations have proved to help improve user satisfaction on machine-made recommendations. However, current mainstream solutions loosely connect the learning of explanation with the learning of recommendation: for example, they are often separately modeled as rating prediction and content generation tasks. In this work, we propose to strengthen their connection by enforcing the idea of sentiment alignment between a recommendation and its corresponding explanation. At training time, the two learning tasks are joined by a latent sentiment vector, which is encoded by the recommendation module and used to make word choices for explanation generation. At both training and inference time, the explanation module is required to generate explanation text that matches sentiment predicted by the recommendation module. Extensive experiments demonstrate our solution outperforms a rich set of baselines in both recommendation and explanation tasks, especially on the improved quality of its generated explanations. More importantly, our user studies confirm our generated explanations help users better recognize the differences between recommended items and understand why an item is recommended.
翻訳日:2021-03-19 08:52:53 公開日:2021-01-24
# (参考訳) MRIデータにおける脳腫瘍の分類精度向上のためのコンピュータインテリジェンスアプローチ [全文訳有]

Computational Intelligence Approach to Improve the Classification Accuracy of Brain Neoplasm in MRI Data ( http://arxiv.org/abs/2101.09658v1 )

ライセンス: CC BY 4.0
Nilanjan Sinhababu, Monalisa Sarma and Debasis Samanta(参考訳) 磁気共鳴画像(MRI)における脳腫瘍の自動検出は,多くの医学的応用において重要である。 本稿では、MRIデータにおける脳腫瘍検出の2つの改善点について述べる。MRIデータに対する関心領域を改善するための高度な前処理技術と、特徴抽出のための畳み込みニューラルネットワーク(CNN)と、分類のためのSVM(Support Vector Machine)を用いたハイブリッド技術を提案する。 SVMの学習アルゴリズムは、MRIデータ診断における誤りに対処する偽陽性予測を最小限に抑えるために、コスト関数を追加して修正される。 提案手法は, 腫瘍の存在を効果的に検出し, 癌性(悪性)か非癌性(良性)かを予測する。 提案手法の有効性を確認するため,トレーニング性能指標を用いて視覚検査および評価を行った。 提案手法と既存手法との比較検討を行った。 その結果,提案手法の精度は向上し,既存の手法よりも精度の高い分類誤りを処理できることが示唆された。

Automatic detection of brain neoplasm in Magnetic Resonance Imaging (MRI) is gaining importance in many medical diagnostic applications. This report presents two improvements for brain neoplasm detection in MRI data: an advanced preprocessing technique is proposed to improve the area of interest in MRI data and a hybrid technique using Convolutional Neural Network (CNN) for feature extraction followed by Support Vector Machine (SVM) for classification. The learning algorithm for SVM is modified with the addition of cost function to minimize false positive prediction addressing the errors in MRI data diagnosis. The proposed approach can effectively detect the presence of neoplasm and also predict whether it is cancerous (malignant) or non-cancerous (benign). To check the effectiveness of the proposed preprocessing technique, it is inspected visually and evaluated using training performance metrics. A comparison study between the proposed classification technique and the existing techniques was performed. The result showed that the proposed approach outperformed in terms of accuracy and can handle errors in classification better than the existing approaches.
翻訳日:2021-03-19 08:32:59 公開日:2021-01-24
# (参考訳) 医療情報検索と解釈 : 質問・回答に基づくインタラクションモデル

Medical Information Retrieval and Interpretation: A Question-Answer based Interaction Model ( http://arxiv.org/abs/2101.09662v1 )

ライセンス: CC BY 4.0
Nilanjan Sinhababu, Rahul Saxena, Monalisa Sarma and Debasis Samanta(参考訳) インターネットは、様々な医療情報が毎日表現される強力なプラットフォームになっている。 最近は、症状、病気、薬、その他世界中の多くの健康関連クエリなどの検索で、大きな成長が見られる。 検索エンジンは、通常、ユーザが提供する単一のクエリを使用して結果をポップアップするので、最終的な結果に到達するには、ユーザの端から多くの手動フィルタリングが必要になる可能性がある。 現在の検索エンジンやレコメンデーションシステムは、より正確な結果生成を提供するリアルタイムインタラクションをまだ欠いている。 本稿では,web上の膨大な医療ビッグデータリポジトリと連携した,インテリジェントでインタラクティブなシステムを提案する。

The Internet has become a very powerful platform where diverse medical information are expressed daily. Recently, a huge growth is seen in searches like symptoms, diseases, medicines, and many other health related queries around the globe. The search engines typically populate the result by using the single query provided by the user and hence reaching to the final result may require a lot of manual filtering from the user's end. Current search engines and recommendation systems still lack real time interactions that may provide more precise result generation. This paper proposes an intelligent and interactive system tied up with the vast medical big data repository on the web and illustrates its potential in finding medical information.
翻訳日:2021-03-19 08:07:09 公開日:2021-01-24
# (参考訳) 細粒度視覚分類のためのグラッドCAM誘導チャネル空間アテンションモジュール [全文訳有]

Grad-CAM guided channel-spatial attention module for fine-grained visual classification ( http://arxiv.org/abs/2101.09666v1 )

ライセンス: CC BY 4.0
Shuai Xu, Dongliang Chang, Jiyang Xie, and Zhanyu Ma(参考訳) 細粒度視覚分類(fgvc)はその広い応用とコンピュータビジョン技術の急速な発展により、重要な研究分野となっている。 FGVCの現在の最先端(SOTA)メソッドは通常、注意機構を使用して、まずセマンティック部分をキャプチャし、それから異なるクラス間の微妙な違いを発見する。 識別チャネルと領域を同時に重視するチャネル空間的注意機構は,分類性能を著しく向上させた。 しかし,fgvcの部局型検出器は,部局アノテーションを使わずにネットワーク学習能力に依存するため,既存の注意モジュールの案内は不十分である。 このような部分アノテーションを得るのに手間がかかるため、勾配強調クラスアクティベーションマッピング(grad-cam)のような視覚的なローカライゼーションや説明手法が注意機構の監視に利用できる。 粗いローカライゼーションマップを生成することで、注意重みを監視・制約するためにGrad-CAMを利用するFGVC用のGrad-CAMガイドチャネル空間アテンションモジュールを提案する。 提案手法の有効性を示すため,CUB-200$-2011$,Stan ford Cars,FGVC-Aircraftデータセットを含む3つのFGVCデータセットの総合的な実験を行った。 提案手法は,FGVCタスクにおけるSOTAアテンションモジュールよりも優れている。 さらに, 特徴マップの可視化により, sotaアプローチに対する提案手法の優位性が示された。

Fine-grained visual classification (FGVC) is becoming an important research field, due to its wide applications and the rapid development of computer vision technologies. The current state-of-the-art (SOTA) methods in the FGVC usually employ attention mechanisms to first capture the semantic parts and then discover their subtle differences between distinct classes. The channel-spatial attention mechanisms, which focus on the discriminative channels and regions simultaneously, have significantly improved the classification performance. However, the existing attention modules are poorly guided since part-based detectors in the FGVC depend on the network learning ability without the supervision of part annotations. As obtaining such part annotations is labor-intensive, some visual localization and explanation methods, such as gradient-weighted class activation mapping (Grad-CAM), can be utilized for supervising the attention mechanism. We propose a Grad-CAM guided channel-spatial attention module for the FGVC, which employs the Grad-CAM to supervise and constrain the attention weights by generating the coarse localization maps. To demonstrate the effectiveness of the proposed method, we conduct comprehensive experiments on three popular FGVC datasets, including CUB-$200$-$2011$, Stanford Cars, and FGVC-Aircraft datasets. The proposed method outperforms the SOTA attention modules in the FGVC task. In addition, visualizations of feature maps also demonstrate the superiority of the proposed method against the SOTA approaches.
翻訳日:2021-03-19 08:06:13 公開日:2021-01-24
# (参考訳) マルチエージェント強化学習による高速シーケンス生成 [全文訳有]

Fast Sequence Generation with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2101.09698v1 )

ライセンス: CC BY 4.0
Longteng Guo, Jing Liu, Xinxin Zhu, Hanqing Lu(参考訳) 自動回帰シーケンス生成モデルは、機械翻訳や画像キャプションといった分野で最先端のパフォーマンスを達成した。 これらのモデルは、あらかじめ生成された単語を条件付けして各単語を生成するという自己回帰的であり、推論の遅延が重くなる。 近年,機械翻訳において,すべての単語を並列に生成することで推論時間を高速化する非自己回帰復号法が提案されている。 通常、これらのモデルは単語レベルのクロスエントロピー損失を使用して各単語を独立に最適化する。 しかし、このような学習プロセスは文レベルの一貫性を考慮せず、結果としてこれらの非自己回帰モデルの生成品質は低下する。 本稿では,非自己回帰的シーケンス生成(NAG)の簡易かつ効率的なモデルを提案する。 CMALは、ターゲットシーケンス内の要素位置を文レベルの報酬を協調的に最大化するエージェントと見なすマルチエージェント強化学習システムとしてNAGを定式化する。 MSCOCO画像キャプションベンチマークでは、NAG法は最先端の自己回帰モデルに匹敵する性能を実現し、13.9倍のデコード高速化を実現した。 WMT14 EN-DE 機械翻訳データセットでは,クロスエントロピー学習ベースラインを6.0 BLEU で上回り,最大復号速度 17.46x を達成した。

Autoregressive sequence Generation models have achieved state-of-the-art performance in areas like machine translation and image captioning. These models are autoregressive in that they generate each word by conditioning on previously generated words, which leads to heavy latency during inference. Recently, non-autoregressive decoding has been proposed in machine translation to speed up the inference time by generating all words in parallel. Typically, these models use the word-level cross-entropy loss to optimize each word independently. However, such a learning process fails to consider the sentence-level consistency, thus resulting in inferior generation quality of these non-autoregressive models. In this paper, we propose a simple and efficient model for Non-Autoregressive sequence Generation (NAG) with a novel training paradigm: Counterfactuals-crit ical Multi-Agent Learning (CMAL). CMAL formulates NAG as a multi-agent reinforcement learning system where element positions in the target sequence are viewed as agents that learn to cooperatively maximize a sentence-level reward. On MSCOCO image captioning benchmark, our NAG method achieves a performance comparable to state-of-the-art autoregressive models, while brings 13.9x decoding speedup. On WMT14 EN-DE machine translation dataset, our method outperforms cross-entropy trained baseline by 6.0 BLEU points while achieves the greatest decoding speedup of 17.46x.
翻訳日:2021-03-19 07:53:24 公開日:2021-01-24
# (参考訳) 足部ロボットの歩行に対する神経形態適応型スパイクcpg [全文訳有]

Neuromorphic adaptive spiking CPG towards bio-inspired locomotion of legged robots ( http://arxiv.org/abs/2101.09709v1 )

ライセンス: CC BY 4.0
Pablo Lopez-Osorio, Alberto Patino-Saucedo, Juan P. Dominguez-Morales, Horacio Rostro-Gonzalez, Fernando Perez-Pe\~na(参考訳) 近年では、脊椎動物が示す移動機構がロボットシステムの性能向上のインスピレーションとなっている。 これらのメカニズムには、生体センサーを通して環境に登録されたあらゆる変化へのロコモーションの適応性が含まれる。 そこで本研究では,スパイキング中央パターンジェネレータを用いて,ロボットのこのような適応性を再現することを目的とする。 スパイキング中心パターン発生装置は、外部刺激により駆動される異なるロコモーション(リズム)パターン、すなわち、ロボットに接続された力に敏感な抵抗器の出力を生成し、フィードバックを提供する。 Spiking Central Pattern Generatorは、特定のトポロジーで設計されたLeaky Integrate-and-Fireニューロンの5つの集団からなるネットワークで構成されており、上記の外部刺激によってリズムパターンを生成および駆動することができる。 したがって、あらゆるセンサを入力として、終端ロボットプラットフォーム(足付きロボット)の移動を地形に適応させることができる。 適応学習を備えたスパイキング中央パターン生成器は,Brian 2シミュレータとSpiNNakerニューロモルフィックプラットフォームを使用して,ソフトウェアおよびハードウェアレベルで数値的に検証されている。 特に,入力刺激が変化する間,スパイキング中心パターン発生器の個体群で発生するスパイク間の振動周波数の適応を示す実験を行った。 スパイキング中央パターン発生器のロバスト性と適応性を検証するため,センサの出力を変動させることにより,複数のテストを行った。 これらの実験はbrian 2とspinnakerで行われ、どちらもピアソン相関係数0.905の類似した挙動を示した。

In recent years, locomotion mechanisms exhibited by vertebrate animals have been the inspiration for the improvement in the performance of robotic systems. These mechanisms include the adaptability of their locomotion to any change registered in the environment through their biological sensors. In this regard, we aim to replicate such kind of adaptability in legged robots through a Spiking Central Pattern Generator. This Spiking Central Pattern Generator generates different locomotion (rhythmic) patterns which are driven by an external stimulus, that is, the output of a Force Sensitive Resistor connected to the robot to provide feedback. The Spiking Central Pattern Generator consists of a network of five populations of Leaky Integrate-and-Fire neurons designed with a specific topology in such a way that the rhythmic patterns can be generated and driven by the aforementioned external stimulus. Therefore, the locomotion of the end robotic platform (any-legged robot) can be adapted to the terrain by using any sensor as input. The Spiking Central Pattern Generator with adaptive learning has been numerically validated at software and hardware level, using the Brian 2 simulator and the SpiNNaker neuromorphic platform for the latest. In particular, our experiments clearly show an adaptation in the oscillation frequencies between the spikes produced in the populations of the Spiking Central Pattern Generator while the input stimulus varies. To validate the robustness and adaptability of the Spiking Central Pattern Generator, we have performed several tests by variating the output of the sensor. These experiments were carried out in Brian 2 and SpiNNaker; both implementations showed a similar behavior with a Pearson correlation coefficient of 0.905.
翻訳日:2021-03-19 07:18:24 公開日:2021-01-24
# (参考訳) 複数視点からの3次元ポーズ追跡のための反復的欲望マッチング [全文訳有]

Iterative Greedy Matching for 3D Human Pose Tracking from Multiple Views ( http://arxiv.org/abs/2101.09745v1 )

ライセンス: CC BY 4.0
Julian Tanke, Juergen Gall(参考訳) 本研究では,複数の人物の3次元ポーズをキャリブレーションされたカメラから推定する手法を提案する。 人間のポーズは、地球規模の座標空間内で推定され、複数のカメラは、曖昧さ、オクルージョン、動きのぼかしを解決するのに役立つ拡張された視野を提供する。 提案手法は,リアルタイム2次元多人数ポーズ推定システムを構築し,複数視点間の連想問題を柔軟に解決する。 複数のフレーム上で複数の人を追跡するために,バイパーティイトマッチングを利用する。 この証明は、咬合などの欲望マッチングに関連する問題が3dで容易に解決できるため、特に効果的である。 我々のアプローチは、人気のあるベンチマークで最先端の結果を達成し、将来の作業のベースラインとして機能するかもしれない。

In this work we propose an approach for estimating 3D human poses of multiple people from a set of calibrated cameras. Estimating 3D human poses from multiple views has several compelling properties: human poses are estimated within a global coordinate space and multiple cameras provide an extended field of view which helps in resolving ambiguities, occlusions and motion blur. Our approach builds upon a real-time 2D multi-person pose estimation system and greedily solves the association problem between multiple views. We utilize bipartite matching to track multiple people over multiple frames. This proofs to be especially efficient as problems associated with greedy matching such as occlusion can be easily resolved in 3D. Our approach achieves state-of-the-art results on popular benchmarks and may serve as a baseline for future work.
翻訳日:2021-03-19 06:49:08 公開日:2021-01-24
# (参考訳) 樹木メトリクスを用いたエントロピー部分輸送の理論と実践 [全文訳有]

Entropy Partial Transport with Tree Metrics: Theory and Practice ( http://arxiv.org/abs/2101.09756v1 )

ライセンス: CC BY 4.0
Tam Le, Truyen Nguyen(参考訳) 最適輸送(ot)理論は、確率測度を比較する強力なツールを提供する。 しかし、OTは同じ質量を持つ非負の測度に制限されており、その計算と統計に深刻な欠点がある。 これにより、最近の文献でotの正規化変種がいくつか提案されている。 本研究では、質量の異なる木上の非負測度に対する「textit{entropy partial transport} (EPT) 問題を考える。 EPTは1ノード拡張ツリー上の標準完全OT問題と同値であることが示されている。 我々はその双対な定式化を導出し、高速な計算と負の定式性を持つEPTの新しい正規化を提案する。 我々の知る限り、提案された正規化 EPT は、不均衡OT の利用可能な変種の中で \textit{closed-form} の解を得る最初のアプローチである。 測度に対する木構造に関する事前知識のない実践的応用のために,これらの測度間の正則化EPTを平均化して計算した正則化EPTのツリースライディング変種を,サポートデータポイントから適応的に構築したランダムツリーメトリクスを用いて提案する。 正規化EPTの負の定性を明らかにすることで、正の定性カーネルを導入し、単語埋め込みやトポロジカルデータ解析による文書分類などのベンチマークタスクの他のベースラインに対して評価する。 さらに、我々の正規化が効果的な近似も提供することを実証的に示す。

Optimal transport (OT) theory provides powerful tools to compare probability measures. However, OT is limited to nonnegative measures having the same mass, and suffers serious drawbacks about its computation and statistics. This leads to several proposals of regularized variants of OT in the recent literature. In this work, we consider an \textit{entropy partial transport} (EPT) problem for nonnegative measures on a tree having different masses. The EPT is shown to be equivalent to a standard complete OT problem on a one-node extended tree. We derive its dual formulation, then leverage this to propose a novel regularization for EPT which admits fast computation and negative definiteness. To our knowledge, the proposed regularized EPT is the first approach that yields a \textit{closed-form} solution among available variants of unbalanced OT. For practical applications without priori knowledge about the tree structure for measures, we propose tree-sliced variants of the regularized EPT, computed by averaging the regularized EPT between these measures using random tree metrics, built adaptively from support data points. Exploiting the negative definiteness of our regularized EPT, we introduce a positive definite kernel, and evaluate it against other baselines on benchmark tasks such as document classification with word embedding and topological data analysis. In addition, we empirically demonstrate that our regularization also provides effective approximations.
翻訳日:2021-03-19 06:35:53 公開日:2021-01-24
# (参考訳) グラフメモリネットワークを用いた知識接地会話症状検出 [全文訳有]

Knowledge Grounded Conversational Symptom Detection with Graph Memory Networks ( http://arxiv.org/abs/2101.09773v1 )

ライセンス: CC BY 4.0
Hongyin Luo, Shang-Wen Li, James Glass(参考訳) 本研究では,新しい目標指向対話タスクである自動症状検出を提案する。 対話を通じて患者と対話し、自動的に臨床症状を検出し収集するシステムを構築し、医師が患者にインタビューする時間を節約する。 患者が診断のためのダイアログを開始するための明示的な症状のセットが与えられた場合、システムは、正確な診断を行うためのより多くの情報を集めるために、質問によって暗黙の症状を収集するように訓練される。 各質問に対して患者から回答を得た後、システムは現在の情報がヒトの医師が診断するのに十分かどうかを判断する。 この目的を達成するために,多段階推論タスクのための2つのニューラルモデルとトレーニングパイプラインを提案する。 モデルパフォーマンスをさらに向上させるために、追加のインプットとしてナレッジグラフを構築しています。 実験の結果,本モデルがベースラインを4%上回っており,平均して暗黙症状の67%が質問数が少ないことが明らかとなった。

In this work, we propose a novel goal-oriented dialog task, automatic symptom detection. We build a system that can interact with patients through dialog to detect and collect clinical symptoms automatically, which can save a doctor's time interviewing the patient. Given a set of explicit symptoms provided by the patient to initiate a dialog for diagnosing, the system is trained to collect implicit symptoms by asking questions, in order to collect more information for making an accurate diagnosis. After getting the reply from the patient for each question, the system also decides whether current information is enough for a human doctor to make a diagnosis. To achieve this goal, we propose two neural models and a training pipeline for the multi-step reasoning task. We also build a knowledge graph as additional inputs to further improve model performance. Experiments show that our model significantly outperforms the baseline by 4%, discovering 67% of implicit symptoms on average with a limited number of questions.
翻訳日:2021-03-19 05:01:59 公開日:2021-01-24
# (参考訳) クラウド基盤におけるオンラインメモリリーク検出 [全文訳有]

Online Memory Leak Detection in the Cloud-based Infrastructures ( http://arxiv.org/abs/2101.09799v1 )

ライセンス: CC BY 4.0
Anshul Jindal, Paul Staab, Jorge Cardoso, Michael Gerndt and Vladimir Podolskiy(参考訳) クラウドにデプロイされたアプリケーションのメモリリークは、アプリケーションの可用性と信頼性に影響を与える可能性がある。 したがって、それを素早く特定し、最終的に解決することは極めて重要である。 しかし、クラウド上で動作する運用環境では、アプリケーションや内部オブジェクトの割り当ての詳細を知らなくても、メモリリーク検出は難しい。 本稿では,機械学習に基づく新しいアルゴリズムプリコグを導入することにより,内部アプリケーション知識を持たないクラウドベースのインフラストラクチャにおけるメモリリークをオンラインに検出する手法を提案する。 このアルゴリズムは1つのメトリック、すなわちアプリケーションがメモリリークを検出するためにデプロイされるシステムのメモリ使用率のみを使用する。 開発したアルゴリズムの精度は,産業パートナーであるHuawei Munich Research Centerが提供した60台の仮想マシンに手動でラベル付けしたメモリ利用データを用いて検証し,提案アルゴリズムは,仮想マシン毎の予測時間を半秒以下で85%の精度を達成していることを確認した。

A memory leak in an application deployed on the cloud can affect the availability and reliability of the application. Therefore, to identify and ultimately resolve it quickly is highly important. However, in the production environment running on the cloud, memory leak detection is a challenge without the knowledge of the application or its internal object allocation details. This paper addresses this challenge of online detection of memory leaks in cloud-based infrastructure without having any internal application knowledge by introducing a novel machine learning based algorithm Precog. This algorithm solely uses one metric i.e the system's memory utilization on which the application is deployed for the detection of a memory leak. The developed algorithm's accuracy was tested on 60 virtual machines manually labeled memory utilization data provided by our industry partner Huawei Munich Research Center and it was found that the proposed algorithm achieves the accuracy score of 85\% with less than half a second prediction time per virtual machine.
翻訳日:2021-03-16 13:38:17 公開日:2021-01-24
# (参考訳) 有罪の人工心 [全文訳有]

Guilty Artificial Minds ( http://arxiv.org/abs/2102.04209v1 )

ライセンス: CC BY 4.0
Michael T. Stuart and Markus Kneer(参考訳) 非難と誤りの概念は、人間の道徳生活において基本的な重要性である。 しかし、人間はどのようにして人工的な知的エージェントを非難し、その行動が道徳的に間違っていると判断するのだろうか? これらの質問を進展させるために、我々は2つの新しい戦略を採用した。 第一に、私たちは責任と誤りの属性を、エージェントの疫病および陰性状態、およびエージェントの行動の結果に関するより基本的な判断に分解します。 このようにして、これらのより基本的な判断の相違点から、参加者の人工エージェントの扱い方の違いを検討することができる。 第2の戦略は、人間、人工、集団エージェント(組織)に対する非難と不正の帰属を比較することです。 人的エージェントと人的エージェントの責任と誤りの属性を比較している者もいるが、これらのエージェントが人間エージェント(責任の概念と誤りが生み出された人物)と人工エージェント(疑問が開かれている人物)の間に明確な中間点を提供するため、グループエージェントの追加は重要である。

The concepts of blameworthiness and wrongness are of fundamental importance in human moral life. But to what extent are humans disposed to blame artificially intelligent agents, and to what extent will they judge their actions to be morally wrong? To make progress on these questions, we adopted two novel strategies. First, we break down attributions of blame and wrongness into more basic judgments about the epistemic and conative state of the agent, and the consequences of the agent's actions. In this way, we are able to examine any differences between the way participants treat artificial agents in terms of differences in these more basic judgments. our second strategy is to compare attributions of blame and wrongness across human, artificial, and group agents (corporations). Others have compared attributions of blame and wrongness between human and artificial agents, but the addition of group agents is significant because these agents seem to provide a clear middle-ground between human agents (for whom the notions of blame and wrongness were created) and artificial agents (for whom the question remains open).
翻訳日:2021-03-16 10:49:53 公開日:2021-01-24
# (参考訳) FakeFlow: 影響情報の流れをモデル化したフェイクニュース検出 [全文訳有]

FakeFlow: Fake News Detection by Modeling the Flow of Affective Information ( http://arxiv.org/abs/2101.09810v1 )

ライセンス: CC BY 4.0
Bilal Ghanem, Simone Paolo Ponzetto, Paolo Rosso, Francisco Rangel(参考訳) 偽ニュース記事は、しばしば感情を喚起する感情的な訴えによって読者の注意をかき立てる。 短いニュースのテキストとは異なり、より長い記事の著者は、読者の感情に影響を与えるために誇張やイベントの作成によって読者を操作するためにこのような感情的な要素を利用することができる。 そこで本論文では,ニューラルネットワークを用いた偽ニュース記事における感情情報の流れのモデル化を提案する。 提案モデルであるFakeFlowは,テキストから抽出した話題と感情情報を組み合わせることで,この流れを学習する。 実世界の4つのデータセットを用いた実験により,モデルの性能評価を行った。 その結果、FakeFlowは最先端の手法と比較して優れた結果を達成し、ニュース記事における感情情報の流れを捉えることの重要性を確認した。

Fake news articles often stir the readers' attention by means of emotional appeals that arouse their feelings. Unlike in short news texts, authors of longer articles can exploit such affective factors to manipulate readers by adding exaggerations or fabricating events, in order to affect the readers' emotions. To capture this, we propose in this paper to model the flow of affective information in fake news articles using a neural architecture. The proposed model, FakeFlow, learns this flow by combining topic and affective information extracted from text. We evaluate the model's performance with several experiments on four real-world datasets. The results show that FakeFlow achieves superior results when compared against state-of-the-art methods, thus confirming the importance of capturing the flow of the affective information in news articles.
翻訳日:2021-03-16 10:30:39 公開日:2021-01-24
# (参考訳) 教師付きスパイクニューラルネットワークを用いた暗号化インターネットトラフィック分類 [全文訳有]

Encrypted Internet traffic classification using a supervised Spiking Neural Network ( http://arxiv.org/abs/2101.09818v1 )

ライセンス: CC BY 4.0
Ali Rasteh, Florian Delpech, Carlos Aguilar-Melchor, Romain Zimmer, Saeed Bagheri Shouraki and Timoth\'ee Masquelier(参考訳) インターネットトラフィック認識は、ネットワーク上で送信される異なるデータパケットに関連するトラフィックカテゴリを認識することで、アクセスプロバイダにとって不可欠なツールである。 例えば、オーディオ会議の優先度の高い要件とファイル転送の優先度の低い要件は、ユーザエクスペリエンスを向上させることを意味します。 インターネットトラフィックがますます暗号化されるにつれて、主流の古典的なトラフィック認識技術であるペイロードインスペクションは非効率になる。 本稿では,パケットサイズと到着時刻のみに着目し,暗号化されたトラフィック分類のための機械学習手法を用いる。 スパイキングニューラルネットワーク(SNN)は、生物学的ニューロンの動作に大きく影響され、2つの理由で使われた。 まず、時間関連のデータパケットの特徴を認識できる。 第2に、低エネルギーフットプリントのニューロモルフィックハードウェアに効率よく実装することができる。 ここでは,完全連結層のみを有する非常に単純なfeedforward snnを用い,新たに導入されたsurrogategradient learning法を用いて教師付き学習を行った。 驚くべきことに、このような単純なSNNはISCXデータセットで95.9%の精度に達し、以前のアプローチを上回った。 入力サイズ、ニューロン数、トレーニング可能なパラメータは、すべて1から4桁の規模で削減されます。 次に,この精度の高い理由を分析した。 空間的(すなわち)を超えたことが判明した。 パケットサイズ) 機能として、snは時間的機能(主に200ミリ秒の範囲のほぼ同期のパケットの到着時間)も活用している。 これらの結果から、SNNは従来の人工ニューラルネットワーク(ANN)よりも精度が高く、低消費電力の組み込みシステムでも効率的に実装できるという、暗号化されたインターネットトラフィック分類に適しています。

Internet traffic recognition is an essential tool for access providers since recognizing traffic categories related to different data packets transmitted on a network help them define adapted priorities. That means, for instance, high priority requirements for an audio conference and low ones for a file transfer, to enhance user experience. As internet traffic becomes increasingly encrypted, the mainstream classic traffic recognition technique, payload inspection, is rendered ineffective. This paper uses machine learning techniques for encrypted traffic classification, looking only at packet size and time of arrival. Spiking neural networks (SNN), largely inspired by how biological neurons operate, were used for two reasons. Firstly, they are able to recognize time-related data packet features. Secondly, they can be implemented efficiently on neuromorphic hardware with a low energy footprint. Here we used a very simple feedforward SNN, with only one fully-connected hidden layer, and trained in a supervised manner using the newly introduced method known as Surrogate Gradient Learning. Surprisingly, such a simple SNN reached an accuracy of 95.9% on ISCX datasets, outperforming previous approaches. Besides better accuracy, there is also a very significant improvement on simplicity: input size, number of neurons, trainable parameters are all reduced by one to four orders of magnitude. Next, we analyzed the reasons for this good accuracy. It turns out that, beyond spatial (i.e. packet size) features, the SNN also exploits temporal ones, mostly the nearly synchronous (within a 200ms range) arrival times of packets with certain sizes. Taken together, these results show that SNNs are an excellent fit for encrypted internet traffic classification: they can be more accurate than conventional artificial neural networks (ANN), and they could be implemented efficiently on low power embedded systems.
翻訳日:2021-03-16 10:07:34 公開日:2021-01-24
# (参考訳) Auxiliary Self-Supervised Pretext Tasks によるFew-Shot学習の改善 [全文訳有]

Improving Few-Shot Learning with Auxiliary Self-Supervised Pretext Tasks ( http://arxiv.org/abs/2101.09825v1 )

ライセンス: CC BY 4.0
Nathaniel Simard and Guillaume Lagrange(参考訳) マイショット学習に関する最近の研究は、マイショット分類性能において学習表現の品質が重要な役割を担っていることを示した。 一方,自己教師付き学習の目標は,クラスラベルを使わずにデータの有用な意味情報を復元することである。 本研究では,最近の自己監視手法を補助タスクとして活用するマルチタスクフレームワークを通じて,両パラダイムの相補性を活用する。 複数のタスクを組み合わせることは、しばしば有益であり、同時に解くことは効率的にできることを発見しました。 本研究では,自己監督型補助タスクが表現学習の効果的なデータ依存正規化であることを示す。 私たちのコードは、 \url{https://github.com/n athanielsimard/impro ving-fs-ssl} で利用可能です。

Recent work on few-shot learning \cite{tian2020rethinking} showed that quality of learned representations plays an important role in few-shot classification performance. On the other hand, the goal of self-supervised learning is to recover useful semantic information of the data without the use of class labels. In this work, we exploit the complementarity of both paradigms via a multi-task framework where we leverage recent self-supervised methods as auxiliary tasks. We found that combining multiple tasks is often beneficial, and that solving them simultaneously can be done efficiently. Our results suggest that self-supervised auxiliary tasks are effective data-dependent regularizers for representation learning. Our code is available at: \url{https://github.com/n athanielsimard/impro ving-fs-ssl}.
翻訳日:2021-03-16 09:46:16 公開日:2021-01-24
# 相互排他性強化によるメタレギュライゼーション

Meta-Regularization by Enforcing Mutual-Exclusiveness ( http://arxiv.org/abs/2101.09819v1 )

ライセンス: Link先を確認
Edwin Pan and Pankaj Rajak and Shubham Shrivastava(参考訳) メタ学習モデルには2つの目的がある。 まず、少量のトレーニングデータを利用して、さまざまなタスクの分布を予測できるようにする必要があります。 第二に、そのタスクから少量のトレーニングデータを使用することで、メタテスト時に新しい未知のタスクに再び適応する必要がある。 これは、メタ学習モデルがタスク過度に適合するため、非相互排他的なタスクで失敗する2番目の目的である。 相互排他的タスクの保証がしばしば困難であることを考えると,メタ学習におけるタスク記憶の影響を低減する上で有効な正規化手法が不可欠である。 例えば、Nウェイ、Kショットの分類問題の場合、各タスクに関連するラベルが固定されると、タスクは非ミューチュアルに排他的になる。 この設計の下では、モデルは単にすべてのトレーニングタスクのクラスラベルを記憶し、メタテスト時に新しいタスク(クラス)を認識するのに失敗する。 この記憶の直接的な観察可能な結果は、メタラーニングモデルが単にタスク固有のトレーニングデータを無視し、テストデータ入力に基づいて直接分類することである。 本研究では,メタトレーニング中の情報フローをモデル設計者が制御できるように,メタ学習モデルのための正規化手法を提案する。 メタトレーニング中の最適化モデルの場合、ブラックボックスモデルとタスク固有のネットワークパラメータの場合、タスクサマリー統計間の距離を最大化することによって構築された正規化関数からなる。 提案する正則化関数は,ブラックボックス法による5ウェイ1ショット分類と最適化に基づく20ウェイ1ショット分類問題に対して,Omniglotデータセット上で$36\%の精度向上を示す。

Meta-learning models have two objectives. First, they need to be able to make predictions over a range of task distributions while utilizing only a small amount of training data. Second, they also need to adapt to new novel unseen tasks at meta-test time again by using only a small amount of training data from that task. It is the second objective where meta-learning models fail for non-mutually exclusive tasks due to task overfitting. Given that guaranteeing mutually exclusive tasks is often difficult, there is a significant need for regularization methods that can help reduce the impact of task-memorization in meta-learning. For example, in the case of N-way, K-shot classification problems, tasks becomes non-mutually exclusive when the labels associated with each task is fixed. Under this design, the model will simply memorize the class labels of all the training tasks, and thus will fail to recognize a new task (class) at meta-test time. A direct observable consequence of this memorization is that the meta-learning model simply ignores the task-specific training data in favor of directly classifying based on the test-data input. In our work, we propose a regularization technique for meta-learning models that gives the model designer more control over the information flow during meta-training. Our method consists of a regularization function that is constructed by maximizing the distance between task-summary statistics, in the case of black-box models and task specific network parameters in the case of optimization based models during meta-training. Our proposed regularization function shows an accuracy boost of $\sim$ $36\%$ on the Omniglot dataset for 5-way, 1-shot classification using black-box method and for 20-way, 1-shot classification problem using optimization-based method.
翻訳日:2021-03-16 09:19:34 公開日:2021-01-24
# 実世界のロバストな視覚情報抽出に向けて:新しいデータセットと新しい解法

Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution ( http://arxiv.org/abs/2102.06732v1 )

ライセンス: Link先を確認
Jiapeng Wang, Chongyu Liu, Lianwen Jin, Guozhi Tang, Jiaxin Zhang, Shuaitao Zhang, Qianying Wang, Yaqiang Wu, Mingxiang Cai(参考訳) 視覚情報抽出(vie)は,文書理解,自動マーキング,知的教育などの高度な応用により,近年注目を集めている。 既存のほとんどの作品は、この問題をテキストスポッティング(テキスト検出と認識)と情報抽出の複数の独立したサブタスクに分離し、最適化中にそれらの間の高い相関を完全に無視しました。 本稿では,単一の文書画像を入力・出力することで,テキスト検出,認識,情報抽出を同時に行うための統一的なエンドツーエンド学習フレームワークである,実世界のシナリオに対する堅牢な視覚情報抽出システム(vies)を提案する。 具体的には、情報抽出部は、多モード特徴融合のためのテキストスポッティングから豊富な視覚的および意味的表現を収集し、テキストスポッティングの最適化に寄与する高レベルの意味的ヒントを提供する。 また、公開ベンチマークの不足については、テキストスポッティングと視覚情報抽出の両方のための最初の中国ベンチマークであるEPHOIE(https://githu b.com/HCIILAB/EPHOIE )と呼ばれる完全注釈付きデータセットを構築しています。 EPHOIEは、複雑なレイアウトと背景を持つ試験紙ヘッドの1,494イメージで構成され、合計15,771の中国手書きまたは印刷されたテキストインスタンスが含まれています。 最新の方法と比較して、当社のVIESはEPHOIEデータセットで大幅に優れたパフォーマンスを発揮し、エンドツーエンドシナリオ下で広く使用されているSROIEデータセットで9.01%のFスコアを獲得します。

Visual information extraction (VIE) has attracted considerable attention recently owing to its various advanced applications such as document understanding, automatic marking and intelligent education. Most existing works decoupled this problem into several independent sub-tasks of text spotting (text detection and recognition) and information extraction, which completely ignored the high correlation among them during optimization. In this paper, we propose a robust visual information extraction system (VIES) towards real-world scenarios, which is a unified end-to-end trainable framework for simultaneous text detection, recognition and information extraction by taking a single document image as input and outputting the structured information. Specifically, the information extraction branch collects abundant visual and semantic representations from text spotting for multimodal feature fusion and conversely, provides higher-level semantic clues to contribute to the optimization of text spotting. Moreover, regarding the shortage of public benchmarks, we construct a fully-annotated dataset called EPHOIE (https://github.com/ HCIILAB/EPHOIE), which is the first Chinese benchmark for both text spotting and visual information extraction. EPHOIE consists of 1,494 images of examination paper head with complex layouts and background, including a total of 15,771 Chinese handwritten or printed text instances. Compared with the state-of-the-art methods, our VIES shows significant superior performance on the EPHOIE dataset and achieves a 9.01% F-score gain on the widely used SROIE dataset under the end-to-end scenario.
翻訳日:2021-03-16 09:19:05 公開日:2021-01-24
# head labelはロングテールのマルチラベルテキスト分類に役立つか

Does Head Label Help for Long-Tailed Multi-Label Text Classification ( http://arxiv.org/abs/2101.09704v1 )

ライセンス: Link先を確認
Lin Xiao, Xiangliang Zhang, Liping Jing, Chi Huang, Mingyang Song(参考訳) MLTC(Multi-label text classification)は、複数の候補ラベルから最も関連性の高いラベルを持つ文書を注釈付けすることを目的とする。 実際のアプリケーションでは、ラベル周波数の分布はしばしば長い尾を示す、すなわち、少数のラベルは多数の文書(a.k.a.)に関連付けられている。 ヘッドラベル) ラベルのごく一部は少数の文書(a.k.a.)に関連付けられている。 尾のラベル)。 テールラベル分類におけるトレーニングデータ不足に対処するため,HTTN(Head-to-Tail Network)を提案し,メタ知識をデータリッチなヘッドラベルからデータポーアなテールラベルに転送する。 メタ知識は、少数ショットネットワークパラメータから多ショットネットワークパラメータへのマッピングであり、テール分類器の一般化を促進することを目的としている。 3つのベンチマークデータセットの大規模な実験結果は、HTTNが最先端の手法を一貫して上回っていることを示している。 再現性のためにコードとハイパーパラメータの設定がリリース

Multi-label text classification (MLTC) aims to annotate documents with the most relevant labels from a number of candidate labels. In real applications, the distribution of label frequency often exhibits a long tail, i.e., a few labels are associated with a large number of documents (a.k.a. head labels), while a large fraction of labels are associated with a small number of documents (a.k.a. tail labels). To address the challenge of insufficient training data on tail label classification, we propose a Head-to-Tail Network (HTTN) to transfer the meta-knowledge from the data-rich head labels to data-poor tail labels. The meta-knowledge is the mapping from few-shot network parameters to many-shot network parameters, which aims to promote the generalizability of tail classifiers. Extensive experimental results on three benchmark datasets demonstrate that HTTN consistently outperforms the state-of-the-art methods. The code and hyper-parameter settings are released for reproducibility
翻訳日:2021-03-16 09:18:17 公開日:2021-01-24
# 線形幅を有する深層ReLUネットワークにおけるグラデーションのグローバル収束の証明について

On the Proof of Global Convergence of Gradient Descent for Deep ReLU Networks with Linear Widths ( http://arxiv.org/abs/2101.09612v1 )

ライセンス: Link先を確認
Quynh Nguyen(参考訳) 本稿では,二乗損失下における深層RELUネットワークにおける勾配降下のグローバル収束について検討する。 この設定のために、現在の最先端の結果は、すべての隠れた層の幅が少なくとも$\omega(n^8)$ (n$はトレーニングサンプルの数である)でスケールすると、勾配降下がグローバル最適に収束することを示している。 本稿では,既存の超パラメータ条件を線形,二次,立方体幅(初期化スキームのタイプやネットワークの深さに依存する)に改善できる簡単な証明フレームワークについて述べる。

This paper studies the global convergence of gradient descent for deep ReLU networks under the square loss. For this setting, the current state-of-the-art results show that gradient descent converges to a global optimum if the widths of all the hidden layers scale at least as $\Omega(N^8)$ ($N$ being the number of training samples). In this paper, we discuss a simple proof framework which allows us to improve the existing over-parameterizatio n condition to linear, quadratic and cubic widths (depending on the type of initialization scheme and/or the depth of the network).
翻訳日:2021-03-16 09:17:59 公開日:2021-01-24
# 共有注意によるマルチタスク時系列予測

Multi-Task Time Series Forecasting With Shared Attention ( http://arxiv.org/abs/2101.09645v1 )

ライセンス: Link先を確認
Zekai Chen, Jiaze E, Xiao Zhang, Hao Sheng, Xiuzheng Cheng(参考訳) 時系列予測は多くの産業的およびビジネス的意思決定プロセスにおいて重要な要素であり、リカレントニューラルネットワーク(RNN)ベースのモデルは、様々な時系列予測タスクにおいて驚くべき進歩を遂げている。 しかし、既存の手法のほとんどは、制限された教師付き目標に基づいて個別に学習することで、シングルタスクの予測問題に焦点を当てている。 トランスフォーマーアーキテクチャや他の注目モデルが長期依存を捕捉する優れた能力を示したことから,マルチタスク時系列予測のための2つの自己注意型共有スキームを提案する。 並列化されたトランスフォーマーエンコーダのシーケンスを外部のマルチヘッドアテンション関数で拡張し,全タスクのデータによって更新する。 複数の実世界のマルチタスク時系列予測タスクの実験から,提案したアーキテクチャは最先端の単一タスク予測ベースラインを上回るだけでなく,RNNベースのマルチタスク予測手法よりも優れていることが示された。

Time series forecasting is a key component in many industrial and business decision processes and recurrent neural network (RNN) based models have achieved impressive progress on various time series forecasting tasks. However, most of the existing methods focus on single-task forecasting problems by learning separately based on limited supervised objectives, which often suffer from insufficient training instances. As the Transformer architecture and other attention-based models have demonstrated its great capability of capturing long term dependency, we propose two self-attention based sharing schemes for multi-task time series forecasting which can train jointly across multiple tasks. We augment a sequence of paralleled Transformer encoders with an external public multi-head attention function, which is updated by all data of all tasks. Experiments on a number of real-world multi-task time series forecasting tasks show that our proposed architectures can not only outperform the state-of-the-art single-task forecasting baselines but also outperform the RNN-based multi-task forecasting method.
翻訳日:2021-03-16 09:17:49 公開日:2021-01-24
# NeurT-FDR:特徴階層を組み込んだFDR制御

NeurT-FDR: Controlling FDR by Incorporating Feature Hierarchy ( http://arxiv.org/abs/2101.09809v1 )

ライセンス: Link先を確認
Lin Qiu, Nils Murrugarra-Llerena, V\'itor Silva, Lin Lin, Vernon M. Chinchilli(参考訳) 誤発見率(FDR)を制御しながら、複数の仮説テストの側面情報を活用することは、現代のデータサイエンスにおける新たな研究テーマです。 既存の方法はテストレベルの共変量に依存するが、共変量間の階層性は無視する。 この戦略は、これらのテストレベルの共変量の間に階層的情報がしばしば存在する複雑な大規模問題に対して最適ではないかもしれない。 統計的パワーを向上し、テストレベルの共変量間の階層性を活用しながら、複数の仮説テストのためのFDRを制御するNeurT-FDRを提案する。 提案手法は,ニューラルネットワークとしてテストレベルの共変分をパラメータ化し,高次元特徴の柔軟なハンドリングと効率的なエンドツーエンド最適化を可能にする回帰フレームワークを通じて特徴階層を調整する。 我々は、NeurT-FDRが強力なFDR保証を持ち、競合するベースラインと比較して合成データセットと実データセットで大幅に発見することを示しています。

Controlling false discovery rate (FDR) while leveraging the side information of multiple hypothesis testing is an emerging research topic in modern data science. Existing methods rely on the test-level covariates while ignoring possible hierarchy among the covariates. This strategy may not be optimal for complex large-scale problems, where hierarchical information often exists among those test-level covariates. We propose NeurT-FDR which boosts statistical power and controls FDR for multiple hypothesis testing while leveraging the hierarchy among test-level covariates. Our method parametrizes the test-level covariates as a neural network and adjusts the feature hierarchy through a regression framework, which enables flexible handling of high-dimensional features as well as efficient end-to-end optimization. We show that NeurT-FDR has strong FDR guarantees and makes substantially more discoveries in synthetic and real datasets compared to competitive baselines.
翻訳日:2021-03-16 09:17:30 公開日:2021-01-24
# A2P-MANN: メモリ拡張ニューラルネットワークのアダプティブアテンション推論ホップ

A2P-MANN: Adaptive Attention Inference Hops Pruned Memory-Augmented Neural Networks ( http://arxiv.org/abs/2101.09693v1 )

ライセンス: Link先を確認
Mohsen Ahmadzadeh, Mehdi Kamal, Ali Afzali-Kusha, Massoud Pedram(参考訳) 本研究では,記憶型ニューラルネットワークにおける注意推論ホップ数を制限するため,a2p-mannと呼ばれるオンライン適応手法を提案する。 小さなニューラルネットワーク分類器を利用することで、入力クエリに対する十分な数の注目推測ホップを決定する。 この技術は、正しい解を抽出する際に不要な大量の計算を除去する。 さらに,A2P-MANNの計算量をさらに小さくするために,最終FC層(全接続層)のプルーニング重みを提案する。 この目的のために、無視可能な精度の損失と最終的な精度の制御可能な損失を持つ2つのプルーニングアプローチが開発されている。 この手法の有効性は,bAbIデータセットの質問応答(QA)タスクを用いて評価する。 分析評価は、平均して、1%未満の精度損失のコストでベースラインMANNと比較して42%以上少ない計算を明らかにします。 また、以前に公表したゼロスキップ技術と併用すると、最大68%の計算量削減が達成される。 最後に、提案するアプローチ(ゼロスキップなし)がcpuとgpuプラットフォームに実装されると、最大43%のランタイム削減が達成される。

In this work, to limit the number of required attention inference hops in memory-augmented neural networks, we propose an online adaptive approach called A2P-MANN. By exploiting a small neural network classifier, an adequate number of attention inference hops for the input query is determined. The technique results in elimination of a large number of unnecessary computations in extracting the correct answer. In addition, to further lower computations in A2P-MANN, we suggest pruning weights of the final FC (fully-connected) layers. To this end, two pruning approaches, one with negligible accuracy loss and the other with controllable loss on the final accuracy, are developed. The efficacy of the technique is assessed by using the twenty question-answering (QA) tasks of bAbI dataset. The analytical assessment reveals, on average, more than 42% fewer computations compared to the baseline MANN at the cost of less than 1% accuracy loss. In addition, when used along with the previously published zero-skipping technique, a computation count reduction of up to 68% is achieved. Finally, when the proposed approach (without zero-skipping) is implemented on the CPU and GPU platforms, up to 43% runtime reduction is achieved.
翻訳日:2021-03-16 09:17:16 公開日:2021-01-24
# ガウス過程回帰における最大度パラメータ推定の数値問題

Numerical issues in maximum likelihood parameter estimation for Gaussian process regression ( http://arxiv.org/abs/2101.09747v1 )

ライセンス: Link先を確認
Subhasish Basak, S\'ebastien Petit, Julien Bect, Emmanuel Vazquez(参考訳) 本稿では,ガウス過程回帰(GPR)の最大パラメータ推定における数値問題に着目する。 本稿は,数値問題の起源を調査し,単純かつ効果的な改善戦略を提供する。 この研究は基本的な問題をターゲットにしているが、特にベイズ最適化の文献における多くの研究は、既製のGPR実装に依存している。 これらの研究の結論が信頼性と再現性を持つためには、堅牢なGPR実装が不可欠です。

This article focuses on numerical issues in maximum likelihood parameter estimation for Gaussian process regression (GPR). This article investigates the origin of the numerical issues and provides simple but effective improvement strategies. This work targets a basic problem but a host of studies, particularly in the literature of Bayesian optimization, rely on off-the-shelf GPR implementations. For the conclusions of these studies to be reliable and reproducible, robust GPR implementations are critical.
翻訳日:2021-03-16 09:16:35 公開日:2021-01-24
# AQuA:ビデオ分析システムの最適化のための分析品質評価

AQuA: Analytical Quality Assessment for Optimizing Video Analytics Systems ( http://arxiv.org/abs/2101.09752v1 )

ライセンス: Link先を確認
Sibendu Paul, Utsav Drolia, Y. Charlie Hu, Srimat T. Chakradhar(参考訳) edgeの数百万台のカメラが、さまざまなディープラーニングアプリケーションを動かすためにデプロイされている。 しかし、これらのカメラが捉えたフレームは必ずしも原始的ではなく、照明の問題、センサーノイズ、圧縮などによって歪められる。 このような歪みは視覚的品質を劣化させるだけでなく、このようなビデオストリームを処理するディープラーニングアプリケーションの精度にも影響を及ぼす。 本研究では,フレームの歪みレベルを評価することで,そのような歪んだフレームに対してアプリケーション精度を保護するために,AQuAを導入する。 これは、新しいメトリック、分類子意見スコアを学習することで、視覚的品質ではなく、フレームの分析的品質を考慮に入れ、軽量でcnnベースの、オブジェクトに依存しない特徴抽出器を使用する。 AQuAはフレームの歪みレベルを正確にスコアし、複数の異なるディープラーニングアプリケーションに一般化する。 エッジで品質の低いフレームをフィルタリングする場合、分析アプリケーションの信頼性の高いエラーを17%削減する。 フィルタリングにより、そのオーバーヘッド(14ms)が低いため、AQuAは計算時間と平均帯域幅使用量を25%削減することもできます。

Millions of cameras at edge are being deployed to power a variety of different deep learning applications. However, the frames captured by these cameras are not always pristine - they can be distorted due to lighting issues, sensor noise, compression etc. Such distortions not only deteriorate visual quality, they impact the accuracy of deep learning applications that process such video streams. In this work, we introduce AQuA, to protect application accuracy against such distorted frames by scoring the level of distortion in the frames. It takes into account the analytical quality of frames, not the visual quality, by learning a novel metric, classifier opinion score, and uses a lightweight, CNN-based, object-independent feature extractor. AQuA accurately scores distortion levels of frames and generalizes to multiple different deep learning applications. When used for filtering poor quality frames at edge, it reduces high-confidence errors for analytics applications by 17%. Through filtering, and due to its low overhead (14ms), AQuA can also reduce computation time and average bandwidth usage by 25%.
翻訳日:2021-03-16 09:16:28 公開日:2021-01-24
# WangchanBERTa: トランスフォーメーションベースのタイ語モデル

WangchanBERTa: Pretraining transformer-based Thai Language Models ( http://arxiv.org/abs/2101.09635v1 )

ライセンス: Link先を確認
Lalita Lowphansirikul, Charin Polpanumas, Nawat Jantrakulchai, Sarana Nutanong(参考訳) トランスフォーマーベースの言語モデル、特にBERTベースのアーキテクチャは、多くの下流タスクで最先端のパフォーマンスを達成しました。 しかし、タイ語のような比較的リソースの少ない言語では、モデルの選択は、はるかに小さなデータセットに基づくBERTベースのモデルのトレーニングや多言語モデルの微調整に限定されます。 さらに、タイの言語固有の特徴を考慮に入れた大規模多言語前訓練は行われない。 これらの制限を克服するために、私たちはRoBERTaベースのアーキテクチャに基づく言語モデルを、ソーシャルメディアの投稿、ニュース記事、その他の公開データセットのさまざまなドメインから収集された大規模で重複しないクリーンなトレーニングセット(総サイズ78GB)で事前トレーニングします。 我々は,サブワードトークン化前のタイにおいて重要なチャンク境界と文境界である空間の保存に特有なテキスト処理規則を適用する。 また, 単語レベル, 音節レベル, SentencePiece のトークン化を, より小さなデータセットで実験し, 下流の性能に及ぼすトークン化の影響について検討した。 我々のモデル Wangchanberta-base-a tt-spm-uncased は78.5GB のデータセットでトレーニングされ、強いベースライン (NBSVM, CRF, ULMFit) とマルチリンガルモデル (XLMR, mBERT) を人間の注釈付き単言語文脈におけるシーケンス分類およびトークン分類のタスクで上回っている。

Transformer-based language models, more specifically BERT-based architectures have achieved state-of-the-art performance in many downstream tasks. However, for a relatively low-resource language such as Thai, the choices of models are limited to training a BERT-based model based on a much smaller dataset or finetuning multi-lingual models, both of which yield suboptimal downstream performance. Moreover, large-scale multi-lingual pretraining does not take into account language-specific features for Thai. To overcome these limitations, we pretrain a language model based on RoBERTa-base architecture on a large, deduplicated, cleaned training set (78GB in total size), curated from diverse domains of social media posts, news articles and other publicly available datasets. We apply text processing rules that are specific to Thai most importantly preserving spaces, which are important chunk and sentence boundaries in Thai before subword tokenization. We also experiment with word-level, syllable-level and SentencePiece tokenization with a smaller dataset to explore the effects on tokenization on downstream performance. Our model wangchanberta-base-a tt-spm-uncased trained on the 78.5GB dataset outperforms strong baselines (NBSVM, CRF and ULMFit) and multi-lingual models (XLMR and mBERT) on both sequence classification and token classification tasks in human-annotated, mono-lingual contexts.
翻訳日:2021-03-16 09:16:11 公開日:2021-01-24
# ダイアログ長は次の応答選択作業に重要か? 実証的研究

Does Dialog Length matter for Next Response Selection task? An Empirical Study ( http://arxiv.org/abs/2101.09647v1 )

ライセンス: Link先を確認
Jatin Ganhotra, Sachindra Joshi(参考訳) ここ数年、多言語トランスフォーマーベースのモデルであるBERTのリリースにより、NLPコミュニティは混乱に陥りました。 BERTベースのモデルは、ダイアログタスクを含む様々なNLPタスクで最先端の結果を得た。 BERTの制限の1つは、長いテキストシーケンスを扱う能力の欠如である。 デフォルトでは、BERTは最大ワードピーストークンのシーケンス長が512です。 近年,新たな自己注意型アーキテクチャの追加により,長いテキストシーケンスを扱うBERT制限に対処する関心が高まっている。 しかしながら、この制限がダイアログタスクに与える影響については、ほとんど研究されていない。 ダイアログタスクは他のNLPタスクとは本質的に異なる:a) 複数の話者からの複数の発話の存在。 本研究では,次の応答選択ダイアログタスクにおけるBERTモデルの性能に及ぼすダイアログ長の影響を,4つの公用および1つの内部マルチターンダイアログデータセット上で実証的に評価する。 長いダイアログでのパフォーマンスにはほとんど影響がなく、入力を切断する最も単純なアプローチさえもうまく機能するのである。

In the last few years, the release of BERT, a multilingual transformer based model, has taken the NLP community by storm. BERT-based models have achieved state-of-the-art results on various NLP tasks, including dialog tasks. One of the limitation of BERT is the lack of ability to handle long text sequence. By default, BERT has a maximum wordpiece token sequence length of 512. Recently, there has been renewed interest to tackle the BERT limitation to handle long text sequences with the addition of new self-attention based architectures. However, there has been little to no research on the impact of this limitation with respect to dialog tasks. Dialog tasks are inherently different from other NLP tasks due to: a) the presence of multiple utterances from multiple speakers, which may be interlinked to each other across different turns and b) longer length of dialogs. In this work, we empirically evaluate the impact of dialog length on the performance of BERT model for the Next Response Selection dialog task on four publicly available and one internal multi-turn dialog datasets. We observe that there is little impact on performance with long dialogs and even the simplest approach of truncating input works really well.
翻訳日:2021-03-16 09:15:39 公開日:2021-01-24
# ニュース記事から意見文を抽出するための新しい二段階枠組み

A Novel Two-stage Framework for Extracting Opinionated Sentences from News Articles ( http://arxiv.org/abs/2101.09743v1 )

ライセンス: Link先を確認
Rajkumar Pujari and Swara Desai and Niloy Ganguly and Pawan Goyal(参考訳) 本稿では,あるニュース記事から意見文を抽出する新しい2段階の枠組みを提案する。 第1段階では、局所的な特徴を利用したネイブベイズ分類器が各文にスコアを割り当て、スコアは意見される文の確率を示す。 第2段階では、HITS(Hyperlink-Induc ed Topic Search)スキーマ内で、記事のグローバル構造と文間の関係を利用するために、この前もってこれを使用します。 HITSスキーマでは、意見文はハブとして扱われ、これらの意見に関する事実は権威として扱われる。 アルゴリズムは手動でマークされたデータの集合に対して実装され評価される。 HITSを用いることで,ベースラインのNaive Bayes分類器の精度が大幅に向上することを示す。 また,提案手法は,本論文の基盤となる構造を実際に発見し,支援事実と他の支援意見とをまとめて,様々な意見を取り出すものであることも議論する。

This paper presents a novel two-stage framework to extract opinionated sentences from a given news article. In the first stage, Naive Bayes classifier by utilizing the local features assigns a score to each sentence - the score signifies the probability of the sentence to be opinionated. In the second stage, we use this prior within the HITS (Hyperlink-Induced Topic Search) schema to exploit the global structure of the article and relation between the sentences. In the HITS schema, the opinionated sentences are treated as Hubs and the facts around these opinions are treated as the Authorities. The algorithm is implemented and evaluated against a set of manually marked data. We show that using HITS significantly improves the precision over the baseline Naive Bayes classifier. We also argue that the proposed method actually discovers the underlying structure of the article, thus extracting various opinions, grouped with supporting facts as well as other supporting opinions from the article.
翻訳日:2021-03-16 09:15:22 公開日:2021-01-24
# RomeBERT:マルチExit BERTのロバストトレーニング

RomeBERT: Robust Training of Multi-Exit BERT ( http://arxiv.org/abs/2101.09755v1 )

ライセンス: Link先を確認
Shijie Geng, Peng Gao, Zuohui Fu, Yongfeng Zhang(参考訳) BERTは自然言語理解(NLU)タスクで優れたパフォーマンスを達成しました。 しかしBERTは多くのパラメータを持ち、特定のリソースをデプロイする必要がある。 加速のために、BERT(DeeBERT)のダイナミックアーリーエグジット(Dynamic Early Exiting for BERT)が最近提案され、複数のエグジットを組み込んで、効率的な推論を確保するために動的アーリーエグジットメカニズムを採用しています。 効率の良いトレードオフを得る一方で、マルチエグゼクティブBERTの早期出口の性能は後期出口よりも著しく低下する。 本稿では,マルチエクイットBERT(RomeBERT)のRObustトレーニングにおける勾配正規化自己蒸留を利用して,早期出口と後期出口の性能不均衡を効果的に解決する。 さらに、提案されたRomBERTはマルチエグゼクティブとBERTバックボーンのための1段階のジョイントトレーニング戦略を採用しており、DeeBERTにはより多くのトレーニング時間を必要とする2つのステージが必要である。 GLUEデータセットの広範な実験は、私たちのアプローチの優位性を示すために行われます。 私たちのコードはhttps://github.com/r omebert/romebertで利用可能です。

BERT has achieved superior performances on Natural Language Understanding (NLU) tasks. However, BERT possesses a large number of parameters and demands certain resources to deploy. For acceleration, Dynamic Early Exiting for BERT (DeeBERT) has been proposed recently, which incorporates multiple exits and adopts a dynamic early-exit mechanism to ensure efficient inference. While obtaining an efficiency-performan ce tradeoff, the performances of early exits in multi-exit BERT are significantly worse than late exits. In this paper, we leverage gradient regularized self-distillation for RObust training of Multi-Exit BERT (RomeBERT), which can effectively solve the performance imbalance problem between early and late exits. Moreover, the proposed RomeBERT adopts a one-stage joint training strategy for multi-exits and the BERT backbone while DeeBERT needs two stages that require more training time. Extensive experiments on GLUE datasets are performed to demonstrate the superiority of our approach. Our code is available at https://github.com/r omebert/RomeBERT.
翻訳日:2021-03-16 09:15:06 公開日:2021-01-24
# 連続再現による頑健な単語認識モデルの評価

Evaluating Models of Robust Word Recognition with Serial Reproduction ( http://arxiv.org/abs/2101.09788v1 )

ライセンス: Link先を確認
Stephan C. Meylan, Sathvik Nair, Thomas L. Griffiths(参考訳) 話し言葉のコミュニケーションは、高レベルの環境騒音、話者間の変動性、語彙的・構文的曖昧さを特徴とする「ノイズチャンネル」で起こる。 これらの言語入力の特性を踏まえると、頑健な音声単語認識と言語処理は、その入力の候補解釈が多かれ少なかれありそうにないかどうかを評価するために、聞き手の事前知識に大きく依存する。 ここでは、人間の言語の期待を捕捉する能力のいくつかの広いカバー確率生成言語モデルを比較します。 英語圏の成人の言語的期待を反映したサンプルを導き出すために,「テレフォン」という子供のゲームに似た連続した参加者によって発話を再現する実験パラダイムである。 発話の連鎖に対して確率的生成言語モデル群を評価すると、先行する言語文脈(句構造)の抽象的表現を利用するモデルが、連続的再生の過程で人によってなされる変化を最もよく予測していることが分かる。 発話中のどの単語が音声伝達の過程で失われるか、あるいは変更されるかを予測するロジスティック回帰モデルは、この結果を裏付ける。 言語処理におけるメモリに基づく制約と表現の相互作用を強調する研究に照らして,これらの知見を解釈する。

Spoken communication occurs in a "noisy channel" characterized by high levels of environmental noise, variability within and between speakers, and lexical and syntactic ambiguity. Given these properties of the received linguistic input, robust spoken word recognition -- and language processing more generally -- relies heavily on listeners' prior knowledge to evaluate whether candidate interpretations of that input are more or less likely. Here we compare several broad-coverage probabilistic generative language models in their ability to capture human linguistic expectations. Serial reproduction, an experimental paradigm where spoken utterances are reproduced by successive participants similar to the children's game of "Telephone," is used to elicit a sample that reflects the linguistic expectations of English-speaking adults. When we evaluate a suite of probabilistic generative language models against the yielded chains of utterances, we find that those models that make use of abstract representations of preceding linguistic context (i.e., phrase structure) best predict the changes made by people in the course of serial reproduction. A logistic regression model predicting which words in an utterance are most likely to be lost or changed in the course of spoken transmission corroborates this result. We interpret these findings in light of research highlighting the interaction of memory-based constraints and representations in language processing.
翻訳日:2021-03-16 09:14:47 公開日:2021-01-24
# 深層モデルロバスト性のための総合評価フレームワーク

A Comprehensive Evaluation Framework for Deep Model Robustness ( http://arxiv.org/abs/2101.09617v1 )

ライセンス: Link先を確認
Aishan Liu, Xianglong Liu, Jun Guo, Jiakai Wang, Yuqing Ma, Ze Zhao, Xinghai Gao, Gang Xiao(参考訳) ディープニューラルネットワーク(DNN)は、幅広いアプリケーションで顕著なパフォーマンスを達成しています。 しかし、彼らは敵の防衛を動機づける敵の例に対して脆弱です。 単純な評価基準を採用することで、現在の防御のほとんどは不完全な評価しか行わず、これらの防御の限界に関する包括的理解を提供するには程遠い。 したがって、ほとんどの提案された防御はすぐに攻撃に成功し、攻撃と防衛の間の「武装レース」現象を引き起こします。 この問題を軽減するため,我々は,モデルロバスト性を完全に評価し,ロバストモデルの構築に深い洞察を与える総合的かつ厳密でコヒーレントな評価指標を含むモデルロバスト性評価フレームワークを構築した。 総合評価指標23項目において,本フレームワークは主に,逆学習(\ie,データ,モデル)の2つの重要な要素に注目した。 ニューロンのカバレッジとデータインセプティビリティを通じて、データ指向のメトリクスを使用してテスト例の整合性を測定します。モデル構造と振る舞いを掘り下げることにより、モデル指向のメトリクスを活用して、敵対的な設定における堅牢性をさらに評価します。 CIFAR-10やSVHNを含む複数のデータセットに対して,オープンソースプラットフォームであるAISafetyを使って,さまざまなモデルとディフェンスを使用して大規模な実験を行う。 本研究の目的は,モデルロバストネスの詳細な検査を行うための総合的な評価フレームワークを提供することであり,本論文がモデルロバストネスにさらなる改善をもたらすことを願っている。

Deep neural networks (DNNs) have achieved remarkable performance across a wide area of applications. However, they are vulnerable to adversarial examples, which motivates the adversarial defense. By adopting simple evaluation metrics, most of the current defenses only conduct incomplete evaluations, which are far from providing comprehensive understandings of the limitations of these defenses. Thus, most proposed defenses are quickly shown to be attacked successfully, which result in the "arm race" phenomenon between attack and defense. To mitigate this problem, we establish a model robustness evaluation framework containing a comprehensive, rigorous, and coherent set of evaluation metrics, which could fully evaluate model robustness and provide deep insights into building robust models. With 23 evaluation metrics in total, our framework primarily focuses on the two key factors of adversarial learning (\ie, data and model). Through neuron coverage and data imperceptibility, we use data-oriented metrics to measure the integrity of test examples; by delving into model structure and behavior, we exploit model-oriented metrics to further evaluate robustness in the adversarial setting. To fully demonstrate the effectiveness of our framework, we conduct large-scale experiments on multiple datasets including CIFAR-10 and SVHN using different models and defenses with our open-source platform AISafety. Overall, our paper aims to provide a comprehensive evaluation framework which could demonstrate detailed inspections of the model robustness, and we hope that our paper can inspire further improvement to the model robustness.
翻訳日:2021-03-16 09:14:24 公開日:2021-01-24
# OpenGF: 世界中のオープンALSポイントクラウド上に構築された超大規模地上フィルタデータセット

OpenGF: An Ultra-Large-Scale Ground Filtering Dataset Built Upon Open ALS Point Clouds Around the World ( http://arxiv.org/abs/2101.09641v1 )

ライセンス: Link先を確認
Nannan Qin, Weikai Tan, Lingfei Ma, Dedong Zhang, Jonathan Li(参考訳) 地上ろ過は、地形の劇的な変化とオブジェクトの複雑な構造のために、高精度デジタル標高モデルの自動生成において数十年間、広く研究されてきたが、不完全なボトルネックのままです。 最近の3Dシーン理解における教師付きディープラーニングアルゴリズムのブレークスルーは、そのような問題を解決するための新しいソリューションをもたらす。 しかし、地上抽出専用の大規模かつシーンリッチな公開データセットはほとんどなく、これは効果的な深層学習に基づく地上フィルタリング手法の開発を著しく制限している。 この目的のために,世界4カ国のオープンALS点雲上に構築された9つの典型的な地形の47$km^2$以上をカバーする,最初のUltra-Large-Scale Ground FilteringデータセットであるOpenGFを提案する。 OpenGFは、デファクト標準ISPRSフィルタテストデータセットよりも、ラベル付きポイントの数の数千倍、50億以上の細かいラベル付きグラウンドと非グラウンドポイントが含まれています。 我々は,データ集合上の最先端ルールベースアルゴリズムと3次元意味セグメンテーションネットワークの性能を広範囲に評価し,包括的な分析を行う。 その結果、OpenGFがディープラーニングモデルを効果的に訓練できることが確認された。 このデータセットはhttps://github.com/N athan-UW/OpenGFで公開され、地上フィルタリングと大規模な3D地理環境理解のためのさらなる研究を促進する。

Ground filtering has remained a widely studied but incompletely resolved bottleneck for decades in the automatic generation of high-precision digital elevation model, due to the dramatic changes of topography and the complex structures of objects. The recent breakthrough of supervised deep learning algorithms in 3D scene understanding brings new solutions for better solving such problems. However, there are few large-scale and scene-rich public datasets dedicated to ground extraction, which considerably limits the development of effective deep-learning-based ground filtering methods. To this end, we present OpenGF, first Ultra-Large-Scale Ground Filtering dataset covering over 47 $km^2$ of 9 different typical terrain scenes built upon open ALS point clouds of 4 different countries around the world. OpenGF contains more than half a billion finely labeled ground and non-ground points, thousands of times the number of labeled points than the de facto standard ISPRS filtertest dataset. We extensively evaluate the performance of state-of-the-art rule-based algorithms and 3D semantic segmentation networks on our dataset and provide a comprehensive analysis. The results have confirmed the capability of OpenGF to train deep learning models effectively. This dataset will be released at https://github.com/N athan-UW/OpenGF to promote more advancing research for ground filtering and large-scale 3D geographic environment understanding.
翻訳日:2021-03-16 09:14:00 公開日:2021-01-24
# コンピュータビジョン問題への古典的アプローチと深層アプローチ

Classic versus deep approaches to address computer vision challenges ( http://arxiv.org/abs/2101.09744v1 )

ライセンス: Link先を確認
Nati Ofir and Jean-Christophe Nebel(参考訳) コンピュータビジョンと画像処理は多くの課題に対処する。 過去10年間、ディープニューラルネットワークアーキテクチャがこれらの分野に革命をもたらしたが、初期の手法は'古典的'、すなわち非学習的アプローチに依存していた。 本研究では,従来の学習アルゴリズムとディープラーニング(DL)アルゴリズムの相違について検討し,与えられたアプリケーションにどちらがより適しているか,という新たな知見を得る。 かすかなエッジ検出とマルチスペクトル画像登録という2つの困難な問題に焦点を当て、最新のDLと古典的なソリューションを研究しています。 これらのdlアルゴリズムは、精度と開発時間の観点から従来の手法を上回っているが、リソース要件が高く、トレーニングスペース外では実行できない傾向がある。 さらに、古典的なアルゴリズムはより透明で、現実のアプリケーションに採用しやすい。 両方のアプローチのクラスに固有の長所と制限があるため、ソリューションの選択は明らかにアプリケーションに依存します。

Computer vision and image processing address many challenging applications. While the last decade has seen deep neural network architectures revolutionizing those fields, early methods relied on 'classic', i.e., non-learned approaches. In this study, we explore the differences between classic and deep learning (DL) algorithms to gain new insight regarding which is more suitable for a given application. The focus is on two challenging ill-posed problems, namely faint edge detection and multispectral image registration, studying recent state-of-the-art DL and classic solutions. While those DL algorithms outperform classic methods in terms of accuracy and development time, they tend to have higher resource requirements and are unable to perform outside their training space. Moreover, classic algorithms are more transparent, which facilitates their adoption for real-life applications. As both classes of approaches have unique strengths and limitations, the choice of a solution is clearly application dependent.
翻訳日:2021-03-16 09:13:26 公開日:2021-01-24
# 一クラス認識のための共同表現学習と特徴モデリングアプローチ

A Joint Representation Learning and Feature Modeling Approach for One-class Recognition ( http://arxiv.org/abs/2101.09782v1 )

ライセンス: Link先を確認
Pramuditha Perera, Vishal Patel(参考訳) 1クラス認識は、伝統的に表現学習問題または特徴モデリング問題としてアプローチされる。 本研究では,これら2つのアプローチにそれぞれ独自の制限があることを論じ,この2つを組み合わせることでより効果的な解が得られる。 提案手法は,生成フレームワークと一クラス分類法を組み合わせたものである。 まず,生成フレームワークを用いて1クラスデータを用いて生成機能を学ぶ。 学習した特徴を対応する復元誤差で補強し,拡張的な特徴を得る。 次に、選択された分類空間の冗長性を低減する適切な特徴分布を定性的に特定する。 最後に,拡張機能に対して,逆向きのフレームワークを用いて,この分布の形式をとるように強制する。 提案手法の有効性を3つの一級分類課題で検証し,その結果を得た。

One-class recognition is traditionally approached either as a representation learning problem or a feature modeling problem. In this work, we argue that both of these approaches have their own limitations; and a more effective solution can be obtained by combining the two. The proposed approach is based on the combination of a generative framework and a one-class classification method. First, we learn generative features using the one-class data with a generative framework. We augment the learned features with the corresponding reconstruction errors to obtain augmented features. Then, we qualitatively identify a suitable feature distribution that reduces the redundancy in the chosen classifier space. Finally, we force the augmented features to take the form of this distribution using an adversarial framework. We test the effectiveness of the proposed method on three one-class classification tasks and obtain state-of-the-art results.
翻訳日:2021-03-16 09:12:59 公開日:2021-01-24
# GST:Deep Reinforcement Learningを加速するためのグループスパーストレーニング

GST: Group-Sparse Training for Accelerating Deep Reinforcement Learning ( http://arxiv.org/abs/2101.09650v1 )

ライセンス: Link先を確認
Juhyoung Lee, Sangyeob Kim, Sangjin Kim, Wooyoung Jo, Hoi-Jun Yoo(参考訳) 深層強化学習(DRL)は、連続的な意思決定問題で顕著な成功を収めていますが、そのような優れたパフォーマンスを得るために長いトレーニング時間に苦しんでいます。 この問題を解決するために,多数の並列分散DRLトレーニング手法が提案されているが,資源限定デバイスでの利用は困難である。 現実世界のエッジデバイスでDRLを加速するためには、大容量のトランザクションによるメモリ帯域幅のボトルネックを解決する必要がある。 しかし, 従来の反復刈りは, トレーニング開始時に低圧縮率を示すだけでなく, DRLトレーニングを不安定にする。 これらの欠点を克服するために,グループスパーストレーニング(GST)と呼ばれるDRLトレーニングアクセラレーションのための新しい重み圧縮手法を提案する。 GSTはブロック循環圧縮を選択的に利用し、DRLトレーニングの全てのイテレーションにおいて高い重量圧縮比を維持し、安定したトレーニングのために報酬認識プルーニングを通じて目標空間を動的に適応する。 この特徴により、gst は td3 トレーニングによる mujoco halfcheetah-v2 および mujoco humanoid-v2 環境において、反復的プルーニング法よりも 25 \%p $\sim$ 41.5 \%p 高い平均圧縮率を達成している。

Deep reinforcement learning (DRL) has shown remarkable success in sequential decision-making problems but suffers from a long training time to obtain such good performance. Many parallel and distributed DRL training approaches have been proposed to solve this problem, but it is difficult to utilize them on resource-limited devices. In order to accelerate DRL in real-world edge devices, memory bandwidth bottlenecks due to large weight transactions have to be resolved. However, previous iterative pruning not only shows a low compression ratio at the beginning of training but also makes DRL training unstable. To overcome these shortcomings, we propose a novel weight compression method for DRL training acceleration, named group-sparse training (GST). GST selectively utilizes block-circulant compression to maintain a high weight compression ratio during all iterations of DRL training and dynamically adapt target sparsity through reward-aware pruning for stable training. Thanks to the features, GST achieves a 25 \%p $\sim$ 41.5 \%p higher average compression ratio than the iterative pruning method without reward drop in Mujoco Halfcheetah-v2 and Mujoco humanoid-v2 environment with TD3 training.
翻訳日:2021-03-16 09:12:48 公開日:2021-01-24
# 話者ダイアリゼーションのレビュー:深層学習による最近の進歩

A Review of Speaker Diarization: Recent Advances with Deep Learning ( http://arxiv.org/abs/2101.09624v1 )

ライセンス: Link先を確認
Tae Jin Park, Naoyuki Kanda, Dimitrios Dimitriadis, Kyu J. Han, Shinji Watanabe, Shrikanth Narayanan(参考訳) 話者ダイアリゼーション(英: speaker diarization)とは、話者のアイデンティティに対応するクラスに音声やビデオの録音をラベル付けするタスクである。 初期の話者ダイアリゼーションアルゴリズムは、話者適応処理を可能にするマルチスピーカー音声記録の音声認識のために開発されましたが、音声検索などの下流タスクに話者固有のメタ情報を提供するために、時間の経過とともにスタンドアロンアプリケーションとして独自の価値を得ました。 最近では、過去10年間に音声アプリケーション領域における研究と実践の革命的な変化の原動力となったディープラーニング技術の台頭により、話者ダイアリゼーションのためのより急速な進歩が行われています。 本稿では,話者ダイアリゼーション技術の歴史的発展だけでなく,近年のニューラル話者ダイアリゼーション手法の進歩について概説する。 また、話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているか、また、近年のディープラーニングの急増が、これら2つのコンポーネントを相補的にモデリングする方法をいかに導いているかについても論じる。 このようなエキサイティングな技術的傾向を考えることで、最近の開発を神経的手法に統合し、より効率的な話者ダイアリゼーションに向けたさらなる進展を促すことで、調査作業を提供することが、コミュニティにとって価値ある貢献であると考えています。

Speaker diarization is a task to label audio or video recordings with classes corresponding to speaker identity, or in short, a task to identify "who spoke when". In the early years, speaker diarization algorithms were developed for speech recognition on multi-speaker audio recordings to enable speaker adaptive processing, but also gained its own value as a stand-alone application over time to provide speaker-specific meta information for downstream tasks such as audio retrieval. More recently, with the rise of deep learning technology that has been a driving force to revolutionary changes in research and practices across speech application domains in the past decade, more rapid advancements have been made for speaker diarization. In this paper, we review not only the historical development of speaker diarization technology but also the recent advancements in neural speaker diarization approaches. We also discuss how speaker diarization systems have been integrated with speech recognition applications and how the recent surge of deep learning is leading the way of jointly modeling these two components to be complementary to each other. By considering such exciting technical trends, we believe that it is a valuable contribution to the community to provide a survey work by consolidating the recent developments with neural methods and thus facilitating further progress towards a more efficient speaker diarization.
翻訳日:2021-03-16 09:11:59 公開日:2021-01-24
# 深層Q-Learningによる最適停止問題の解法

Solving optimal stopping problems with Deep Q-Learning ( http://arxiv.org/abs/2101.09682v1 )

ライセンス: Link先を確認
John Ery and Loris Michel(参考訳) オプション型製品の最適な運動戦略をモデル化する強化学習(RL)手法を提案する。 本稿では,根底にある停止問題の最適作用値関数を学習するために,RL経路を追求する。 任意のステップで最適なQ-関数を取得することに加えて、開始時に契約価格を設定できる。 まず1つのエクササイズで標準設定について議論し、その後、制約がある場合の複数の停止機会にこのフレームワークを拡張します。 我々は,最小二乗モンテカルロフレームワークのような基底関数の仕様を必要とせず,高次元にスケーラブルなQ関数とディープニューラルネットワークを近似することを提案する。 我々は、トレーニングされたニューラルネットワークから得られるオプション価格と、停止問題の双対な定式化から得られる上限を低くし、Q-関数の観点からも表現できる。 提案手法は,スウィングオプションの価格を例に示す。

We propose a reinforcement learning (RL) approach to model optimal exercise strategies for option-type products. We pursue the RL avenue in order to learn the optimal action-value function of the underlying stopping problem. In addition to retrieving the optimal Q-function at any time step, one can also price the contract at inception. We first discuss the standard setting with one exercise right, and later extend this framework to the case of multiple stopping opportunities in the presence of constraints. We propose to approximate the Q-function with a deep neural network, which does not require the specification of basis functions as in the least-squares Monte Carlo framework and is scalable to higher dimensions. We derive a lower bound on the option price obtained from the trained neural network and an upper bound from the dual formulation of the stopping problem, which can also be expressed in terms of the Q-function. Our methodology is illustrated with examples covering the pricing of swing options.
翻訳日:2021-03-16 09:11:34 公開日:2021-01-24
# 実物画像へのカートゥーン用cGAN

cGANs for Cartoon to Real-life Images ( http://arxiv.org/abs/2101.09793v1 )

ライセンス: Link先を確認
Pranjal Singh Rajput, Kanya Satis, Sonnya Dellarosa, Wenxuan Huang, Obinna Agba(参考訳) 画像から画像への変換は、入力画像と出力画像の間の視覚マッピングを確立するための学習タスクです。 このタスクは、合成から現実への翻訳、写真から似顔絵への翻訳など、翻訳の目的によって異なるいくつかのバリエーションがある。 この問題は、従来のコンピュータビジョンの方法や、最近のトレンドにおけるディープラーニングのアプローチなど、さまざまなアプローチで取り組まれている。 現在普及し、有効な1つのアプローチはcGANとしてまたすぐに知られている条件付き生成のadversarialネットワークを使用することです。 典型的には2つのネットワーク(ジェネレータと判別器)で画像から画像への翻訳タスクを実行するように適合する。 このプロジェクトは、漫画化された画像からなるデータセットにPix2Pixモデルを適用することにより、Pix2Pixモデルの堅牢性を評価することを目的とする。 Pix2Pixモデルを使用すると、ネットワークを訓練して、漫画化された画像から実際の画像を生成することができます。

The image-to-image translation is a learning task to establish a visual mapping between an input and output image. The task has several variations differentiated based on the purpose of the translation, such as synthetic to real translation, photo to caricature translation, and many others. The problem has been tackled using different approaches, either through traditional computer vision methods, as well as deep learning approaches in recent trends. One approach currently deemed popular and effective is using the conditional generative adversarial network, also known shortly as cGAN. It is adapted to perform image-to-image translation tasks with typically two networks: a generator and a discriminator. This project aims to evaluate the robustness of the Pix2Pix model by applying the Pix2Pix model to datasets consisting of cartoonized images. Using the Pix2Pix model, it should be possible to train the network to generate real-life images from the cartoonized images.
翻訳日:2021-03-16 09:11:05 公開日:2021-01-24
# 雑音ネットワークにおけるアンサンブルと不確実性最小化の検討

Exploring ensembles and uncertainty minimization in denoising networks ( http://arxiv.org/abs/2101.09798v1 )

ライセンス: Link先を確認
Xiaoqi Ma(参考訳) ニューラルネットワークの開発は、様々なコンピュータビジョンタスクのパフォーマンスを大幅に改善した。 DnCNNのような畳み込みニューラルネットワークに基づく手法は従来の手法の限界を突破し、より定量的な結果が得られる。 しかし、ニューラルネットワークに存在するてんかんの不確実性は、タスクの認知よりもパフォーマンスのさらなる改善を制限している。 そこで我々は,不確実性を最小化し,ノイズ除去をさらに改善するための異なる解を開発し検討する。 アンサンブル学習の観点からは、空間領域と周波数領域の観点からノイズ画像の操作を実装し、事前学習した分節ネットワークを用いて雑音処理を行う。 画素とチャネルに適切な重みを割り当てることに焦点を当てた2つの注意モジュールからなる融合モデルを提案する。 実験の結果,本モデルでは,通常の事前学習型デノナイジングネットワークのベースライン上での性能が向上することが示された。

The development of neural networks has greatly improved the performance in various computer vision tasks. In the filed of image denoising, convolutional neural network based methods such as DnCNN break through the limits of classical methods, achieving better quantitative results. However, the epistemic uncertainty existing in neural networks limits further improvements in their performance over denoising tasks. Therefore, we develop and study different solutions to minimize uncertainty and further improve the removal of noise. From the perspective of ensemble learning, we implement manipulations to noisy images from the point of view of spatial and frequency domains and then denoise them using pre-trained denoising networks. We propose a fusion model consisting of two attention modules, which focus on assigning the proper weights to pixels and channels. The experimental results show that our model achieves better performance on top of the baseline of regular pre-trained denoising networks.
翻訳日:2021-03-16 09:10:50 公開日:2021-01-24
# エキスパートの一貫性を活用してアルゴリズム決定サポートを改善する

Leveraging Expert Consistency to Improve Algorithmic Decision Support ( http://arxiv.org/abs/2101.09648v1 )

ライセンス: Link先を確認
Maria De-Arteaga, Artur Dubrawski, Alexandra Chouldechova(参考訳) 人間のアセスメントに対する優れた予測力の約束により、機械学習モデルは高利回りの決定をサポートするためにますます使用されています。 しかし、これらのモデルのトレーニングに利用可能なラベルの性質は、しばしば意思決定支援のための予測モデルの有用性を妨げます。 本論文では,歴史的専門家による意思決定を情報の豊富な情報源として利用することを検討し,観察されたラベルのみから学習する制限を緩和するために活用できることを示した。 本稿では,データ中の各ケースを1人の専門家が評価した場合に,専門家の一貫性を間接的に推定する問題を考察し,その解決策として影響関数に基づく方法論を提案する。 次に、評価された専門家の一貫性を、ラベルアマルガメーションと呼ばれるアプローチを通じて意思決定支援を目的とした予測モデルに組み込む。 これにより、機械学習モデルは、専門家の一貫性のあるインスタンスで専門家から学び、観察されたラベルから他の場所で学ぶことができる。 提案手法は,観測ラベルのみから学習する一般的な課題を緩和し,アルゴリズムが最適化する構造と専門家への関心の構成とのギャップを減らし得ることを示す。 直感的および理論的結果が得られた後, 児童虐待ホットラインスクリーニングの文脈における経験的結果を示す。 ここでは,(1)専門家がリスクを考慮した高リスクケースが存在するが,展開モデルのトレーニングに使用するターゲットラベルに完全に捕捉されていないこと,(2)提案手法は,これらのケースのリコールを改善する。

Due to their promise of superior predictive power relative to human assessment, machine learning models are increasingly being used to support high-stakes decisions. However, the nature of the labels available for training these models often hampers the usefulness of predictive models for decision support. In this paper, we explore the use of historical expert decisions as a rich--yet imperfect--source of information, and we show that it can be leveraged to mitigate some of the limitations of learning from observed labels alone. We consider the problem of estimating expert consistency indirectly when each case in the data is assessed by a single expert, and propose influence functions based methodology as a solution to this problem. We then incorporate the estimated expert consistency into the predictive model meant for decision support through an approach we term label amalgamation. This allows the machine learning models to learn from experts in instances where there is expert consistency, and learn from the observed labels elsewhere. We show how the proposed approach can help mitigate common challenges of learning from observed labels alone, reducing the gap between the construct that the algorithm optimizes for and the construct of interest to experts. After providing intuition and theoretical results, we present empirical results in the context of child maltreatment hotline screenings. Here, we find that (1) there are high-risk cases whose risk is considered by the experts but not wholly captured in the target labels used to train a deployed model, and (2) the proposed approach improves recall for these cases.
翻訳日:2021-03-16 09:10:35 公開日:2021-01-24
# 混合リゾリューションRFチェーンを用いたチャネル推定のための2ステップ機械学習手法

Two-step Machine Learning Approach for Channel Estimation with Mixed Resolution RF Chains ( http://arxiv.org/abs/2101.09705v1 )

ライセンス: Link先を確認
Brenda Vilas Boas, Wolfgang Zirwas and Martin Haardt(参考訳) MIMOは5Gモバイル無線システムの主要な特徴の1つである。 しかし、それはしばしば高いコスト、サイズ、電力消費につながります。 これらの問題を克服するために、制約付き周波数(rf)フロントエンドや、マルチアンテナ、欲望、反復および量子化プリコーディングアルゴリズム(magiq)などの新しいプリコーダの使用が提案されている。 それでも、MAGIQの最高の性能は、例えばアップリンクの参照信号からアンテナ要素当たりの正確なチャネル知識を仮定する。 本稿では機械学習(ML)アルゴリズムを適用し,効率的なアップリンクチャネル推定手法を提案する。 第1ステップでは、条件付き生成逆転ネットワーク(cGAN)は、フル解像度RFチェーンの限られたセットから低解像度RFチェーンアンテナ要素の残りの部分まで、無線チャネルを予測します。 長期長期メモリ(LSTM)ニューラルネットワークは、低分解能RFチェーンアンテナ要素からさらなる位相情報を抽出します。 提案手法は, 従来のユニタリテンソルESPRITと, 様々な密接な空間を持つマルチパスコンポーネント (MPC) のシナリオで競合することを示す。

Massive MIMO is one of the main features of 5G mobile radio systems. However, it often leads to high cost, size and power consumption. To overcome these issues, the use of constrained radio frequency (RF) frontends has been proposed, as well as novel precoders, e.g., a multi-antenna, greedy, iterative and quantized precoding algorithm (MAGIQ). Nevertheless, the best performance of MAGIQ assumes accurate channel knowledge per antenna element, for example, from uplink sounding reference signals. In this context, we propose an efficient uplink channel estimator by applying machine learning (ML) algorithms. In a first step a conditional generative adversarial network (cGAN) predicts the radio channels from a limited set of full resolution RF chains to the rest of the low resolution RF chain antenna elements. A long-short term memory (LSTM) neural network extracts further phase information from the low resolution RF chain antenna elements. Our results indicate that our proposed approach is competitive with traditional Unitary tensor-ESPRIT in scenarios with various closely spaced multipath components (MPCs).
翻訳日:2021-03-16 09:10:13 公開日:2021-01-24
# マン・コンピュータ共生を実現する手段としての現代機械・深層学習システム

Modern Machine and Deep Learning Systems as a way to achieve Man-Computer Symbiosis ( http://arxiv.org/abs/2101.10534v1 )

ライセンス: Link先を確認
Chirag Gupta(参考訳) Man-Computer Symbiosis(MCS)は、もともと有名なコンピュータの先駆者であるJ.C.Rによって構想された。 1960年、Lickliderはコンピュータと人間の関係を論理的に進化させた。 licklider氏は自身の論文で、マンコンピュータシステムが共生システムであるかどうかを判断するための一連の基準を提供し、近未来のシステムについていくつかの予測を提供した。 それ以来、コンピュータネットワークの革新とインターネットの発明は、その目的に向けて大きな発展を遂げた。 しかし、従来の論理アルゴリズムに基づくほとんどのシステムでは、LickliderのMCSの多くの側面は未完成のままであった。 本稿は,現代の機械学習システム全般,特に深層学習システムがMCSシステムを最もよく例示している範囲と,Locklider氏の論文で述べられているような真の人間-コンピュータ共生を実現するための主要な選択肢について考察する。 深層学習のケースは、元の基準の各点とその後のMCSシステムの研究で規定された基準を、議論を強化するための具体例と応用で説明することによって構築される。 MCSシステムの完璧なバージョンとなる人工知能の実現におけるディープニューラルネットワークの有効性も検討されている。

Man-Computer Symbiosis (MCS) was originally envisioned by the famous computer pioneer J.C.R. Licklider in 1960, as a logical evolution of the then inchoate relationship between computer and humans. In his paper, Licklider provided a set of criteria by which to judge if a Man-Computer System is a symbiotic one, and also provided some predictions about such systems in the near and far future. Since then, innovations in computer networks and the invention of the Internet were major developments towards that end. However, with most systems based on conventional logical algorithms, many aspects of Licklider's MCS remained unfulfilled. This paper explores the extent to which modern machine learning systems in general, and deep learning ones in particular best exemplify MCS systems, and why they are the prime contenders to achieve a true Man-Computer Symbiosis as described by Licklider in his original paper in the future. The case for deep learning is built by illustrating each point of the original criteria as well as the criteria laid by subsequent research into MCS systems, with specific examples and applications provided to strengthen the arguments. The efficacy of deep neural networks in achieving Artificial General Intelligence, which would be the perfect version of an MCS system is also explored.
翻訳日:2021-03-16 09:09:55 公開日:2021-01-24
# 新型コロナウイルスワクチン設計のための最大n時間カバー

Maximum n-times Coverage for COVID-19 Vaccine Design ( http://arxiv.org/abs/2101.10902v1 )

ライセンス: Link先を確認
Ge Liu, Brandon Carter, David Gifford(参考訳) 最大$n$-timesカバレッジ問題では、要素のセット、各要素の重み、および各オーバーレイが0以上の要素固有のカバレッジを指定するオーバーレイのセットが提供されます。 目標は、最大で$k$のオーバーレイを選択し、少なくとも$n$の回数をカバーする要素の重みの合計を最大化することである。 我々はまた、最小コスト$n$-timesカバレッジ問題を定義し、目的は、少なくとも$n$時間をカバーする要素の重みの合計が少なくとも$\tau$であるように、オーバーレイの最小セットを選択することである。 n$-times のカバレッジ目標がサブモジュラーではないことを示し,逐次 greedy 最適化による効率的なソリューションを提案する。 我々は、新型コロナウイルス(covid-19)に対するペプチドワクチンの設計を、機械学習で定義された候補ペプチドセットを用いて、最大n$-timesカバレッジとして構成し、予測された人口範囲と各hla分子で示されるペプチド数において、29の他の新型コロナウイルスワクチンワクチン設計よりも優れていることを示した。

In the maximum $n$-times coverage problem, we are provided a set of elements, a weight for each element, and a set of overlays where each overlay specifies an element specific coverage of zero or more times. The goal is to select up to $k$ overlays such that the sum of the weights of elements that are covered at least $n$ times is maximized. We also define the min-cost $n$-times coverage problem where the objective is to select the minimum set of overlays such that the sum of the weights of elements that are covered at least $n$ times is at least $\tau$. We show that the $n$-times coverage objective is not submodular, and we present an efficient solution by sequential greedy optimization. We frame the design of a peptide vaccine for COVID-19 as maximum $n$-times coverage using machine learning defined candidate peptide sets, and show that our solution is superior to 29 other published COVID-19 peptide vaccine designs in predicted population coverage and the expected number of peptides displayed by each individual's HLA molecules.
翻訳日:2021-03-16 09:09:35 公開日:2021-01-24
# エピソード記憶は選択を支配する:意思決定タスクのためのRNNベースの強化学習モデル

Episodic memory governs choices: An RNN-based reinforcement learning model for decision-making task ( http://arxiv.org/abs/2103.03679v1 )

ライセンス: Link先を確認
Xiaohan Zhang, Lu Liu, Guodong Long, Jing Jiang, Shenquan Liu(参考訳) 認知機能を研究する典型的な方法は、行動タスクを行う動物の訓練中の動物のニューロンの電気活動を記録することである。 重要な問題は、彼らは動物の脳内のすべての関連ニューロンを記録できないことです。 この問題を解決するために,強化学習(rl)によって学習し,サルの意思決定タスクに類似した2つの課題を解決するrnnベースのアクタ-クリティックフレームワークを開発した。 訓練されたモデルは、動物の脳から記録された神経活動のいくつかの特徴、または動物実験で示された行動特性を再現することができ、他の認知機能を調べるための計算プラットフォームとして機能することを示唆している。 さらに、我々は神経科学におけるオープンな疑問を探究するために、行動実験を行い、海馬のエピソディクス記憶を選択すべきかどうかを究極的に決定する。 エピソード記憶から抽出された有意な事象の検索は、意思決定プロセスにおける一般的な出来事よりも審議時間を効果的に短縮できることが判明した。 以上の結果から,海馬に蓄積された有能なイベントを優先して報奨情報を伝達し,意思決定者がより早く戦略を学習できることが示唆された。

Typical methods to study cognitive function are to record the electrical activities of animal neurons during the training of animals performing behavioral tasks. A key problem is that they fail to record all the relevant neurons in the animal brain. To alleviate this problem, we develop an RNN-based Actor-Critic framework, which is trained through reinforcement learning (RL) to solve two tasks analogous to the monkeys' decision-making tasks. The trained model is capable of reproducing some features of neural activities recorded from animal brain, or some behavior properties exhibited in animal experiments, suggesting that it can serve as a computational platform to explore other cognitive functions. Furthermore, we conduct behavioral experiments on our framework, trying to explore an open question in neuroscience: which episodic memory in the hippocampus should be selected to ultimately govern future decisions. We find that the retrieval of salient events sampled from episodic memories can effectively shorten deliberation time than common events in the decision-making process. The results indicate that salient events stored in the hippocampus could be prioritized to propagate reward information, and thus allow decision-makers to learn a strategy faster.
翻訳日:2021-03-16 09:09:16 公開日:2021-01-24
# RL型適応交通信号制御器の開発に関する一手法

A Methodology for the Development of RL-Based Adaptive Traffic Signal Controllers ( http://arxiv.org/abs/2101.09614v1 )

ライセンス: Link先を確認
Guilherme S. Varela, Pedro P. Santos, Alberto Sardinha and Francisco S. Melo(参考訳) 本稿では,強化学習を用いた適応型交通信号制御器の開発手法を提案する。 我々の方法論は、メトリクス、環境、さらには実験的な設計や方法論の違いから、異なる作業におけるアプローチの比較を無意味にする文献における標準化の欠如に対処する。 提案手法は,シミュレーションセットアップから問題定式化,実験設計まで,適応型交通信号コントローラの開発,展開,評価に必要なすべてのステップから構成される。 提案手法を2つの単純なシナリオで説明し,その異なるステップが現在の文献に見られる制限にどのように対処するかを強調する。

This article proposes a methodology for the development of adaptive traffic signal controllers using reinforcement learning. Our methodology addresses the lack of standardization in the literature that renders the comparison of approaches in different works meaningless, due to differences in metrics, environments, and even experimental design and methodology. The proposed methodology thus comprises all the steps necessary to develop, deploy and evaluate an adaptive traffic signal controller -- from simulation setup to problem formulation and experimental design. We illustrate the proposed methodology in two simple scenarios, highlighting how its different steps address limitations found in the current literature.
翻訳日:2021-03-16 09:08:05 公開日:2021-01-24
# マルチセクショントラフィック最適化:ベンチマークデータセットと強力なベースライン

Multi-intersection Traffic Optimisation: A Benchmark Dataset and a Strong Baseline ( http://arxiv.org/abs/2101.09640v1 )

ライセンス: Link先を確認
Hu Wang, Hao Chen, Qi Wu, Congbo Ma, Yidong Li, Chunhua Shen(参考訳) 交通信号の制御は,都市部における交通渋滞の緩和に不可欠である。 しかし、実際の状況ではトラフィックダイナミクスが複雑であるため、それは困難です。 最適化問題のモデル化の複雑さが高いため、現在の作業の実験的な設定はしばしば矛盾する。 さらに、実際の複雑な交通シナリオで複数の交差点を適切に制御するのは、その巨大な状態と行動空間のため、容易ではない。 交叉トポロジの関係を考慮に入れなかったことも、交通条件が劣る結果となる。 これらの問題に対処するため、本研究では、設定を慎重に設計し、より複雑なシナリオで合成トラフィックデータと実際のトラフィックデータの両方を含む新しいデータを提案します。 さらに、エンコーダ-デコーダ構造を用いた深層強化学習に基づく新規で強力なベースラインモデルを提案する。マルチインターセクション関係を掘削するエッジ重み付きグラフ畳み込みエンコーダと、複数のジャンクションを総合的にモデル化する統一構造デコーダにより、モデルパラメータの数を大幅に削減する。 これにより,提案手法は多区間トラフィック最適化問題に効果的に対処できる。 urban mobility (sumo)シミュレータのシミュレーションにより、合成地図と交通データの両方でモデルが訓練され、テストされている。 実験結果は、提案されたモデルが文献の既存の方法を超えることを示しています。

The control of traffic signals is fundamental and critical to alleviate traffic congestion in urban areas. However, it is challenging since traffic dynamics are complicated in real situations. Because of the high complexity of modelling the optimisation problem, experimental settings of current works are often inconsistent. Moreover, it is not trivial to control multiple intersections properly in real complex traffic scenarios due to its vast state and action space. Failing to take intersection topology relations into account also results in inferior traffic condition. To address these issues, in this work we carefully design our settings and propose new data including both synthetic and real traffic data in more complex scenarios. Additionally, we propose a novel and strong baseline model based on deep reinforcement learning with the encoder-decoder structure: an edge-weighted graph convolutional encoder to excavate multi-intersection relations; and a unified structure decoder to jointly model multiple junctions in a comprehensive manner, which significantly reduces the number of the model parameters. By doing so, the proposed model is able to effectively deal with multi-intersection traffic optimisation problems. Models have been trained and tested on both synthetic and real maps and traffic data with the Simulation of Urban Mobility (SUMO) simulator. Experimental results show that the proposed model surpasses existing methods in the literature.
翻訳日:2021-03-16 09:07:55 公開日:2021-01-24
# 専門家と役割を超えて:解釈可能な機械学習のステークホルダーとそのニーズを特徴づけるフレームワーク

Beyond Expertise and Roles: A Framework to Characterize the Stakeholders of Interpretable Machine Learning and their Needs ( http://arxiv.org/abs/2101.09824v1 )

ライセンス: Link先を確認
Harini Suresh, Steven R. Gomez, Kevin K. Nam, Arvind Satyanarayan(参考訳) 説明責任の確保と害を軽減するため、多様な利害関係者がブラックボックスの自動化システムを疑問視し、理解しやすく、関連性があり、有用である情報を見つけることが重要である。 本稿では,ステークホルダの知識を解釈ニーズから切り離す,より粒度の細かい枠組みを優先して,事前の専門知識と役割に基づく理解可能性ステークホルダーの分類を緩和する。 我々は、ステークホルダーの形式的、道具的、個人的知識と、それが機械学習、データドメイン、そして一般的なミリューの文脈でどのように現れるのかを特徴付けます。 さらに、より高いレベルのドメイン目標と低いレベルの解釈可能性タスクを区別するステークホルダーのニーズの階層的なタイポロジーを抽出します。 フレームワークの記述的、評価的、および生成的能力を評価する際に、ステークホルダのよりニュアンスのある扱いは、解釈可能な文献のギャップと機会を明らかにし、ユーザー研究の設計と比較に精度を加え、この研究を実行するためのよりリフレクティブなアプローチを促進します。

To ensure accountability and mitigate harm, it is critical that diverse stakeholders can interrogate black-box automated systems and find information that is understandable, relevant, and useful to them. In this paper, we eschew prior expertise- and role-based categorizations of interpretability stakeholders in favor of a more granular framework that decouples stakeholders' knowledge from their interpretability needs. We characterize stakeholders by their formal, instrumental, and personal knowledge and how it manifests in the contexts of machine learning, the data domain, and the general milieu. We additionally distill a hierarchical typology of stakeholder needs that distinguishes higher-level domain goals from lower-level interpretability tasks. In assessing the descriptive, evaluative, and generative powers of our framework, we find our more nuanced treatment of stakeholders reveals gaps and opportunities in the interpretability literature, adds precision to the design and comparison of user studies, and facilitates a more reflexive approach to conducting this research.
翻訳日:2021-03-16 09:07:33 公開日:2021-01-24
# 自然主義fMRIにおける動的機能結合の刺激誘起・背景成分の分離

Separating Stimulus-Induced and Background Components of Dynamic Functional Connectivity in Naturalistic fMRI ( http://arxiv.org/abs/2102.10331v1 )

ライセンス: Link先を確認
Chee-Ming Ting, Jeremy I. Skipper, Steven L. Small, Hernando Ombao(参考訳) 自然機能型磁気共鳴画像(fMRI)における他の内在的プロセスから刺激関連神経力学を抽出する際の課題とノイズについて考察する。 ほとんどの研究は、低レベルの地域活動の物質間相関(ISC)に依存し、個人のさまざまな応答を無視する。 本研究では,低ランク+スパース(l+s)分解に基づく新しいデータ駆動アプローチを提案し,同じ自然的刺激を受けた被験者間で共有ネットワーク構造を活用し,脳機能接続(fc)の刺激駆動動的変化を背景雑音から分離する。 時間分解されたマルチサブジェクトFC行列は、対象にまたがる相関FCパターンの低ランク成分と、対象ごとに異なる背景活動のスパース成分の合計としてモデル化される。 共有低ランク部分空間を復元するために,低ランク行列の行間の違いに融合型ペナルティを加えることにより,主成分追跡(pcp)の融合バージョンを導入する。 本手法は, 物体間変動を捉えつつ, FCプロファイルにおける刺激誘起群レベルの均一性の検出を改善する。 融合PCPを解くために,乗算器の線形化交互方向法による効率的なアルゴリズムを開発した。 シミュレーションでは, FCエッジが著しく破損した場合でも, 溶融PCPによる正確な回復が見られた。 自然fmriデータに適用すると,映像視聴中の聴覚処理に時間同期されたfc変化と,音声認識システムの動的関与が明らかにされる。 また、映画内の聴覚コンテンツへのマッピングもiscよりも優れている。

We consider the challenges in extracting stimulus-related neural dynamics from other intrinsic processes and noise in naturalistic functional magnetic resonance imaging (fMRI). Most studies rely on inter-subject correlations (ISC) of low-level regional activity and neglect varying responses in individuals. We propose a novel, data-driven approach based on low-rank plus sparse (L+S) decomposition to isolate stimulus-driven dynamic changes in brain functional connectivity (FC) from the background noise, by exploiting shared network structure among subjects receiving the same naturalistic stimuli. The time-resolved multi-subject FC matrices are modeled as a sum of a low-rank component of correlated FC patterns across subjects, and a sparse component of subject-specific, idiosyncratic background activities. To recover the shared low-rank subspace, we introduce a fused version of principal component pursuit (PCP) by adding a fusion-type penalty on the differences between the rows of the low-rank matrix. The method improves the detection of stimulus-induced group-level homogeneity in the FC profile while capturing inter-subject variability. We develop an efficient algorithm via a linearized alternating direction method of multipliers to solve the fused-PCP. Simulations show accurate recovery by the fused-PCP even when a large fraction of FC edges are severely corrupted. When applied to natural fMRI data, our method reveals FC changes that were time-locked to auditory processing during movie watching, with dynamic engagement of sensorimotor systems for speech-in-noise. It also provides a better mapping to auditory content in the movie than ISC.
翻訳日:2021-03-16 09:06:47 公開日:2021-01-24