このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200808となっている論文です。

PDF登録状況(公開日: 20200808)

TitleAuthorsAbstract論文公表日・翻訳日
# 深層ネットワークにおけるフラットミニマの特異な性質

Unique Properties of Flat Minima in Deep Networks ( http://arxiv.org/abs/2002.04710v2 )

ライセンス: Link先を確認
Rotem Mulayoff, Tomer Michaeli(参考訳) 統計的に)勾配降下が平坦な極小に対して暗黙のバイアスを持つことはよく知られている。 ディープニューラルネットワークトレーニングでは、このメカニズムはミニマをスクリーニングするのに役立つ。 しかし、これがトレーニングネットワークに与える影響は、まだ完全には理解されていない。 本稿では,2次損失を学習した線形ニューラルネットワークにおける平坦なミニマを特徴付ける。 まず, 初期化がゼロな線形resnetがすべての最小値の平坦値に収束することを示す。 そして、これらのミニマは、入力から任意の中間表現へのゲインが1つの層から次の層へと大きく変化しない、ほぼバランスのとれたネットワークに対応することを証明します。 最後に, 平らなミニマ溶液の連続層が結合されていることを示す。 すなわち、各重み行列の左特異ベクトルの1つは、次の行列の右特異ベクトルの1つに等しい。 これは、入力から出力への明確な経路を形成し、私たちが示すように、エンドツーエンドで最大のゲインを経験するシグナル専用です。 実験により、これらの性質は実際に訓練された線形モデルと非線形モデルの両方の特徴であることが示されている。

It is well known that (stochastic) gradient descent has an implicit bias towards flat minima. In deep neural network training, this mechanism serves to screen out minima. However, the precise effect that this has on the trained network is not yet fully understood. In this paper, we characterize the flat minima in linear neural networks trained with a quadratic loss. First, we show that linear ResNets with zero initialization necessarily converge to the flattest of all minima. We then prove that these minima correspond to nearly balanced networks whereby the gain from the input to any intermediate representation does not change drastically from one layer to the next. Finally, we show that consecutive layers in flat minima solutions are coupled. That is, one of the left singular vectors of each weight matrix, equals one of the right singular vectors of the next matrix. This forms a distinct path from input to output, that, as we show, is dedicated to the signal that experiences the largest gain end-to-end. Experiments indicate that these properties are characteristic of both linear and nonlinear models trained in practice.
翻訳日:2023-01-02 01:36:58 公開日:2020-08-08
# 限定データ生成のための事前学習型GANの活用について

On Leveraging Pretrained GANs for Generation with Limited Data ( http://arxiv.org/abs/2002.11810v3 )

ライセンス: Link先を確認
Miaoyun Zhao, Yulai Cong, Lawrence Carin(参考訳) 近年、gans(generative adversarial network)は、現実の画像と(人間によって)区別できないような、非常に現実的な画像を生成することができることが示されている。 生成されたほとんどの画像はトレーニングデータセットに含まれておらず、gan生成データでトレーニングセットを増強する可能性を示唆している。 このシナリオは、利用可能なデータに制限がある場合、特に関連性がありますが、その制限されたデータに基づいてgan自体をトレーニングする問題があります。 これを容易にするために,imagenetのような大規模データセットで事前トレーニングされた既存のganモデルを活用して,トランスファーラーニングの概念に従って,追加の知識(限られたデータには存在しないかもしれない)を導入する。 自然画像生成で示されるように、事前訓練されたGANのジェネレータと識別器の両方の低レベルフィルタ(観測に近づいた)は、限られた訓練データを持つ知覚的識別対象領域における生成を容易にするために転送可能である。 転送フィルタを対象領域にさらに適応させるために,適応フィルタ変調(adafm)を提案する。 限られたデータを用いた生成における提案手法の有効性を示すため, 広範囲な実験を行った。

Recent work has shown generative adversarial networks (GANs) can generate highly realistic images, that are often indistinguishable (by humans) from real images. Most images so generated are not contained in the training dataset, suggesting potential for augmenting training sets with GAN-generated data. While this scenario is of particular relevance when there are limited data available, there is still the issue of training the GAN itself based on that limited data. To facilitate this, we leverage existing GAN models pretrained on large-scale datasets (like ImageNet) to introduce additional knowledge (which may not exist within the limited data), following the concept of transfer learning. Demonstrated by natural-image generation, we reveal that low-level filters (those close to observations) of both the generator and discriminator of pretrained GANs can be transferred to facilitate generation in a perceptually-distinct target domain with limited training data. To further adapt the transferred filters to the target domain, we propose adaptive filter modulation (AdaFM). An extensive set of experiments is presented to demonstrate the effectiveness of the proposed techniques on generation with limited data.
翻訳日:2022-12-28 15:01:25 公開日:2020-08-08
# オンライン学習におけるLipschitzとComparator-Norm適応性

Lipschitz and Comparator-Norm Adaptivity in Online Learning ( http://arxiv.org/abs/2002.12242v2 )

ライセンス: Link先を確認
Zakaria Mhammedi, Wouter M. Koolen(参考訳) オンライン凸最適化を,予測も勾配も制約のない非有界環境で研究する。 目標は、勾配のシーケンスとコンパレータの両方に同時に適応することである。 まず,ヒント付き簡易設定のためのパラメータフリーでスケールフリーなアルゴリズムを開発した。 1つはコンパレータとグラデーションの両方の2乗ノルムに1ラウンドあたり$o(d)$の時間を使って別々に適応し、2つめは2乗内積(コンパレータ方向にのみ分散を測定する)に1ラウンドあたり$o(d^3)$の時間で適応する。 次に2つの事前還元を未境界設定に一般化する。1つはヒントを必要とせず、もう1つは範囲比問題(既に先行作業で発生している)に対処する。 先行および新しい下界を考慮した最適性について論じる。 本手法は,線形モデルを用いたスケール不変オンライン予測において,より鋭い後悔境界を求めるために適用する。

We study Online Convex Optimization in the unbounded setting where neither predictions nor gradient are constrained. The goal is to simultaneously adapt to both the sequence of gradients and the comparator. We first develop parameter-free and scale-free algorithms for a simplified setting with hints. We present two versions: the first adapts to the squared norms of both comparator and gradients separately using $O(d)$ time per round, the second adapts to their squared inner products (which measure variance only in the comparator direction) in time $O(d^3)$ per round. We then generalize two prior reductions to the unbounded setting; one to not need hints, and a second to deal with the range ratio problem (which already arises in prior work). We discuss their optimality in light of prior and new lower bounds. We apply our methods to obtain sharper regret bounds for scale-invariant online prediction with linear models.
翻訳日:2022-12-28 07:47:49 公開日:2020-08-08
# 解釈可能な個別治療効果推定のための適応型ハイパーボックスマッチング

Adaptive Hyper-box Matching for Interpretable Individualized Treatment Effect Estimation ( http://arxiv.org/abs/2003.01805v2 )

ライセンス: Link先を確認
Marco Morucci, Vittorio Orlandi, Sudeepa Roy, Cynthia Rudin, Alexander Volfovsky(参考訳) 共変量空間の単位固有の超箱型領域における単位と他の単位とを一致させる観測データのマッチング法を提案する。 これらの領域は、各単位に対して多くのマッチングが作成され、治療効果が概ね一定となるほど小さい。 これらの領域は混合整数プログラムの解として、あるいは(高速な)近似アルゴリズムとして見出される。 結果は各単位に対する因果効果の解釈可能で調整された推定である。

We propose a matching method for observational data that matches units with others in unit-specific, hyper-box-shaped regions of the covariate space. These regions are large enough that many matches are created for each unit and small enough that the treatment effect is roughly constant throughout. The regions are found as either the solution to a mixed integer program, or using a (fast) approximation algorithm. The result is an interpretable and tailored estimate of a causal effect for each unit.
翻訳日:2022-12-26 23:38:34 公開日:2020-08-08
# 人選学習による外骨格歩行の高次元最適化

Human Preference-Based Learning for High-dimensional Optimization of Exoskeleton Walking Gaits ( http://arxiv.org/abs/2003.06495v2 )

ライセンス: Link先を確認
Maegan Tucker, Myra Cheng, Ellen Novoseller, Richard Cheng, Yisong Yue, Joel W. Burdick, and Aaron D. Ames(参考訳) 低体外骨格歩行を利用者の快適性に最適化するには,高次元歩行パラメータ空間上でのユーザの嗜好を理解する必要がある。 しかし,従来の嗜好に基づく学習手法は,計算量制限のため,低次元領域のみを探索している。 ユーザ嗜好を高次元で学習するために、LineCoSparは1次元のサブスペースを反復的に探索することで、多くのパラメータを最適化する。 さらに、本研究では、ユーザ間の幅広い好みを特徴付けるゲイト属性を識別する。 シミュレーションと人為的試行において,LineCoSparは高次元の選好最適化のためのサンプル効率のよい手法であることを実証的に検証した。 実験データから,人間の嗜好と動的性の客観的尺度との対応性を明らかにするとともに,個人の歩行嗜好に基づく実用機能の違いを明らかにする。 この結果はエキソ骨格の歩行合成に影響を及ぼし,臨床応用と患者のリハビリテーションに有効である。

Optimizing lower-body exoskeleton walking gaits for user comfort requires understanding users' preferences over a high-dimensional gait parameter space. However, existing preference-based learning methods have only explored low-dimensional domains due to computational limitations. To learn user preferences in high dimensions, this work presents LineCoSpar, a human-in-the-loop preference-based framework that enables optimization over many parameters by iteratively exploring one-dimensional subspaces. Additionally, this work identifies gait attributes that characterize broader preferences across users. In simulations and human trials, we empirically verify that LineCoSpar is a sample-efficient approach for high-dimensional preference optimization. Our analysis of the experimental data reveals a correspondence between human preferences and objective measures of dynamicity, while also highlighting differences in the utility functions underlying individual users' gait preferences. This result has implications for exoskeleton gait synthesis, an active field with applications to clinical use and patient rehabilitation.
翻訳日:2022-12-24 02:23:35 公開日:2020-08-08
# 概念認識のための並列シーケンスタグ付け

Parallel sequence tagging for concept recognition ( http://arxiv.org/abs/2003.07424v2 )

ライセンス: Link先を確認
Lenz Furrer (1 and 3), Joseph Cornelius (1), Fabio Rinaldi (1, 2, and 3) ((1) University of Zurich, Switzerland, (2) Dalle Molle Institute for Artificial Intelligence Research (IDSIA), Switzerland, (3) Swiss Institute of Bioinformatics, Switzerland)(参考訳) 背景: 名前付きエンティティ認識(ner)と正規化(nen)は、生物医学的テキストのテキストマイニングシステムの中核コンポーネントである。 従来の概念認識パイプラインでは、これらのタスクは連続的な方法で結合される。 我々は,NER と NEN の両方をシーケンスラベルタスクとしてモデル化し,ソースコードを直接操作する並列アーキテクチャを提案する。 2つの分類器の予測を1つの出力シーケンスにマージするための異なる調和戦略を検討する。 結果:最新の CRAFT コーパスのバージョン4 では,我々のアプローチを検証した。 概念アノテーションタスクの20のアノテーションセットすべてにおいて、このシステムはcraft shared task 2019のベースラインとして報告されたパイプラインシステムよりも優れています。 結論: 分析の結果, 2つの分類器の強みは実りある方法で結合できることがわかった。 しかし、予測調和には各アノテーションセットの開発セットに対する個別のキャリブレーションが必要である。 これにより、確立された知識(訓練セット)と新しい情報(見当たらない概念)の間の良いトレードオフを実現することができる。 可用性と実装:ソースコードはhttps://github.com/ontogene/craft-stから無料でダウンロードできる。 補足データはarxiv onlineで入手できる。

Background: Named Entity Recognition (NER) and Normalisation (NEN) are core components of any text-mining system for biomedical texts. In a traditional concept-recognition pipeline, these tasks are combined in a serial way, which is inherently prone to error propagation from NER to NEN. We propose a parallel architecture, where both NER and NEN are modeled as a sequence-labeling task, operating directly on the source text. We examine different harmonisation strategies for merging the predictions of the two classifiers into a single output sequence. Results: We test our approach on the recent Version 4 of the CRAFT corpus. In all 20 annotation sets of the concept-annotation task, our system outperforms the pipeline system reported as a baseline in the CRAFT shared task 2019. Conclusions: Our analysis shows that the strengths of the two classifiers can be combined in a fruitful way. However, prediction harmonisation requires individual calibration on a development set for each annotation set. This allows achieving a good trade-off between established knowledge (training set) and novel information (unseen concepts). Availability and Implementation: Source code freely available for download at https://github.com/OntoGene/craft-st. Supplementary data are available at arXiv online.
翻訳日:2022-12-23 02:57:38 公開日:2020-08-08
# 連続3次元損失による単眼深度予測

Monocular Depth Prediction through Continuous 3D Loss ( http://arxiv.org/abs/2003.09763v2 )

ライセンス: Link先を確認
Minghan Zhu, Maani Ghaffari, Yuanxin Zhong, Pingping Lu, Zhong Cao, Ryan M. Eustice and Huei Peng(参考訳) 本稿では,単眼画像から奥行きを学習するための連続的3次元損失関数について述べる。 単眼画像からの深度予測は、スパースLIDARポイントを用いて監視されるので、トレーニング中に利用可能なオープンソースデータセットをカメラLIDARセンサースイートで活用することができる。 現在、正確で安価なレンジセンサーは利用できない。 ステレオカメラとlidarは、深さを不正確な、または、ささやかに測定する。 現在の点対点損失評価手法とは対照的に,提案する3次元損失は点雲を連続的な対象として扱うため,lidarのスパーシティ測定による密接な地中真理深さの欠如を補う。 提案手法は, dorn, bts, および monodepth2 の3つの最先端単眼深度予測手法に適用した。 実験により, 提案した損失は深度予測精度を向上し, 一般深度予測ネットワークにおける損失の利点を示唆する3次元幾何構造をより一貫した点雲を生成することがわかった。 この作品のビデオデモはhttps://youtu.be/5hl8bjsay4yで見ることができる。

This paper reports a new continuous 3D loss function for learning depth from monocular images. The dense depth prediction from a monocular image is supervised using sparse LIDAR points, which enables us to leverage available open source datasets with camera-LIDAR sensor suites during training. Currently, accurate and affordable range sensor is not readily available. Stereo cameras and LIDARs measure depth either inaccurately or sparsely/costly. In contrast to the current point-to-point loss evaluation approach, the proposed 3D loss treats point clouds as continuous objects; therefore, it compensates for the lack of dense ground truth depth due to LIDAR's sparsity measurements. We applied the proposed loss in three state-of-the-art monocular depth prediction approaches DORN, BTS, and Monodepth2. Experimental evaluation shows that the proposed loss improves the depth prediction accuracy and produces point-clouds with more consistent 3D geometric structures compared with all tested baselines, implying the benefit of the proposed loss on general depth prediction networks. A video demo of this work is available at https://youtu.be/5HL8BjSAY4Y.
翻訳日:2022-12-21 13:06:30 公開日:2020-08-08
# エンドツーエンド重複音声認識のための逐次出力訓練

Serialized Output Training for End-to-End Overlapped Speech Recognition ( http://arxiv.org/abs/2003.12687v2 )

ライセンス: Link先を確認
Naoyuki Kanda, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Takuya Yoshioka(参考訳) 本稿では,アテンションベースエンコーダ・デコーダアプローチに基づくマルチ話者重畳音声認識のための新しいフレームワークであるシリアライズアウトプットトレーニング(SOT)を提案する。 置換不変トレーニング(PIT)のように複数の出力層を持つ代わりに、SOTは複数の話者の書き起こしを次々と生成する1つの出力層のみを持つモデルを使用する。 注意とデコーダモジュールは重複した音声から複数の転写を生成する。 SOT は PIT に対して,(1) 話者の最大数に制限がない,(2) 話者間の依存関係をモデル化できる,という2つの利点がある。 また,sot を $o(s)$ で実行可能にする簡単なトリックを提案する。ここでは,構成元発話の開始時刻を用いて,トレーニングサンプル内の話者数を $s$ とする。 LibriSpeech corpus の実験結果から,SOT モデルでは重なり合った音声を PIT ベースモデルよりもはるかに多くの話者で書き起こせることがわかった。 また、SOTモデルが入力音声中の話者数を正確にカウントできることを示す。

This paper proposes serialized output training (SOT), a novel framework for multi-speaker overlapped speech recognition based on an attention-based encoder-decoder approach. Instead of having multiple output layers as with the permutation invariant training (PIT), SOT uses a model with only one output layer that generates the transcriptions of multiple speakers one after another. The attention and decoder modules take care of producing multiple transcriptions from overlapped speech. SOT has two advantages over PIT: (1) no limitation in the maximum number of speakers, and (2) an ability to model the dependencies among outputs for different speakers. We also propose a simple trick that allows SOT to be executed in $O(S)$, where $S$ is the number of the speakers in the training sample, by using the start times of the constituent source utterances. Experimental results on LibriSpeech corpus show that the SOT models can transcribe overlapped speech with variable numbers of speakers significantly better than PIT-based models. We also show that the SOT models can accurately count the number of speakers in the input audio.
翻訳日:2022-12-18 23:54:48 公開日:2020-08-08
# トポロジカルブレイドによるマルチモーダル推論による無署名断面積のインシシシト・マルチエージェント・コーディネーション

Implicit Multiagent Coordination at Unsignalized Intersections via Multimodal Inference Enabled by Topological Braids ( http://arxiv.org/abs/2004.05205v2 )

ライセンス: Link先を確認
Christoforos Mavrogiannis, Jonathan A. DeCastro, Siddhartha S. Srinivasa(参考訳) 信号のない交差点における合理的な非コミュニケーションエージェント間のナビゲーションに焦点を当てる。 このような条件下での衝突のない動きに従えば、エージェント間の暗黙の調整が要求される。 多くの場合、これらの領域の構造は有限モードに属するマルチエージェント軌道を制約する。 我々の重要な洞察は、エージェントをこれらのモードのモデルで強化することで、エージェントのアクションに符号化されたインテント信号を通じて暗黙的に実現される効果的なコーディネーションを可能にすることである。 本稿では,トポロジカルブレイドの定式化を用いて,コンパクトかつ解釈可能な方法で関節動作のモードを表現する。 我々は,新たなマルチエージェント動作のモードにおける不確実性を低減するために,分散計画アルゴリズムを設計する。 このメカニズムにより、アルゴリズムを個別に実行するエージェントは、安全でない交差点を一括して拒否することができる。 我々は,4方向の未署名交差点におけるマルチエージェントシナリオに挑戦するケーススタディにおいて,我々のアプローチを検証した。 本モデルでは, 軌道を明示的に推し進めるベースラインに対して, 衝突の頻度を65%削減し, 時間効率を同等に保った。

We focus on navigation among rational, non-communicating agents at unsignalized street intersections. Following collision-free motion under such settings demands nuanced implicit coordination among agents. Often, the structure of these domains constrains multiagent trajectories to belong to a finite set of modes. Our key insight is that empowering agents with a model of these modes can enable effective coordination, realized implicitly via intent signals encoded in agents' actions. In this paper, we represent modes of joint behavior in a compact and interpretable fashion using the formalism of topological braids. We design a decentralized planning algorithm that generates actions aimed at reducing the uncertainty over the mode of the emerging multiagent behavior. This mechanism enables agents that individually run our algorithm to collectively reject unsafe intersection crossings. We validate our approach in a simulated case study featuring challenging multiagent scenarios at a four-way unsignalized intersection. Our model is shown to reduce frequency of collisions by >65% over a set of baselines explicitly reasoning over trajectories, while maintaining comparable time efficiency.
翻訳日:2022-12-14 21:30:48 公開日:2020-08-08
# 確率的行動セットと逆戻りによる睡眠帯域の改善

Improved Sleeping Bandits with Stochastic Actions Sets and Adversarial Rewards ( http://arxiv.org/abs/2004.06248v2 )

ライセンス: Link先を確認
Aadirupa Saha, Pierre Gaillard, Michal Valko(参考訳) 本稿では,確率的行動セットと対人報酬を併用した睡眠包帯の問題点を考察する。 この設定では、ほとんどのバンディットの作業とは対照的に、アクションはいつでも利用できない可能性がある。 例えば、一部の製品はアイテムレコメンデーションで在庫切れになるかもしれない。 この問題に対する最も効率的な(多項式時間)アルゴリズムは、後悔に対して$O(T^{2/3})$上界を保証するだけである。 しかし、EXP4に基づく非効率アルゴリズムは$O(\sqrt{T})$を達成できる。 本稿では,各アクション $i \in \ca$ が独立である場合の順序 $o(\sqrt{t})$ の後悔を満たす exp3 にインスパイアされた新しい計算効率の高いアルゴリズムを提案する。 次に、ある未知の任意の分布(すなわち独立性仮定無し)から各ラウンド利用可能な集合が生成される問題の最も一般的なバージョンを研究し、$o(\sqrt {2^k t})$ regret の効率的なアルゴリズムを提案する。 理論的結果は実験結果と相関する。

In this paper, we consider the problem of sleeping bandits with stochastic action sets and adversarial rewards. In this setting, in contrast to most work in bandits, the actions may not be available at all times. For instance, some products might be out of stock in item recommendation. The best existing efficient (i.e., polynomial-time) algorithms for this problem only guarantee an $O(T^{2/3})$ upper-bound on the regret. Yet, inefficient algorithms based on EXP4 can achieve $O(\sqrt{T})$. In this paper, we provide a new computationally efficient algorithm inspired by EXP3 satisfying a regret of order $O(\sqrt{T})$ when the availabilities of each action $i \in \cA$ are independent. We then study the most general version of the problem where at each round available sets are generated from some unknown arbitrary distribution (i.e., without the independence assumption) and propose an efficient algorithm with $O(\sqrt {2^K T})$ regret guarantee. Our theoretical results are corroborated with experimental evaluations.
翻訳日:2022-12-13 08:56:48 公開日:2020-08-08
# 航空機搭載LiDAR点雲の重畳信号の比較

Augmented Semantic Signatures of Airborne LiDAR Point Clouds for Comparison ( http://arxiv.org/abs/2005.02152v2 )

ライセンス: Link先を確認
Jaya Sreevalsan-Nair and Pragyan Mohapatra(参考訳) LiDAR点雲は豊富な幾何学的情報を提供し、特に都市部の複雑な場面の分析に有用である。 同一領域の異なる2つの異なる3次元点雲間の構造的および意味的差異を見つけることは、異なる時間で取得される重要な問題である。 ポイントクラウドの比較には計算コストの高い登録とセグメンテーションが含まれる。 登録プロセスなしで点雲の幾何的不確かさと意味的内容の相対的な違いを捉えることに興味がある。 そこで本研究では,その確率的幾何学的・意味的分類を統合した点雲の向き不変幾何シグネチャを提案する。 幾何学的不確かさと意味的内容のイメージベースエンコーディングである幾何学的シグネチャの異なる性質について検討する。 これらのシグネチャの違いを判断するために、異なるメトリクスを探索し、ポイント・ツー・ポイントの登録を行わずにポイント・クラウドを比較する。 その結果,シグネチャの差異は点雲の幾何学的・意味的差異と相関することがわかった。

LiDAR point clouds provide rich geometric information, which is particularly useful for the analysis of complex scenes of urban regions. Finding structural and semantic differences between two different three-dimensional point clouds, say, of the same region but acquired at different time instances is an important problem. A comparison of point clouds involves computationally expensive registration and segmentation. We are interested in capturing the relative differences in the geometric uncertainty and semantic content of the point cloud without the registration process. Hence, we propose an orientation-invariant geometric signature of the point cloud, which integrates its probabilistic geometric and semantic classifications. We study different properties of the geometric signature, which are an image-based encoding of geometric uncertainty and semantic content. We explore different metrics to determine differences between these signatures, which in turn compare point clouds without performing point-to-point registration. Our results show that the differences in the signatures corroborate with the geometric and semantic differences of the point clouds.
翻訳日:2022-12-08 14:36:13 公開日:2020-08-08
# テキスト適応への音声:効率的なクロスモーダル蒸留を目指して

Speech to Text Adaptation: Towards an Efficient Cross-Modal Distillation ( http://arxiv.org/abs/2005.08213v2 )

ライセンス: Link先を確認
Won Ik Cho, Donghyun Kwak, Ji Won Yoon, Nam Soo Kim(参考訳) 音声はコミュニケーションの最も効果的な手段の1つであり、発話者の思考の伝達に役立つ情報で溢れている。 しかし,音素,音素,単語後部確率は,音素の処理が面倒なため,自然言語の理解においてしばしば捨てられている。 このように、最近の音声言語理解(SLU)モジュールは、不確実性情報を保存するエンドツーエンド構造を利用している。 これにより、音声認識エラーの伝播が減少し、計算効率が保証される。 このプロセスでは,大規模な事前学習言語モデル (LM) の推測から,音声理解が有効であると主張する。 近年のクロスモーダル蒸留法に基づいて,具体的なトランスフォーマーベースのテキストLMからデータ不足に直面するSLUモジュールに知識を伝達する。 本稿では,英語SLUベンチマークであるFluent Speech Commandの性能に対する提案の有効性を示す。 そこで本研究では,この知識をlmの上層層から,抽象音声が意味表現に適合することが期待される完全音声ベースモジュールに共有できるという仮説を実験的に検証した。

Speech is one of the most effective means of communication and is full of information that helps the transmission of utterer's thoughts. However, mainly due to the cumbersome processing of acoustic features, phoneme or word posterior probability has frequently been discarded in understanding the natural language. Thus, some recent spoken language understanding (SLU) modules have utilized end-to-end structures that preserve the uncertainty information. This further reduces the propagation of speech recognition error and guarantees computational efficiency. We claim that in this process, the speech comprehension can benefit from the inference of massive pre-trained language models (LMs). We transfer the knowledge from a concrete Transformer-based text LM to an SLU module which can face a data shortage, based on recent cross-modal distillation methodologies. We demonstrate the validity of our proposal upon the performance on Fluent Speech Command, an English SLU benchmark. Thereby, we experimentally verify our hypothesis that the knowledge could be shared from the top layer of the LM to a fully speech-based module, in which the abstracted speech is expected to meet the semantic representation.
翻訳日:2022-12-02 05:52:58 公開日:2020-08-08
# 概念認識型多項軽量dlにおける推論のためのaspアプローチ

An ASP approach for reasoning in a concept-aware multipreferential lightweight DL ( http://arxiv.org/abs/2006.04387v2 )

ライセンス: Link先を確認
Laura Giordano and Daniele Theseider Dupr\'e(参考訳) 本稿では,記述論理の典型性を扱うための多項セマンティクス(多項セマンティクス)を考案する。そこでは,概念包含物を含むランク付けされたtボックスの集合から,好みを概念に関連付ける。 選好は相まって、定義可能な包含物を評価する優先解釈を定義する。 概念認識型マルチプリファレンスセマンティクスの構成は、定性的選好のためのbrewkaのフレームワークに関連している。 我々は,軽量記述論理 el+bot のマルチプリファレンス・アプローチの下で,解集合プログラミング(特に asprin) を利用して解法推論を行う。 本論文はTPLPの受容について検討中である。

In this paper we develop a concept aware multi-preferential semantics for dealing with typicality in description logics, where preferences are associated with concepts, starting from a collection of ranked TBoxes containing defeasible concept inclusions. Preferences are combined to define a preferential interpretation in which defeasible inclusions can be evaluated. The construction of the concept-aware multipreference semantics is related to Brewka's framework for qualitative preferences. We exploit Answer Set Programming (in particular, asprin) to achieve defeasible reasoning under the multipreference approach for the lightweight description logic EL+bot. The paper is under consideration for acceptance in TPLP.
翻訳日:2022-11-24 01:53:13 公開日:2020-08-08
# DCASE2020 Challenge Task2の解説と議論:機械条件モニタリングのための教師なし異常音検出

Description and Discussion on DCASE2020 Challenge Task2: Unsupervised Anomalous Sound Detection for Machine Condition Monitoring ( http://arxiv.org/abs/2006.05822v2 )

ライセンス: Link先を確認
Yuma Koizumi, Yohei Kawaguchi, Keisuke Imoto, Toshiki Nakamura, Yuki Nikaido, Ryo Tanabe, Harsh Purohit, Kaori Suefusa, Takashi Endo, Masahiro Yasuda, Noboru Harada(参考訳) 本稿では,DCASE 2020 Challenge Task 2: Unsupervised Detection of Anomalous Sounds for Machine Condition Monitoringについて述べる。 異常音検出(ASD)の目的は、対象機械から放射される音が正常か異常かを特定することである。 この課題の主な課題は、通常のサンプルのみを訓練データとして提供した状態で未知の異常音を検出することである。 我々はこの課題を、大規模なデータセット、評価指標、シンプルなベースラインシステムを含む、ASD研究の最初のベンチマークとして設計した。 40チームから117の応募を受け取り、この課題の結果、いくつかの新しいアプローチが開発されました。 評価結果の分析に基づいて, 2つの新しいアプローチとその問題点について考察した。

In this paper, we present the task description and discuss the results of the DCASE 2020 Challenge Task 2: Unsupervised Detection of Anomalous Sounds for Machine Condition Monitoring. The goal of anomalous sound detection (ASD) is to identify whether the sound emitted from a target machine is normal or anomalous. The main challenge of this task is to detect unknown anomalous sounds under the condition that only normal sound samples have been provided as training data. We have designed this challenge as the first benchmark of ASD research, which includes a large-scale dataset, evaluation metrics, and a simple baseline system. We received 117 submissions from 40 teams, and several novel approaches have been developed as a result of this challenge. On the basis of the analysis of the evaluation results, we discuss two new approaches and their problems.
翻訳日:2022-11-23 05:05:35 公開日:2020-08-08
# 任意の話者の重畳音声に対する共同話者カウント, 音声認識, 話者識別

Joint Speaker Counting, Speech Recognition, and Speaker Identification for Overlapped Speech of Any Number of Speakers ( http://arxiv.org/abs/2006.10930v2 )

ライセンス: Link先を確認
Naoyuki Kanda, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Zhuo Chen, Tianyan Zhou, Takuya Yoshioka(参考訳) 本稿では,単音素重畳音声における話者数,音声認識,話者識別を統一するエンドツーエンド話者分散音声認識モデルを提案する。 本モデルは,任意の話者数からなる重畳音声認識手法であるアテンションベースエンコーダデコーダを用いた逐次出力訓練(SOT)に基づいて構築されている。 補助入力として話者インベントリを導入してSOTを拡張し、話者ラベルと複数話者文字を生成する。 全てのモデルパラメータは、重複音声認識と話者識別の結合確率を表す話者分散最大相互情報基準によって最適化される。 librispeechコーパスを用いた実験では,重複音声認識と話者識別を別々に行うベースラインよりも,話者帰属単語誤り率が有意に高いことを示す。

We propose an end-to-end speaker-attributed automatic speech recognition model that unifies speaker counting, speech recognition, and speaker identification on monaural overlapped speech. Our model is built on serialized output training (SOT) with attention-based encoder-decoder, a recently proposed method for recognizing overlapped speech comprising an arbitrary number of speakers. We extend SOT by introducing a speaker inventory as an auxiliary input to produce speaker labels as well as multi-speaker transcriptions. All model parameters are optimized by speaker-attributed maximum mutual information criterion, which represents a joint probability for overlapped speech recognition and speaker identification. Experiments on LibriSpeech corpus show that our proposed method achieves significantly better speaker-attributed word error rate than the baseline that separately performs overlapped speech recognition and speaker identification.
翻訳日:2022-11-19 05:09:31 公開日:2020-08-08
# キーワード推定を用いた変圧器型音声キャプションモデル

A Transformer-based Audio Captioning Model with Keyword Estimation ( http://arxiv.org/abs/2007.00222v2 )

ライセンス: Link先を確認
Yuma Koizumi, Ryo Masumura, Kyosuke Nishida, Masahiro Yasuda, Shoichiro Saito(参考訳) 自動音声キャプション(AAC)の問題点の1つは、音声イベント/シーンに対応する単語選択の不確定性である。 ある音響イベント/シーンは複数の単語で記述できるため、キャプションの可能性と訓練の難しさが組み合わせて爆発する。 そこで本研究では, キーワード推定を行うトランスベースオーディオキャプチャモデルであるtrackeを提案する。 音響事象検出/音響シーン分類(キーワード推定)のサブタスクを実行しながら、AACのメインタスクで単語選択の不確定問題を同時に解決する。 TRACKEは、入力音声の音声イベント/シーンに対応する単語セットからなるキーワードを推定し、推定キーワードを参照しながらキャプションを生成し、単語選択の不確定性を減少させる。 公開AACデータセットによる実験結果から,TRACKEは最先端の性能を達成し,キャプションとキーワードの両方を推定できた。

One of the problems with automated audio captioning (AAC) is the indeterminacy in word selection corresponding to the audio event/scene. Since one acoustic event/scene can be described with several words, it results in a combinatorial explosion of possible captions and difficulty in training. To solve this problem, we propose a Transformer-based audio-captioning model with keyword estimation called TRACKE. It simultaneously solves the word-selection indeterminacy problem with the main task of AAC while executing the sub-task of acoustic event detection/acoustic scene classification (i.e., keyword estimation). TRACKE estimates keywords, which comprise a word set corresponding to audio events/scenes in the input audio, and generates the caption while referring to the estimated keywords to reduce word-selection indeterminacy. Experimental results on a public AAC dataset indicate that TRACKE achieved state-of-the-art performance and successfully estimated both the caption and its keywords.
翻訳日:2022-11-14 22:35:29 公開日:2020-08-08
# 補間を支援する学習表現

Learning Representations that Support Extrapolation ( http://arxiv.org/abs/2007.05059v2 )

ライセンス: Link先を確認
Taylor W. Webb, Zachary Dulberg, Steven M. Frankland, Alexander A. Petrov, Randall C. O'Reilly, Jonathan D. Cohen(参考訳) 外挿(外挿) -- 経験の範囲を超えた推論を行う能力 - は、人間の知能の要点である。 対照的に、現代のニューラルネットワークアルゴリズムが示す一般化は、トレーニングコーパスのデータポイント間の補間に限られている。 本稿では,外挿を支援する表現学習の課題について考察する。 トレーニングデータによって定義された凸領域からの距離の関数として外挿の段階的評価を可能にする新しい視覚類似ベンチマークを導入する。 また、オブジェクト間の関係を強調する表現を促進するシンプルな手法である時間的文脈正規化を導入する。 この手法によって外挿能力が大幅に向上し、多くの競合技術を大きく上回ることが分かりました。

Extrapolation -- the ability to make inferences that go beyond the scope of one's experiences -- is a hallmark of human intelligence. By contrast, the generalization exhibited by contemporary neural network algorithms is largely limited to interpolation between data points in their training corpora. In this paper, we consider the challenge of learning representations that support extrapolation. We introduce a novel visual analogy benchmark that allows the graded evaluation of extrapolation as a function of distance from the convex domain defined by the training data. We also introduce a simple technique, temporal context normalization, that encourages representations that emphasize the relations between objects. We find that this technique enables a significant improvement in the ability to extrapolate, considerably outperforming a number of competitive techniques.
翻訳日:2022-11-12 04:51:08 公開日:2020-08-08
# 限られたデータを用いたニューラルネットワークにおけるバックドアベース透かしの除去

Removing Backdoor-Based Watermarks in Neural Networks with Limited Data ( http://arxiv.org/abs/2008.00407v2 )

ライセンス: Link先を確認
Xuankai Liu, Fengting Li, Bihan Wen, Qi Li(参考訳) ディープニューラルネットワークは広く応用され、様々な分野で大きな成功を収めている。 深層モデルのトレーニングは、通常、大量のデータと計算リソースを消費するので、トレーニングされた深層モデルのトレーディングは、現在非常に要求され、利益をもたらす。 残念なことに、ナイーブ取引方式は一般的に著作権や信頼性の問題に関連する潜在的なリスクを伴い、例えば、販売されたモデルは、巨額の利益を得る権限を余儀なく他人に違法に再販売することができる。 この問題に対処するために,バックドアベースの透かしが最も一般的に使用されるモデル知的財産権を保護するため,様々な透かし技術が提案されている。 しかし,これらのウォーターマーキング手法の堅牢性は,データアベイラビリティの制限やウォーターマーキングパターンの非依存など,現実的な設定では十分に評価されていない。 本稿では,透かしの堅牢性をベンチマークし,WILDと呼ばれる限られたデータを用いたバックドア型透かし除去フレームワークを提案する。 提案したWILDは,学習データのごく一部で深層モデルの透かしを除去し,出力モデルはスクラッチからトレーニングしたモデルと同等に動作し,透かしを注入しない。 特に,新しいデータ拡張法を用いて透かしトリガーの挙動を模倣する。 特徴空間における正規データと摂動データ(例えばoccludedデータ)の分布アライメントを組み合わせることで、本手法は典型的なトリガーコンテンツの全てのタイプをうまく一般化する。 実験結果から,本手法は,学習データへのアクセスが制限されたオリジナルタスクの深部モデル性能を損なうことなく,効果的に透かしを除去できることが示された。

Deep neural networks have been widely applied and achieved great success in various fields. As training deep models usually consumes massive data and computational resources, trading the trained deep models is highly demanded and lucrative nowadays. Unfortunately, the naive trading schemes typically involves potential risks related to copyright and trustworthiness issues, e.g., a sold model can be illegally resold to others without further authorization to reap huge profits. To tackle this problem, various watermarking techniques are proposed to protect the model intellectual property, amongst which the backdoor-based watermarking is the most commonly-used one. However, the robustness of these watermarking approaches is not well evaluated under realistic settings, such as limited in-distribution data availability and agnostic of watermarking patterns. In this paper, we benchmark the robustness of watermarking, and propose a novel backdoor-based watermark removal framework using limited data, dubbed WILD. The proposed WILD removes the watermarks of deep models with only a small portion of training data, and the output model can perform the same as models trained from scratch without watermarks injected. In particular, a novel data augmentation method is utilized to mimic the behavior of watermark triggers. Combining with the distribution alignment between the normal and perturbed (e.g., occluded) data in the feature space, our approach generalizes well on all typical types of trigger contents. The experimental results demonstrate that our approach can effectively remove the watermarks without compromising the deep model performance for the original task with the limited access to training data.
翻訳日:2022-11-03 19:48:25 公開日:2020-08-08
# MOR-UAV:UAVビデオにおけるオブジェクト認識のためのベンチマークデータセットとベースライン

MOR-UAV: A Benchmark Dataset and Baselines for Moving Object Recognition in UAV Videos ( http://arxiv.org/abs/2008.01699v2 )

ライセンス: Link先を確認
Murari Mandal, Lav Kush Kumar, Santosh Kumar Vipparthi(参考訳) Unmanned Aerial Vehicles (UAVs)から収集された視覚データは、航空画像やビデオの自動解析を必要とするコンピュータビジョンの新しいフロンティアを開いた。 しかし、既存のUAVデータセットは主にオブジェクト検出に焦点を当てている。 物体検出器は、移動物体と非移動物体とを区別しない。 リアルタイムUAVビデオストリームを前提として、移動物体のローカライズと分類、すなわち移動物体認識(MOR)をどのように行うか。 MORは、航空監視、捜索・救助、イベント認識、都市・農村の風景理解など、UAVの視覚に基づく様々なアプリケーションをサポートするための重要なタスクの1つであり、我々の知る限り、UAVビデオでのMOR評価にラベル付きデータセットは利用できない。 そこで本稿では,MORの大規模ビデオデータセットであるMOR-UAVについて紹介する。 我々は,ピクセルレベルの推定値を生成するよりも計算資源の少ない移動物体に対して,軸方向の有界ボックスをラベル付けすることでこれを実現する。 30UAVビデオから収集した89,783件の移動物体を,気象条件や閉塞,飛行高度の変化,複数のカメラビューなど,さまざまなシナリオで10,948件のフレームで注釈した。 ラベルを2つのカテゴリ(車と重車)に割り当てました。 さらに,UAVビデオにおけるMORのための深層統合フレームワークMOR-UAVNetを提案する。 これはUAVビデオにおけるMORの最初の試みであるため、定量的および定性的な実験を通じて提案したMOR-UAVデータセット上のフレームワークに基づく16のベースライン結果を示す。 また,複数の層を可視化し,ネットワーク内の動きに富む領域を解析した。 MOR-UAVNetは、数フレームしか必要としないため、オンラインで動作します。 さらに、ユーザから事前定義されたターゲット初期化は必要ありません。 また実験により、MOR-UAVデータセットは非常に難しいことが示されている。

Visual data collected from Unmanned Aerial Vehicles (UAVs) has opened a new frontier of computer vision that requires automated analysis of aerial images/videos. However, the existing UAV datasets primarily focus on object detection. An object detector does not differentiate between the moving and non-moving objects. Given a real-time UAV video stream, how can we both localize and classify the moving objects, i.e. perform moving object recognition (MOR)? The MOR is one of the essential tasks to support various UAV vision-based applications including aerial surveillance, search and rescue, event recognition, urban and rural scene understanding.To the best of our knowledge, no labeled dataset is available for MOR evaluation in UAV videos. Therefore, in this paper, we introduce MOR-UAV, a large-scale video dataset for MOR in aerial videos. We achieve this by labeling axis-aligned bounding boxes for moving objects which requires less computational resources than producing pixel-level estimates. We annotate 89,783 moving object instances collected from 30 UAV videos, consisting of 10,948 frames in various scenarios such as weather conditions, occlusion, changing flying altitude and multiple camera views. We assigned the labels for two categories of vehicles (car and heavy vehicle). Furthermore, we propose a deep unified framework MOR-UAVNet for MOR in UAV videos. Since, this is a first attempt for MOR in UAV videos, we present 16 baseline results based on the proposed framework over the MOR-UAV dataset through quantitative and qualitative experiments. We also analyze the motion-salient regions in the network through multiple layer visualizations. The MOR-UAVNet works online at inference as it requires only few past frames. Moreover, it doesn't require predefined target initialization from user. Experiments also demonstrate that the MOR-UAV dataset is quite challenging.
翻訳日:2022-11-03 00:40:29 公開日:2020-08-08
# 計量時間解集合プログラミングへ向けて

Towards Metric Temporal Answer Set Programming ( http://arxiv.org/abs/2008.02038v2 )

ライセンス: Link先を確認
Pedro Cabalar and Martin Dieguez and Torsten Schaub and Anna Schuhmann(参考訳) アンサー・セット・プログラミングの計量時間拡張の理論的基礎について詳述する。 線形テンポラルと動的論理の構造を持つASPの以前の拡張と類似して、Here-and-Thereの論理とその非単調拡張(Equilibrium Logic)の設定でこれを達成する。 より正確には、我々は前者と同じセマンティック基盤に基づいて論理を開発し、従って境界時間ステップの単純な時間領域を使用する。 これにより、統一フレームワークにおけるすべての変種を比較し、最終的にそれらを共通の実装で組み合わせることができます。

We elaborate upon the theoretical foundations of a metric temporal extension of Answer Set Programming. In analogy to previous extensions of ASP with constructs from Linear Temporal and Dynamic Logic, we accomplish this in the setting of the logic of Here-and-There and its non-monotonic extension, called Equilibrium Logic. More precisely, we develop our logic on the same semantic underpinnings as its predecessors and thus use a simple time domain of bounded time steps. This allows us to compare all variants in a uniform framework and ultimately combine them in a common implementation.
翻訳日:2022-11-02 18:40:52 公開日:2020-08-08
# jukebox: 多言語シンガー認識データセット

JukeBox: A Multilingual Singer Recognition Dataset ( http://arxiv.org/abs/2008.03507v1 )

ライセンス: Link先を確認
Anurag Chowdhury, Austin Cozzo, Arun Ross(参考訳) テキストに依存しない話者認識システムは、音声ピッチ、強度、音色などの音声要素をうまくエンコードし、良好な性能を達成する。 これらのシステムの大部分は、音声データや日常会話音声データを用いて訓練され、評価される。 しかし、発声音声は話者ダイナミクスの限られた範囲を示すため、導出話者認識モデルの有用性が制限される。 一方、歌声は、声質や環境要因の広い範囲をカバーするため、話者認識システムのロバスト性を評価するために使用できる。 しかし、既存の話者認識データセットの大部分は、音声のみに焦点を当てている。 対照的に、話者認識研究に適したラベル付き歌唱音声データが著しく不足している。 この問題に対処するために,歌手のアイデンティティ,性別,言語ラベルを付加した多言語歌声音声を用いた話者認識データセットであるtextit{JukeBox} を組み立てた。 本研究では,音声のみを訓練したモデルを用いて,歌唱音声における話者認識の難易度を示す。 また、音声データと歌唱音声データの両方において、性別と言語が話者認識性能に与える影響を評価する。 完全な \textit{jukebox}データセットはhttp://iprobe.cse.msu.edu/datasets/jukebox.htmlでアクセスできる。

A text-independent speaker recognition system relies on successfully encoding speech factors such as vocal pitch, intensity, and timbre to achieve good performance. A majority of such systems are trained and evaluated using spoken voice or everyday conversational voice data. Spoken voice, however, exhibits a limited range of possible speaker dynamics, thus constraining the utility of the derived speaker recognition models. Singing voice, on the other hand, covers a broader range of vocal and ambient factors and can, therefore, be used to evaluate the robustness of a speaker recognition system. However, a majority of existing speaker recognition datasets only focus on the spoken voice. In comparison, there is a significant shortage of labeled singing voice data suitable for speaker recognition research. To address this issue, we assemble \textit{JukeBox} - a speaker recognition dataset with multilingual singing voice audio annotated with singer identity, gender, and language labels. We use the current state-of-the-art methods to demonstrate the difficulty of performing speaker recognition on singing voice using models trained on spoken voice alone. We also evaluate the effect of gender and language on speaker recognition performance, both in spoken and singing voice data. The complete \textit{JukeBox} dataset can be accessed at http://iprobe.cse.msu.edu/datasets/jukebox.html.
翻訳日:2022-11-01 12:33:34 公開日:2020-08-08
# 図書館利用パターン理解のための利用者の書誌データと大学データのマイニングと分析

Mining and Analyzing Patron's Book-Loan Data and University Data to Understand Library Use Patterns ( http://arxiv.org/abs/2008.03545v1 )

ライセンス: Link先を確認
Tipawan Silwattananusarn and Pachisa Kulkanjanapiban(参考訳) 本研究の目的は,学術図書館におけるパトロンの使用行動を研究することである。 本研究は,2015-2018年度の学術的成果に影響を及ぼすKhunying Long Athakravisunthorn Learning Resources Center(Songkla大学プリンス・アサクラビストホーン学習資源センター)におけるパトロンの貸出パターンについて検討した。 この研究は図書館、登録官、人的資源からのデータを収集し分析した。 学生の成績データは,PSU学生情報システムとALIST図書館情報システムから得られた。 WEKAは、関連ルールやクラスタリングのデータマイニング技術を用いたデータマイニングツールとして使用された。 すべてのデータセットを掘り出し分析し,パトロンの本借りの特徴を特定し,パトロンの関心の関連ルールを発見し,学術図書館利用と大学生の業績との関係を解析した。 その結果,パトロンの貸本行動のパターン,書籍使用のパターン,本の貸本に対するパトロンの関心に関する関心ルールのパターン,パトロンの貸本と学級の関係のパターンが明らかになった。 ライブラリのパトロンの振舞いパターンを明確に識別し記述する能力は、リソースやサービスをより効率的に管理するのに役立ちます。 本研究は,学術図書館情報とデータマイニングを活用し,図書館管理と図書館サービスを改善するための,ガイドラインやキャンパスパートナーシップとしてサンプルモデルを提供する。

The purpose of this paper is to study the patron's usage behavior in an academic library. This study investigates on pattern of patron's books borrowing in Khunying Long Athakravisunthorn Learning Resources Center, Prince of Songkla University that influence patron's academic achievement during on academic year 2015-2018. The study collected and analyzed data from the libraries, registrar, and human resources. The students' performance data was obtained from PSU Student Information System and the rest from ALIST library information system. WEKA was used as the data mining tool employing data mining techniques of association rules and clustering. All data sets were mined and analyzed to identify characteristics of the patron's book borrowing, to discover the association rules of patron's interest, and to analyze the relationships between academic library use and undergraduate students' achievement. The results reveal patterns of patron's book loan behavior, patterns of book usage, patterns of interest rules with respect to patron's interest in book borrowing, and patterns of relationships between patron's borrowing and their grade. The ability to clearly identify and describe library patron's behavior pattern can help library in managing resources and services more effectively. This study provides a sample model as guideline or campus partnerships and for future collaborations that will take advantage of the academic library information and data mining to improve library management and library services.
翻訳日:2022-11-01 12:33:11 公開日:2020-08-08
# 話者自動検証のためのフレームレートに基づく可変データ拡張

Variable frame rate-based data augmentation to handle speaking-style variability for automatic speaker verification ( http://arxiv.org/abs/2008.03616v1 )

ライセンス: Link先を確認
Amber Afshan, Jinxi Guo, Soo Jin Park, Vijay Ravi, Alan McCree, and Abeer Alwan(参考訳) 話者ごとの複数の話し方を含むUCLA話者変動データベースを用いて,発話スタイルの変動が自動話者検証に与える影響を検討した。 X-vector/PLDA (probabilistic linear discriminant analysis) システムは,標準拡張技術を用いてSREおよびSwitchboardデータベースを用いて訓練し,UCLAデータベースからの発話で評価した。 入会時と試験発話時では同等の誤り率(eer)が低かった(例:読解率0.98%、会話発話率0.57%)が、入会と試験発話のスタイルが一致しない場合には大幅に増加した。 例えば、会話発話を登録すると、eerはそれぞれ3.03%、読み上げ、語り、ペット向け音声でテストすると2.96%、22.12%に増加した。 スタイルミスマッチの効果を低減するため,PLDA適応のためのスタイル正規化表現を人工的に生成するエントロピーベースの可変フレームレート手法を提案する。 提案システムは性能を著しく向上させた。 上記の条件下では、EERは2.69%(会話 -- 読み)、2.27%(会話 -- 物語)、18.75%(ペット指向 -- 読み)に改善された。 総じて,提案手法は,話者毎に異なる発話スタイルでデータをトレーニングすることなく,マルチスタイルplda適応に比較可能であった。

The effects of speaking-style variability on automatic speaker verification were investigated using the UCLA Speaker Variability database which comprises multiple speaking styles per speaker. An x-vector/PLDA (probabilistic linear discriminant analysis) system was trained with the SRE and Switchboard databases with standard augmentation techniques and evaluated with utterances from the UCLA database. The equal error rate (EER) was low when enrollment and test utterances were of the same style (e.g., 0.98% and 0.57% for read and conversational speech, respectively), but it increased substantially when styles were mismatched between enrollment and test utterances. For instance, when enrolled with conversation utterances, the EER increased to 3.03%, 2.96% and 22.12% when tested on read, narrative, and pet-directed speech, respectively. To reduce the effect of style mismatch, we propose an entropy-based variable frame rate technique to artificially generate style-normalized representations for PLDA adaptation. The proposed system significantly improved performance. In the aforementioned conditions, the EERs improved to 2.69% (conversation -- read), 2.27% (conversation -- narrative), and 18.75% (pet-directed -- read). Overall, the proposed technique performed comparably to multi-style PLDA adaptation without the need for training data in different speaking styles per speaker.
翻訳日:2022-11-01 12:32:28 公開日:2020-08-08
# 人間と機械における話者弁別:発話スタイル変化の影響

Speaker discrimination in humans and machines: Effects of speaking style variability ( http://arxiv.org/abs/2008.03617v1 )

ライセンス: Link先を確認
Amber Afshan, Jody Kreiman, and Abeer Alwan(参考訳) 発話スタイルの変化は、声と個人を区別する人間の能力に影響を与えるか? 人間は、声を区別するために設計された自動システムとどのように比較しますか? 本稿では,読み上げ音声とカジュアルな会話における人間と機械の話者識別性能を比較して,これらの疑問に答えようとする。 30人のリスナーが、同じ対異なる話者タスクを実行するように求められた。 その性能は、最先端のXベクトル/PLDAベースの自動話者検証システムと比較された。 その結果,アメリカ英語の母語話者では,人間と機械の双方がスタイル整合刺激に優れ,人的パフォーマンスが良好であった。 ネイティブリスナーは、スタイルマッチングされた条件では機械よりも優れた性能を発揮した(読み上げ音声では6.96%、会話では14.35%、会話では15.12%、会話では19.87%)。 いずれの条件においても,人間と機械は話者識別課題に対して異なるアプローチを持っていることが示唆された。 さらに, 個人話者に対する評価結果から, 異なる話者と混同した話者の認識が, 人間の聞き手と機械によって異なることを示した。

Does speaking style variation affect humans' ability to distinguish individuals from their voices? How do humans compare with automatic systems designed to discriminate between voices? In this paper, we attempt to answer these questions by comparing human and machine speaker discrimination performance for read speech versus casual conversations. Thirty listeners were asked to perform a same versus different speaker task. Their performance was compared to a state-of-the-art x-vector/PLDA-based automatic speaker verification system. Results showed that both humans and machines performed better with style-matched stimuli, and human performance was better when listeners were native speakers of American English. Native listeners performed better than machines in the style-matched conditions (EERs of 6.96% versus 14.35% for read speech, and 15.12% versus 19.87%, for conversations), but for style-mismatched conditions, there was no significant difference between native listeners and machines. In all conditions, fusing human responses with machine results showed improvements compared to each alone, suggesting that humans and machines have different approaches to speaker discrimination tasks. Differences in the approaches were further confirmed by examining results for individual speakers which showed that the perception of distinct and confused speakers differed between human listeners and machines.
翻訳日:2022-11-01 12:32:02 公開日:2020-08-08
# 脳mr-pet合成のための双方向生成逆ネットワーク

Bidirectional Mapping Generative Adversarial Networks for Brain MR to PET Synthesis ( http://arxiv.org/abs/2008.03483v1 )

ライセンス: Link先を確認
Shengye Hu, Baiying Lei, Yong Wang, Zhiguang Feng, Yanyan Shen, Shuqiang Wang(参考訳) MRやPETなどのマルチモーダルな医療画像を使用すると、人体に関する様々な解剖学的、機能的な情報が得られる。 しかし、PETデータはコストや放射線、その他の制限など、さまざまな理由で常に利用できない。 本稿では,画像コンテキストと潜在ベクトルを効果的に利用し,脳MR-PET合成に共同最適化する,双方向マッピング生成適応ネットワーク(BMGAN)と呼ばれる3次元エンドツーエンド合成ネットワークを提案する。 具体的には、PET画像の意味情報を高次元潜在空間に埋め込むための双方向マッピング機構を設計する。 また、3D DenseU-Netジェネレータアーキテクチャと広範囲な目的関数を利用して、合成結果の視覚的品質を向上させる。 最も魅力的なのは、異なる被験者の多様な脳構造を保存しながら、知覚的に現実的なPET画像を合成できることである。 実験により,提案手法の性能は,定量的測定,質的表示,分類評価の点で,他の競争的相互モダリティ合成法よりも優れていた。

Fusing multi-modality medical images, such as MR and PET, can provide various anatomical or functional information about human body. But PET data is always unavailable due to different reasons such as cost, radiation, or other limitations. In this paper, we propose a 3D end-to-end synthesis network, called Bidirectional Mapping Generative Adversarial Networks (BMGAN), where image contexts and latent vector are effectively used and jointly optimized for brain MR-to-PET synthesis. Concretely, a bidirectional mapping mechanism is designed to embed the semantic information of PET images into the high dimensional latent space. And the 3D DenseU-Net generator architecture and the extensive objective functions are further utilized to improve the visual quality of synthetic results. The most appealing part is that the proposed method can synthesize the perceptually realistic PET images while preserving the diverse brain structures of different subjects. Experimental results demonstrate that the performance of the proposed method outperforms other competitive cross-modality synthesis methods in terms of quantitative measures, qualitative displays, and classification evaluation.
翻訳日:2022-11-01 12:24:17 公開日:2020-08-08
# Convex Q-Learning, Part 1:決定論的最適制御

Convex Q-Learning, Part 1: Deterministic Optimal Control ( http://arxiv.org/abs/2008.03559v1 )

ライセンス: Link先を確認
Prashant G. Mehta and Sean P. Meyn(参考訳) ワトキンスアルゴリズムの一般関数近似設定への拡張は困難であることはよく知られている: 投影されたベルマン方程式は解を持つか? もしそうなら、解決策は良い方針を生み出すという意味で有用だろうか? そして、もし前回の質問が肯定的に答えられた場合、アルゴリズムは一貫性があるのだろうか? これらの疑問は、パラメータに線型なQ-函数近似の特別な場合においても答えられない。 動的プログラミングに対する凸解析的アプローチの長い歴史を考えると、この課題はパラドックス的に見える。 この論文は、最適制御に対する線形プログラミングのアプローチに関する簡単な調査から始まり、強化学習の応用に有利なパラメータ化へと導かれる。 主な結論は以下の通りである。 i)ベルマン方程式の凸緩和に基づいて,新しい凸Q-ラーニングアルゴリズムを導入した。 Q-函数に対する線形関数近似を含む一般条件下で収束が確立される。 (ii) バッチ実装は有名なDQNアルゴリズム(AlphaZeroのエンジンの一つ)に似ている。 凸 Q-ラーニングはベルマン方程式を近似する凸プログラムを解くが、DQNの理論は関数近似のワトキンスアルゴリズムよりも強いものではない。 (a) どちらも同じ不動点方程式の解を求めることが示され、 b) 2つのアルゴリズムのODE近似は一致しており、このODEの安定性についてはほとんど分かっていない。 これらの結果は、総コスト基準を持つ決定論的非線形システムに対して得られる。 カーネル実装やMDPモデルの拡張など、多くの拡張が提案されている。

It is well known that the extension of Watkins' algorithm to general function approximation settings is challenging: does the projected Bellman equation have a solution? If so, is the solution useful in the sense of generating a good policy? And, if the preceding questions are answered in the affirmative, is the algorithm consistent? These questions are unanswered even in the special case of Q-function approximations that are linear in the parameter. The challenge seems paradoxical, given the long history of convex analytic approaches to dynamic programming. The paper begins with a brief survey of linear programming approaches to optimal control, leading to a particular over parameterization that lends itself to applications in reinforcement learning. The main conclusions are summarized as follows: (i) The new class of convex Q-learning algorithms is introduced based on the convex relaxation of the Bellman equation. Convergence is established under general conditions, including a linear function approximation for the Q-function. (ii) A batch implementation appears similar to the famed DQN algorithm (one engine behind AlphaZero). It is shown that in fact the algorithms are very different: while convex Q-learning solves a convex program that approximates the Bellman equation, theory for DQN is no stronger than for Watkins' algorithm with function approximation: (a) it is shown that both seek solutions to the same fixed point equation, and (b) the ODE approximations for the two algorithms coincide, and little is known about the stability of this ODE. These results are obtained for deterministic nonlinear systems with total cost criterion. Many extensions are proposed, including kernel implementation, and extension to MDP models.
翻訳日:2022-11-01 12:23:36 公開日:2020-08-08
# テキスト依存話者検証のための共有エンコーダとしての教師なし自己回帰モデルの検討

Exploring the Use of an Unsupervised Autoregressive Model as a Shared Encoder for Text-Dependent Speaker Verification ( http://arxiv.org/abs/2008.03615v1 )

ライセンス: Link先を確認
Vijay Ravi, Ruchao Fan, Amber Afshan, Huanhua Lu and Abeer Alwan(参考訳) 本稿では,タスク固有デコーダを用いた共有エンコーダを用いたテキスト依存型自動話者検証(TD-ASV)を提案する。 自己回帰予測符号化(apc)エンコーダは、アウトオブドメイン(librispeech、voxceleb)とインドメイン(deepmine)のラベル付きデータセットの両方を使用して教師なしの方法で事前訓練され、話者と音声コンテンツをカプセル化する汎用的で高レベルな特徴表現を学習する。 ラベル付きデータセットを用いて2つのタスク固有デコーダを訓練し、話者(SID)とフレーズ(PID)を分類した。 SIDデコーダから抽出した話者埋め込みをPLDAを用いて評価した。 SIDとPIDはスコアレベルで融合した。 言語間データセットであるDeepMineの完全な教師付きxベクターベースラインと比較して,我々のシステムには51.9%の相対的な改善がある。 しかし、i-vector/HMM法は提案したAPCエンコーダデコーダよりも優れていた。 PID融合前のXベクトル/PLDAベースラインとSID/PLDAスコアの融合により、提案手法のXベクトル系への相補性を示す15%の性能が向上した。 提案手法は大規模でラベルのないデータ豊富なドメインから活用でき,下流タスクによらず音声パターンを学習できることを示す。 このようなシステムは、テストデータがデータスカースドメインからのものである場合、ドメインミスマッチしたシナリオで競合的なパフォーマンスを提供することができる。

In this paper, we propose a novel way of addressing text-dependent automatic speaker verification (TD-ASV) by using a shared-encoder with task-specific decoders. An autoregressive predictive coding (APC) encoder is pre-trained in an unsupervised manner using both out-of-domain (LibriSpeech, VoxCeleb) and in-domain (DeepMine) unlabeled datasets to learn generic, high-level feature representation that encapsulates speaker and phonetic content. Two task-specific decoders were trained using labeled datasets to classify speakers (SID) and phrases (PID). Speaker embeddings extracted from the SID decoder were scored using a PLDA. SID and PID systems were fused at the score level. There is a 51.9% relative improvement in minDCF for our system compared to the fully supervised x-vector baseline on the cross-lingual DeepMine dataset. However, the i-vector/HMM method outperformed the proposed APC encoder-decoder system. A fusion of the x-vector/PLDA baseline and the SID/PLDA scores prior to PID fusion further improved performance by 15% indicating complementarity of the proposed approach to the x-vector system. We show that the proposed approach can leverage from large, unlabeled, data-rich domains, and learn speech patterns independent of downstream tasks. Such a system can provide competitive performance in domain-mismatched scenarios where test data is from data-scarce domains.
翻訳日:2022-11-01 12:22:59 公開日:2020-08-08
# ナノDSFによるがん検出のためのAIによる血液検査

An AI-powered blood test to detect cancer using nanoDSF ( http://arxiv.org/abs/2008.03493v1 )

ライセンス: Link先を確認
Philipp O. Tsvetkov, R\'emi Eyraud, St\'ephane Ayache, Anton A. Bougaev, Soazig Malesinski, Hamed Benazha, Svetlana Gorokhova, Christophe Buffat, Caroline Dehais, Marc Sanson, Franck Bielle, Dominique Figarella-Branger, Olivier Chinot, Emeline Tabouret, Fran\c{c}ois Devred(参考訳) 微分走査型蛍光計の非従来的使用により得られた血漿変性プロファイルに基づく新しいがん診断法について述べる。 グリオーマ患者84名と健康管理63名が,92%の精度で機械学習アルゴリズムを用いて変性プロファイルを用いて自動的に分類できることを示した。 提案された高スループットワークフローは、任意の種類のがんに適用することができ、単純な血液検査から強力な膵臓診断およびモニタリングツールになる可能性がある。

We describe a novel cancer diagnostic method based on plasma denaturation profiles obtained by a non-conventional use of Differential Scanning Fluorimetry. We show that 84 glioma patients and 63 healthy controls can be automatically classified using denaturation profiles with the help of machine learning algorithms with 92% accuracy. Proposed high throughput workflow can be applied to any type of cancer and could become a powerful pan-cancer diagnostic and monitoring tool from a simple blood test.
翻訳日:2022-11-01 12:21:26 公開日:2020-08-08
# 群集の追跡は難しい: 物理的特徴に基づく群集の分析

Tracking in Crowd is Challenging: Analyzing Crowd based on Physical Characteristics ( http://arxiv.org/abs/2008.03614v1 )

ライセンス: Link先を確認
Constantinou Miti, Demetriou Zatte, Siraj Sajid Gondal(参考訳) 現在、地下鉄の駅、大学、カレッジ、空港、ショッピングモール、市広場など様々な場所で人々の安全が重要な問題となっている。 したがって、知性イベント検出システムを考えることは、ますます緊急に必要である。 異常動作をインテリジェントに識別するためにイベント検出法を開発したので、不必要な活動を防止するためにできるだけ早く行動を起こすことができる。 この問題は、異なる地域での集客密度が高いため、非常に困難である。 これらの問題の1つは、図1に示すように、個々の追跡と分析が不可能となることによる閉塞である。 第二に、より難しいのは、群衆の中での個人行動の適切な表現です。 これらの課題に対処するための新しい方法を考える。 追跡の課題を考慮し,完全フレームを小さなパッチに分割し,各パッチの動作を示す動きパターンを抽出する。 本研究は,KLTコーナーを移動領域を記述し,光流法を用いてこれらの特徴を追従する統合的特徴として捉えたものである。 動きパターンを埋め込むために,パッチ内のすべての動き情報の分布をガウス分布として,ガウスモデルのパラメータを運動パターン記述子として定式化する。

Currently, the safety of people has become a very important problem in different places including subway station, universities, colleges, airport, shopping mall and square, city squares. Therefore, considering intelligence event detection systems is more and urgently required. The event detection method is developed to identify abnormal behavior intelligently, so public can take action as soon as possible to prevent unwanted activities. The problem is very challenging due to high crowd density in different areas. One of these issues is occlusion due to which individual tracking and analysis becomes impossible as shown in Fig. 1. Secondly, more challenging is the proper representation of individual behavior in the crowd. We consider a novel method to deal with these challenges. Considering the challenge of tracking, we partition complete frame into smaller patches, and extract motion pattern to demonstrate the motion in each individual patch. For this purpose, our work takes into account KLT corners as consolidated features to describe moving regions and track these features by considering optical flow method. To embed motion patterns, we develop and consider the distribution of all motion information in a patch as Gaussian distribution, and formulate parameters of Gaussian model as our motion pattern descriptor.
翻訳日:2022-11-01 12:15:27 公開日:2020-08-08
# Lazy-Grounding ASPソルビング技術の改善 - 再起動、フェーズセービング、ヒューリスティックスなど

Advancing Lazy-Grounding ASP Solving Techniques -- Restarts, Phase Saving, Heuristics, and More ( http://arxiv.org/abs/2008.03526v1 )

ライセンス: Link先を確認
Antonius Weinzierl, Richard Taupe and Gerhard Friedrich(参考訳) Answer-Set Programming(ASP)は、論理ベースのAIにおいて、かなりの数のアプリケーションを持つ強力で表現力豊かな知識表現パラダイムである。 しかし、従来のグラウンド・アンド・ソルブのアプローチでは、ASPプログラムを事前にグラウンド化する必要があるため、いわゆるグラウンド・ボトルネック(すなわち、ASPプログラムは利用可能なすべてのメモリを簡単に消耗し、解決不可能になる)に悩まされる。 対策として、遅延グラウンドのASPソルバが開発されているが、接地されたASPソルバの最先端技術の多くは、まだ利用できない。 本研究では、再起動、位相保存、ドメイン非依存のヒューリスティックス、学習クローズ削除など、多くの重要なテクニックに対する遅延グラウンド設定への適応を初めて提示する。 さらに,その効果を調査し,一般論として問題解決能力の大幅な向上を観察し,場合によっては負の効果も明らかにし,他の解法者から知られているようなポートフォリオ解決の必要性を示唆する。 TPLPの受容についての検討

Answer-Set Programming (ASP) is a powerful and expressive knowledge representation paradigm with a significant number of applications in logic-based AI. The traditional ground-and-solve approach, however, requires ASP programs to be grounded upfront and thus suffers from the so-called grounding bottleneck (i.e., ASP programs easily exhaust all available memory and thus become unsolvable). As a remedy, lazy-grounding ASP solvers have been developed, but many state-of-the-art techniques for grounded ASP solving have not been available to them yet. In this work we present, for the first time, adaptions to the lazy-grounding setting for many important techniques, like restarts, phase saving, domain-independent heuristics, and learned-clause deletion. Furthermore, we investigate their effects and in general observe a large improvement in solving capabilities and also uncover negative effects in certain cases, indicating the need for portfolio solving as known from other solvers. Under consideration for acceptance in TPLP.
翻訳日:2022-11-01 12:15:09 公開日:2020-08-08
# ASR出力のない単語誤り率推定:e-WER2

Word Error Rate Estimation Without ASR Output: e-WER2 ( http://arxiv.org/abs/2008.03403v1 )

ライセンス: Link先を確認
Ahmed Ali and Steve Renals(参考訳) 自動音声認識(ASR)システムの性能を測定するには、しばしば時間とコストのかかる単語誤り率(WER)を計算するために手書きの書き起こしデータが必要となる。 本稿では,音響的,語彙的,系統的特徴を用いたwerの推定を継続する。 WERを推定するための新しいアプローチは、マルチストリームのエンドツーエンドアーキテクチャを使用する。 内部の音声デコーダ機能(グラスボックス)、音声デコーダ機能(ブラックボックス)のないシステム、およびASRシステム(ノーボックス)にアクセスできないシステムに対する結果について報告する。 no-box システムは,音素認識結果と MFCC 音響特徴を併用し,WER を推定する。 文ごとのWERを考慮すると、1,400文にわたる基準評価と0.56ピアソン相関と0.24ルート平均二乗誤差(RMSE)が得られる。 e-WER2によるWER全体の推定は3時間テストセットで30.9%、基準文字起こしを用いて計算されたWERは28.5%である。

Measuring the performance of automatic speech recognition (ASR) systems requires manually transcribed data in order to compute the word error rate (WER), which is often time-consuming and expensive. In this paper, we continue our effort in estimating WER using acoustic, lexical and phonotactic features. Our novel approach to estimate the WER uses a multistream end-to-end architecture. We report results for systems using internal speech decoder features (glass-box), systems without speech decoder features (black-box), and for systems without having access to the ASR system (no-box). The no-box system learns joint acoustic-lexical representation from phoneme recognition results along with MFCC acoustic features to estimate WER. Considering WER per sentence, our no-box system achieves 0.56 Pearson correlation with the reference evaluation and 0.24 root mean square error (RMSE) across 1,400 sentences. The estimated overall WER by e-WER2 is 30.9% for a three hours test set, while the WER computed using the reference transcriptions was 28.5%.
翻訳日:2022-11-01 12:14:50 公開日:2020-08-08
# ハイパースペクトル・マルチスペクトル画像融合の最近の進歩と新しいガイドライン

Recent Advances and New Guidelines on Hyperspectral and Multispectral Image Fusion ( http://arxiv.org/abs/2008.03426v1 )

ライセンス: Link先を確認
Renwei Dian, Shutao Li, Bin Sun, and Anjing Guo(参考訳) 高スペクトル分解能のハイパースペクトル画像(hsi)は、撮像センサーの限界のために、しばしば低空間分解能に苦しむ。 画像融合は、HSIと同一シナリオの高分解能マルチスペクトル画像(MSI)を組み合わせた、HSIの空間分解能を高める効果的な経済的方法である。 近年,高分解能HSIを得るために多くのHSIとMSI融合アルゴリズムが導入されている。 しかし、新たに提案されたHSIとMSIの融合アプローチの完全なレビューはない。 この問題に対処するため,本研究はHSI-MSI融合に関する総合的なレビューと新しいガイドラインを提供する。 HSI-MSI融合法の特徴として,パン・シャーピングに基づくアプローチ,行列分解に基づくアプローチ,テンソル表現に基づくアプローチ,深部畳み込みニューラルネットワークに基づくアプローチの4つのカテゴリに分類される。 各カテゴリの融合法について, 詳細な紹介, 議論, 比較を行った。 さらに,HSI-MSI融合の課題と今後の方向性について述べる。

Hyperspectral image (HSI) with high spectral resolution often suffers from low spatial resolution owing to the limitations of imaging sensors. Image fusion is an effective and economical way to enhance the spatial resolution of HSI, which combines HSI with higher spatial resolution multispectral image (MSI) of the same scenario. In the past years, many HSI and MSI fusion algorithms are introduced to obtain high-resolution HSI. However, it lacks a full-scale review for the newly proposed HSI and MSI fusion approaches. To tackle this problem,this work gives a comprehensive review and new guidelines for HSI-MSI fusion. According to the characteristics of HSI-MSI fusion methods, they are categorized as four categories, including pan-sharpening based approaches, matrix factorization based approaches, tensor representation based approaches, and deep convolution neural network based approaches. We make a detailed introduction, discussions, and comparison for the fusion methods in each category. Additionally, the existing challenges and possible future directions for the HSI-MSI fusion are presented.
翻訳日:2022-11-01 12:14:27 公開日:2020-08-08
# ロボット協調組立計画 : 解答セットプログラミングアプローチ

Human Robot Collaborative Assembly Planning: An Answer Set Programming Approach ( http://arxiv.org/abs/2008.03496v1 )

ライセンス: Link先を確認
Momina Rizwan, Volkan Patoglu, Esra Erdem(参考訳) 特定の部品から製品の組み立てを計画するためには、ロボットは特定の認知スキルを必要とする: アクティベーションアクションの順序を決定するには高いレベルの計画が必要であるが、これらのアクションの実現可能性を確認するには幾何学的推論が必要である。 人間との協調的な組み立て作業では、ロボットは、人間の行動に関する不完全な知識によって引き起こされる不確実性に対処するだけでなく、より安全なコラボレーションを確保するために、常識推論、センシング、コミュニケーションスキルなどのさらなる認知能力を必要とする。 本稿では,コモンセンス推論によって拡張されたハイブリッド条件計画と協調作業のためのリッチなコミュニケーション行動を利用する,不確実性を考慮した協調的組立計画手法を提案する。 我々の手法は応答集合プログラミングに基づいている。 ロボットが人間のチームメイトと協力して家具を組み立てる実世界の組立領域において,我々のアプローチの適用性を示す。 この写本はTPLPの受け入れを検討中である。

For planning an assembly of a product from a given set of parts, robots necessitate certain cognitive skills: high-level planning is needed to decide the order of actuation actions, while geometric reasoning is needed to check the feasibility of these actions. For collaborative assembly tasks with humans, robots require further cognitive capabilities, such as commonsense reasoning, sensing, and communication skills, not only to cope with the uncertainty caused by incomplete knowledge about the humans' behaviors but also to ensure safer collaborations. We propose a novel method for collaborative assembly planning under uncertainty, that utilizes hybrid conditional planning extended with commonsense reasoning and a rich set of communication actions for collaborative tasks. Our method is based on answer set programming. We show the applicability of our approach in a real-world assembly domain, where a bi-manual Baxter robot collaborates with a human teammate to assemble furniture. This manuscript is under consideration for acceptance in TPLP.
翻訳日:2022-11-01 12:13:48 公開日:2020-08-08
# Answer Set Programming を用いた最適資源利用によるマルチモーダルマルチエージェントパスの探索生成

Explanation Generation for Multi-Modal Multi-Agent Path Finding with Optimal Resource Utilization using Answer Set Programming ( http://arxiv.org/abs/2008.03573v1 )

ライセンス: Link先を確認
Aysu Bogatarkan and Esra Erdem(参考訳) MAPF問題(Multi-agent path find)は、複数のエージェント(例えば、自律倉庫など)が互いに衝突しない環境(例えば、自律倉庫)において、複数のエージェント(例えば、ロボット)の経路を見つけることを目的とした組合せ探索問題である。 MAPFの一般的なバージョンであるmMAPFは、マルチモーダル輸送モード(例えば、速度制約による)と異なるタイプの資源(例えば、電池)の消費を含む。 mMAPFの実際の応用には柔軟性(例えばmMAPFのバリエーションの解決)と説明可能性が必要である。 mMAPFに関する以前の研究は、かつての柔軟性の課題に焦点を合わせてきた。 本研究では,説明可能性に関する後者の課題に焦点をあて,解の実現性と最適性,解の非存在,解の観察に関する質問に対する説明を生成する手法を提案する。 我々の手法は応答集合プログラミングに基づいている。 本論文はTPLPの受容について検討中である。

The multi-agent path finding (MAPF) problem is a combinatorial search problem that aims at finding paths for multiple agents (e.g., robots) in an environment (e.g., an autonomous warehouse) such that no two agents collide with each other, and subject to some constraints on the lengths of paths. We consider a general version of MAPF, called mMAPF, that involves multi-modal transportation modes (e.g., due to velocity constraints) and consumption of different types of resources (e.g., batteries). The real-world applications of mMAPF require flexibility (e.g., solving variations of mMAPF) as well as explainability. Our earlier studies on mMAPF have focused on the former challenge of flexibility. In this study, we focus on the latter challenge of explainability, and introduce a method for generating explanations for queries regarding the feasibility and optimality of solutions, the nonexistence of solutions, and the observations about solutions. Our method is based on answer set programming. This paper is under consideration for acceptance in TPLP.
翻訳日:2022-11-01 12:13:32 公開日:2020-08-08
# 偽ニュース緩和のための拡散モデルの混合によるネットワーク推論

Network Inference from a Mixture of Diffusion Models for Fake News Mitigation ( http://arxiv.org/abs/2008.03450v1 )

ライセンス: Link先を確認
Karishma Sharma, Xinran He, Sungyong Seo, Yan Liu(参考訳) 人を騙し、世論に影響を与え、社会的成果を操ることを意図した偽ニュースの拡散は、ソーシャルメディアに迫る問題となっている。 また、ソーシャルメディア上での情報共有は、ウイルス情報カスケードの拡散を促進する。 本研究では,フェイクニュース緩和のためのネットワーク介入を容易にするために,偽コンテンツの拡散動態の理解と活用に焦点をあてる。 偽ニュースと真ニュースのカスケードからなる実世界のtwitterデータセットを解析し,偽ニュースと真ニュースの拡散ダイナミクスとユーザの振る舞いの違いを理解する。 この分析に基づいて,拡散モデルを,ソーシャルネットワークグラフ上のパラメータ $\theta_T, \theta_F$ と組み合わせた独立カスケードモデル(MIC)の混合としてモデル化し,未ラベルカスケードから拡散混合モデルのパラメータ推定のための教師なし推論手法を導出する。 推定拡散ダイナミクスを用いて、真偽コンテンツの伝播に影響を及ぼすユーザを特定する。 特定された影響力のあるユーザの特徴は、偽ニュースに特定された影響力のあるユーザと偽ニュースカスケードにおけるその相対的な外観との正の相関を示す。 特定された影響力のあるユーザーは、よりバイラルな情報カスケードの話題に関連しがちであり、偽ニュースの影響力のあるユーザーは、真のニュースの影響力のあるユーザーに比べて、直接フォロワー数が少ない。 ノードとエッジの干渉解析は、緩和のためのネットワーク介入を支援するために、推論拡散ダイナミクスの能力を示す。

The dissemination of fake news intended to deceive people, influence public opinion and manipulate social outcomes, has become a pressing problem on social media. Moreover, information sharing on social media facilitates diffusion of viral information cascades. In this work, we focus on understanding and leveraging diffusion dynamics of false and legitimate contents in order to facilitate network interventions for fake news mitigation. We analyze real-world Twitter datasets comprising fake and true news cascades, to understand differences in diffusion dynamics and user behaviours with regards to fake and true contents. Based on the analysis, we model the diffusion as a mixture of Independent Cascade models (MIC) with parameters $\theta_T, \theta_F$ over the social network graph; and derive unsupervised inference techniques for parameter estimation of the diffusion mixture model from observed, unlabeled cascades. Users influential in the propagation of true and fake contents are identified using the inferred diffusion dynamics. Characteristics of the identified influential users reveal positive correlation between influential users identified for fake news and their relative appearance in fake news cascades. Identified influential users tend to be related to topics of more viral information cascades than less viral ones; and identified fake news influential users have relatively fewer counts of direct followers, compared to the true news influential users. Intervention analysis on nodes and edges demonstrates capacity of the inferred diffusion dynamics in supporting network interventions for mitigation.
翻訳日:2022-11-01 12:13:11 公開日:2020-08-08
# 伝達学習による深部畳み込みニューラルネットワークによる音声スポーフィング検証

Audio Spoofing Verification using Deep Convolutional Neural Networks by Transfer Learning ( http://arxiv.org/abs/2008.03464v1 )

ライセンス: Link先を確認
Rahul T P, P R Aravind, Ranjith C, Usamath Nechiyil, Nandakumar Paramparambath(参考訳) 最近、自動話者認証システムが人気を集めており、これらのシステムを脆弱にするため、スプーフィング攻撃が主要な関心事となっている。 Replay攻撃のような偽造攻撃は実装が容易だが、検出は非常に困難であり、適切な対策の必要性が生じる。 本稿では,スプーフィング攻撃を検出するために,深層畳み込みニューラルネットワークに基づく音声分類器を提案する。 提案手法は,メル周波数スケール (Mel-spectrogram) におけるパワースペクトル密度の音響的時間周波数表現を用いて,深層学習(ResNet-34アーキテクチャの適応)を行う。 単一モデルシステムを用いて、我々は、開発において0.9056%、論理アクセスシナリオの評価データセットで5.32%、開発において5.87%、ASVspoof 2019の物理アクセスシナリオの評価データセットで5.74%の誤差率(EER)を達成した。

Automatic Speaker Verification systems are gaining popularity these days; spoofing attacks are of prime concern as they make these systems vulnerable. Some spoofing attacks like Replay attacks are easier to implement but are very hard to detect thus creating the need for suitable countermeasures. In this paper, we propose a speech classifier based on deep-convolutional neural network to detect spoofing attacks. Our proposed methodology uses acoustic time-frequency representation of power spectral densities on Mel frequency scale (Mel-spectrogram), via deep residual learning (an adaptation of ResNet-34 architecture). Using a single model system, we have achieved an equal error rate (EER) of 0.9056% on the development and 5.32% on the evaluation dataset of logical access scenario and an equal error rate (EER) of 5.87% on the development and 5.74% on the evaluation dataset of physical access scenario of ASVspoof 2019.
翻訳日:2022-11-01 12:12:45 公開日:2020-08-08
# 人物再識別のための階層的双方向特徴知覚ネットワーク

Hierarchical Bi-Directional Feature Perception Network for Person Re-Identification ( http://arxiv.org/abs/2008.03509v1 )

ライセンス: Link先を確認
Zhipu Liu, Lei Zhang, Yang Yang(参考訳) 以前の人物再同定(Re-ID)モデルは、画像の最も識別性の高い領域に焦点を当てることを目的としており、その領域がカメラ視点の変化や閉塞によって欠落している場合には、その性能が損なわれる可能性がある。 この問題を解決するために,階層型双方向特徴知覚ネットワーク (HBFP-Net) という新しいモデルを提案する。 まず、クロスレベル特徴対の相関マップを低ランク双線形プールを用いてモデル化する。 そして、相関マップに基づいて、双方向特徴知覚(BFP)モジュールを用いて、高レベルの特徴の注目領域を強化し、低レベルの特徴の抽象的・特定的な情報を学習する。 そこで我々は,多層化機能を統合し,低層化機能と中層化機能を付加した新しいエンドツーエンド階層型ネットワークを提案する。 さらに,機能マップ内のすべての位置の任意の値を動的に選択可能な,トレーニング可能な一般化プールを提案する。 市場-1501, CUHK03, DukeMTMC-ReID などの主要な評価データセット上で実施した大規模な実験により, 提案手法が最近のSOTA Re-IDモデルより優れていることが示された。

Previous Person Re-Identification (Re-ID) models aim to focus on the most discriminative region of an image, while its performance may be compromised when that region is missing caused by camera viewpoint changes or occlusion. To solve this issue, we propose a novel model named Hierarchical Bi-directional Feature Perception Network (HBFP-Net) to correlate multi-level information and reinforce each other. First, the correlation maps of cross-level feature-pairs are modeled via low-rank bilinear pooling. Then, based on the correlation maps, Bi-directional Feature Perception (BFP) module is employed to enrich the attention regions of high-level feature, and to learn abstract and specific information in low-level feature. And then, we propose a novel end-to-end hierarchical network which integrates multi-level augmented features and inputs the augmented low- and middle-level features to following layers to retrain a new powerful network. What's more, we propose a novel trainable generalized pooling, which can dynamically select any value of all locations in feature maps to be activated. Extensive experiments implemented on the mainstream evaluation datasets including Market-1501, CUHK03 and DukeMTMC-ReID show that our method outperforms the recent SOTA Re-ID models.
翻訳日:2022-11-01 12:06:26 公開日:2020-08-08
# 整流iou損失を有する単発2段検出器

Single-Shot Two-Pronged Detector with Rectified IoU Loss ( http://arxiv.org/abs/2008.03511v1 )

ライセンス: Link先を確認
Keyang Wang and Lei Zhang(参考訳) CNNベースのオブジェクト検出器では、オブジェクトインスタンス間のスケール変動の問題を軽減するために、特徴ピラミッドが広く利用されている。 これらの物体検出器は、上向きの経路と横方向の接続によって特徴を強化し、主に低レベルの特徴のセマンティック情報を強化するが、高レベルの特徴の強化は無視する。 これにより、異なるレベルの機能間の不均衡、特にハイレベルな機能における詳細な情報不足が引き起こされ、正確なバウンディングボックスを得るのが困難になる。 本稿では,低レベル特徴のセマンティック情報と高レベル特徴の詳細な情報とを同時に強化し,下位方向と前方方向の両方の異なる層間の関係を探索する,新しい2段階のトランスダクティブ・アイデアを提案する。 提案手法では,高次特徴量と低次特徴量との双方向転送を実現するための2段階ネットワーク(TPNet)を提案する。 さらに, 単段検出器における硬質試料と簡易試料の分布の不均衡から, 局在損失の勾配は常に位置推定精度の低い硬質試料に支配されている。 これにより、モデルがハードサンプルに偏るようになる。 そこで,我々のTPNetでは,適応IoUに基づく局所化損失であるRectified IoU(RIoU)損失が,各試料の勾配を補正するために提案されている。 定性IoU損失は、高IoUの例の勾配を増大させ、低IoUの例の勾配を抑え、モデル全体の局所化精度を向上させる。 TPNetとRIoU損失の優位性を示す大規模な実験を行った。

In the CNN based object detectors, feature pyramids are widely exploited to alleviate the problem of scale variation across object instances. These object detectors, which strengthen features via a top-down pathway and lateral connections, are mainly to enrich the semantic information of low-level features, but ignore the enhancement of high-level features. This can lead to an imbalance between different levels of features, in particular a serious lack of detailed information in the high-level features, which makes it difficult to get accurate bounding boxes. In this paper, we introduce a novel two-pronged transductive idea to explore the relationship among different layers in both backward and forward directions, which can enrich the semantic information of low-level features and detailed information of high-level features at the same time. Under the guidance of the two-pronged idea, we propose a Two-Pronged Network (TPNet) to achieve bidirectional transfer between high-level features and low-level features, which is useful for accurately detecting object at different scales. Furthermore, due to the distribution imbalance between the hard and easy samples in single-stage detectors, the gradient of localization loss is always dominated by the hard examples that have poor localization accuracy. This will enable the model to be biased toward the hard samples. So in our TPNet, an adaptive IoU based localization loss, named Rectified IoU (RIoU) loss, is proposed to rectify the gradients of each kind of samples. The Rectified IoU loss increases the gradients of examples with high IoU while suppressing the gradients of examples with low IoU, which can improve the overall localization accuracy of model. Extensive experiments demonstrate the superiority of our TPNet and RIoU loss.
翻訳日:2022-11-01 12:06:01 公開日:2020-08-08
# アンカーのない硬質負サンプル強調トラッカー

Hard Negative Samples Emphasis Tracker without Anchors ( http://arxiv.org/abs/2008.03512v1 )

ライセンス: Link先を確認
Zhongzhou Zhang, Lei Zhang(参考訳) siamese networkをベースとするトラッカーは、精度とスピードのバランスから、大きな成功を収めている。 それでも、トラッキングシナリオがより洗練されていくにつれて、既存のシームズベースのアプローチは、追跡フェーズのハードネガティブなサンプルとトラッカーターゲットを区別する問題の解決を無視している。 これらのネットワークで学んだ特徴は差別の欠如であり、これはシームズベースのトラッカーの堅牢性を著しく弱め、準最適性能をもたらす。 この問題に対処するため,提案手法は単純かつ効率的なハード・ネガティブ・サンプル強調法であり,ハード・ネガティブ・サンプルを意識した特徴を学習し,埋め込み機能の識別性を高める。 距離制約により, 外部ベクトルと正ベクトルとの間の距離を短くする一方で, 外部ベクトルと硬負ベクトルとの間の距離を縮めることを強制する。 さらに,新たなアンカーフリートラッキングフレームワークを画素単位の予測方式で検討し,畳み込みニューラルネットワークの表現を最大限に活用することにより,ハイパーパラメータの数を大幅に削減し,追跡プロセスを簡素化する。 6つの標準ベンチマークデータセットに関する広範囲な実験は、提案手法が最先端のアプローチに対して良好な結果をもたらすことを証明している。

Trackers based on Siamese network have shown tremendous success, because of their balance between accuracy and speed. Nevertheless, with tracking scenarios becoming more and more sophisticated, most existing Siamese-based approaches ignore the addressing of the problem that distinguishes the tracking target from hard negative samples in the tracking phase. The features learned by these networks lack of discrimination, which significantly weakens the robustness of Siamese-based trackers and leads to suboptimal performance. To address this issue, we propose a simple yet efficient hard negative samples emphasis method, which constrains Siamese network to learn features that are aware of hard negative samples and enhance the discrimination of embedding features. Through a distance constraint, we force to shorten the distance between exemplar vector and positive vectors, meanwhile, enlarge the distance between exemplar vector and hard negative vectors. Furthermore, we explore a novel anchor-free tracking framework in a per-pixel prediction fashion, which can significantly reduce the number of hyper-parameters and simplify the tracking process by taking full advantage of the representation of convolutional neural network. Extensive experiments on six standard benchmark datasets demonstrate that the proposed method can perform favorable results against state-of-the-art approaches.
翻訳日:2022-11-01 12:05:31 公開日:2020-08-08
# nasb:バイナリ畳み込みニューラルネットワークのためのニューラルネットワーク探索

NASB: Neural Architecture Search for Binary Convolutional Neural Networks ( http://arxiv.org/abs/2008.03515v1 )

ライセンス: Link先を確認
Baozhou Zhu, Zaid Al-Ars, Peter Hofstee(参考訳) バイナリ畳み込みニューラルネットワーク(CNN)は、算術演算の数とCNNに必要なメモリストレージのサイズを大幅に削減し、モバイルや組み込みシステムへのデプロイメントをより実現した。 しかし、バイナリ化後のcnnアーキテクチャは、2つの理由により大幅に再設計され、洗練される必要がある。 一 前方伝播における二項化の大規模な累積誤差及び 2. 後方伝播における二項化の重度勾配ミスマッチ問題 単一および複数のバイナリCNNのアーキテクチャ設計に多大な労力が費やされているが、バイナリCNNに最適なアーキテクチャを見つけることは依然として困難である。 本稿では,ニューラルネットワーク探索(NAS)を採用したNASBという戦略を提案し,CNNのバイナライゼーションに最適なアーキテクチャを提案する。 この自動戦略の柔軟性のため、得られたアーキテクチャは双対化に適合するだけでなく、オーバーヘッドも低く、手動最適化されたバイナリCNNの精度と計算複雑性のトレードオフが良くなる。 NASB戦略の実装はImageNetデータセット上で評価され、既存の量子化されたCNNよりも優れたソリューションとして実証された。 オーバーヘッドの増加に伴い、nasbは既存のシングルとマルチバイナリのcnnをそれぞれ4.0%と1.0%のtop-1精度で上回り、完全精度のcnnの精度に近づいている。 コードと事前訓練されたモデルは一般公開される。

Binary Convolutional Neural Networks (CNNs) have significantly reduced the number of arithmetic operations and the size of memory storage needed for CNNs, which makes their deployment on mobile and embedded systems more feasible. However, the CNN architecture after binarizing requires to be redesigned and refined significantly due to two reasons: 1. the large accumulation error of binarization in the forward propagation, and 2. the severe gradient mismatch problem of binarization in the backward propagation. Even though the substantial effort has been invested in designing architectures for single and multiple binary CNNs, it is still difficult to find an optimal architecture for binary CNNs. In this paper, we propose a strategy, named NASB, which adopts Neural Architecture Search (NAS) to find an optimal architecture for the binarization of CNNs. Due to the flexibility of this automated strategy, the obtained architecture is not only suitable for binarization but also has low overhead, achieving a better trade-off between the accuracy and computational complexity of hand-optimized binary CNNs. The implementation of NASB strategy is evaluated on the ImageNet dataset and demonstrated as a better solution compared to existing quantized CNNs. With the insignificant overhead increase, NASB outperforms existing single and multiple binary CNNs by up to 4.0% and 1.0% Top-1 accuracy respectively, bringing them closer to the precision of their full precision counterpart. The code and pretrained models will be publicly available.
翻訳日:2022-11-01 12:05:10 公開日:2020-08-08
# 病理組織像の分類と検索のためのプロジェクションの局所的断面形成

Forming Local Intersections of Projections for Classifying and Searching Histopathology Images ( http://arxiv.org/abs/2008.03553v1 )

ライセンス: Link先を確認
Aditya Sriram, Shivam Kalra, Morteza Babaie, Brady Kieffer, Waddah Al Drobi, Shahryar Rahnamayan, Hany Kashani, Hamid R. Tizhoosh(参考訳) 本稿では,病理組織像を表現するために,FLIP (Forming Local Intersections of Projections) と呼ばれる新しい画像記述器と,そのマルチレゾリューションバージョン (mFLIP) を提案する。 記述子はラドン変換に基づいており、灰色の画像の小さな局所的近傍に平行射影を適用する。 各ウィンドウにおける同次射影方向を用いて,隣接射影の交叉を利用して近傍の特異および不変特性を抽出する。 その後,各画像に対してヒストグラムを作成し,それをフリップヒストグラムと呼ぶ。 様々な解像度が異なるFLIPヒストグラムを提供し、それを結合してmFLIP記述子を形成する。 実験では、スクラッチから共通ネットワークをトレーニングし、提案した記述子をベンチマークするためにトレーニング済みのネットワークを微調整しました。 公開データセットKIMIA Path24とKIMIA Path960で実験が行われた。 KIMIA Path24データを用いて、FLIPは非微調整のインセプション-v3と微調整のVGG16とmFLIPは機能抽出の微調整のインセプション-v3より優れていた。

In this paper, we propose a novel image descriptor called Forming Local Intersections of Projections (FLIP) and its multi-resolution version (mFLIP) for representing histopathology images. The descriptor is based on the Radon transform wherein we apply parallel projections in small local neighborhoods of gray-level images. Using equidistant projection directions in each window, we extract unique and invariant characteristics of the neighborhood by taking the intersection of adjacent projections. Thereafter, we construct a histogram for each image, which we call the FLIP histogram. Various resolutions provide different FLIP histograms which are then concatenated to form the mFLIP descriptor. Our experiments included training common networks from scratch and fine-tuning pre-trained networks to benchmark our proposed descriptor. Experiments are conducted on the publicly available dataset KIMIA Path24 and KIMIA Path960. For both of these datasets, FLIP and mFLIP descriptors show promising results in all experiments.Using KIMIA Path24 data, FLIP outperformed non-fine-tuned Inception-v3 and fine-tuned VGG16 and mFLIP outperformed fine-tuned Inception-v3 in feature extracting.
翻訳日:2022-11-01 12:04:07 公開日:2020-08-08
# 自己スーパービジョンによるシーングラフ生成支援

Assisting Scene Graph Generation with Self-Supervision ( http://arxiv.org/abs/2008.03555v1 )

ライセンス: Link先を確認
Sandeep Inuganti, Vineeth N Balasubramanian(参考訳) シーングラフ生成の研究は、視覚質問応答や画像キャプションといった下流タスクに役立つ可能性があるため、ここ数年で急速に注目を集めている。 この問題に取り組むために多くの興味深いアプローチが提案されている。 これらの作品のほとんどは予備的特徴抽出器として事前学習された物体検出モデルを持っている。 したがって、オブジェクト検出モデルからオブジェクト境界ボックスの提案を得るのは比較的安価である。 我々は、事前訓練された検出器によって生成されたバウンディングボックスアノテーションを利用できるようにしている。 本稿では,3つの新しい自己スーパービジョンタスクのセットを提案し,それらをメインモデルへの補助的マルチタスクとして訓練する。 比較しながら、これらのセルフスーパービジョンタスクでベースモデルをスクラッチからトレーニングし、すべてのメトリクスとリコール設定で最先端の結果を達成する。 また,提案する自己スーパービジョン損失をモデルに訓練することで,幾何学的関係と所有的関係の混同を解消する。 ベンチマークデータセットであるVisual Genomeを使って実験を行い、その結果を示します。

Research in scene graph generation has quickly gained traction in the past few years because of its potential to help in downstream tasks like visual question answering, image captioning, etc. Many interesting approaches have been proposed to tackle this problem. Most of these works have a pre-trained object detection model as a preliminary feature extractor. Therefore, getting object bounding box proposals from the object detection model is relatively cheaper. We take advantage of this ready availability of bounding box annotations produced by the pre-trained detector. We propose a set of three novel yet simple self-supervision tasks and train them as auxiliary multi-tasks to the main model. While comparing, we train the base-model from scratch with these self-supervision tasks, we achieve state-of-the-art results in all the metrics and recall settings. We also resolve some of the confusion between two types of relationships: geometric and possessive, by training the model with the proposed self-supervision losses. We use the benchmark dataset, Visual Genome to conduct our experiments and show our results.
翻訳日:2022-11-01 12:03:43 公開日:2020-08-08
# クロスモーダルセンター損失

Cross-modal Center Loss ( http://arxiv.org/abs/2008.03561v1 )

ライセンス: Link先を確認
Longlong Jing and Elahe Vahdani and Jiaxing Tan and Yingli Tian(参考訳) クロスモーダル検索は、異なるモーダルからデータに対する識別的およびモーダル不変の特徴を学習することを目的としている。 本稿では,オフラインネットワークで抽出される特徴から通常学習する既存の手法と異なり,クロスモーダル検索フレームワークのコンポーネントとメタデータを共同で学習し,ネットワークが最適な特徴を見つけるための手法を提案する。 提案するエンドツーエンドフレームワークは、3つの損失関数で更新される。 1) クロスモーダル不一致を解消するための新しいクロスモーダルセンターロス 2)クラス間変動を最大化するクロスエントロピー損失及び 3) モダリティ変動を低減させる平均2乗誤差損失。 特に,提案するクロスモーダルセンタロスは,同一クラスに属するオブジェクトとすべてのモダリティの間の特徴距離を最小化する。 2d画像,3dポイントクラウド,メッシュデータなど,複数モードにわたる検索タスクに関する広範な実験が行われている。 提案するフレームワークは,ModelNet40データセットの最先端メソッドを著しく上回っている。

Cross-modal retrieval aims to learn discriminative and modal-invariant features for data from different modalities. Unlike the existing methods which usually learn from the features extracted by offline networks, in this paper, we propose an approach to jointly train the components of cross-modal retrieval framework with metadata, and enable the network to find optimal features. The proposed end-to-end framework is updated with three loss functions: 1) a novel cross-modal center loss to eliminate cross-modal discrepancy, 2) cross-entropy loss to maximize inter-class variations, and 3) mean-square-error loss to reduce modality variations. In particular, our proposed cross-modal center loss minimizes the distances of features from objects belonging to the same class across all modalities. Extensive experiments have been conducted on the retrieval tasks across multi-modalities, including 2D image, 3D point cloud, and mesh data. The proposed framework significantly outperforms the state-of-the-art methods on the ModelNet40 dataset.
翻訳日:2022-11-01 12:03:29 公開日:2020-08-08
# 非相反的模倣学習とその相反的方法との関連

Non-Adversarial Imitation Learning and its Connections to Adversarial Methods ( http://arxiv.org/abs/2008.03525v1 )

ライセンス: Link先を確認
Oleg Arenz and Gerhard Neumann(参考訳) GAIL や AIRL のような現代の模倣学習や逆強化学習の手法の多くは、対角的定式化に基づいている。 これらの方法は、エージェントのポリシーによって引き起こされる暗黙の状態-行動分布と、状態と行動に対する専門家の分布とを一致させる。 しかし、模倣学習をサドルポイント問題としてフレーミングすることで、敵対的手法は不安定な最適化に苦しむことができ、小さなポリシー更新でのみ収束を示すことができる。 本研究では,非対人模倣学習のための枠組みを提案する。 得られたアルゴリズムは、敵のアルゴリズムと似ているため、敵の模倣学習方法に対する洞察を提供する。 最も注目すべきは、airl が我々の非敵対的定式化の例であることを示し、それによってその導出を劇的に単純化し、より強い収束保証を得ることができる。 また,近年のValueDiceアルゴリズムにインスパイアされたオフラインの模倣学習手法を提示することで,新たなアルゴリズムの導出に利用することができるが,収束のための小さなポリシー更新には依存していないことを示す。 シミュレーションロボット実験では,非敵対的模倣学習のオフライン手法は,反復毎に多数の方針や判別器の更新を行い,行動のクローン化や価値評価よりも優れていた。

Many modern methods for imitation learning and inverse reinforcement learning, such as GAIL or AIRL, are based on an adversarial formulation. These methods apply GANs to match the expert's distribution over states and actions with the implicit state-action distribution induced by the agent's policy. However, by framing imitation learning as a saddle point problem, adversarial methods can suffer from unstable optimization, and convergence can only be shown for small policy updates. We address these problems by proposing a framework for non-adversarial imitation learning. The resulting algorithms are similar to their adversarial counterparts and, thus, provide insights for adversarial imitation learning methods. Most notably, we show that AIRL is an instance of our non-adversarial formulation, which enables us to greatly simplify its derivations and obtain stronger convergence guarantees. We also show that our non-adversarial formulation can be used to derive novel algorithms by presenting a method for offline imitation learning that is inspired by the recent ValueDice algorithm, but does not rely on small policy updates for convergence. In our simulated robot experiments, our offline method for non-adversarial imitation learning seems to perform best when using many updates for policy and discriminator at each iteration and outperforms behavioral cloning and ValueDice.
翻訳日:2022-11-01 11:57:20 公開日:2020-08-08
# 対話状態トラッカをポイントまたは生成する

Point or Generate Dialogue State Tracker ( http://arxiv.org/abs/2008.03417v1 )

ライセンス: Link先を確認
Song Xiaohui and Hu Songlin(参考訳) 対話状態追跡はタスク指向対話システムの重要な部分であり、対話の各ターンにおけるユーザの目標を推定する。 本稿では,POGD(Point-Or-Generate Dialogue State Tracker)を提案する。 POGDは対話状態追跡タスクを2つの視点で解決する。 1)ユーザの発話から明示的に表現されたスロット値を指摘し、 2)スロット固有のコンテキストに基づいて暗黙的に表現されたものを生成する。 また、すべてのスロットにまたがるパラメータを共有し、知識共有を実現し、大規模なドメイン間対話に拡張性をもたらす。 さらに、そのサブモジュールのトレーニングプロセスは、その一般化能力をさらに促進するためのマルチタスク学習手順として定式化されている。 実験によると、POGDはWoZ 2.0とMultiWoZ 2.0の両方のデータセットで最先端の結果を得るだけでなく、目に見えない値と新しいスロットをうまく一般化している。

Dialogue state tracking is a key part of a task-oriented dialogue system, which estimates the user's goal at each turn of the dialogue. In this paper, we propose the Point-Or-Generate Dialogue State Tracker (POGD). POGD solves the dialogue state tracking task in two perspectives: 1) point out explicitly expressed slot values from the user's utterance, and 2) generate implicitly expressed ones based on slot-specific contexts. It also shares parameters across all slots, which achieves knowledge sharing and gains scalability to large-scale across-domain dialogues. Moreover, the training process of its submodules is formulated as a multi-task learning procedure to further promote its capability of generalization. Experiments show that POGD not only obtains state-of-the-art results on both WoZ 2.0 and MultiWoZ 2.0 datasets but also has good generalization on unseen values and new slots.
翻訳日:2022-11-01 11:56:57 公開日:2020-08-08
# 分割前の航空空間予約と戦略的非紛争のためのスケーラブルなfastmdp

Scalable FastMDP for Pre-departure Airspace Reservation and Strategic De-conflict ( http://arxiv.org/abs/2008.03518v1 )

ライセンス: Link先を確認
Joshua R Bertram, Peng Wei, Joseph Zambreno(参考訳) アーバン・エアモビリティ(UAM)と貨物輸送ドローンの事前出発予定は、大量の航空機をオンデマンドでスケジュールする必要がある。 fastmdp というアルゴリズムのスケーラビリティについて検討し,高密な空域環境における数十機の航空機の衝突の回避に有効であることを示した。 このアルゴリズムは, オンデマンドでコンフリクトフリーな飛行計画が生成されるような, 先着順の飛行計画スケジューリングに適応できることを示す。 我々は,FastMDP-GPUと呼ぶグラフィクスプロセッサユニット(GPU)上で,アルゴリズムの並列実装を実演し,実現可能な性能とスケーリングのレベルを示す。 その結果,コモディティGPUハードウェアでは,2000~3000の既知のフライトプランに対してフライトプランスケジューリングを行うことができ,サーバクラスのハードウェアでは性能が向上することが示された。 この結果から,集中型・分散型飛行計画システムに適したオンデマンド飛行スケジューリングが可能な大規模UAMスケジューラの実現が期待できると考えられる。

Pre-departure flight plan scheduling for Urban Air Mobility (UAM) and cargo delivery drones will require on-demand scheduling of large numbers of aircraft. We examine the scalability of an algorithm known as FastMDP which was shown to perform well in deconflicting many dozens of aircraft in a dense airspace environment with terrain. We show that the algorithm can adapted to perform first-come-first-served pre-departure flight plan scheduling where conflict free flight plans are generated on demand. We demonstrate a parallelized implementation of the algorithm on a Graphics Processor Unit (GPU) which we term FastMDP-GPU and show the level of performance and scaling that can be achieved. Our results show that on commodity GPU hardware we can perform flight plan scheduling against 2000-3000 known flight plans and with server-class hardware the performance can be higher. We believe the results show promise for implementing a large scale UAM scheduler capable of performing on-demand flight scheduling that would be suitable for both a centralized or distributed flight planning system
翻訳日:2022-11-01 11:56:02 公開日:2020-08-08
# 自動DNNモデルのためのGPUの空間共有

Spatial Sharing of GPU for Autotuning DNN models ( http://arxiv.org/abs/2008.03602v1 )

ライセンス: Link先を確認
Aditya Dhakal, Junguk Cho, Sameer G. Kulkarni, K. K. Ramakrishnan, Puneet Sharma(参考訳) GPUは、機械学習モデルのトレーニング、推論、チューニングに使用される。 しかし、Deep Neural Network(DNN)は、高性能GPUのフルパワーを活用する能力において、様々な点で異なる。 GPUの空間的共有により、GPU上の複数のDNNの多重化が可能になり、GPU使用率を改善し、スループットを改善し、レイテンシを低減できる。 適切な量のGPUリソースを与えられたDNNモデルは、推論タスクにすべてのGPUを注力するのと同じように、低推論レイテンシを提供することができる。 DNN推論を改善するアプローチとして、DNNモデルのチューニングがある。 自動チューニングフレームワークは、トレーニングされた機械学習モデルに基づいて、特定のターゲットデバイスに対して最適な低レベル実装を見つけることで、DNNの推論レイテンシを低減し、推論スループットを向上する。 チューニングモデルと推論遅延の相互依存性を観察する。 特定のGPUリソースに合わせて調整されたDNNモデルは、同じ量のGPUリソースで推論された場合、最高の推論レイテンシを提供する。 GPUリソースの最大量に合わせて調整されたモデルでは、推論のためにGPUリソースが制限されると、推論レイテンシが低下する。 一方、適切な量のGPUリソースをチューニングしたモデルでは、幅広いGPUリソースの可用性に優れた推論レイテンシが達成されている。 私たちは、異なる量のgpuリソースでモデルのチューニングに影響を与える原因を調べます。 資源利用を最大化し、チューニング性能を向上させるための多くの技術を提案する。 制御されたGPU空間共有により、GPU上の複数のチューニングアプリケーションを多重化することができる。 チューニングサーバインスタンスをスケールし、複数のクライアントインスタンスにまたがってチューニングモデルをシャーディングし、モデルの異なる演算子の同時チューニングを可能にします。 改善により、DNNのオートチューニング時間を最大75%削減し、スループットを5.5%向上させました。

GPUs are used for training, inference, and tuning the machine learning models. However, Deep Neural Network (DNN) vary widely in their ability to exploit the full power of high-performance GPUs. Spatial sharing of GPU enables multiplexing several DNNs on the GPU and can improve GPU utilization, thus improving throughput and lowering latency. DNN models given just the right amount of GPU resources can still provide low inference latency, just as much as dedicating all of the GPU for their inference task. An approach to improve DNN inference is tuning of the DNN model. Autotuning frameworks find the optimal low-level implementation for a certain target device based on the trained machine learning model, thus reducing the DNN's inference latency and increasing inference throughput. We observe an interdependency between the tuned model and its inference latency. A DNN model tuned with specific GPU resources provides the best inference latency when inferred with close to the same amount of GPU resources. While a model tuned with the maximum amount of the GPU's resources has poorer inference latency once the GPU resources are limited for inference. On the other hand, a model tuned with an appropriate amount of GPU resources still achieves good inference latency across a wide range of GPU resource availability. We explore the causes that impact the tuning of a model at different amounts of GPU resources. We present many techniques to maximize resource utilization and improve tuning performance. We enable controlled spatial sharing of GPU to multiplex several tuning applications on the GPU. We scale the tuning server instances and shard the tuning model across multiple client instances for concurrent tuning of different operators of a model, achieving better GPU multiplexing. With our improvements, we decrease DNN autotuning time by up to 75 percent and increase throughput by a factor of 5.
翻訳日:2022-11-01 11:55:44 公開日:2020-08-08
# ロングテール認識のためのメタ特徴変調器

Meta Feature Modulator for Long-tailed Recognition ( http://arxiv.org/abs/2008.03428v1 )

ライセンス: Link先を確認
Renzhen Wang, Kaiqin Hu, Yanwen Zhu, Jun Shu, Qian Zhao, Deyu Meng(参考訳) 深層ニューラルネットワークは、トレーニングデータがクラス不均衡の問題に苦しむ場合、しばしば著しく低下する。 既存のアプローチ、例えば再サンプリングと再重み付けは、暗黙のバランスの取れたラベル分布に適したネットワークをトレーニングするためにトレーニングデータのラベル分布を再構成することでこの問題に対処する。 しかし,そのほとんどは,トレーニングデータのサンプル内情報の利用が不十分なため,学習機能の代表的な能力を妨げる。 そこで本研究では,ロングテールトレーニングデータとバランスの取れたメタデータとの差を,表現学習の観点からモデル化するメタ学習フレームワークであるメタ特徴変調器(mfm)を提案する。 具体的には、学習可能なハイパーパラメータ(ダビング変調パラメータ)を用いて分類ネットワークの中間特性を適応的に拡張・シフトし、少量のバランスの取れたメタデータによって導かれた分類ネットワークパラメータとともに変調パラメータを最適化する。 さらに、変調パラメータの生成を誘導する変調器ネットワークを設計でき、このようなメタリーナーを、他のロングテールデータセット上で分類ネットワークを訓練するために容易に適用することができる。 ベンチマークビジョンデータセットに関する大規模な実験は、我々のアプローチが他の最先端の手法よりも長い尾の認識タスクに優れていることを裏付けるものである。

Deep neural networks often degrade significantly when training data suffer from class imbalance problems. Existing approaches, e.g., re-sampling and re-weighting, commonly address this issue by rearranging the label distribution of training data to train the networks fitting well to the implicit balanced label distribution. However, most of them hinder the representative ability of learned features due to insufficient use of intra/inter-sample information of training data. To address this issue, we propose meta feature modulator (MFM), a meta-learning framework to model the difference between the long-tailed training data and the balanced meta data from the perspective of representation learning. Concretely, we employ learnable hyper-parameters (dubbed modulation parameters) to adaptively scale and shift the intermediate features of classification networks, and the modulation parameters are optimized together with the classification network parameters guided by a small amount of balanced meta data. We further design a modulator network to guide the generation of the modulation parameters, and such a meta-learner can be readily adapted to train the classification network on other long-tailed datasets. Extensive experiments on benchmark vision datasets substantiate the superiority of our approach on long-tailed recognition tasks beyond other state-of-the-art methods.
翻訳日:2022-11-01 11:54:53 公開日:2020-08-08
# PAN: 外観の学習による高速な行動認識を目指して

PAN: Towards Fast Action Recognition via Learning Persistence of Appearance ( http://arxiv.org/abs/2008.03462v1 )

ライセンス: Link先を確認
Can Zhang, Yuexian Zou, Guang Chen, Lei Gan(参考訳) 映像中の動的動作情報を効率的にモデル化することは行動認識タスクに不可欠である。 最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。 光フローとRGBフレームを入力として組み合わせることで、優れた認識性能が得られるが、光学フロー抽出は非常に時間がかかる。 これは間違いなくリアルタイムのアクション認識に逆らうだろう。 本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。 私たちのモチベーションは、動作境界の小さな変位が行動の識別に最も重要な要素であるという観察にあるため、外観の永続性(pa)と呼ばれる新しい動きの手がかりをデザインする。 光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。 また、全ての可能な動きベクトルの徹底的なパッチワイズ探索を使用する代わりに、特徴空間のピクセル毎の差だけを蓄積することで、より効率的である。 我々のPAは、モーションモデリング速度の点で従来の光学フローよりも1000倍高速(8196fps vs. 8fps)である。 PAの短期的ダイナミクスを長期的ダイナミクスにさらに集約するために、様々な時間スケールにわたる長距離時間関係を適応的にモデル化できる、様々な時間スケール集約プール(VAP)と呼ばれるグローバル時間融合戦略を考案する。 提案するPAとVAPを統合して,強力な時間的モデリング能力を備えた Persistent Appearance Network (PAN) という統合フレームワークを構築した。 6つの挑戦的行動認識ベンチマークに関する広範囲な実験は、我々のpanが最新の最先端手法を低フラップで上回っていることを検証している。 コードとモデルは、https://github.com/zhang-can/PAN-PyTorch.comで入手できる。

Efficiently modeling dynamic motion information in videos is crucial for action recognition task. Most state-of-the-art methods heavily rely on dense optical flow as motion representation. Although combining optical flow with RGB frames as input can achieve excellent recognition performance, the optical flow extraction is very time-consuming. This undoubtably will count against real-time action recognition. In this paper, we shed light on fast action recognition by lifting the reliance on optical flow. Our motivation lies in the observation that small displacements of motion boundaries are the most critical ingredients for distinguishing actions, so we design a novel motion cue called Persistence of Appearance (PA). In contrast to optical flow, our PA focuses more on distilling the motion information at boundaries. Also, it is more efficient by only accumulating pixel-wise differences in feature space, instead of using exhaustive patch-wise search of all the possible motion vectors. Our PA is over 1000x faster (8196fps vs. 8fps) than conventional optical flow in terms of motion modeling speed. To further aggregate the short-term dynamics in PA to long-term dynamics, we also devise a global temporal fusion strategy called Various-timescale Aggregation Pooling (VAP) that can adaptively model long-range temporal relationships across various timescales. We finally incorporate the proposed PA and VAP to form a unified framework called Persistent Appearance Network (PAN) with strong temporal modeling ability. Extensive experiments on six challenging action recognition benchmarks verify that our PAN outperforms recent state-of-the-art methods at low FLOPs. Codes and models are available at: https://github.com/zhang-can/PAN-PyTorch.
翻訳日:2022-11-01 11:54:32 公開日:2020-08-08
# 一般化群空間の誤差境界

Error Bounds for Generalized Group Sparsity ( http://arxiv.org/abs/2008.04734v1 )

ライセンス: Link先を確認
Xinyu Zhang(参考訳) 高次元統計的推測では、空間正規化は係数推定の一貫性と収束率の利点を示している。 本稿では,Sparse-Group Lassoの一般化バージョンについて考察する。 二重空間正規化の異なる形式に対する一貫性と収束率の結果が得られることが証明された1つの普遍定理を述べる。 結果の普遍性は、LASSO や群 LASSO のような単一正則化の場合やスパース群 LASSO のような二重正則化の場合の様々な収束率の一般化にある。 本解析では,二元スパルシティ正規化の双対定式化を提供する,$\epsilon$-norm の一般化ノルムを同定する。

In high-dimensional statistical inference, sparsity regularizations have shown advantages in consistency and convergence rates for coefficient estimation. We consider a generalized version of Sparse-Group Lasso which captures both element-wise sparsity and group-wise sparsity simultaneously. We state one universal theorem which is proved to obtain results on consistency and convergence rates for different forms of double sparsity regularization. The universality of the results lies in an generalization of various convergence rates for single regularization cases such as LASSO and group LASSO and also double regularization cases such as sparse-group LASSO. Our analysis identifies a generalized norm of $\epsilon$-norm, which provides a dual formulation for our double sparsity regularization.
翻訳日:2022-11-01 11:48:04 公開日:2020-08-08
# unet と pspnet を用いた cnn パラメータの再利用可能性原理の検討

Using UNet and PSPNet to explore the reusability principle of CNN parameters ( http://arxiv.org/abs/2008.03414v1 )

ライセンス: Link先を確認
Wei Wang(参考訳) データセットサイズをトレーニングする際の要件の削減は、ディープラーニングコミュニティでホットなトピックだ。 簡単な方法は、事前訓練されたパラメータを再利用することだ。 例えば、Deep Transfer Learningは、第1タスクのためにトレーニングされたモデルパラメータを第2タスクの開始点として再利用し、ラベル付きデータとラベルなしデータの組み合わせに基づいてセミ教師付き学習をトレーニングする。 しかし、これらの手法が成功した根本的な理由は不明である。 本稿では,ディープ畳み込みニューラルネットワークの各層におけるパラメータの再利用性を,セグメンテーションと自動エンコーダタスクを行うネットワークを用いて実験的に定量化する。 本稿では,ネットワークパラメータの再利用が2つの理由として,ネットワークの特徴が一般化されていること,事前学習したパラメータと理想的なネットワークパラメータとの差がほとんどないことを示す。 パラメータ置換と比較により,bn(batch normalization)[7]層と畳み込み層では再利用性が異なること,およびいくつかの観察結果を示す。 (2)重量とバイアスはbn層で再利用できる。 ( 3)ネットワークは畳み込み層の重みに非常に敏感である。 (4) 畳み込み層のバイアスは敏感ではなく、直接再利用することができる。

How to reduce the requirement on training dataset size is a hot topic in deep learning community. One straightforward way is to reuse some pre-trained parameters. Some previous work like Deep transfer learning reuse the model parameters trained for the first task as the starting point for the second task, and semi-supervised learning is trained upon a combination of labeled and unlabeled data. However, the fundamental reason of the success of these methods is unclear. In this paper, the reusability of parameters in each layer of a deep convolutional neural network is experimentally quantified by using a network to do segmentation and auto-encoder task. This paper proves that network parameters can be reused for two reasons: first, the network features are general; Second, there is little difference between the pre-trained parameters and the ideal network parameters. Through the use of parameter replacement and comparison, we demonstrate that reusability is different in BN(Batch Normalization)[7] layer and Convolution layer and some observations: (1)Running mean and running variance plays an important role than Weight and Bias in BN layer.(2)The weight and bias can be reused in BN layers.( 3) The network is very sensitive to the weight of convolutional layer.(4) The bias in Convolution layers are not sensitive, and it can be reused directly.
翻訳日:2022-11-01 11:47:00 公開日:2020-08-08
# マルチモーダル超音波による乳癌分類の自動強調

Auto-weighting for Breast Cancer Classification in Multimodal Ultrasound ( http://arxiv.org/abs/2008.03435v1 )

ライセンス: Link先を確認
Wang Jian, Miao Juzheng, Yang Xin, Li Rui, Zhou Guangquan, Huang Yuhao, Lin Zehui, Xue Wufeng, Jia Xiaohong, Zhou Jianqiao, Huang Ruobing, Ni Dong(参考訳) 乳癌は女性にとって最も一般的な浸潤癌である。 超音波検診では, 超音波検診に加え, ドプラ, ひずみ, せん断波弾性画像の併用も検討されている。 しかし,全ての画像に有用なパターンを認識し,各モダリティの意義を測ることによって,経験の浅い臨床医を損なう可能性がある。 本稿では, 良性乳房結節と悪性乳房結節を鑑別するために, 4種類の超音波像を自動的に組み合わせる方法について検討した。 分類精度を向上させるための学習可能性と単純さを約束する新しいマルチモーダルネットワークを提案する。 鍵となるのは、重み付け戦略を使用して、モダリティ間の相互作用を促進し、グローバル情報を統合するための追加のモダリティ目標を採用することだ。 モデル内の各モダリティの重み付けをハードコーディングするのとは対照的に、この重み付けをエンドツーエンドで学習するために強化学習フレームワークに組み込む。 したがって、モデルは手作りのヒューリスティックを使わずに最適なマルチモーダル結合を求めるように訓練される。 提案手法は1616組のマルチモーダル画像を含むデータセット上で評価される。 その結果,提案手法の有効性を示す95.4%の分類精度が得られた。

Breast cancer is the most common invasive cancer in women. Besides the primary B-mode ultrasound screening, sonographers have explored the inclusion of Doppler, strain and shear-wave elasticity imaging to advance the diagnosis. However, recognizing useful patterns in all types of images and weighing up the significance of each modality can elude less-experienced clinicians. In this paper, we explore, for the first time, an automatic way to combine the four types of ultrasonography to discriminate between benign and malignant breast nodules. A novel multimodal network is proposed, along with promising learnability and simplicity to improve classification accuracy. The key is using a weight-sharing strategy to encourage interactions between modalities and adopting an additional cross-modalities objective to integrate global information. In contrast to hardcoding the weights of each modality in the model, we embed it in a Reinforcement Learning framework to learn this weighting in an end-to-end manner. Thus the model is trained to seek the optimal multimodal combination without handcrafted heuristics. The proposed framework is evaluated on a dataset contains 1616 set of multimodal images. Results showed that the model scored a high classification accuracy of 95.4%, which indicates the efficiency of the proposed method.
翻訳日:2022-11-01 11:46:37 公開日:2020-08-08
# 重み付き線形投影による拡散マップによる次元化

Dimensionality Reduction via Diffusion Map Improved with Supervised Linear Projection ( http://arxiv.org/abs/2008.03440v1 )

ライセンス: Link先を確認
Bowen Jiang, Maohao Shen(参考訳) 分類タスクを行う場合、生の高次元特徴はしばしば冗長な情報を含み、計算の複雑さと過度に適合する。 本稿では,データサンプルが単一の滑らかな多様体上に存在し,ペアワイズ局所カーネル距離を用いてクラス内およびクラス間類似性を定義することを仮定する。 本研究では, クラス内類似度を最大化し, クラス間類似度を同時に最小化する線形射影を見出すことを目的として, 投影された低次元データはラベル情報に基づいてペアワイズ距離を最適化した。 いくつかのベンチマークデータセットの数値実験により,提案手法は高い分類精度を実現する上で有効な,低次元の識別特徴を抽出できることが示されている。

When performing classification tasks, raw high dimensional features often contain redundant information, and lead to increased computational complexity and overfitting. In this paper, we assume the data samples lie on a single underlying smooth manifold, and define intra-class and inter-class similarities using pairwise local kernel distances. We aim to find a linear projection to maximize the intra-class similarities and minimize the inter-class similarities simultaneously, so that the projected low dimensional data has optimized pairwise distances based on the label information, which is more suitable for a Diffusion Map to do further dimensionality reduction. Numerical experiments on several benchmark datasets show that our proposed approaches are able to extract low dimensional discriminate features that could help us achieve higher classification accuracy.
翻訳日:2022-11-01 11:46:17 公開日:2020-08-08
# コーシー畳み込みスパース符号化による表現学習

Representation Learning via Cauchy Convolutional Sparse Coding ( http://arxiv.org/abs/2008.03473v1 )

ライセンス: Link先を確認
Perla Mayo, Oktay Karaku\c{s}, Robin Holmes and Alin Achim(参考訳) 表現学習において、畳み込みスパース符号化(CSC)は、(\ell_2\)-ノルム忠実度項と、ペナルティを課すスパース性の両方を共同最適化することにより、特徴の教師なし学習を可能にする。 本研究は、csc生成モデルの特徴写像の係数に先立って仮定されたコーシーから導かれる正規化項を用いて検討する。 この前の空間的ペナルティ項は、その近位演算子によって解決され、特徴写像の係数に対して反復的に要素的に適用され、CSCコスト関数を最適化する。 自然画像の再構成におけるイテレーティブ・コーシー・スレッショニング(ICT)アルゴリズムの性能を,ソフト閾値とハード閾値で最適化した \(\ell_1\)-ノルムの共通選択と比較した。 ICTはIHT と IST よりも優れており、ISTA と IHT の上の平均PSNRは 11.30 と 7.04 である。

In representation learning, Convolutional Sparse Coding (CSC) enables unsupervised learning of features by jointly optimising both an \(\ell_2\)-norm fidelity term and a sparsity enforcing penalty. This work investigates using a regularisation term derived from an assumed Cauchy prior for the coefficients of the feature maps of a CSC generative model. The sparsity penalty term resulting from this prior is solved via its proximal operator, which is then applied iteratively, element-wise, on the coefficients of the feature maps to optimise the CSC cost function. The performance of the proposed Iterative Cauchy Thresholding (ICT) algorithm in reconstructing natural images is compared against the common choice of \(\ell_1\)-norm optimised via soft and hard thresholding. ICT outperforms IHT and IST in most of these reconstruction experiments across various datasets, with an average PSNR of up to 11.30 and 7.04 above ISTA and IHT respectively.
翻訳日:2022-11-01 11:46:03 公開日:2020-08-08
# 被写体中心レンズに基づくショット型分類の統一的枠組み

A Unified Framework for Shot Type Classification Based on Subject Centric Lens ( http://arxiv.org/abs/2008.03548v1 )

ライセンス: Link先を確認
Anyi Rao, Jiaze Wang, Linning Xu, Xuekun Jiang, Qingqiu Huang, Bolei Zhou, Dahua Lin(参考訳) ショットは、映画、テレビシリーズ、インターネット上で繁栄しているユーザー生成ビデオなど、様々なビデオの重要な物語要素である。 ショットの種類は、基本的なアイデア、感情、メッセージの表現方法に大きな影響を与えます。 ショットタイプを解析する技術は、ビデオの理解にとって重要である。 ショットタイプの分類は、フレームの空間構成やカメラの動きなど、ビデオコンテンツを超えた追加情報を必要とするため困難である。 これらの課題に対処するために,ショット型認識のための学習フレームワークであるSGNetを提案する。 SGNetは、ショットの主題と背景を2つのストリームに分け、それぞれがスケールとムーブメントタイプの分類のためのガイダンスマップとして機能する。 撮影型分析とモデル評価を容易にするために,7k映画トレーラーの46kショットを含む大規模データセットmovieshotsを構築した。 実験により,本フレームワークはこれらの2つの属性を正確に認識でき,従来の手法よりも優れていた。

Shots are key narrative elements of various videos, e.g. movies, TV series, and user-generated videos that are thriving over the Internet. The types of shots greatly influence how the underlying ideas, emotions, and messages are expressed. The technique to analyze shot types is important to the understanding of videos, which has seen increasing demand in real-world applications in this era. Classifying shot type is challenging due to the additional information required beyond the video content, such as the spatial composition of a frame and camera movement. To address these issues, we propose a learning framework Subject Guidance Network (SGNet) for shot type recognition. SGNet separates the subject and background of a shot into two streams, serving as separate guidance maps for scale and movement type classification respectively. To facilitate shot type analysis and model evaluations, we build a large-scale dataset MovieShots, which contains 46K shots from 7K movie trailers with annotations of their scale and movement types. Experiments show that our framework is able to recognize these two attributes of shot accurately, outperforming all the previous methods.
翻訳日:2022-11-01 11:45:44 公開日:2020-08-08
# 深層学習における微小サンプルサイズ問題の解法

Unravelling Small Sample Size Problems in the Deep Learning World ( http://arxiv.org/abs/2008.03522v1 )

ライセンス: Link先を確認
Rohit Keshari, Soumyadeep Ghosh, Saheb Chhabra, Mayank Vatsa, Richa Singh(参考訳) ディープラーニングアプローチの成長と成功は、ハードウェアリソースの可用性と、多数のトレーニングサンプルの可用性の2つの大きな要因に起因する。 大規模トレーニングデータベースの問題に対して、ディープラーニングモデルは最高のパフォーマンスを達成している。 しかし、大規模なトレーニングデータベースを収集できないような、多くの \textit{small sample size や $S^3$} の問題がある。 深層学習モデルは$s^3$問題に対してうまく一般化せず、特殊な解が必要であることが観察されている。 本稿では,まず,入力空間,モデル空間,特徴空間などの操作空間に応じてアルゴリズムを分離する小標本サイズ問題に対するディープラーニングアルゴリズムのレビューを行う。 次に,特徴マップの最も識別的な部分からグローバル情報を抽出することに焦点を当てた動的注意プーリング手法を提案する。 提案手法の性能は,SVHN,C10,C100,TinyImageNetなどの比較的小さな公開データセット上で,最先端のResNetモデルを用いて解析する。

The growth and success of deep learning approaches can be attributed to two major factors: availability of hardware resources and availability of large number of training samples. For problems with large training databases, deep learning models have achieved superlative performances. However, there are a lot of \textit{small sample size or $S^3$} problems for which it is not feasible to collect large training databases. It has been observed that deep learning models do not generalize well on $S^3$ problems and specialized solutions are required. In this paper, we first present a review of deep learning algorithms for small sample size problems in which the algorithms are segregated according to the space in which they operate, i.e. input space, model space, and feature space. Secondly, we present Dynamic Attention Pooling approach which focuses on extracting global information from the most discriminative sub-part of the feature map. The performance of the proposed dynamic attention pooling is analyzed with state-of-the-art ResNet model on relatively small publicly available datasets such as SVHN, C10, C100, and TinyImageNet.
翻訳日:2022-11-01 11:39:24 公開日:2020-08-08
# haseparator: 超平面支援ソフトマックス

HASeparator: Hyperplane-Assisted Softmax ( http://arxiv.org/abs/2008.03539v1 )

ライセンス: Link先を確認
Ioannis Kansizoglou, Nicholas Santavas, Loukas Bampis and Antonios Gasteratos(参考訳) 畳み込みニューラルネットワーク(CNN)による効率的な特徴学習は、コンピュータビジョンのいくつかの挑戦的なタスクがカスケードスキームとモダリティ融合を必要とする傾向にあるため、ますます命令性を高めている。 特徴学習は、埋め込みを抽出し、異なるクラス間で高い識別を示し、クラス内コンパクト性を示すcnnモデルを目指している。 本稿では,クラス中心分離スキームではなく,効果的なハイパープレーンに基づくクラス分離に焦点を当てたセパレータを用いた新しいアプローチを提案する。 そこで, 一般的な画像分類ベンチマークで評価されるように, 優れた識別能力を示す超平面支援ソフトマックス分離器(haseparator)を提案する。

Efficient feature learning with Convolutional Neural Networks (CNNs) constitutes an increasingly imperative property since several challenging tasks of computer vision tend to require cascade schemes and modalities fusion. Feature learning aims at CNN models capable of extracting embeddings, exhibiting high discrimination among the different classes, as well as intra-class compactness. In this paper, a novel approach is introduced that has separator, which focuses on an effective hyperplane-based segregation of the classes instead of the common class centers separation scheme. Accordingly, an innovatory separator, namely the Hyperplane-Assisted Softmax separator (HASeparator), is proposed that demonstrates superior discrimination capabilities, as evaluated on popular image classification benchmarks.
翻訳日:2022-11-01 11:39:08 公開日:2020-08-08
# 名前付きエンティティ認識における人口バイアスの評価

Assessing Demographic Bias in Named Entity Recognition ( http://arxiv.org/abs/2008.03415v1 )

ライセンス: Link先を確認
Shubhanshu Mishra, Sijun He, Luca Belli(参考訳) 名前付きエンティティ認識(NER)は、しばしば生のテキストから知識ベース(KB)の自動生成への第一歩である。 そこで本研究では,合成コーパスを用いた異なる集団間での英語の固有表現認識(ner)システムのバイアスについて検討する。 分析の結果,モデルでは,2つのデータセットにまたがる特定の人口集団の名前の同定が優れていることがわかった。 偏りのある埋め込みは、この問題を解決するのに役立ちません。 最後に、ELMoのような文字ベースの文脈型単語表現モデルが、人口統計学的に最小のバイアスをもたらすことを観察する。 我々の研究は、特定の人口層に属する名前のエンティティを体系的に排除するため、自動KB生成の潜在的なバイアスに光を当てることができる。

Named Entity Recognition (NER) is often the first step towards automated Knowledge Base (KB) generation from raw text. In this work, we assess the bias in various Named Entity Recognition (NER) systems for English across different demographic groups with synthetically generated corpora. Our analysis reveals that models perform better at identifying names from specific demographic groups across two datasets. We also identify that debiased embeddings do not help in resolving this issue. Finally, we observe that character-based contextualized word representation models such as ELMo results in the least bias across demographics. Our work can shed light on potential biases in automated KB generation due to systematic exclusion of named entities belonging to certain demographics.
翻訳日:2022-11-01 11:38:22 公開日:2020-08-08
# エンドツーエンド音声理解のための深度F尺度の最大化

Deep F-measure Maximization for End-to-End Speech Understanding ( http://arxiv.org/abs/2008.03425v1 )

ライセンス: Link先を確認
Leda Sar{\i} and Mark Hasegawa-Johnson(参考訳) 音声言語理解(SLU)データセットは、他の多くの機械学習データセットと同様に、ラベルの不均衡の問題に悩まされる。 ラベルの不均衡は通常、学習したモデルが出力で同様のバイアスを再現し、データセット内のマイノリティクラスに不公平な問題を引き起こす。 本研究では,ニューラルネットワークモデルトレーニングにおける精度よりもF尺度を最大化することにより,公平性問題にアプローチする。 本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。 本研究は,成人,地域,犯罪の2つの標準フェアネスデータセットと,atisデータセットにおける音声対インテント検出と音声対イメージ概念分類についての実験を行う。 これら4つのタスクすべてにおいて、f-measureの最大化は、クロスエントロピー損失関数で訓練されたモデルと比較して、絶対値が最大8%改善され、micro-f1スコアが向上する。 2つのマルチクラスsluタスクにおいて、提案手法はクラスカバレッジ、すなわち正のリコールを持つクラス数を大幅に改善する。

Spoken language understanding (SLU) datasets, like many other machine learning datasets, usually suffer from the label imbalance problem. Label imbalance usually causes the learned model to replicate similar biases at the output which raises the issue of unfairness to the minority classes in the dataset. In this work, we approach the fairness problem by maximizing the F-measure instead of accuracy in neural network model training. We propose a differentiable approximation to the F-measure and train the network with this objective using standard backpropagation. We perform experiments on two standard fairness datasets, Adult, and Communities and Crime, and also on speech-to-intent detection on the ATIS dataset and speech-to-image concept classification on the Speech-COCO dataset. In all four of these tasks, F-measure maximization results in improved micro-F1 scores, with absolute improvements of up to 8% absolute, as compared to models trained with the cross-entropy loss function. In the two multi-class SLU tasks, the proposed approach significantly improves class coverage, i.e., the number of classes with positive recall.
翻訳日:2022-11-01 11:38:11 公開日:2020-08-08
# 効率的なモータプログラム誘導による描画のための抽象構造学習

Learning abstract structure for drawing by efficient motor program induction ( http://arxiv.org/abs/2008.03519v1 )

ライセンス: Link先を確認
Lucas Y. Tian, Kevin Ellis, Marta Kryven, Joshua B. Tenenbaum(参考訳) 人間は訓練されたものと質的に異なる新しい問題を柔軟に解決する。 この一般化能力は、異なる問題に共通する構造を捉える学習概念によって支えられている。 ここでは,人間が構造化事前知識を迅速に獲得する方法を研究するために,自然主義的な描画タスクを開発する。 このタスクは、構成可能な幾何ルールのセットに基づいて、基盤構造を共有する視覚オブジェクトを描く必要がある。 一般化を支援する抽象描画手順を自発的に学習し,再利用可能な描画プログラムを学習者が発見できるモデルを提案する。 人間と同じ環境で訓練され、効率的な運動行動を生み出すために制約されたこのモデルは、テスト対象に移動し、人間のシーケンスの学習された特徴に似た新しい描画ルーチンを発見する。 これらの結果は、抽象(オブジェクト固有の詳細を無視する一般的なプログラム)と構成性(以前に学習したプログラムを再結合)という2つの原理が、柔軟な推論と学習を導く構造的内部表現の学習方法を説明する上で重要であることを示唆している。

Humans flexibly solve new problems that differ qualitatively from those they were trained on. This ability to generalize is supported by learned concepts that capture structure common across different problems. Here we develop a naturalistic drawing task to study how humans rapidly acquire structured prior knowledge. The task requires drawing visual objects that share underlying structure, based on a set of composable geometric rules. We show that people spontaneously learn abstract drawing procedures that support generalization, and propose a model of how learners can discover these reusable drawing programs. Trained in the same setting as humans, and constrained to produce efficient motor actions, this model discovers new drawing routines that transfer to test objects and resemble learned features of human sequences. These results suggest that two principles guiding motor program induction in the model - abstraction (general programs that ignore object-specific details) and compositionality (recombining previously learned programs) - are key for explaining how humans learn structured internal representations that guide flexible reasoning and learning.
翻訳日:2022-11-01 11:37:47 公開日:2020-08-08
# 自動話者検証における誤報率の補間

Extrapolating false alarm rates in automatic speaker verification ( http://arxiv.org/abs/2008.03590v1 )

ライセンス: Link先を確認
Alexey Sholokhov, Tomi Kinnunen, Ville Vestman, Kong Aik Lee(参考訳) 自動話者検証(ASV)ベンダーとコーパスプロバイダはどちらも、新しい話者を集めることなく、大規模話者に対するパフォーマンス指標を確実に外挿するツールの恩恵を受けるだろう。 提案手法は, 相手が対象話者の最も近いインポスタを集団から識別する, 最悪のケースモデルの下での誤アラーム率推定に対処するものである。 我々のモデルは生成的であり、新しい話者をサンプリングできる。 モデルは任意の ASV システムの解析を容易にするために ASV 検出スコア空間で定式化される。

Automatic speaker verification (ASV) vendors and corpus providers would both benefit from tools to reliably extrapolate performance metrics for large speaker populations without collecting new speakers. We address false alarm rate extrapolation under a worst-case model whereby an adversary identifies the closest impostor for a given target speaker from a large population. Our models are generative and allow sampling new speakers. The models are formulated in the ASV detection score space to facilitate analysis of arbitrary ASV systems.
翻訳日:2022-11-01 11:36:13 公開日:2020-08-08
# なぜ“成長”して“ハーベスト”なディープラーニングモデルが必要なのか?

Why to "grow" and "harvest" deep learning models? ( http://arxiv.org/abs/2008.03501v1 )

ライセンス: Link先を確認
Ilona Kulikovskikh and Tarzan Legovi\'c(参考訳) 勾配に基づく手法によるディープラーニングモデルのトレーニングからの現在の期待は以下のとおりである。 1) 透明性 2) 高い収束率 3) 誘導バイアスが高い。 適応的な学習率のスケジュールを持つ最先端の手法は速いが、他の2つの要件を満たしていない。 成長」と「ハーヴェスティング」のオープンエンドプロセスから自然に適応する単一種集団動態の観点から、ニューラルネットワークモデルを再考することを提案する。 一人当たりの成長と収穫率のバランスのとれた2つの事前定義値を持つ確率的勾配降下 (sgd) は, 3つの要件すべてにおいて最も一般的な適応勾配法を上回っている。

Current expectations from training deep learning models with gradient-based methods include: 1) transparency; 2) high convergence rates; 3) high inductive biases. While the state-of-art methods with adaptive learning rate schedules are fast, they still fail to meet the other two requirements. We suggest reconsidering neural network models in terms of single-species population dynamics where adaptation comes naturally from open-ended processes of "growth" and "harvesting". We show that the stochastic gradient descent (SGD) with two balanced pre-defined values of per capita growth and harvesting rates outperform the most common adaptive gradient methods in all of the three requirements.
翻訳日:2022-11-01 09:14:59 公開日:2020-08-08
# 特徴選択のための新しいコミュニティ検出に基づく遺伝的アルゴリズム

A Novel Community Detection Based Genetic Algorithm for Feature Selection ( http://arxiv.org/abs/2008.03543v1 )

ライセンス: Link先を確認
Mehrdad Rostami, Kamal Berahmand, Saman Forouzandeh(参考訳) 特徴の選択は、データマイニングにおける重要なデータ前処理段階である。 機能選択の中核的な原則は、予測情報をほとんど含まない機能と高度に関連付けられた冗長機能を取り除き、可能な機能のサブセットを選択することである。 過去数年間、高次元データセットから可能な限り冗長で無関係な特徴を取り除くために様々なメタヒューリスティック手法が導入された。 現在のメタヒューリスティックなアプローチの主な欠点は、選択された機能のセット間の相関をしばしば無視していることだ。 本稿では,特徴選択のために,コミュニティ検出に基づく遺伝的アルゴリズムを提案する。 特徴類似度を第1ステップで算出する。 この機能はコミュニティ検出アルゴリズムによって第2段階を通してクラスタに分類される。 第3のステップでは、新しいコミュニティベースの修復操作を備えた遺伝的アルゴリズムによって特徴が選択される。 提案手法の性能の観点から9つのベンチマーク分類問題を解析した。 また,提案手法の効率を,特徴選択のための4つのアルゴリズムから得られた結果と比較した。 その結果,新しいアプローチは継続的に分類精度を向上させることが示唆された。

The selection of features is an essential data preprocessing stage in data mining. The core principle of feature selection seems to be to pick a subset of possible features by excluding features with almost no predictive information as well as highly associated redundant features. In the past several years, a variety of meta-heuristic methods were introduced to eliminate redundant and irrelevant features as much as possible from high-dimensional datasets. Among the main disadvantages of present meta-heuristic based approaches is that they are often neglecting the correlation between a set of selected features. In this article, for the purpose of feature selection, the authors propose a genetic algorithm based on community detection, which functions in three steps. The feature similarities are calculated in the first step. The features are classified by community detection algorithms into clusters throughout the second step. In the third step, features are picked by a genetic algorithm with a new community-based repair operation. Nine benchmark classification problems were analyzed in terms of the performance of the presented approach. Also, the authors have compared the efficiency of the proposed approach with the findings from four available algorithms for feature selection. The findings indicate that the new approach continuously yields improved classification accuracy.
翻訳日:2022-11-01 09:14:48 公開日:2020-08-08
# オンラインマルチモーダル動画検索

Online Multi-modal Person Search in Videos ( http://arxiv.org/abs/2008.03546v1 )

ライセンス: Link先を確認
Jiangyue Xia, Anyi Rao, Qingqiu Huang, Linning Xu, Jiangtao Wen, Dahua Lin(参考訳) ビデオ内の特定の人物を検索するタスクは、ビデオの整理や編集など、現実世界のアプリケーションでポテンシャルを増している。 既存のアプローチの多くはオフラインで動作するように考案されており、ビデオ全体を検査した後のみidを推測できる。 この作業方法は、オンラインサービスやリアルタイム応答を必要とするアプリケーションに適用されないようにする。 本稿では,動画中の人物をリアルタイムで認識できるオンライン人物検索フレームワークを提案する。 このフレームワークは、人物認識の基盤としてマルチモーダルメモリバンクを中心とし、強化学習によって得られたポリシーで動的に更新する。 大規模な映画データセットを用いた実験の結果,提案手法はオンライン手法よりも優れた改善を達成できるだけでなく,オフライン手法よりも優れていることがわかった。

The task of searching certain people in videos has seen increasing potential in real-world applications, such as video organization and editing. Most existing approaches are devised to work in an offline manner, where identities can only be inferred after an entire video is examined. This working manner precludes such methods from being applied to online services or those applications that require real-time responses. In this paper, we propose an online person search framework, which can recognize people in a video on the fly. This framework maintains a multimodal memory bank at its heart as the basis for person recognition, and updates it dynamically with a policy obtained by reinforcement learning. Our experiments on a large movie dataset show that the proposed method is effective, not only achieving remarkable improvements over online schemes but also outperforming offline methods.
翻訳日:2022-11-01 09:13:55 公開日:2020-08-08
# 高次元生体データの特徴選択のための拡張粒子群最適化(EPSO)

Extended Particle Swarm Optimization (EPSO) for Feature Selection of High Dimensional Biomedical Data ( http://arxiv.org/abs/2008.03530v1 )

ライセンス: Link先を確認
Ali Hakem Alsaeedi, Adil L. Albukhnefis, Dhiah Al-Shammary, Muntasir Al-Asfoor(参考訳) 本稿では,PSOの探索過程を最適化問題として拡張粒子群最適化モデル(EPSO)を提案する。 遺伝子の発現プロファイルは、がんの診断に使用される分子生物学において重要な測定因子である。 遺伝子発現プロファイルの特定の分類手法への挑戦は、サンプル毎に記録された何千もの特徴にある。 変異Wrapper特徴選択モデルは、そのランダム性アプローチをEPSOとPSOに置き換えることにより、遺伝子分類問題に対処することを目的としている。 EPSOは集団のランダムなサイズを初期化し、2つのグループに分けて探索を促進し、停滞する確率を減らす。 実験では、EPSOはPSO(平均95.72秒)よりも最適な特徴(平均62.14秒)を選択するのに処理時間が少ない。 さらに、EPSO精度は、PSO(52%から96%)よりも優れた分類結果(54%から100%)を提供している。

This paper proposes a novel Extended Particle Swarm Optimization model (EPSO) that potentially enhances the search process of PSO for optimization problem. Evidently, gene expression profiles are significantly important measurement factor in molecular biology that is used in medical diagnosis of cancer types. The challenge to certain classification methodologies for gene expression profiles lies in the thousands of features recorded for each sample. A modified Wrapper feature selection model is applied with the aim of addressing the gene classification challenge by replacing its randomness approach with EPSO and PSO respectively. EPSO is initializing the random size of the population and dividing them into two groups in order to promote the exploration and reduce the probability of falling in stagnation. Experimentally, EPSO has required less processing time to select the optimal features (average of 62.14 sec) than PSO (average of 95.72 sec). Furthermore, EPSO accuracy has provided better classification results (start from 54% to 100%) than PSO (start from 52% to 96%).
翻訳日:2022-11-01 09:13:42 公開日:2020-08-08
# on-chip learningを用いた視覚パターン認識--完全ニューロモルフィックアプローチに向けて

Visual Pattern Recognition with on On-chip Learning: towards a Fully Neuromorphic Approach ( http://arxiv.org/abs/2008.03470v1 )

ライセンス: Link先を確認
Sandro Baumgartner, Alpha Renner, Raphaela Kreiser, Dongchen Liang, Giacomo Indiveri, Yulia Sandamirskaya(参考訳) ニューロモルフィックハードウェア上でのオンチップ学習による視覚パターン認識のためのスパイキングニューラルネットワーク(SNN)を提案する。 このネットワークは,局所スパイクに基づく可塑性則を用いて,動的視覚センサによって検出される水平および垂直のバーからなる単純な視覚パターンを学習する方法を示す。 認識中、ネットワークはパターンのアイデンティティを分類し、同時にその位置とスケールを推定する。 我々は,ループ内でニューロモルフィックハードウェアを用いた学習を用いた先行研究に基づいて,提案するネットワークがオンチップ学習で適切に動作できることを実証し,完全なニューロモルフィックパターン学習と認識設定の実証を行った。 その結果、入力のノイズ(130%のノイズを付加した場合の精度低下はない)とニューロンパラメータの最大20%のノイズに対して、ネットワークは堅牢であることがわかった。

We present a spiking neural network (SNN) for visual pattern recognition with on-chip learning on neuromorphichardware. We show how this network can learn simple visual patterns composed of horizontal and vertical bars sensed by a Dynamic Vision Sensor, using a local spike-based plasticity rule. During recognition, the network classifies the pattern's identity while at the same time estimating its location and scale. We build on previous work that used learning with neuromorphic hardware in the loop and demonstrate that the proposed network can properly operate with on-chip learning, demonstrating a complete neuromorphic pattern learning and recognition setup. Our results show that the network is robust against noise on the input (no accuracy drop when adding 130% noise) and against up to 20% noise in the neuron parameters.
翻訳日:2022-11-01 09:13:25 公開日:2020-08-08
# 車両ルーティング問題に対する学習(再)スタートソリューション

Learning (Re-)Starting Solutions for Vehicle Routing Problems ( http://arxiv.org/abs/2008.03424v1 )

ライセンス: Link先を確認
Xingwen Zhang and Shuang Yang(参考訳) 組合せ最適化問題の解決における鍵となる課題は、エージェント(ソルバ)が巨大な探索空間を効率的に探索する方法である。 従来の手法は列挙法(例えば、徹底的、ランダム、タブ探索)に依存したり、より限られた地域(例えば、反復アルゴリズムのような単一の経路)で探索を制限しなければならない。 本稿では,機械学習を用いて探索を高速化できることを示す。 特に、値ネットワークは、探索空間上の有用な構造(すなわち近似値面)を提供するソリューション候補を評価するために訓練され、この値ネットワークは、ブラックボックス最適化エージェントが望ましいソリューションに向かって探索空間をナビゲートするために初期化または再起動するのを助けるために、ソリューションのスクリーンに使用される。 実験により,提案した‘Learn to Restart’アルゴリズムは,キャパシタン化車両ルーティング問題(CVRP)の解法において有望な結果が得られることが示された。

A key challenge in solving a combinatorial optimization problem is how to guide the agent (i.e., solver) to efficiently explore the enormous search space. Conventional approaches often rely on enumeration (e.g., exhaustive, random, or tabu search) or have to restrict the exploration to rather limited regions (e.g., a single path as in iterative algorithms). In this paper, we show it is possible to use machine learning to speedup the exploration. In particular, a value network is trained to evaluate solution candidates, which provides a useful structure (i.e., an approximate value surface) over the search space; this value network is then used to screen solutions to help a black-box optimization agent to initialize or restart so as to navigate through the search space towards desirable solutions. Experiments demonstrate that the proposed ``Learn to Restart'' algorithm achieves promising results in solving Capacitated Vehicle Routing Problems (CVRPs).
翻訳日:2022-11-01 09:13:10 公開日:2020-08-08