このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200726となっている論文です。

PDF登録状況(公開日: 20200726)

TitleAuthorsAbstract論文公表日・翻訳日
# 教師なしの表現:クエストは終わったのか?

Unsupervisedly Learned Representations: Should the Quest be Over? ( http://arxiv.org/abs/2001.07495v3 )

ライセンス: Link先を確認
Daniel N. Nissani (Nissensohn)(参考訳) 教師なし学習表現を生成する最良の方法と、(自然に教師なし学習)人間が達成した正確度との間には、およそ20%の分類精度ギャップが存在する。 私たちは少なくとも4番目の10年で、この種のパラダイムを探し求めています。 したがって、私たちは間違った方向を向いているのかもしれません。 本論文では,このパズルの解法について述べる。 強化学習スキームは、分類などのパターン認識タスクに使用される表現を学習し、人間のものとほぼ同じ精度で学習できることを実証する。 私たちの主な貢献は、以下の観察にある。 a) 実世界の環境(例えば自然そのもの)に適用する場合、強化学習はラベルを必要としないため、長い間望まれていた精度の高い非教師なし学習方法の自然な候補とみなすことができる。 対照的に、強化学習がシミュレーションまたはシンボリックな処理環境(例えば、コンピュータプログラム)に適用される場合、本質的にラベルを必要とし、そのため、教師付き学習として一般に分類されるべきである。 これらの観察の序文は、研究や応用で見られる多くのシミュレーション環境で訓練されるかもしれない教師なし学習の競争パラダイムのさらなる探究が無駄であるということである。

There exists a Classification accuracy gap of about 20% between our best methods of generating Unsupervisedly Learned Representations and the accuracy rates achieved by (naturally Unsupervisedly Learning) humans. We are at our fourth decade at least in search of this class of paradigms. It thus may well be that we are looking in the wrong direction. We present in this paper a possible solution to this puzzle. We demonstrate that Reinforcement Learning schemes can learn representations, which may be used for Pattern Recognition tasks such as Classification, achieving practically the same accuracy as that of humans. Our main modest contribution lies in the observations that: a. when applied to a real world environment (e.g. nature itself) Reinforcement Learning does not require labels, and thus may be considered a natural candidate for the long sought, accuracy competitive Unsupervised Learning method, and b. in contrast, when Reinforcement Learning is applied in a simulated or symbolic processing environment (e.g. a computer program) it does inherently require labels and should thus be generally classified, with some exceptions, as Supervised Learning. The corollary of these observations is that further search for Unsupervised Learning competitive paradigms which may be trained in simulated environments like many of those found in research and applications may be futile.
翻訳日:2023-01-07 23:25:41 公開日:2020-07-26
# オンラインエンドツーエンド音声認識のためのデータ技術

Data Techniques For Online End-to-end Speech Recognition ( http://arxiv.org/abs/2001.09221v2 )

ライセンス: Link先を確認
Yang Chen, Weiran Wang, I-Fan Chen, Chao Wang(参考訳) ドメイン内データに制限があるため、多くの場合、新しいユースケースのためのASRシステムを短時間で構築する必要がある。 最近開発されたエンドツーエンドのメソッドは、モデリングパイプラインを大いに単純化するが、それでもデータ空間の問題に悩まされている。 本研究では,対象領域に少額の書き起こしデータを格納して,エンドツーエンドでオンラインasrシステムを構築するための簡単な実装手法について検討する。 これらのテクニックには、ターゲットドメインにおけるデータ拡張、大規模ソースドメインで以前に訓練されたモデルを用いたドメイン適応、教師として適応された双方向モデルを用いて、非転写対象ドメインデータに対する知識蒸留が含まれる。 実験により,各手法は対象領域におけるオンラインASRの性能向上に独立して有用であることが示された。

Practitioners often need to build ASR systems for new use cases in a short amount of time, given limited in-domain data. While recently developed end-to-end methods largely simplify the modeling pipelines, they still suffer from the data sparsity issue. In this work, we explore a few simple-to-implement techniques for building online ASR systems in an end-to-end fashion, with a small amount of transcribed data in the target domain. These techniques include data augmentation in the target domain, domain adaptation using models previously trained on a large source domain, and knowledge distillation on non-transcribed target domain data, using an adapted bi-directional model as the teacher; they are applicable in real scenarios with different types of resources. Our experiments demonstrate that each technique is independently useful in the improvement of the online ASR performance in the target domain.
翻訳日:2023-01-07 04:57:41 公開日:2020-07-26
# Rich-Item Recommendations for Rich-Users: Exploiting Dynamic and Static Side Information

Rich-Item Recommendations for Rich-Users: Exploiting Dynamic and Static Side Information ( http://arxiv.org/abs/2001.10495v2 )

ライセンス: Link先を確認
Amar Budhiraja, Gaurush Hiranandani, Darshak Chhatbar, Aditya Sinha, Navya Yarrabelly, Ayush Choure, Oluwasanmi Koyejo, Prateek Jain(参考訳) 本稿では,ユーザや推奨項目が複数のエンティティタイプを持つリッチなデータ構造であり,複数の側情報ソースをグラフ形式で持つようなレコメンデーションシステムの問題について検討する。 現代実世界のレコメンデーションの複雑さを捉え、既存の多くの定式化を一般化した問題の一般的な定式化を提供する。 私たちの定式化では、レコメンデーションを必要とする各ユーザ/ドキュメントと推奨される各アイテムまたはタグは、静的エンティティと動的コンポーネントのセットによってモデル化されます。 エンティティ間の関係は、いくつかの重み付き二部グラフによって捉えられる。 これらの複雑な相互作用を効果的に活用し、レコメンデーションモデルを学習するために、マルチグラフCNNに基づく新しいディープラーニングアーキテクチャであるMEDRESを提案する。 MEDRESは、新しいグラフ畳み込みネットワークブロックであるAL-GCNを使用し、基礎となるグラフから強力な代表的特徴を利用する。 さらに,システムと推奨すべき項目数に関する制約により,異なるユーザの高度に異質なエンゲージメントを捉えるために,新しいランキング指標pap@kを提案し,そのメトリックを直接最適化する手法を提案する。 提案手法の有効性を2つのベンチマークで示す。 a) 引用データ, b) flickrのデータ。 さらに,我々の定式化とMEDRESアーキテクチャの2つの実世界のケーススタディを示す。 我々は、Microsoft Teams(MSTeams)製品におけるメッセージレコメンデーション問題とチームのレコメンデーション問題を自然にモデル化するために、我々の技術をどのように利用できるかを示し、プロダクショングレードモデルよりも5-6%精度が高いことを示す。

In this paper, we study the problem of recommendation system where the users and items to be recommended are rich data structures with multiple entity types and with multiple sources of side-information in the form of graphs. We provide a general formulation for the problem that captures the complexities of modern real-world recommendations and generalizes many existing formulations. In our formulation, each user/document that requires a recommendation and each item or tag that is to be recommended, both are modeled by a set of static entities and a dynamic component. The relationships between entities are captured by several weighted bipartite graphs. To effectively exploit these complex interactions and learn the recommendation model, we propose MEDRES- a multiple graph-CNN based novel deep-learning architecture. MEDRES uses AL-GCN, a novel graph convolution network block, that harnesses strong representative features from the underlying graphs. Moreover, in order to capture highly heterogeneous engagement of different users with the system and constraints on the number of items to be recommended, we propose a novel ranking metric pAp@k along with a method to optimize the metric directly. We demonstrate effectiveness of our method on two benchmarks: a) citation data, b) Flickr data. In addition, we present two real-world case studies of our formulation and the MEDRES architecture. We show how our technique can be used to naturally model the message recommendation problem and the teams recommendation problem in the Microsoft Teams (MSTeams) product and demonstrate that it is 5-6% points more accurate than the production-grade models.
翻訳日:2023-01-06 02:25:03 公開日:2020-07-26
# TrajectoryNet: 細胞動態モデリングのための動的最適輸送ネットワーク

TrajectoryNet: A Dynamic Optimal Transport Network for Modeling Cellular Dynamics ( http://arxiv.org/abs/2002.04461v2 )

ライセンス: Link先を確認
Alexander Tong, Jessie Huang, Guy Wolf, David van Dijk, Smita Krishnaswamy(参考訳) 静的断面積測定によって捉えた動的プロセスのデータ、特に医学的な環境では、より頻繁に遭遇する。 このデータから個々の軌跡をモデル化する最近の試みは、最適輸送を用いて時間点間のペアワイズマッチングを作成する。 しかし、これらの手法は、エンティティがこれらのシステムで得る連続力学や非線形パスをモデル化することはできない。 この問題に対処するため、連続正規化フローと動的最適輸送のリンクを確立し、時間とともに期待される点の経路をモデル化する。 連続正規化フローは、ソースからターゲット分布への任意の経路を取ることができるため、一般に制約下にある。 本稿では, 分布間の連続経路を制御し, 動的最適輸送を行うトラックネットを提案する。 この手法は単細胞rnaシークエンシング(scrna-seq)技術によるデータの細胞動力学研究に特に応用可能であり,最近提案された静的最適トランスポートベースモデルによりtrailnetが改善されることを示す。

It is increasingly common to encounter data from dynamic processes captured by static cross-sectional measurements over time, particularly in biomedical settings. Recent attempts to model individual trajectories from this data use optimal transport to create pairwise matchings between time points. However, these methods cannot model continuous dynamics and non-linear paths that entities can take in these systems. To address this issue, we establish a link between continuous normalizing flows and dynamic optimal transport, that allows us to model the expected paths of points over time. Continuous normalizing flows are generally under constrained, as they are allowed to take an arbitrary path from the source to the target distribution. We present TrajectoryNet, which controls the continuous paths taken between distributions to produce dynamic optimal transport. We show how this is particularly applicable for studying cellular dynamics in data from single-cell RNA sequencing (scRNA-seq) technologies, and that TrajectoryNet improves upon recently proposed static optimal transport-based models that can be used for interpolating cellular distributions.
翻訳日:2023-01-02 14:06:24 公開日:2020-07-26
# 深部スパイクニューラルネットワークの時空間学習における爆発ニューロンとシナプスフィルタのダイナミクス

Exploiting Neuron and Synapse Filter Dynamics in Spatial Temporal Learning of Deep Spiking Neural Network ( http://arxiv.org/abs/2003.02944v2 )

ライセンス: Link先を確認
Haowen Fang, Amar Shrestha, Ziyi Zhao, Qinru Qiu(参考訳) 最近発見されたバイオインスパイクニューラルネットワーク(snn)の時空間情報処理能力は、いくつかの興味深いモデルと応用を可能にした。 しかしながら、堅牢なトレーニングアルゴリズムが欠如しているため、大規模かつ高性能なモデルの設計は依然として課題である。 空間的時間特性を持つ生物解析可能なSNNモデルは複雑な力学系である。 各シナプスとニューロンは、時間的情報を保存できるフィルターとして振る舞う。 このようなニューロンダイナミクスやフィルタ効果は既存のトレーニングアルゴリズムでは無視されるため、SNNはメモリレスシステムに格下げし、時間信号処理の能力を失う。 さらに、スパイクタイミングは情報表現において重要な役割を果たすが、従来のレートベースのスパイク符号化モデルはスパイク列車を統計的に考慮し、その時間的構造によって運ばれた情報を破棄するだけである。 上記の問題に対処し、SNNの時間的ダイナミクスを活用するために、ニューロン非線形性を持つ無限インパルス応答(IIR)フィルタのネットワークとしてSNNを定式化する。 我々は,最適シナプスフィルタカーネルと重みを求めることにより,時空間パターンを学習できる学習アルゴリズムを提案した。 提案したモデルとトレーニングアルゴリズムを用いて,MNIST,NMNIST,DVS 128などの合成および公開データセットの連想記憶と分類器を構築する。 精度は最先端のアプローチを上回っている。

The recent discovered spatial-temporal information processing capability of bio-inspired Spiking neural networks (SNN) has enabled some interesting models and applications. However designing large-scale and high-performance model is yet a challenge due to the lack of robust training algorithms. A bio-plausible SNN model with spatial-temporal property is a complex dynamic system. Each synapse and neuron behave as filters capable of preserving temporal information. As such neuron dynamics and filter effects are ignored in existing training algorithms, the SNN downgrades into a memoryless system and loses the ability of temporal signal processing. Furthermore, spike timing plays an important role in information representation, but conventional rate-based spike coding models only consider spike trains statistically, and discard information carried by its temporal structures. To address the above issues, and exploit the temporal dynamics of SNNs, we formulate SNN as a network of infinite impulse response (IIR) filters with neuron nonlinearity. We proposed a training algorithm that is capable to learn spatial-temporal patterns by searching for the optimal synapse filter kernels and weights. The proposed model and training algorithm are applied to construct associative memories and classifiers for synthetic and public datasets including MNIST, NMNIST, DVS 128 etc.; and their accuracy outperforms state-of-art approaches.
翻訳日:2022-12-30 12:41:55 公開日:2020-07-26
# インスタンスセグメンテーションの条件付き畳み込み

Conditional Convolutions for Instance Segmentation ( http://arxiv.org/abs/2003.05664v4 )

ライセンス: Link先を確認
Zhi Tian and Chunhua Shen and Hao Chen(参考訳) 本稿では,単純かつ効果的なインスタンス分割フレームワークであるcondinst (conditional convolutions for instance segmentation)を提案する。 Mask R-CNNのようなトップパフォーマンスのインスタンスセグメンテーションメソッドは、最終的なインスタンスマスクを得るためにROI操作(一般的にROIPoolまたはROIAlign)に依存している。 対照的に、新しい視点からインスタンスセグメンテーションを解くことを提案する。 固定重みのネットワークへの入力としてインスタンスワイズROIを使用する代わりに、インスタンスに条件付けされた動的インスタンス認識ネットワークを使用します。 CondInstには2つの利点がある。 1) インスタンスのセグメンテーションは完全な畳み込みネットワークによって解決され、ROI収穫や機能アライメントの必要性がなくなる。 2) 動的に生成された条件付き畳み込みの容量が大幅に向上するため, マスクヘッドは非常にコンパクト(例えば, 3層, それぞれが8チャネルしか持たない)となり, 推定が大幅に高速化される。 本稿では,精度と推論速度の両面において,より単純なインスタンス分割法を提案する。 COCOデータセットでは、トレーニングスケジュールを長くすることなく、十分に調整されたMask RCNNベースラインを含む、最近のいくつかの手法より優れています。 コード提供: https://github.com/aim-uofa/adet

We propose a simple yet effective instance segmentation framework, termed CondInst (conditional convolutions for instance segmentation). Top-performing instance segmentation methods such as Mask R-CNN rely on ROI operations (typically ROIPool or ROIAlign) to obtain the final instance masks. In contrast, we propose to solve instance segmentation from a new perspective. Instead of using instance-wise ROIs as inputs to a network of fixed weights, we employ dynamic instance-aware networks, conditioned on instances. CondInst enjoys two advantages: 1) Instance segmentation is solved by a fully convolutional network, eliminating the need for ROI cropping and feature alignment. 2) Due to the much improved capacity of dynamically-generated conditional convolutions, the mask head can be very compact (e.g., 3 conv. layers, each having only 8 channels), leading to significantly faster inference. We demonstrate a simpler instance segmentation method that can achieve improved performance in both accuracy and inference speed. On the COCO dataset, we outperform a few recent methods including well-tuned Mask RCNN baselines, without longer training schedules needed. Code is available: https://github.com/aim-uofa/adet
翻訳日:2022-12-24 15:08:51 公開日:2020-07-26
# ストリーム音声認識のための高性能シーケンス・ツー・シーケンスモデル

High Performance Sequence-to-Sequence Model for Streaming Speech Recognition ( http://arxiv.org/abs/2003.10022v2 )

ライセンス: Link先を確認
Thai-Son Nguyen, Ngoc-Quan Pham, Sebastian Stueker, Alex Waibel(参考訳) 近年,バッチモードで音声データを処理する場合,処理開始時に完全音声データが利用可能になるなど,標準的な音声認識タスクにおいて,シークエンス・ツー・シーケンスのモデルが最先端のパフォーマンスを達成し始めている。 しかし、オーディオデータの入力ストリーム上でランオン認識を実行し、認識結果を生成する場合には、リアルタイムで、単語ベースのレイテンシが低くなると、これらのモデルにはいくつかの課題がある。 多くの技術において、デコードされるオーディオシーケンスは、例えばアテンション機構や双方向LSTM(BLSTM)のために処理の開始時に利用可能である必要がある。 本稿では,これらの問題を解決する手法をいくつか提案する。 注意機構の不確実性を制御する追加の損失関数、部分的、安定な仮説を識別するビーム探索、エンコーダにおけるBLSTMの動作方法、チャンクされたBLSTMの使用を提案する。 提案手法を適切に組み合わせることで、単語誤り率性能を犠牲にすることなく、低単語遅延で音声認識を行うことが可能であることを示す。

Recently sequence-to-sequence models have started to achieve state-of-the-art performance on standard speech recognition tasks when processing audio data in batch mode, i.e., the complete audio data is available when starting processing. However, when it comes to performing run-on recognition on an input stream of audio data while producing recognition results in real-time and with low word-based latency, these models face several challenges. For many techniques, the whole audio sequence to be decoded needs to be available at the start of the processing, e.g., for the attention mechanism or the bidirectional LSTM (BLSTM). In this paper, we propose several techniques to mitigate these problems. We introduce an additional loss function controlling the uncertainty of the attention mechanism, a modified beam search identifying partial, stable hypotheses, ways of working with BLSTM in the encoder, and the use of chunked BLSTM. Our experiments show that with the right combination of these techniques, it is possible to perform run-on speech recognition with low word-based latency without sacrificing in word error rate performance.
翻訳日:2022-12-21 05:50:32 公開日:2020-07-26
# ダイナミックR-CNN:ダイナミックトレーニングによる高品質物体検出に向けて

Dynamic R-CNN: Towards High Quality Object Detection via Dynamic Training ( http://arxiv.org/abs/2004.06002v2 )

ライセンス: Link先を確認
Hongkai Zhang, Hong Chang, Bingpeng Ma, Naiyan Wang, Xilin Chen(参考訳) 2段階の物体検出器は近年、最先端の性能を継続的に向上させているが、トレーニングプロセス自体は結晶とは程遠い。 本稿では,ネットワーク設定の固定化と動的トレーニング手順の整合性の問題について指摘し,性能に大きく影響することを示した。 例えば、固定ラベル割り当て戦略と回帰損失関数は提案の分布変化に適合せず、高品質検出器の訓練には有害である。 そこで本研究では,ラベル割り当て基準(IoU閾値)と回帰損失関数(SmoothL1損失パラメータ)の形状を,トレーニング中の提案の統計に基づいて自動調整する動的R-CNNを提案する。 この動的設計はトレーニングサンプルをよりよく利用し、検出器を高品質なサンプルに適合させる。 具体的には、ResNet-50-FPNベースラインを1.9%のAPと5.5%のAP$_{90}$で改善し、余分なオーバーヘッドを伴わない。 コードとモデルはhttps://github.com/hkzhang95/DynamicRCNNで入手できる。

Although two-stage object detectors have continuously advanced the state-of-the-art performance in recent years, the training process itself is far from crystal. In this work, we first point out the inconsistency problem between the fixed network settings and the dynamic training procedure, which greatly affects the performance. For example, the fixed label assignment strategy and regression loss function cannot fit the distribution change of proposals and thus are harmful to training high quality detectors. Consequently, we propose Dynamic R-CNN to adjust the label assignment criteria (IoU threshold) and the shape of regression loss function (parameters of SmoothL1 Loss) automatically based on the statistics of proposals during training. This dynamic design makes better use of the training samples and pushes the detector to fit more high quality samples. Specifically, our method improves upon ResNet-50-FPN baseline with 1.9% AP and 5.5% AP$_{90}$ on the MS COCO dataset with no extra overhead. Codes and models are available at https://github.com/hkzhang95/DynamicRCNN.
翻訳日:2022-12-14 00:09:44 公開日:2020-07-26
# SpeedNet: ビデオのスピードを学習する

SpeedNet: Learning the Speediness in Videos ( http://arxiv.org/abs/2004.06130v2 )

ライセンス: Link先を確認
Sagie Benaim, Ariel Ephrat, Oran Lang, Inbar Mosseri, William T. Freeman, Michael Rubinstein, Michal Irani and Tali Dekel(参考訳) 動画中の移動物体の「速度」を自動で予測したい。「自然な」速度よりも速く、遅く動くか。このアプローチのコアコンポーネントはspeednetだ。ビデオが正常な速度で再生されているか、あるいはスピーディーアップされているかを検出するために訓練された、新しいディープネットワークだ。 SpeedNetは、手動のアノテーションを必要とせずに、自然ビデオの大規模なコーパスを自己管理的にトレーニングする。 本稿では,この単一バイナリ分類ネットワークを用いて物体の速度を任意に検出する方法を示す。 複雑な自然な動きを含む幅広いビデオに対してspeednetによる予測結果を示し,その予測に使用する視覚手がかりについて検討する。 重要なのは、ビデオの速度を予測することによって、単純な動きの手がかりを超えて、強力で意味のある時空表現を学習できることである。 これらの学習機能により,自己教師付き行動認識の性能が向上し,映像検索に利用できることを示す。 また、タイムラプスで適応的なビデオスピードアップを生成するためにSpeedNetを適用することで、視聴者はより高速にビデオを見ることができるが、一様に再生されるビデオに典型的なジッタリで不自然な動きは少ない。

We wish to automatically predict the "speediness" of moving objects in videos---whether they move faster, at, or slower than their "natural" speed. The core component in our approach is SpeedNet---a novel deep network trained to detect if a video is playing at normal rate, or if it is sped up. SpeedNet is trained on a large corpus of natural videos in a self-supervised manner, without requiring any manual annotations. We show how this single, binary classification network can be used to detect arbitrary rates of speediness of objects. We demonstrate prediction results by SpeedNet on a wide range of videos containing complex natural motions, and examine the visual cues it utilizes for making those predictions. Importantly, we show that through predicting the speed of videos, the model learns a powerful and meaningful space-time representation that goes beyond simple motion cues. We demonstrate how those learned features can boost the performance of self-supervised action recognition, and can be used for video retrieval. Furthermore, we also apply SpeedNet for generating time-varying, adaptive video speedups, which can allow viewers to watch videos faster, but with less of the jittery, unnatural motions typical to videos that are sped up uniformly.
翻訳日:2022-12-14 00:09:26 公開日:2020-07-26
# oscar: 視覚言語タスクの事前学習を指向したオブジェクトセマンティクス

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks ( http://arxiv.org/abs/2004.06165v5 )

ライセンス: Link先を確認
Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, Yejin Choi, Jianfeng Gao(参考訳) 画像とテキストのペアでクロスモーダル表現を学ぶための大規模事前学習手法が視覚言語タスクで人気を集めている。 既存の手法では,事前学習されるモデルへの入力として画像領域の特徴とテキストの特徴を単純に結合し,自己照査を用いて画像テキストの意味的アライメントをブラッテ力で学習するが,本論文では,画像から検出されたオブジェクトタグをアンカーポイントとして用いる新しい学習方法であるoscar(object-semantics aligned pre-training)を提案する。 本手法は,画像中の有意な物体を高精度に検出できるという観測結果に動機づけられ,ペアテキストでしばしば言及される。 我々は,650万のテキスト画像ペアの公開コーパスでオスカーモデルを事前学習し,下流タスクで微調整し,確立された6つの視覚言語理解と生成タスクに関する新たな最新技術を作成する。

Large-scale pre-training methods of learning cross-modal representations on image-text pairs are becoming popular for vision-language tasks. While existing methods simply concatenate image region features and text features as input to the model to be pre-trained and use self-attention to learn image-text semantic alignments in a brute force manner, in this paper, we propose a new learning method Oscar (Object-Semantics Aligned Pre-training), which uses object tags detected in images as anchor points to significantly ease the learning of alignments. Our method is motivated by the observation that the salient objects in an image can be accurately detected, and are often mentioned in the paired text. We pre-train an Oscar model on the public corpus of 6.5 million text-image pairs, and fine-tune it on downstream tasks, creating new state-of-the-arts on six well-established vision-language understanding and generation tasks.
翻訳日:2022-12-13 23:09:18 公開日:2020-07-26
# 対話型推薦のためのテキストベース深層強化学習フレームワーク

A Text-based Deep Reinforcement Learning Framework for Interactive Recommendation ( http://arxiv.org/abs/2004.06651v4 )

ライセンス: Link先を確認
Chaoyang Wang and Zhiqiang Guo and Jianjun Li and Peng Pan and Guohui Li(参考訳) 動的相互作用から学習し,長期的パフォーマンスのための計画を立てることの性質から,近年,対話型推薦システム (IRS) において強化学習 (RL) が注目されている。 IRSは通常、大きな離散的なアクション空間問題に直面し、既存のRLベースのレコメンデーション手法のほとんどを非効率にする。 さらに、データスパシティは、ほとんどのIRSが直面している別の難しい問題である。 レビューや記述などのテキスト情報は疎結合に敏感でないが、既存のRLベースのレコメンデーション手法は無視するか、あるいはテキスト情報を組み込むのに適さない。 本稿では、これらの2つの問題に対処するため、IRSのためのテキストベースのDeep Deterministic Policy Gradient framework(TDDPG-Rec)を提案する。 具体的には,テキスト情報を利用してアイテムやユーザを特徴空間にマッピングすることで,空間性の問題を大幅に軽減する。 さらに,アクション候補セットを構築するための効果的な手法を設計する。 ユーザの好みを表すTDDPG-Recから動的に学習したポリシーベクトルにより、候補セットから効果的にアクションを選択することができる。 3つの公開データセットの実験を通じて、TDDPG-Recが複数のベースラインに対して、時間効率で最先端のパフォーマンスを達成することを示す。

Due to its nature of learning from dynamic interactions and planning for long-run performance, reinforcement learning (RL) recently has received much attention in interactive recommender systems (IRSs). IRSs usually face the large discrete action space problem, which makes most of the existing RL-based recommendation methods inefficient. Moreover, data sparsity is another challenging problem that most IRSs are confronted with. While the textual information like reviews and descriptions is less sensitive to sparsity, existing RL-based recommendation methods either neglect or are not suitable for incorporating textual information. To address these two problems, in this paper, we propose a Text-based Deep Deterministic Policy Gradient framework (TDDPG-Rec) for IRSs. Specifically, we leverage textual information to map items and users into a feature space, which greatly alleviates the sparsity problem. Moreover, we design an effective method to construct an action candidate set. By the policy vector dynamically learned from TDDPG-Rec that expresses the user's preference, we can select actions from the candidate set effectively. Through experiments on three public datasets, we demonstrate that TDDPG-Rec achieves state-of-the-art performance over several baselines in a time-efficient manner.
翻訳日:2022-12-13 10:17:03 公開日:2020-07-26
# DARTS-ASR:多言語音声認識と適応のための微分可能なアーキテクチャ探索

DARTS-ASR: Differentiable Architecture Search for Multilingual Speech Recognition and Adaptation ( http://arxiv.org/abs/2005.07029v2 )

ライセンス: Link先を確認
Yi-Chen Chen, Jui-Yang Hsu, Cheng-Kuang Lee, Hung-yi Lee(参考訳) 以前の研究では、固定トポロジーアーキテクチャの下で最適化されたasrモデルのパラメーター重みのみである。 しかし、成功したモデルアーキテクチャの設計は常に人間の経験と直観に依存してきた。 さらに、モデルアーキテクチャに関連する多くのハイパーパラメータは手動で調整する必要がある。 そこで本稿では,DARTS-ASRを用いたアーキテクチャ探索手法を提案する。 DARTS-ASRの一般化可能性を検討するために,本手法を多くの言語に応用し,単言語ASRを実行するだけでなく,多言語ASR設定にも適用する。 先行研究に続いて,多言語データセット IARPA BABEL の実験を行った。 実験の結果,本手法は単言語および多言語ASR設定下での文字誤り率の相対減少率を10.2%,10.0%,ベースライン固定トポロジーアーキテクチャよりも優れていた。 さらに,DARTS-ASRによる探索アーキテクチャの解析を行った。

In previous works, only parameter weights of ASR models are optimized under fixed-topology architecture. However, the design of successful model architecture has always relied on human experience and intuition. Besides, many hyperparameters related to model architecture need to be manually tuned. Therefore in this paper, we propose an ASR approach with efficient gradient-based architecture search, DARTS-ASR. In order to examine the generalizability of DARTS-ASR, we apply our approach not only on many languages to perform monolingual ASR, but also on a multilingual ASR setting. Following previous works, we conducted experiments on a multilingual dataset, IARPA BABEL. The experiment results show that our approach outperformed the baseline fixed-topology architecture by 10.2% and 10.0% relative reduction on character error rates under monolingual and multilingual ASR settings respectively. Furthermore, we perform some analysis on the searched architectures by DARTS-ASR.
翻訳日:2022-12-03 12:40:43 公開日:2020-07-26
# ロシアのオープン音声テキストデータセットOpenSTTのためのエンドツーエンドASRの探索

Exploration of End-to-End ASR for OpenSTT -- Russian Open Speech-to-Text Dataset ( http://arxiv.org/abs/2006.08274v2 )

ライセンス: Link先を確認
Andrei Andrusenko, Aleksandr Laptev, Ivan Medennikov(参考訳) 本稿では,ロシア最大のオープンソース言語データセットOpenSTTのエンドツーエンド自動音声認識システム(ASR)について検討する。 CTC/Attention, RNN-Transducer, Transformer など,既存のエンドツーエンドアプローチの評価を行った。 これら全てをLF-MMI TDNN-F音響モデルに基づく強力なハイブリッドASRシステムと比較する。 利用可能な3つの検証セット(電話、YouTube、書籍)について、私たちの最高のエンドツーエンドモデルは、それぞれ34.8%、19.1%、および18.1%のワードエラー率(WER)を達成する。 同じ条件下で、ハイブリッドASRシステムは33.5%、20.9%、および18.6%のWERを示す。

This paper presents an exploration of end-to-end automatic speech recognition systems (ASR) for the largest open-source Russian language data set -- OpenSTT. We evaluate different existing end-to-end approaches such as joint CTC/Attention, RNN-Transducer, and Transformer. All of them are compared with the strong hybrid ASR system based on LF-MMI TDNN-F acoustic model. For the three available validation sets (phone calls, YouTube, and books), our best end-to-end model achieves word error rate (WER) of 34.8%, 19.1%, and 18.1%, respectively. Under the same conditions, the hybridASR system demonstrates 33.5%, 20.9%, and 18.6% WER.
翻訳日:2022-11-21 03:43:28 公開日:2020-07-26
# マルチブランチ式対向変圧器

Multi-branch Attentive Transformer ( http://arxiv.org/abs/2006.10270v2 )

ライセンス: Link先を確認
Yang Fan, Shufang Xie, Yingce Xia, Lijun Wu, Tao Qin, Xiang-Yang Li, Tie-Yan Liu(参考訳) マルチブランチアーキテクチャはコンピュータビジョンタスクの成功の鍵となる要素の1つであるが、自然言語処理、特にシーケンス学習タスクでは十分に研究されていない。 本研究では,マルチブランチ・アテンショントランス(briefly, mat)と呼ばれる,複数枝のアテンション層が平均であり,各ブランチが独立したマルチヘッドアテンション層である簡易かつ効果的なトランスの変種を提案する。 訓練中に個々の枝をランダムに落下させるドロップブランチと,複数の枝を初期化するために事前学習したトランスフォーマーモデルを用いた近位初期化の2つの訓練手法を用いた。 機械翻訳、コード生成、自然言語理解の実験は、Transformerのこのような単純な変種が大きな改善をもたらすことを示した。 私たちのコードは \url{https://github.com/HA-Transformer} で利用可能です。

While the multi-branch architecture is one of the key ingredients to the success of computer vision tasks, it has not been well investigated in natural language processing, especially sequence learning tasks. In this work, we propose a simple yet effective variant of Transformer called multi-branch attentive Transformer (briefly, MAT), where the attention layer is the average of multiple branches and each branch is an independent multi-head attention layer. We leverage two training techniques to regularize the training: drop-branch, which randomly drops individual branches during training, and proximal initialization, which uses a pre-trained Transformer model to initialize multiple branches. Experiments on machine translation, code generation and natural language understanding demonstrate that such a simple variant of Transformer brings significant improvements. Our code is available at \url{https://github.com/HA-Transformer}.
翻訳日:2022-11-19 13:51:34 公開日:2020-07-26
# 量子化DNNにおける実行時の量子化の促進

Term Revealing: Furthering Quantization at Run Time on Quantized DNNs ( http://arxiv.org/abs/2007.06389v2 )

ライセンス: Link先を確認
H. T. Kung, Bradley McDanel, Sai Qian Zhang(参考訳) 本稿では,従来の量子化手法で既に定量化されているディープニューラルネットワーク(DNN)の性能向上のために,実行時の量子化を促進させる新しい手法である Term Revealing (TR) を提案する。 TRは値のバイナリ表現において2項のパワーで動作する。 ドット積計算において、TRはドット積の2つのベクトルの値から使用する最大項の固定数を動的に選択する。 一般的なDNNの重みやデータ分布を利用して、TRはDNNモデルの性能(すなわち正確性や複雑度)に最小限の影響を与える。 我々は TR を用いて, 高速並列処理のために, サイストリックアレイなどのプロセッサアレイの緊密な同期を容易にする。 本稿では、少数の制御ビットを用いて従来の量子化とTR対応量子化を無視可能な遅延で切り替えるFPGAの実装を示す。 TR効率をさらに高めるために,符号付き桁表現(SDR)を用いる。 二進法からSDRへの変換を実現するため, HESE (Hybrid Encoding for Signed Expressions) と呼ばれる効率的な符号化手法を開発した。 MNIST の MLP と ImageNet の CNN と Wikitext-2 の LSTM に HESE エンコードされた値を用いて TR を評価し, モデル性能の同じレベルの従来の量子化と比較して, 推論計算(3~10倍) の大幅な削減を示した。

We present a novel technique, called Term Revealing (TR), for furthering quantization at run time for improved performance of Deep Neural Networks (DNNs) already quantized with conventional quantization methods. TR operates on power-of-two terms in binary expressions of values. In computing a dot-product computation, TR dynamically selects a fixed number of largest terms to use from the values of the two vectors in the dot product. By exploiting normal-like weight and data distributions typically present in DNNs, TR has a minimal impact on DNN model performance (i.e., accuracy or perplexity). We use TR to facilitate tightly synchronized processor arrays, such as systolic arrays, for efficient parallel processing. We show an FPGA implementation that can use a small number of control bits to switch between conventional quantization and TR-enabled quantization with a negligible delay. To enhance TR efficiency further, we use a signed digit representation (SDR), as opposed to classic binary encoding with only nonnegative power-of-two terms. To perform conversion from binary to SDR, we develop an efficient encoding method called HESE (Hybrid Encoding for Signed Expressions) that can be performed in one pass looking at only two bits at a time. We evaluate TR with HESE encoded values on an MLP for MNIST, multiple CNNs for ImageNet, and an LSTM for Wikitext-2, and show significant reductions in inference computations (between 3-10x) compared to conventional quantization for the same level of model performance.
翻訳日:2022-11-10 23:24:24 公開日:2020-07-26
# ロボット手術におけるツールセグメンテーションのための合成と実入力

Synthetic and Real Inputs for Tool Segmentation in Robotic Surgery ( http://arxiv.org/abs/2007.09107v2 )

ライセンス: Link先を確認
Emanuele Colleoni, Philip Edwards, Danail Stoyanov(参考訳) 手術映像のセマンティックツールセグメンテーションは,手術シーン理解やコンピュータ支援の介入,ロボット自動化の開発に重要である。 この問題は、様々な照明条件、出血、煙、閉塞がアルゴリズムの堅牢性を低下させる可能性があるため、難しい。 ディープラーニングモデルの学習のためのラベル付きデータはまだ意味的手術用機器のセグメンテーションに不足しており,本稿では,ラパロスコープ画像と結合したロボットキネマティックデータを用いてラパロスコープ問題を軽減することが可能であることを示す。 本稿では,手術器具のロバスト分割のための腹腔鏡およびシミュレーション画像の並列処理のための新しい深層学習モデルを提案する。 セグメンテーションとキネマティック情報の両方に注釈を付けた腹腔鏡フレームの欠如により、da Vinci Research Kit (dVRK)を使用して新しいカスタムデータセットが生成され、利用可能になった。

Semantic tool segmentation in surgical videos is important for surgical scene understanding and computer-assisted interventions as well as for the development of robotic automation. The problem is challenging because different illumination conditions, bleeding, smoke and occlusions can reduce algorithm robustness. At present labelled data for training deep learning models is still lacking for semantic surgical instrument segmentation and in this paper we show that it may be possible to use robot kinematic data coupled with laparoscopic images to alleviate the labelling problem. We propose a new deep learning based model for parallel processing of both laparoscopic and simulation images for robust segmentation of surgical tools. Due to the lack of laparoscopic frames annotated with both segmentation ground truth and kinematic information a new custom dataset was generated using the da Vinci Research Kit (dVRK) and is made available.
翻訳日:2022-11-09 13:38:50 公開日:2020-07-26
# Prob-Solvable Loops によるベイズネットワークの解析

Analysis of Bayesian Networks via Prob-Solvable Loops ( http://arxiv.org/abs/2007.09450v2 )

ライセンス: Link先を確認
Ezio Bartocci and Laura Kov\'acs and Miroslav Stankovi\v{c}(参考訳) 確率可解ループ(Prob-solvable loop)は、確率的プログラムで、確率変数やパラメータ分布に多項式を割り当て、モーメントベースの不変生成の完全自動化が決定可能である。 本稿では,ベイジアンネットワーク(BN)の符号化に不可欠な新しい特徴を持つProb-solvable loopを拡張した。 離散、ガウス、条件付き線型ガウスおよび動的 BN などの様々な BN が自然に Prob-solvable loop として符号化可能であることを示す。 これらのエンコーディングにより、正確な推論、感度分析、フィルタリング、サンプリングベースの手順で期待される拒絶サンプル数の計算など、BN関連のいくつかの問題を自動で解決できる。 本稿では, Prob-solvable loop analysis 内での自動不変生成を用いたBNベンチマークの評価を行った。

Prob-solvable loops are probabilistic programs with polynomial assignments over random variables and parametrised distributions, for which the full automation of moment-based invariant generation is decidable. In this paper we extend Prob-solvable loops with new features essential for encoding Bayesian networks (BNs). We show that various BNs, such as discrete, Gaussian, conditional linear Gaussian and dynamic BNs, can be naturally encoded as Prob-solvable loops. Thanks to these encodings, we can automatically solve several BN related problems, including exact inference, sensitivity analysis, filtering and computing the expected number of rejecting samples in sampling-based procedures. We evaluate our work on a number of BN benchmarks, using automated invariant generation within Prob-solvable loop analysis.
翻訳日:2022-11-09 06:01:34 公開日:2020-07-26
# 自己回帰フローに基づく因果発見と推論

Autoregressive flow-based causal discovery and inference ( http://arxiv.org/abs/2007.09390v2 )

ライセンス: Link先を確認
Ricardo Pio Monti, Ilyes Khemakhem, Aapo Hyvarinen(参考訳) 自己回帰的フローモデルは因果的発見から介入的および反事実的予測まで、様々な因果的推論タスクの実行に適していると仮定する。 特に,これら3つのタスクすべてを実行する単一フローアーキテクチャを提案するために,自動回帰アーキテクチャが因果順序に似た変数の順序付けを定義するという事実を利用する。 まず,フローモデルがデータの正規化ログ密度を推定し,確率比に基づく因果方向の双変量尺度を導出するという事実を生かした。 因果方向の伝統的な測度は因果関係の性質(例えば線形性)に制限的な仮定を必要とすることが多いが、フローモデルの柔軟性は任意の因果依存性を許容する。 提案手法は, 合成データに対する代替手法や, 因果効果ペアスベンチマークデータセットとの比較に好適である。 次いで, 流れの可逆性は, 潜伏変数に対するマージン化と条件付けを必要とする介入予測と反事実予測の両方を自然に直接評価できることを実証する。 本稿では, 自己回帰的流れを正しい因果順序で訓練することにより, 正確な介入予測, 対実予測を行う合成データの例を示す。

We posit that autoregressive flow models are well-suited to performing a range of causal inference tasks - ranging from causal discovery to making interventional and counterfactual predictions. In particular, we exploit the fact that autoregressive architectures define an ordering over variables, analogous to a causal ordering, in order to propose a single flow architecture to perform all three aforementioned tasks. We first leverage the fact that flow models estimate normalized log-densities of data to derive a bivariate measure of causal direction based on likelihood ratios. Whilst traditional measures of causal direction often require restrictive assumptions on the nature of causal relationships (e.g., linearity),the flexibility of flow models allows for arbitrary causal dependencies. Our approach compares favourably against alternative methods on synthetic data as well as on the Cause-Effect Pairs bench-mark dataset. Subsequently, we demonstrate that the invertible nature of flows naturally allows for direct evaluation of both interventional and counterfactual predictions, which require marginalization and conditioning over latent variables respectively. We present examples over synthetic data where autoregressive flows, when trained under the correct causal ordering, are able to make accurate interventional and counterfactual predictions
翻訳日:2022-11-09 05:15:12 公開日:2020-07-26
# ピラーに基づく自律走行物体検出

Pillar-based Object Detection for Autonomous Driving ( http://arxiv.org/abs/2007.10323v2 )

ライセンス: Link先を確認
Yue Wang, Alireza Fathi, Abhijit Kundu, David Ross, Caroline Pantofaru, Thomas Funkhouser, Justin Solomon(参考訳) 自律運転に最適化されたシンプルで柔軟な物体検出フレームワークを提案する。 このアプリケーションにおける点雲は極めて疎いという観測に基づいて,アンカーによる不均衡問題を修正するための実践的な柱ベースのアプローチを提案する。 特に,本アルゴリズムは,多視点特徴学習に円筒射影を組み込み,各点当たりやアンカーあたりではなく,各柱ごとの境界ボックスパラメータを予測し,最終的な予測を改善するための柱対点射影モジュールを含む。 アンカーフリーアプローチは,過去の手法に関連したハイパーパラメータ探索を回避し,最先端の処理を著しく改善しながら3dオブジェクト検出を簡素化する。

We present a simple and flexible object detection framework optimized for autonomous driving. Building on the observation that point clouds in this application are extremely sparse, we propose a practical pillar-based approach to fix the imbalance issue caused by anchors. In particular, our algorithm incorporates a cylindrical projection into multi-view feature learning, predicts bounding box parameters per pillar rather than per point or per anchor, and includes an aligned pillar-to-point projection module to improve the final prediction. Our anchor-free approach avoids hyperparameter search associated with past methods, simplifying 3D object detection while significantly improving upon state-of-the-art.
翻訳日:2022-11-08 13:32:15 公開日:2020-07-26
# 電磁バランスゲーム:確率論的視点

The Electromagnetic Balance Game: A Probabilistic Perspective ( http://arxiv.org/abs/2007.10735v2 )

ライセンス: Link先を確認
Fangqi Li(参考訳) バランス問題(英: balance question)として知られる2本腕のバランス(通常はバランス問題と呼ばれる)を用いて、視覚的に同一のコインのセットと異なる重さの偽造硬貨を見つけることは、干渉的で刺激的な問題である。 その変種は、情報理論、コーディング理論、最適化、確率論、組合せ論、多くの素早いウィットを含む多様なツールキットを含んでいる。 本稿では,特に確率的観点から,バランスゲームの一部の変種について考察する。 重力場の設定とは違って、バランスゲームのいくつかの変種に対してより厳密な境界を求める電磁場を採用する。 我々は,プレイヤーがバランスの取れた結果を観察することなく戦略を調整しなければならない所定の設定に集中する。 符号化方式を採用することにより、入賞するバランスの十分な条件が得られる。 繊細な符号化フレームワークを設計する以外に、完全にランダム化された戦略の性能も提案し分析する。 ランダム化プレイヤーの最適動作が導出される。 そして、そのバランスがプレイヤーを不当に騙すことができる不名誉なバランスゲームを上げます。 本稿では,確率的手法を用いた不正バランスゲームの解析に関する基礎的結果を示す。 ノイズチャネルにおけるシャノンの符号化定理との関係も明らかにされている。

Finding a counterfeit coin with the different weight from a set of visually identical coin using a balance, usually a two-armed balance, known as the balance question, is an intersting and inspiring question. Its variants involve diversified toolkits including information theory, coding theory, optimization, probabilistic theory, combinatorics and a lot of quick wits. In this paper some variants of the balance game are dicussed, especially from a probabilistic perspective. Unlike the gravity field setting, we adopt an electromagnetic field, where tighter bounds for some variants of the balance game can be found. We focus on the predetermined setting, where the player has to arrange the strategy without observing the outcome of the balancing. The sufficient condition for the balance to win is obtained by adopting a coding scheme. Apart from designing a delicate encoding framework, we also propose and analyze the performance of a completely randomized strategy. The optimal behavior of a randomized player is derived. Then we rise the dishonest balance game, in which the balance can adversely cheat the player. We present some elementary results on the analysis of dishonest balance game using probabilistic method at length. Its relationship with Shannon' s coding theorem in a noisy channel is also revealed.
翻訳日:2022-11-08 05:31:25 公開日:2020-07-26
# 短距離話者検証のためのUIAIシステム

UIAI System for Short-Duration Speaker Verification Challenge 2020 ( http://arxiv.org/abs/2007.13118v1 )

ライセンス: Link先を確認
Md Sahidullah, Achintya Kumar Sarkar, Ville Vestman, Xuechen Liu, Romain Serizel, Tomi Kinnunen, Zheng-Hua Tan, Emmanuel Vincent(参考訳) 本稿では,sdsv(short-duration speaker verification)チャレンジ2020におけるuiaiエントリのシステム記述について述べる。 テキスト依存型話者検証専用のタスク1に重点を置いています。 自動話者検証(ASV)と発話検証(UV)の異なる特徴抽出とモデリング手法について検討する。 また,uvモジュールとasvモジュールの融合戦略についても検討した。 この課題の主な提案は、7つのサブシステムを融合させることで、最小検出コスト関数mindcf( normalized minimum detection cost function)は0.072、eer(equal error rate)は2.14%になる。 音声識別ボトルネック機能付きパスフレーズ識別モデルからなる単一システムは、正規化されたminDCFが0.118となり、最先端の課題ベースラインよりも19%の相対的な改善が達成される。

In this work, we present the system description of the UIAI entry for the short-duration speaker verification (SdSV) challenge 2020. Our focus is on Task 1 dedicated to text-dependent speaker verification. We investigate different feature extraction and modeling approaches for automatic speaker verification (ASV) and utterance verification (UV). We have also studied different fusion strategies for combining UV and ASV modules. Our primary submission to the challenge is the fusion of seven subsystems which yields a normalized minimum detection cost function (minDCF) of 0.072 and an equal error rate (EER) of 2.14% on the evaluation set. The single system consisting of a pass-phrase identification based model with phone-discriminative bottleneck features gives a normalized minDCF of 0.118 and achieves 19% relative improvement over the state-of-the-art challenge baseline.
翻訳日:2022-11-06 20:17:19 公開日:2020-07-26
# 教師なし単語発見のための自己表現型オートエンコーダ

Self-Expressing Autoencoders for Unsupervised Spoken Term Discovery ( http://arxiv.org/abs/2007.13033v1 )

ライセンス: Link先を確認
Saurabhchand Bhati, Jes\'us Villalba, Piotr \.Zelasko, Najim Dehak(参考訳) 教師なし音声用語発見は、音響セグメントの境界を見つけ、同じラベルで音響的に類似したセグメントをラベル付けする2つのタスクからなる。 フレーム特徴ベクトルはセグメント間よりもセグメント内で類似しているという仮定に基づいてセグメント化を行う。 したがって, 高いセグメンテーション性能を実現するためには, フレームの音韻特性が, 変動の他の要因よりも重要であることが重要である。 自己表現型オートエンコーダフレームワークでこれを実現する。 1つのエンコーダと2つの共有重みを持つデコーダで構成される。 エンコーダは入力特徴を潜在表現に投影する。 デコーダの1つは、これらの潜在表現から入力を再構築し、もう1つは自己表現版から入力を再構築しようとする。 得られた特徴を音声データのセグメンテーションとクラスタ化に利用する。 我々は,zero resource 2020 challenge unit discoveryタスクにおける提案手法の性能評価を行った。 提案システムはベースラインを一貫して上回り,表現学習における手法の有用性を示す。

Unsupervised spoken term discovery consists of two tasks: finding the acoustic segment boundaries and labeling acoustically similar segments with the same labels. We perform segmentation based on the assumption that the frame feature vectors are more similar within a segment than across the segments. Therefore, for strong segmentation performance, it is crucial that the features represent the phonetic properties of a frame more than other factors of variability. We achieve this via a self-expressing autoencoder framework. It consists of a single encoder and two decoders with shared weights. The encoder projects the input features into a latent representation. One of the decoders tries to reconstruct the input from these latent representations and the other from the self-expressed version of them. We use the obtained features to segment and cluster the speech data. We evaluate the performance of the proposed method in the Zero Resource 2020 challenge unit discovery task. The proposed system consistently outperforms the baseline, demonstrating the usefulness of the method in learning representations.
翻訳日:2022-11-06 20:17:06 公開日:2020-07-26
# TVMを用いたCUDAにおけるブロックスパース行列乗算の最適化

Optimizing Block-Sparse Matrix Multiplications on CUDA with TVM ( http://arxiv.org/abs/2007.13055v1 )

ライセンス: Link先を確認
Zijing Gu(参考訳) 我々はCUDA上の密度行列とブロックスパース行列の行列乗法を実装し,最適化した。 深層学習コンパイラであるtvmを利用して,演算のスケジュール空間を探索し,効率的なcudaコードを生成する。 TVMのパラメータ自動チューニングにより、我々のクロススレッドリダクションベースの実装は、他の最先端フレームワークと比較して、競争力や性能が向上した。

We implemented and optimized matrix multiplications between dense and block-sparse matrices on CUDA. We leveraged TVM, a deep learning compiler, to explore the schedule space of the operation and generate efficient CUDA code. With the automatic parameter tuning in TVM, our cross-thread reduction based implementation achieved competitive or better performance compared with other state-of-the-art frameworks.
翻訳日:2022-11-06 20:16:51 公開日:2020-07-26
# セキュアなスマートシティのためのサイバー脅威インテリジェンス

Cyber Threat Intelligence for Secure Smart City ( http://arxiv.org/abs/2007.13233v1 )

ライセンス: Link先を確認
Najla Al-Taleb, Nazar Abbas Saqib, Atta-ur-Rahman, Sujata Dash(参考訳) スマートシティは、モノのインターネット(IoT)のような情報通信技術(ICT)を実装することで、市民の生活の質を改善した。 それでもスマートシティは、ネットワークと侵入や攻撃からのデータをセキュアにする必要がある重要な環境です。 本研究では,畳み込みニューラルネットワーク(cnn)と準リカレントニューラルネットワーク(qrnn)に基づく脅威分類性能を改善するために,サイバー脅威インテリジェンス(cti)のためのハイブリッド深層学習モデルを提案する。 QRNNを使ってリアルタイムの脅威分類モデルを提供する。 提案モデルと最先端モデルを比較した評価結果から,提案モデルは他のモデルよりも優れていた。 したがって、スマートシティの脅威を合理的な時間内に分類するのに役立ちます。

Smart city improved the quality of life for the citizens by implementing information communication technology (ICT) such as the internet of things (IoT). Nevertheless, the smart city is a critical environment that needs to secure it is network and data from intrusions and attacks. This work proposes a hybrid deep learning (DL) model for cyber threat intelligence (CTI) to improve threats classification performance based on convolutional neural network (CNN) and quasi-recurrent neural network (QRNN). We use QRNN to provide a real-time threat classification model. The evaluation results of the proposed model compared to the state-of-the-art models show that the proposed model outperformed the other models. Therefore, it will help in classifying the smart city threats in a reasonable time.
翻訳日:2022-11-06 20:12:49 公開日:2020-07-26
# 並列運転のためのサイバー物理社会空間におけるデジタル四足歩行の定義

Defining Digital Quadruplets in the Cyber-Physical-Social Space for Parallel Driving ( http://arxiv.org/abs/2007.14248v1 )

ライセンス: Link先を確認
Teng Liu, Yang Xing, Long Chen, Dongpu Cao, Fei-Yue Wang(参考訳) 並列運転は、車両のインテリジェンスと輸送自動化を合成する新しいフレームワークである。 本稿では,並列運転におけるディジタル四重項の定義を目的とする。 ACP法に基づくサイバー物理社会システム(CPSS)では、まずデジタル四脚の名前が与えられ、説明的、予測的、規範的、実車である。 3台の仮想デジタル車両の目的は、実際の車両と対話し、誘導し、シミュレーションし、改善することである。 次に、デジタル四重項の3つの仮想成分を詳細に紹介し、それらの応用例を示す。 最後に、並列運転システムにおける実車とデジタル四足歩行の研究プロセスについて述べる。 並列運転におけるデジタル四足歩行は, 将来, 効率よく, 相乗的に, 自動運転の安全性を高めることが期待されている。

Parallel driving is a novel framework to synthesize vehicle intelligence and transport automation. This article aims to define digital quadruplets in parallel driving. In the cyber-physical-social systems (CPSS), based on the ACP method, the names of the digital quadruplets are first given, which are descriptive, predictive, prescriptive and real vehicles. The objectives of the three virtual digital vehicles are interacting, guiding, simulating and improving with the real vehicles. Then, the three virtual components of the digital quadruplets are introduced in detail and their applications are also illustrated. Finally, the real vehicles in the parallel driving system and the research process of the digital quadruplets are depicted. The presented digital quadruplets in parallel driving are expected to make the future connected automated driving safety, efficiently and synergistically.
翻訳日:2022-11-06 20:12:38 公開日:2020-07-26
# アルゴリズムの最悪のケース解析を越えて (序論)

Beyond the Worst-Case Analysis of Algorithms (Introduction) ( http://arxiv.org/abs/2007.13241v1 )

ライセンス: Link先を確認
Tim Roughgarden(参考訳) アルゴリズムの数学的解析の主要な目的の1つは、与えられた計算問題を解決するための「最良の」アルゴリズムについてガイダンスを提供することである。 最悪のケース分析は、与えられたサイズの入力に対して最悪のパフォーマンスによってアルゴリズムのパフォーマンスプロファイルを要約し、最も考えられる最悪のケースパフォーマンスのアルゴリズムを暗黙的に提唱する。 強力な最悪のケース保証はアルゴリズム設計の聖杯であり、アルゴリズムの堅牢な性能のアプリケーションに依存しない認証を提供する。 しかし、多くの基本的な問題や性能尺度では、そのような保証は不可能であり、より微妙な分析アプローチが求められている。 本章では,本書で詳述した最悪の事例分析の代替案について検討する。

One of the primary goals of the mathematical analysis of algorithms is to provide guidance about which algorithm is the "best" for solving a given computational problem. Worst-case analysis summarizes the performance profile of an algorithm by its worst performance on any input of a given size, implicitly advocating for the algorithm with the best-possible worst-case performance. Strong worst-case guarantees are the holy grail of algorithm design, providing an application-agnostic certification of an algorithm's robustly good performance. However, for many fundamental problems and performance measures, such guarantees are impossible and a more nuanced analysis approach is called for. This chapter surveys several alternatives to worst-case analysis that are discussed in detail later in the book.
翻訳日:2022-11-06 20:12:23 公開日:2020-07-26
# コントラスト的視覚言語前訓練

Contrastive Visual-Linguistic Pretraining ( http://arxiv.org/abs/2007.13135v1 )

ライセンス: Link先を確認
Lei Shi, Kai Shuang, Shijie Geng, Peng Su, Zhengkai Jiang, Peng Gao, Zuohui Fu, Gerard de Melo, Sen Su(参考訳) 近年,LXMERT や ViLBERT などのマルチモーダル表現学習手法が提案されている。 このような手法は、大規模マルチモーダル事前訓練中に取得した高レベルの意味情報により、優れた性能を実現することができる。 しかし、ViLBERTとLXMERTは視覚領域の回帰と分類損失を採用するため、視覚的特徴がVisual Genomeデータセットで事前訓練されているため、しばしばドメインギャップやノイズの多いラベルの問題に悩まされる。 これらの課題を克服するために,コントラスト学習に基づく視覚的自己監督的損失を構成する,非バイアス型視覚言語事前学習(CVLP)を提案する。 我々は,VQA,GQA,NLVR2などの下流タスクにおけるCVLPを評価し,マルチモーダル表現学習におけるコントラスト学習の優位性を検証する。 私たちのコードは、https://github.com/ArcherYunDong/CVLP-で利用可能です。

Several multi-modality representation learning approaches such as LXMERT and ViLBERT have been proposed recently. Such approaches can achieve superior performance due to the high-level semantic information captured during large-scale multimodal pretraining. However, as ViLBERT and LXMERT adopt visual region regression and classification loss, they often suffer from domain gap and noisy label problems, based on the visual features having been pretrained on the Visual Genome dataset. To overcome these issues, we propose unbiased Contrastive Visual-Linguistic Pretraining (CVLP), which constructs a visual self-supervised loss built upon contrastive learning. We evaluate CVLP on several down-stream tasks, including VQA, GQA and NLVR2 to validate the superiority of contrastive learning on multi-modality representation learning. Our code is available at: https://github.com/ArcherYunDong/CVLP-.
翻訳日:2022-11-06 20:11:35 公開日:2020-07-26
# 3次元意味セグメンテーションのための仮想マルチビュー融合

Virtual Multi-view Fusion for 3D Semantic Segmentation ( http://arxiv.org/abs/2007.13138v1 )

ライセンス: Link先を確認
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru(参考訳) 3次元メッシュのセマンティックセグメンテーションは3次元シーン理解にとって重要な問題である。 本稿では,従来の3dメッシュのマルチビュー表現を再検討し,メッシュの3dセマンティクスセグメンテーションに有効な手法について検討する。 RGBDセンサから再構成された3Dメッシュを前提として,この3Dメッシュの異なる仮想ビューを効果的に選択し,有効な2Dセマンティックセマンティックセマンティクスモデルをトレーニングするための複数の2Dチャネルをレンダリングする。 複数のビュー毎の予測からの機能は、最終的に3dメッシュ頂点で融合され、メッシュセマンティックセグメンテーションラベルを予測する。 ScanNetの大規模屋内3次元セマンティックセマンティックセマンティクスベンチマークを用いて、仮想ビューは従来のマルチビューアプローチよりも効果的な2次元セマンティクスネットワークのトレーニングを可能にすることを示す。 1ピクセル当たりの2d予測が3d表面に集約されると、仮想マルチビュー融合法は、従来の全てのマルチビューアプローチに比べて大幅に優れた3dセマンティクスセグメンテーション結果を達成でき、最近の3d畳み込みアプローチと競合する。

Semantic segmentation of 3D meshes is an important problem for 3D scene understanding. In this paper we revisit the classic multiview representation of 3D meshes and study several techniques that make them effective for 3D semantic segmentation of meshes. Given a 3D mesh reconstructed from RGBD sensors, our method effectively chooses different virtual views of the 3D mesh and renders multiple 2D channels for training an effective 2D semantic segmentation model. Features from multiple per view predictions are finally fused on 3D mesh vertices to predict mesh semantic segmentation labels. Using the large scale indoor 3D semantic segmentation benchmark of ScanNet, we show that our virtual views enable more effective training of 2D semantic segmentation networks than previous multiview approaches. When the 2D per pixel predictions are aggregated on 3D surfaces, our virtual multiview fusion method is able to achieve significantly better 3D semantic segmentation results compared to all prior multiview approaches and competitive with recent 3D convolution approaches.
翻訳日:2022-11-06 20:11:19 公開日:2020-07-26
# 結核予測のための3次元CNNを用いたCTスキャンの均一化技術

Uniformizing Techniques to Process CT scans with 3D CNNs for Tuberculosis Prediction ( http://arxiv.org/abs/2007.13224v1 )

ライセンス: Link先を確認
Hasib Zunair, Aimon Rahman, Nabeel Mohammed, Joseph Paul Cohen(参考訳) ボリュームデータに対する医用画像解析への一般的なアプローチは、ディープ2D畳み込みニューラルネットワーク(CNN)を用いる。 これは主に、3Dデータの性質によって課される課題である可変ボリュームサイズ、最適化中のGPUの枯渇に起因する。 しかし、個々のスライスを2次元CNNで独立に扱うと、意図したタスクの性能が低下する深度情報を意図的に破棄する。 したがって、重メモリや計算要求を克服するだけでなく、3D情報を活用する手法を開発することが重要である。 そこで,本稿では,上記の問題に対処するためのボリューム均一化手法のセットを評価する。 最初の方法は、ボリュームのサブセットから情報を均等にサンプリングすることである。 別の方法は、z軸を補間することで3次元体積の完全な幾何学を利用する。 制御アブレーションによる性能改善を実証するとともに,ImageCLEF tuberculosis Severity Assessment 2019ベンチマークで本手法を検証した。 画像情報のみを活用(臨床メタデータを用いない)して総合的に5位に到達した全ての方法に対して,曲線下面積 (AUC) と二分分類精度 (ACC) を67.5%と報告した。 すべてのコードとモデルはhttps://github.com/hasibzunair/uniformizing-3Dで利用可能である。

A common approach to medical image analysis on volumetric data uses deep 2D convolutional neural networks (CNNs). This is largely attributed to the challenges imposed by the nature of the 3D data: variable volume size, GPU exhaustion during optimization. However, dealing with the individual slices independently in 2D CNNs deliberately discards the depth information which results in poor performance for the intended task. Therefore, it is important to develop methods that not only overcome the heavy memory and computation requirements but also leverage the 3D information. To this end, we evaluate a set of volume uniformizing methods to address the aforementioned issues. The first method involves sampling information evenly from a subset of the volume. Another method exploits the full geometry of the 3D volume by interpolating over the z-axis. We demonstrate performance improvements using controlled ablation studies as well as put this approach to the test on the ImageCLEF Tuberculosis Severity Assessment 2019 benchmark. We report 73% area under curve (AUC) and binary classification accuracy (ACC) of 67.5% on the test set beating all methods which leveraged only image information (without using clinical meta-data) achieving 5-th position overall. All codes and models are made available at https://github.com/hasibzunair/uniformizing-3D.
翻訳日:2022-11-06 20:10:57 公開日:2020-07-26
# 50,000カテゴリス以上の大規模画像認識のアプローチ

Approaches of large-scale images recognition with more than 50,000 categoris ( http://arxiv.org/abs/2007.13072v1 )

ライセンス: Link先を確認
Wanhong Huang, Rui Geng(参考訳) 現在のCVモデルは、数百から数千のカテゴリの小さな画像分類データセットで高い精度を達成することができたが、50,000以上のカテゴリの大規模データセットに関しては、計算や空間消費では不可能になっている。 本稿では,従来のCV技術である.features extract and processing, BOVW(Bag of Visual Words),およびMini-Batch K-Means,SVMなどの統計学習技術を用いて,大規模種のデータセットを分類するための有効なソリューションを提案する。 そして、ニューラルネットワークモデルと混同する。 これらの手法を適用する際、我々は時間とメモリ消費を最適化し、大規模なデータセットで実現できるようにしました。 また、誤ったラベルデータの影響を減らすために、いくつかのテクニクスも使用しています。 私たちは、50,000以上のカテゴリのデータセットを使用し、すべての操作は、l6gb ramと3.3cpuの共通コンピュータ上で行われます。 OGHz。 私たちの貢献は 1) 学習過程においてどのような問題が生じるか分析し, これらの問題を解決するための実現可能な方法をいくつか提示する。 2) 従来のCVモデルとニューラルネットワークモデルを組み合わせることで、時間と空間資源の制約の中で大規模な分類データセットをトレーニングするためのシナリオが実現可能である。

Though current CV models have been able to achieve high levels of accuracy on small-scale images classification dataset with hundreds or thousands of categories, many models become infeasible in computational or space consumption when it comes to large-scale dataset with more than 50,000 categories. In this paper, we provide a viable solution for classifying large-scale species datasets using traditional CV techniques such as.features extraction and processing, BOVW(Bag of Visual Words) and some statistical learning technics like Mini-Batch K-Means,SVM which are used in our works. And then mixed with a neural network model. When applying these techniques, we have done some optimization in time and memory consumption, so that it can be feasible for large-scale dataset. And we also use some technics to reduce the impact of mislabeling data. We use a dataset with more than 50, 000 categories, and all operations are done on common computer with l 6GB RAM and a CPU of 3. OGHz. Our contributions are: 1) analysis what problems may meet in the training processes, and presents several feasible ways to solve these problems. 2) Make traditional CV models combined with neural network models provide some feasible scenarios for training large-scale classified datasets within the constraints of time and spatial resources.
翻訳日:2022-11-06 20:04:24 公開日:2020-07-26
# SADet: 効率的かつ正確な歩行者検出器の学習

SADet: Learning An Efficient and Accurate Pedestrian Detector ( http://arxiv.org/abs/2007.13119v1 )

ライセンス: Link先を確認
Chubin Zhuang and Zhen Lei and Stan Z. Li(参考訳) アンカーベースの検出器は、歩行者検出において大きな進歩を遂げているが、アルゴリズムの全体的な性能は、精度と効率の良好なトレードオフである、実用的な応用のためにさらに改善する必要がある。 そこで本研究では,一段階検出器の検出パイプラインにおける一連の系統的最適化戦略を提案し,3つの主な改善点を含む,効率的かつ正確な歩行者検出のためのシングルショットアンカー型検出器(sadet)を開発した。 まず, ソフトタグを外付けサンプルに割り当ててサンプル生成プロセスを最適化し, 連続的なタグ値が0ドルから1ドルの間で半正のサンプルを生成し, より有効なサンプルを生成するだけでなく, モデルの堅牢性を高める。 第二に、新しいCenter-$IoU$損失は、境界ボックス回帰に対する新たな回帰損失として適用され、IoU損失の優れた特性を保持するだけでなく、いくつかの欠陥も解決する。 第3に,予測された境界ボックスのポストプロセスのためのコサインnmを設計,さらに,モデルがアンカーボックスをオクルージョンの程度に応じてフルまたは可視境界ボックスに適応的にマッチングできるように適応アンカーマッチングを提案し,nmsとアンカーマッチングアルゴリズムが歩行者検出に適するようにした。 構造的には単純だが、VGA解像度画像の最先端結果と20ドルFPS(約2万2000円)のリアルタイムスピードを、挑戦的な歩行者検出ベンチマーク、すなわちCityPersons、Caltech、そして人間検出ベンチマークCrowdHumanに提示する。

Although the anchor-based detectors have taken a big step forward in pedestrian detection, the overall performance of algorithm still needs further improvement for practical applications, \emph{e.g.}, a good trade-off between the accuracy and efficiency. To this end, this paper proposes a series of systematic optimization strategies for the detection pipeline of one-stage detector, forming a single shot anchor-based detector (SADet) for efficient and accurate pedestrian detection, which includes three main improvements. Firstly, we optimize the sample generation process by assigning soft tags to the outlier samples to generate semi-positive samples with continuous tag value between $0$ and $1$, which not only produces more valid samples, but also strengthens the robustness of the model. Secondly, a novel Center-$IoU$ loss is applied as a new regression loss for bounding box regression, which not only retains the good characteristics of IoU loss, but also solves some defects of it. Thirdly, we also design Cosine-NMS for the postprocess of predicted bounding boxes, and further propose adaptive anchor matching to enable the model to adaptively match the anchor boxes to full or visible bounding boxes according to the degree of occlusion, making the NMS and anchor matching algorithms more suitable for occluded pedestrian detection. Though structurally simple, it presents state-of-the-art result and real-time speed of $20$ FPS for VGA-resolution images ($640 \times 480$) on challenging pedestrian detection benchmarks, i.e., CityPersons, Caltech, and human detection benchmark CrowdHuman, leading to a new attractive pedestrian detector.
翻訳日:2022-11-06 20:03:27 公開日:2020-07-26
# エンド・ツー・エンドの視線追跡に向けて

Towards End-to-end Video-based Eye-Tracking ( http://arxiv.org/abs/2007.13120v1 )

ライセンス: Link先を確認
Seonwook Park and Emre Aksan and Xucong Zhang and Otmar Hilliges(参考訳) 画像だけでの視線差の推定は、観察不能な人固有の要因による大きな部分において、難しい課題である。 高い精度を達成するには、一般的に実際のアプリケーションでは達成できないテストユーザからのラベル付きデータが必要である。 ユーザが見ているものとユーザの目に見えるものとの間には,強い関係があることを観察する。 この理解に応えて,これらの意味的・時間的関係を明確に学習することを目的とした,新しいデータセットと付随する手法を提案する。 私たちのビデオデータセットは、タイム同期されたスクリーン記録、ユーザ向けカメラビュー、視線データで構成されており、時間的視線追跡の新しいベンチマークと、ラベルなしの視線改善を可能にしています。 重要なのは,視覚刺激と眼画像の融合が,教師付きパーソナライゼーションによって獲得した文献に類似したパフォーマンスの実現に繋がることを示すことである。 最終的な方法では、提案したEVEデータセットに対して、最大で28%の改善(角誤差2.49度)を達成し、Webカメラセンサーから高精度のスクリーンベースのアイトラッキングへの道を開いた。 データセットと参照ソースコードはhttps://ait.ethz.ch/projects/2020/eveで入手できる。

Estimating eye-gaze from images alone is a challenging task, in large parts due to un-observable person-specific factors. Achieving high accuracy typically requires labeled data from test users which may not be attainable in real applications. We observe that there exists a strong relationship between what users are looking at and the appearance of the user's eyes. In response to this understanding, we propose a novel dataset and accompanying method which aims to explicitly learn these semantic and temporal relationships. Our video dataset consists of time-synchronized screen recordings, user-facing camera views, and eye gaze data, which allows for new benchmarks in temporal gaze tracking as well as label-free refinement of gaze. Importantly, we demonstrate that the fusion of information from visual stimuli as well as eye images can lead towards achieving performance similar to literature-reported figures acquired through supervised personalization. Our final method yields significant performance improvements on our proposed EVE dataset, with up to a 28 percent improvement in Point-of-Gaze estimates (resulting in 2.49 degrees in angular error), paving the path towards high-accuracy screen-based eye tracking purely from webcam sensors. The dataset and reference source code are available at https://ait.ethz.ch/projects/2020/EVE
翻訳日:2022-11-06 20:02:56 公開日:2020-07-26
# GSNet: 幾何学的・シーン認識型スーパービジョンによる共同車両姿勢と形状再構成

GSNet: Joint Vehicle Pose and Shape Reconstruction with Geometrical and Scene-aware Supervision ( http://arxiv.org/abs/2007.13124v1 )

ライセンス: Link先を確認
Lei Ke, Shichao Li, Yanan Sun, Yu-Wing Tai, Chi-Keung Tang(参考訳) 本稿では,GSNet (Geometric and Scene-aware Network) と名付けられた新しいエンドツーエンドフレームワークを提案する。 gsnetはユニークな4方向特徴抽出・融合方式を採用し、単一のフォワードパスで6dofポーズと形状を直接レグレッションする。 大規模な実験により,多種多様な特徴抽出と融合方式がモデル性能を大幅に改善できることが示された。 GSNetは、分割型3D形状表現戦略に基づいて、詳細な3D車両形状を再構成する(頂点1352面と面2700面)。 この密集したメッシュ表現は、さらに幾何学的一貫性とシーンコンテキストを考慮し、ネットワークトレーニングを正則化する新しい多目的損失関数を刺激し、6dポーズ推定の精度を高め、両タスクを共同で実行するメリットを検証する。 我々は,最大マルチタスクApolloCar3Dベンチマーク上でGSNetを評価し,定量的かつ定性的に最先端の性能を達成する。 プロジェクトページはhttps://lkeab.github.io/gsnet/。

We present a novel end-to-end framework named as GSNet (Geometric and Scene-aware Network), which jointly estimates 6DoF poses and reconstructs detailed 3D car shapes from single urban street view. GSNet utilizes a unique four-way feature extraction and fusion scheme and directly regresses 6DoF poses and shapes in a single forward pass. Extensive experiments show that our diverse feature extraction and fusion scheme can greatly improve model performance. Based on a divide-and-conquer 3D shape representation strategy, GSNet reconstructs 3D vehicle shape with great detail (1352 vertices and 2700 faces). This dense mesh representation further leads us to consider geometrical consistency and scene context, and inspires a new multi-objective loss function to regularize network training, which in turn improves the accuracy of 6D pose estimation and validates the merit of jointly performing both tasks. We evaluate GSNet on the largest multi-task ApolloCar3D benchmark and achieve state-of-the-art performance both quantitatively and qualitatively. Project page is available at https://lkeab.github.io/gsnet/.
翻訳日:2022-11-06 20:02:33 公開日:2020-07-26
# チャレンジ対応RGBT追跡

Challenge-Aware RGBT Tracking ( http://arxiv.org/abs/2007.13143v1 )

ライセンス: Link先を確認
Chenglong Li, Lei Liu, Andong Lu, Qing Ji, and Jin Tang(参考訳) RGBと熱源のデータは、共有と特定の課題の両方に悩まされており、RGBTトラッキングにおけるターゲットの外観を表現するために、それらを探索して活用する方法が重要な役割を果たす。 本稿では,RGBT追跡のためのモダリティ共有課題(高速運動,スケール変動,閉塞など)と,モダリティ固有課題(照明変動,サーマルクロスオーバーなど)を扱う,新たな課題認識ニューラルネットワークを提案する。 特に,各層におけるパラメータシェード分岐を設計し,モダリティシェード課題下でのターゲットの外観をモデル化し,パラメータ非依存分岐をモダリティ特異的にモデル化する。 異なるモダリティのモダリティ特有の手がかりが通常相補的な利点を含むという観測に基づいて、あるモダリティから別のモダリティへ識別的特徴を移すための誘導モジュールを提案し、いくつかの弱いモダリティの識別能力を高めることができる。 さらに、すべてのブランチを適応的に集約し、バックボーンネットワークに並列組み込み、より識別可能なターゲット表現を効率的に形成する。 これらのチャレンジアウェアなブランチは、特定の課題の下でターゲットの外観をモデル化することができ、トレーニングデータ不足の状況でも、ターゲット表現をいくつかのパラメータで学習することができる。 実験結果から,提案手法は3つのベンチマークデータセットの最先端手法に対して高い性能を保ちながら,リアルタイムに動作可能であることを示す。

RGB and thermal source data suffer from both shared and specific challenges, and how to explore and exploit them plays a critical role to represent the target appearance in RGBT tracking. In this paper, we propose a novel challenge-aware neural network to handle the modality-shared challenges (e.g., fast motion, scale variation and occlusion) and the modality-specific ones (e.g., illumination variation and thermal crossover) for RGBT tracking. In particular, we design several parameter-shared branches in each layer to model the target appearance under the modality-shared challenges, and several parameterindependent branches under the modality-specific ones. Based on the observation that the modality-specific cues of different modalities usually contains the complementary advantages, we propose a guidance module to transfer discriminative features from one modality to another one, which could enhance the discriminative ability of some weak modality. Moreover, all branches are aggregated together in an adaptive manner and parallel embedded in the backbone network to efficiently form more discriminative target representations. These challenge-aware branches are able to model the target appearance under certain challenges so that the target representations can be learnt by a few parameters even in the situation of insufficient training data. From the experimental results we will show that our method operates at a real-time speed while performing well against the state-of-the-art methods on three benchmark datasets.
翻訳日:2022-11-06 20:02:13 公開日:2020-07-26
# 非ランベルト面に対する深度測光ステレオ

Deep Photometric Stereo for Non-Lambertian Surfaces ( http://arxiv.org/abs/2007.13145v1 )

ライセンス: Link先を確認
Guanying Chen, Kai Han, Boxin Shi, Yasuyuki Matsushita, Kwan-Yee K. Wong(参考訳) 本稿では,高度学習に基づく非ランベルト曲面のキャリブレーションシナリオと非キャリブレーションシナリオの両方において,フォトメトリックステレオの問題を扱う。 我々はまず,PS-FCN と呼ぶ光度測定ステレオを校正するための完全畳み込みディープネットワークを導入する。 簡易反射率モデルを採用した従来のアプローチとは異なり,本手法は反射率観測から表面正規化へのマッピングを直接学習し,一般および未知の等方反射率を持つ表面を扱うことができる。 テスト時には、PS-FCNは任意の数の画像とその関連する光方向を入力として、高速フィードフォワードパスでシーンの表面正規マップを予測する。 光方向が不明な未解決のシナリオに対処するため、lcnetと呼ばれる新しい畳み込みネットワークを導入し、入力画像から光方向を推定する。 推定光方向と入力画像はPS-FCNに送られ、表面の正常値を決定する。 本手法は,事前定義された光方向のセットを必要とせず,複数の画像を順序によらず処理できる。 合成データと実データの両方に対するアプローチの徹底的な評価は、キャリブレーションとアンキャリブレーションの両方のシナリオにおいて最先端の手法よりも優れています。

This paper addresses the problem of photometric stereo, in both calibrated and uncalibrated scenarios, for non-Lambertian surfaces based on deep learning. We first introduce a fully convolutional deep network for calibrated photometric stereo, which we call PS-FCN. Unlike traditional approaches that adopt simplified reflectance models to make the problem tractable, our method directly learns the mapping from reflectance observations to surface normal, and is able to handle surfaces with general and unknown isotropic reflectance. At test time, PS-FCN takes an arbitrary number of images and their associated light directions as input and predicts a surface normal map of the scene in a fast feed-forward pass. To deal with the uncalibrated scenario where light directions are unknown, we introduce a new convolutional network, named LCNet, to estimate light directions from input images. The estimated light directions and the input images are then fed to PS-FCN to determine the surface normals. Our method does not require a pre-defined set of light directions and can handle multiple images in an order-agnostic manner. Thorough evaluation of our approach on both synthetic and real datasets shows that it outperforms state-of-the-art methods in both calibrated and uncalibrated scenarios.
翻訳日:2022-11-06 20:01:49 公開日:2020-07-26
# インスタンスレベル認識のための深部局所記述子の学習と集約

Learning and aggregating deep local descriptors for instance-level recognition ( http://arxiv.org/abs/2007.13172v1 )

ライセンス: Link先を確認
Giorgos Tolias, Tomas Jenicek, Ond\v{r}ej Chum(参考訳) インスタンスレベル認識のための深部局所記述子を効率的に学習する手法を提案する。 トレーニングには、正と負のイメージペアの例のみが必要であり、サムプールされたグローバルイメージ記述子のメトリック学習として実行される。 推論では、ローカルディスクリプタはネットワークの内部コンポーネントの活性化によって提供される。 このような手法が画像類似度推定に有効である局所記述子を古典的マッチングカーネル法で学習する理由を実証する。 実験検証では,matchカーネルに基づく最先端画像探索手法の性能とメモリ要求のトレードオフについて検討した。 既存のローカルディスクリプタと比較して、2つのインスタンスレベルの認識タスクで性能が向上し、メモリ要求を低く抑える。 我々は,グローバルディスクリプタが大規模に有効ではないこと,局所ディスクリプタが不可欠であることを実験的に示す。 resnet18ほど小さなバックボーンネットワークでも、最先端のパフォーマンスを実現しています。

We propose an efficient method to learn deep local descriptors for instance-level recognition. The training only requires examples of positive and negative image pairs and is performed as metric learning of sum-pooled global image descriptors. At inference, the local descriptors are provided by the activations of internal components of the network. We demonstrate why such an approach learns local descriptors that work well for image similarity estimation with classical efficient match kernel methods. The experimental validation studies the trade-off between performance and memory requirements of the state-of-the-art image search approach based on match kernels. Compared to existing local descriptors, the proposed ones perform better in two instance-level recognition tasks and keep memory requirements lower. We experimentally show that global descriptors are not effective enough at large scale and that local descriptors are essential. We achieve state-of-the-art performance, in some cases even with a backbone network as small as ResNet18.
翻訳日:2022-11-06 20:01:25 公開日:2020-07-26
# OASIS: 野生のシングルイメージ3Dのための大規模データセット

OASIS: A Large-Scale Dataset for Single Image 3D in the Wild ( http://arxiv.org/abs/2007.13215v1 )

ライセンス: Link先を確認
Weifeng Chen, Shengyi Qian, David Fan, Noriyuki Kojima, Max Hamilton, Jia Deng(参考訳) シングルビュー3Dは、深度や表面の正常といった3D特性を単一の画像から回収するタスクである。 シングルイメージ3dへの大きな障害はデータである、と仮定します。 この問題に対処するために,140,000枚の画像の詳細な3D形状のアノテーションからなる,ワンイメージ3DのデータセットであるOpen Annotations of Single Image Surfaces (OASIS)を提示する。 我々は、様々な単一画像3dタスクで先行モデルを訓練し、評価する。 我々は,oasisが3次元視覚研究に有用な資源になることを期待する。 プロジェクトサイト:https://pvl.cs.princeton.edu/OASIS

Single-view 3D is the task of recovering 3D properties such as depth and surface normals from a single image. We hypothesize that a major obstacle to single-image 3D is data. We address this issue by presenting Open Annotations of Single Image Surfaces (OASIS), a dataset for single-image 3D in the wild consisting of annotations of detailed 3D geometry for 140,000 images. We train and evaluate leading models on a variety of single-image 3D tasks. We expect OASIS to be a useful resource for 3D vision research. Project site: https://pvl.cs.princeton.edu/OASIS.
翻訳日:2022-11-06 20:01:12 公開日:2020-07-26
# 知識ベースに関する複雑質問応答に関する調査研究 : 最近の進歩と課題

A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges ( http://arxiv.org/abs/2007.13069v1 )

ライセンス: Link先を確認
Bin Fu, Yunqi Qiu, Chengguang Tang, Yang Li, Haiyang Yu, Jian Sun(参考訳) 知識ベース(kb)上の質問応答(qa)は、知識ベースに格納されたエンティティ間のよく構造化された関係情報を通じて自然言語質問を自動的に答えることを目的としている。 KBQAをより現実のシナリオに適用するために、研究者は、よりKBのトリプルと制約推論を必要とする単純な質問から複雑な質問へと注意を移した。 本稿では, 複雑QAの最近の進歩を紹介する。 従来のテンプレートとルールに依存する手法の他に、この研究は、情報検索ベースとニューラルセマンティックパーシングベースの2つの主要分野を含む分類学に分類される。 これらのブランチの手法を説明した後、今後の研究の方向性を分析し、alimeチームによって提案されたモデルを紹介する。

Question Answering (QA) over Knowledge Base (KB) aims to automatically answer natural language questions via well-structured relation information between entities stored in knowledge bases. In order to make KBQA more applicable in actual scenarios, researchers have shifted their attention from simple questions to complex questions, which require more KB triples and constraint inference. In this paper, we introduce the recent advances in complex QA. Besides traditional methods relying on templates and rules, the research is categorized into a taxonomy that contains two main branches, namely Information Retrieval-based and Neural Semantic Parsing-based. After describing the methods of these branches, we analyze directions for future research and introduce the models proposed by the Alime team.
翻訳日:2022-11-06 20:01:02 公開日:2020-07-26
# Mask2CAD: セグメンテーションと検索の学習による3次元形状予測

Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve ( http://arxiv.org/abs/2007.13034v1 )

ライセンス: Link先を確認
Weicheng Kuo, Anelia Angelova, Tsung-Yi Lin, Angela Dai(参考訳) 物体認識は画像領域で大きく進歩しており、主に2次元知覚に焦点が当てられている。 本稿では,既存の3次元モデルの大規模データセットを活用し,CADによるオブジェクトとそのポーズの表現を構築し,画像中のオブジェクトの3次元構造を理解することを提案する。 本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。 オブジェクトに対応する画像の検出領域と3次元CADモデルとの結合埋め込み空間を構築し,入力されたRGB画像に対するCADモデルの検索を可能にする。 このCADベースの表現は、コンテンツ作成やインタラクティブなシナリオのようなアプリケーションに対して有効な、効率的な形状表現を保証し、現実世界の画像から合成ドメインへの変換を理解するための一歩となる。 Pix3Dによる実世界の画像の実験は、最先端技術と比較して、我々のアプローチの利点を実証している。 さらに,より広い形状の多様性,実世界のオクルージョン,挑戦的な画像ビューを特徴とするscannet上の新しい画像から3dへのベースラインを提案する。

Object recognition has seen significant progress in the image domain, with focus primarily on 2D perception. We propose to leverage existing large-scale datasets of 3D models to understand the underlying 3D structure of objects seen in an image by constructing a CAD-based representation of the objects and their poses. We present Mask2CAD, which jointly detects objects in real-world images and for each detected object, optimizes for the most similar CAD model and its pose. We construct a joint embedding space between the detected regions of an image corresponding to an object and 3D CAD models, enabling retrieval of CAD models for an input RGB image. This produces a clean, lightweight representation of the objects in an image; this CAD-based representation ensures a valid, efficient shape representation for applications such as content creation or interactive scenarios, and makes a step towards understanding the transformation of real-world imagery to a synthetic domain. Experiments on real-world images from Pix3D demonstrate the advantage of our approach in comparison to state of the art. To facilitate future research, we additionally propose a new image-to-3D baseline on ScanNet which features larger shape diversity, real-world occlusions, and challenging image views.
翻訳日:2022-11-06 19:54:26 公開日:2020-07-26
# U2-ONet: 移動インスタンスセグメンテーションのためのマルチスケールアテンション機構を備えた2レベルネストオクターブU構造

U2-ONet: A Two-level Nested Octave U-structure with Multiscale Attention Mechanism for Moving Instances Segmentation ( http://arxiv.org/abs/2007.13092v1 )

ライセンス: Link先を確認
Chenjie Wang and Chengyuan Li and Bin Luo(参考訳) 現実的な応用におけるほとんどのシーンは動いた物体を含む動的シーンであるため、正確な動いた物体のセグメント化は多くのコンピュータビジョンアプリケーションにとって不可欠である。 シーン内のすべての移動物体を効率的に分割するために,オブジェクトが予め定義された意味ラベルを持つかどうかに関わらず,u2-onetと呼ばれるマルチスケールの注意機構を備えた2レベルネストオクターブ u-構造ネットワークを提案する。 U2-ONetの各ステージは、新たに設計されたOctave Residual U-block (ORSU)で満たされ、特徴マップの空間冗長性を低減しつつ、異なるスケールでより多くのコンテキスト情報を得る能力を高める。 マルチスケール深層ネットワークを効率的にトレーニングするために,最適化の整合性を維持するために知識マッチング損失を加えながら,各レベルの損失を算出する階層的なトレーニング監視戦略を導入する。 実験結果から,本手法は複数の一般的な移動物体セグメンテーションデータセットにおける最先端性能を実現する。

Most scenes in practical applications are dynamic scenes containing moving objects, so segmenting accurately moving objects is crucial for many computer vision applications. In order to efficiently segment out all moving objects in the scene, regardless of whether the object has a predefined semantic label, we propose a two-level nested Octave U-structure network with a multiscale attention mechanism called U2-ONet. Each stage of U2-ONet is filled with our newly designed Octave ReSidual U-block (ORSU) to enhance the ability to obtain more context information at different scales while reducing spatial redundancy of feature maps. In order to efficiently train our multi-scale deep network, we introduce a hierarchical training supervision strategy that calculates the loss at each level while adding a knowledge matching loss to keep the optimization consistency. Experimental results show that our method achieves state-of-the-art performance in several general moving objects segmentation datasets.
翻訳日:2022-11-06 19:54:07 公開日:2020-07-26
# Covid-19 診断のための不確実性認識伝達学習フレームワーク

An Uncertainty-aware Transfer Learning-based Framework for Covid-19 Diagnosis ( http://arxiv.org/abs/2007.14846v1 )

ライセンス: Link先を確認
Afshar Shamsi Jokandan, Hamzeh Asgharnezhad, Shirin Shamsi Jokandan, Abbas Khosravi, Parham M.Kebria, Darius Nahavandi, Saeid Nahavandi, and Dipti Srinivasan(参考訳) 新型コロナウイルス感染の早期かつ信頼性の高い検出は、感染の予防と抑制に不可欠である。 PCR検査は、多くの国で実施されておらず、信頼性や性能にも深刻な懸念がある。 そこで本研究では,医療画像を用いたCOVID-19検出のための深層不確実性を考慮したトランスファー学習フレームワークを提案する。 VGG16、ResNet50、DenseNet121、InceptionResNetV2を含む4つの一般的な畳み込みニューラルネットワーク(CNN)が最初に適用され、胸部X線およびCT画像から深い特徴を抽出する。 抽出された機能は、さまざまな機械学習と統計的モデリング技術によって処理され、covid-19の症例を特定する。 また,分類結果の不確実性を算出し,訓練されたモデルが決定に自信を持っていない地域(分布問題を除く)を特定する。 X線およびCT画像データセットの総合シミュレーション結果は、線形支持ベクトルマシンとニューラルネットワークモデルが精度、感度、特異性、AUCで測定された最良の結果が得られることを示している。 また,CT画像ではX線画像よりも予測的不確実性推定がはるかに高いことがわかった。

The early and reliable detection of COVID-19 infected patients is essential to prevent and limit its outbreak. The PCR tests for COVID-19 detection are not available in many countries and also there are genuine concerns about their reliability and performance. Motivated by these shortcomings, this paper proposes a deep uncertainty-aware transfer learning framework for COVID-19 detection using medical images. Four popular convolutional neural networks (CNNs) including VGG16, ResNet50, DenseNet121, and InceptionResNetV2 are first applied to extract deep features from chest X-ray and computed tomography (CT) images. Extracted features are then processed by different machine learning and statistical modelling techniques to identify COVID-19 cases. We also calculate and report the epistemic uncertainty of classification results to identify regions where the trained models are not confident about their decisions (out of distribution problem). Comprehensive simulation results for X-ray and CT image datasets indicate that linear support vector machine and neural network models achieve the best results as measured by accuracy, sensitivity, specificity, and AUC. Also it is found that predictive uncertainty estimates are much higher for CT images compared to X-ray images.
翻訳日:2022-11-06 19:53:46 公開日:2020-07-26
# KUISAIL at SemEval-2020 Task 12: BERT-CNN for Offensive Speech Identification in Social Media (英語)

KUISAIL at SemEval-2020 Task 12: BERT-CNN for Offensive Speech Identification in Social Media ( http://arxiv.org/abs/2007.13184v1 )

ライセンス: Link先を確認
Ali Safaya, Moutasem Abdullatif, Deniz Yuret(参考訳) 本稿では,SemEval 2020の一部である多言語攻撃言語識別共有タスク(OffensEval 2020)のサブタスクAに,畳み込みニューラルネットワークを用いた事前学習BERTモデルを利用するアプローチについて述べる。 我々は,CNN と BERT を単独で使用するよりも,CNN と BERT を組み合わせる方がよいことを示す。 第4位がマクロで平均0.897点、第4位がギリシャ語0.843点、第3位がトルコ語0.814点であった。 さらに、コミュニティと共有するアラビア語のための事前訓練されたトランスフォーマー言語モデルであるアラビアBERTを提示する。

In this paper, we describe our approach to utilize pre-trained BERT models with Convolutional Neural Networks for sub-task A of the Multilingual Offensive Language Identification shared task (OffensEval 2020), which is a part of the SemEval 2020. We show that combining CNN with BERT is better than using BERT on its own, and we emphasize the importance of utilizing pre-trained language models for downstream tasks. Our system, ranked 4th with macro averaged F1-Score of 0.897 in Arabic, 4th with score of 0.843 in Greek, and 3rd with score of 0.814 in Turkish. Additionally, we present ArabicBERT, a set of pre-trained transformer language models for Arabic that we share with the community.
翻訳日:2022-11-06 19:52:35 公開日:2020-07-26
# WrapNet:Ultra-Low-Resolution Arithmeticを用いたニューラルネット推論

WrapNet: Neural Net Inference with Ultra-Low-Resolution Arithmetic ( http://arxiv.org/abs/2007.13242v1 )

ライセンス: Link先を確認
Renkun Ni, Hong-min Chu, Oscar Casta\~neda, Ping-yeh Chiang, Christoph Studer, Tom Goldstein(参考訳) 低分解能ニューラルネットワークは、重みとアクティベーションの両方をビット数で表現し、乗算複雑性を大幅に減少させる。 にもかかわらず、これらの積は高分解能(典型的には32ビット)加算を用いて蓄積され、極端な量子化(例えば二元重みなど)を使用する場合の推論の計算の複雑さを支配する演算である。 推論をさらに最適化するために,ニューラルネットワークをアキュムレータの低解像度(8ビット)加算に適応させ,32ビットのアキュムレータに匹敵する分類精度を実現する手法を提案する。 循環活性化層とオーバーフローペナルティレギュレータを挿入することにより, 低分解能蓄積に対するレジリエンスを実現する。 ソフトウェアおよびハードウェアプラットフォーム上でのアプローチの有効性を実証する。

Low-resolution neural networks represent both weights and activations with few bits, drastically reducing the multiplication complexity. Nonetheless, these products are accumulated using high-resolution (typically 32-bit) additions, an operation that dominates the arithmetic complexity of inference when using extreme quantization (e.g., binary weights). To further optimize inference, we propose a method that adapts neural networks to use low-resolution (8-bit) additions in the accumulators, achieving classification accuracy comparable to their 32-bit counterparts. We achieve resilience to low-resolution accumulation by inserting a cyclic activation layer, as well as an overflow penalty regularizer. We demonstrate the efficacy of our approach on both software and hardware platforms.
翻訳日:2022-11-06 19:46:37 公開日:2020-07-26
# SMART: 同時マルチエージェントリカレント軌道予測

SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction ( http://arxiv.org/abs/2007.13078v1 )

ライセンス: Link先を確認
Sriram N N, Buyu Liu, Francesco Pittaluga, Manmohan Chandraker(参考訳) 今後の軌道予測における2つの重要な課題に対処する進歩を提案する。 (i)訓練データと予測の両方における多様性、及び (ii)エージェントの数にかかわらず一定時間推定 既存の軌道予測は、トレーニングデータの多様性の欠如によって、基本的に制限されている。 最初の貢献は、トップビューで様々な軌道をシミュレートする自動手法である。 既存のデータセットとマップを初期化として使用し、現実的な運転行動を表現するために既存の軌跡をマイニングし、マルチエージェントの車両動力学シミュレータを使用して、様々なモードをカバーする多様な新しい軌跡を生成する。 第2の貢献は,エージェント数に依存しない定時間推論によるシーン意味論とマルチエージェントインタラクションを考慮しつつ,多様な予測を生成する新しい手法である。 本稿では,複数エージェントを1つの前方通過路に配置したシーン一貫性状態の予測に,新しい状態プーリング操作と損失を伴うconvLSTMと,多様性のためのCVAEを提案する。 提案するシミュレーションデータセットとトラヒックシーンの既存の実データセットをトレーニングし,提案手法の有効性を検証する。 いずれの場合においても,本手法はsoma法を大差で上回り,当社の多種多様なデータセットシミュレーションと一定時間多種多様な軌道予測手法の両方の利点を浮き彫りにする。

We propose advances that address two key challenges in future trajectory prediction: (i) multimodality in both training data and predictions and (ii) constant time inference regardless of number of agents. Existing trajectory predictions are fundamentally limited by lack of diversity in training data, which is difficult to acquire with sufficient coverage of possible modes. Our first contribution is an automatic method to simulate diverse trajectories in the top-view. It uses pre-existing datasets and maps as initialization, mines existing trajectories to represent realistic driving behaviors and uses a multi-agent vehicle dynamics simulator to generate diverse new trajectories that cover various modes and are consistent with scene layout constraints. Our second contribution is a novel method that generates diverse predictions while accounting for scene semantics and multi-agent interactions, with constant-time inference independent of the number of agents. We propose a convLSTM with novel state pooling operations and losses to predict scene-consistent states of multiple agents in a single forward pass, along with a CVAE for diversity. We validate our proposed multi-agent trajectory prediction approach by training and testing on the proposed simulated dataset and existing real datasets of traffic scenes. In both cases, our approach outperforms SOTA methods by a large margin, highlighting the benefits of both our diverse dataset simulation and constant-time diverse trajectory prediction methods.
翻訳日:2022-11-06 19:45:59 公開日:2020-07-26
# 健康領域におけるレコメンドラーシステムの役割--システムレビュー

Do recommender systems function in the health domain: a system review ( http://arxiv.org/abs/2007.13058v1 )

ライセンス: Link先を確認
Jia Su, Yi Guan, Yuge Li, Weile Chen, He Lv, Yageng Yan(参考訳) レコメンダシステムは日常生活において重要な役割を担ってきた。 Googleによるニュース、Netflixによるビデオ、eコマースプロバイダーによる商品などの勧告は、全員のライフスタイルを大きく変えた。 健康領域には、食べるもの、運動する方法、患者にとって適切な薬となるものなど、同様の意思決定の問題が含まれている。 近年,健康問題を解決するレコメンダシステムに関する研究が注目されている。 本稿では,健康レコメンダシステムの興味,方法,評価,今後の課題,トレンド問題などについて概説する。 私たちはそれを見つけ 1) 健康レコメンデーションシステムには,食事レコメンデーションなどのリスキーなレコメンデーションに重点を置くための,独自の健康上の問題がある。 2) コンテンツベースや協調フィルタリングといった従来の推奨手法は、健康上の制約をほとんど扱えないが、知識ベースの手法はこれまで以上に機能する。 3) 健康評価は, 精度に加えて複数の次元を考慮すべきであるため, 商業評価よりも複雑である。 推薦システムは、いくつかの重要な問題の解決後、健康領域でうまく機能する。 我々の研究は、健康推奨システム研究の体系的なレビューであり、現状と今後の方向性を示す。 このレビューは、ドメイン研究者の助けとなり、ヘルスレコメンデーションシステムの次のステップに進むだろうと考えられている。

Recommender systems have fulfilled an important role in everyday life. Recommendations such as news by Google, videos by Netflix, goods by e-commerce providers, etc. have heavily changed everyones lifestyle. Health domains contain similar decision-making problems such as what to eat, how to exercise, and what is the proper medicine for a patient. Recently, studies focused on recommender systems to solve health problems have attracted attention. In this paper, we review aspects of health recommender systems including interests, methods, evaluation, future challenges and trend issues. We find that 1) health recommender systems have their own health concern limitations that cause them to focus on less-risky recommendations such as diet recommendation; 2) traditional recommender methods such as content-based and collaborative filtering methods can hardly handle health constraints, but knowledge-based methods function more than ever; 3) evaluating a health recommendation is more complicated than evaluating a commercial one because multiple dimensions in addition to accuracy should be considered. Recommender systems can function well in the health domain after the solution of several key problems. Our work is a systematic review of health recommender system studies, we show current conditions and future directions. It is believed that this review will help domain researchers and promote health recommender systems to the next step.
翻訳日:2022-11-06 19:45:35 公開日:2020-07-26
# 構造攻撃に対するロバスト集団分類

Robust Collective Classification against Structural Attacks ( http://arxiv.org/abs/2007.13073v1 )

ライセンス: Link先を確認
Kai Zhou and Yevgeniy Vorobeychik(参考訳) 集団学習はデータポイント間の関係を利用して分類性能を向上させる。 しかし、そのような関係は、基盤となるグラフィカルモデルのエッジとして表現され、敵に追加の攻撃面を公開する。 本研究では,アソシエイトマルコフネットワーク (AMN) というグラフィカルモデルの重要なクラスにおいて,攻撃者がテスト時にグラフ構造を変更可能な構造攻撃に対する逆の堅牢性について検討する。 AMN分類器を2レベルプログラムとして学習するタスクを定式化し、内部問題はAMNの最適構造変化を計算する非線形整数プログラムである。 この技術的課題に対処するため、まず攻撃者を緩和し、次に二元性を用いて頑健なAMN問題に対する凸2次上界を求める。 次に、得られたほぼ最適解の質の限界を証明し、我々のアプローチの有効性を実験的に実証する。 最後に,本手法をトランスダクティブ・ラーニング・セッティングに適用し,ロバストなamnは最先端の深層学習法よりもはるかに頑健であり,非敵データでは精度に乏しいことを示す。

Collective learning methods exploit relations among data points to enhance classification performance. However, such relations, represented as edges in the underlying graphical model, expose an extra attack surface to the adversaries. We study adversarial robustness of an important class of such graphical models, Associative Markov Networks (AMN), to structural attacks, where an attacker can modify the graph structure at test time. We formulate the task of learning a robust AMN classifier as a bi-level program, where the inner problem is a challenging non-linear integer program that computes optimal structural changes to the AMN. To address this technical challenge, we first relax the attacker problem, and then use duality to obtain a convex quadratic upper bound for the robust AMN problem. We then prove a bound on the quality of the resulting approximately optimal solutions, and experimentally demonstrate the efficacy of our approach. Finally, we apply our approach in a transductive learning setting, and show that robust AMN is much more robust than state-of-the-art deep learning methods, while sacrificing little in accuracy on non-adversarial data.
翻訳日:2022-11-06 19:45:12 公開日:2020-07-26
# クリックスルー率予測のための反復ブースティングディープニューラルネットワーク

Iterative Boosting Deep Neural Networks for Predicting Click-Through Rate ( http://arxiv.org/abs/2007.13087v1 )

ライセンス: Link先を確認
Amit Livne, Roy Dor, Eyal Mazuz, Tamar Didi, Bracha Shapira, and Lior Rokach(参考訳) クリックスルーレート(CTR)は、特定の項目のクリックの比率を、そのビューの総数に反映する。 ウェブサイトの広告収入に大きな影響を与えている。 ユーザの振る舞いを理解し予測するために洗練されたモデルを学習することは、レコメンデーションシステムにおけるCTRの最大化に不可欠である。 近年の研究では、コストと時間を要する機能エンジニアリングプロセスを、生データから複雑なパターンをキャプチャ可能な様々なディープラーニング(DL)分類器に置き換える手法が提案されており、これらの手法はCTR予測タスクにおいて顕著に改善されている。 DL技術は複雑なユーザの振舞いパターンを学習できるが、大量のデータに依存しており、限られた量のデータがある場合には性能が良くない。 我々は,限られた量の生データを必要とする複雑なパターンをキャプチャする新しいDL手法であるXDBoostを提案する。 XDBoostは、従来の機械学習の強化メカニズムの影響を受け、反復的な3段階ニューラルネットワークモデルである。 しかし、従来のブースティングとは異なり、XDBoostはコンポーネントによって生成された予測を要約していない。 代わりに、これらの予測を新しい人工的特徴として利用し、これらの特徴を使用してモデルを再訓練することでCTR予測を強化する。 2つのデータセットに対するXDBoostの有効性を示す総合的な実験により、CTR予測のための既存の最先端(SOTA)モデルを上回る性能を示した。

The click-through rate (CTR) reflects the ratio of clicks on a specific item to its total number of views. It has significant impact on websites' advertising revenue. Learning sophisticated models to understand and predict user behavior is essential for maximizing the CTR in recommendation systems. Recent works have suggested new methods that replace the expensive and time-consuming feature engineering process with a variety of deep learning (DL) classifiers capable of capturing complicated patterns from raw data; these methods have shown significant improvement on the CTR prediction task. While DL techniques can learn intricate user behavior patterns, it relies on a vast amount of data and does not perform as well when there is a limited amount of data. We propose XDBoost, a new DL method for capturing complex patterns that requires just a limited amount of raw data. XDBoost is an iterative three-stage neural network model influenced by the traditional machine learning boosting mechanism. XDBoost's components operate sequentially similar to boosting; However, unlike conventional boosting, XDBoost does not sum the predictions generated by its components. Instead, it utilizes these predictions as new artificial features and enhances CTR prediction by retraining the model using these features. Comprehensive experiments conducted to illustrate the effectiveness of XDBoost on two datasets demonstrated its ability to outperform existing state-of-the-art (SOTA) models for CTR prediction.
翻訳日:2022-11-06 19:43:59 公開日:2020-07-26
# Deep CHORES:Deep Learning を用いた身体活動の指標推定

Deep CHORES: Estimating Hallmark Measures of Physical Activity Using Deep Learning ( http://arxiv.org/abs/2007.13114v1 )

ライセンス: Link先を確認
Mamoun T. Mardini, Subhash Nerella Amal A. Wanigatunga, Santiago Saldana, Ramon Casanova, Todd M. Manini(参考訳) スマートウォッチの登場に伴い、手首加速度計による身体活動指標(pa)の評価が急速に進んでいる。 手首の加速度計の人気が高まる中、PA型を認識し、寿命にわたってエネルギー消費(EE)を推定するための厳密な評価が必要である。 被験者(66%, 女性20~89歳)は, 3軸加速度計が右手首からデータを収集するのに対し, 標準実験室で33日間の電池を投与した。 代謝強度を測定するために携帯型代謝ユニットを装着した。 時系列データから空間的・時間的表現を抽出する深層学習ネットワークを構築し,PA型認識とEE推定に利用した。 深層学習モデルでは,sedentary,locomotor,lifestyleアクティビティを認識するためのf1スコアは0.82,0.81,95であった。 根平均二乗誤差は脳波推定の1.1 (+/-0.13) であった。

Wrist accelerometers for assessing hallmark measures of physical activity (PA) are rapidly growing with the advent of smartwatch technology. Given the growing popularity of wrist-worn accelerometers, there needs to be a rigorous evaluation for recognizing (PA) type and estimating energy expenditure (EE) across the lifespan. Participants (66% women, aged 20-89 yrs) performed a battery of 33 daily activities in a standardized laboratory setting while a tri-axial accelerometer collected data from the right wrist. A portable metabolic unit was worn to measure metabolic intensity. We built deep learning networks to extract spatial and temporal representations from the time-series data, and used them to recognize PA type and estimate EE. The deep learning models resulted in high performance; the F1 score was: 0.82, 0.81, and 95 for recognizing sedentary, locomotor, and lifestyle activities, respectively. The root mean square error was 1.1 (+/-0.13) for the estimation of EE.
翻訳日:2022-11-06 19:43:37 公開日:2020-07-26
# アンダーサンプルMR画像における関節再建とバイアス場補正

Joint reconstruction and bias field correction for undersampled MR imaging ( http://arxiv.org/abs/2007.13123v1 )

ライセンス: Link先を確認
M\'elanie Gaillochet and Kerem C. Tezcan and Ender Konukoglu(参考訳) mriでk空間をアンサンプリングすることで貴重な取得時間を節約できるが、不適切な反転問題を引き起こす。 近年,アンダーサンプルデータから完全サンプルMR像を復元する問題に対処するため,多くの深層学習技術が開発されている。 しかし、これらの学習に基づくスキームは、テスト時に再構成されるトレーニングデータと画像の違いに影響を受けやすい。 このような違いの1つは、磁場の不均一性とコイル感度に起因するMR画像のバイアス場に起因する。 そこで本研究では, バイアスフィールドに対する再構成問題の感度に対処し, その感度を低下させるために, 復元において明示的にモデル化することを提案する。 そこで我々は,教師なし学習に基づく再構成アルゴリズムを基礎として,N4に基づくバイアス場推定手法と組み合わせ,共同最適化手法を提案する。 評価にはHCPデータセットと社内で計測した画像を用いる。 提案手法は, 視覚およびrmseの両面で, 再構成品質の向上が期待できる。

Undersampling the k-space in MRI allows saving precious acquisition time, yet results in an ill-posed inversion problem. Recently, many deep learning techniques have been developed, addressing this issue of recovering the fully sampled MR image from the undersampled data. However, these learning based schemes are susceptible to differences between the training data and the image to be reconstructed at test time. One such difference can be attributed to the bias field present in MR images, caused by field inhomogeneities and coil sensitivities. In this work, we address the sensitivity of the reconstruction problem to the bias field and propose to model it explicitly in the reconstruction, in order to decrease this sensitivity. To this end, we use an unsupervised learning based reconstruction algorithm as our basis and combine it with a N4-based bias field estimation method, in a joint optimization scheme. We use the HCP dataset as well as in-house measured images for the evaluations. We show that the proposed method improves the reconstruction quality, both visually and in terms of RMSE.
翻訳日:2022-11-06 19:43:20 公開日:2020-07-26
# 機械学習における臨界物体処理の有界なファジィポシビリスティック手法

Bounded Fuzzy Possibilistic Method of Critical Objects Processing in Machine Learning ( http://arxiv.org/abs/2007.13077v1 )

ライセンス: Link先を確認
Hossein Yazdani(参考訳) 学習手法の不満足な精度は、主に、メンバーシップの割り当て、データオブジェクトの種類、距離や類似性関数などの重要なパラメータの影響を省略することに起因する。 提案手法はBFPM(Bounded Fuzzy Possibilistic Method)と呼ばれ,従来のクラスタリング法や分類法では十分に考慮されていない問題に対処する。 ファジィメソッドでは、オブジェクトのメンバシップは 1 にまとめるべきである。 したがって、任意のデータオブジェクトは、少なくとも1つのクラスタまたはクラスで完全なメンバシップを得ることができる。 ポシビリスティックな手法はこの条件を緩和するが、任意のオブジェクトだけが1つのクラスタからメンバシップを取得しても結果に満足でき、オブジェクトの動き分析が妨げられる。 一方、BFPMはこれらの制限を取り除き、従来のファジィや確率論的アプローチとは異なる。 さらに、BFPMはオブジェクトの動き解析のための柔軟な検索空間を提供する。 データオブジェクトは、学習方法の基本的な鍵であり、オブジェクトの正確なタイプを知ることによって、学習アルゴリズムに適した環境を提供する。 Thesisでは、Criticalと呼ばれる新しいタイプのオブジェクトを導入し、データオブジェクトを構造ベースと行動ベースという2つのカテゴリに分類する。 クリティカルオブジェクトは、学習手順におけるミス分類とミス割り当ての原因とみなされる。 論文はまた、あるクラスタまたはクラスから他のクラスへのオブジェクトの動き(変化)を評価する目的で、重要なオブジェクトの振る舞いを研究する新しい手法も提案している。 テーゼはまた、ミス分類とミス割り当ての原因の1つと考えられている、支配的機能と呼ばれる新しいタイプの機能も導入している。 次に、Thesisは、Weighted Feature Distance (WFD) と Prioritized Weighted Feature Distance (PWFD) と呼ばれる新しい類似関数セットを提案する。

Unsatisfying accuracy of learning methods is mostly caused by omitting the influence of important parameters such as membership assignments, type of data objects, and distance or similarity functions. The proposed method, called Bounded Fuzzy Possibilistic Method (BFPM) addresses different issues that previous clustering or classification methods have not sufficiently considered in their membership assignments. In fuzzy methods, the object's memberships should sum to 1. Hence, any data object may obtain full membership in at most one cluster or class. Possibilistic methods relax this condition, but the method can be satisfied with the results even if just an arbitrary object obtains the membership from just one cluster, which prevents the objects' movement analysis. Whereas, BFPM differs from previous fuzzy and possibilistic approaches by removing these restrictions. Furthermore, BFPM provides the flexible search space for objects' movement analysis. Data objects are also considered as fundamental keys in learning methods, and knowing the exact type of objects results in providing a suitable environment for learning algorithms. The Thesis introduces a new type of object, called critical, as well as categorizing data objects into two different categories: structural-based and behavioural-based. Critical objects are considered as causes of miss-classification and miss-assignment in learning procedures. The Thesis also proposes new methodologies to study the behaviour of critical objects with the aim of evaluating objects' movements (mutation) from one cluster or class to another. The Thesis also introduces a new type of feature, called dominant, that is considered as one of the causes of miss-classification and miss-assignments. Then the Thesis proposes new sets of similarity functions, called Weighted Feature Distance (WFD) and Prioritized Weighted Feature Distance (PWFD).
翻訳日:2022-11-06 19:36:59 公開日:2020-07-26
# 代替セルラインネットへの予備的探索--進化的アプローチ

A Preliminary Exploration into an Alternative CellLineNet: An Evolutionary Approach ( http://arxiv.org/abs/2007.13044v1 )

ライセンス: Link先を確認
Akwarandu Ugo Nwachuku, Xavier Lewis-Palmer, Darlington Ahiale Akogo(参考訳) 本稿では, 上皮性乳癌細胞株の分類に適応した畳み込みニューラルネットワークの代替セルラインネットへの進化的アプローチの探索について述べる。 この進化的アルゴリズムは、逆残差ブロック、ボトルネックブロック、残差ブロック、および基本的な2x2畳み込みブロックの探索空間におけるアーキテクチャの探索を導く制御変数を導入する。 EvoCELLの約束は、与えられたタスクに最適なモデルアーキテクチャを生成する機能抽出ブロックの組み合わせや配置を予測することである。 そこで、各世代で適合モデルがどのように進化したかを示す。 最終進化モデルであるCellLineNet V2は、ヒト癌2株、正常不死化2株、不死化1株(MDA-MB-468, MCF7, 10A, 12A, HC11)からなる5種類の上皮性乳房細胞株を分類する。 多クラス細胞株分類畳み込みニューラルネットワークは、二分体乳癌細胞株分類モデルに関する初期の研究を拡張している。 本稿では,ニューラルネットワークアーキテクチャ設計への現在進行中の探索的アプローチについて述べる。

Within this paper, the exploration of an evolutionary approach to an alternative CellLineNet: a convolutional neural network adept at the classification of epithelial breast cancer cell lines, is presented. This evolutionary algorithm introduces control variables that guide the search of architectures in the search space of inverted residual blocks, bottleneck blocks, residual blocks and a basic 2x2 convolutional block. The promise of EvoCELL is predicting what combination or arrangement of the feature extracting blocks that produce the best model architecture for a given task. Therein, the performance of how the fittest model evolved after each generation is shown. The final evolved model CellLineNet V2 classifies 5 types of epithelial breast cell lines consisting of two human cancer lines, 2 normal immortalized lines, and 1 immortalized mouse line (MDA-MB-468, MCF7, 10A, 12A and HC11). The Multiclass Cell Line Classification Convolutional Neural Network extends our earlier work on a Binary Breast Cancer Cell Line Classification model. This paper presents an on-going exploratory approach to neural network architecture design and is presented for further study.
翻訳日:2022-11-06 19:35:53 公開日:2020-07-26
# to bert or not to bert:アルツハイマー病検出のための音声と言語に基づくアプローチの比較

To BERT or Not To BERT: Comparing Speech and Language-based Approaches for Alzheimer's Disease Detection ( http://arxiv.org/abs/2008.01551v1 )

ライセンス: Link先を確認
Aparna Balagopalan, Benjamin Eyre, Frank Rudzicz, Jekaterina Novikova(参考訳) アルツハイマー病(AD)を自動的に検出する研究は、ADの頻度が高く、従来の方法のコストが高いことを考えると、重要である。 ADは自然発話の内容と音響に大きく影響するため、自然言語処理と機械学習はADを確実に検出する有望な技術を提供する。 最近のADReSSチャレンジデータセットにおいて、AD検出のための2つのアプローチのパフォーマンスを比較し、比較する。 1)言語・音響現象を捉えたドメイン知識に基づく手作り特徴の利用 2)トランス(bert)に基づく系列分類モデルによる双方向エンコーダの微調整 また,課題における神経心理学的スコアタスクの特徴に基づく回帰モデルの比較を行った。 認知障害検出における言語学の重要性を考えると,細調整BERTモデルはAD検出タスクにおいて特徴に基づくアプローチよりも優れている。

Research related to automatically detecting Alzheimer's disease (AD) is important, given the high prevalence of AD and the high cost of traditional methods. Since AD significantly affects the content and acoustics of spontaneous speech, natural language processing and machine learning provide promising techniques for reliably detecting AD. We compare and contrast the performance of two such approaches for AD detection on the recent ADReSS challenge dataset: 1) using domain knowledge-based hand-crafted features that capture linguistic and acoustic phenomena, and 2) fine-tuning Bidirectional Encoder Representations from Transformer (BERT)-based sequence classification models. We also compare multiple feature-based regression models for a neuropsychological score task in the challenge. We observe that fine-tuned BERT models, given the relative importance of linguistics in cognitive impairment detection, outperform feature-based approaches on the AD detection task.
翻訳日:2022-11-06 19:35:33 公開日:2020-07-26
# 協調学習による深部埋め込みマルチビュークラスタリング

Deep Embedded Multi-view Clustering with Collaborative Training ( http://arxiv.org/abs/2007.13067v1 )

ライセンス: Link先を確認
Jie Xu, Yazhou Ren, Guofeng Li, Lili Pan, Ce Zhu, Zenglin Xu(参考訳) マルチビュークラスタリングは、近年、複数のビューの情報を活用することで注目を集めている。 しかし、既存のマルチビュークラスタリング手法は、高い計算量と空間の複雑さ、あるいは表現能力の欠如がある。 本稿では,これらの課題に対処するために,協調学習(DEMVC)を用いたディープエンベッド型マルチビュークラスタリングを提案する。 まず、複数のビューの埋め込み表現は、ディープオートエンコーダによって個別に学習される。 そこで,複数視点のコンセンサスと補完性を考慮し,新しい協調学習手法を提案する。 具体的には、すべてのビューの特徴表現とクラスタ割り当てを協調的に学習する。 クラスタセンターの初期化のための新しい一貫性戦略がさらに開発され、協調トレーニングによるマルチビュークラスタリング性能が向上した。 いくつかの一般的なマルチビューデータセットの実験結果から、DEMCは最先端の手法よりも大幅に改善されている。

Multi-view clustering has attracted increasing attentions recently by utilizing information from multiple views. However, existing multi-view clustering methods are either with high computation and space complexities, or lack of representation capability. To address these issues, we propose deep embedded multi-view clustering with collaborative training (DEMVC) in this paper. Firstly, the embedded representations of multiple views are learned individually by deep autoencoders. Then, both consensus and complementary of multiple views are taken into account and a novel collaborative training scheme is proposed. Concretely, the feature representations and cluster assignments of all views are learned collaboratively. A new consistency strategy for cluster centers initialization is further developed to improve the multi-view clustering performance with collaborative training. Experimental results on several popular multi-view datasets show that DEMVC achieves significant improvements over state-of-the-art methods.
翻訳日:2022-11-06 19:35:00 公開日:2020-07-26
# 多変量時系列分類アルゴリズムのベンチマーク

Benchmarking Multivariate Time Series Classification Algorithms ( http://arxiv.org/abs/2007.13156v1 )

ライセンス: Link先を確認
Alejandro Pasos Ruiz, Michael Flynn and Anthony Bagnall(参考訳) 時系列分類(TSC)は、順序付き、実値付き、属性から離散的なターゲット変数の予測モデルを構築することを含む。 近年,従来の技術よりも大幅に改良された新しいTSCアルゴリズムが開発されている。 主な焦点は不平等なtsc、すなわち、各ケースが1つのシリーズと1つのクラスラベルを持つ問題である。 実際、複数のシリーズが単一のラベルに関連付けられている多変量TSC(MTSC)問題に遭遇することが一般的である。 それにもかかわらず、MTSCに対する考慮は単変量の場合よりもはるかに少ない。 2018年にリリースされた30のMTSC問題のUEAアーカイブは、アルゴリズムの比較を容易にする。 本稿では, 深層学習, シェープレット, 単語の袋を用いた MTSC アルゴリズムを提案する。 MTSCの最も単純なアプローチは、多変量次元上の単変量分類器をアンサンブルすることである。 我々は,データの長さが等しい30 mtscアーカイブ問題の26項目について,これらの次元に依存しない手法と比較した。 HIVE-COTE分類器の独立アンサンブルが最も正確であることを示すが、単変量分類とは異なり、MTSCでは動的時間ワープが競合する。

Time Series Classification (TSC) involved building predictive models for a discrete target variable from ordered, real valued, attributes. Over recent years, a new set of TSC algorithms have been developed which have made significant improvement over the previous state of the art. The main focus has been on univariate TSC, i.e. the problem where each case has a single series and a class label. In reality, it is more common to encounter multivariate TSC (MTSC) problems where multiple series are associated with a single label. Despite this, much less consideration has been given to MTSC than the univariate case. The UEA archive of 30 MTSC problems released in 2018 has made comparison of algorithms easier. We review recently proposed bespoke MTSC algorithms based on deep learning, shapelets and bag of words approaches. The simplest approach to MTSC is to ensemble univariate classifiers over the multivariate dimensions. We compare the bespoke algorithms to these dimension independent approaches on the 26 of the 30 MTSC archive problems where the data are all of equal length. We demonstrate that the independent ensemble of HIVE-COTE classifiers is the most accurate, but that, unlike with univariate classification, dynamic time warping is still competitive at MTSC.
翻訳日:2022-11-06 19:34:47 公開日:2020-07-26
# k$-meansクラスタリングの次元性低減

Dimensionality Reduction for $k$-means Clustering ( http://arxiv.org/abs/2007.13185v1 )

ライセンス: Link先を確認
Neophytos Charalambides(参考訳) 本稿では,$k$-meansクラスタリング問題の次元を効果的に削減し,精度の高い近似を求める方法を提案する。 4つのアルゴリズムが提示され、2つの \textit{feature selection} と 2つの \textit{feature extract} ベースのアルゴリズムがランダム化されている。

We present a study on how to effectively reduce the dimensions of the $k$-means clustering problem, so that provably accurate approximations are obtained. Four algorithms are presented, two \textit{feature selection} and two \textit{feature extraction} based algorithms, all of which are randomized.
翻訳日:2022-11-06 19:34:29 公開日:2020-07-26