このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200522となっている論文です。

PDF登録状況(公開日: 20200522)

TitleAuthorsAbstract論文公表日・翻訳日
# 音声強調と注意モデルを用いたロバスト話者認識

Robust Speaker Recognition Using Speech Enhancement And Attention Model ( http://arxiv.org/abs/2001.05031v2 )

ライセンス: Link先を確認
Yanpei Shi, Qiang Huang, Thomas Hain(参考訳) 本稿では,話者認識のための新しいアーキテクチャをカスケード音声強調処理と話者処理により提案する。 本研究の目的は,雑音による音声信号の劣化による音声認識性能の向上である。 音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。 さらに、雑音に対する堅牢性を高めるために、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階の注意機構を用いる。 提案手法の話者識別と検証性能を評価するために,主に使用されるベンチマークデータセットの1つであるvoxceleb1のデータセットでテストを行った。 さらに,VoxCeleb1データに対して,信号対雑音比(SNR)の異なる3種類の干渉(一般雑音,音楽,バブル)で劣化した場合に,提案手法のロバスト性を検証した。 その結果,本実験では,音声強調と多段注意モデルを用いた提案手法が,ほとんどの音響条件で使用しない2つの強いベースラインよりも優れていることがわかった。

In this paper, a novel architecture for speaker recognition is proposed by cascading speech enhancement and speaker processing. Its aim is to improve speaker recognition performance when speech signals are corrupted by noise. Instead of individually processing speech enhancement and speaker recognition, the two modules are integrated into one framework by a joint optimisation using deep neural networks. Furthermore, to increase robustness against noise, a multi-stage attention mechanism is employed to highlight the speaker related features learned from context information in time and frequency domain. To evaluate speaker identification and verification performance of the proposed approach, we test it on the dataset of VoxCeleb1, one of mostly used benchmark datasets. Moreover, the robustness of our proposed approach is also tested on VoxCeleb1 data when being corrupted by three types of interferences, general noise, music, and babble, at different signal-to-noise ratio (SNR) levels. The obtained results show that the proposed approach using speech enhancement and multi-stage attention models outperforms two strong baselines not using them in most acoustic conditions in our experiments.
翻訳日:2023-01-11 12:15:56 公開日:2020-05-22
# barnet: 手術器具のセグメンテーションのための適応受容場を有するバイリニアアテンションネットワーク

BARNet: Bilinear Attention Network with Adaptive Receptive Fields for Surgical Instrument Segmentation ( http://arxiv.org/abs/2001.07093v4 )

ライセンス: Link先を確認
Zhen-Liang Ni, Gui-Bin Bian, Guan-An Wang, Xiao-Hu Zhou, Zeng-Guang Hou, Xiao-Liang Xie, Zhen Li and Yu-Han Wang(参考訳) 手術器具のセグメンテーションはコンピュータ支援手術において極めて重要である。 一般的な物体のセグメンテーションとは異なり、特殊な手術シーンによる大きな照明とスケールの変化により、より困難である。 本稿では,これら2つの課題を解決するために,適応受容場を有する新しい双方向注意ネットワークを提案する。 照度の変化に対して、双線形アテンションモジュールは、グローバルコンテキストと局所ピクセル間のセマンティック依存関係をエンコードする2階統計をキャプチャすることができる。 それらにより、挑戦領域のセマンティックな特徴が隣人から推測され、様々なセマンティクスの区別が促進される。 適応的受容場加群は, マルチスケールの特徴を集約し, 異なる重みで自動的に融合する。 具体的には、チャネル間の意味関係をエンコードし、適切なスケールで特徴マップを強調し、後の畳み込みの受容野を変更する。 提案されたネットワークは、Cata7上で97.47%の平均IOUを達成し、2017年のEndoVisで10.10%のIOUが2位にランクインした。

Surgical instrument segmentation is extremely important for computer-assisted surgery. Different from common object segmentation, it is more challenging due to the large illumination and scale variation caused by the special surgical scenes. In this paper, we propose a novel bilinear attention network with adaptive receptive field to solve these two challenges. For the illumination variation, the bilinear attention module can capture second-order statistics to encode global contexts and semantic dependencies between local pixels. With them, semantic features in challenging areas can be inferred from their neighbors and the distinction of various semantics can be boosted. For the scale variation, our adaptive receptive field module aggregates multi-scale features and automatically fuses them with different weights. Specifically, it encodes the semantic relationship between channels to emphasize feature maps with appropriate scales, changing the receptive field of subsequent convolutions. The proposed network achieves the best performance 97.47% mean IOU on Cata7 and comes first place on EndoVis 2017 by 10.10% IOU overtaking second-ranking method.
翻訳日:2023-01-08 05:23:55 公開日:2020-05-22
# テンソルの粗粒クラスター分析と気候バイオム同定への応用

Coarse-Grain Cluster Analysis of Tensors with Application to Climate Biome Identification ( http://arxiv.org/abs/2001.07827v2 )

ライセンス: Link先を確認
Derek DeSantis, Phillip J. Wolfram, Katrina Bennett, Boian Alexandrov(参考訳) テンソルは複雑なデータの相互依存性を符号化する簡潔な方法を提供する。 テンソルをd-way配列として扱うと、各エントリは異なるインデックス間の相互作用を記録する。 クラスタリングは、データの複雑さを理解しやすい情報に解析する方法を提供する。 クラスタリング法は選択したアルゴリズムと選択したアルゴリズムのハイパーパラメータに大きく依存する。 しかし、データスケールに対する感度はほとんど不明である。 本研究では,離散ウェーブレット変換を適用し,クラスタリングテンソルデータに対する粗粒化の影響を分析する。 我々は特に、地球の気候システムのスケール効果のクラスター化について理解することに興味を持っている。 離散ウェーブレット変換は、複数の時空間スケールにわたる地球の気候の分類を可能にする。 離散ウェーブレット変換は、単一の分類とは対照的に、分類推定のアンサンブルを生成するために用いられる。 情報理論的なアプローチは、l15気候ダセットのクラスタリングにおいて重要なスケールレゲットを特定するために用いられる。 また,観測されたばらつきの大部分にまたがるアンサンブルのサブコレクションを発見し,気候生物群を識別できる効率的なコンセンサスクラスタリング技術を可能にした。

A tensor provides a concise way to codify the interdependence of complex data. Treating a tensor as a d-way array, each entry records the interaction between the different indices. Clustering provides a way to parse the complexity of the data into more readily understandable information. Clustering methods are heavily dependent on the algorithm of choice, as well as the chosen hyperparameters of the algorithm. However, their sensitivity to data scales is largely unknown. In this work, we apply the discrete wavelet transform to analyze the effects of coarse-graining on clustering tensor data. We are particularly interested in understanding how scale effects clustering of the Earth's climate system. The discrete wavelet transform allows classification of the Earth's climate across a multitude of spatial-temporal scales. The discrete wavelet transform is used to produce an ensemble of classification estimates, as opposed to a single classification. Information theoretic approaches are used to identify important scale lenghts in clustering The L15 Climate Datset. We also discover a sub-collection of the ensemble that spans the majority of the variance observed, allowing for efficient consensus clustering techniques that can be used to identify climate biomes.
翻訳日:2023-01-07 18:05:04 公開日:2020-05-22
# 編集距離のための畳み込み

Convolutional Embedding for Edit Distance ( http://arxiv.org/abs/2001.11692v3 )

ライセンス: Link先を確認
Xinyan Dai, Xiao Yan, Kaiwen Zhou, Yuxuan Wang, Han Yang, James Cheng(参考訳) 編集距離に基づく文字列類似性探索は、スペル訂正、データ重複解消、シーケンスアライメントなど多くの応用がある。 しかし、編集距離の計算は複雑であることが知られており、大きなデータセットでは文字列類似性探索が困難である。 本稿では,編集距離をユークリッド距離に埋め込み,高速近似類似度探索を行う深層学習パイプライン(cnn-ed)を提案する。 畳み込みニューラルネットワーク(cnn)を使用して文字列のデータセットに対する固定長ベクトル埋め込みを生成し、損失関数は三重項損失と近似誤差の組み合わせである。 モデルとして他の構造(例えばRNN)の代わりにCNNを使うという選択を正当化するために,我々のCNNモデルの基本操作が編集距離を保存することを示す理論的解析を行った。 実験の結果,CNN-EDはデータ非依存型CGK埋め込みやRNNベースGRU埋め込みよりも精度と効率の両面において優れていた。 また,文字列類似度探索はCNNベースの埋め込みを用いて,時には桁違いに高速化できることを示した。

Edit-distance-based string similarity search has many applications such as spell correction, data de-duplication, and sequence alignment. However, computing edit distance is known to have high complexity, which makes string similarity search challenging for large datasets. In this paper, we propose a deep learning pipeline (called CNN-ED) that embeds edit distance into Euclidean distance for fast approximate similarity search. A convolutional neural network (CNN) is used to generate fixed-length vector embeddings for a dataset of strings and the loss function is a combination of the triplet loss and the approximation error. To justify our choice of using CNN instead of other structures (e.g., RNN) as the model, theoretical analysis is conducted to show that some basic operations in our CNN model preserve edit distance. Experimental results show that CNN-ED outperforms data-independent CGK embedding and RNN-based GRU embedding in terms of both accuracy and efficiency by a large margin. We also show that string similarity search can be significantly accelerated using CNN-based embeddings, sometimes by orders of magnitude.
翻訳日:2023-01-05 07:06:43 公開日:2020-05-22
# 学習ヒューリスティックスとモンテカルロ木探索を用いた自動走行車の協調計画の高速化

Accelerating Cooperative Planning for Automated Vehicles with Learned Heuristics and Monte Carlo Tree Search ( http://arxiv.org/abs/2002.00497v2 )

ライセンス: Link先を確認
Karl Kurzer, Marcus Fechner and J. Marius Z\"ollner(参考訳) 都市交通シナリオにおける効率的な運転には予見が必要である。 他の交通参加者の観察と、その行動による次の行動の推測は、協調的な予測と計画であると考えられる。 人間は、複数の相互作用する交通参加者の行動を予測し、それに応じて計画する能力を備えており、他人と直接通信する必要がない。 先行研究は、明示的なコミュニケーションを必要とせずに効果的な協調計画が達成可能であることを示した。 しかし,協調計画のための探索空間が大きすぎて,計算予算の大部分は,解から遠く離れた未予測領域における探索空間の探索に費やされている。 計画プロセスを加速するために,学習ヒューリスティックスと協調計画法を組み合わせることで,有望な行動を伴う地域への探索を誘導し,より低い計算コストでより良い解を得る。

Efficient driving in urban traffic scenarios requires foresight. The observation of other traffic participants and the inference of their possible next actions depending on the own action is considered cooperative prediction and planning. Humans are well equipped with the capability to predict the actions of multiple interacting traffic participants and plan accordingly, without the need to directly communicate with others. Prior work has shown that it is possible to achieve effective cooperative planning without the need for explicit communication. However, the search space for cooperative plans is so large that most of the computational budget is spent on exploring the search space in unpromising regions that are far away from the solution. To accelerate the planning process, we combined learned heuristics with a cooperative planning method to guide the search towards regions with promising actions, yielding better solutions at lower computational costs.
翻訳日:2023-01-04 19:55:11 公開日:2020-05-22
# 時間論理仕様を用いた学習的実証実験

Elaborating on Learned Demonstrations with Temporal Logic Specifications ( http://arxiv.org/abs/2002.00784v2 )

ライセンス: Link先を確認
Craig Innes, Subramanian Ramamoorthy(参考訳) デモから学ぶための現在のほとんどの方法は、これらのデモだけで基礎となるタスクを学ぶのに十分だと仮定している。 これはしばしば事実ではなく、特に元のデモにはなかった追加の安全仕様が存在する場合である。 本稿では,線形時間論理(LTL)を用いた仕様情報を追加して,専門家が元のデモについて詳しく説明する。 本システムはltl仕様を微分可能損失に変換する。 この損失は、元のデモに近いまま、基盤となる仕様を満たす動的運動プリミティブを学ぶために使用される。 さらに, 対戦型学習を活用することで, 学習中の学習者だけでなく, 未知の入力に対するLTL仕様をしっかりと満たすことができる。 本研究では, 障害物回避, パトロール, 安定維持, 速度制限など, さまざまな共通動作仕様パターンにまたがる動作を表現できることを示す。 さらに,複数の簡単な仕様をインクリメンタルに構成することで,複雑な仕様でベースデモを修正できることを示す。 また,本システムをpr-2ロボットに実装して,デモ参加者が最初の(副最適)デモンストレーションから始める方法を示し,その上で,識別可能なltl損失で強制される追加仕様を含め,対話的にタスク成功率の向上を図る。

Most current methods for learning from demonstrations assume that those demonstrations alone are sufficient to learn the underlying task. This is often untrue, especially if extra safety specifications exist which were not present in the original demonstrations. In this paper, we allow an expert to elaborate on their original demonstration with additional specification information using linear temporal logic (LTL). Our system converts LTL specifications into a differentiable loss. This loss is then used to learn a dynamic movement primitive that satisfies the underlying specification, while remaining close to the original demonstration. Further, by leveraging adversarial training, our system learns to robustly satisfy the given LTL specification on unseen inputs, not just those seen in training. We show that our method is expressive enough to work across a variety of common movement specification patterns such as obstacle avoidance, patrolling, keeping steady, and speed limitation. In addition, we show that our system can modify a base demonstration with complex specifications by incrementally composing multiple simpler specifications. We also implement our system on a PR-2 robot to show how a demonstrator can start with an initial (sub-optimal) demonstration, then interactively improve task success by including additional specifications enforced with our differentiable LTL loss.
翻訳日:2023-01-04 08:40:32 公開日:2020-05-22
# 確率的時間的ランキングを用いたロボット超音波スキャンの学習報酬

Learning rewards for robotic ultrasound scanning using probabilistic temporal ranking ( http://arxiv.org/abs/2002.01240v2 )

ライセンス: Link先を確認
Michael Burke, Katie Lu, Daniel Angelov, Art\=uras Strai\v{z}ys, Craig Innes, Kartic Subr, Subramanian Ramamoorthy(参考訳) 本稿では,実例に基づく探索課題をロボットが学習する一般的な問題,あるいは'emph{human demos} に対処する。 例えば、超音波スキャンの問題を考察し、実験では、プローブと表面組織との最適な接触を維持しながら、内部臓器、血管または組織および潜在的な異常を満足度の高い視点で、専門家が適応的に探索する。 このような問題は、しばしば、最適化されたときにデモを模倣する計画をもたらす記法 \emph{rewards} を推論することによって解決される。 報酬の高い計画の方が指数関数的に高いという重要な仮定は、ロボット工学における報酬推論の事実上のアプローチにつながる。 最大エントロピー逆強化学習のアプローチは一般的でエレガントな定式化につながるが、しばしば遭遇する準最適演示に対処するのに苦労する。 本稿では,準最適実証が頻繁に発生する問題に対処するための代替手法を提案する。 我々は、発見を必要とするタスクにおいて、デモンストレーションの連続した状態は、より高い報酬と関連づけられる可能性が高いと仮定する。 我々は,このemph{temporal ranking}アプローチを定式化し,医療画像における実演から学ぶ新しい応用である自律型超音波スキャンの報酬推論を行うために,最大エントロピーアプローチを改善することを示す。

This paper addresses a common class of problems where a robot learns to perform a discovery task based on example solutions, or \emph{human demonstrations}. As an example, this work considers the problem of ultrasound scanning, where a demonstration involves an expert adaptively searching for a satisfactory view of internal organs, vessels or tissue and potential anomalies while maintaining optimal contact between the probe and surface tissue. Such problems are often solved by inferring notional \emph{rewards} that, when optimised for, result in a plan that mimics demonstrations. A pivotal assumption, that plans with higher reward should be exponentially more likely, leads to the de facto approach for reward inference in robotics. While this approach of maximum entropy inverse reinforcement learning leads to a general and elegant formulation, it struggles to cope with frequently encountered sub-optimal demonstrations. In this paper, we propose an alternative approach to cope with the class of problems where sub-optimal demonstrations occur frequently. We hypothesise that, in tasks which require discovery, successive states of any demonstration are progressively more likely to be associated with a higher reward. We formalise this \emph{temporal ranking} approach and show that it improves upon maximum-entropy approaches to perform reward inference for autonomous ultrasound scanning, a novel application of learning from demonstration in medical imaging.
翻訳日:2023-01-04 03:35:26 公開日:2020-05-22
# Knowledge Federation: 統一的で階層的なプライバシ保護AIフレームワーク

Knowledge Federation: A Unified and Hierarchical Privacy-Preserving AI Framework ( http://arxiv.org/abs/2002.01647v3 )

ライセンス: Link先を確認
Hongyu Li, Dan Meng, Hong Wang and Xiaolin Li(参考訳) 厳格な保護とデータのプライバシとセキュリティの規制により、集中型データセットに基づく従来の機械学習は、大きな課題に直面し、金融、政府、健康など、ミッションクリティカルでデータに敏感な多くのシナリオにおいて、人工知能(ai)が非現実的になる。 一方、膨大なデータセットは、さまざまな産業、組織、組織の異なるユニット、または国際組織の異なるブランチで、孤立したサイロに散らばっています。 これらの貴重なデータリソースは十分に使われていない。 AI理論と応用を前進させるために、データプライバシとオーナシップを維持しながらAIを有効にすることにより、これらの課題に対処する包括的なフレームワーク(知識フェデレーション - KF)を提案する。 Beyond the concepts of federated learning and secure multi-party computation, KF consists of four levels of federation: (1) information level, low-level statistics and computation of data, meeting the requirements of simple queries, searching and simplistic operators; (2) model level, supporting training, learning, and inference; (3) cognition level, enabling abstract feature representation at various levels of abstractions and contexts; (4) knowledge level, fusing knowledge discovery, representation, and reasoning. さらに,知識フェデレーションと他の関連研究領域との関係と分化を明らかにする。 我々は,金融,保険等における産業アプリケーションを実現するために,生産品質の高いkfプラットフォームを提供するために,kfのリファレンス実装であるibond platformを開発した。 iBondプラットフォームはまた、KFコミュニティと包括的なエコシステムの確立を支援し、安全でプライバシーを保護し、責任を負うAIへの新たなパラダイムシフトを促進する。 私たちの知る限りでは、知識フェデレーションは、セキュアなマルチパーティコンピューティングと学習のための、最初の階層的で統一されたフレームワークです。

With strict protections and regulations of data privacy and security, conventional machine learning based on centralized datasets is confronted with significant challenges, making artificial intelligence (AI) impractical in many mission-critical and data-sensitive scenarios, such as finance, government, and health. In the meantime, tremendous datasets are scattered in isolated silos in various industries, organizations, different units of an organization, or different branches of an international organization. These valuable data resources are well underused. To advance AI theories and applications, we propose a comprehensive framework (called Knowledge Federation - KF) to address these challenges by enabling AI while preserving data privacy and ownership. Beyond the concepts of federated learning and secure multi-party computation, KF consists of four levels of federation: (1) information level, low-level statistics and computation of data, meeting the requirements of simple queries, searching and simplistic operators; (2) model level, supporting training, learning, and inference; (3) cognition level, enabling abstract feature representation at various levels of abstractions and contexts; (4) knowledge level, fusing knowledge discovery, representation, and reasoning. We further clarify the relationship and differentiation between knowledge federation and other related research areas. We have developed a reference implementation of KF, called iBond Platform, to offer a production-quality KF platform to enable industrial applications in finance, insurance et al. The iBond platform will also help establish the KF community and a comprehensive ecosystem and usher in a novel paradigm shift towards secure, privacy-preserving and responsible AI. As far as we know, knowledge federation is the first hierarchical and unified framework for secure multi-party computing and learning.
翻訳日:2023-01-03 21:11:11 公開日:2020-05-22
# 高忠実度・時間一貫性映像予測のための時空間多重周波数解析の探索

Exploring Spatial-Temporal Multi-Frequency Analysis for High-Fidelity and Temporal-Consistency Video Prediction ( http://arxiv.org/abs/2002.09905v2 )

ライセンス: Link先を確認
Beibei Jin, Yu Hu, Qiankun Tang, Jingyu Niu, Zhiping Shi, Yinhe Han, Xiaowei Li(参考訳) ビデオ予測は、過去のフレームに基づいて将来のフレームを推測するピクセルワイドな予測タスクである。 外観の詳細と動きのぼけは、現在の予測モデルでは依然として2つの大きな問題であり、画像の歪みと時間的矛盾をもたらす。 本稿では,この2つの問題に対処するためにマルチ周波数解析の必要性を指摘する。 HVS(Human Vision System)の周波数帯域分解特性に着想を得て,マルチレベルウェーブレット解析に基づく映像予測ネットワークを提案する。 具体的には、マルチレベル空間離散ウェーブレット変換は、各ビデオフレームを複数の周波数を持つ異方性サブバンドに分解し、構造情報を強化し詳細を保存する。 一方、時間軸で動作する多段階離散ウェーブレット変換では、フレーム列を異なる周波数のサブバンドグループに分解し、固定フレームレートで正確にマルチ周波数動作をキャプチャする。 多様なデータセットに対する大規模な実験により、我々のモデルは最先端の作業に対して忠実さと時間的一貫性を著しく改善したことを示す。

Video prediction is a pixel-wise dense prediction task to infer future frames based on past frames. Missing appearance details and motion blur are still two major problems for current predictive models, which lead to image distortion and temporal inconsistency. In this paper, we point out the necessity of exploring multi-frequency analysis to deal with the two problems. Inspired by the frequency band decomposition characteristic of Human Vision System (HVS), we propose a video prediction network based on multi-level wavelet analysis to deal with spatial and temporal information in a unified manner. Specifically, the multi-level spatial discrete wavelet transform decomposes each video frame into anisotropic sub-bands with multiple frequencies, helping to enrich structural information and reserve fine details. On the other hand, multi-level temporal discrete wavelet transform which operates on time axis decomposes the frame sequence into sub-band groups of different frequencies to accurately capture multi-frequency motions under a fixed frame rate. Extensive experiments on diverse datasets demonstrate that our model shows significant improvements on fidelity and temporal consistency over state-of-the-art works.
翻訳日:2022-12-29 09:46:14 公開日:2020-05-22
# 変分オートエンコーダの分散損失

Variance Loss in Variational Autoencoders ( http://arxiv.org/abs/2002.09860v2 )

ライセンス: Link先を確認
Andrea Asperti(参考訳) 本稿では,異なるネットワークアーキテクチャとデータセットによる広範な実験から得られた変分オートコーダの大きな問題について紹介する: 生成されたデータの分散は,トレーニングデータよりも著しく低い。 生成モデルは通常、実画像と生成された画像の分布を比較するFrechet Inception Distance (FID)のようなメトリクスで評価されるため、分散損失は通常、劣化したスコアをもたらす。 この問題は、第2のVAEを用いて第1のVAEの潜伏空間をサンプリングする2段階の設定において特に重要である。 小分散は、潜伏変数の実際の分布と第二のVAEによって生成される変数とのミスマッチを生じさせ、第二のステージの有益な効果を妨げる。 第2のVAEの出力を通常の球面分布に再正規化することにより、FIDの観点からも証明されるように、生成したサンプルの品質の急激なバーストが得られる。

In this article, we highlight what appears to be major issue of Variational Autoencoders, evinced from an extensive experimentation with different network architectures and datasets: the variance of generated data is significantly lower than that of training data. Since generative models are usually evaluated with metrics such as the Frechet Inception Distance (FID) that compare the distributions of (features of) real versus generated images, the variance loss typically results in degraded scores. This problem is particularly relevant in a two stage setting, where we use a second VAE to sample in the latent space of the first VAE. The minor variance creates a mismatch between the actual distribution of latent variables and those generated by the second VAE, that hinders the beneficial effects of the second stage. Renormalizing the output of the second VAE towards the expected normal spherical distribution, we obtain a sudden burst in the quality of generated samples, as also testified in terms of FID.
翻訳日:2022-12-29 09:10:45 公開日:2020-05-22
# 閉ループ問題:単一画像超解法のためのデュアル回帰ネットワーク

Closed-loop Matters: Dual Regression Networks for Single Image Super-Resolution ( http://arxiv.org/abs/2003.07018v4 )

ライセンス: Link先を確認
Yong Guo, Jian Chen, Jingdong Wang, Qi Chen, Jiezhang Cao, Zeshuai Deng, Yanwu Xu, Mingkui Tan(参考訳) ディープニューラルネットワークは、低解像度(LR)画像から高解像度(HR)画像への非線形マッピング関数を学習することで、画像超解像(SR)において有望な性能を示した。 しかし、既存のSR法には2つの根本的な制限がある。 まず、LRからHR画像へのマッピング関数の学習は、同じLR画像にダウンサンプリングできる無限のHR画像が存在するため、一般的に不適切な問題である。 その結果、可能な関数の空間は非常に大きくなり、良い解を見つけるのが難しくなる。 第二に、LR-HRのペアデータは現実世界のアプリケーションでは利用できない場合がある。 このようなより一般的な場合、既存のSRモデルは適応問題を引き起こし、性能が劣る。 上記の問題に対処するために,可能関数の空間を削減するために,LRデータに新たな制約を導入することで,二重回帰方式を提案する。 具体的には、LRイメージからHRイメージへのマッピングに加えて、ダウンサンプリングカーネルを推定し、LRイメージを再構築し、クローズドループを形成し、さらなる監視を提供する。 さらに、二重回帰過程はHR画像に依存しないので、LR画像から直接学習することができる。 この意味で、SRモデルを実世界のデータ、例えばYouTubeの生のビデオフレームに簡単に適応させることができる。 ペアトレーニングデータと非ペアの現実世界データによる広範な実験は、既存の方法よりも優れていることを示している。

Deep neural networks have exhibited promising performance in image super-resolution (SR) by learning a nonlinear mapping function from low-resolution (LR) images to high-resolution (HR) images. However, there are two underlying limitations to existing SR methods. First, learning the mapping function from LR to HR images is typically an ill-posed problem, because there exist infinite HR images that can be downsampled to the same LR image. As a result, the space of the possible functions can be extremely large, which makes it hard to find a good solution. Second, the paired LR-HR data may be unavailable in real-world applications and the underlying degradation method is often unknown. For such a more general case, existing SR models often incur the adaptation problem and yield poor performance. To address the above issues, we propose a dual regression scheme by introducing an additional constraint on LR data to reduce the space of the possible functions. Specifically, besides the mapping from LR to HR images, we learn an additional dual regression mapping estimates the down-sampling kernel and reconstruct LR images, which forms a closed-loop to provide additional supervision. More critically, since the dual regression process does not depend on HR images, we can directly learn from LR images. In this sense, we can easily adapt SR models to real-world data, e.g., raw video frames from YouTube. Extensive experiments with paired training data and unpaired real-world data demonstrate our superiority over existing methods.
翻訳日:2022-12-23 03:22:33 公開日:2020-05-22
# ガス分類器をセンサドリフトに頑健にするためにコンテキストを使用する

Using context to make gas classifiers robust to sensor drift ( http://arxiv.org/abs/2003.07292v2 )

ライセンス: Link先を確認
J. Warner, A. Devaraj, and R. Miikkulainen(参考訳) ガス粒子と金属酸化物系ガスセンサとの相互作用は、センサを不可逆的に変化させる。 センサードリフトと呼ばれる複合的な変化は不安定であるが、適応アルゴリズムは匂いセンサーシステムの精度を維持することができる。 本稿では,ドリフト発生後に,あるタイムウィンドウから次のウィンドウに知識を転送することにより,追加データ取得をすることなく,システムをどのように定義できるかを示す。 コンテキストベースのニューラルネットワークモデルは、センサ状態の潜在表現を形成するために使用され、一連の状態の一般化を可能にする。 その後の未発見の時間窓からサンプルをテストしたところ、このアプローチはガスセンサアレイドリフトデータセットのドリフトナイーブ法やアンサンブル法よりも優れていた。 センサドリフトが分類精度に与える影響を減らすことで、実運用環境でのガス識別システムの有効寿命を延長するためにコンテキストベースモデルを用いることができる。

The interaction of a gas particle with a metal-oxide based gas sensor changes the sensor irreversibly. The compounded changes, referred to as sensor drift, are unstable, but adaptive algorithms can sustain the accuracy of odor sensor systems. This paper shows how such a system can be defined without additional data acquisition by transfering knowledge from one time window to a subsequent one after drift has occurred. A context-based neural network model is used to form a latent representation of sensor state, thus making it possible to generalize across a sequence of states. When tested on samples from unseen subsequent time windows, the approach performed better than drift-naive and ensemble methods on a gas sensor array drift dataset. By reducing the effect that sensor drift has on classification accuracy, context-based models may be used to extend the effective lifetime of gas identification systems in practical settings.
翻訳日:2022-12-23 02:38:39 公開日:2020-05-22
# アンサンブルを用いた分布強化学習

Distributional Reinforcement Learning with Ensembles ( http://arxiv.org/abs/2003.10903v2 )

ライセンス: Link先を確認
Bj\"orn Lindenberg, Jonas Nordqvist, Karl-Olof Lindahl(参考訳) アンサンブル法は強化学習における性能を高めることがよく知られている。 本稿では,分散強化学習パラダイムにおけるグループ支援トレーニングを用いて,この概念をさらに探究する。 具体的には,アンサンブルが収集した全情報に基づいて分布学習対象を暗黙的に求めるカテゴリー強化学習の拡張を提案する。 経験的に、これはより堅牢な初期学習につながり、個々のパフォーマンスレベルが向上し、サンプル単位の効率が向上することを示している。

It is well known that ensemble methods often provide enhanced performance in reinforcement learning. In this paper, we explore this concept further by using group-aided training within the distributional reinforcement learning paradigm. Specifically, we propose an extension to categorical reinforcement learning, where distributional learning targets are implicitly based on the total information gathered by an ensemble. We empirically show that this may lead to much more robust initial learning, a stronger individual performance level, and good efficiency on a per-sample basis.
翻訳日:2022-12-20 08:06:06 公開日:2020-05-22
# ブラインド用ウェアラブルカメラを用いた歩行者検出:双方向視点

Pedestrian Detection with Wearable Cameras for the Blind: A Two-way Perspective ( http://arxiv.org/abs/2003.12122v2 )

ライセンス: Link先を確認
Kyungjun Lee, Daisuke Sato, Saki Asakawa, Hernisa Kacorri, Chieko Asakawa(参考訳) 盲目の人々は周囲の情報へのアクセスが限られており、安全を確保し、社会的相互作用を管理し、接近する歩行者を特定するのに重要である。 コンピュータビジョンの進歩により、ウェアラブルカメラはそのような情報に適切なアクセスを提供することができる。 しかし、これらの補助技術の常備的な性質は、記録されるかもしれない関係者のプライバシー上の懸念を引き起こす。 視覚障害者と視覚障害者の両方の観点からこの緊張感を探求し、カメラの視認性、対人対遠隔体験、視覚情報の抽出を考慮に入れた。 MTurkers (N=206) を用いたオンライン調査と、視覚障害者(N=10) と視覚障害者(N=40) のペアによる個人体験調査の2つの研究を行った。 以上の結果から, 利用者の視点と傍観者, 上記の要因は, 社会的緊張を緩和するために慎重に考慮する必要があることが示唆された。

Blind people have limited access to information about their surroundings, which is important for ensuring one's safety, managing social interactions, and identifying approaching pedestrians. With advances in computer vision, wearable cameras can provide equitable access to such information. However, the always-on nature of these assistive technologies poses privacy concerns for parties that may get recorded. We explore this tension from both perspectives, those of sighted passersby and blind users, taking into account camera visibility, in-person versus remote experience, and extracted visual information. We conduct two studies: an online survey with MTurkers (N=206) and an in-person experience study between pairs of blind (N=10) and sighted (N=40) participants, where blind participants wear a working prototype for pedestrian detection and pass by sighted participants. Our results suggest that both of the perspectives of users and bystanders and the several factors mentioned above need to be carefully considered to mitigate potential social tensions.
翻訳日:2022-12-19 22:08:04 公開日:2020-05-22
# XGLUE: 言語間事前トレーニング,理解,生成のためのベンチマークデータセット

XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation ( http://arxiv.org/abs/2004.01401v3 )

ライセンス: Link先を確認
Yaobo Liang, Nan Duan, Yeyun Gong, Ning Wu, Fenfei Guo, Weizhen Qi, Ming Gong, Linjun Shou, Daxin Jiang, Guihong Cao, Xiaodong Fan, Ruofei Zhang, Rahul Agrawal, Edward Cui, Sining Wei, Taroon Bharti, Ying Qiao, Jiun-Hung Chen, Winnie Wu, Shuguang Liu, Fan Yang, Daniel Campos, Rangan Majumder, Ming Zhou(参考訳) 本稿では,マルチリンガルコーパスとバイリンガルコーパスを用いた大規模クロスリンガルプリトレーニングモデルのトレーニングと,さまざまなクロスリンガルタスクにおけるパフォーマンス評価に使用可能な,新たなベンチマークデータセットであるxglueを提案する。 自然言語理解タスクのみに英語でラベル付けされているGLUE(Wang et al., 2019)と比較して、XGLUEには2つの大きな利点がある。 我々は,近年の言語間事前学習モデルUnicoder(Huang et al., 2019)を拡張し,XGLUEを強力なベースラインとして評価する。 また,多言語BERT,XLM,XLM-Rのベースバージョン(12層)を比較検討した。

In this paper, we introduce XGLUE, a new benchmark dataset that can be used to train large-scale cross-lingual pre-trained models using multilingual and bilingual corpora and evaluate their performance across a diverse set of cross-lingual tasks. Comparing to GLUE(Wang et al., 2019), which is labeled in English for natural language understanding tasks only, XGLUE has two main advantages: (1) it provides 11 diversified tasks that cover both natural language understanding and generation scenarios; (2) for each task, it provides labeled data in multiple languages. We extend a recent cross-lingual pre-trained model Unicoder(Huang et al., 2019) to cover both understanding and generation tasks, which is evaluated on XGLUE as a strong baseline. We also evaluate the base versions (12-layer) of Multilingual BERT, XLM and XLM-R for comparison.
翻訳日:2022-12-17 04:28:39 公開日:2020-05-22
# 言語構造のための情報理論探索

Information-Theoretic Probing for Linguistic Structure ( http://arxiv.org/abs/2004.03061v2 )

ライセンス: Link先を確認
Tiago Pimentel, Josef Valvoda, Rowan Hall Maudslay, Ran Zmigrod, Adina Williams, Ryan Cotterell(参考訳) NLPタスクの多様なセットにおけるニューラルネットワークの成功により、研究者たちは、これらのネットワークが自然言語について実際に「知識」であるかを疑問視するようになった。 プローブはこのことを評価する自然な方法です。 調査中、研究者は言語的タスクを選択し、ネットワークの学習した表現から言語的タスクのアノテーションを予測するために教師付きモデルを訓練する。 プローブがうまくいった場合、研究者は、表象はタスクに関連する知識をエンコードしていると結論づけることができる。 論理学は、単純なモデルは言語構造を識別するが、タスク自体を学習しない、というものである。 本稿では,この知恵に反する相互情報を推定する情報理論の運用について提案する: より複雑である場合でも,常に最高性能のプローブを選択すべきであり,その結果,より厳密な推定結果となり,表現に固有の言語情報を明らかにする。 本論文は,言語特性とbert間の相互情報を経験的に推定することに焦点を当て,これらの推定値といくつかのベースラインを比較した。 我々は、NLP研究でしばしば表現されていない10の型的多様言語について評価する。

The success of neural networks on a diverse set of NLP tasks has led researchers to question how much these networks actually ``know'' about natural language. Probes are a natural way of assessing this. When probing, a researcher chooses a linguistic task and trains a supervised model to predict annotations in that linguistic task from the network's learned representations. If the probe does well, the researcher may conclude that the representations encode knowledge related to the task. A commonly held belief is that using simpler models as probes is better; the logic is that simpler models will identify linguistic structure, but not learn the task itself. We propose an information-theoretic operationalization of probing as estimating mutual information that contradicts this received wisdom: one should always select the highest performing probe one can, even if it is more complex, since it will result in a tighter estimate, and thus reveal more of the linguistic information inherent in the representation. The experimental portion of our paper focuses on empirically estimating the mutual information between a linguistic property and BERT, comparing these estimates to several baselines. We evaluate on a set of ten typologically diverse languages often underrepresented in NLP research---plus English---totalling eleven languages.
翻訳日:2022-12-15 22:54:10 公開日:2020-05-22
# スライド画像全体の計算病理の効率的かつ弱い教師付きデータ

Data Efficient and Weakly Supervised Computational Pathology on Whole Slide Images ( http://arxiv.org/abs/2004.09666v2 )

ライセンス: Link先を確認
Ming Y. Lu, Drew F. K. Williamson, Tiffany Y. Chen, Richard J. Chen, Matteo Barbieri and Faisal Mahmood(参考訳) 急速に発展する計算病理学の分野は、客観的診断、治療応答予測、臨床関連性の新たな形態学的特徴の同定を可能にする可能性がある。 しかし、ディープラーニングベースの計算病理学アプローチでは、完全な教師付き環境ではギガピクセル全体のスライド画像(WSI)のマニュアルアノテーションを必要とするか、弱い教師付き環境ではスライドレベルのラベルを持つ何千ものWSIを必要とする。 さらに、全体のスライドレベルの計算病理学手法はドメイン適応や解釈可能性の問題も抱えている。 これらの課題は、臨床および研究目的での計算病理学の広範な適応を妨げる。 本稿では,データ効率,適応性,マルチクラスのサブタイピング問題に対処可能な,クラスタリングに制約のある複数インスタンス学習,使いやすさ,高スループット,解釈可能なWSIレベルの処理および学習方法を提案する。 CLAMは、注目に基づく学習を用いて、スライド全体を正確に分類するために、高い診断値のサブリージョンを自動的に識別し、また特徴空間を制約し洗練するために特定された代表領域上のインスタンスレベルのクラスタリングを利用する。 3つの分析結果から,clamのデータ効率と適応性,および標準弱教師付き分類よりも優れた性能を示す。 CLAMモデルは解釈可能であり、よく知られた新しい形態的特徴を識別することができる。 さらに,clamを用いてトレーニングしたモデルが,独立したテストコホート,携帯電話顕微鏡画像,生検に適応可能であることも示す。 CLAMは汎用的で適応可能な手法であり、臨床と研究の両方で様々な計算病理タスクに使用できる。

The rapidly emerging field of computational pathology has the potential to enable objective diagnosis, therapeutic response prediction and identification of new morphological features of clinical relevance. However, deep learning-based computational pathology approaches either require manual annotation of gigapixel whole slide images (WSIs) in fully-supervised settings or thousands of WSIs with slide-level labels in a weakly-supervised setting. Moreover, whole slide level computational pathology methods also suffer from domain adaptation and interpretability issues. These challenges have prevented the broad adaptation of computational pathology for clinical and research purposes. Here we present CLAM - Clustering-constrained attention multiple instance learning, an easy-to-use, high-throughput, and interpretable WSI-level processing and learning method that only requires slide-level labels while being data efficient, adaptable and capable of handling multi-class subtyping problems. CLAM is a deep-learning-based weakly-supervised method that uses attention-based learning to automatically identify sub-regions of high diagnostic value in order to accurately classify the whole slide, while also utilizing instance-level clustering over the representative regions identified to constrain and refine the feature space. In three separate analyses, we demonstrate the data efficiency and adaptability of CLAM and its superior performance over standard weakly-supervised classification. We demonstrate that CLAM models are interpretable and can be used to identify well-known and new morphological features. We further show that models trained using CLAM are adaptable to independent test cohorts, cell phone microscopy images, and biopsies. CLAM is a general-purpose and adaptable method that can be used for a variety of different computational pathology tasks in both clinical and research settings.
翻訳日:2022-12-11 18:30:47 公開日:2020-05-22
# CMRNet++:LiDARマップにおけるマップとカメラ非依存の単眼視覚像定位

CMRNet++: Map and Camera Agnostic Monocular Visual Localization in LiDAR Maps ( http://arxiv.org/abs/2004.13795v2 )

ライセンス: Link先を確認
Daniele Cattaneo, Domenico Giorgio Sorrenti, Abhinav Valada(参考訳) ローカライゼーションは自律ロボットにとって極めて重要かつ不可欠な実現手段である。 ディープラーニングは多くのコンピュータビジョンタスクにおいて大きな進歩を遂げてきたが、メトリクスの視覚的ローカライゼーションの能力向上にはまだ大きな影響を与えていない。 主要な障害の1つは、既存の畳み込みニューラルネットワーク(CNN)ベースのポーズ回帰手法が、これまで見つからなかった場所に一般化できないことである。 最近導入したCMRNetは、LiDAR-mapsにおけるマップ独立な単分子局在化を可能にすることにより、この制限に効果的に対処する。 本稿では,CMRNet++を導入することでさらに一歩進める。CMRNet++は,新しい場所に効果的に一般化するだけでなく,カメラパラメータにも依存しない,はるかに堅牢なモデルである。 我々は,深層学習と幾何学的手法を組み合わせることで,メトリクス推論を学習プロセス外に移動させることにより,この能力を実現する。 このように、ネットワークの重みは特定のカメラに縛られていない。 3つの挑戦的な自律運転データセット(KITTI、Argoverse、Lyft5)に対するCMRNet++の大規模な評価は、CMRNetと他のベースラインを大きなマージンで上回ることを示している。 より重要なことは、初めて、全く新しい環境で再トレーニングや微調整をすることなく、カメラパラメータに依存しない、正確なローカライズを行うディープラーニングアプローチの能力を示すことだ。

Localization is a critically essential and crucial enabler of autonomous robots. While deep learning has made significant strides in many computer vision tasks, it is still yet to make a sizeable impact on improving capabilities of metric visual localization. One of the major hindrances has been the inability of existing Convolutional Neural Network (CNN)-based pose regression methods to generalize to previously unseen places. Our recently introduced CMRNet effectively addresses this limitation by enabling map independent monocular localization in LiDAR-maps. In this paper, we now take it a step further by introducing CMRNet++, which is a significantly more robust model that not only generalizes to new places effectively, but is also independent of the camera parameters. We enable this capability by combining deep learning with geometric techniques, and by moving the metric reasoning outside the learning process. In this way, the weights of the network are not tied to a specific camera. Extensive evaluations of CMRNet++ on three challenging autonomous driving datasets, i.e., KITTI, Argoverse, and Lyft5, show that CMRNet++ outperforms CMRNet as well as other baselines by a large margin. More importantly, for the first-time, we demonstrate the ability of a deep learning approach to accurately localize without any retraining or fine-tuning in a completely new environment and independent of the camera parameters.
翻訳日:2022-12-11 18:30:18 公開日:2020-05-22
# アテンションルーティング:注意に基づく強化学習を用いたトラック割り当て詳細ルーティング

Attention Routing: track-assignment detailed routing using attention-based reinforcement learning ( http://arxiv.org/abs/2004.09473v2 )

ライセンス: Link先を確認
Haiguang Liao, Qingyi Dong, Xuliang Dong, Wentai Zhang, Wangyang Zhang, Weiyi Qi, Elias Fallon, Levent Burak Kara(参考訳) 集積回路の物理設計において、大域的および詳細なルーティングは、設計制約を満たしながら、回路上の各ネットの相互接続経路を決定する重要な段階である。 既存のルータとルタビリティ予測器は、高い計算時間に繋がる高価なアプローチを採用するか、一般化しないヒューリスティックを使用するかのどちらかである。 このニーズに対処するために、新しい学習ベースのルーティング手法が提案されているが、ラベル付きデータに対する要求と複雑な設計規則の制約に対処することの難しさは、高度な技術ノード物理設計問題において採用を制限している。 本研究では,新しいルータであるアテンションルータを提案する。これは強化学習を用いたトラック割り当ての詳細なルーティング問題を解決する最初の試みである。 複雑な設計ルールの制約はルーティングアルゴリズムにエンコードされ、ルーティングにおける最も重要なステップを解決するために注意モデルに基づく強化アルゴリズムが適用される。 注目ルータとそのベースライン遺伝ルータは、異なる商用先進技術アナログ回路の問題を解決するために応用される。 アテンションルータは、問題を認識できない一般化能力を示し、ルーティングソリューションの品質を損なうことなく、遺伝子ルータ上で100倍以上の高速化を実現することができる。 また,アテンションルータとベースライン遺伝ルータの類似性を,コストとルーティングパターンの正の相関性の観点から明らかにし,アテンションルータを詳細なルータとしてだけでなく,乱れや混雑の予測器としても利用できることを示す。

In the physical design of integrated circuits, global and detailed routing are critical stages involving the determination of the interconnected paths of each net on a circuit while satisfying the design constraints. Existing actual routers as well as routability predictors either have to resort to expensive approaches that lead to high computational times, or use heuristics that do not generalize well. Even though new, learning-based routing methods have been proposed to address this need, requirements on labelled data and difficulties in addressing complex design rule constraints have limited their adoption in advanced technology node physical design problems. In this work, we propose a new router: attention router, which is the first attempt to solve the track-assignment detailed routing problem using reinforcement learning. Complex design rule constraints are encoded into the routing algorithm and an attention-model-based REINFORCE algorithm is applied to solve the most critical step in routing: sequencing device pairs to be routed. The attention router and its baseline genetic router are applied to solve different commercial advanced technologies analog circuits problem sets. The attention router demonstrates generalization ability to unseen problems and is also able to achieve more than 100 times acceleration over the genetic router without significantly compromising the routing solution quality. We also discover a similarity between the attention router and the baseline genetic router in terms of positive correlations in cost and routing patterns, which demonstrate the attention router's ability to be utilized not only as a detailed router but also as a predictor for routability and congestion.
翻訳日:2022-12-11 17:25:25 公開日:2020-05-22
# 視覚推論のための微分可能適応計算時間

Differentiable Adaptive Computation Time for Visual Reasoning ( http://arxiv.org/abs/2004.12770v3 )

ライセンス: Link先を確認
Cristobal Eyzaguirre, Alvaro Soto(参考訳) 本稿では,dactと呼ばれる適応計算を実現するための新しい注意に基づくアルゴリズムを提案する。 提案手法は,多くのネットワークと組み合わせて使用することができ,特に広く知られているMACアーキテクチャへの応用について検討し,類似の精度を達成するために必要な繰り返しステップの数を著しく削減し,計算性能を向上する。 さらに,使用したステップの最大数を増やすことで,CLEVRデータセットにおいて最高の非適応MACであっても精度を上回り,我々のアプローチが性能を著しく損なうことなくステップ数を制御可能であることを示す。 このアプローチによって提供されるその他の利点は、無駄なステップを捨てることによる解釈可能性の大幅な改善と、基礎となる推論プロセスに関する洞察の提供である。 最後に,適応計算を,専門家による定式化の混合と同様,モデルのアンサンブルに相当するものとして提示する。 実験用のコードと構成ファイルの両方が、この分野のさらなる研究をサポートするために利用できます。

This paper presents a novel attention-based algorithm for achieving adaptive computation called DACT, which, unlike existing ones, is end-to-end differentiable. Our method can be used in conjunction with many networks; in particular, we study its application to the widely known MAC architecture, obtaining a significant reduction in the number of recurrent steps needed to achieve similar accuracies, therefore improving its performance to computation ratio. Furthermore, we show that by increasing the maximum number of steps used, we surpass the accuracy of even our best non-adaptive MAC in the CLEVR dataset, demonstrating that our approach is able to control the number of steps without significant loss of performance. Additional advantages provided by our approach include considerably improving interpretability by discarding useless steps and providing more insights into the underlying reasoning process. Finally, we present adaptive computation as an equivalent to an ensemble of models, similar to a mixture of expert formulation. Both the code and the configuration files for our experiments are made available to support further research in this area.
翻訳日:2022-12-09 04:27:18 公開日:2020-05-22
# RadixSpline: シングルパス学習インデックス

RadixSpline: A Single-Pass Learned Index ( http://arxiv.org/abs/2004.14541v2 )

ライセンス: Link先を確認
Andreas Kipf, Ryan Marcus, Alexander van Renen, Mihail Stoian, Alfons Kemper, Tim Kraska, Thomas Neumann(参考訳) 最近の研究では、学習されたモデルは、最先端のインデックス構造をサイズとルックアップ性能で上回ることができることが示されている。 これは非常に有望な結果ですが、既存の学習構造は実装が面倒で、ビルドが遅くなります。 実際、私たちが認識しているほとんどのアプローチでは、データに複数のトレーニングパスが必要です。 radixspline (rs) はデータに対する単一のパスで構築でき、rmiのような最先端の学習インデックスモデルと競合し、サイズとルックアップのパフォーマンスが向上する学習インデックスである。 sosdベンチマークを用いてrsを評価し,2つのパラメータしか持たないにもかかわらず,すべてのデータセットで競争力のある結果が得られることを示す。

Recent research has shown that learned models can outperform state-of-the-art index structures in size and lookup performance. While this is a very promising result, existing learned structures are often cumbersome to implement and are slow to build. In fact, most approaches that we are aware of require multiple training passes over the data. We introduce RadixSpline (RS), a learned index that can be built in a single pass over the data and is competitive with state-of-the-art learned index models, like RMI, in size and lookup performance. We evaluate RS using the SOSD benchmark and show that it achieves competitive results on all datasets, despite the fact that it only has two parameters.
翻訳日:2022-12-08 05:36:44 公開日:2020-05-22
# ラプラシアン正則成層ガウス模型の適合

Fitting Laplacian Regularized Stratified Gaussian Models ( http://arxiv.org/abs/2005.01752v2 )

ライセンス: Link先を確認
Jonathan Tuck, Stephen Boyd(参考訳) データから複数の関連するゼロ平均ガウス分布を共同推定する問題を考える。 本稿では,各共分散行列に対する損失と正規化項を含むラプラシアン正規化成層モデルフィッティングと,異なる共分散行列を近接させる項を用いて,これら共分散行列を共同で推定することを提案する。 この手法は隣り合う共分散から強度を「ボロース」し、その推定を改善する。 適切に選択されたハイパーパラメータでは、特に低データ構造において、そのようなモデルは非常によく機能する。 本研究では,大規模な問題にスケールする分散手法を提案し,金融,レーダ信号処理,気象予報などの手法の有効性を示す。

We consider the problem of jointly estimating multiple related zero-mean Gaussian distributions from data. We propose to jointly estimate these covariance matrices using Laplacian regularized stratified model fitting, which includes loss and regularization terms for each covariance matrix, and also a term that encourages the different covariances matrices to be close. This method `borrows strength' from the neighboring covariances, to improve its estimate. With well chosen hyper-parameters, such models can perform very well, especially in the low data regime. We propose a distributed method that scales to large problems, and illustrate the efficacy of the method with examples in finance, radar signal processing, and weather forecasting.
翻訳日:2022-12-07 00:28:18 公開日:2020-05-22
# 階層的テキスト分類のための効率的な戦略 : 外部知識と補助タスク

Efficient strategies for hierarchical text classification: External knowledge and auxiliary tasks ( http://arxiv.org/abs/2005.02473v2 )

ライセンス: Link先を確認
Kervy Rivas Rojas, Gina Bustamante, Arturo Oncevay, Marco A. Sobrevilla Cabezudo(参考訳) 階層的なテキスト分類では、ある分類群の上位から下位までの文書の分類を予測するための一連の推論手順を実行する。 研究の大部分は、階層構造を扱う新しいニューラルネットワークアーキテクチャの開発に重点を置いているが、我々はベースラインモデルを強化する効率的な方法を探すことを好む。 まず、そのタスクをシーケンス対シーケンス問題と定義する。 その後,ボトムアップ分類の補助的合成タスクを提案する。 そして、外部辞書から全ての階層層のクラスに対するテキスト定義を取得し、それらを単語ベクトル空間にマッピングする。 クラス定義埋め込みを付加入力として次の層の予測と適応ビーム探索に使用する。 改良された検索では大きな利得が得られなかったが、補助タスクとクラス定義の追加入力の組み合わせにより、分類精度が著しく向上した。 効率的なアプローチでは、よく知られた2つの英語データセットにおいて、パラメータを劇的に減らし、過去の研究より優れていた。

In hierarchical text classification, we perform a sequence of inference steps to predict the category of a document from top to bottom of a given class taxonomy. Most of the studies have focused on developing novels neural network architectures to deal with the hierarchical structure, but we prefer to look for efficient ways to strengthen a baseline model. We first define the task as a sequence-to-sequence problem. Afterwards, we propose an auxiliary synthetic task of bottom-up-classification. Then, from external dictionaries, we retrieve textual definitions for the classes of all the hierarchy's layers, and map them into the word vector space. We use the class-definition embeddings as an additional input to condition the prediction of the next layer and in an adapted beam search. Whereas the modified search did not provide large gains, the combination of the auxiliary task and the additional input of class-definitions significantly enhance the classification accuracy. With our efficient approaches, we outperform previous studies, using a drastically reduced number of parameters, in two well-known English datasets.
翻訳日:2022-12-06 14:07:44 公開日:2020-05-22
# ジョンズホプキンス大学におけるCOVID-19時系列データの予測分析

Predictive Analysis of COVID-19 Time-series Data from Johns Hopkins University ( http://arxiv.org/abs/2005.05060v3 )

ライセンス: Link先を確認
Alireza M. Javid, Xinyue Liang, Arun Venkitaraman, Saikat Chatterjee(参考訳) 我々は、ジョンズホプキンス大学がオンラインで公開したデータセットを用いて、SARS-CoV-2としても知られる新型コロナウイルスの拡散の予測分析を行う。 私たちの主な目的は、今後14日以内に異なる国で感染した人の数を予測することです。 予測分析は対数スケールで変換された時系列データを用いて行われる。 予測には多項式回帰とニューラルネットワークの2つのよく知られた手法を用いる。 各国のトレーニングデータの数は限られているため、オーバーフィッティングを避けるために、extreme learning machine(elm)と呼ばれる単層ニューラルネットワークを使用します。 時系列の非定常性のため、スライディングウィンドウアプローチはより正確な予測を提供するために使用される。

We provide a predictive analysis of the spread of COVID-19, also known as SARS-CoV-2, using the dataset made publicly available online by the Johns Hopkins University. Our main objective is to provide predictions of the number of infected people for different countries in the next 14 days. The predictive analysis is done using time-series data transformed on a logarithmic scale. We use two well-known methods for prediction: polynomial regression and neural network. As the number of training data for each country is limited, we use a single-layer neural network called the extreme learning machine (ELM) to avoid over-fitting. Due to the non-stationary nature of the time-series, a sliding window approach is used to provide a more accurate prediction.
翻訳日:2022-12-06 00:08:18 公開日:2020-05-22
# マルチタイプ対話による会話推薦に向けて

Towards Conversational Recommendation over Multi-Type Dialogs ( http://arxiv.org/abs/2005.03954v3 )

ライセンス: Link先を確認
Zeming Liu, Haifeng Wang, Zheng-Yu Niu, Hua Wu, Wanxiang Che, Ting Liu(参考訳) 本稿では,非推奨ダイアログ(例えばqa)からレコメンデーションダイアログへ,ユーザの興味やフィードバックを考慮して,ボットが積極的に自然に会話を誘導できるマルチタイプダイアログよりも会話レコメンデーションの新たなタスクを提案する。 この課題の研究を容易にするために,推薦者(ユーザ)と推薦者(ボット)のペア毎に複数の逐次ダイアログを含む,人対人対中国語ダイアログデータセット \emph{DuRecDial} (約10kダイアログ,約156k発話) を作成する。 各ダイアログでは、リコメンデータが積極的にマルチタイプのダイアログを導き、レコメンデーションターゲットにアプローチし、リッチなインタラクション動作で複数のレコメンデーションを行う。 このデータセットは、ダイアログを自然にリードする方法、レコメンデーションのためにユーザと対話する方法など、問題全体のさまざまな部分を体系的に調査することができます。 最後に,今後の研究のためにDuRecDialのベースライン結果を確立する。 データセットとコードはhttps://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/ACL2020-DuRecDialで公開されている。

We propose a new task of conversational recommendation over multi-type dialogs, where the bots can proactively and naturally lead a conversation from a non-recommendation dialog (e.g., QA) to a recommendation dialog, taking into account user's interests and feedback. To facilitate the study of this task, we create a human-to-human Chinese dialog dataset \emph{DuRecDial} (about 10k dialogs, 156k utterances), which contains multiple sequential dialogs for every pair of a recommendation seeker (user) and a recommender (bot). In each dialog, the recommender proactively leads a multi-type dialog to approach recommendation targets and then makes multiple recommendations with rich interaction behavior. This dataset allows us to systematically investigate different parts of the overall problem, e.g., how to naturally lead a dialog, how to interact with users for recommendation. Finally we establish baseline results on DuRecDial for future studies. Dataset and codes are publicly available at https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/ACL2020-DuRecDial.
翻訳日:2022-12-05 11:40:38 公開日:2020-05-22
# 術中組織キャラクタリゼーションのためのフリーフォーム運動下の自律組織走査

Autonomous Tissue Scanning under Free-Form Motion for Intraoperative Tissue Characterisation ( http://arxiv.org/abs/2005.05050v3 )

ライセンス: Link先を確認
Jian Zhan, Joao Cartucho and Stamatia Giannarou(参考訳) 低侵襲手術(minimally invasive surgery, mis)では, 組織状態を可視化するために, イメージングプローブを用いた組織走査が必要である。 しかし, 変形の有無で大きな組織表面を走査することは, 外科医にとって難しい課題である。 近年,画像プローブの運動安定化のためのロボット支援局所組織走査法が研究され,高品質な画像の取得と外科医の認知負荷の低減が図られている。 それにもかかわらず、これらのアプローチは組織表面を静的または周期的な動きで変形させる必要がある。 これらの仮定をなくすために,自由形態の組織変形に対処できる自律型組織スキャンのための視覚サーボフレームワークを提案する。 手術場面の3次元構造を復元し, 組織の動きをリアルタイムに推定する特徴量に基づく手法を提案する。 所望の走査軌跡を基準フレーム上で手動で定義し、射影幾何学を用いて連続的に更新して組織の動きを追従し、ロボットアームの動きを制御する。 提案手法の利点は, 走査前に組織の動きの学習を必要とせず, 自由変形に対処できる点である。 超音波組織スキャンのためのda Vinci Research Kit (dVRK) を用いて, この枠組みをダヴィンチ手術ロボットに展開した。 このフレームワークは超音波データからの情報に依存しないので、他のプローブベースの画像モダリティにも容易に拡張できる。

In Minimally Invasive Surgery (MIS), tissue scanning with imaging probes is required for subsurface visualisation to characterise the state of the tissue. However, scanning of large tissue surfaces in the presence of deformation is a challenging task for the surgeon. Recently, robot-assisted local tissue scanning has been investigated for motion stabilisation of imaging probes to facilitate the capturing of good quality images and reduce the surgeon's cognitive load. Nonetheless, these approaches require the tissue surface to be static or deform with periodic motion. To eliminate these assumptions, we propose a visual servoing framework for autonomous tissue scanning, able to deal with free-form tissue deformation. The 3D structure of the surgical scene is recovered and a feature-based method is proposed to estimate the motion of the tissue in real-time. A desired scanning trajectory is manually defined on a reference frame and continuously updated using projective geometry to follow the tissue motion and control the movement of the robotic arm. The advantage of the proposed method is that it does not require the learning of the tissue motion prior to scanning and can deal with free-form deformation. We deployed this framework on the da Vinci surgical robot using the da Vinci Research Kit (dVRK) for Ultrasound tissue scanning. Since the framework does not rely on information from the Ultrasound data, it can be easily extended to other probe-based imaging modalities.
翻訳日:2022-12-04 20:57:07 公開日:2020-05-22
# スケッチのクラウド共同制作シナリオの検討

Exploring Crowd Co-creation Scenarios for Sketches ( http://arxiv.org/abs/2005.07328v2 )

ライセンス: Link先を確認
Devi Parikh and C. Lawrence Zitnick(参考訳) ヒトの群集と機械が効果的に共同創造する能力を研究するための第一歩として、人間のみの共同創造シナリオについて検討する。 各シナリオの目標は、シンプルなWebインターフェースを使用してデジタルスケッチを作成することです。 複数の人間が反復的にストロークを付加し、最高の追加に投票すると、最高の創造性(価値+新規性)を持つスケッチが生まれる。 コラボレーションの欠如により、品質のばらつきが高まり、ノベルティやサプライズが低下する。 投票なしのコラボレーションは、高いノベルティと低い品質につながる。

As a first step towards studying the ability of human crowds and machines to effectively co-create, we explore several human-only collaborative co-creation scenarios. The goal in each scenario is to create a digital sketch using a simple web interface. We find that settings in which multiple humans iteratively add strokes and vote on the best additions result in the sketches with highest perceived creativity (value + novelty). Lack of collaboration leads to a higher variance in quality and lower novelty or surprise. Collaboration without voting leads to high novelty but low quality.
翻訳日:2022-12-02 23:28:51 公開日:2020-05-22
# MineReduce: 問題サイズの削減のためのデータマイニングに基づくアプローチ

MineReduce: an approach based on data mining for problem size reduction ( http://arxiv.org/abs/2005.07415v2 )

ライセンス: Link先を確認
Marcelo Rodrigues de Holanda Maia (1) and Alexandre Plastino (1) and Puca Huachi Vaz Penna (2) ((1) Universidade Federal Fluminense, (2) Universidade Federal de Ouro Preto)(参考訳) データマイニング戦略を含むメタヒューリスティックのハイブリッドなバリエーションは、優れた結果と奨励的な結果を持つ様々な組合せ最適化問題を解決するために利用されてきた。 以前のハイブリッド戦略は、初期ソリューションの構築を導くためにマイニングパターンを適用し、より効果的なソリューション空間の探索に繋がった。 組合せ最適化問題を解くのは、解空間がその大きさで指数関数的に大きくなるため、通常は難しい作業である。 したがって、特に大規模問題の場合、問題サイズの削減は、この文脈において有用な戦略である。 本稿では,問題サイズの削減を行うためにマイニングパターンを使用する minereduce という手法を提案することで,これらのアイデアを導出する。 異種車両ルーティング問題に対するヒューリスティック改善のためのMineReduceの適用について述べる。 計算実験により得られた結果から,本手法は従来のヒューリスティックや最先端のヒューリスティックに比べて優れた性能を示し,より短い実行時間でより良い解法コストが得られることを示した。

Hybrid variations of metaheuristics that include data mining strategies have been utilized to solve a variety of combinatorial optimization problems, with superior and encouraging results. Previous hybrid strategies applied mined patterns to guide the construction of initial solutions, leading to more effective exploration of the solution space. Solving a combinatorial optimization problem is usually a hard task because its solution space grows exponentially with its size. Therefore, problem size reduction is also a useful strategy in this context, especially in the case of large-scale problems. In this paper, we build upon these ideas by presenting an approach named MineReduce, which uses mined patterns to perform problem size reduction. We present an application of MineReduce to improve a heuristic for the heterogeneous fleet vehicle routing problem. The results obtained in computational experiments show that this proposed heuristic demonstrates superior performance compared to the original heuristic and other state-of-the-art heuristics, achieving better solution costs with shorter run times.
翻訳日:2022-12-02 23:28:39 公開日:2020-05-22
# コミュニティベースシステムダイナミクスによるより公平な機械学習のための参加型問題定式化

Participatory Problem Formulation for Fairer Machine Learning Through Community Based System Dynamics ( http://arxiv.org/abs/2005.07572v3 )

ライセンス: Link先を確認
Donald Martin Jr. (1), Vinodkumar Prabhakaran (1), Jill Kuhlberg (2), Andrew Smart (1), William S. Isaac (3) ((1) Google (2) System Stars (3) DeepMind)(参考訳) アルゴリズム的公平性に関する最近の研究は、mlシステム開発における問題定式化フェーズが、mlシステムフェアネスの結果に重要な下流の影響をもたらすバイアスの鍵となることを強調している。 しかし、MLシステム開発におけるこのクリティカルフェーズの公平性向上手法にはほとんど注意が払われていない。 現在のプラクティスは、高リスクドメインの動的な複雑さにも、脆弱な利害関係者の視点も考慮していない。 本稿では,MLシステム開発プロセスの課題形成段階において,一般的に排除される利害関係者の参加を可能にするアプローチとして,コミュニティベースシステムダイナミクス(CBSD)を導入し,この重要な段階においてバイアスを軽減するために必要な深い問題理解を促進する。

Recent research on algorithmic fairness has highlighted that the problem formulation phase of ML system development can be a key source of bias that has significant downstream impacts on ML system fairness outcomes. However, very little attention has been paid to methods for improving the fairness efficacy of this critical phase of ML system development. Current practice neither accounts for the dynamic complexity of high-stakes domains nor incorporates the perspectives of vulnerable stakeholders. In this paper we introduce community based system dynamics (CBSD) as an approach to enable the participation of typically excluded stakeholders in the problem formulation phase of the ML system development process and facilitate the deep problem understanding required to mitigate bias during this crucial stage.
翻訳日:2022-12-02 22:42:49 公開日:2020-05-22
# ソノリンの保存:画像処理とコンピュータビジョン技術を用いた光視覚オーディオ再生

Saving the Sonorine: Photovisual Audio Recovery Using Image Processing and Computer Vision Techniques ( http://arxiv.org/abs/2005.08944v3 )

ライセンス: Link先を確認
Kevin Feng(参考訳) 本稿では,20世紀初頭のアナログ音響記憶装置であるソノリネスから音声を回収する新しい手法を提案する。 本手法では, 異なる照明条件下でのソノチンの高解像度写真を用いて, 物理面の反射挙動の変化を観察し, 表面の3次元高さマップを作成する。 その後、表面の溝内の高さ情報を用いて音を抽出し、レコードの物理的スタイラスを模倣する。 従来の再生法とは違って, 媒体は損傷を生じず, 繰り返し演奏されるのを防ぎ, 接触しないという利点がある。 本手法は, ソノリタンのフラットベッドスキャンを用いて, 従来成功した非接触法と比較し, このフォトビジュアルアプローチをオーディオリカバリに適用可能な今後の研究をまとめる。

This paper presents a novel technique to recover audio from sonorines, an early 20th century form of analogue sound storage. Our method uses high resolution photographs of sonorines under different lighting conditions to observe the change in reflection behavior of the physical surface features and create a three-dimensional height map of the surface. Sound can then be extracted using height information within the surface's grooves, mimicking a physical stylus on a phonograph. Unlike traditional playback methods, our method has the advantage of being contactless: the medium will not incur damage and wear from being played repeatedly. We compare the results of our technique to a previously successful contactless method using flatbed scans of the sonorines, and conclude with future research that can be applied to this photovisual approach to audio recovery.
翻訳日:2022-12-02 13:58:14 公開日:2020-05-22
# セグメンテーションにおけるGAN生成心筋MRIの有用性について

On the effectiveness of GAN generated cardiac MRIs for segmentation ( http://arxiv.org/abs/2005.09026v2 )

ライセンス: Link先を確認
Youssef Skandarani, Nathan Painchaud, Pierre-Marc Jodoin, Alain Lalande(参考訳) 本研究では,シネ-MR画像の心筋セグメンテーションへの応用のために,高精度なMRIと画素精度の接点を同時に生成できる可変オートエンコーダ (VAE) - GAN(Generative Adversarial Networks) モデルを提案する。 我々のモデルの一側面には、心形態の潜在表現を学習するために訓練された変分オートエンコーダ(VAE)がある。 一方、GANは、与えられた解剖学的マップに適した現実的なMR画像を生成するために、"SPADE(SPatially-Adaptive (DE)Normalization)"モジュールを使用する。 テスト時には、VOE潜伏空間のサンプリングにより任意の数の心臓形状が生成され、それがGANに供給され、その後、心臓構造が心臓形状に適合するMR画像が生成される。 言い換えれば,本システムはリアルにラベル付けされた大量の心臓MR画像を生成することができる。 合成アノテート画像を用いて訓練したCNNのセグメンテーションは,従来の手法と比較して競合する結果が得られることを示す。 また、gan生成画像とデータ拡張を組み合わせることで、diceスコアが最大12%向上し、他のデータセットの一般化能力が向上したことも示しています。

In this work, we propose a Variational Autoencoder (VAE) - Generative Adversarial Networks (GAN) model that can produce highly realistic MRI together with its pixel accurate groundtruth for the application of cine-MR image cardiac segmentation. On one side of our model is a Variational Autoencoder (VAE) trained to learn the latent representations of cardiac shapes. On the other side is a GAN that uses "SPatially-Adaptive (DE)Normalization" (SPADE) modules to generate realistic MR images tailored to a given anatomical map. At test time, the sampling of the VAE latent space allows to generate an arbitrary large number of cardiac shapes, which are fed to the GAN that subsequently generates MR images whose cardiac structure fits that of the cardiac shapes. In other words, our system can generate a large volume of realistic yet labeled cardiac MR images. We show that segmentation with CNNs trained with our synthetic annotated images gets competitive results compared to traditional techniques. We also show that combining data augmentation with our GAN-generated images lead to an improvement in the Dice score of up to 12 percent while allowing for better generalization capabilities on other datasets.
翻訳日:2022-12-02 00:25:10 公開日:2020-05-22
# 欠失物質濃度の再検討

Revisiting Concentration of Missing Mass ( http://arxiv.org/abs/2005.10018v3 )

ライセンス: Link先を確認
Maciej Skorski(参考訳) 我々は,ローゼンタールの不等式を念頭に置いて,ヘテロジェニック和の濃度を推定する新しい手法を考案し,<emph{missing mass concentration}>の問題を再検討する。 その結果、Ben-Hamou による最先端境界をわずかに改善し、証明を単純化する。

We revisit the problem of \emph{missing mass concentration}, developing a new method of estimating concentration of heterogenic sums, in spirit of celebrated Rosenthal's inequality. As a result we slightly improve the state-of-art bounds due to Ben-Hamou at al., and simplify the proofs.
翻訳日:2022-12-01 13:58:42 公開日:2020-05-22
# Triple-GAIL: 生成的逆数ネットを用いたマルチモーダル模倣学習フレームワーク

Triple-GAIL: A Multi-Modal Imitation Learning Framework with Generative Adversarial Nets ( http://arxiv.org/abs/2005.10622v2 )

ライセンス: Link先を確認
Cong Fei, Bin Wang, Yuzheng Zhuang, Zongzhang Zhang, Jianye Hao, Hongbo Zhang, Xuewu Ji and Wulong Liu(参考訳) ジェネレーティブ・逆境模倣学習(GAIL)は,特にロボット学習分野において,生成的逆境ネットを活用することで,有望な結果を示した。 しかし、分離された単一モーダルデモンストレーションの要求は、人間のドライバーの振る舞いを適切に理解するために、自動運転車の要求のような現実のシナリオへのアプローチのスケーラビリティを制限する。 本稿では,多モードGAILフレームワークであるTriple-GAILを提案する。このフレームワークは,専門家によるデモンストレーションとデータ拡張目的の連続的な経験から,スキル選択と模倣を共同で学習することができる。 ジェネレータとセレクタの両方に対して、それぞれオプティマへの収束に関する理論的保証を提供する。 実際のドライバー軌道とリアルタイム戦略ゲームデータセットに関する実験は、トリプルゲイルがデモストラクタに近いマルチモーダルな動作に適合し、最先端のメソッドを上回ることを証明している。

Generative adversarial imitation learning (GAIL) has shown promising results by taking advantage of generative adversarial nets, especially in the field of robot learning. However, the requirement of isolated single modal demonstrations limits the scalability of the approach to real world scenarios such as autonomous vehicles' demand for a proper understanding of human drivers' behavior. In this paper, we propose a novel multi-modal GAIL framework, named Triple-GAIL, that is able to learn skill selection and imitation jointly from both expert demonstrations and continuously generated experiences with data augmentation purpose by introducing an auxiliary skill selector. We provide theoretical guarantees on the convergence to optima for both of the generator and the selector respectively. Experiments on real driver trajectories and real-time strategy game datasets demonstrate that Triple-GAIL can better fit multi-modal behaviors close to the demonstrators and outperforms state-of-the-art methods.
翻訳日:2022-12-01 13:04:18 公開日:2020-05-22
# 限られたデータアクセスシナリオにおける深達度大腸癌検出に関する研究

A Study of Deep Learning Colon Cancer Detection in Limited Data Access Scenarios ( http://arxiv.org/abs/2005.10326v2 )

ライセンス: Link先を確認
Apostolia Tsirikoglou, Karin Stacke, Gabriel Eilertsen, Martin Lindvall, Jonas Unger(参考訳) 病理組織スライドのデジタル化は、簡単なデータ共有やコラボレーションからデジタル診断ツールの開発まで、いくつかの進歩をもたらした。 分類と検出のためのディープラーニング(dl)法は大きな可能性を示しているが、収集や注釈が難しい大量のトレーニングデータを必要とすることが多い。 多くのがんタイプでは、データの不足はdlモデルのトレーニングの障壁を生み出します。 このようなシナリオの1つはリンパ節組織における腫瘍転移の検出であり、腫瘍の非腫瘍細胞に対する比率が低いため、診断作業は困難で時間を要する。 DLベースのツールはより高速な診断を可能にし、品質が向上する可能性がある。 残念なことに、腫瘍細胞の腫大のため、この種のデータに注釈を付けるには、病理学者による高い労力を要する。 スライドレベルの画像から弱いアノテーションを使うことは大きな可能性を秘めているが、大量のデータへのアクセスも要求している。 本研究では,限られたデータアクセスシナリオに対する緩和戦略を検討する。 特に, 組織間の相互構造を生かして一般技術を開発することが可能か, 特定の組織内の1種類の癌から得られるデータは, 他の組織内の他のがんに対する診断価値を有する可能性がある。 本症例はリンパ節転移性大腸癌検出のためのDLモデルにより実証された。 このようなモデルは、ほとんど、あるいは全くリンパ節データなしで訓練できるのだろうか? 代替データソースとして、我々は調査する 1)原発性大腸腫瘍組織から採取した腫瘍細胞、および 2) 異なる臓器(乳癌)から得られたがんデータは,Cycle-GANを用いて標的領域(大腸)に変化した。 提案手法により,リンパ節データが少ない,あるいは極めて少ない癌転移を検出でき,既存の注釈組織学的データが他の領域に一般化できる可能性が示唆された。

Digitization of histopathology slides has led to several advances, from easy data sharing and collaborations to the development of digital diagnostic tools. Deep learning (DL) methods for classification and detection have shown great potential, but often require large amounts of training data that are hard to collect, and annotate. For many cancer types, the scarceness of data creates barriers for training DL models. One such scenario relates to detecting tumor metastasis in lymph node tissue, where the low ratio of tumor to non-tumor cells makes the diagnostic task hard and time-consuming. DL-based tools can allow faster diagnosis, with potentially increased quality. Unfortunately, due to the sparsity of tumor cells, annotating this type of data demands a high level of effort from pathologists. Using weak annotations from slide-level images have shown great potential, but demand access to a substantial amount of data as well. In this study, we investigate mitigation strategies for limited data access scenarios. Particularly, we address whether it is possible to exploit mutual structure between tissues to develop general techniques, wherein data from one type of cancer in a particular tissue could have diagnostic value for other cancers in other tissues. Our case is exemplified by a DL model for metastatic colon cancer detection in lymph nodes. Could such a model be trained with little or even no lymph node data? As alternative data sources, we investigate 1) tumor cells taken from the primary colon tumor tissue, and 2) cancer data from a different organ (breast), either as is or transformed to the target domain (colon) using Cycle-GANs. We show that the suggested approaches make it possible to detect cancer metastasis with no or very little lymph node data, opening up for the possibility that existing, annotated histopathology data could generalize to other domains.
翻訳日:2022-12-01 06:06:40 公開日:2020-05-22
# safecomp: クラウド計算の完全性を保証するプロトコル

SafeComp: Protocol For Certifying Cloud Computations Integrity ( http://arxiv.org/abs/2005.10786v2 )

ライセンス: Link先を確認
Evgeny Shishkin and Evgeny Kislitsyn(参考訳) 我々は,必ずしも信頼できない遠隔者によって行われる計算整合性を証明する問題を定義する。 本稿では,この問題を制約下で解決するSafeCompという多人数対話型プロトコルを提案する。 最寄りの関連作業と比較すると,提案プロトコルは証明構成の複雑さを$o(n \log{n})$から$o(n)$に削減し,通信の複雑さを同等の長さの証明書を用いて正確に1ラウンドに短縮する。

We define a problem of certifying computation integrity performed by some remote party we do not necessarily trust. We present a multi-party interactive protocol called SafeComp that solves this problem under specified constraints. Comparing to the nearest related work, our protocol reduces a proof construction complexity from $O(n \log{n})$ to $O(n)$, turning a communication complexity to exactly one round using a certificate of a comparable length.
翻訳日:2022-11-30 23:47:46 公開日:2020-05-22
# セグメンテーションにおけるベイズ近似を用いた不確かさ推定のための効率的なアンサンブルモデル生成

Efficient Ensemble Model Generation for Uncertainty Estimation with Bayesian Approximation in Segmentation ( http://arxiv.org/abs/2005.10754v2 )

ライセンス: Link先を確認
Hong Joo Lee, Seong Tae Kim, Hakmin Lee, Nassir Navab, Yong Man Ro(参考訳) 近年の研究では、アンサンブルアプローチは精度を向上するだけでなく、ディープラーニングにおけるモデルの不確実性を推定できることが示された。 しかし、予測と不確実性の推定を改善するために、アンサンブルモデルの増加に応じて多くのパラメータが必要となる。 本稿では,アンサンブルセグメンテーションモデルを構築するための汎用的かつ効率的なセグメンテーションフレームワークを提案する。 提案手法では,確率層選択法を用いてアンサンブルモデルを効率的に生成することができる。 アンサンブルモデルはベイズ近似を通じて不確かさを推定するために訓練される。 さらに,不確かさから限界を克服するために,新たな画素単位の不確実性損失を考案し,予測性能を向上させる。 提案手法を評価するために,2つのデータセットを用いた包括的比較実験を行った。 提案手法は,効率的なアンサンブルモデル生成によりベイズ近似により有用な不確実性情報を提供することができ,予測性能の向上が期待できる。

Recent studies have shown that ensemble approaches could not only improve accuracy and but also estimate model uncertainty in deep learning. However, it requires a large number of parameters according to the increase of ensemble models for better prediction and uncertainty estimation. To address this issue, a generic and efficient segmentation framework to construct ensemble segmentation models is devised in this paper. In the proposed method, ensemble models can be efficiently generated by using the stochastic layer selection method. The ensemble models are trained to estimate uncertainty through Bayesian approximation. Moreover, to overcome its limitation from uncertain instances, we devise a new pixel-wise uncertainty loss, which improves the predictive performance. To evaluate our method, comprehensive and comparative experiments have been conducted on two datasets. Experimental results show that the proposed method could provide useful uncertainty information by Bayesian approximation with the efficient ensemble model generation and improve the predictive performance.
翻訳日:2022-11-30 23:37:34 公開日:2020-05-22
# 弱監督型疾患の局所化と分類のための地域地図再構成の提案

Region Proposals for Saliency Map Refinement for Weakly-supervised Disease Localisation and Classification ( http://arxiv.org/abs/2005.10550v2 )

ライセンス: Link先を確認
Renato Hermoza, Gabriel Maicas, Jacinto C. Nascimento and Gustavo Carneiro(参考訳) 医療画像から疾患を診断するための自動システムの導入は、診断された疾患を局所化し、分類の決定を正当化し、説明する必要がある。 この要件は、これらのシステムを開発するために利用可能なトレーニングセットのほとんどがグローバルアノテーションのみを含んでおり、病気の局所化が弱く管理されたアプローチになっているため、満たすのは難しい。 弱教師付き疾患の分類とローカライゼーションのために設計された主な手法は、特にローカライゼーションのために訓練されていないサリエンシやアテンションマップ、あるいは正確な検出を行うことができない地域提案に依存している。 本稿では,弱監督疾患の分類と局所化の限界を克服するために,地域提案と塩分検出を組み合わせた新しいモデルを提案する。 そこで本研究では,ChestX-ray14データセットを用いて,診断と局所化を弱体化させる手法を提案する。

The deployment of automated systems to diagnose diseases from medical images is challenged by the requirement to localise the diagnosed diseases to justify or explain the classification decision. This requirement is hard to fulfil because most of the training sets available to develop these systems only contain global annotations, making the localisation of diseases a weakly supervised approach. The main methods designed for weakly supervised disease classification and localisation rely on saliency or attention maps that are not specifically trained for localisation, or on region proposals that can not be refined to produce accurate detections. In this paper, we introduce a new model that combines region proposal and saliency detection to overcome both limitations for weakly supervised disease classification and localisation. Using the ChestX-ray14 data set, we show that our proposed model establishes the new state-of-the-art for weakly-supervised disease diagnosis and localisation.
翻訳日:2022-11-30 22:53:31 公開日:2020-05-22
# 大型gps軌道セットを用いた経路選択集合生成実験

Experiments on route choice set generation using a large GPS trajectory set ( http://arxiv.org/abs/2006.04536v1 )

ライセンス: Link先を確認
Rui Yao, Shlomo Bekhor(参考訳) 文献で開発されたいくつかの経路選択モデルは比較的少数の観測に基づいていた。 近年の調査では追跡装置が広範囲に利用されており、旅行者の選択行動に関する洞察を得ることが可能である。 本稿では,大規模なGPSトラジェクトリデータセットを用いて,異なる経路生成アルゴリズムの評価を行う。 このデータセットはテルアビブ大都市圏から6,000の観測結果を含んでいる。 最短経路に基づいて単一経路を生成することにより、初期解析を行う。 6000の観測の60%近くは、単一の経路を使ってカバーできる(80%の重なりの閾値を仮定して)。 この結果は以前の文献とは大きく異なる。 経路集合を生成するためにリンクペナルティ、リンク除去、シミュレーションおよびパスノード法を適用し、アルゴリズムの整合性を比較する。 高架道路の使用を優先する改良型リンクペナルティ法は、97%のカバレッジ(80%のオーバーラップしきい値)で設定されたルートを提供する。 via-nodeメソッドは、カバレッジを満足するルートセットを生成し、(リンク数とルート比で)より異質なルートを生成する。

Several route choice models developed in the literature were based on a relatively small number of observations. With the extensive use of tracking devices in recent surveys, there is a possibility to obtain insights with respect to the traveler's choice behavior. In this paper, different path generation algorithms are evaluated using a large GPS trajectory dataset. The dataset contains 6,000 observations from Tel-Aviv metropolitan area. An initial analysis is performed by generating a single route based on the shortest path. Almost 60% percent of the 6,000 observations can be covered (assuming a threshold of 80% overlap) using a single path. This result significantly contrasts previous literature findings. Link penalty, link elimination, simulation and via-node methods are applied to generate route sets, and the consistency of the algorithms are compared. A modified link penalty method, which accounts for preference of using higher hierarchical roads, provides a route set with 97% coverage (80% overlap threshold). The via-node method produces route set with satisfying coverage, and generates routes that are more heterogeneous (in terms number of links and routes ratio).
翻訳日:2022-11-30 09:52:34 公開日:2020-05-22
# 分散データを用いたセキュアかつ差動的ベイズ学習

Secure and Differentially Private Bayesian Learning on Distributed Data ( http://arxiv.org/abs/2005.11007v1 )

ライセンス: Link先を確認
Yeongjae Gil and Xiaoqian Jiang and Miran Kim and Junghye Lee(参考訳) データの統合と共有は、新規で有意義な発見の可能性を高める。 しかし、複数の情報源からのデータを統合することで、研究参加者の機密情報を危険にさらすことは容易ではない。 プライバシ問題に対処するため,プライバシと同型暗号化を併用し,個人情報を保護しながら調和する,事前条件付き確率勾配ランジュバンダイナミクスとRMSpropを用いた分散ベイズ学習手法を提案する。 本研究では,分散データのロジスティック回帰とサバイバル分析にセキュアでプライバシを保存した分散ベイズ学習手法を適用し,予測精度と時間複雑性の観点から,集中型アプローチと比較してその実現可能性を示した。

Data integration and sharing maximally enhance the potential for novel and meaningful discoveries. However, it is a non-trivial task as integrating data from multiple sources can put sensitive information of study participants at risk. To address the privacy concern, we present a distributed Bayesian learning approach via Preconditioned Stochastic Gradient Langevin Dynamics with RMSprop, which combines differential privacy and homomorphic encryption in a harmonious manner while protecting private information. We applied the proposed secure and privacy-preserving distributed Bayesian learning approach to logistic regression and survival analysis on distributed data, and demonstrated its feasibility in terms of prediction accuracy and time complexity, compared to the centralized approach.
翻訳日:2022-11-30 09:51:52 公開日:2020-05-22
# 畳み込みニューラルネットワークへのプレミアムアクセス

Premium Access to Convolutional Neural Networks ( http://arxiv.org/abs/2005.11100v1 )

ライセンス: Link先を確認
Julien Bringer and Herv\'e Chabanne and Linda Guiga(参考訳) ニューラルネットワーク(NN)は現在、携帯電話など、日々のタスクすべてに使用されています。 ここでは特権のあるユーザーへのアクセスを制限する方法を紹介したい。 私たちのソリューションは、PINによって修正できる劣化した実装に依存しています。 本稿では,高次モードと劣化モードの精度のギャップを最大化するために,NNでいくつかのパラメータを選択する方法を説明する。 本提案は,その実用性を証明するため,深層nnにおける実装実験を報告する。

Neural Networks (NNs) are today used for all our daily tasks; for instance, in mobile phones. We here want to show how to restrict their access to privileged users. Our solution relies on a degraded implementation which can be corrected thanks to a PIN. We explain how to select a few parameters in an NN so as to maximize the gap in the accuracy between the premium and the degraded modes. We report experiments on an implementation of our proposal on a deep NN to prove its practicability.
翻訳日:2022-11-30 09:51:29 公開日:2020-05-22
# internet of things for industry 4.0における機械学習

Machine Learning in the Internet of Things for Industry 4.0 ( http://arxiv.org/abs/2005.11146v1 )

ライセンス: Link先を確認
Tomasz Szydlo, Joanna Sendorek, Robert Brzoza-Woch, Mateusz Windak(参考訳) IoTデバイスの数は絶えず増加しており、計算の複雑さとデータ速度が増大している。 センサデータを処理するアプローチの1つは、データフロープログラミングである。 これは、特にネットワークの端に移動したときに、短い処理と迅速な応答時間を備えたリアクティブソフトウェアの開発を可能にする。 これは、オンライン機械学習アルゴリズムを使用して業界4.0で見られるような進行中のプロセスを分析するシステムにおいて特に重要である。 本稿では,このようなシステムの構成が,ハードウェア層からソフトウェア層に至るまでの処理スタック全体と,iotシステムの要求される応答時間に依存することを示す。 本稿では,このようなシステムのフロー処理スタックと,エッジやクラウド上での学習や推論の拡散を可能にする,組織的な機械学習アーキテクチャパターンを提案する。 本稿では,IoTでクラウド接続に使用される通信技術が導入するレイテンシと,それらがシステムの応答時間に与える影響について分析する。 最後に、アプリケーションの種類に応じて、IoTシステムで使用する機械学習パターンを推奨しています。

Number of IoT devices is constantly increasing which results in greater complexity of computations and high data velocity. One of the approach to process sensor data is dataflow programming. It enables the development of reactive software with short processing and rapid response times, especially when moved to the edge of the network. This is especially important in systems that utilize online machine learning algorithms to analyze ongoing processes such as those observed in Industry 4.0. In this paper, we show that organization of such systems depends on the entire processing stack, from the hardware layer all the way to the software layer, as well as on the required response times of the IoT system. We propose a flow processing stack for such systems along with the organizational machine learning architectural patterns that enable the possibility to spread the learning and inferencing on the edge and the cloud. In the paper, we analyse what latency is introduced by communication technologies used in the IoT for cloud connectivity and how they influence the response times of the system. Finally, we are providing recommendations which machine learning patterns should be used in the IoT systems depending on the application type.
翻訳日:2022-11-30 09:51:22 公開日:2020-05-22
# 多項式入力を持つアルゴリズムの変数順序付けを選択する機械学習ベースのソフトウェアパイプライン

A machine learning based software pipeline to pick the variable ordering for algorithms with polynomial inputs ( http://arxiv.org/abs/2005.11251v1 )

ライセンス: Link先を確認
Dorian Florescu and Matthew England(参考訳) 我々は、数学的ソフトウェアを改善するために機械学習(ML)技術の応用に興味を持っている。 MLツールの確率的性質は、そのようなソフトウェアから得られる正確な結果を無効にするだろうが、ソフトウェアを支えるアルゴリズムには、MLアプリケーションに良い候補となる様々な選択肢が伴うことが多い。 ソフトウェアの数学的正確性には影響しないが、その性能に影響を及ぼす選択について言及する。 これまで我々は,Cylindrical Algebraic Decomposition (CAD)を構築する際に使用する変数順序付けという,そのような選択を試みてきた。 我々はPythonライブラリScikit-Learn(sklearn)を使って異なるMLモデルの実験を行い、特徴生成とハイパーパラメータ選択のための新しい技術を開発した。 これらの手法はCAD変数順序付けの即時適用以外の意思決定にも容易に適用できる。 そこで本論文では,sklearnを用いて多項式系に作用するアルゴリズムの変数順序を決定するソフトウェアパイプラインを提案する。 記述されたコードはオンラインで無料で利用できる。

We are interested in the application of Machine Learning (ML) technology to improve mathematical software. It may seem that the probabilistic nature of ML tools would invalidate the exact results prized by such software, however, the algorithms which underpin the software often come with a range of choices which are good candidates for ML application. We refer to choices which have no effect on the mathematical correctness of the software, but do impact its performance. In the past we experimented with one such choice: the variable ordering to use when building a Cylindrical Algebraic Decomposition (CAD). We used the Python library Scikit-Learn (sklearn) to experiment with different ML models, and developed new techniques for feature generation and hyper-parameter selection. These techniques could easily be adapted for making decisions other than our immediate application of CAD variable ordering. Hence in this paper we present a software pipeline to use sklearn to pick the variable ordering for an algorithm that acts on a polynomial system. The code described is freely available online.
翻訳日:2022-11-30 09:51:06 公開日:2020-05-22
# SAR画像の時間変化を検出する並列多スケール空間プールを用いた畳み込みニューラルネットワーク

A Convolutional Neural Network with Parallel Multi-Scale Spatial Pooling to Detect Temporal Changes in SAR Images ( http://arxiv.org/abs/2005.10986v1 )

ライセンス: Link先を確認
Jia-Wei Chen, Rongfang Wang, Fan Ding, Bo Liu, Licheng Jiao, Jie Zhang(参考訳) 合成開口レーダ(sar)画像変化検出において、スペックルに被ったノイズの差画像から変化情報を利用するのは極めて困難である。 本稿では,雑音差画像から変化した情報を利用するマルチスケール空間プーリング(MSSP)ネットワークを提案する。 単一スケールのプーリングカーネルしか持たない従来の畳み込みネットワークとは違い,提案手法では,差分画像から変化する領域の空間コンテキスト情報を利用する畳み込みネットワークを備えている。 さらに,提案手法の一般化を検証するために,提案手法をデータセット上でMSSPネットワーク(MSSP-Net)をトレーニングし,未知のテストデータセットに適用するクロスデータセットバイテンポラルSAR画像変化検出に適用した。 提案手法を他の最先端技術と比較し,びまん性sar画像の4つの課題データセットで比較を行った。 実験の結果,提案手法はyr-aおよびyr-bのs-pca-netと比較し,より複雑なシーンのsendai-aおよびsendai-bデータセットにおいて,他の最先端手法よりも優れていた。 さらに重要なのは、MSSP-NetはS-PCA-Netや畳み込みニューラルネットワーク(CNN)よりも効率的で、トレーニングとテストのフェーズでの実行時間が少ないことだ。

In synthetic aperture radar (SAR) image change detection, it is quite challenging to exploit the changing information from the noisy difference image subject to the speckle. In this paper, we propose a multi-scale spatial pooling (MSSP) network to exploit the changed information from the noisy difference image. Being different from the traditional convolutional network with only mono-scale pooling kernels, in the proposed method, multi-scale pooling kernels are equipped in a convolutional network to exploit the spatial context information on changed regions from the difference image. Furthermore, to verify the generalization of the proposed method, we apply our proposed method to the cross-dataset bitemporal SAR image change detection, where the MSSP network (MSSP-Net) is trained on a dataset and then applied to an unknown testing dataset. We compare the proposed method with other state-of-arts and the comparisons are performed on four challenging datasets of bitemporal SAR images. Experimental results demonstrate that our proposed method obtains comparable results with S-PCA-Net on YR-A and YR-B dataset and outperforms other state-of-art methods, especially on the Sendai-A and Sendai-B datasets with more complex scenes. More important, MSSP-Net is more efficient than S-PCA-Net and convolutional neural networks (CNN) with less executing time in both training and testing phases.
翻訳日:2022-11-30 09:45:05 公開日:2020-05-22
# 任意サイズのイメージトレーニングと残留カーネル学習:画像不正同定に向けて

Arbitrary-sized Image Training and Residual Kernel Learning: Towards Image Fraud Identification ( http://arxiv.org/abs/2005.11043v1 )

ライセンス: Link先を確認
Hongyu Li, Xiaogang Huang, Zhihui Fu, and Xiaolin Li(参考訳) 画像におけるノイズ残差の保存は画像不正同定に不可欠である。 深層学習におけるリサイズ操作は画像ノイズ残差の微細構造を損なうため,元の入力スケールの画像を再サイズすることなく直接トレーニングする枠組みを提案する。 我々の任意のサイズの画像訓練法は主に、入力バッチと更新バッチのギャップを埋める擬似バッチ勾配降下(PBGD)に依存し、モデル更新が通常任意のサイズの画像に対して実行できることを保証する。 さらに、画像不正識別のための最適残差カーネルを学習する3相代替トレーニング戦略を設計する。 学習された残余カーネルとPBGDを用いて、特に小さな改ざん領域を持つ画像や、異なる改ざん分布を持つ未確認画像に対して、画像不正識別の最先端結果を達成した。

Preserving original noise residuals in images are critical to image fraud identification. Since the resizing operation during deep learning will damage the microstructures of image noise residuals, we propose a framework for directly training images of original input scales without resizing. Our arbitrary-sized image training method mainly depends on the pseudo-batch gradient descent (PBGD), which bridges the gap between the input batch and the update batch to assure that model updates can normally run for arbitrary-sized images. In addition, a 3-phase alternate training strategy is designed to learn optimal residual kernels for image fraud identification. With the learnt residual kernels and PBGD, the proposed framework achieved the state-of-the-art results in image fraud identification, especially for images with small tampered regions or unseen images with different tampering distributions.
翻訳日:2022-11-30 09:44:38 公開日:2020-05-22
# 2-stream 3d convolutional neural networkを用いた肺結節悪性度分類

Pulmonary Nodule Malignancy Classification Using its Temporal Evolution with Two-Stream 3D Convolutional Neural Networks ( http://arxiv.org/abs/2005.11341v1 )

ライセンス: Link先を確認
Xavier Rafael-Palou, Anton Aubanell, Ilaria Bonavita, Mario Ceresa, Gemma Piella, Vicent Ribas, Miguel A. Gonz\'alez Ballester(参考訳) 結節悪性度評価は複雑で時間がかかり、エラーを起こしやすいタスクである。 現在の臨床実践では、異なる時点における結節の大きさと密度の変化を測定する必要がある。 肺結節に構築した3次元畳み込みニューラルネットワークを患者1人あたり1回のctスキャンで構築した。 本研究では,2つの肺結節容積を異なる時間間隔で解析し,悪性度を予測する2流3次元畳み込みニューラルネットワークを提案する。 最良の結果は、単一の時点の画像で訓練された同じネットワークに対して、9%と12%のf1-scoreを増分して、テストでf1-scoreの77%を達成する。

Nodule malignancy assessment is a complex, time-consuming and error-prone task. Current clinical practice requires measuring changes in size and density of the nodule at different time-points. State of the art solutions rely on 3D convolutional neural networks built on pulmonary nodules obtained from single CT scan per patient. In this work, we propose a two-stream 3D convolutional neural network that predicts malignancy by jointly analyzing two pulmonary nodule volumes from the same patient taken at different time-points. Best results achieve 77% of F1-score in test with an increment of 9% and 12% of F1-score with respect to the same network trained with images from a single time-point.
翻訳日:2022-11-30 09:43:54 公開日:2020-05-22
# 残存u-netを用いた意味セグメンテーションによる組織学前立腺画像のグリアソン評価

Gleason Grading of Histology Prostate Images through Semantic Segmentation via Residual U-Net ( http://arxiv.org/abs/2005.11368v1 )

ライセンス: Link先を確認
Amartya Kalapahar, Julio Silva-Rodr\'iguez, Adri\'an Colomer, Fernando L\'opez-Mir and Valery Naranjo(参考訳) 前立腺がんは、男性に影響を及ぼす主要ながんの1つである。 前立腺癌の最終診断は、病理学者による前立腺生検におけるGleasonパターンの視覚的検出に基づいている。 コンピュータ支援診断システムは、医師のタスクをサポートするために、コンピュータビジョンアルゴリズムを介して組織内のがんパターンを分類し分類することができる。 この研究の方法論的核心は、Gleasonシステムに従ってがん組織を分節できる残留ブロックで修正された画像分割のためのU-Net畳み込みニューラルネットワークである。 このモデルは、他のよく知られたアーキテクチャよりも優れており、以前の文献における画像レベルの作業のレベルにおいて、ピクセルレベルのコーエンの二次kappa 0.52に達するが、パターンの詳細な局所化も提供する。

Worldwide, prostate cancer is one of the main cancers affecting men. The final diagnosis of prostate cancer is based on the visual detection of Gleason patterns in prostate biopsy by pathologists. Computer-aided-diagnosis systems allow to delineate and classify the cancerous patterns in the tissue via computer-vision algorithms in order to support the physicians' task. The methodological core of this work is a U-Net convolutional neural network for image segmentation modified with residual blocks able to segment cancerous tissue according to the full Gleason system. This model outperforms other well-known architectures, and reaches a pixel-level Cohen's quadratic Kappa of 0.52, at the level of previous image-level works in the literature, but providing also a detailed localisation of the patterns.
翻訳日:2022-11-30 09:43:42 公開日:2020-05-22
# クロスドメインプラーク検出のための部分空間の潜在結合による画像変換

Image Translation by Latent Union of Subspaces for Cross-Domain Plaque Detection ( http://arxiv.org/abs/2005.11384v1 )

ライセンス: Link先を確認
Yingying Zhu, Daniel C. Elton, Sungwon Lee, Perry J. Pickhardt, Ronald M. Summers(参考訳) 大動脈および骨盤動脈の石灰化プラークは冠動脈石灰化と関連しており、心臓発作の強い予測因子である。 現在の石灰化プラーク検出モデルでは、異なる領域(コントラスト前対CTスキャン)への一般化性が低い。 最近の多くの研究は、単一の共有潜在空間を用いてドメイン間の変換を行う画像変換モデルを用いて、クロスドメインオブジェクトの検出を改善する方法を示している。 しかし、現在の画像翻訳モデルは、グローバル/中間レベルの構造を保存するのに良い働きをする一方で、小さな構造を保存するのに苦労することが多い。 これらの構造は疾患診断に非常に重要な情報を運ぶことができるため、医用画像アプリケーションでは小構造物の保存が重要である。 画像再構成に関する最近の研究により、複雑な実世界の画像は部分空間の結合アプローチによりより良く再構成できることが示された。 小さな画像パッチは画像翻訳モデルを訓練するために使用されるため、各パッチは、そのパッチに存在する体の異なる部分に対応する部分空間の線形結合によって表現されることを強制するのは理にかなっている。 そこで我々は,サブスペース制約の共有結合を用いた画像翻訳ネットワークを提案し,従来の手法よりも微妙な構造(プラーク)を保存できることを示す。 さらに,この手法をクロスドメインプラーク検出タスクに適用し,最先端手法と比較して有意な改善を示した。

Calcified plaque in the aorta and pelvic arteries is associated with coronary artery calcification and is a strong predictor of heart attack. Current calcified plaque detection models show poor generalizability to different domains (ie. pre-contrast vs. post-contrast CT scans). Many recent works have shown how cross domain object detection can be improved using an image translation model which translates between domains using a single shared latent space. However, while current image translation models do a good job preserving global/intermediate level structures they often have trouble preserving tiny structures. In medical imaging applications, preserving small structures is important since these structures can carry information which is highly relevant for disease diagnosis. Recent works on image reconstruction show that complex real-world images are better reconstructed using a union of subspaces approach. Since small image patches are used to train the image translation model, it makes sense to enforce that each patch be represented by a linear combination of subspaces which may correspond to the different parts of the body present in that patch. Motivated by this, we propose an image translation network using a shared union of subspaces constraint and show our approach preserves subtle structures (plaques) better than the conventional method. We further applied our method to a cross domain plaque detection task and show significant improvement compared to the state-of-the art method.
翻訳日:2022-11-30 09:43:29 公開日:2020-05-22
# 多視点偏光散乱雲トモグラフィと液滴径の検索

Multi-view polarimetric scattering cloud tomography and retrieval of droplet size ( http://arxiv.org/abs/2005.11423v1 )

ライセンス: Link先を確認
Aviad Levis, Yoav Y. Schechner, Anthony B. Davis and Jesse Loveridge(参考訳) トモグラフィーは、媒体や物体の3次元密度マップを復元することを目的としている。 医用画像では、X線CT(Computerd tomography)による診断に広く用いられている。 光拡散トモグラフィーは、軟組織に対して粗い密度マップを提供するために多重散乱光を使用するX線CTの代替である。 我々は,パッシブリモートセンシングによる雲滴分布のトモグラフィーを定義し,導出する。 マルチビュー偏光画像を用いて3次元偏光放射転送(RT)前方モデルに適合する。 我々のモチベーションは、垂直に開発された対流駆動の雲を3次元で探索することである。 これらの手法は厳密な1次元RTモデリングに基づいており、雲の幾何学が平面平行スラブのものと仮定される単一の雲のピクセルに適用されている。 雲滴に散らばった日光は、液滴の大きさに応じて偏光状態を変化させる。 そのため、虹と栄光角領域の偏光度測定を用いて、滴径分布を推定することができる。 この研究は、空間における質量集中と様々な大きさの分布の両方について、雲滴の完全な3次元トモグラフィーの枠組みを定義し、導出する。 このようなキーマイクロフィジカル特性の3d検索は,オープンソースの偏光3d rtコードの再構成と分化を伴い,特別な2段階最適化技術に適合する新しい手法によって,扱いやすいものとなっている。 物理的に現実的な合成雲は、厳密な不確実性定量化による方法論を実証するために用いられる。

Tomography aims to recover a three-dimensional (3D) density map of a medium or an object. In medical imaging, it is extensively used for diagnostics via X-ray computed tomography (CT). Optical diffusion tomography is an alternative to X-ray CT that uses multiply scattered light to deliver coarse density maps for soft tissues. We define and derive tomography of cloud droplet distributions via passive remote sensing. We use multi-view polarimetric images to fit a 3D polarized radiative transfer (RT) forward model. Our motivation is 3D volumetric probing of vertically-developed convectively-driven clouds that are ill-served by current methods in operational passive remote sensing. These techniques are based on strictly 1D RT modeling and applied to a single cloudy pixel, where cloud geometry is assumed to be that of a plane-parallel slab. Incident unpolarized sunlight, once scattered by cloud-droplets, changes its polarization state according to droplet size. Therefore, polarimetric measurements in the rainbow and glory angular regions can be used to infer the droplet size distribution. This work defines and derives a framework for a full 3D tomography of cloud droplets for both their mass concentration in space and their distribution across a range of sizes. This 3D retrieval of key microphysical properties is made tractable by our novel approach that involves a restructuring and differentiation of an open-source polarized 3D RT code to accommodate a special two-step optimization technique. Physically-realistic synthetic clouds are used to demonstrate the methodology with rigorous uncertainty quantification.
翻訳日:2022-11-30 09:43:06 公開日:2020-05-22
# ReenactNet: リアルタイムフルヘッド再現

ReenactNet: Real-time Full Head Reenactment ( http://arxiv.org/abs/2006.10500v1 )

ライセンス: Link先を確認
Mohammad Rami Koujan, Michail Christos Doukas, Anastasios Roussos, Stefanos Zafeiriou(参考訳) 映像合成は、セマンティックマップのシーケンスと、運転映像の特徴を描写した写真リアルビデオとの間の翻訳関数の学習を目的とした課題である。 対象俳優の身元を保ちながら,人間頭部の3dポーズ,表情,視線を音源から対象俳優に完全に伝達できる,私たち独自の実装のヘッド・ツー・ヘッドシステムを提案する。 本システムでは,高忠実度,時間的スムース,写真リアルな合成ビデオが生成され,ヒトの頭部特性を音源からターゲット俳優に忠実に伝達する。 提案する実装は 1)リアルタイムに動作する($\sim 20$ fps)。 2) 唯一の入力としてウェブカメラを備えたコモディティラップトップ上で動作する。 3)対話的であり、例えば有名人、政治家等が、表情、ポーズ、視線を変化させ、同時に合成された映像を視覚化することで、対象者を即座に駆動することができる。

Video-to-video synthesis is a challenging problem aiming at learning a translation function between a sequence of semantic maps and a photo-realistic video depicting the characteristics of a driving video. We propose a head-to-head system of our own implementation capable of fully transferring the human head 3D pose, facial expressions and eye gaze from a source to a target actor, while preserving the identity of the target actor. Our system produces high-fidelity, temporally-smooth and photo-realistic synthetic videos faithfully transferring the human time-varying head attributes from the source to the target actor. Our proposed implementation: 1) works in real time ($\sim 20$ fps), 2) runs on a commodity laptop with a webcam as the only input, 3) is interactive, allowing the participant to drive a target person, e.g. a celebrity, politician, etc, instantly by varying their expressions, head pose, and eye gaze, and visualising the synthesised video concurrently.
翻訳日:2022-11-30 09:35:40 公開日:2020-05-22
# オープン検索型対話型質問応答

Open-Retrieval Conversational Question Answering ( http://arxiv.org/abs/2005.11364v1 )

ライセンス: Link先を確認
Chen Qu, Liu Yang, Cen Chen, Minghui Qiu, W. Bruce Croft and Mohit Iyyer(参考訳) 会話探索は情報検索の究極の目標の1つである。 最近の研究は、応答ランキングと会話型質問応答の設定を単純化し、ある候補から回答が選択されたり、与えられた通路から抽出されたりすることで、会話型検索にアプローチしている。 これらの単純化は、会話探索における検索の基本的な役割を無視している。 この制限に対処するために,我々はオープン・リトリーヴァル・会話型質問応答(orconvqa)という設定を導入し,回答を抽出する前に大量のコレクションから証拠を検索することを学び,機能的な対話型検索システムを構築するためのさらなるステップを提案する。 ORConvQAの研究を容易にするデータセットOR-QuACを作成する。 ORConvQAのエンド・ツー・エンドシステムを構築し,レトリバー,リランカ,およびすべてトランスフォーマーをベースとしたリーダを特徴とする。 OR-QuACに関する広範な実験により、学習可能なレトリバーがORConvQAにとって重要であることが示された。 さらに,すべてのシステムコンポーネントで履歴モデリングを有効にすることで,システムが大幅に改善できることを示す。 さらに,レギュラー化効果を提供することで,リランカコンポーネントがモデル性能に寄与することを示す。 最後に、ORConvQAに関する新たな洞察を提供するため、詳細な分析を行う。

Conversational search is one of the ultimate goals of information retrieval. Recent research approaches conversational search by simplified settings of response ranking and conversational question answering, where an answer is either selected from a given candidate set or extracted from a given passage. These simplifications neglect the fundamental role of retrieval in conversational search. To address this limitation, we introduce an open-retrieval conversational question answering (ORConvQA) setting, where we learn to retrieve evidence from a large collection before extracting answers, as a further step towards building functional conversational search systems. We create a dataset, OR-QuAC, to facilitate research on ORConvQA. We build an end-to-end system for ORConvQA, featuring a retriever, a reranker, and a reader that are all based on Transformers. Our extensive experiments on OR-QuAC demonstrate that a learnable retriever is crucial for ORConvQA. We further show that our system can make a substantial improvement when we enable history modeling in all system components. Moreover, we show that the reranker component contributes to the model performance by providing a regularization effect. Finally, further in-depth analyses are performed to provide new insights into ORConvQA.
翻訳日:2022-11-30 09:35:03 公開日:2020-05-22
# 長期記憶ネットワーク(LSTM)を用いた風速予測と可視化

Wind Speed Prediction and Visualization Using Long Short-Term Memory Networks (LSTM) ( http://arxiv.org/abs/2005.12401v1 )

ライセンス: Link先を確認
Md Amimul Ehsan, Amir Shahirinia, Nian Zhang, Timothy Oladunni(参考訳) 気候変動はこの世紀で最も関係のある問題の一つである。 発電からの排出は、懸念を次のレベルへと導く重要な要因である。 再生可能エネルギー源は世界中に広く普及しているが、大きな課題の1つは、その特性をより情報的な方法で理解することである。 本稿では,風力発電計画と実現可能性研究を簡易化する風速予測手法を提案する。 収集した気象パラメータから風速予測には12の人工知能アルゴリズムが用いられた。 風速予測精度を決定するために, モデル性能を比較した。 その結果、長期記憶(LSTM)は97.8%の精度で他のモデルより優れていることが判明した。

Climate change is one of the most concerning issues of this century. Emission from electric power generation is a crucial factor that drives the concern to the next level. Renewable energy sources are widespread and available globally, however, one of the major challenges is to understand their characteristics in a more informative way. This paper proposes the prediction of wind speed that simplifies wind farm planning and feasibility study. Twelve artificial intelligence algorithms were used for wind speed prediction from collected meteorological parameters. The model performances were compared to determine the wind speed prediction accuracy. The results show a deep learning approach, long short-term memory (LSTM) outperforms other models with the highest accuracy of 97.8%.
翻訳日:2022-11-30 09:34:26 公開日:2020-05-22
# GeoCoV19: 位置情報付き多言語COVID-19ツイート数十万件のデータセット

GeoCoV19: A Dataset of Hundreds of Millions of Multilingual COVID-19 Tweets with Location Information ( http://arxiv.org/abs/2005.11177v1 )

ライセンス: Link先を確認
Umair Qazi, Muhammad Imran, Ferda Ofli(参考訳) 過去数年間、健康危機や自然災害や人的災害といった大規模な収束イベントにおいて、ソーシャルメディアプラットフォームの利用が急増している。 これらの非伝統的なデータソースは、伝染病やパンデミックの流行に備える上で、疾病の予測や監視に不可欠になりつつある。 本稿では,2020年2月1日から90日間に5億2400万件の多言語ツイートが投稿された大規模TwitterデータセットGeoCoV19を紹介する。 さらに、ツイートの位置を推測するために、ガゼッタに基づくアプローチを用いる。 我々は,この大規模かつ多言語で位置決めされたソーシャルメディアデータによって,この前例のない世界的な危機に社会がどう対処しているのかを研究コミュニティに評価し,フェイクニュースの特定,コミュニティの知識ギャップの理解,疾患予測や監視モデルの構築といった課題に対処するための計算手法を開発することができると仮定した。

The past several years have witnessed a huge surge in the use of social media platforms during mass convergence events such as health emergencies, natural or human-induced disasters. These non-traditional data sources are becoming vital for disease forecasts and surveillance when preparing for epidemic and pandemic outbreaks. In this paper, we present GeoCoV19, a large-scale Twitter dataset containing more than 524 million multilingual tweets posted over a period of 90 days since February 1, 2020. Moreover, we employ a gazetteer-based approach to infer the geolocation of tweets. We postulate that this large-scale, multilingual, geolocated social media data can empower the research communities to evaluate how societies are collectively coping with this unprecedented global crisis as well as to develop computational methods to address challenges such as identifying fake news, understanding communities' knowledge gaps, building disease forecast and surveillance models, among others.
翻訳日:2022-11-30 09:33:57 公開日:2020-05-22
# テキスト発話からの新たな意図とドメインの自動発見

Automatic Discovery of Novel Intents & Domains from Text Utterances ( http://arxiv.org/abs/2006.01208v1 )

ライセンス: Link先を確認
Nikhita Vedula, Rahul Gupta, Aman Alok, Mukund Sridhar(参考訳) 自然言語理解(NLU)の主要な課題の1つは、ユーザの話し言葉と書かれた言語発話のドメインと同様に意図を認識することである。 既存の研究の多くは、これを閉世界仮定による教師付き分類問題として定式化している。 しかし、実世界のアプリケーションはますます動的で急速に発展する環境に遭遇し、新たな意図やドメインが出現し、モデルトレーニング中に情報が知られていない。 本稿では,ラベルのない大量のデータから新しいドメインや意図を自動的に発見する新しいフレームワークADVINを提案する。 まずオープンな分類モデルを用いて、新しい意図からなる可能性のある全ての発話を識別する。 次に,ペアリーズマージン損失関数を用いた知識伝達コンポーネントを構築する。 識別的な深い特徴を学習し、発話をグループ化し、教師なしの方法で複数の潜在意図カテゴリーを発見する。 最後に、相互に関連づけられたインテントをドメインに階層的にリンクし、インテント-ドメイン分類を形成する。 ADVINは3つのベンチマークデータセットのベースラインと、商用音声処理エージェントからの実際のユーザ発話を大きく上回る。

One of the primary tasks in Natural Language Understanding (NLU) is to recognize the intents as well as domains of users' spoken and written language utterances. Most existing research formulates this as a supervised classification problem with a closed-world assumption, i.e. the domains or intents to be identified are pre-defined or known beforehand. Real-world applications however increasingly encounter dynamic, rapidly evolving environments with newly emerging intents and domains, about which no information is known during model training. We propose a novel framework, ADVIN, to automatically discover novel domains and intents from large volumes of unlabeled data. We first employ an open classification model to identify all utterances potentially consisting of a novel intent. Next, we build a knowledge transfer component with a pairwise margin loss function. It learns discriminative deep features to group together utterances and discover multiple latent intent categories within them in an unsupervised manner. We finally hierarchically link mutually related intents into domains, forming an intent-domain taxonomy. ADVIN significantly outperforms baselines on three benchmark datasets, and real user utterances from a commercial voice-powered agent.
翻訳日:2022-11-30 09:33:23 公開日:2020-05-22
# 深層学習におけるマルチモーダルデータ融合の逆例に対する脆弱性の検討

Investigating Vulnerability to Adversarial Examples on Multimodal Data Fusion in Deep Learning ( http://arxiv.org/abs/2005.10987v1 )

ライセンス: Link先を確認
Youngjoon Yu, Hong Joo Lee, Byeong Cheon Kim, Jung Uk Kim, Yong Man Ro(参考訳) 深層学習におけるマルチモーダルデータ融合の成功は、複数の入力データ間の相補的インフォームの利用によるものと考えられる。 予測性能と比較して、マルチモーダル融合モデルの堅牢性には比較的注意が向けられていない。 本稿では,現在のマルチモーダル融合モデルが相補的インテリジェンスを利用して敵攻撃を防いでいるかを検討した。 セマンティックセグメンテーションのための多スペクトル(RGB,熱)融合深層学習モデルであるMFNet上で,FGSMやPGDなどの勾配に基づくホワイトボックス攻撃を適用した。 予測精度の向上のために最適化されたマルチモーダル融合モデルは, たとえ1つのセンサのみを攻撃しても, 敵攻撃に対して脆弱であることを確認した。 したがって、既存のマルチモーダルデータ融合モデルは、対角的堅牢性の観点から、複数のモーダル間の相補的関係を完全に活用しているとは言い難い。 我々は,マルチモーダルデータ融合における敵攻撃研究の新たな地平を開くと考えている。

The success of multimodal data fusion in deep learning appears to be attributed to the use of complementary in-formation between multiple input data. Compared to their predictive performance, relatively less attention has been devoted to the robustness of multimodal fusion models. In this paper, we investigated whether the current multimodal fusion model utilizes the complementary intelligence to defend against adversarial attacks. We applied gradient based white-box attacks such as FGSM and PGD on MFNet, which is a major multispectral (RGB, Thermal) fusion deep learning model for semantic segmentation. We verified that the multimodal fusion model optimized for better prediction is still vulnerable to adversarial attack, even if only one of the sensors is attacked. Thus, it is hard to say that existing multimodal data fusion models are fully utilizing complementary relationships between multiple modalities in terms of adversarial robustness. We believe that our observations open a new horizon for adversarial attack research on multimodal data fusion.
翻訳日:2022-11-30 09:26:58 公開日:2020-05-22
# 半監督型対人訓練による顔検出

Spoof Face Detection Via Semi-Supervised Adversarial Training ( http://arxiv.org/abs/2005.10999v1 )

ライセンス: Link先を確認
Chengwei Chen, Wang Yuan, Xuequan Lu, Lizhuang Ma(参考訳) 顔の偽造は、顔認識システムに深刻なセキュリティ脅威を引き起こす。 従来のアンチ・スプーフィングは、典型的には二分法または補助的な監督を伴う監督技術に焦点を当てていた。 それらのほとんどが限定的な堅牢性と一般化、特にクロスデータセット設定に苦しむ。 本稿では,spoof顔検出のための半教師付き逆学習フレームワークを提案する。 実顔データの基本構造を潜在表現空間で捉えるために,畳み込みエンコーダ・デコーダネットワークを生成器として,実顔データのみをトレーニングすることを提案する。 一方,第2の畳み込みネットワークを識別器として追加する。 ジェネレータと判別器は、通常のクラス(ライブフェイス)の基本的な概念を理解するために協力しながら互いに競合することで訓練される。 spoof顔検出はビデオベース(つまり時間情報)であるため、連続したビデオフレームから変換された光フローマップを入力として直感的に取得する。 当社のアプローチは、spoof顔のないので、さまざまなタイプのspoof、さらには未知のspoofに対して堅牢で汎用的です。 我々の半教師あり手法は, 最先端の教師あり手法と比較して, より優れた, 同等の結果が得られることを示す。

Face spoofing causes severe security threats in face recognition systems. Previous anti-spoofing works focused on supervised techniques, typically with either binary or auxiliary supervision. Most of them suffer from limited robustness and generalization, especially in the cross-dataset setting. In this paper, we propose a semi-supervised adversarial learning framework for spoof face detection, which largely relaxes the supervision condition. To capture the underlying structure of live faces data in latent representation space, we propose to train the live face data only, with a convolutional Encoder-Decoder network acting as a Generator. Meanwhile, we add a second convolutional network serving as a Discriminator. The generator and discriminator are trained by competing with each other while collaborating to understand the underlying concept in the normal class(live faces). Since the spoof face detection is video based (i.e., temporal information), we intuitively take the optical flow maps converted from consecutive video frames as input. Our approach is free of the spoof faces, thus being robust and general to different types of spoof, even unknown spoof. Extensive experiments on intra- and cross-dataset tests show that our semi-supervised method achieves better or comparable results to state-of-the-art supervised techniques.
翻訳日:2022-11-30 09:26:22 公開日:2020-05-22
# 一般化された人物再同定のためのスタイル正規化と復元

Style Normalization and Restitution for Generalizable Person Re-identification ( http://arxiv.org/abs/2005.11037v1 )

ライセンス: Link先を確認
Xin Jin, Cuiling Lan, Wenjun Zeng, Zhibo Chen, Li Zhang(参考訳) 既存の完全教師付き人物再識別(reid)メソッドは通常、ドメイン間隙による一般化能力の低下に苦しむ。 この問題を解決する鍵は、アイデンティティ非関係な干渉をフィルタリングし、ドメイン不変な人物表現を学ぶことである。 本稿では、ソースドメイン上でモデルを訓練するが、ターゲットドメイン上での一般化や性能を十分に発揮できる汎用人ReIDフレームワークを設計することを目的とする。 この目的を達成するために、我々はシンプルだが効果的なスタイル正規化・再構成(SNR)モジュールを提案する。 具体的には、インスタンス正規化(IN)によりスタイルのバリエーション(例えば、照明、色コントラスト)をフィルタリングする。 しかし、そのようなプロセスは必然的に差別的な情報を取り除く。 削除された情報からアイデンティティ関連特徴を抽出し,ネットワークに再配置し,高い差別性を確保することを提案する。 そこで我々は,snrの2つの因果損失制約を適用し,同一性関連特徴と同一性非関連特徴の分離を促進する。 広範な実験が我々のフレームワークの強力な一般化能力を示している。 SNRモジュールによって強化された我々のモデルは、複数の広く使われているReIDベンチマークにおいて最先端のドメイン一般化アプローチを著しく上回り、教師なしドメイン適応において優位性を示す。

Existing fully-supervised person re-identification (ReID) methods usually suffer from poor generalization capability caused by domain gaps. The key to solving this problem lies in filtering out identity-irrelevant interference and learning domain-invariant person representations. In this paper, we aim to design a generalizable person ReID framework which trains a model on source domains yet is able to generalize/perform well on target domains. To achieve this goal, we propose a simple yet effective Style Normalization and Restitution (SNR) module. Specifically, we filter out style variations (e.g., illumination, color contrast) by Instance Normalization (IN). However, such a process inevitably removes discriminative information. We propose to distill identity-relevant feature from the removed information and restitute it to the network to ensure high discrimination. For better disentanglement, we enforce a dual causal loss constraint in SNR to encourage the separation of identity-relevant features and identity-irrelevant features. Extensive experiments demonstrate the strong generalization capability of our framework. Our models empowered by the SNR modules significantly outperform the state-of-the-art domain generalization approaches on multiple widely-used person ReID benchmarks, and also show superiority on unsupervised domain adaptation.
翻訳日:2022-11-30 09:25:39 公開日:2020-05-22
# 物体検出のためのKL-Divergence-based Region Proposal Network

KL-Divergence-Based Region Proposal Network for Object Detection ( http://arxiv.org/abs/2005.11220v1 )

ライセンス: Link先を確認
Geonseok Seo, Jaeyoung Yoo, Jaeseok Choi, Nojun Kwak(参考訳) ディープニューラルネットワーク(DNN)を用いたオブジェクト検出における領域提案の学習は、バイナリ分類とバウンディングボックス回帰タスクの2つのタスクに分けられる。 しかし、従来のRPN(Region Proposal Network)では、これらの2つのタスクは異なる問題として定義されており、それぞれ独立して訓練されている。 本稿では,対象度スコアにおける境界ボックスオフセットの不確実性を考慮した領域提案学習手法を提案する。 提案手法は,2つの確率分布の差であるKL偏差を最小化する問題に再定義する。 我々は,KL-Divergenceを用いて領域提案を行うKL-RPNを既存の2段階オブジェクト検出フレームワークに適用し,既存の手法の性能を向上できることを示した。 実験の結果、VGG-16とR-FCNとResNet-101のバックボーンにより、より高速なR-CNNでは、MS COCOテストデブで2.6%と2.0%の改善が達成された。

The learning of the region proposal in object detection using the deep neural networks (DNN) is divided into two tasks: binary classification and bounding box regression task. However, traditional RPN (Region Proposal Network) defines these two tasks as different problems, and they are trained independently. In this paper, we propose a new region proposal learning method that considers the bounding box offset's uncertainty in the objectness score. Our method redefines RPN to a problem of minimizing the KL-divergence, difference between the two probability distributions. We applied KL-RPN, which performs region proposal using KL-Divergence, to the existing two-stage object detection framework and showed that it can improve the performance of the existing method. Experiments show that it achieves 2.6% and 2.0% AP improvements on MS COCO test-dev in Faster R-CNN with VGG-16 and R-FCN with ResNet-101 backbone, respectively.
翻訳日:2022-11-30 09:25:04 公開日:2020-05-22
# 逆領域一般化による新しい人間と物体の相互作用検出

Novel Human-Object Interaction Detection via Adversarial Domain Generalization ( http://arxiv.org/abs/2005.11406v1 )

ライセンス: Link先を確認
Yuhang Song, Wenbo Li, Lei Zhang, Jianwei Yang, Emre Kiciman, Hamid Palangi, Jianfeng Gao, C.-C. Jay Kuo, and Pengchuan Zhang(参考訳) 本稿では,新しい人間-物体間インタラクション(hoi)検出の問題点について検討し,非認識シナリオに対するモデルの一般化能力の向上を目的としている。 この課題は、主に対象と述語の大きな構成空間に起因し、全ての対象と述語の組み合わせに対する十分な訓練データが欠如している。 その結果、既存のhoiメソッドの多くはオブジェクトプリエントに強く依存しており、見えない組み合わせに一般化することがほとんどない。 そこで本研究では,述語予測のためのオブジェクト不変特徴を学習するために,逆領域一般化の統一フレームワークを提案する。 パフォーマンス改善を測定するために、テストセット内のhoisがすべてトレーニングセットの未認識のトリプルトカテゴリであるhico-detデータセットの新たな分割を作成します。 実験の結果,提案手法はHICO-DETデータセットの分割で最大50%,UnRelデータセットで最大125%向上し,新しいHOIの検出に有効であることがわかった。

We study in this paper the problem of novel human-object interaction (HOI) detection, aiming at improving the generalization ability of the model to unseen scenarios. The challenge mainly stems from the large compositional space of objects and predicates, which leads to the lack of sufficient training data for all the object-predicate combinations. As a result, most existing HOI methods heavily rely on object priors and can hardly generalize to unseen combinations. To tackle this problem, we propose a unified framework of adversarial domain generalization to learn object-invariant features for predicate prediction. To measure the performance improvement, we create a new split of the HICO-DET dataset, where the HOIs in the test set are all unseen triplet categories in the training set. Our experiments show that the proposed framework significantly increases the performance by up to 50% on the new split of HICO-DET dataset and up to 125% on the UnRel dataset for auxiliary evaluation in detecting novel HOIs.
翻訳日:2022-11-30 09:24:48 公開日:2020-05-22
# 集団物体検出のためのハッシュベース非最大抑圧

Hashing-based Non-Maximum Suppression for Crowded Object Detection ( http://arxiv.org/abs/2005.11426v1 )

ライセンス: Link先を確認
Jianfeng Wang, Xi Yin, Lijuan Wang, Lei Zhang(参考訳) 本稿では,オブジェクト検出のための非最大ボックスを効率的に抑圧するアルゴリズムであるhashing-based non-maximum suppression (hnms)を提案する。 非最大抑制(NMS)は、近い位置にあるボックスを同様の形状で抑制するための必須成分である。 特に混雑したシーンでは、箱の数が大きくなると時間コストが大きくなる傾向にある。 HNMSの基本的な考え方は、まず各ボックスを個別のコード(ハッシュセル)にマッピングし、同じセルにある場合、信頼性の低いボックスを削除することである。 IoU-union(英語版)を計量として、同じセル内のボックスが低いIoU境界で十分近いことを保証する、IoUHashという単純な効果的なハッシュアルゴリズムを提案する。 2段階検出器では、領域提案ネットワークにおけるNMSをHNMSに置き換え、相当の精度でかなりのスピードアップを観測する。 一段検出器では、HNMSは、大きなマージンで抑制を高速化するためにプレフィルタとして使用される。 CARPK, SKU-110K, CrowdHumanデータセットを用いて, HNMSの有効性と有効性を示す実験を行った。 コードは \url{https://github.com/microsoft/hnms.git} でリリースされる。

In this paper, we propose an algorithm, named hashing-based non-maximum suppression (HNMS) to efficiently suppress the non-maximum boxes for object detection. Non-maximum suppression (NMS) is an essential component to suppress the boxes at closely located locations with similar shapes. The time cost tends to be huge when the number of boxes becomes large, especially for crowded scenes. The basic idea of HNMS is to firstly map each box to a discrete code (hash cell) and then remove the boxes with lower confidences if they are in the same cell. Considering the intersection-over-union (IoU) as the metric, we propose a simple yet effective hashing algorithm, named IoUHash, which guarantees that the boxes within the same cell are close enough by a lower IoU bound. For two-stage detectors, we replace NMS in region proposal network with HNMS, and observe significant speed-up with comparable accuracy. For one-stage detectors, HNMS is used as a pre-filter to speed up the suppression with a large margin. Extensive experiments are conducted on CARPK, SKU-110K, CrowdHuman datasets to demonstrate the efficiency and effectiveness of HNMS. Code is released at \url{https://github.com/microsoft/hnms.git}.
翻訳日:2022-11-30 09:24:30 公開日:2020-05-22
# LSFMモデルを用いたリアルタイムモノクロ4次元顔再構成

Real-Time Monocular 4D Face Reconstruction using the LSFM models ( http://arxiv.org/abs/2006.10499v1 )

ライセンス: Link先を確認
Mohammad Rami Koujan, Nikolai Dochev, Anastasios Roussos(参考訳) 1台のカメラからの4d顔再構成は、特にリアルタイムに行う必要がある場合、難しい課題である。 我々は、ウェブカメラを唯一の入力として使用して、このタスクを正確に解決し、コモディティラップトップ上でリアルタイムに実行される独自の実装のシステムを実証する。 我々のシステムは対話的であり、ユーザーはカメラの前に立って自由に頭を動かし、様々な表情を見せることができる。 その結果、提案システムでは、動作した表情とともに、適切なポーズにおける被写体のアイデンティティをリアルタイムで再構築および可視化する。 我々のフレームワークの4D再構成は、最近リリースされた大規模な顔モデル(LSFM) \cite{LSFM1, LSFM2} に基づいており、これはこれまでに構築された顔形状の最大の3D形態モデルであり、幅広い性別、年齢、民族の組み合わせから1万以上の顔のアイデンティティのデータセットに基づいている。 これは、最近リリースされたLarge-Scale Facial Models (LSFM)の機能を実際にテストする機会を提供する、初めてのリアルタイムデモである。

4D face reconstruction from a single camera is a challenging task, especially when it is required to be performed in real time. We demonstrate a system of our own implementation that solves this task accurately and runs in real time on a commodity laptop, using a webcam as the only input. Our system is interactive, allowing the user to freely move their head and show various expressions while standing in front of the camera. As a result, the put forward system both reconstructs and visualises the identity of the subject in the correct pose along with the acted facial expressions in real-time. The 4D reconstruction in our framework is based on the recently-released Large-Scale Facial Models (LSFM) \cite{LSFM1, LSFM2}, which are the largest-scale 3D Morphable Models of facial shapes ever constructed, based on a dataset of more than 10,000 facial identities from a wide range of gender, age and ethnicity combinations. This is the first real-time demo that gives users the opportunity to test in practice the capabilities of the recently-released Large-Scale Facial Models (LSFM)
翻訳日:2022-11-30 09:24:08 公開日:2020-05-22
# 協調的議論の議論追跡コーパス

The Discussion Tracker Corpus of Collaborative Argumentation ( http://arxiv.org/abs/2005.11344v1 )

ライセンス: Link先を確認
Christopher Olshefski, Luca Lugini, Ravneet Singh, Diane Litman, Amanda Godley(参考訳) 自然言語処理(NLP)による議論マイニングの研究は近年大きく進歩しているが、ほとんどの研究は、個人がしばしば生成する非同期テキストと書面テキストのコーパスに頼っている。 同期的でマルチパーティの議論の公刊コーパスはほとんどない。 議論追跡コーパス(英: discussion tracker corpus)は、アメリカの高校英語の授業で収集された、話し言葉、多人数の議論の書き起こしの注釈付きデータセットである。 コーパスは、985分間の音声から書き起こされた英文学に関する29の多党の議論からなる。 書き起こしは、議論の移動(主張、証拠、説明)、特異性(低い、中、高い)、協力(例えば、他人の考えに対する拡張と不一致)という3次元のコラボレーティブな議論にアノテートされた。 コーパスに関する記述的統計の提供に加えて,各ディメンションを別々に予測するための性能ベンチマークと関連コードを提供し,マルチタスク学習によるパフォーマンス向上のためのコーパス内の複数のアノテーションの利用を例示するとともに,NLP研究をさらに進めるための他の方法について議論する。

Although Natural Language Processing (NLP) research on argument mining has advanced considerably in recent years, most studies draw on corpora of asynchronous and written texts, often produced by individuals. Few published corpora of synchronous, multi-party argumentation are available. The Discussion Tracker corpus, collected in American high school English classes, is an annotated dataset of transcripts of spoken, multi-party argumentation. The corpus consists of 29 multi-party discussions of English literature transcribed from 985 minutes of audio. The transcripts were annotated for three dimensions of collaborative argumentation: argument moves (claims, evidence, and explanations), specificity (low, medium, high) and collaboration (e.g., extensions of and disagreements about others' ideas). In addition to providing descriptive statistics on the corpus, we provide performance benchmarks and associated code for predicting each dimension separately, illustrate the use of the multiple annotations in the corpus to improve performance via multi-task learning, and finally discuss other ways the corpus might be used to further NLP research.
翻訳日:2022-11-30 09:17:20 公開日:2020-05-22
# 逆領域適応を用いたオープンドメインイベントトリガー同定に向けて

Towards Open Domain Event Trigger Identification using Adversarial Domain Adaptation ( http://arxiv.org/abs/2005.11355v1 )

ライセンス: Link先を確認
Aakanksha Naik, Carolyn Ros\'e(参考訳) 我々は、ドメインをまたいでよりよく一般化できる、教師付きイベントトリガー識別モデルを構築するタスクに取り組む。 我々の研究は、ドメイン不変性を導入するために、敵対的ドメイン適応(ADA)フレームワークを活用しています。 ADAは、サンプルのドメインの予測ではなく、トリガー識別のために予測可能な表現を構築するために、敵のトレーニングを使用する。 ターゲットドメインからのラベル付きデータを必要としないため、完全に教師なしである。 2つのドメイン(英文学とニュース)による実験では、ADAはドメイン外のデータに対して平均3.9のF1スコアを改善する。 我々の最高のパフォーマンスモデル(BERT-A)は、ラベル付きターゲットデータを使用し、両方のドメインで44-49 F1に達する。 予備実験では1%のラベル付きデータを微調整し、その後に自己学習を行い、それぞれ文学とニュースで51.5と67.2のf1に達した。

We tackle the task of building supervised event trigger identification models which can generalize better across domains. Our work leverages the adversarial domain adaptation (ADA) framework to introduce domain-invariance. ADA uses adversarial training to construct representations that are predictive for trigger identification, but not predictive of the example's domain. It requires no labeled data from the target domain, making it completely unsupervised. Experiments with two domains (English literature and news) show that ADA leads to an average F1 score improvement of 3.9 on out-of-domain data. Our best performing model (BERT-A) reaches 44-49 F1 across both domains, using no labeled target data. Preliminary experiments reveal that finetuning on 1% labeled data, followed by self-training leads to substantial improvement, reaching 51.5 and 67.2 F1 on literature and news respectively.
翻訳日:2022-11-30 09:17:00 公開日:2020-05-22
# ソーシャルメディアからの会話スレッドにおけるコンテクスト対応サルカズム検出

Transformer-based Context-aware Sarcasm Detection in Conversation Threads from Social Media ( http://arxiv.org/abs/2005.11424v1 )

ライセンス: Link先を確認
Xiangjue Dong, Changmao Li, Jinho D. Choi(参考訳) 本稿では,よりロバストな予測のために,会話スレッド全体のコンテキストを考慮したトランスフォーマ・サーカズム検出モデルを提案する。 本モデルでは,スレッド内の目標発話と関連するコンテキスト間でマルチヘッド注目を行うために,深いトランスフォーマー層を用いる。 コンテキスト対応モデルは、ソーシャルメディア、twitterとredditの2つのデータセットで評価され、ベースラインよりも3.1%と7.0%改善されている。 当社のベストモデルでは、TwitterとRedditのデータセットでそれぞれ79.0%と75.0%のF1スコアが与えられており、36人の参加者の中で最もパフォーマンスの高いシステムのひとつになっています。

We present a transformer-based sarcasm detection model that accounts for the context from the entire conversation thread for more robust predictions. Our model uses deep transformer layers to perform multi-head attentions among the target utterance and the relevant context in the thread. The context-aware models are evaluated on two datasets from social media, Twitter and Reddit, and show 3.1% and 7.0% improvements over their baselines. Our best models give the F1-scores of 79.0% and 75.0% for the Twitter and Reddit datasets respectively, becoming one of the highest performing systems among 36 participants in this shared task.
翻訳日:2022-11-30 09:16:44 公開日:2020-05-22
# GNSS位置時系列予測のための一般化回帰ニューラルネットワークの測地学・地球物理学への応用性について

On the suitability of generalized regression neural networks for GNSS position time series prediction for geodetic applications in geodesy and geophysics ( http://arxiv.org/abs/2005.11106v1 )

ライセンス: Link先を確認
M. Kiani(参考訳) 本稿では、一般化回帰ニューラルネットワークを用いて、GNSS位置時系列を予測する。 ドイツのbad hamburg permanent gnssステーションにおけるigs24時間最終解データを用いて,ネットワークのトレーニング規模が大きくなるほど,時系列の時間範囲に関係なく精度が向上することを示した。 様々な状況下でニューラルネットワークのパフォーマンスを分析するために、スペイン、フランス、ルーマニア、ポーランド、ロシア連邦、イギリス、チェコ、スウェーデン、ウクライナ、イタリア、フィンランド、スロバキア、キプロス、ギリシャなど14の恒久的なステーションが使用されている。 性能分析は、連続したデータなしギャップと不連続なデータなしギャップの間隔の2つの部分に分けられる。 誤差の3つの尺度、すなわち対称平均絶対パーセンテージ誤差、標準偏差、絶対誤差の平均が提示される。 不連続データの場合、位置は最大6cmの精度で予測できるが、連続データ位置は3cmの精度で高い予測精度を示す。 この機械学習アルゴリズムの結果を従来の統計的手法と比較するために、高い精度の時系列予測のために確立されたtheta法が用いられる。 比較の結果、一般化回帰ニューラルネットワーク機械学習アルゴリズムは、おそらく最大250倍のtheta法よりも精度が良いことがわかった。 また、約4.6倍の速さである。

In this paper, the generalized regression neural network is used to predict the GNSS position time series. Using the IGS 24-hour final solution data for Bad Hamburg permanent GNSS station in Germany, it is shown that the larger the training of the network, the higher the accuracy is, regardless of the time span of the time series. In order to analyze the performance of the neural network in various conditions, 14 permanent stations are used in different countries, namely, Spain, France, Romania, Poland, Russian Federation, United Kingdom, Czech Republic, Sweden, Ukraine, Italy, Finland, Slovak Republic, Cyprus, and Greece. The performance analysis is divided into two parts, continuous data-without gaps-and discontinuous ones-having intervals of gaps with no data available. Three measure of error are presented, namely, symmetric mean absolute percentage error, standard deviation, and mean of absolute errors. It is shown that for discontinuous data the position can be predicted with an accuracy of up to 6 centimeters, while the continuous data positions present a higher prediction accuracy, as high as 3 centimeters. In order to compare the results of this machine learning algorithm with the traditional statistical approaches, the Theta method is used, which is well-established for high-accuracy time series prediction. The comparison shows that the generalized regression neural network machine learning algorithm presents better accuracy than the Theta method, possibly up to 250 times. In addition, it is approximately 4.6 times faster.
翻訳日:2022-11-30 09:16:31 公開日:2020-05-22
# 汎用ビデオゲームにおける一般化の評価

Evaluating Generalisation in General Video Game Playing ( http://arxiv.org/abs/2005.11247v1 )

ライセンス: Link先を確認
Martin Balla and Simon M. Lucas and Diego Perez-Liebana(参考訳) gvgai(general video game artificial intelligence)コンペティションは、様々なトラックで数年前から開催されている。 本稿では,GVGAI学習コースにおいて,3つのゲームが選択され,2つのレベルがトレーニング用に与えられる一方で,3つの隠れレベルが評価のために残るという課題に焦点を当てる。 このセットアップは、通常より多くのデータを必要とするため、現在の強化学習(RL)アルゴリズムにとって難しい課題となる。 本研究は,gvgaiフレームワークから利用可能な5レベルから最大2レベルまでトレーニングされたアドバンテージアクタ-クリティック(a2c)アルゴリズムの3つのバージョンを調査し,そのパフォーマンスを全レベル比較する。 選択されたサブセットは確率性、報酬分布、目的など、異なる特徴を持つ。 確率性は一般化を改善するが、アルゴリズムがトレーニングレベルを学習するのに失敗する可能性がある。 トレーニングレベルの品質も重要であり、トレーニングレベルの異なるセットは、すべてのレベルに対する一般化を促進する。 GVGAIの競技エージェントは勝利率に基づいて得点され、試合で得点される。 ゲームが提供する報酬のみを使用することで、勝利を促進できないことが分かったのです。

The General Video Game Artificial Intelligence (GVGAI) competition has been running for several years with various tracks. This paper focuses on the challenge of the GVGAI learning track in which 3 games are selected and 2 levels are given for training, while 3 hidden levels are left for evaluation. This setup poses a difficult challenge for current Reinforcement Learning (RL) algorithms, as they typically require much more data. This work investigates 3 versions of the Advantage Actor-Critic (A2C) algorithm trained on a maximum of 2 levels from the available 5 from the GVGAI framework and compares their performance on all levels. The selected sub-set of games have different characteristics, like stochasticity, reward distribution and objectives. We found that stochasticity improves the generalisation, but too much can cause the algorithms to fail to learn the training levels. The quality of the training levels also matters, different sets of training levels can boost generalisation over all levels. In the GVGAI competition agents are scored based on their win rates and then their scores achieved in the games. We found that solely using the rewards provided by the game might not encourage winning.
翻訳日:2022-11-30 09:15:48 公開日:2020-05-22
# SEED:シーンテキスト認識のためのセマンティックス強化エンコーダデコーダフレームワーク

SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition ( http://arxiv.org/abs/2005.10977v1 )

ライセンス: Link先を確認
Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, Weiping Wang(参考訳) シーンテキスト認識はコンピュータビジョンにおけるホットな研究トピックである。 近年,エンコーダ・デコーダフレームワークに基づく認識手法が多数提案されており,遠近的歪みや曲線形状のシーンテキストを扱うことができる。 それでも、画像のぼやけ、不均一な照明、不完全な文字など、多くの課題に直面している。 ほとんどのエンコーダ・デコーダ法は明示的なグローバル意味情報を持たない局所的な視覚的特徴に基づいている。 本研究では,低品質シーンテキストを頑健に認識するためのセマンティックス拡張エンコーダデコーダフレームワークを提案する。 セマンティック情報は、監督用のエンコーダモジュールと初期化のためのデコーダモジュールの両方で使用される。 特に最先端の ASTER メソッドは,提案フレームワークに例証として組み込まれている。 広範な実験により、提案フレームワークは低品質のテキスト画像に対してより堅牢であり、いくつかのベンチマークデータセットで最先端の結果が得られることを示した。

Scene text recognition is a hot research topic in computer vision. Recently, many recognition methods based on the encoder-decoder framework have been proposed, and they can handle scene texts of perspective distortion and curve shape. Nevertheless, they still face lots of challenges like image blur, uneven illumination, and incomplete characters. We argue that most encoder-decoder methods are based on local visual features without explicit global semantic information. In this work, we propose a semantics enhanced encoder-decoder framework to robustly recognize low-quality scene texts. The semantic information is used both in the encoder module for supervision and in the decoder module for initializing. In particular, the state-of-the art ASTER method is integrated into the proposed framework as an exemplar. Extensive experiments demonstrate that the proposed framework is more robust for low-quality text images, and achieves state-of-the-art results on several benchmark datasets.
翻訳日:2022-11-30 09:15:27 公開日:2020-05-22
# よりよく見れるよう焦点を合わせる:細粒度画像分類のための再検討

Focus Longer to See Better:Recursively Refined Attention for Fine-Grained Image Classification ( http://arxiv.org/abs/2005.10979v1 )

ライセンス: Link先を確認
Prateek Shroff, Tianlong Chen, Yunchao Wei, Zhangyang Wang(参考訳) ディープニューラルネットワークは、粗粒画像分類タスクにおいて大きな進歩を示している。 それは、画像から識別的特徴表現を抽出する能力が強かったためでもある。 しかし、微細な画像の異なるクラス間の視覚的な差は、この問題を非常に難しくする。 本稿では,これらの限界差に着目し,より代表的な特徴の抽出を試みた。 人間の視覚と同様に、我々のネットワークは画像の一部に繰り返し焦点を合わせ、クラス内の小さな識別的部分を見つける。 さらに、ネットワークの焦点が粗いものから細かいものへとどのように変化するかの解釈可能性技術を通して示す。 また,実験により,これらの細部を集約(重み付け)し,画像の最も重要な判別部分に焦点をあてることができることを示した。 ネットワークは画像レベルのラベルのみを使用し,バウンディングボックス/部分アノテーション情報を必要としない。 さらに、ネットワークのシンプルさによって、プラグインnプレイモジュールも簡単になります。 解釈性の提供とは別に、ネットワークはベースラインに比べてパフォーマンス(最大2%)を向上します。 私たちのコードベースはhttps://github.com/TAMU-VITA/Focus-Longer-to-See-Betterで公開されています。

Deep Neural Network has shown great strides in the coarse-grained image classification task. It was in part due to its strong ability to extract discriminative feature representations from the images. However, the marginal visual difference between different classes in fine-grained images makes this very task harder. In this paper, we tried to focus on these marginal differences to extract more representative features. Similar to human vision, our network repetitively focuses on parts of images to spot small discriminative parts among the classes. Moreover, we show through interpretability techniques how our network focus changes from coarse to fine details. Through our experiments, we also show that a simple attention model can aggregate (weighted) these finer details to focus on the most dominant discriminative part of the image. Our network uses only image-level labels and does not need bounding box/part annotation information. Further, the simplicity of our network makes it an easy plug-n-play module. Apart from providing interpretability, our network boosts the performance (up to 2%) when compared to its baseline counterparts. Our codebase is available at https://github.com/TAMU-VITA/Focus-Longer-to-See-Better
翻訳日:2022-11-30 09:15:14 公開日:2020-05-22
# RankPose: ヘッドポーズ推定のためのランクスーパービジョンを備えた一般機能学習

RankPose: Learning Generalised Feature with Rank Supervision for Head Pose Estimation ( http://arxiv.org/abs/2005.10984v1 )

ライセンス: Link先を確認
Donggen Dai, Wangkit Wong, Zhuojun Chen(参考訳) RGB画像に基づく頭部ポーズ推定の課題に対処する。 まず,頭姿勢表現学習を再構成し,境界空間に制約する。 ベクトル投影やベクトル角として表される頭部ポーズは、性能向上に役立つ。 さらに,MSE回帰損失と組み合わせたランキング損失を提案する。 ランキング損失は、同一人物のペアサンプルでニューラルネットワークを監督し、ポーズ予測の誤った順序付けを行う。 この新たな損失関数の解析により,特徴抽出器がより優れた局所特徴抽出器に寄与することが示唆され,特徴は識別,年齢,照明などのポーズ関連情報ではなく,ポーズ関連の特徴である抽象ランドマークに一般化される。 AFLW2000 や BIWI といった公開データセット上での現在の最先端のスキームよりも優れていた。 AFLW2000の以前のSOTA MAEとBIWIの4.50から3.66および4.0から3.71への大幅な改善を実現した。 ソースコードはhttps://github.com/seathiefwang/rankheadposeで入手できる。

We address the challenging problem of RGB image-based head pose estimation. We first reformulate head pose representation learning to constrain it to a bounded space. Head pose represented as vector projection or vector angles shows helpful to improving performance. Further, a ranking loss combined with MSE regression loss is proposed. The ranking loss supervises a neural network with paired samples of the same person and penalises incorrect ordering of pose prediction. Analysis on this new loss function suggests it contributes to a better local feature extractor, where features are generalised to Abstract Landmarks which are pose-related features instead of pose-irrelevant information such as identity, age, and lighting. Extensive experiments show that our method significantly outperforms the current state-of-the-art schemes on public datasets: AFLW2000 and BIWI. Our model achieves significant improvements over previous SOTA MAE on AFLW2000 and BIWI from 4.50 to 3.66 and from 4.0 to 3.71 respectively. Source code will be made available at: https://github.com/seathiefwang/RankHeadPose.
翻訳日:2022-11-30 09:14:56 公開日:2020-05-22
# そのうちの1つ(4つ)は他と違うもの

One of these (Few) Things is Not Like the Others ( http://arxiv.org/abs/2005.11405v1 )

ライセンス: Link先を確認
Nat Roth, Justin Wagle(参考訳) 多くのディープラーニングベースの画像分類システムでは大量のデータと計算資源を必要とする。 これらの制約により、個人ユーザへの迅速なパーソナライズや、比較的強力なマシン以外のモデルのトレーニングが困難になる。 これらの問題に対処するためには、少数のトレーニング例に基づいて画像の分類を学ぶための機械を教えるための研究が数多く行われている。 ショット学習の研究は伝統的に、すべての画像が以前に見た固定数のグループの1つに属するという仮定を単純化している。 しかし、スマートフォン上のカメラロールのような多くの画像データセットは騒々しく、関連性がなく、明確なグループに収まるような画像を含んでいる。 本稿では,少数の例に基づいて新しい画像の分類と,それ以前のどのグループにも属さない画像の認識が可能なモデルを提案する。 画像の排除や分類を判断する、カットオフを学習するためのシンプルなメカニズムを含むように、前回のマイナショット学習を適応させる。 提案手法が現実的な環境でどのように機能するかを検証し,ノイズの多い曖昧な画像データセットにアプローチをベンチマークする。 我々は,携帯電話やWebブラウザなどの低消費電力デバイス上で動作可能な小型のセットアップを含む,モデルアーキテクチャの幅広い範囲のパフォーマンスを評価する。 無関係な画像を除外するこのタスクは、従来の数発のタスク以上の大きな難しさをもたらす。 我々は、この誤りの原因を分解し、この困難を軽減できる将来の改善を提案する。

To perform well, most deep learning based image classification systems require large amounts of data and computing resources. These constraints make it difficult to quickly personalize to individual users or train models outside of fairly powerful machines. To deal with these problems, there has been a large body of research into teaching machines to learn to classify images based on only a handful of training examples, a field known as few-shot learning. Few-shot learning research traditionally makes the simplifying assumption that all images belong to one of a fixed number of previously seen groups. However, many image datasets, such as a camera roll on a phone, will be noisy and contain images that may not be relevant or fit into any clear group. We propose a model which can both classify new images based on a small number of examples and recognize images which do not belong to any previously seen group. We adapt previous few-shot learning work to include a simple mechanism for learning a cutoff that determines whether an image should be excluded or classified. We examine how well our method performs in a realistic setting, benchmarking the approach on a noisy and ambiguous dataset of images. We evaluate performance over a spectrum of model architectures, including setups small enough to be run on low powered devices, such as mobile phones or web browsers. We find that this task of excluding irrelevant images poses significant extra difficulty beyond that of the traditional few-shot task. We decompose the sources of this error, and suggest future improvements that might alleviate this difficulty.
翻訳日:2022-11-30 09:09:27 公開日:2020-05-22
# 機械学習とディープラーニングを用いたマラリア感染細胞の生体細胞分類へのアプローチ : k-nearest近傍と深層cnnの比較・解析

Approaching Bio Cellular Classification for Malaria Infected Cells Using Machine Learning and then Deep Learning to compare & analyze K-Nearest Neighbours and Deep CNNs ( http://arxiv.org/abs/2005.11417v1 )

ライセンス: Link先を確認
Rishabh Malhotra, Dhron Joshi, Ku Young Shin(参考訳) マラリアは致命的な病気で、毎年何十万人もの人の命がかかっています。 診断画像の分類と疾患の同定の効果的な手段を提供することにより、医療産業において計算手法が有用であることが証明されている。 本稿では,細胞画像中のマラリアの存在を分類する文脈において,異なる機械学習手法を検討する。 1つの機械学習方法が問題に適しているかどうかという問題は、問題そのものとモデルの実装に大きく依存している。 特に、畳み込みニューラルネットワークとk近傍は、マラリアの存在と各モデルの経験的パフォーマンスを分類するためのそれらの応用について分析され、対比される。 ここでは、畳み込みニューラルネットワークとk近傍のアルゴリズムの2つの分類モデルを実装する。 これら2つのアルゴリズムを検証精度に基づいて比較する。 CNN (95%) は kNN (75%) よりも25%良い性能を示した。

Malaria is a deadly disease which claims the lives of hundreds of thousands of people every year. Computational methods have been proven to be useful in the medical industry by providing effective means of classification of diagnostic imaging and disease identification. This paper examines different machine learning methods in the context of classifying the presence of malaria in cell images. Numerous machine learning methods can be applied to the same problem; the question of whether one machine learning method is better suited to a problem relies heavily on the problem itself and the implementation of a model. In particular, convolutional neural networks and k nearest neighbours are both analyzed and contrasted in regards to their application to classifying the presence of malaria and each models empirical performance. Here, we implement two models of classification; a convolutional neural network, and the k nearest neighbours algorithm. These two algorithms are compared based on validation accuracy. For our implementation, CNN (95%) performed 25% better than kNN (75%).
翻訳日:2022-11-30 09:09:04 公開日:2020-05-22
# オープンエンドテキスト生成のためのビーム探索におけるラベルバイアスの検討

Investigating Label Bias in Beam Search for Open-ended Text Generation ( http://arxiv.org/abs/2005.11009v1 )

ライセンス: Link先を確認
Liang Wang, Jinlong Liu, Jingming Liu(参考訳) ビーム探索は、多くのシーケンシャル・ツー・シークエンス(seq2seq)テキスト生成タスクにおいて有効かつ広く使用される復号アルゴリズムである。 しかし、オープンエンドテキスト生成では、ビームサーチが繰り返しおよびジェネリックテキストを生成することがしばしば見出され、トップクサンプリングや核サンプリングのようなサンプリングベースの復号アルゴリズムの方が好まれる。 標準seq2seqモデルは、局所正規化確率定式化のためにラベルバイアスを被る。 本稿では,ビームサーチの退化挙動の主要な理由として,ラベルバイアスが有効であることを示す。 局所正規化最大確率推定とグローバル正規化シーケンスレベルのトレーニングを組み合わせることで、ラベルバイアスをほとんど犠牲にすることなく低減することができる。 ラベルバイアスを定量的に測定するために, モデルによる基幹テキストと文脈に不注意な一組を識別する能力をテストする。 大規模応答生成データセットの実験を行う。 その結果,ビームサーチは,自動評価指標と人的評価指標の両方の観点から,より多様で意味のあるテキストを生成することができることがわかった。 また,オープンエンドテキスト生成という大きな課題に向けて,今後の作業方向も示唆した。

Beam search is an effective and widely used decoding algorithm in many sequence-to-sequence (seq2seq) text generation tasks. However, in open-ended text generation, beam search is often found to produce repetitive and generic texts, sampling-based decoding algorithms like top-k sampling and nucleus sampling are more preferred. Standard seq2seq models suffer from label bias due to its locally normalized probability formulation. This paper provides a series of empirical evidence that label bias is a major reason for such degenerate behaviors of beam search. By combining locally normalized maximum likelihood estimation and globally normalized sequence-level training, label bias can be reduced with almost no sacrifice in perplexity. To quantitatively measure label bias, we test the model's ability to discriminate the groundtruth text and a set of context-agnostic distractors. We conduct experiments on large-scale response generation datasets. Results show that beam search can produce more diverse and meaningful texts with our approach, in terms of both automatic and human evaluation metrics. Our analysis also suggests several future working directions towards the grand challenge of open-ended text generation.
翻訳日:2022-11-30 09:07:41 公開日:2020-05-22
# 技術支援問題に対するセグメンテーションの改善

Improving Segmentation for Technical Support Problems ( http://arxiv.org/abs/2005.11055v1 )

ライセンス: Link先を確認
Kushal Chauhan and Abhirut Gupta(参考訳) 技術的サポートの問題はしばしば長く複雑である。 それらは通常、問題のユーザ記述、設定、解決を試みるステップを含む。 コマンドの出力、コードのスニペット、エラーメッセージ、スタックトレースなど、さまざまな非自然言語テキスト要素も含むことが多い。 これらの要素は問題解決のための潜在的に重要な情報を含んでいる。 しかし、自然言語用に設計されたツールでは正しく解析できない。 本稿では,技術支援問題に対するセグメンテーションの問題に対処する。 本稿では,課題を逐次ラベリングタスクとして定式化し,最先端技術について検討する。 本稿では,直感的な文脈文レベルの分類基準と,テクストによるテキスト分割手法の現状を比較した。 また、異なるデータソース上で事前学習された複数の言語モデルからのコンテキスト埋め込みを組み合わせる新しいコンポーネントを導入し、単一の事前学習された言語モデルからの埋め込みを使用することよりも顕著な改善を実現した。 最後に,回答検索のダウンストリームタスクの改善とともに,このようなセグメンテーションの有用性を示す。

Technical support problems are often long and complex. They typically contain user descriptions of the problem, the setup, and steps for attempted resolution. Often they also contain various non-natural language text elements like outputs of commands, snippets of code, error messages or stack traces. These elements contain potentially crucial information for problem resolution. However, they cannot be correctly parsed by tools designed for natural language. In this paper, we address the problem of segmentation for technical support questions. We formulate the problem as a sequence labelling task, and study the performance of state of the art approaches. We compare this against an intuitive contextual sentence-level classification baseline, and a state of the art supervised text-segmentation approach. We also introduce a novel component of combining contextual embeddings from multiple language models pre-trained on different data sources, which achieves a marked improvement over using embeddings from a single pre-trained language model. Finally, we also demonstrate the usefulness of such segmentation with improvements on the downstream task of answer retrieval.
翻訳日:2022-11-30 09:07:23 公開日:2020-05-22
# ポジティブなラベルなし学習を伴うeコマースにおける名前付きエンティティ認識のブートストラップ

Bootstrapping Named Entity Recognition in E-Commerce with Positive Unlabeled Learning ( http://arxiv.org/abs/2005.11075v1 )

ライセンス: Link先を確認
Hanchu Zhang, Leonhard Hennig, Christoph Alt, Changjian Hu, Yao Meng, Chao Wang(参考訳) eコマースのようなドメインで名前付きエンティティ認識(NER)は、アノテーション付きデータセットがないため、未調査の問題である。 製品、コンポーネント、属性など、このドメインにおける新しいエンティティタイプを認識することは、言語の複雑さと既存の知識リソースのカバレッジの低さから困難である。 この問題に対処するために、ドメイン固有の言語機能を統合して、シード辞書を迅速かつ効率的に拡張する自己学習アルゴリズムを提案する。 このモデルは、製品記述の新しいデータセットで平均72.02%のf1スコアを達成し、ベースラインのbilstm分類器よりも3.63%改善され、特に良いリコール(平均4.96%)を示す。

Named Entity Recognition (NER) in domains like e-commerce is an understudied problem due to the lack of annotated datasets. Recognizing novel entity types in this domain, such as products, components, and attributes, is challenging because of their linguistic complexity and the low coverage of existing knowledge resources. To address this problem, we present a bootstrapped positive-unlabeled learning algorithm that integrates domain-specific linguistic features to quickly and efficiently expand the seed dictionary. The model achieves an average F1 score of 72.02% on a novel dataset of product descriptions, an improvement of 3.63% over a baseline BiLSTM classifier, and in particular exhibits better recall (4.96% on average).
翻訳日:2022-11-30 09:07:09 公開日:2020-05-22
# wikipediaセクションのタイル化とクラスタリングのための生成的アプローチ

A Generative Approach to Titling and Clustering Wikipedia Sections ( http://arxiv.org/abs/2005.11216v1 )

ライセンス: Link先を確認
Anjalie Field, Sascha Rothe, Simon Baumgartner, Cong Yu, and Abe Ittycheriah(参考訳) 情報化のための様々なデコーダを用いたトランスフォーマエンコーダの性能評価を,wikipedia記事のセクション見出し生成という新しいタスクを用いて行う。 解析の結果,エンコーダ出力上に注意機構を有するデコーダは抽出テキストを生成することにより高いスコーダ性能が得られることがわかった。 対照的に、注意のないデコーダはセマンティックエンコーディングを容易にし、セクション埋め込みを生成するのに使うことができる。 さらに、デコーダが高品質な埋め込みを生成することを奨励する新しい損失関数を導入する。

We evaluate the performance of transformer encoders with various decoders for information organization through a new task: generation of section headings for Wikipedia articles. Our analysis shows that decoders containing attention mechanisms over the encoder output achieve high-scoring results by generating extractive text. In contrast, a decoder without attention better facilitates semantic encoding and can be used to generate section embeddings. We additionally introduce a new loss function, which further encourages the decoder to generate high-quality embeddings.
翻訳日:2022-11-30 09:06:15 公開日:2020-05-22
# 文字レベルトランスフォーマーに基づくニューラルマシン翻訳

Character-level Transformer-based Neural Machine Translation ( http://arxiv.org/abs/2005.11239v1 )

ライセンス: Link先を確認
Nikolay Banar, Walter Daelemans and Mike Kestemont(参考訳) ニューラルネットワーク翻訳(NMT)は現在、バイトペアエンコーディングを用いて、サブワードレベルで一般的に適用されている。 有望な代替アプローチは、NTTの処理パイプラインを大幅に単純化する文字レベルの変換に焦点を当てている。 しかし、このアプローチは比較的長いシーケンスを考慮する必要があり、トレーニングプロセスは違法に高価になる。 本稿では,トランスフォーマーを用いた新しい手法について論じる。スピードと品質を,サブワードや文字レベルでのトランスフォーマーと比較し,以前に開発されたキャラクタレベルのモデルと比較する。 WMT'15: DE-EN, CS-EN, FI-EN, RU-ENの4つの言語対について評価を行った。 提案された新しいアーキテクチャは、単一のGPUでトレーニングすることができ、文字レベルのTransformerよりも34%高速である。 さらに,提案モデルはfi-enのサブワードレベルモデルよりも優れており,cs-enでは近い結果を示す。 この領域のさらなる研究を刺激し、サブワードレベルのNTTとのギャップを埋めるために、私たちはすべてのコードとモデルを公開しています。

Neural machine translation (NMT) is nowadays commonly applied at the subword level, using byte-pair encoding. A promising alternative approach focuses on character-level translation, which simplifies processing pipelines in NMT considerably. This approach, however, must consider relatively longer sequences, rendering the training process prohibitively expensive. In this paper, we discuss a novel, Transformer-based approach, that we compare, both in speed and in quality to the Transformer at subword and character levels, as well as previously developed character-level models. We evaluate our models on 4 language pairs from WMT'15: DE-EN, CS-EN, FI-EN and RU-EN. The proposed novel architecture can be trained on a single GPU and is 34% percent faster than the character-level Transformer; still, the obtained results are at least on par with it. In addition, our proposed model outperforms the subword-level model in FI-EN and shows close results in CS-EN. To stimulate further research in this area and close the gap with subword-level NMT, we make all our code and models publicly available.
翻訳日:2022-11-30 09:06:05 公開日:2020-05-22
# Head2Head:ビデオベースのニューラルヘッド合成

Head2Head: Video-based Neural Head Synthesis ( http://arxiv.org/abs/2005.10954v1 )

ライセンス: Link先を確認
Mohammad Rami Koujan, Michail Christos Doukas, Anastasios Roussos, Stefanos Zafeiriou(参考訳) 本稿では,表情再現のための新しい機械学習アーキテクチャを提案する。 特に,個別のフレームを生成するためにディープ畳み込みニューラルネットワーク(DCNN)を用いたモデルベースアプローチや最近のフレームベース手法とは対照的に,新しい手法を提案する。 (a)顔面運動の特殊構造(特に口の動きに注意を払う)を活用し、 b)時間的一貫性を強制する。 提案手法は, 顔の表情, ポーズ, 視線を, 最先端の手法よりも正確に写実的な方法で対象映像に転送できることを実証する。

In this paper, we propose a novel machine learning architecture for facial reenactment. In particular, contrary to the model-based approaches or recent frame-based methods that use Deep Convolutional Neural Networks (DCNNs) to generate individual frames, we propose a novel method that (a) exploits the special structure of facial motion (paying particular attention to mouth motion) and (b) enforces temporal consistency. We demonstrate that the proposed method can transfer facial expressions, pose and gaze of a source actor to a target video in a photo-realistic fashion more accurately than state-of-the-art methods.
翻訳日:2022-11-30 09:00:05 公開日:2020-05-22
# 医療用インターネットにおけるジェスチャー認識のための特徴選択

Feature selection for gesture recognition in Internet-of-Things for healthcare ( http://arxiv.org/abs/2005.11031v1 )

ライセンス: Link先を確認
Giulia Cisotto, Martina Capuzzo, Anna V. Guglielmi, Andrea Zanella(参考訳) モノのインターネット(internet of things, モノのインターネット)は、医療、コミュニケーション能力、エネルギー効率、センサーなど、さまざまな分野に急速に普及している。 特に、ジェスチャ認識の文脈において、例えば、異なる対象の把握において、脳波と筋電図を介して、脳と筋活動を同時に記録し、達成されたジェスチャと、そのパフォーマンスの質を識別するために分析することができる。 本稿では,新しいアルゴリズムを提案する。 (i)最も重要な特徴をしっかり抽出して、異なる把握タスクを分類し、 (ii)選択された特徴の自然な意味を保つこと。 これにより、インターネットを含む通信ネットワーク上のデータトラフィックを最小限に抑えるための記録設定を簡素化し、医学的解釈のための生理学的に重要な特徴を提供する。 アルゴリズムのロバスト性は、特徴選択戦略としてのコンセンサスクラスタリングと、その分類性能を評価するためのネスト型クロスバリデーションスキームの両方によって保証される。

Internet of Things is rapidly spreading across several fields, including healthcare, posing relevant questions related to communication capabilities, energy efficiency and sensors unobtrusiveness. Particularly, in the context of recognition of gestures, e.g., grasping of different objects, brain and muscular activity could be simultaneously recorded via EEG and EMG, respectively, and analyzed to identify the gesture that is being accomplished, and the quality of its performance. This paper proposes a new algorithm that aims (i) to robustly extract the most relevant features to classify different grasping tasks, and (ii) to retain the natural meaning of the selected features. This, in turn, gives the opportunity to simplify the recording setup to minimize the data traffic over the communication network, including Internet, and provide physiologically significant features for medical interpretation. The algorithm robustness is ensured both by consensus clustering as a feature selection strategy, and by nested cross-validation scheme to evaluate its classification performance.
翻訳日:2022-11-30 08:59:07 公開日:2020-05-22
# 深部ニューラルネットワークを用いた胸部X線画像から普遍的敵攻撃までの検出

Vulnerability of deep neural networks for detecting COVID-19 cases from chest X-ray images to universal adversarial attacks ( http://arxiv.org/abs/2005.11061v1 )

ライセンス: Link先を確認
Hokuto Hirano, Kazuki Koga, Kazuhiro Takemoto(参考訳) 新型コロナウイルス感染症(COVID-19)の感染拡大を受け、胸部X線CTが新型コロナウイルス患者のスクリーニングに利用されている。 深層ニューラルネットワーク(dnn)に基づくコンピュータ支援システムの開発が進められており、数に制限のある専門放射線科医の必要性がスクリーニングのボトルネックとなっているため、covid-19の症例を迅速かつ正確に検出することができる。 しかし、これまでのところ、DNNベースのシステムの脆弱性は評価されていないが、DNNは単一の摂動に対して脆弱であり、UAP(Universal adversarial perturbation)と呼ばれ、ほとんどの分類タスクにおいてDNNの障害を引き起こす可能性がある。 そこで我々は,胸部X線画像から新型コロナウイルスの症例を検出するための代表的DNNモデルに注目し,その脆弱性を単純な反復アルゴリズムを用いて生成したUPAに対して評価する。 我々は、不正なラベルが割り当てられる原因となるタスク障害の原因となる非ターゲットUAPと、DNNが入力を特定のクラスに分類する原因となるターゲットUAPを考察する。 その結果,小型UAPであっても,非ターゲット型およびターゲット型UAPに対して脆弱であることがわかった。 特に、画像データセットにおける画像の平均ノルムに対するUPAの2%のノルムは、標的でない攻撃に対して、それぞれ85%と90%の成功率を達成する。 非標的のUAPのため、DNNモデルはほとんどの胸部X線画像を新型コロナウイルスの症例と判断する。 対象とするUAPは、DNNモデルをほとんどの胸部X線画像を所定のターゲットクラスに分類する。 以上の結果から,dnnの新型コロナウイルス(covid-19)診断への応用には慎重な検討が必要であり,特にセキュリティ対策の必要性を強調する。 一例として、UAPを用いたDNNモデルの反復微調整により、UPAに対するDNNモデルの堅牢性が改善されることを示す。

Under the epidemic of the novel coronavirus disease 2019 (COVID-19), chest X-ray computed tomography imaging is being used for effectively screening COVID-19 patients. The development of computer-aided systems based on deep neural networks (DNNs) has been advanced, to rapidly and accurately detect COVID-19 cases, because the need for expert radiologists, who are limited in number, forms a bottleneck for the screening. However, so far, the vulnerability of DNN-based systems has been poorly evaluated, although DNNs are vulnerable to a single perturbation, called universal adversarial perturbation (UAP), which can induce DNN failure in most classification tasks. Thus, we focus on representative DNN models for detecting COVID-19 cases from chest X-ray images and evaluate their vulnerability to UAPs generated using simple iterative algorithms. We consider nontargeted UAPs, which cause a task failure resulting in an input being assigned an incorrect label, and targeted UAPs, which cause the DNN to classify an input into a specific class. The results demonstrate that the models are vulnerable to nontargeted and targeted UAPs, even in case of small UAPs. In particular, 2% norm of the UPAs to the average norm of an image in the image dataset achieves >85% and >90% success rates for the nontargeted and targeted attacks, respectively. Due to the nontargeted UAPs, the DNN models judge most chest X-ray images as COVID-19 cases. The targeted UAPs make the DNN models classify most chest X-ray images into a given target class. The results indicate that careful consideration is required in practical applications of DNNs to COVID-19 diagnosis; in particular, they emphasize the need for strategies to address security concerns. As an example, we show that iterative fine-tuning of the DNN models using UAPs improves the robustness of the DNN models against UAPs.
翻訳日:2022-11-30 08:58:49 公開日:2020-05-22
# point2mesh: 変形可能なメッシュの自己優先

Point2Mesh: A Self-Prior for Deformable Meshes ( http://arxiv.org/abs/2005.11084v1 )

ライセンス: Link先を確認
Rana Hanocka, Gal Metzer, Raja Giryes, Daniel Cohen-Or(参考訳) 本稿では,入力点雲から表面メッシュを再構成する手法であるpoint2meshを提案する。 期待される形状特性を符号化する事前を明示的に指定する代わりに、前者は入力ポイントクラウドを使用して自動的に定義され、これは自己優先と呼ばれる。 自己優先型は、ディープニューラルネットワークの重み内の単一の形状から幾何的繰り返しをカプセル化する。 ネットワークウェイトを最適化して初期メッシュを変形し、単一の入力ポイントクラウドを縮小する。 これは、共有ローカルカーネルが全体のオブジェクトに適合するように計算されるため、再構築された全体の形状を明示的に考慮する。 畳み込みカーネルは全形状にわたってグローバルに最適化されており、本質的には形状表面を横断する局所的な幾何学的自己相似性を促進する。 自己優先性を持つ点雲の縮小ラッピングは望ましい解に収束し, 所定の滑らかさに比較すると, しばしば望ましくない局所最小値に閉じ込められる。 従来の再建手法の性能は、非理想的条件、すなわち非指向性正規、ノイズと(低密度)部分において劣化するが、Point2Meshは非理想的条件に対して堅牢である。 我々は,複雑度が異なる多種多様な形状のpoint2meshの性能を示す。

In this paper, we introduce Point2Mesh, a technique for reconstructing a surface mesh from an input point cloud. Instead of explicitly specifying a prior that encodes the expected shape properties, the prior is defined automatically using the input point cloud, which we refer to as a self-prior. The self-prior encapsulates reoccurring geometric repetitions from a single shape within the weights of a deep neural network. We optimize the network weights to deform an initial mesh to shrink-wrap a single input point cloud. This explicitly considers the entire reconstructed shape, since shared local kernels are calculated to fit the overall object. The convolutional kernels are optimized globally across the entire shape, which inherently encourages local-scale geometric self-similarity across the shape surface. We show that shrink-wrapping a point cloud with a self-prior converges to a desirable solution; compared to a prescribed smoothness prior, which often becomes trapped in undesirable local minima. While the performance of traditional reconstruction approaches degrades in non-ideal conditions that are often present in real world scanning, i.e., unoriented normals, noise and missing (low density) parts, Point2Mesh is robust to non-ideal conditions. We demonstrate the performance of Point2Mesh on a large variety of shapes with varying complexity.
翻訳日:2022-11-30 08:58:17 公開日:2020-05-22
# 顔映像を用いた心拍推定法の比較評価

A Comparative Evaluation of Heart Rate Estimation Methods using Face Videos ( http://arxiv.org/abs/2005.11101v1 )

ライセンス: Link先を確認
Javier Hernandez-Ortega, Julian Fierrez, Aythami Morales, David Diaz(参考訳) 本稿では,顔の映像列を入力として入力したフェイスビデオを用いた遠隔心拍数推定法の比較評価を行い,各時点における被験者心拍数のロバストな推定法を提案する。 文献からの4つの代替案がテストされ、3つは手作りのアプローチ、もう1つはディープラーニングに基づいている。 これらの手法はCOHFACEデータベースのRGBビデオを用いて比較される。 実験の結果, 学習に基づく手法は手作りの手法よりも精度が向上した。 学習に基づくモデルによって達成されるエラー率の低さは、実際のシナリオ、例えば医学やスポーツ環境での利用を可能にします。

This paper presents a comparative evaluation of methods for remote heart rate estimation using face videos, i.e., given a video sequence of the face as input, methods to process it to obtain a robust estimation of the subjects heart rate at each moment. Four alternatives from the literature are tested, three based in hand crafted approaches and one based on deep learning. The methods are compared using RGB videos from the COHFACE database. Experiments show that the learning-based method achieves much better accuracy than the hand crafted ones. The low error rate achieved by the learning based model makes possible its application in real scenarios, e.g. in medical or sports environments.
翻訳日:2022-11-30 08:57:15 公開日:2020-05-22
# 短期太陽放射予測のためのスカイイメージへの畳み込みニューラルネットワークの適用

Convolutional Neural Networks applied to sky images for short-term solar irradiance forecasting ( http://arxiv.org/abs/2005.11246v1 )

ライセンス: Link先を確認
Quentin Paletta, Joan Lasenby(参考訳) 太陽エネルギー分野の進歩にもかかわらず、断続的な電力生産に対処する太陽予測技術の改善は、将来のエネルギー供給への統合を確保する上で不可欠である。 照度変化を予測するための有望なアプローチは、地上撮影や衛星画像から雲のカバーダイナミクスをモデル化することである。 本研究は,半球スカイ画像と外因性変数を用いた2~20分間の照度予測のための深層畳み込みニューラルネットワークの適用に関する予備結果を示す。 2分間の時間分解能で8ヶ月以上にわたってパリザウで収集された一連の照度測定と対応する天空画像のモデルを評価した。 短時間の照度予測の文脈でニューラルネットワークの学習を概説するため,スカイイメージのトレーニングアルゴリズムによって認識されるパターンの種類を可視化する手法を実装した。 さらに,同日過去のサンプルを用いたトレーニングモデルでは,平均平方誤差に基づくスマート永続化モデルと比較して,10分間の事前予測で約10%,予測スキルが向上することを示した。 これらの結果は、短期予測における過去の同日データの統合の利点を強調している。 これは、モデル微調整や、過去のデータから関連する時間的特徴の抽出を容易にするために繰り返し単位を用いることで達成できる。

Despite the advances in the field of solar energy, improvements of solar forecasting techniques, addressing the intermittent electricity production, remain essential for securing its future integration into a wider energy supply. A promising approach to anticipate irradiance changes consists of modeling the cloud cover dynamics from ground taken or satellite images. This work presents preliminary results on the application of deep Convolutional Neural Networks for 2 to 20 min irradiance forecasting using hemispherical sky images and exogenous variables. We evaluate the models on a set of irradiance measurements and corresponding sky images collected in Palaiseau (France) over 8 months with a temporal resolution of 2 min. To outline the learning of neural networks in the context of short-term irradiance forecasting, we implemented visualisation techniques revealing the types of patterns recognised by trained algorithms in sky images. In addition, we show that training models with past samples of the same day improves their forecast skill, relative to the smart persistence model based on the Mean Square Error, by around 10% on a 10 min ahead prediction. These results emphasise the benefit of integrating previous same-day data in short-term forecasting. This, in turn, can be achieved through model fine tuning or using recurrent units to facilitate the extraction of relevant temporal features from past data.
翻訳日:2022-11-30 08:57:06 公開日:2020-05-22
# 強化学習による自動運転車の安全カバレッジとテストの自動化に向けて

Towards Automated Safety Coverage and Testing for Autonomous Vehicles with Reinforcement Learning ( http://arxiv.org/abs/2005.13976v1 )

ライセンス: Link先を確認
Hyun Jae Cho, and Madhur Behl(参考訳) 自動運転車(AV)の安全性テストに必要とされるクローズドループの検証は、従来のテスト手法や個別の検証の範囲を超えている。 検証は、システムがリリース後に日常運転で遭遇する可能性のあるシナリオや状況において、自動運転車システムをテストに投入する。 これらのシナリオは、物理的(閉路証明場)または仮想(事前定義されたシナリオのシミュレーション)環境で直接制御するか、実世界の運用中に自然に発生する(オープンロードテストまたはランダムに生成されたシナリオのシミュレーション)。 AVテストでは、シミュレーションは主に2つの目的がある: 堅牢な自動運転車の開発を支援し、リリース前にAVのテストと検証を行う。 課題は、多くの変数(ほとんどが連続である)が関与しているため、上記のソースのそれぞれから構築できるシナリオのバリエーションの数から生じます。 連続変数が離散化されても、可能な組み合わせの数は事実上テストが不可能になる。 この課題を克服するために,AVソフトウェア実装の障害事例と予期せぬ交通状況を生成するために強化学習(RL)を提案する。 強化学習アルゴリズムは、ゲームやいくつかのロボット操作で顕著な成果を上げてきたが、この技術は、自律運転のようなより困難な現実の応用に広く拡張されていない。

The kind of closed-loop verification likely to be required for autonomous vehicle (AV) safety testing is beyond the reach of traditional test methodologies and discrete verification. Validation puts the autonomous vehicle system to the test in scenarios or situations that the system would likely encounter in everyday driving after its release. These scenarios can either be controlled directly in a physical (closed-course proving ground) or virtual (simulation of predefined scenarios) environment, or they can arise spontaneously during operation in the real world (open-road testing or simulation of randomly generated scenarios). In AV testing, simulation serves primarily two purposes: to assist the development of a robust autonomous vehicle and to test and validate the AV before release. A challenge arises from the sheer number of scenario variations that can be constructed from each of the above sources due to the high number of variables involved (most of which are continuous). Even with continuous variables discretized, the possible number of combinations becomes practically infeasible to test. To overcome this challenge we propose using reinforcement learning (RL) to generate failure examples and unexpected traffic situations for the AV software implementation. Although reinforcement learning algorithms have achieved notable results in games and some robotic manipulations, this technique has not been widely scaled up to the more challenging real world applications like autonomous driving.
翻訳日:2022-11-30 08:51:00 公開日:2020-05-22
# 高速木に基づく二次構造を持つモデル証拠

Model Evidence with Fast Tree Based Quadrature ( http://arxiv.org/abs/2005.11300v1 )

ライセンス: Link先を確認
Thomas Foster, Chon Lok Lei, Martin Robinson, David Gavaghan, Ben Lambert(参考訳) 高次元積分は、素粒子物理学からベイズ推論まで、科学の多くの分野に必須である。 これらの積分の近似は、積分全体に対して重要な貢献をする統合領域の領域からの探索とサンプリングが困難であることもあって、難しい。 ここでは,このサンプリング問題をこれらのサンプルを用いて積分の近似を生成する問題から分離する,Tree Quadrature (TQ) と呼ばれる新しいアルゴリズムを提案する。 TQは、提供されたサンプルの取得方法に関する資格を持たず、既存の統合アルゴリズムで無視される最先端のサンプリングアルゴリズムを使用することができる。 サンプルの集合が与えられたとき、TQは回帰木の形で積分の代理モデルを構築し、積分の精度を最大化する構造を最適化する。 ツリーは統合ドメインを小さなコンテナに分割し、個々の統合と集約を行い、全体的な積分を見積もる。 どんなメソッドでも個々のコンテナを統合することができるので、Bayesian Monte Carloのような既存の統合メソッドとTQを組み合わせることでパフォーマンスを向上することができる。 ベンチマーク問題の集合において、tq は最大15次元の積分に対する正確な近似を提供し、次元 4 以上では単純なモンテカルロやベガス法よりも優れていることを示した。

High dimensional integration is essential to many areas of science, ranging from particle physics to Bayesian inference. Approximating these integrals is hard, due in part to the difficulty of locating and sampling from regions of the integration domain that make significant contributions to the overall integral. Here, we present a new algorithm called Tree Quadrature (TQ) that separates this sampling problem from the problem of using those samples to produce an approximation of the integral. TQ places no qualifications on how the samples provided to it are obtained, allowing it to use state-of-the-art sampling algorithms that are largely ignored by existing integration algorithms. Given a set of samples, TQ constructs a surrogate model of the integrand in the form of a regression tree, with a structure optimised to maximise integral precision. The tree divides the integration domain into smaller containers, which are individually integrated and aggregated to estimate the overall integral. Any method can be used to integrate each individual container, so existing integration methods, like Bayesian Monte Carlo, can be combined with TQ to boost their performance. On a set of benchmark problems, we show that TQ provides accurate approximations to integrals in up to 15 dimensions; and in dimensions 4 and above, it outperforms simple Monte Carlo and the popular Vegas method.
翻訳日:2022-11-30 08:48:47 公開日:2020-05-22
# マイクロホンアレーに基づく監視音声分類

Microphone Array Based Surveillance Audio Classification ( http://arxiv.org/abs/2005.11348v1 )

ライセンス: Link先を確認
Dimitri Leandro de Oliveira Silva, Tito Spadini and Ricardo Suyama(参考訳) この研究は7つの古典的分類器と2つのビームフォーミングアルゴリズムで監視音を検知した。 試験にはAWGNを10dBから30dBのSNRで使用することが含まれていた。 データ拡張はアルゴリズムのパフォーマンス向上にも使用された。 その結果, SVM と Delay-and-Sum (DaS) の組み合わせは, 最高精度 (86.0\%) を示したが, 主に DaS による計算コストが高かった($ 402 ms)。 SGDの使用は、高い精度(最大85.3\%)を達成したが、より高速な処理時間($165 ms)で、良い代替手段であると思われる。

The work assessed seven classical classifiers and two beamforming algorithms for detecting surveillance sound events. The tests included the use of AWGN with -10 dB to 30 dB SNR. Data Augmentation was also employed to improve algorithms' performance. The results showed that the combination of SVM and Delay-and-Sum (DaS) scored the best accuracy (up to 86.0\%), but had high computational cost ($\approx $ 402 ms), mainly due to DaS. The use of SGD also seems to be a good alternative since it has achieved good accuracy either (up to 85.3\%), but with quicker processing time ($\approx$ 165 ms).
翻訳日:2022-11-30 08:48:25 公開日:2020-05-22
# グラフニューラルネットワークを用いたセッションレベル話者埋め込み改良による話者ダイアリゼーション

Speaker diarization with session-level speaker embedding refinement using graph neural networks ( http://arxiv.org/abs/2005.11371v1 )

ライセンス: Link先を確認
Jixuan Wang, Xiong Xiao, Jian Wu, Ranjani Ramamurthy, Frank Rudzicz, Michael Brudno(参考訳) ディープスピーカー埋め込みモデルは、話者ダイアリゼーションシステムのビルディングブロックとして一般的に使用されているが、通常、話者埋め込みモデルはトレーニングデータに定義されたグローバルな損失に応じて訓練される。 本稿では,gnnを用いて各セッション内の音声セグメント間の構造情報を用いて,話者埋め込みを局所的に洗練する,話者ダイアリゼーション問題に対するグラフニューラルネットワーク(gnns)の初使用例を示す。 事前学習されたモデルによって抽出された話者埋め込みは、単一のセッション内の異なる話者がより分離された新しい埋め込み空間に再マップされる。 改良された埋め込みにより構築された親和性行列と接地トラス親和性行列との差を最小化することにより,リンク予測を教師付き方式で訓練する。 スペクトルクラスタリングは、洗練された埋め込みの上に適用される。 また,本システムでは,NIST SRE 2000 CALLHOMEデータベース上で,話者埋め込みのクラスタリング性能が,シミュレーションデータと実会議データの両方において,元の埋め込みよりも優れていることを示す。

Deep speaker embedding models have been commonly used as a building block for speaker diarization systems; however, the speaker embedding model is usually trained according to a global loss defined on the training data, which could be sub-optimal for distinguishing speakers locally in a specific meeting session. In this work we present the first use of graph neural networks (GNNs) for the speaker diarization problem, utilizing a GNN to refine speaker embeddings locally using the structural information between speech segments inside each session. The speaker embeddings extracted by a pre-trained model are remapped into a new embedding space, in which the different speakers within a single session are better separated. The model is trained for linkage prediction in a supervised manner by minimizing the difference between the affinity matrix constructed by the refined embeddings and the ground-truth adjacency matrix. Spectral clustering is then applied on top of the refined embeddings. We show that the clustering performance of the refined speaker embeddings outperforms the original embeddings significantly on both simulated and real meeting data, and our system achieves the state-of-the-art result on the NIST SRE 2000 CALLHOME database.
翻訳日:2022-11-30 08:48:13 公開日:2020-05-22
# 学習済み言語モデルを用いた視覚豊かなドキュメントのためのロバストレイアウト対応IE

Robust Layout-aware IE for Visually Rich Documents with Pre-trained Language Models ( http://arxiv.org/abs/2005.11017v1 )

ライセンス: Link先を確認
Mengxi Wei, Yifan He, Qiong Zhang(参考訳) 現代のnlpとirパイプラインで処理される多くのビジネス文書は視覚的にリッチである:テキストに加えて、その意味論はレイアウト、フォーマット、フォントといった視覚的な特徴によってもキャプチャできる。 本研究では,視覚リッチ文書(vrds)からの情報抽出の問題を調査し,大規模事前学習言語モデルとグラフニューラルネットワークのパワーを組み合わせて,ビジネス文書におけるテキスト情報と視覚情報の両方を効率的にエンコードするモデルを提案する。 さらに,ドメイン内の非教師なし微調整を改善するための新たな微調整手法を導入し,大量の未ラベルインドメインデータを活用する。 実世界の請求書を検証し、データセットを再開し、提案手法が強いテキストベースのRoBERTaベースラインを6.3%、履歴書を4.7%で上回ることを示す。 数ショットで評価した場合、90%のf1で同じレベルの性能を達成するためには、ベースラインよりも最大30倍少ないアノテーションデータが必要となる。

Many business documents processed in modern NLP and IR pipelines are visually rich: in addition to text, their semantics can also be captured by visual traits such as layout, format, and fonts. We study the problem of information extraction from visually rich documents (VRDs) and present a model that combines the power of large pre-trained language models and graph neural networks to efficiently encode both textual and visual information in business documents. We further introduce new fine-tuning objectives to improve in-domain unsupervised fine-tuning to better utilize large amount of unlabeled in-domain data. We experiment on real world invoice and resume data sets and show that the proposed method outperforms strong text-based RoBERTa baselines by 6.3% absolute F1 on invoices and 4.7% absolute F1 on resumes. When evaluated in a few-shot setting, our method requires up to 30x less annotation data than the baseline to achieve the same level of performance at ~90% F1.
翻訳日:2022-11-30 08:41:05 公開日:2020-05-22
# 自然言語と数学的言語の符号化の比較によるarxiv文書、セクション、要約の分類とクラスタリング

Classification and Clustering of arXiv Documents, Sections, and Abstracts, Comparing Encodings of Natural and Mathematical Language ( http://arxiv.org/abs/2005.11021v1 )

ライセンス: Link先を確認
Philipp Scharpf, Moritz Schubotz, Abdou Youssef, Felix Hamborg, Norman Meuschke, Bela Gipp(参考訳) 本稿では,自然言語と数学的言語のエンコーディングの選択と組み合わせが,文書の分類とクラスタリングに与える影響について述べる。 そこで,本論文では,対象とするクラス(数学,計算機科学,物理など)でラベル付けされたarXivプリプリントサーバの文書,セクション,要約の集合を用いて,テキストと公式の異なるエンコーディングを比較し,選択した分類とクラスタリングアルゴリズムの性能と実行性を評価する。 我々のエンコーディングは、分類精度を最大で82.8\%$、クラスタ純度を最大で69.4\%$(クラスタ数はクラス数に等しい)、99.9\%$(クラスタ数未特定)を達成する。 テキストと数学の類似性は相対的に低い相関関係にあり,テキストと公式の独立性を示し,文書の異なる特徴として扱うモチベーションを与える。 分類とクラスタリングは、例えば、文書検索や推奨のために利用することができる。 さらに,文書分類において,コンピュータが人間に勝ることを示す。 最後に,複数ラベルの分類と定式化について検討する。

In this paper, we show how selecting and combining encodings of natural and mathematical language affect classification and clustering of documents with mathematical content. We demonstrate this by using sets of documents, sections, and abstracts from the arXiv preprint server that are labeled by their subject class (mathematics, computer science, physics, etc.) to compare different encodings of text and formulae and evaluate the performance and runtimes of selected classification and clustering algorithms. Our encodings achieve classification accuracies up to $82.8\%$ and cluster purities up to $69.4\%$ (number of clusters equals number of classes), and $99.9\%$ (unspecified number of clusters) respectively. We observe a relatively low correlation between text and math similarity, which indicates the independence of text and formulae and motivates treating them as separate features of a document. The classification and clustering can be employed, e.g., for document search and recommendation. Furthermore, we show that the computer outperforms a human expert when classifying documents. Finally, we evaluate and discuss multi-label classification and formula semantification.
翻訳日:2022-11-30 08:40:45 公開日:2020-05-22
# 英語音声からエンド・ツー・エンドのエンティティ認識

End-to-end Named Entity Recognition from English Speech ( http://arxiv.org/abs/2005.11184v1 )

ライセンス: Link先を確認
Hemant Yadav, Sreyan Ghosh, Yi Yu, Rajiv Ratn Shah(参考訳) テキストから名前付きエンティティ認識(NER)は広く研究されている問題であり、通常テキストから意味情報を抽出する。 これまで、音声からのNERは、まず音声サンプルに自動音声認識(ASR)システムを適用し、次に予測された書き起こしをNERタグに渡す2段階のパイプラインプロセスで研究されてきた。 このような場合、両方のタスクがエンドツーエンド(E2E)方式で最適化されないため、エラーは1ステップから別のステップへ伝播しない。 最近の研究では、統合的アプローチ(例えば、E2E ASR)がシーケンシャルなアプローチ(例えば、音素ベースのASR)より優れていることが確認されている。 本稿では,英語音声のためのnerアノテーション付きデータセットを初めて公開し,asrとnerのタガーコンポーネントを共同で最適化するe2eアプローチを提案する。 実験結果から,提案手法は古典的な2段階アプローチよりも優れていることがわかった。 また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。

Named entity recognition (NER) from text has been a widely studied problem and usually extracts semantic information from text. Until now, NER from speech is mostly studied in a two-step pipeline process that includes first applying an automatic speech recognition (ASR) system on an audio sample and then passing the predicted transcript to a NER tagger. In such cases, the error does not propagate from one step to another as both the tasks are not optimized in an end-to-end (E2E) fashion. Recent studies confirm that integrated approaches (e.g., E2E ASR) outperform sequential ones (e.g., phoneme based ASR). In this paper, we introduce a first publicly available NER annotated dataset for English speech and present an E2E approach, which jointly optimizes the ASR and NER tagger components. Experimental results show that the proposed E2E approach outperforms the classical two-step approach. We also discuss how NER from speech can be used to handle out of vocabulary (OOV) words in an ASR system.
翻訳日:2022-11-30 08:40:22 公開日:2020-05-22
# ミスプレイスド・トラスト:人間の意思決定における機械学習の干渉を測定する

Misplaced Trust: Measuring the Interference of Machine Learning in Human Decision-Making ( http://arxiv.org/abs/2005.10960v1 )

ライセンス: Link先を確認
Harini Suresh, Natalie Lao, Ilaria Liccardi(参考訳) ml決定aidシステムは、web上ではますます一般的になっていますが、その統合の成功は、システムを適切に信頼している人々に依存しています。 175人の成人を対象としたタスクベース調査を通じて,ml推奨に対する人々の信頼度を専門知識とシステム情報によって評価した。 人間にとって難しい課題は、大きな群集のサイズを比較することと、類似した動物を識別することの2つです。 その結果,(1)mlに関する事前知識が豊富であったり,その予測に自信を持っていなかったりした場合でも,ほとんどの時間を正しく実行するタスクに対して不正確なmlレコメンデーションを信頼する,(2)4つの異なるシステム情報によってレコメンデーションに対する人々の信頼が高まったこと、(3)mlレコメンデーションに取り組む意思決定者にとって数学と論理スキルがmlと同じくらい重要であること、の3つの重要な知見が得られた。

ML decision-aid systems are increasingly common on the web, but their successful integration relies on people trusting them appropriately: they should use the system to fill in gaps in their ability, but recognize signals that the system might be incorrect. We measured how people's trust in ML recommendations differs by expertise and with more system information through a task-based study of 175 adults. We used two tasks that are difficult for humans: comparing large crowd sizes and identifying similar-looking animals. Our results provide three key insights: (1) People trust incorrect ML recommendations for tasks that they perform correctly the majority of the time, even if they have high prior knowledge about ML or are given information indicating the system is not confident in its prediction; (2) Four different types of system information all increased people's trust in recommendations; and (3) Math and logic skills may be as important as ML for decision-makers working with ML recommendations.
翻訳日:2022-11-30 08:39:51 公開日:2020-05-22
# クリックスルーレート予測のための階層的注意ネットワークによる深い関心

Deep Interest with Hierarchical Attention Network for Click-Through Rate Prediction ( http://arxiv.org/abs/2005.12981v1 )

ライセンス: Link先を確認
Weinan Xu, Hengxu He, Minshi Tan, Yunming Li, Jun Lang, Dongbai Guo(参考訳) deep interest network (din) は、過去の行動からユーザーの興味を捉えるために注意機構を使用する最先端のモデルである。 ユーザの興味は直感的に階層的なパターンに従い、ユーザは一般的に、上位レベルから下位レベルの抽象化への関心を示す。 このような関心階層を注目ネットワークでモデル化することで、ユーザ行動の表現を根本的に改善することができる。 そこで我々は,dhan (deep interest with hierarchical attention network) を用いて,任意の関心階層をモデル化するdinの改良を提案する。 このモデルでは、各項目に付随する第1の注意層上に多次元階層構造を導入し、その後、同一次元の注意層は、下位の対応層の上に構築された上位階層に付随する。 多次元階層のモデリングを可能にするため、複数の階層を捕捉する拡張機構を導入する。 この設計により、DHANは異なる階層的な抽象化に異なる重要性を欠くことができ、異なる次元(例えば、カテゴリ、価格、ブランド)でユーザーの興味を完全に捉えることができる。 このモデルを検証するために,1次元階層の2つのレベルを持つ3つの公開データセットのクリックスルー率(ctr)予測と実験結果に適用した。 DHANはDINよりも12%から21%のAUC上昇を示した。 DHANはまた、時間的関心をモデル化する別の最先端モデルDeep Interest Evolution Network (DIEN)と比較される。 単純化されたDHANは、DIENよりも1.0%から1.7%にわずかにAUCが上昇する。 DHANとDIENを組み合わせることで、時間的および階層的な関心の両方をモデル化することができる。

Deep Interest Network (DIN) is a state-of-the-art model which uses attention mechanism to capture user interests from historical behaviors. User interests intuitively follow a hierarchical pattern such that users generally show interests from a higher-level then to a lower-level abstraction. Modeling such an interest hierarchy in an attention network can fundamentally improve the representation of user behaviors. We, therefore, propose an improvement over DIN to model arbitrary interest hierarchy: Deep Interest with Hierarchical Attention Network (DHAN). In this model, a multi-dimensional hierarchical structure is introduced on the first attention layer which attends to an individual item, and the subsequent attention layers in the same dimension attend to higher-level hierarchy built on top of the lower corresponding layers. To enable modeling of multiple dimensional hierarchies, an expanding mechanism is introduced to capture one to many hierarchies. This design enables DHAN to attend different importance to different hierarchical abstractions thus can fully capture user interests at different dimensions (e.g. category, price, or brand).To validate our model, a simplified DHAN has applied to Click-Through Rate (CTR) prediction and our experimental results on three public datasets with two levels of the one-dimensional hierarchy only by category. It shows the superiority of DHAN with significant AUC uplift from 12% to 21% over DIN. DHAN is also compared with another state-of-the-art model Deep Interest Evolution Network (DIEN), which models temporal interest. The simplified DHAN also gets slight AUC uplift from 1.0% to 1.7% over DIEN. A potential future work can be a combination of DHAN and DIEN to model both temporal and hierarchical interests.
翻訳日:2022-11-30 08:39:30 公開日:2020-05-22
# モンテカルロ木探索を用いたポリシー反復による単一エージェント最適化

Single-Agent Optimization Through Policy Iteration Using Monte-Carlo Tree Search ( http://arxiv.org/abs/2005.11335v1 )

ライセンス: Link先を確認
Arta Seify and Michael Buro(参考訳) モンテカルロ・ツリー・サーチ(MCTS)と深層強化学習の組み合わせは、2プレイヤーの完全情報ゲームにおいて最先端である。 本稿では,我々が拡張したmctsの変種を用いた探索アルゴリズムについて述べる。 1)未到達の報酬(多くの最適化問題の場合)を有するゲームに対する新たなアクション値正規化機構。 2)効率的な検索並列化を可能にする仮想損失関数の定義 3) セルフプレイの世代によって訓練された政策ネットワークは,検索を誘導する。 本手法の有効性を「サミゲーム」で評価する--人気のあるシングルプレイヤーテストドメインである。 実験結果から,本手法は複数の基板サイズでベースラインアルゴリズムよりも優れていた。 さらに、公開位置における最先端の検索アルゴリズムと競合する。

The combination of Monte-Carlo Tree Search (MCTS) and deep reinforcement learning is state-of-the-art in two-player perfect-information games. In this paper, we describe a search algorithm that uses a variant of MCTS which we enhanced by 1) a novel action value normalization mechanism for games with potentially unbounded rewards (which is the case in many optimization problems), 2) defining a virtual loss function that enables effective search parallelization, and 3) a policy network, trained by generations of self-play, to guide the search. We gauge the effectiveness of our method in "SameGame"---a popular single-player test domain. Our experimental results indicate that our method outperforms baseline algorithms on several board sizes. Additionally, it is competitive with state-of-the-art search algorithms on a public set of positions.
翻訳日:2022-11-30 08:33:02 公開日:2020-05-22
# 複数共振経路を用いた複素KBQAシステム

A Complex KBQA System using Multiple Reasoning Paths ( http://arxiv.org/abs/2005.10970v1 )

ライセンス: Link先を確認
Kechen Qin, Yu Wang, Cheng Li, Kalpa Gunaratna, Hongxia Jin, Virgil Pavlu, Javed A. Aslam(参考訳) マルチホップ知識に基づく質問応答(KBQA)は、自然言語理解のための複雑なタスクである。 近年多くのKBQAアプローチが提案されており、そのほとんどはラベル付き推論経路に基づいて訓練されている。 これにより、正しい推論パスが根拠真理としてラベル付けされていないため、システムのパフォーマンスが阻害されるため、学習できない。 本稿では,複数の推論パスの情報を活用し,ラベル付き回答を監督としてのみ要求できるエンドツーエンドkbqaシステムを提案する。 webquestionsp(wqsp)、complexwebquestion-1.1(cwq)、pathquestion-large(pql)など、single-hop simple questionとmuti-hop complex questionの両方を含むいくつかのベンチマークデータセットで実験を行い、強力なパフォーマンスを示す。

Multi-hop knowledge based question answering (KBQA) is a complex task for natural language understanding. Many KBQA approaches have been proposed in recent years, and most of them are trained based on labeled reasoning path. This hinders the system's performance as many correct reasoning paths are not labeled as ground truth, and thus they cannot be learned. In this paper, we introduce an end-to-end KBQA system which can leverage multiple reasoning paths' information and only requires labeled answer as supervision. We conduct experiments on several benchmark datasets containing both single-hop simple questions as well as muti-hop complex questions, including WebQuestionSP (WQSP), ComplexWebQuestion-1.1 (CWQ), and PathQuestion-Large (PQL), and demonstrate strong performance.
翻訳日:2022-11-30 08:32:51 公開日:2020-05-22
# 時系列センサデータの弱い監督によるマルチソース深部領域適応

Multi-Source Deep Domain Adaptation with Weak Supervision for Time-Series Sensor Data ( http://arxiv.org/abs/2005.10996v1 )

ライセンス: Link先を確認
Garrett Wilson, Janardhan Rao Doppa, Diane J. Cook(参考訳) ドメイン適応(DA)は新しい問題領域のためにデータとモデルを再利用する貴重な手段を提供する。 しかし、様々なデータ可用性を持つ時系列データについては、堅牢な技術はまだ検討されていない。 本稿では,このギャップを埋めるための主な貢献を3つ挙げる。 まず,実世界のセンサデータベンチマークにおける最先端da戦略よりも精度とトレーニング時間を大幅に向上させる,時系列データ(codats)のための新しい畳み込み型ディープドメイン適応モデルを提案する。 複数のソースドメインからのデータを活用することで、CoDATSの有用性を高め、従来の単一ソースメソッド、特にドメイン間で高いばらつきを持つ複雑な時系列データセットよりも精度を向上する。 第2に,データラベルの追加よりも収集が容易なターゲット・ドメインラベル分布の形での弱い監督を利用することにより,da-ws法を用いた新しいドメイン適応を提案する。 第3に,多様な実世界のデータセットについて総合的な実験を行い,ドメイン適応と弱い監督手法の有効性を評価した。 その結果,シングルソースdaのためのcodatsは最先端手法よりも大幅に改善され,複数のソースドメインのデータと弱い教師付き信号を用いて精度が向上した。 コードは、https://github.com/floft/codatsで入手できる。

Domain adaptation (DA) offers a valuable means to reuse data and models for new problem domains. However, robust techniques have not yet been considered for time series data with varying amounts of data availability. In this paper, we make three main contributions to fill this gap. First, we propose a novel Convolutional deep Domain Adaptation model for Time Series data (CoDATS) that significantly improves accuracy and training time over state-of-the-art DA strategies on real-world sensor data benchmarks. By utilizing data from multiple source domains, we increase the usefulness of CoDATS to further improve accuracy over prior single-source methods, particularly on complex time series datasets that have high variability between domains. Second, we propose a novel Domain Adaptation with Weak Supervision (DA-WS) method by utilizing weak supervision in the form of target-domain label distributions, which may be easier to collect than additional data labels. Third, we perform comprehensive experiments on diverse real-world datasets to evaluate the effectiveness of our domain adaptation and weak supervision methods. Results show that CoDATS for single-source DA significantly improves over the state-of-the-art methods, and we achieve additional improvements in accuracy using data from multiple source domains and weakly supervised signals. Code is available at: https://github.com/floft/codats
翻訳日:2022-11-30 08:32:35 公開日:2020-05-22
# 不正確なデータによる頻繁な経時的項目集合の発見

Discovering Frequent Gradual Itemsets with Imprecise Data ( http://arxiv.org/abs/2005.11045v1 )

ライセンス: Link先を確認
Micha\"el Chirmeni Boujike, Jerry Lonlac, Norbert Tsopze, Engelbert Mephu Nguifo(参考訳) The more/less X, The more/less Y" という形式の属性の複雑な共変分をモデル化する段階的パターンは、管理する数値データが重要である多くの実世界のアプリケーションにおいて重要な役割を果たす。 最近、これらのパターンはデータマイニングコミュニティの注目を集めており、異なるデータモデルからパターンを自動的に抽出し管理するためのいくつかの方法が定義されている。 しかし、これらの手法は、しばしば採掘されたパターンの量を管理する問題に直面しており、多くの実践的応用において、これらのパターンの計算は、ユーザ定義の周波数閾値に対して難解であることが証明され、焦点の欠如によって大量のパターンが生成される。 さらに、従来のアプローチの別の問題は、漸進性の概念が増加または減少として定義されることである。 実際、両方のオブジェクトの属性の値が異なると、漸進性が考慮される。 その結果、従来のアルゴリズムによって抽出された多くのパターンがユーザに提示されるが、その漸進性はデータのノイズ効果に過ぎない。 この問題に対処するため,本稿では,増加や減少を考えるための漸進性閾値を導入することを提案する。 文献的アプローチとは対照的に,提案手法では,属性値の分布やユーザの選好を漸進性閾値で考慮し,検索空間が大きすぎるために文学的アプローチが失敗している特定のデータベース上で段階的パターンを抽出することができる。 さらに, 実データベースを用いた実験結果から, 提案アルゴリズムはスケーラブルで効率的であり, ユーザに対して少量のパターンを示すために, 特定の漸進性要件を検証しない多数のパターンを排除できることが示唆された。

The gradual patterns that model the complex co-variations of attributes of the form "The more/less X, The more/less Y" play a crucial role in many real world applications where the amount of numerical data to manage is important, this is the biological data. Recently, these types of patterns have caught the attention of the data mining community, where several methods have been defined to automatically extract and manage these patterns from different data models. However, these methods are often faced the problem of managing the quantity of mined patterns, and in many practical applications, the calculation of all these patterns can prove to be intractable for the user-defined frequency threshold and the lack of focus leads to generating huge collections of patterns. Moreover another problem with the traditional approaches is that the concept of gradualness is defined just as an increase or a decrease. Indeed, a gradualness is considered as soon as the values of the attribute on both objects are different. As a result, numerous quantities of patterns extracted by traditional algorithms can be presented to the user although their gradualness is only a noise effect in the data. To address this issue, this paper suggests to introduce the gradualness thresholds from which to consider an increase or a decrease. In contrast to literature approaches, the proposed approach takes into account the distribution of attribute values, as well as the user's preferences on the gradualness threshold and makes it possible to extract gradual patterns on certain databases where literature approaches fail due to too large search space. Moreover, results from an experimental evaluation on real databases show that the proposed algorithm is scalable, efficient, and can eliminate numerous patterns that do not verify specific gradualness requirements to show a small set of patterns to the user.
翻訳日:2022-11-30 08:32:12 公開日:2020-05-22
# rdimtools: 次元縮小と内在次元推定のためのrパッケージ

Rdimtools: An R package for Dimension Reduction and Intrinsic Dimension Estimation ( http://arxiv.org/abs/2005.11107v1 )

ライセンス: Link先を確認
Kisung You(参考訳) 複雑な高次元データのパターンの発見は長年にわたる問題である。 次元削減(DR)と固有次元推定(IDE)は、データの幾何学的理解を促進する基本的な2つのプログラムである。 我々は,133のdrアルゴリズムと17のideアルゴリズムをサポートするrパッケージであるrdimtoolsを提案する。 RdimtoolsはMITライセンス下で配布されており、CRAN、GitHub、パッケージWebサイトからアクセスできる。

Discovering patterns of the complex high-dimensional data is a long-standing problem. Dimension Reduction (DR) and Intrinsic Dimension Estimation (IDE) are two fundamental thematic programs that facilitate geometric understanding of the data. We present Rdimtools - an R package that supports 133 DR and 17 IDE algorithms whose extent makes multifaceted scrutiny of the data in one place easier. Rdimtools is distributed under the MIT license and is accessible from CRAN, GitHub, and its package website, all of which deliver instruction for installation, self-contained examples, and API documentation.
翻訳日:2022-11-30 08:31:42 公開日:2020-05-22
# 欠落データを含む逐次回帰のためのLSTMネットワークのツリー構造

A Tree Architecture of LSTM Networks for Sequential Regression with Missing Data ( http://arxiv.org/abs/2005.11353v1 )

ライセンス: Link先を確認
S. Onur Sahin and Suleyman S. Kozat(参考訳) 欠落したサンプルを含む可変長連続データの回帰について検討し,Long Short-Term Memory (LSTM) ネットワークに基づく新しいツリーアーキテクチャを提案する。 本アーキテクチャでは,既存入力のみを使用する可変数のLSTMネットワークを,従来のすべてのアプローチとは異なり,データ不足に対する統計的仮定や計算を行うことなく,木のようなアーキテクチャで採用する。 特に,特定の数の入力の"presence-pattern"に基づいて,これらのlstmネットワークのサブセットを選択することで,欠落情報を取り込む。 専門家の視点からは、さまざまな不足パターンの専門家として異なるLSTMネットワークをトレーニングし、それらのアウトプットを組み合わせて最終的な予測を生成する。 また,従来のLSTMアーキテクチャの配列長の複雑さと同じ順序で,提案アーキテクチャの計算複雑性解析も提供する。 本手法は,grus,rnnなどの類似した構造に容易に拡張することができる。 実験では,よく知られた金融データと実生活データに対する最先端の手法に関して,大幅な性能改善を達成している。

We investigate regression for variable length sequential data containing missing samples and introduce a novel tree architecture based on the Long Short-Term Memory (LSTM) networks. In our architecture, we employ a variable number of LSTM networks, which use only the existing inputs in the sequence, in a tree-like architecture without any statistical assumptions or imputations on the missing data, unlike all the previous approaches. In particular, we incorporate the missingness information by selecting a subset of these LSTM networks based on "presence-pattern" of a certain number of previous inputs. From the mixture of experts perspective, we train different LSTM networks as our experts for various missingness patterns and then combine their outputs to generate the final prediction. We also provide the computational complexity analysis of the proposed architecture, which is in the same order of the complexity of the conventional LSTM architectures for the sequence length. Our method can be readily extended to similar structures such as GRUs, RNNs as remarked in the paper. In the experiments, we achieve significant performance improvements with respect to the state-of-the-art methods for the well-known financial and real life datasets.
翻訳日:2022-11-30 08:30:44 公開日:2020-05-22
# MANGO:並列ハイパーパラメータチューニングのためのPythonライブラリ

MANGO: A Python Library for Parallel Hyperparameter Tuning ( http://arxiv.org/abs/2005.11394v1 )

ライセンス: Link先を確認
Sandeep Singh Sandha, Mohit Aggarwal, Igor Fedorov, Mani Srivastava(参考訳) 機械学習アルゴリズムのハイパーパラメータのチューニングは面倒な作業であり、通常は手動で行う。 自動ハイパーパラメータチューニングを実現するため,ベイズ最適化に基づく手法が近年開発されている。 しかし、大規模機械学習トレーニングパイプラインの自動チューニングを有効にするためには、抽象化の欠如、フォールトトレランス、分散コンピューティングフレームワークのスケジューリングをサポートする柔軟性など、既存のライブラリには大きなギャップが残っている。 これらの課題に対処するために,並列ハイパーパラメータチューニング用のpythonライブラリであるmangoを提案する。 mangoは任意の分散スケジューリングフレームワークの使用を可能にし、インテリジェントな並列検索戦略を実装し、scikit-learnと互換性のある複雑なハイパーパラメータ検索空間を定義するためのリッチな抽象化を提供する。 mangoのパフォーマンスは,同じく広く使用されているライブラリであるhyperoptに匹敵する。 mangoはオープンソースであり、現在arm researchのプロダクションで使用されており、最先端のハイパーパラメータチューニング機能を提供する。

Tuning hyperparameters for machine learning algorithms is a tedious task, one that is typically done manually. To enable automated hyperparameter tuning, recent works have started to use techniques based on Bayesian optimization. However, to practically enable automated tuning for large scale machine learning training pipelines, significant gaps remain in existing libraries, including lack of abstractions, fault tolerance, and flexibility to support scheduling on any distributed computing framework. To address these challenges, we present Mango, a Python library for parallel hyperparameter tuning. Mango enables the use of any distributed scheduling framework, implements intelligent parallel search strategies, and provides rich abstractions for defining complex hyperparameter search spaces that are compatible with scikit-learn. Mango is comparable in performance to Hyperopt, another widely used library. Mango is available open-source and is currently used in production at Arm Research to provide state-of-art hyperparameter tuning capabilities.
翻訳日:2022-11-30 08:30:27 公開日:2020-05-22
# グローバルラテントミキシングを用いた半教師付き医用画像分類

Semi-supervised Medical Image Classification with Global Latent Mixing ( http://arxiv.org/abs/2005.11217v1 )

ライセンス: Link先を確認
Prashnna Kumar Gyawali, Sandesh Ghimire, Pradeep Bajracharya, Zhiyuan Li, Linwei Wang(参考訳) ディープラーニングによるコンピュータ支援診断は、大規模な注釈付きデータセットに依存している。 半教師付き学習(SSL)は、ラベルのないデータを活用することでこの課題を軽減する。 効果的なSSLアプローチの1つは、単一データポイント周辺の摂動を通じて、ニューラルネットワークの局所的な滑らかさを規則化することである。 本研究では,データポイント間の空白を埋めることで,神経機能のグローバルスムースネスを正すことにより,sslをさらに改善できると主張する。 本稿では,ラベル付きデータとラベル付きデータの線形混合によるニューラルネットワークを,入力空間と潜在空間の両方で訓練し,ネットワークの異なる部分を正則化する新しいssl手法を提案する。 胸部疾患と皮膚病変の半教師付き分類のための2つの異なる医用画像データセットを用いて,局所摂動を用いたSSLとグローバルミキシングによるSSLの性能向上を実証した。 私たちのコードはhttps://github.com/prasanna1991/latentmixingで利用可能です。

Computer-aided diagnosis via deep learning relies on large-scale annotated data sets, which can be costly when involving expert knowledge. Semi-supervised learning (SSL) mitigates this challenge by leveraging unlabeled data. One effective SSL approach is to regularize the local smoothness of neural functions via perturbations around single data points. In this work, we argue that regularizing the global smoothness of neural functions by filling the void in between data points can further improve SSL. We present a novel SSL approach that trains the neural network on linear mixing of labeled and unlabeled data, at both the input and latent space in order to regularize different portions of the network. We evaluated the presented model on two distinct medical image data sets for semi-supervised classification of thoracic disease and skin lesion, demonstrating its improved performance over SSL with local perturbations and SSL with global mixing but at the input space only. Our code is available at https://github.com/Prasanna1991/LatentMixing.
翻訳日:2022-11-30 08:24:46 公開日:2020-05-22
# ImageNetから画像分類へ:ベンチマークの文脈化の進展

From ImageNet to Image Classification: Contextualizing Progress on Benchmarks ( http://arxiv.org/abs/2005.11295v1 )

ライセンス: Link先を確認
Dimitris Tsipras, Shibani Santurkar, Logan Engstrom, Andrew Ilyas, Aleksander Madry(参考訳) スケーラブルな方法でリッチな機械学習データセットを構築するには、クラウドソースのデータ収集パイプラインが必要になることが多い。 本研究では,一般的なImageNetデータセットに焦点をあて,そのようなパイプラインを用いた結果を調べるために人間の研究を用いる。 我々は、imagenet作成プロセスにおける特定の設計選択が、得られたデータセットの忠実性にどのように影響するかを研究する。 当社の分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの系統的不一致にどのようにつながるかを指摘します。 最後に,このような誤解を考慮に入れたモデルトレーニングと評価ツールキットの強化の必要性を強調する。 さらなる調査を容易にするため、改良されたImageNetアノテーションをhttps://github.com/MadryLab/ImageNetMultiLabel.comでリリースしています。

Building rich machine learning datasets in a scalable manner often necessitates a crowd-sourced data collection pipeline. In this work, we use human studies to investigate the consequences of employing such a pipeline, focusing on the popular ImageNet dataset. We study how specific design choices in the ImageNet creation process impact the fidelity of the resulting dataset---including the introduction of biases that state-of-the-art models exploit. Our analysis pinpoints how a noisy data collection pipeline can lead to a systematic misalignment between the resulting benchmark and the real-world task it serves as a proxy for. Finally, our findings emphasize the need to augment our current model training and evaluation toolkit to take such misalignments into account. To facilitate further research, we release our refined ImageNet annotations at https://github.com/MadryLab/ImageNetMultiLabel.
翻訳日:2022-11-30 08:24:28 公開日:2020-05-22
# prunenet: グローバル重要性によるチャネルプルーニング

PruneNet: Channel Pruning via Global Importance ( http://arxiv.org/abs/2005.11282v1 )

ライセンス: Link先を確認
Ashish Khetan, Zohar Karnin(参考訳) チャネルプルーニングは、ディープニューラルネットワークを加速するための主要なアプローチの1つである。 既存のプルーニング手法のほとんどは、グループラッソのような疎外性誘導用語でスクラッチからトレーニングするか、事前訓練されたネットワークで冗長なチャネルをプルーーンし、ネットワークを微調整する。 グループラッソの使用は計算的に高価であり、収束が困難であり、正規化バイアスによる悪い行動に悩まされることが多い。 事前訓練されたネットワークから開始する手法は、ネットワークパラメータの基本統計に基づいて、レイヤを均一にプルーンチャネルまたはプルーンチャネルのいずれかである。 これらのアプローチは、いくつかのcnn層が他の層よりも冗長であるという事実を無視するか、異なる層における冗長性のレベルを適切に特定できないかのどちらかである。 本研究では, 計算量的に軽量かつ効率的なデータ駆動最適化ステップに基づいて, 層毎に必要な幅を探索する, チャネルのプルーニングを簡便かつ効果的に行う手法について検討する。 ilsvrc-$12$実験を行い,本手法の有効性を確認した。 resnet-$50$の層をまたいで一様でない刈り取りを行うことで、最先端のチャネル刈り取り結果のフラップ削減と一致し、0.98\%の精度を実現できます。 さらに、我々のpruned resnet-$50$ネットワークがresnet-$34$とresnet-$18$ネットワークを上回り、pruned resnet-$01$がresnet-$50$を上回っていることも示します。

Channel pruning is one of the predominant approaches for accelerating deep neural networks. Most existing pruning methods either train from scratch with a sparsity inducing term such as group lasso, or prune redundant channels in a pretrained network and then fine tune the network. Both strategies suffer from some limitations: the use of group lasso is computationally expensive, difficult to converge and often suffers from worse behavior due to the regularization bias. The methods that start with a pretrained network either prune channels uniformly across the layers or prune channels based on the basic statistics of the network parameters. These approaches either ignore the fact that some CNN layers are more redundant than others or fail to adequately identify the level of redundancy in different layers. In this work, we investigate a simple-yet-effective method for pruning channels based on a computationally light-weight yet effective data driven optimization step that discovers the necessary width per layer. Experiments conducted on ILSVRC-$12$ confirm effectiveness of our approach. With non-uniform pruning across the layers on ResNet-$50$, we are able to match the FLOP reduction of state-of-the-art channel pruning results while achieving a $0.98\%$ higher accuracy. Further, we show that our pruned ResNet-$50$ network outperforms ResNet-$34$ and ResNet-$18$ networks, and that our pruned ResNet-$101$ outperforms ResNet-$50$.
翻訳日:2022-11-30 08:24:16 公開日:2020-05-22
# RUSSE'2020 : ロシア語における最初の分類資源化課題の発見

RUSSE'2020: Findings of the First Taxonomy Enrichment Task for the Russian language ( http://arxiv.org/abs/2005.11176v1 )

ライセンス: Link先を確認
Irina Nikishina and Varvara Logacheva and Alexander Panchenko and Natalia Loukachevitch(参考訳) 本稿では,ロシア語の分類学的豊か化に関する最初の共有課題の結果について述べる。 参加者は、以前は目に見えない言葉で既存の分類を拡張するよう求められた。新しい単語ごとに、システムは可能(候補)ハイパーネムのランクリストを提供するべきである。 他の言語のタスクと比較すると、コンペティションはよりリアルなタスク設定で、新しい単語は定義なしで提供されました。 代わりに、これらの新しい用語が生じたテキストコーパスを提供しました。 この評価キャンペーンのために,未公開のruwordnetデータに基づく評価データセットを開発した。 共有タスクには「名詞」と「動詞」の2つのトラックがある。 16チームがタスクに参加し、その半数以上が提供されたベースラインを上回って高い結果を示した。

This paper describes the results of the first shared task on taxonomy enrichment for the Russian language. The participants were asked to extend an existing taxonomy with previously unseen words: for each new word their systems should provide a ranked list of possible (candidate) hypernyms. In comparison to the previous tasks for other languages, our competition has a more realistic task setting: new words were provided without definitions. Instead, we provided a textual corpus where these new terms occurred. For this evaluation campaign, we developed a new evaluation dataset based on unpublished RuWordNet data. The shared task features two tracks: "nouns" and "verbs". 16 teams participated in the task demonstrating high results with more than half of them outperforming the provided baseline.
翻訳日:2022-11-30 08:23:25 公開日:2020-05-22
# SentPWNet:タスク固有文埋め込みのための統一文ペアウェイトネットワーク

SentPWNet: A Unified Sentence Pair Weighting Network for Task-specific Sentence Embedding ( http://arxiv.org/abs/2005.11347v1 )

ライセンス: Link先を確認
Li Zhang, Han Wang, Lingxiao Li(参考訳) ペアベースのメトリック学習は、計算効率の良さから意味テキストの類似性など、多くのnlpタスクにおける文埋め込みを学ぶために広く採用されている。 既存の研究の多くはシーケンスエンコーダモデルを採用し、ペアベースの損失を持つ限定文ペアを使用して、識別文表現を学習している。 しかし, サンプル文対がすべての文対の真分布から逸脱した場合には, 文表現に偏りが生じることが知られている。 本稿では,既存の作業が良好なペアサンプリングとインスタンス重み付け戦略に苦しむことを理論的に示す。 同一重み付きペアにおける一対選択と学習の代わりに、タスク固有の文の埋め込みを学習するための統一的な局所性重み付けと学習フレームワークを提案する。 我々のモデルであるSentPWNetは、各文の空間分布を局所性重みとして利用し、文対の情報レベルを示す。 このような重みは各ラウンドでペアロスの最適化とともに更新され、モデルが最も有益な文対を学習し続ける。 4つの公開データセットに関する広範囲な実験と、140万箇所の自己収集場所検索ベンチマークは、我々のモデルが既存の文埋め込みメソッドを同等の効率で一貫して上回っていることをはっきりと示しています。

Pair-based metric learning has been widely adopted to learn sentence embedding in many NLP tasks such as semantic text similarity due to its efficiency in computation. Most existing works employed a sequence encoder model and utilized limited sentence pairs with a pair-based loss to learn discriminating sentence representation. However, it is known that the sentence representation can be biased when the sampled sentence pairs deviate from the true distribution of all sentence pairs. In this paper, our theoretical analysis shows that existing works severely suffered from a good pair sampling and instance weighting strategy. Instead of one time pair selection and learning on equal weighted pairs, we propose a unified locality weighting and learning framework to learn task-specific sentence embedding. Our model, SentPWNet, exploits the neighboring spatial distribution of each sentence as locality weight to indicate the informative level of sentence pair. Such weight is updated along with pair-loss optimization in each round, ensuring the model keep learning the most informative sentence pairs. Extensive experiments on four public available datasets and a self-collected place search benchmark with 1.4 million places clearly demonstrate that our model consistently outperforms existing sentence embedding methods with comparable efficiency.
翻訳日:2022-11-30 08:23:14 公開日:2020-05-22
# 確率的多状態自動車追従モデルによるドライバ同定

Driver Identification through Stochastic Multi-State Car-Following Modeling ( http://arxiv.org/abs/2005.11077v1 )

ライセンス: Link先を確認
Donghao Xu, Zhezhang Ding, Chenfeng Tu, Huijing Zhao, Mathieu Moze, Fran\c{c}ois Aioun, and Franck Guillemard(参考訳) ドライバー内およびドライバー間不均一性は多くの研究によってヒトの運転行動に存在することが確認されている。 本研究では,ドライバのプロファイリングと同定のアプローチとして,車追従行動における2種類の不均一性の結合モデルを提案する。 それぞれの状態において、カーフォローデータ列は特徴空間内の特定の確率分布に従い、各ドライバはドライバ内不均一性を特徴付けるドライバプロファイルと呼ばれる自身の確率分布を持ち、異なるドライバのドライバプロファイルの差はドライバ間不均一性を表す。 これにより、ドライバープロファイルを他のドライバーと区別することができる。 この仮定に基づいて,ドライバ内およびドライバ間不均一性を考慮に入れた確率的自動車追従モデルを提案し,行動特徴抽出器,ドライバ状態,ドライバプロファイルのパラメータを共同学習する手法を提案する。 提案手法は, オンライン推論に15秒持続時間10のカーフォローシーケンスを用いた8ドライバ実験において, 82.3%の精度で実現されている。 新しいドライバの迅速な登録の可能性を示し、議論する。

Intra-driver and inter-driver heterogeneity has been confirmed to exist in human driving behaviors by many studies. In this study, a joint model of the two types of heterogeneity in car-following behavior is proposed as an approach of driver profiling and identification. It is assumed that all drivers share a pool of driver states; under each state a car-following data sequence obeys a specific probability distribution in feature space; each driver has his/her own probability distribution over the states, called driver profile, which characterize the intradriver heterogeneity, while the difference between the driver profile of different drivers depict the inter-driver heterogeneity. Thus, the driver profile can be used to distinguish a driver from others. Based on the assumption, a stochastic car-following model is proposed to take both intra-driver and inter-driver heterogeneity into consideration, and a method is proposed to jointly learn parameters in behavioral feature extractor, driver states and driver profiles. Experiments demonstrate the performance of the proposed method in driver identification on naturalistic car-following data: accuracy of 82.3% is achieved in an 8-driver experiment using 10 car-following sequences of duration 15 seconds for online inference. The potential of fast registration of new drivers are demonstrated and discussed.
翻訳日:2022-11-30 08:22:22 公開日:2020-05-22
# 帰納階層理論的認知状態フィルタリング

Givenness Hierarchy Theoretic Cognitive Status Filtering ( http://arxiv.org/abs/2005.11267v1 )

ライセンス: Link先を確認
Poulomi Pal, Lixiao Zhu, Andrea Golden-Lasher, Akshay Swaminathan, Tom Williams(参考訳) 言語対応型対話型ロボットが人間社会に効果的に導入されるためには、人間環境に存在する物体、場所、人々について自然かつ効率的にコミュニケーションできる必要がある。 自然言語コミュニケーションの重要な側面は代名詞の使用である。 感性階層(GH)の言語理論によれば、人間は話し相手の心にある認知状態について暗黙の仮定により代名詞を使用する。 ウィリアムズらは以前の研究で、ロボット言語理解のための完全なGHの計算的実装を初めて発表し、GH文献から得られる一連のルールを活用している。 しかし、この手法は言語理解のために特別に設計され、特定の認知状態が与えられたエンティティがどの候補参照者であるかを評価するために使用されるGHにインスパイアされたメモリ構造を中心に設計されている。 対照的に、言語生成には、あるエンティティに対して認知状態を評価するモデルが必要である。 gh文献から直接情報を得たルールベース有限状態機械モデルと,不確実性をより柔軟に扱うように設計された認知状態フィルタの2つのモデルを比較した。 モデルはOFAI Multimodal Task Description Corpusの銀標準英語サブセットを用いて実証および評価を行った。

For language-capable interactive robots to be effectively introduced into human society, they must be able to naturally and efficiently communicate about the objects, locations, and people found in human environments. An important aspect of natural language communication is the use of pronouns. Ac-cording to the linguistic theory of the Givenness Hierarchy(GH), humans use pronouns due to implicit assumptions about the cognitive statuses their referents have in the minds of their conversational partners. In previous work, Williams et al. presented the first computational implementation of the full GH for the purpose of robot language understanding, leveraging a set of rules informed by the GH literature. However, that approach was designed specifically for language understanding,oriented around GH-inspired memory structures used to assess what entities are candidate referents given a particular cognitive status. In contrast, language generation requires a model in which cognitive status can be assessed for a given entity. We present and compare two such models of cognitive status: a rule-based Finite State Machine model directly informed by the GH literature and a Cognitive Status Filter designed to more flexibly handle uncertainty. The models are demonstrated and evaluated using a silver-standard English subset of the OFAI Multimodal Task Description Corpus.
翻訳日:2022-11-30 08:22:02 公開日:2020-05-22
# Med-BERT:疾患予測のための大規模構造化電子健康記録への事前学習型文脈埋め込み

Med-BERT: pre-trained contextualized embeddings on large-scale structured electronic health records for disease prediction ( http://arxiv.org/abs/2005.12833v1 )

ライセンス: Link先を確認
Laila Rasmy, Yang Xiang, Ziqian Xie, Cui Tao and Degui Zhi(参考訳) 深層学習(DL)に基づく電子健康記録(EHR)からの予測モデルは、多くの臨床的タスクにおいて素晴らしいパフォーマンスをもたらす。 しかし、大規模なトレーニングコホートは高い精度を達成するために要求されることが多く、訓練データサイズが制限されたシナリオにおけるDLベースのモデルの採用を妨げる。 近年,変換器(BERT)および関連モデルからの双方向エンコーダ表現は,自然言語処理領域において大きな成功を収めている。 非常に大規模なトレーニングコーパス上のBERTの事前トレーニングは、小さなデータセットでトレーニングされたモデルのパフォーマンスを向上する、コンテキスト化された埋め込みを生成する。 28,490,650人のEHRデータセットから得られた構造化診断データに基づいて,BERTフレームワークを事前学習するためのMed-BERTを提案する。 糖尿病患者の心不全の予測と2つの臨床データベースからの膵癌の予測の2つの疾患予測課題について微調整実験を行った。 Med-BERTは予測精度を大幅に改善し、受信機動作特性曲線(AUC)の領域を2.02-7.12%向上させた。 特に、事前訓練されたMed-BERTは、非常に小さな微調整の訓練セット(300-500サンプル)でタスクのパフォーマンスを大幅に改善し、AUCを20%以上向上させた。 我々は、Med-BERTが小さなローカルトレーニングデータセットによる疾病予防研究の恩恵を受け、データ収集費用を削減し、人工知能支援医療のペースを加速すると考えている。

Deep learning (DL) based predictive models from electronic health records (EHR) deliver impressive performance in many clinical tasks. Large training cohorts, however, are often required to achieve high accuracy, hindering the adoption of DL-based models in scenarios with limited training data size. Recently, bidirectional encoder representations from transformers (BERT) and related models have achieved tremendous successes in the natural language processing domain. The pre-training of BERT on a very large training corpus generates contextualized embeddings that can boost the performance of models trained on smaller datasets. We propose Med-BERT, which adapts the BERT framework for pre-training contextualized embedding models on structured diagnosis data from 28,490,650 patients EHR dataset. Fine-tuning experiments are conducted on two disease-prediction tasks: (1) prediction of heart failure in patients with diabetes and (2) prediction of pancreatic cancer from two clinical databases. Med-BERT substantially improves prediction accuracy, boosting the area under receiver operating characteristics curve (AUC) by 2.02-7.12%. In particular, pre-trained Med-BERT substantially improves the performance of tasks with very small fine-tuning training sets (300-500 samples) boosting the AUC by more than 20% or equivalent to the AUC of 10 times larger training set. We believe that Med-BERT will benefit disease-prediction studies with small local training datasets, reduce data collection expenses, and accelerate the pace of artificial intelligence aided healthcare.
翻訳日:2022-11-30 08:15:19 公開日:2020-05-22
# 進化する自己修飾ニューラルネットワークによる適応強化学習

Adaptive Reinforcement Learning through Evolving Self-Modifying Neural Networks ( http://arxiv.org/abs/2006.05832v1 )

ライセンス: Link先を確認
Samuel Schmidgall(参考訳) 生物学的ニューラルネットワークに見られる適応学習機能は、概ねシナプス接続のオンラインプラスチック変化から生じる自己修飾行動の産物である。 強化学習(Reinforcement Learning, RL)の現在の手法は、特定の時間間隔での反射後にのみ新しい相互作用に適応し、オンライン適応性の出現を防ぐ。 最近の研究は、バックプロパゲーションを用いて訓練された単純なRLタスクの性能を向上させるために、ニューロ変調された塑性を持つ人工ニューラルネットワークを提供することによって、この問題に対処している。 そこで本研究では,四肢の両脚が使用不能になるおそれのある四肢領域におけるメタラーニングの問題について検討し,残りの四肢との移動を継続させることで,エージェントの適応を要求された。 その結果、自己修正型プラスチックネットワークを用いて進化したエージェントは、複雑なメタ学習学習タスクに適応する能力があり、同じネットワークをグラデーションベースのアルゴリズムで更新し、トレーニングに要する時間が短縮される。

The adaptive learning capabilities seen in biological neural networks are largely a product of the self-modifying behavior emerging from online plastic changes in synaptic connectivity. Current methods in Reinforcement Learning (RL) only adjust to new interactions after reflection over a specified time interval, preventing the emergence of online adaptivity. Recent work addressing this by endowing artificial neural networks with neuromodulated plasticity have been shown to improve performance on simple RL tasks trained using backpropagation, but have yet to scale up to larger problems. Here we study the problem of meta-learning in a challenging quadruped domain, where each leg of the quadruped has a chance of becoming unusable, requiring the agent to adapt by continuing locomotion with the remaining limbs. Results demonstrate that agents evolved using self-modifying plastic networks are more capable of adapting to complex meta-learning learning tasks, even outperforming the same network updated using gradient-based algorithms while taking less time to train.
翻訳日:2022-11-30 08:14:53 公開日:2020-05-22
# 畳み込みネットワークのためのニューラルアーキテクチャ探索入門

An Introduction to Neural Architecture Search for Convolutional Networks ( http://arxiv.org/abs/2005.11074v1 )

ライセンス: Link先を確認
George Kyriakides and Konstantinos Margaritis(参考訳) neural architecture search (nas) は最適化アルゴリズムを利用して最適なニューラルネットワークアーキテクチャを設計する研究分野である。 アーキテクチャ探索空間、最適化アルゴリズム、および候補となるアーキテクチャ評価方法に関して、多くのアプローチがある。 フィールドが継続的に成長しているため、初心者がメジャーとそれに続く新しい方向を区別することは困難である。 本研究では,畳み込みネットワークにおけるNASの基本概念と,探索空間,アルゴリズム,評価技術の進歩を紹介する。

Neural Architecture Search (NAS) is a research field concerned with utilizing optimization algorithms to design optimal neural network architectures. There are many approaches concerning the architectural search spaces, optimization algorithms, as well as candidate architecture evaluation methods. As the field is growing at a continuously increasing pace, it is difficult for a beginner to discern between major, as well as emerging directions the field has followed. In this work, we provide an introduction to the basic concepts of NAS for convolutional networks, along with the major advances in search spaces, algorithms and evaluation techniques.
翻訳日:2022-11-30 08:14:34 公開日:2020-05-22
# SQuADにおける機械学習モデルとBERTの比較検討

Comparative Study of Machine Learning Models and BERT on SQuAD ( http://arxiv.org/abs/2005.11313v1 )

ライセンス: Link先を確認
Devshree Patel, Param Raval, Ratnam Parikh, Yesha Shastri(参考訳) 本研究の目的は、SQuAD(Stanford Question Answering Dataset)における機械学習とBERTモデルの性能の比較分析を行うことである。 解析の結果,かつてSQuADの最先端技術であったBERTモデルは,他のモデルと比較して精度が高いことがわかった。 しかし、BERTは100サンプルしか使用していない場合でも、実行時間が長くなります。 これは精度が向上するにつれて、データのトレーニングにより多くの時間が費やされることを示している。 予備的な機械学習モデルの場合とは異なり、完全なデータの実行時間は低く、精度は損なわれる。

This study aims to provide a comparative analysis of performance of certain models popular in machine learning and the BERT model on the Stanford Question Answering Dataset (SQuAD). The analysis shows that the BERT model, which was once state-of-the-art on SQuAD, gives higher accuracy in comparison to other models. However, BERT requires a greater execution time even when only 100 samples are used. This shows that with increasing accuracy more amount of time is invested in training the data. Whereas in case of preliminary machine learning models, execution time for full data is lower but accuracy is compromised.
翻訳日:2022-11-30 08:13:25 公開日:2020-05-22
# 最近のメタラーニング手法の簡潔な検証

A Concise Review of Recent Few-shot Meta-learning Methods ( http://arxiv.org/abs/2005.10953v1 )

ライセンス: Link先を確認
Xiaoxu Li and Zhuo Sun and Jing-Hao Xue and Zhanyu Ma(参考訳) 少数のメタラーニングが最近復活し、以前の知識に基づいた新しい概念への人類の迅速な適応を模倣する期待に応えている。 本稿では,最近のメタラーニングにおける代表的手法について,技術的特徴から4つの分野に分類した簡潔なレビューを行う。 我々はこのレビューを,少数のメタラーニングにおける重要な課題と今後の展望で締めくくった。

Few-shot meta-learning has been recently reviving with expectations to mimic humanity's fast adaption to new concepts based on prior knowledge. In this short communication, we give a concise review on recent representative methods in few-shot meta-learning, which are categorized into four branches according to their technical characteristics. We conclude this review with some vital current challenges and future prospects in few-shot meta-learning.
翻訳日:2022-11-30 08:13:07 公開日:2020-05-22