このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200322となっている論文です。

PDF登録状況(公開日: 20200322)

TitleAuthorsAbstract論文公表日・翻訳日
# 低光度画像強調のためのゼロ参照深曲線推定

Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement ( http://arxiv.org/abs/2001.06826v2 )

ライセンス: Link先を確認
Chunle Guo, Chongyi Li, Jichang Guo, Chen Change Loy, Junhui Hou, Sam Kwong, and Runmin Cong(参考訳) 本稿では、深部ネットワークを用いた画像特異的曲線推定のタスクとして光強調を定式化するゼロ参照深部曲線推定法(Zero-DCE)を提案する。 提案手法は,DCE-Netという軽量な深層ネットワークを訓練し,画像のダイナミックレンジ調整のための画素幅と高次曲線を推定する。 曲線推定は、画素値範囲、単調性、微分可能性を考慮して特別に設計される。 Zero-DCEは、参照画像に対するリラックスした仮定、すなわち、トレーニング中にペアデータやペアデータを必要としないことをアピールしている。 これは、拡張品質を暗黙的に測定し、ネットワークの学習を促進する、慎重に定式化された非参照損失関数のセットによって達成される。 画像強調は直観的かつ単純な非線形曲線マッピングによって実現できるため,本手法は効率的である。 その単純さにもかかわらず、様々な照明条件によく当てはまることを示す。 各種ベンチマーク実験により, 最先端手法に対する本手法の利点を質的, 定量的に実証した。 さらに、暗黒領域における顔検出に対するZero-DCEの潜在的な利点について論じる。 コードとモデルはhttps://github.com/Li-Chongyi/Zero-DCEで入手できる。

The paper presents a novel method, Zero-Reference Deep Curve Estimation (Zero-DCE), which formulates light enhancement as a task of image-specific curve estimation with a deep network. Our method trains a lightweight deep network, DCE-Net, to estimate pixel-wise and high-order curves for dynamic range adjustment of a given image. The curve estimation is specially designed, considering pixel value range, monotonicity, and differentiability. Zero-DCE is appealing in its relaxed assumption on reference images, i.e., it does not require any paired or unpaired data during training. This is achieved through a set of carefully formulated non-reference loss functions, which implicitly measure the enhancement quality and drive the learning of the network. Our method is efficient as image enhancement can be achieved by an intuitive and simple nonlinear curve mapping. Despite its simplicity, we show that it generalizes well to diverse lighting conditions. Extensive experiments on various benchmarks demonstrate the advantages of our method over state-of-the-art methods qualitatively and quantitatively. Furthermore, the potential benefits of our Zero-DCE to face detection in the dark are discussed. Code and model will be available at https://github.com/Li-Chongyi/Zero-DCE.
翻訳日:2023-01-08 12:37:11 公開日:2020-03-22
# 分布ロバストベイズ最適化

Distributionally Robust Bayesian Optimization ( http://arxiv.org/abs/2002.09038v3 )

ライセンス: Link先を確認
Johannes Kirschner, Ilija Bogunovic, Stefanie Jegelka, Andreas Krause(参考訳) 分散シフトへの堅牢性は、現代の機械学習の重要な課題の1つだ。 このようなロバスト性を達成することが分布的に堅牢な最適化の目標であり、これは制御されていない共変量の特定の分布シフトの下で最悪のケースでロバストな最適化問題の解を求めるものである。 本稿では,分布シフトを最大平均誤差(MMD)を用いて測定する場合に,そのような問題を考察する。 ゼロ階, 雑音の最適化を行うため, 分布に頑健なベイズ最適化アルゴリズム(DRBO)を提案する。 本アルゴリズムは,不確定な共変量がどのように観測されるかによって異なる様々な設定において,線形ロバストな後悔が得られる。 本手法は合成ベンチマークと実世界のベンチマークの両方においてロバストな性能を示す。

Robustness to distributional shift is one of the key challenges of contemporary machine learning. Attaining such robustness is the goal of distributionally robust optimization, which seeks a solution to an optimization problem that is worst-case robust under a specified distributional shift of an uncontrolled covariate. In this paper, we study such a problem when the distributional shift is measured via the maximum mean discrepancy (MMD). For the setting of zeroth-order, noisy optimization, we present a novel distributionally robust Bayesian optimization algorithm (DRBO). Our algorithm provably obtains sub-linear robust regret in various settings that differ in how the uncertain covariate is observed. We demonstrate the robust performance of our method on both synthetic and real-world benchmarks.
翻訳日:2022-12-30 07:09:01 公開日:2020-03-22
# 単調包摂の解法とGANへの応用のための緩和慣性フォワードフォワードアルゴリズム

A Relaxed Inertial Forward-Backward-Forward Algorithm for Solving Monotone Inclusions with Application to GANs ( http://arxiv.org/abs/2003.07886v2 )

ライセンス: Link先を確認
Radu Ioan Bot, Michael Sedlmayer, Phan Tu Vuong(参考訳) 極大単調作用素と単価単音とリプシッツ連続作用素の和の零点集合に接近するための緩和された慣性逆向き(rifbf)分割アルゴリズムを導入する。 本研究は,慣性効果と緩和パラメータを用いて,tsengの前方後向き法を拡張することを目的としている。 まず, モノトン包摂問題の解集合にアプローチした2次力学系を定式化し, 軌道の漸近解析を行う。 擬似単調変分不等式の解法に適用される場合と同様に、明示的な時間的離散化、一般単調の場合の収束解析によって従うrifbfを提供する。 提案手法は,慣性パラメータと緩和パラメータの相互作用に着目し,gans(generative adversarial network)の学習にも適用できる。

We introduce a relaxed inertial forward-backward-forward (RIFBF) splitting algorithm for approaching the set of zeros of the sum of a maximally monotone operator and a single-valued monotone and Lipschitz continuous operator. This work aims to extend Tseng's forward-backward-forward method by both using inertial effects as well as relaxation parameters. We formulate first a second order dynamical system which approaches the solution set of the monotone inclusion problem to be solved and provide an asymptotic analysis for its trajectories. We provide for RIFBF, which follows by explicit time discretization, a convergence analysis in the general monotone case as well as when applied to the solving of pseudo-monotone variational inequalities. We illustrate the proposed method by applications to a bilinear saddle point problem, in the context of which we also emphasize the interplay between the inertial and the relaxation parameters, and to the training of Generative Adversarial Networks (GANs).
翻訳日:2022-12-22 21:56:32 公開日:2020-03-22
# 自己誘導適応:プログレッシブ表現アライメントによる領域適応オブジェクト検出

Self-Guided Adaptation: Progressive Representation Alignment for Domain Adaptive Object Detection ( http://arxiv.org/abs/2003.08777v2 )

ライセンス: Link先を確認
Zongxian Li, Qixiang Ye, Chong Zhang, Jingjing Liu, Shijian Lu and Yonghong Tian(参考訳) unsupervised domain adaptation (uda)は、オブジェクト検出モデルのクロスドメインロバスト性を改善することで、前例のない成功を収めている。 しかし、既存のUDA手法は、モデル学習中の瞬間的なデータ分布を無視し、大きなドメインシフトを伴って特徴表現を悪化させる可能性がある。 本研究では,特徴表現の整合を目標とし,瞬時アライメントの難しさを考慮しつつ,領域横断の物体検出モデルを伝達する自己誘導適応(sga)モデルを提案する。 sga の中核は、カーネル空間内の領域距離を示すサンプルペアの「ハードネス」因子を計算することである。 硬度係数により,提案するsgaはサンプルの重要性を適応的に示し,異なる制約を割り当てる。 ハードネス因子によって示される自己誘導プログレッシブサンプリング(sps)は、モデル適応中に「容易にハードに」実装される。 多段階の畳み込み機能を用いて、SGAはさらに集約され、検出モデルの階層的表現を完全に整列する。 一般的なベンチマーク実験では、SGAは最先端の手法を大幅なマージンで改善し、大きなドメインシフトの有効性を示した。

Unsupervised domain adaptation (UDA) has achieved unprecedented success in improving the cross-domain robustness of object detection models. However, existing UDA methods largely ignore the instantaneous data distribution during model learning, which could deteriorate the feature representation given large domain shift. In this work, we propose a Self-Guided Adaptation (SGA) model, target at aligning feature representation and transferring object detection models across domains while considering the instantaneous alignment difficulty. The core of SGA is to calculate "hardness" factors for sample pairs indicating domain distance in a kernel space. With the hardness factor, the proposed SGA adaptively indicates the importance of samples and assigns them different constrains. Indicated by hardness factors, Self-Guided Progressive Sampling (SPS) is implemented in an "easy-to-hard" way during model adaptation. Using multi-stage convolutional features, SGA is further aggregated to fully align hierarchical representations of detection models. Extensive experiments on commonly used benchmarks show that SGA improves the state-of-the-art methods with significant margins, while demonstrating the effectiveness on large domain shift.
翻訳日:2022-12-22 04:34:57 公開日:2020-03-22
# 深層学習技術の深い議論による電力ラインの視線検査におけるデータ分析の見直し

Review of data analysis in vision inspection of power lines with an in-depth discussion of deep learning technology ( http://arxiv.org/abs/2003.09802v1 )

ライセンス: Link先を確認
Xinyu Liu, Xiren Miao, Hao Jiang, Jing Chen(参考訳) 無人航空機の普及により、膨大な電力線検査データが収集できるようになった。 大規模な検査データ、特に可視画像を用いて、電力伝送の信頼性、安全性、持続可能性を維持することは、迫力のある問題である。 送電線検査データの解析については,これまでかなりの研究が行われてきた。 本稿では,電力線検査データを対象としたディープラーニング分析システムの構築に関心を持つ研究者を対象に,現状の文献を概観し,今後の研究課題を明らかにすることを目的とする。 検査データ解析の典型的な手順に従って,本領域の現在の成果をコンポーネント検出と故障診断に分類する。 それぞれの点において、文献で採用される技法や方法論を要約する。 データ記述やメソッドのパフォーマンスといった貴重な情報も含まれている。 さらに,電力線検査における既存のディープラーニング関連分析手法について,より深く議論する。 最後に,データ品質問題,小さなオブジェクト検出,組込みアプリケーション,評価ベースラインなど,この分野の将来に関するいくつかの研究動向についてまとめる。

The widespread popularity of unmanned aerial vehicles enables an immense amount of power lines inspection data to be collected. How to employ massive inspection data especially the visible images to maintain the reliability, safety, and sustainability of power transmission is a pressing issue. To date, substantial works have been conducted on the analysis of power lines inspection data. With the aim of providing a comprehensive overview for researchers who are interested in developing a deep-learning-based analysis system for power lines inspection data, this paper conducts a thorough review of the current literature and identifies the challenges for future research. Following the typical procedure of inspection data analysis, we categorize current works in this area into component detection and fault diagnosis. For each aspect, the techniques and methodologies adopted in the literature are summarized. Some valuable information is also included such as data description and method performance. Further, an in-depth discussion of existing deep-learning-related analysis methods in power lines inspection is proposed. Finally, we conclude the paper with several research trends for the future of this area, such as data quality problems, small object detection, embedded application, and evaluation baseline.
翻訳日:2022-12-21 06:00:55 公開日:2020-03-22
# ブライトニング, CLAHE, RETINEX を用いた前処理画像

Pre-processing Image using Brightening, CLAHE and RETINEX ( http://arxiv.org/abs/2003.10822v1 )

ライセンス: Link先を確認
Thi Phuoc Hanh Nguyen, Zinan Cai, Khanh Nguyen, Sokuntheariddh Keth, Ningyuan Shen, Mira Park(参考訳) 本稿では,画像強調のための3つの共通アルゴリズムであるBrightening, CLAHE, Retinexを考慮した,最適な事前処理手法を提案する。 画像訓練の目的のために,これらの手法を組み合わせることで,画像強調のための最適な手法を見出す。 我々は,Brightening, CLAHE, Retinexの3つの方法の異なる置換について検討した。 評価は全処理画像に適用されたキャニーエッジ検出に基づく。 オブジェクトのシャープさは、画像の比較において真の正のピクセル数によって正当化される。 画像上で異なる数の組み合わせを前処理関数として使った後、claheはエッジの改善に最も効果的であることが証明され、ブライトニングはエッジエンハンスメントにはあまり影響を与えず、retinexは画像のシャープさを減少させ、画像エンハンスメントにはほとんど寄与しない。

This paper focuses on finding the most optimal pre-processing methods considering three common algorithms for image enhancement: Brightening, CLAHE and Retinex. For the purpose of image training in general, these methods will be combined to find out the most optimal method for image enhancement. We have carried out the research on the different permutation of three methods: Brightening, CLAHE and Retinex. The evaluation is based on Canny Edge detection applied to all processed images. Then the sharpness of objects will be justified by true positive pixels number in comparison between images. After using different number combinations pre-processing functions on images, CLAHE proves to be the most effective in edges improvement, Brightening does not show much effect on the edges enhancement, and the Retinex even reduces the sharpness of images and shows little contribution on images enhancement.
翻訳日:2022-12-21 06:00:41 公開日:2020-03-22
# 解釈可能な機械学習モデル:物理に基づく視点

Interpretable machine learning models: a physics-based view ( http://arxiv.org/abs/2003.10025v1 )

ライセンス: Link先を確認
Ion Matei, Johan de Kleer, Christoforos Somarakis, Rahul Rai and John S. Baras(参考訳) 物理的なシステムの変化を理解し、意思決定を促進するためには、モデル予測の実施方法を説明することが不可欠である。 物理系のモデルは、エネルギーの交換や変換を局所的に説明する基本構造を構成することによって構築される。 ポートハミルトニアン(p-h)形式を使い、物理系の振る舞いによく見られる物理的解釈可能な過程を含む基本的な構成を記述する。 p-H構造からモデルを構築する方法と、モデルをトレーニングする方法について説明します。 さらに, トレーニングプロセスの数値安定性を確保するために, 分散性などの物理的特性を課す方法を示す。 逆振り子とswarm dynamicsという,2つの物理システムの動作を記述するモデルの構築とトレーニングの例を示す。

To understand changes in physical systems and facilitate decisions, explaining how model predictions are made is crucial. We use model-based interpretability, where models of physical systems are constructed by composing basic constructs that explain locally how energy is exchanged and transformed. We use the port Hamiltonian (p-H) formalism to describe the basic constructs that contain physically interpretable processes commonly found in the behavior of physical systems. We describe how we can build models out of the p-H constructs and how we can train them. In addition we show how we can impose physical properties such as dissipativity that ensure numerical stability of the training process. We give examples on how to build and train models for describing the behavior of two physical systems: the inverted pendulum and swarm dynamics.
翻訳日:2022-12-21 06:00:07 公開日:2020-03-22
# ニューラルネットワークによる重力波の検出と情報抽出

Gravitational Wave Detection and Information Extraction via Neural Networks ( http://arxiv.org/abs/2003.09995v1 )

ライセンス: Link先を確認
Gerson R. Santos, Marcela P. Figueiredo, Antonio de P\'adua Santos, Pavlos Protopapas, Tiago A. E. Ferreira(参考訳) LIGO(Laser Interferometer Gravitational-Wave Observatory)は、重力波を観測した最初の研究室である。 陽子半径よりもずっと小さい距離変化を測定するために、特別な実験的な設計が必要とされた。 同様に、情報を確認して抽出するデータ分析も、非常に難しい作業です。 本稿では,ニューラルネットワーク上の計算手順ベースを示し,重力波イベントを検出し,ligoデータからそのリングダウン時間に関する知識を抽出する。 この提案により、重力波検出のための確率的温度計を作成し、この現象を生んだ天体系の物理情報を得ることができる。 ここで、リングダウン時間は、数値相対性理論と高い計算力を使用することなく、直接データ測度で決定される。

Laser Interferometer Gravitational-Wave Observatory (LIGO) was the first laboratory to measure the gravitational waves. It was needed an exceptional experimental design to measure distance changes much less than a radius of a proton. In the same way, the data analyses to confirm and extract information is a tremendously hard task. Here, it is shown a computational procedure base on artificial neural networks to detect a gravitation wave event and extract the knowledge of its ring-down time from the LIGO data. With this proposal, it is possible to make a probabilistic thermometer for gravitational wave detection and obtain physical information about the astronomical body system that created the phenomenon. Here, the ring-down time is determined with a direct data measure, without the need to use numerical relativity techniques and high computational power.
翻訳日:2022-12-21 05:59:39 公開日:2020-03-22
# 小侵襲手術におけるステレオスコープによる変形性軟部組織の動的再建

Dynamic Reconstruction of Deformable Soft-tissue with Stereo Scope in Minimal Invasive Surgery ( http://arxiv.org/abs/2003.10867v1 )

ライセンス: Link先を確認
Jingwei Song, Jun Wang, Liang Zhao, Shoudong Huang and Gamini Dissanayake(参考訳) 最小侵襲手術では, 組織損傷を緩和するために, 軟膜表面の最新の変形形状を再構築し, 可視化することが重要である。 本稿では,ステレオスコープからの画像列を用いた表面の変形可能な高密度再構成のための,革新的な同時局所化マッピング(slam)アルゴリズムを提案する。 連続したステレオ画像から3次元形状を復元した組込み変形(ED)ノードに基づく歪み場を導入する。 最後の更新されたモデルを現在のライブモデルに変形させることで、ワープフィールドを推定する。 SLAMシステムでは,(1)鮮明なテクスチャで新たな観察を段階的に融合させることにより,ライブモデルの構築が可能となる。 2)As-Rigid-As-Possibleの原則による未観測領域の変形形状の推定 (3)モデルの連続した形状を示す。 (4) ソフトタスクとスコープの間の現在の相対的なポーズを推定する。 in-vivo experiment with public available datasetsは、3dモデルはラパロスコープによって得られたステレオ画像のシーケンスから異なる変形を持つ異なるソフトトイクのためにインクリメンタルに構築できることを実証している。 以上の結果より, 外科手術に有用な形状とテクスチャ情報を提供するSLAMシステムの有用性が示唆された。

In minimal invasive surgery, it is important to rebuild and visualize the latest deformed shape of soft-tissue surfaces to mitigate tissue damages. This paper proposes an innovative Simultaneous Localization and Mapping (SLAM) algorithm for deformable dense reconstruction of surfaces using a sequence of images from a stereoscope. We introduce a warping field based on the Embedded Deformation (ED) nodes with 3D shapes recovered from consecutive pairs of stereo images. The warping field is estimated by deforming the last updated model to the current live model. Our SLAM system can: (1) Incrementally build a live model by progressively fusing new observations with vivid accurate texture. (2) Estimate the deformed shape of unobserved region with the principle As-Rigid-As-Possible. (3) Show the consecutive shape of models. (4) Estimate the current relative pose between the soft-tissue and the scope. In-vivo experiments with publicly available datasets demonstrate that the 3D models can be incrementally built for different soft-tissues with different deformations from sequences of stereo images obtained by laparoscopes. Results show the potential clinical application of our SLAM system for providing surgeon useful shape and texture information in minimal invasive surgery.
翻訳日:2022-12-21 05:59:28 公開日:2020-03-22
# HierTrain: モバイルエッジクラウドコンピューティングにおけるハイブリッド並列処理による高速階層型エッジAI学習

HierTrain: Fast Hierarchical Edge AI Learning with Hybrid Parallelism in Mobile-Edge-Cloud Computing ( http://arxiv.org/abs/2003.09876v1 )

ライセンス: Link先を確認
Deyin Liu and Xu Chen and Zhi Zhou and Qing Ling(参考訳) 現在、ディープニューラルネットワーク(DNN)は、多くの新興エッジAIアプリケーションにとって、コアイネーブラーとなっている。 DNNをトレーニングするための従来のアプローチは、一般的に中央サーバーやクラウドセンターで実装されており、デバイスからリモートクラウドへ大量のデータサンプルが送信されるため、通常、時間とリソースの要求がかかる。 これらの欠点を克服するために,モバイルエッジクラウドコンピューティング(MECC)パラダイムを用いたDNNの学習プロセスの高速化を検討する。 本稿では,階層型MECCアーキテクチャ上でDNNトレーニングタスクを効率的に展開する階層型エッジAI学習フレームワークであるHierTrainを提案する。 hiertrainの鍵となる,新しい \textit{hybrid parallelism} メソッドを開発し,エッジデバイス,エッジサーバ,クラウドセンターの3つのレベルにわたって,dnnモデルレイヤとデータサンプルを適応的に割り当てる。 次に、DNNトレーニングタスクを層粒度と試料粒度の両方でスケジューリングする問題を定式化する。 この最適化問題を解決することで、最小のトレーニング時間を実現できる。 さらに,エッジデバイス,エッジサーバ,クラウドサーバからなるハードウェアプロトタイプを実装し,広範な実験を行う。 実験の結果、HierTrainはクラウドベースの階層的トレーニングアプローチと比較して最大6.9倍のスピードアップを達成できることが示された。

Nowadays, deep neural networks (DNNs) are the core enablers for many emerging edge AI applications. Conventional approaches to training DNNs are generally implemented at central servers or cloud centers for centralized learning, which is typically time-consuming and resource-demanding due to the transmission of a large amount of data samples from the device to the remote cloud. To overcome these disadvantages, we consider accelerating the learning process of DNNs on the Mobile-Edge-Cloud Computing (MECC) paradigm. In this paper, we propose HierTrain, a hierarchical edge AI learning framework, which efficiently deploys the DNN training task over the hierarchical MECC architecture. We develop a novel \textit{hybrid parallelism} method, which is the key to HierTrain, to adaptively assign the DNN model layers and the data samples across the three levels of edge device, edge server and cloud center. We then formulate the problem of scheduling the DNN training tasks at both layer-granularity and sample-granularity. Solving this optimization problem enables us to achieve the minimum training time. We further implement a hardware prototype consisting of an edge device, an edge server and a cloud server, and conduct extensive experiments on it. Experimental results demonstrate that HierTrain can achieve up to 6.9x speedup compared to the cloud-based hierarchical training approach.
翻訳日:2022-12-21 05:59:10 公開日:2020-03-22
# 経済・金融における強化学習

Reinforcement Learning in Economics and Finance ( http://arxiv.org/abs/2003.10014v1 )

ライセンス: Link先を確認
Arthur Charpentier and Romuald Elie and Carl Remlinger(参考訳) 強化学習アルゴリズムは、エージェントが反復的な経験を通じて、シーケンシャルな意思決定プロセスにおいて最適な行動ポリシーを学習する方法を記述する。 与えられた環境では、エージェントポリシーは彼にいくつかのランニングとターミナル報酬を提供する。 オンライン学習と同様に、エージェントは順次学習する。 マルチアームバンディット問題のように、エージェントがアクションを選択すると、他のアクション選択によって引き起こされる報酬を推測することはできない。 強化学習においては、彼の行動は、報酬だけでなく、世界の将来の状態にも影響を及ぼす。 強化学習の目標は、長期戦略である累積報酬を最大化するために、世界の状態から行動の集合へのマッピングである最適な政策を見つけることである。 探索は短期的には最適だが、長期的な探索には最適かもしれない。 40年以上にわたって経済学で流行した最適制御の多くの問題は強化学習フレームワークで表現することができ、特に深層学習アルゴリズムによって提供される計算科学の最近の進歩は、複雑な行動問題を解くために経済学者が用いることができる。 本稿では,強化学習技術の最先端の提案と,経済学,ゲーム理論,運用研究,金融学の応用について述べる。

Reinforcement learning algorithms describe how an agent can learn an optimal action policy in a sequential decision process, through repeated experience. In a given environment, the agent policy provides him some running and terminal rewards. As in online learning, the agent learns sequentially. As in multi-armed bandit problems, when an agent picks an action, he can not infer ex-post the rewards induced by other action choices. In reinforcement learning, his actions have consequences: they influence not only rewards, but also future states of the world. The goal of reinforcement learning is to find an optimal policy -- a mapping from the states of the world to the set of actions, in order to maximize cumulative reward, which is a long term strategy. Exploring might be sub-optimal on a short-term horizon but could lead to optimal long-term ones. Many problems of optimal control, popular in economics for more than forty years, can be expressed in the reinforcement learning framework, and recent advances in computational science, provided in particular by deep learning algorithms, can be used by economists in order to solve complex behavioral problems. In this article, we propose a state-of-the-art of reinforcement learning techniques, and present applications in economics, game theory, operation research and finance.
翻訳日:2022-12-21 05:58:44 公開日:2020-03-22
# コンピュータビジョンと異常患者歩行評価 : 機械学習モデルの比較

Computer Vision and Abnormal Patient Gait Assessment a Comparison of Machine Learning Models ( http://arxiv.org/abs/2004.02810v1 )

ライセンス: Link先を確認
Jasmin Hundall, Benson A. Babu(参考訳) 異常な歩行、関連する転倒、合併症は患者の死亡率、死亡率が高い。 コンピュータビジョンは患者の歩行異常を検出し、予測し、転倒リスクを評価し、医師のための臨床診断支援ツールとして機能する。 本稿では,コンピュータビジョン,機械学習モデルが異常患者の歩行評価をどのように行うかを体系的に検討する。 コンピュータビジョンは歩行分析に有用であり、患者の姿勢を捉えるのに役立つ。 いくつかの文献は、患者歩行異常を研究するために抽出された特徴の分類を行うために、SVM、ANN、K-Star、Random Forest、KNNなどの異なる機械学習アルゴリズムを使用していることを示唆している。

Abnormal gait, its associated falls and complications have high patient morbidity, mortality. Computer vision detects, predicts patient gait abnormalities, assesses fall risk and serves as clinical decision support tool for physicians. This paper performs a systematic review of how computer vision, machine learning models perform an abnormal patient's gait assessment. Computer vision is beneficial in gait analysis, it helps capture the patient posture. Several literature suggests the use of different machine learning algorithms such as SVM, ANN, K-Star, Random Forest, KNN, among others to perform the classification on the features extracted to study patient gait abnormalities.
翻訳日:2022-12-21 05:52:56 公開日:2020-03-22
# タグのないアスペクトベース感情分析に向けて:マルチアテンションネットワークアプローチ

Toward Tag-free Aspect Based Sentiment Analysis: A Multiple Attention Network Approach ( http://arxiv.org/abs/2003.09986v1 )

ライセンス: Link先を確認
Yao Qiang, Xin Li, Dongxiao Zhu(参考訳) 既存のアスペクトベースの感情分析(ABSA)アプローチは、さまざまなニューラルネットワークモデルを利用して、アスペクト固有の特徴表現を学習することでアスペクトの感情を抽出する。 しかし、これらのアプローチは入力として事前に定義された側面に従ってユーザーレビューを手動でタグ付けすることに大きく依存している。 さらに、ユーザレビューにおけるアスペクトレベルの極性が全体的な極性につながる理由と理由を、基礎となる手法では説明していない。 本稿では,tripadvisor ({https://www.tripadvisor.com}) から直接クロールされた2つのタグフリーデータセットを用いて,よりパワフルな absa のための新しい multi-attention network (man) アプローチを設計,実装することで,これらの2つの問題に取り組む。 自己認識と位置認識の注意機構により、人は、アスペクトレベルと顧客評価全体を用いて、テキストレビューからアスペクトレベルと全体的な感情の両方を抽出でき、また、新しいアスペクトランキングスキームによって、異なるアスペクト間の全体的な感情極性につながる重要なアスペクト(s)を検出できる。 我々は、他の最先端のABSAアプローチと比較してMANの強い性能と、ケーススタディにおける注意重みの可視化と解釈によるアプローチの説明可能性を示す広範な実験を行った。

Existing aspect based sentiment analysis (ABSA) approaches leverage various neural network models to extract the aspect sentiments via learning aspect-specific feature representations. However, these approaches heavily rely on manual tagging of user reviews according to the predefined aspects as the input, a laborious and time-consuming process. Moreover, the underlying methods do not explain how and why the opposing aspect level polarities in a user review lead to the overall polarity. In this paper, we tackle these two problems by designing and implementing a new Multiple-Attention Network (MAN) approach for more powerful ABSA without the need for aspect tags using two new tag-free data sets crawled directly from TripAdvisor ({https://www.tripadvisor.com}). With the Self- and Position-Aware attention mechanism, MAN is capable of extracting both aspect level and overall sentiments from the text reviews using the aspect level and overall customer ratings, and it can also detect the vital aspect(s) leading to the overall sentiment polarity among different aspects via a new aspect ranking scheme. We carry out extensive experiments to demonstrate the strong performance of MAN compared to other state-of-the-art ABSA approaches and the explainability of our approach by visualizing and interpreting attention weights in case studies.
翻訳日:2022-12-21 05:52:45 公開日:2020-03-22
# ハイブリッド型深層学習とファジィルール誘導を用いた新規コロナウイルスの高不確かさ下での複合モンテカルロ決定

Composite Monte Carlo Decision Making under High Uncertainty of Novel Coronavirus Epidemic Using Hybridized Deep Learning and Fuzzy Rule Induction ( http://arxiv.org/abs/2003.09868v1 )

ライセンス: Link先を確認
Simon James Fong, Gloria Li, Nilanjan Dey, Ruben Gonzalez Crespo, Enrique Herrera-Viedma(参考訳) 2019年12月以降、新型コロナウイルスの感染拡大に伴い、政府や当局は最善策として不確実性の高い意思決定に苦慮している。 複合モンテカルロシミュレーション(composite monte-carlo simulation、cmc)は、複数の相関マイクロデータソースから分離した利用可能なデータを、確率分布からランダムなサンプルを抽出して、多くの将来的な結果へと推定する予測手法である。 例えば、中国における感染事例の全体的な傾向と伝播は、人口密度、旅行移動性、病院ベッドなどの医療資源、各都市における隔離管理のタイムラインなどの観点から、武漢市周辺の都市(ウイルスが発祥の地)の時空間データの影響を受けている。 したがって、CMCは、将来の事象の振る舞いと複合データ関係の正しさを表すものとして、CMCの基盤となる統計分布の近接性にのみ信頼性がある。 本稿では, 深層学習ネットワークとファジィルール誘導によって強化されたCMCを用いた, 流行発生の確率的洞察を得るためのケーススタディを提案する。 一般的なプラクティスであるmcに対して,単純かつ均一な仮定を適用する代わりに,ファジィルール誘導手法を併用したディープラーニングベースのcmcを用いる。 その結果、意思決定者は、感染拡大に関する将来の可能性の極端な範囲を予察するmin-max規則によって補完されるより適合性の高いmc出力の恩恵を受ける。

In the advent of the novel coronavirus epidemic since December 2019, governments and authorities have been struggling to make critical decisions under high uncertainty at their best efforts. Composite Monte-Carlo (CMC) simulation is a forecasting method which extrapolates available data which are broken down from multiple correlated/casual micro-data sources into many possible future outcomes by drawing random samples from some probability distributions. For instance, the overall trend and propagation of the infested cases in China are influenced by the temporal-spatial data of the nearby cities around the Wuhan city (where the virus is originated from), in terms of the population density, travel mobility, medical resources such as hospital beds and the timeliness of quarantine control in each city etc. Hence a CMC is reliable only up to the closeness of the underlying statistical distribution of a CMC, that is supposed to represent the behaviour of the future events, and the correctness of the composite data relationships. In this paper, a case study of using CMC that is enhanced by deep learning network and fuzzy rule induction for gaining better stochastic insights about the epidemic development is experimented. Instead of applying simplistic and uniform assumptions for a MC which is a common practice, a deep learning-based CMC is used in conjunction of fuzzy rule induction techniques. As a result, decision makers are benefited from a better fitted MC outputs complemented by min-max rules that foretell about the extreme ranges of future possibilities with respect to the epidemic.
翻訳日:2022-12-21 05:52:20 公開日:2020-03-22
# ファジィ論理(MEDDSFL)を用いたマルチメディアエキスパート診断システムの設計

Design Multimedia Expert Diagnosing Diseases System Using Fuzzy Logic (MEDDSFL) ( http://arxiv.org/abs/2003.09963v1 )

ライセンス: Link先を確認
Mohammed Salah Ibrahim and Doaa Waleed Al-Dulaimee(参考訳) 本稿では,ヒトの疾患を診断する効率的なエキスパートシステムを設計した。 本システムは,本システムにおける知識基盤として活用される各種疾患の臨床的特徴に依存している。 我々はファジィ論理系を用いた。これはエキスパートシステムの知識ベースを構築するのに最も熟練したシステム技法の1つである。 ファジィ論理は疾患診断の結果を推測するために用いられる。 また,本システムで達成された疾患のほとんどに対して,映像や画像,情報などのマルチメディアも提供した。 Matlab ToolBoxを用いたシステムと15の疾患について検討した。 本システムでは, 健常者, 罹患者, 病状不明者の5例について検討した。 その結果,ヒトに疾患があるか否かを正確に予測することができた。 システムの結果はすべて表で報告され、詳細に議論される。

In this paper we designed an efficient expert system to diagnose diseases for human beings. The system depended on several clinical features for different diseases which will be used as knowledge base for this system. We used fuzzy logic system which is one of the most expert systems techniques that used in building knowledge base of expert systems. Fuzzy logic will be used to inference the results of disease diagnosing. We also provided the system with multimedia such as videos, pictures and information for most of disease that have been achieved in our system. The system implemented using Matlab ToolBox and fifteen diseases were studied. Five cases for normal, affected and unaffected people's different diseases have been tested on this system. The results show that system was able to predict the status whether a human has a disease or not accurately. All system results are reported in tables and discussed in detail.
翻訳日:2022-12-21 05:51:52 公開日:2020-03-22
# ウィキペディア記事間のセマンティック関係のためのペアワイズ多クラス文書分類

Pairwise Multi-Class Document Classification for Semantic Relations between Wikipedia Articles ( http://arxiv.org/abs/2003.09881v1 )

ライセンス: Link先を確認
Malte Ostendorff, Terry Ruas, Moritz Schubotz, Georg Rehm, Bela Gipp(参考訳) 多くのデジタルライブラリは、クエリドキュメントとリポジトリの類似性を考慮した文献をユーザに推奨している。 しかし、2つの文書を類似させる関係を区別できないことが多い。 本稿では,2つの文書間の関係をペアワイズ文書分類タスクとして求める問題をモデル化する。 文書間の意味的関係を求めるために,グラブ,段落ベクトル,bert,xlnet などの手法を,トランスフォーマー系システムのための siamese アーキテクチャを含む,異なる構成(シーケンス長,ベクトル連結スキームなど)で適用する。 我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。 以上の結果から,バニラBERTはF1スコア0.93の最高の演奏システムであり,他の領域への適用性について手作業で検討した。 その結果,文書間の意味関係の分類は解決可能な課題であり,評価手法に基づくレコメンダシステムの開発が動機であることが示唆された。 本稿では、SPARQLのようなクエリを使って文書を探索する最初のステップとして、ある点で類似しているが別の面では異なっていた文書を見つけることができる。

Many digital libraries recommend literature to their users considering the similarity between a query document and their repository. However, they often fail to distinguish what is the relationship that makes two documents alike. In this paper, we model the problem of finding the relationship between two documents as a pairwise document classification task. To find the semantic relation between documents, we apply a series of techniques, such as GloVe, Paragraph-Vectors, BERT, and XLNet under different configurations (e.g., sequence length, vector concatenation scheme), including a Siamese architecture for the Transformer-based systems. We perform our experiments on a newly proposed dataset of 32,168 Wikipedia article pairs and Wikidata properties that define the semantic document relations. Our results show vanilla BERT as the best performing system with an F1-score of 0.93, which we manually examine to better understand its applicability to other domains. Our findings suggest that classifying semantic relations between documents is a solvable task and motivates the development of recommender systems based on the evaluated techniques. The discussions in this paper serve as first steps in the exploration of documents through SPARQL-like queries such that one could find documents that are similar in one aspect but dissimilar in another.
翻訳日:2022-12-21 05:51:40 公開日:2020-03-22
# 同時音声翻訳のための低レイテンシASR

Low Latency ASR for Simultaneous Speech Translation ( http://arxiv.org/abs/2003.09891v1 )

ライセンス: Link先を確認
Thai Son Nguyen, Jan Niehues, Eunah Cho, Thanh-Le Ha, Kevin Kilgour, Markus Muller, Matthias Sperber, Sebastian Stueker, Alex Waibel(参考訳) ユーザ調査の結果,同時講義翻訳システムのレイテンシ低減が最も重要な目標であることが示唆された。 そこで我々は,自動音声認識や音声翻訳モジュールなど,両コンポーネントの待ち時間を短縮するためのいくつかの手法に取り組んでいる。 継続的なストリームデコーディングでは、一般的に使用されるコミットメントレイテンシが適切ではないため、ワードレイテンシに重点を置いています。 現在のシステムの性能を分析し、改善の機会を特定するために使用しました。 遅延を最小限に抑えるため、我々はランオン復号法とストリーム復号時の安定部分仮説を同定する手法と、直近の書き起こし部分の修正を可能にする動的出力更新のためのプロトコルを組み合わせた。 この組み合わせは単語レベルでの遅延を減らし、単語は最終であり、将来は18.1sから1.1sに更新されない。

User studies have shown that reducing the latency of our simultaneous lecture translation system should be the most important goal. We therefore have worked on several techniques for reducing the latency for both components, the automatic speech recognition and the speech translation module. Since the commonly used commitment latency is not appropriate in our case of continuous stream decoding, we focused on word latency. We used it to analyze the performance of our current system and to identify opportunities for improvements. In order to minimize the latency we combined run-on decoding with a technique for identifying stable partial hypotheses when stream decoding and a protocol for dynamic output update that allows to revise the most recent parts of the transcription. This combination reduces the latency at word level, where the words are final and will never be updated again in the future, from 18.1s to 1.1s without sacrificing performance in terms of word error rate.
翻訳日:2022-12-21 05:51:17 公開日:2020-03-22
# 365 dots in 2019: ニュースソースの注目度を定量化

365 Dots in 2019: Quantifying Attention of News Sources ( http://arxiv.org/abs/2003.09989v1 )

ライセンス: Link先を確認
Alexander C. Nwala, Michele C. Weigle, Michael L. Nelson(参考訳) 様々な情報源からのオンラインニュース記事の話題の重なりについて検討する。 そこで本研究では,この重なりを計測し,ほぼリアルタイムで注目度に応じてニュース記事をスコアリングすることで,ニュースを研究するためのプラットフォームを提供する。 これにより、ニュース組織から最も注目を集めるトピックの特定や、ニュース日数と主要ニュース日数を区別するなど、複数の研究が可能になる。 私たちのアプリケーションであるStoryGraph(10分間隔)は、パルチザンのスペクトル(左、中央、右)で17の米国ニュースメディア組織のRSSフィードから、最初の5つのニュース記事を定期的に抽出します。 これらの記事から、StoryGraphは名前付きエンティティ(PEOPLE、LOOCATIONS、ORGANIZATIONS等)を抽出し、抽出された名前付きエンティティのセットで各ニュース記事を表す。 最後に、ストーリーグラフは、ノードがニュース記事を表すニュース類似度グラフを生成し、一対のノード間のエッジは、ノード(類似ニュース記事)間の高い類似度を表す。 ニュース類似度グラフ内の各ニュースストーリーには、ニュースメディア組織から総合的に受信されるニュースストーリー内の話題の注目度を定量化する注目スコアが割り当てられる。 StoryGraphサービスは2017年8月から運用されており、この方法を用いて、2018年9月27日の注目スコア25.85の"Kavanaugh hearings"が2018年のトップニュースであると判断した。 同様に、2019年のトップニュースストーリー(2019-12-12)は、2019年3月24日の22.93の注目スコアで、"AG William Barr's release of his principal conclusions of the Mueller Report"である。

We investigate the overlap of topics of online news articles from a variety of sources. To do this, we provide a platform for studying the news by measuring this overlap and scoring news stories according to the degree of attention in near-real time. This can enable multiple studies, including identifying topics that receive the most attention from news organizations and identifying slow news days versus major news days. Our application, StoryGraph, periodically (10-minute intervals) extracts the first five news articles from the RSS feeds of 17 US news media organizations across the partisanship spectrum (left, center, and right). From these articles, StoryGraph extracts named entities (PEOPLE, LOCATIONS, ORGANIZATIONS, etc.) and then represents each news article with its set of extracted named entities. Finally, StoryGraph generates a news similarity graph where the nodes represent news articles, and an edge between a pair of nodes represents a high degree of similarity between the nodes (similar news stories). Each news story within the news similarity graph is assigned an attention score which quantifies the amount of attention the topics in the news story receive collectively from the news media organizations. The StoryGraph service has been running since August 2017, and using this method, we determined that the top news story of 2018 was the "Kavanaugh hearings" with attention score of 25.85 on September 27, 2018. Similarly, the top news story for 2019 so far (2019-12-12) is "AG William Barr's release of his principal conclusions of the Mueller Report," with an attention score of 22.93 on March 24, 2019.
翻訳日:2022-12-21 05:51:01 公開日:2020-03-22
# ニュース記事と財務データを使って破産の可能性を予測する

Using News Articles and Financial Data to predict the likelihood of bankruptcy ( http://arxiv.org/abs/2003.13414v1 )

ライセンス: Link先を確認
Michael Filletti and Aaron Grech(参考訳) 過去10年間で、何百万もの企業が破産を申請した。 これは、高金利、重債務、政府の規制など、多くの理由によって引き起こされている。 倒産の影響は、労働者や株主だけでなく、顧客、サプライヤー、その他の外部企業にも打撃を与える可能性がある。 本論文の目的は,特定の分野に関するニュース記事の感想と連動して,当社の外部データセットが提供する金融指標を用いて企業の倒産を予測する枠組みを提供することである。 ニュース記事は、企業とそのセクターに対する感情を、単に内部の数字を使うのではなく、外部の観点から定量化するために使われる。 この研究は、複数の研究者が行った過去の研究に基づいており、そのような出来事の影響を減らそうとしている。

Over the past decade, millions of companies have filed for bankruptcy. This has been caused by a plethora of reasons, namely, high interest rates, heavy debts and government regulations. The effect of a company going bankrupt can be devastating, hurting not only workers and shareholders, but also clients, suppliers and any related external companies. One of the aims of this paper is to provide a framework for company bankruptcy to be predicted by making use of financial figures, provided by our external dataset, in conjunction with the sentiment of news articles about certain sectors. News articles are used to attempt to quantify the sentiment on a company and its sector from an external perspective, rather than simply using internal figures. This work builds on previous studies carried out by multiple researchers, to bring us closer to lessening the impact of such events.
翻訳日:2022-12-21 05:50:13 公開日:2020-03-22
# 歩行学習:六足歩行ロボット中央パターン生成のためのスパイクに基づく強化学習

Learning to Walk: Spike Based Reinforcement Learning for Hexapod Robot Central Pattern Generation ( http://arxiv.org/abs/2003.10026v1 )

ライセンス: Link先を確認
Ashwin Sanjay Lele, Yan Fang, Justin Ting, Arijit Raychowdhury(参考訳) 歩行の学習 — すなわち、パフォーマンスとエネルギーの制約の下での移動を学ぶことは、脚のあるロボット工学における課題であり続けている。 2足歩行、四足歩行、六足歩行では、確率勾配、深部強化学習(RL)などの手法が研究されている。 これらの技術は計算集約的で、エッジアプリケーションではしばしば禁止される。 これらの手法は複雑なセンサーとデータの前処理に依存しており、エネルギーと遅延をさらに増加させる。 スパイクニューラルネットワーク(SNN)の最近の進歩は、神経のスパース発射による計算の大幅な削減を約束し、生物学的に観察されたスパイク時間依存性の可塑性(STDP)と強化学習機構を統合することが示されている。 しかし,snフレームワークにおける中央パターン生成器(cpg)の同期パターンを学習して歩行するロボットの訓練は行われていない。 これは、モバイルロボティクスにおける突破口学習を提供するCPGベースのシステムの同期ロコモーションとSNNの効率を結合することができる。 本稿では, スパイキングCPGのトレーニングのための強化型確率的重み更新手法を提案する。 システム全体が、センサーを内蔵した軽量のRaspberry piプラットフォーム上に実装され、エキサイティングな新しい可能性を開く。

Learning to walk -- i.e., learning locomotion under performance and energy constraints continues to be a challenge in legged robotics. Methods such as stochastic gradient, deep reinforcement learning (RL) have been explored for bipeds, quadrupeds and hexapods. These techniques are computationally intensive and often prohibitive for edge applications. These methods rely on complex sensors and pre-processing of data, which further increases energy and latency. Recent advances in spiking neural networks (SNNs) promise a significant reduction in computing owing to the sparse firing of neuros and has been shown to integrate reinforcement learning mechanisms with biologically observed spike time dependent plasticity (STDP). However, training a legged robot to walk by learning the synchronization patterns of central pattern generators (CPG) in an SNN framework has not been shown. This can marry the efficiency of SNNs with synchronized locomotion of CPG based systems providing breakthrough end-to-end learning in mobile robotics. In this paper, we propose a reinforcement based stochastic weight update technique for training a spiking CPG. The whole system is implemented on a lightweight raspberry pi platform with integrated sensors, thus opening up exciting new possibilities.
翻訳日:2022-12-21 05:44:17 公開日:2020-03-22
# Web 監視対象検出のための注意学習によるボトムアップとトップダウンキューの探索

Exploring Bottom-up and Top-down Cues with Attentive Learning for Webly Supervised Object Detection ( http://arxiv.org/abs/2003.09790v1 )

ライセンス: Link先を確認
Zhonghua Wu and Qingyi Tao and Guosheng Lin and Jianfei Cai(参考訳) 完全な監視対象検出は近年大きな成功を収めている。 しかし、新しいクラスの検出器を訓練するには、豊富な境界ボックスアノテーションが必要である。 人間のラベル付け作業を減らすために,web画像のみを必要とする新しいクラスに対して,webly supervised object detection (websod) 法を提案する。 ボトムアップとトップダウンを組み合わせた新しいクラス検出手法を提案する。 本手法では,ベースと新しいクラスで共有される共通の目的性を認識し,web画像のオブジェクト領域推定器として,十分に訓練された完全教師付き物体検出器(すなわち高速rcnn)に基づくボトムアップ機構を導入する。 Web画像上の推定領域を用いて、トップダウンの注意手順を地域分類のガイダンスとして利用する。 さらに、Webドメインとターゲットドメインのドメインミスマッチに対処するための残差特徴改善(RFR)ブロックを提案する。 提案手法は,3種類の新規/ベース分割を持つPASCAL VOCデータセット上で実証した。 ターゲットドメインの新規クラスイメージとアノテーションがなければ,提案するwebly教師付きオブジェクト検出モデルは,新規クラスの有望なパフォーマンスを実現することができる。 また,大規模なILSVRC 2013検出データセットの転送学習実験を行い,最先端の性能を実現する。

Fully supervised object detection has achieved great success in recent years. However, abundant bounding boxes annotations are needed for training a detector for novel classes. To reduce the human labeling effort, we propose a novel webly supervised object detection (WebSOD) method for novel classes which only requires the web images without further annotations. Our proposed method combines bottom-up and top-down cues for novel class detection. Within our approach, we introduce a bottom-up mechanism based on the well-trained fully supervised object detector (i.e. Faster RCNN) as an object region estimator for web images by recognizing the common objectiveness shared by base and novel classes. With the estimated regions on the web images, we then utilize the top-down attention cues as the guidance for region classification. Furthermore, we propose a residual feature refinement (RFR) block to tackle the domain mismatch between web domain and the target domain. We demonstrate our proposed method on PASCAL VOC dataset with three different novel/base splits. Without any target-domain novel-class images and annotations, our proposed webly supervised object detection model is able to achieve promising performance for novel classes. Moreover, we also conduct transfer learning experiments on large scale ILSVRC 2013 detection dataset and achieve state-of-the-art performance.
翻訳日:2022-12-21 05:43:57 公開日:2020-03-22
# モーダル回帰に基づく多視点学習のための構造化低ランクマトリクスリカバリ

Modal Regression based Structured Low-rank Matrix Recovery for Multi-view Learning ( http://arxiv.org/abs/2003.09799v1 )

ライセンス: Link先を確認
Jiamiao Xu, Fangzhao Wang, Qinmu Peng, Xinge You, Shuo Wang, Xiao-Yuan Jing, C. L. Philip Chen(参考訳) 低ランクマルチビューサブスペース学習(lmvsl)は近年,クロスビュー分類において大きな可能性を示している。 実験的な成功にもかかわらず、既存のLMvSLベースの手法はビューの相違と差別を同時に扱うことができないため、マルチビューデータ間で大きな相違が生じると性能が低下する。 ブロック対角表現学習に動機づけられたこの欠点を回避するために,構造化低ランクマトリックスリカバリ(slmr,structured low-rank matrix recovery)を提案する。 さらに、近年の低ランクなモデリングでは、ガウス分布やラプラシア分布のようなノイズ分布の前提によって事前に定義されたデータに対処できる。 しかし、これらのモデルは実際は複雑なノイズがこれらの仮定に反しうるため実用的ではない。 このような制限を軽減するため、モーダルレグレッションはSLMRの枠組み(MR-SLMR)に優雅に組み込まれる。 従来のLMvSL法とは異なり、MR-SLMRはガウスノイズ、ランダムノイズ、外れ値などの幅広いノイズを含むゼロモードノイズ変数を処理できる。 MR-SLMRを効率よく最適化するために,乗算器(ADMM)フレームワークの交互方向法と半四分法理論を用いる。 4つの公開データベースの実験結果はMR-SLMRの優位性と複雑な雑音に対する頑健性を示している。

Low-rank Multi-view Subspace Learning (LMvSL) has shown great potential in cross-view classification in recent years. Despite their empirical success, existing LMvSL based methods are incapable of well handling view discrepancy and discriminancy simultaneously, which thus leads to the performance degradation when there is a large discrepancy among multi-view data. To circumvent this drawback, motivated by the block-diagonal representation learning, we propose Structured Low-rank Matrix Recovery (SLMR), a unique method of effectively removing view discrepancy and improving discriminancy through the recovery of structured low-rank matrix. Furthermore, recent low-rank modeling provides a satisfactory solution to address data contaminated by predefined assumptions of noise distribution, such as Gaussian or Laplacian distribution. However, these models are not practical since complicated noise in practice may violate those assumptions and the distribution is generally unknown in advance. To alleviate such limitation, modal regression is elegantly incorporated into the framework of SLMR (term it MR-SLMR). Different from previous LMvSL based methods, our MR-SLMR can handle any zero-mode noise variable that contains a wide range of noise, such as Gaussian noise, random noise and outliers. The alternating direction method of multipliers (ADMM) framework and half-quadratic theory are used to efficiently optimize MR-SLMR. Experimental results on four public databases demonstrate the superiority of MR-SLMR and its robustness to complicated noise.
翻訳日:2022-12-21 05:43:36 公開日:2020-03-22
# 静止画像における行動認識のためのディープニューラルネットワークの集合

Ensembles of Deep Neural Networks for Action Recognition in Still Images ( http://arxiv.org/abs/2003.09893v1 )

ライセンス: Link先を確認
Sina Mohammadi, Sina Ghofrani Majelan, Shahriar B. Shokouhi(参考訳) 近年、特徴抽出や分類の分野で顕著な改善がなされているにもかかわらず、人間の行動認識は依然として困難であり、特に映像では、動画とは異なり動きがない。 したがって,映像中の人間の動作を認識する手法は静止画像には適用できない。 静止画像におけるアクション認識の大きな課題は、十分なデータセットがないことである。これは、過度に適合する問題のために、深層畳み込みニューラルネットワーク(CNN)のトレーニングに問題がある。 本稿では,事前学習したCNNを活用することで,大量のラベル付き行動認識データセットの欠如に対処するトランスファー学習手法を提案する。 さらに、CNNの最終層にはクラス固有の情報があるので、CNNの出力特徴マップに注意機構を適用し、より差別的で強力な特徴を抽出して人間の行動の分類を行う。 さらに,学習済みの8種類のcnnをフレームワークで使用し,stanford 40データセット上での性能調査を行った。 最後に,複数のモデルの予測を組み合わせることで,行動分類の全体的な精度を高めるために,アンサンブル学習手法を提案する。 我々の手法の最良の設定は、スタンフォード40データセットで93.17$\%の精度を達成することができる。

Despite the fact that notable improvements have been made recently in the field of feature extraction and classification, human action recognition is still challenging, especially in images, in which, unlike videos, there is no motion. Thus, the methods proposed for recognizing human actions in videos cannot be applied to still images. A big challenge in action recognition in still images is the lack of large enough datasets, which is problematic for training deep Convolutional Neural Networks (CNNs) due to the overfitting issue. In this paper, by taking advantage of pre-trained CNNs, we employ the transfer learning technique to tackle the lack of massive labeled action recognition datasets. Furthermore, since the last layer of the CNN has class-specific information, we apply an attention mechanism on the output feature maps of the CNN to extract more discriminative and powerful features for classification of human actions. Moreover, we use eight different pre-trained CNNs in our framework and investigate their performance on Stanford 40 dataset. Finally, we propose using the Ensemble Learning technique to enhance the overall accuracy of action classification by combining the predictions of multiple models. The best setting of our method is able to achieve 93.17$\%$ accuracy on the Stanford 40 dataset.
翻訳日:2022-12-21 05:42:45 公開日:2020-03-22
# 幾何プリミティブのマッチングと変形による航空機lidarデータからの湾曲建築物の復元

Curved Buildings Reconstruction from Airborne LiDAR Data by Matching and Deforming Geometric Primitives ( http://arxiv.org/abs/2003.09934v1 )

ライセンス: Link先を確認
Jingwei Song, Shaobo Xia, Jun Wang, Dong Chen(参考訳) 大気中LiDAR(Light Detection and Ranging)データは、建物再建に広く応用されており、典型的な建物での成功を報告している。 しかし、曲がりくねった建物の再建は未解決の研究課題である。 そこで本研究では,幾何学的プリミティブの組立と変形による湾曲構造復元のための新しい枠組みを提案する。 入力されたLiDAR点雲は、まず個々の建物を特定する輪郭に変換される。 構造輪郭から幾何単位(原始体)を認識すると、基本的な幾何学的原始体とこれらの原始体をマッチングして初期モデルを得る。 集合模型を磨くために, モデル改良のためにワーピング場を用いる。 具体的には、初期モデルをダウンサンプリングすることで、埋め込み変形(ED)グラフを構築する。 そして、対象関数に基づいてEDグラフのノードパラメータを調整することにより、ポイント・ツー・モデル変位を最小限に抑える。 このフレームワークは、様々な都市で様々なLiDARが収集した高い湾曲した建物で検証されている。 実験結果と精度比較は,本手法の利点と有効性を示すものである。 {新しい洞察は効率的な再構築方法に起因する。 さらに,プリミティブベースのフレームワークにより,従来のメッシュモデルの10~20%にデータストレージを大幅に削減できることを示す。

Airborne LiDAR (Light Detection and Ranging) data is widely applied in building reconstruction, with studies reporting success in typical buildings. However, the reconstruction of curved buildings remains an open research problem. To this end, we propose a new framework for curved building reconstruction via assembling and deforming geometric primitives. The input LiDAR point cloud are first converted into contours where individual buildings are identified. After recognizing geometric units (primitives) from building contours, we get initial models by matching basic geometric primitives to these primitives. To polish assembly models, we employ a warping field for model refinements. Specifically, an embedded deformation (ED) graph is constructed via downsampling the initial model. Then, the point-to-model displacements are minimized by adjusting node parameters in the ED graph based on our objective function. The presented framework is validated on several highly curved buildings collected by various LiDAR in different cities. The experimental results, as well as accuracy comparison, demonstrate the advantage and effectiveness of our method. {The new insight attributes to an efficient reconstruction manner.} Moreover, we prove that the primitive-based framework significantly reduces the data storage to 10-20 percent of classical mesh models.
翻訳日:2022-12-21 05:42:24 公開日:2020-03-22
# 感染規模別分類による地域肺炎からのCOVID-19の大規模スクリーニング

Large-Scale Screening of COVID-19 from Community Acquired Pneumonia using Infection Size-Aware Classification ( http://arxiv.org/abs/2003.09860v1 )

ライセンス: Link先を確認
Feng Shi, Liming Xia, Fei Shan, Dijia Wu, Ying Wei, Huan Yuan, Huiting Jiang, Yaozong Gao, He Sui, Dinggang Shen(参考訳) 新型コロナウイルス(COVID-19)の世界的な感染拡大は、公衆衛生の脅威となっている。 市中肺炎(CAP)からCOVID-19患者を迅速かつ正確にスクリーニングすることが重要である。 本研究は, COVID-19患者1658例, CAP患者1027例を対象に, 薄切片CTを施行した。 すべての画像は前処理され、感染と肺野の両方のセグメンテーションが得られ、位置特異的な特徴を抽出するのに使われた。 iSARF法は, 感染範囲の異なる群落に自動的に分類し, そして各群落のランダム林に分類した。 実験結果から,提案手法の感度は0.907,特異性は0.833,精度は0.879であった。 特に中規模で感染の規模が0.01%から10%であった場合,比較方法に対する大きな性能マージンが得られた。 Radiomicsの機能の追加は、わずかに改善されている。 提案手法は臨床意思決定を支援することが期待されている。

The worldwide spread of coronavirus disease (COVID-19) has become a threatening risk for global public health. It is of great importance to rapidly and accurately screen patients with COVID-19 from community acquired pneumonia (CAP). In this study, a total of 1658 patients with COVID-19 and 1027 patients of CAP underwent thin-section CT. All images were preprocessed to obtain the segmentations of both infections and lung fields, which were used to extract location-specific features. An infection Size Aware Random Forest method (iSARF) was proposed, in which subjects were automated categorized into groups with different ranges of infected lesion sizes, followed by random forests in each group for classification. Experimental results show that the proposed method yielded sensitivity of 0.907, specificity of 0.833, and accuracy of 0.879 under five-fold cross-validation. Large performance margins against comparison methods were achieved especially for the cases with infection size in the medium range, from 0.01% to 10%. The further inclusion of Radiomics features show slightly improvement. It is anticipated that our proposed framework could assist clinical decision making.
翻訳日:2022-12-21 05:34:56 公開日:2020-03-22
# スペクトルクラスタリング再考:Fiedlerベクトルに隠された情報

Spectral Clustering Revisited: Information Hidden in the Fiedler Vector ( http://arxiv.org/abs/2003.09969v1 )

ライセンス: Link先を確認
Adela DePavia, Stefan Steinerberger(参考訳) グラフ上のクラスタリング問題に興味がある: 基礎となる2つのクラスタが存在する場合、隣接行列の2番目に大きな固有値に対応する固有ベクトルの符号が2つのクラスタを確実に再構築できることが知られている。 固有ベクトルがそれぞれ最大かつ最小のエントリを持つ頂点は、それぞれ自身のクラスターと異常に強く結びついており、他のものよりも確実に分類されている。 これはホットスポット予想の離散バージョンと見なすことができ、アプリケーションで有用であるべきである。 確率ブロックモデルの厳密な証明といくつかの例を示す。

We are interested in the clustering problem on graphs: it is known that if there are two underlying clusters, then the signs of the eigenvector corresponding to the second largest eigenvalue of the adjacency matrix can reliably reconstruct the two clusters. We argue that the vertices for which the eigenvector has the largest and the smallest entries, respectively, are unusually strongly connected to their own cluster and more reliably classified than the rest. This can be regarded as a discrete version of the Hot Spots conjecture and should be useful in applications. We give a rigorous proof for the stochastic block model and several examples.
翻訳日:2022-12-21 05:33:45 公開日:2020-03-22
# 道路条件予測補正のためのソフトウェアシステム

Software System for Road Condition Forecast Correction ( http://arxiv.org/abs/2003.09957v1 )

ライセンス: Link先を確認
Dmitrii Smolyakov and Evgeny Burnaev(参考訳) 本稿では,氷形成予測による道路安全性の向上を可能にするモニタリングシステムを提案する。 システムは道路気象観測所のネットワークとインテリジェンスデータ処理プログラムモジュールで構成される。 その結果,駅からの測定に基づいて道路状況を予測する物理モデルと,誤ったデータの検出と予測補正を行う機械学習モデルを組み合わせた。

In this paper, we present a monitoring system that allows increasing road safety by predicting ice formation. The system consists of a network of road weather stations and intelligence data processing program module. The results were achieved by combining physical models for forecasting road conditions based on measurements from stations and machine learning models for detecting incorrect data and forecast correction.
翻訳日:2022-12-21 05:32:49 公開日:2020-03-22
# 一般化ネステッドロールアウトポリシー適応

Generalized Nested Rollout Policy Adaptation ( http://arxiv.org/abs/2003.10024v1 )

ライセンス: Link先を確認
Tristan Cazenave(参考訳) nested rollout policy adaptation (nrpa) は、モンテカルロの単一プレイヤーゲームのための検索アルゴリズムである。 本稿では、NRPAを温度とバイアスで一般化し、理論的にアルゴリズムを分析することを提案する。 一般化されたアルゴリズムは GNRPA と呼ばれる。 実験では、異なるアプリケーションドメインのnrpaの改善が示されている: samegameとtime windowsでのトラベルセールスマン問題。

Nested Rollout Policy Adaptation (NRPA) is a Monte Carlo search algorithm for single player games. In this paper we propose to generalize NRPA with a temperature and a bias and to analyze theoretically the algorithms. The generalized algorithm is named GNRPA. Experiments show it improves on NRPA for different application domains: SameGame and the Traveling Salesman Problem with Time Windows.
翻訳日:2022-12-21 05:32:10 公開日:2020-03-22
# 進化的多目的最適化アルゴリズムの性能に及ぼす決定と目的空間の離散化の影響

Effects of Discretization of Decision and Objective Spaces on the Performance of Evolutionary Multiobjective Optimization Algorithms ( http://arxiv.org/abs/2003.09917v1 )

ライセンス: Link先を確認
Weiyu Chen, Hisao Ishibuchi, Ke Shang(参考訳) 近年,意思決定と客観的空間の離散化が文献で議論されている。 いくつかの研究では、決定空間の離散化は、連続多目的テスト問題に対する進化的多目的最適化(EMO)アルゴリズムの性能を向上させることが示されている。 他の研究では、目的空間の離散化が組合せ多目的問題の性能を向上させることが示されている。 しかし,両空間の同時離散化の効果は文献で検討されていない。 本稿では,DTLZおよびWFG問題に対する計算実験を通じて,決定空間の離散化,目的空間の離散化,同時離散化がNSGA-IIの性能に及ぼす影響について検討する。 決定変数の数と目的数に関する様々な設定を用いて,本実験は,標準問題,大規模問題,多目的問題,大規模多目的問題という4種類の問題に対して実施する。 決定空間の離散化は大規模問題にプラス効果を示し、目的空間の離散化は多目的問題にプラス効果を示す。 また、両空間の離散化は大規模多目的問題に有用であることを示す。

Recently, the discretization of decision and objective spaces has been discussed in the literature. In some studies, it is shown that the decision space discretization improves the performance of evolutionary multi-objective optimization (EMO) algorithms on continuous multi-objective test problems. In other studies, it is shown that the objective space discretization improves the performance on combinatorial multi-objective problems. However, the effect of the simultaneous discretization of both spaces has not been examined in the literature. In this paper, we examine the effects of the decision space discretization, objective space discretization and simultaneous discretization on the performance of NSGA-II through computational experiments on the DTLZ and WFG problems. Using various settings about the number of decision variables and the number of objectives, our experiments are performed on four types of problems: standard problems, large-scale problems, many-objective problems, and large-scale many-objective problems. We show that the decision space discretization has a positive effect for large-scale problems and the objective space discretization has a positive effect for many-objective problems. We also show the discretization of both spaces is useful for large-scale many-objective problems.
翻訳日:2022-12-21 05:26:30 公開日:2020-03-22
# robROSE:不正検出における不均衡データ処理のための堅牢なアプローチ

robROSE: A robust approach for dealing with imbalanced data in fraud detection ( http://arxiv.org/abs/2003.11915v1 )

ライセンス: Link先を確認
Bart Baesens, Sebastiaan H\"oppner, Irene Ortner, and Tim Verdonck(参考訳) 不正を検知しようとする際の大きな課題は、不正行為が少数派を形成し、データセットのごく一部を占めることだ。 ほとんどのデータセットでは、詐欺は通常0.5%未満のケースで発生する。 このような高度に不均衡なデータセットで不正を検出することは、通常、多数派を支持する予測につながる。 マイノリティクラスを模倣する合成サンプルを作成することにより、不均衡なデータの問題を解決するための一般的なオーバーサンプリング手法について論じる。 実データを分析する際の頻繁な問題は、異常や外れ値の存在である。 このような非定型的な観測がデータに存在している場合、オーバーサンプリング技術のほとんどは、検出アルゴリズムを歪め、結果の分析を損なう合成サンプルを作成する傾向がある。 異常検出のための便利なツールはロバスト統計であり、データの大部分を最初に適合させ、そこから逸脱したデータ観測をフラグ付けすることで、外れ値を見つけることを目的としている。 本稿では,不均衡データ問題と異常値の存在を同時に扱うためのいくつかの有望なアプローチを組み合わせた,roblosと呼ばれるロバストなバージョンのroseを提案する。 提案手法は,異常を無視しながら不正事例の存在感を高める。 新しいサンプリング手法の優れた性能は,シミュレーションおよび実データ集合上に示され,roblos がデータ構造についてのより良い洞察を提供することが示された。 robROSEアルゴリズムのソースコードは無料で公開されている。

A major challenge when trying to detect fraud is that the fraudulent activities form a minority class which make up a very small proportion of the data set. In most data sets, fraud occurs in typically less than 0.5% of the cases. Detecting fraud in such a highly imbalanced data set typically leads to predictions that favor the majority group, causing fraud to remain undetected. We discuss some popular oversampling techniques that solve the problem of imbalanced data by creating synthetic samples that mimic the minority class. A frequent problem when analyzing real data is the presence of anomalies or outliers. When such atypical observations are present in the data, most oversampling techniques are prone to create synthetic samples that distort the detection algorithm and spoil the resulting analysis. A useful tool for anomaly detection is robust statistics, which aims to find the outliers by first fitting the majority of the data and then flagging data observations that deviate from it. In this paper, we present a robust version of ROSE, called robROSE, which combines several promising approaches to cope simultaneously with the problem of imbalanced data and the presence of outliers. The proposed method achieves to enhance the presence of the fraud cases while ignoring anomalies. The good performance of our new sampling technique is illustrated on simulated and real data sets and it is shown that robROSE can provide better insight in the structure of the data. The source code of the robROSE algorithm is made freely available.
翻訳日:2022-12-21 05:24:33 公開日:2020-03-22
# コプロセッサによる音声認識訓練

Training for Speech Recognition on Coprocessors ( http://arxiv.org/abs/2003.12366v1 )

ライセンス: Link先を確認
Sebastian Baunsgaard and Sebastian B. Wrede and P{\i}nar Tozun(参考訳) 近年,音声認識(ASR)が普及している。 プロセッサとストレージ技術の進化により、より高度なASRメカニズムが実現され、Amazon Alexa、Apple Siri、Microsoft Cortana、Google Homeといったバーチャルアシスタントの開発が促進された。 このようなアシスタントに対する関心は、ASR研究の新たな発展を増幅している。 しかし、この人気にもかかわらず、現代のASRシステムの詳細な訓練効率分析は行われていない。 これは主に、上記のようなasrに依存する多くの現代的なアプリケーションのプロプライエタリな性質、大規模ベンダーがasrを加速してそのようなアプリケーションを可能にする比較的高価なコプロセッサハードウェア、確立されたベンチマークがないことに由来する。 本稿の目的は,これら2つの課題に対処することである。 論文はまず,この領域における最近の研究に触発された深層ニューラルネットワークに基づくasrモデルと,その構築経験について述べる。 次に、異なる予算カテゴリを表す3つのcpu-gpuコプロセッサプラットフォームでこのモデルを評価する。 ハードウェアアクセラレーションを利用することで,ハイエンド機器を使わずとも良好な結果が得られることを示す。 最も高価なプラットフォーム(最も高価なプラットフォームの10倍の価格)は、最初の精度目標の10-30%と、他の2つよりも60-70%速く収束するが、プラットフォームの違いは、わずかに高い精度目標でほぼ消滅する。 さらに,本研究の結果は,この領域におけるモデルトレーニングの複雑,長期,資源集約性によるASRシステム評価の難しさと,ASRのベンチマークの確立の重要性をさらに強調した。

Automatic Speech Recognition (ASR) has increased in popularity in recent years. The evolution of processor and storage technologies has enabled more advanced ASR mechanisms, fueling the development of virtual assistants such as Amazon Alexa, Apple Siri, Microsoft Cortana, and Google Home. The interest in such assistants, in turn, has amplified the novel developments in ASR research. However, despite this popularity, there has not been a detailed training efficiency analysis of modern ASR systems. This mainly stems from: the proprietary nature of many modern applications that depend on ASR, like the ones listed above; the relatively expensive co-processor hardware that is used to accelerate ASR by big vendors to enable such applications; and the absence of well-established benchmarks. The goal of this paper is to address the latter two of these challenges. The paper first describes an ASR model, based on a deep neural network inspired by recent work in this domain, and our experiences building it. Then we evaluate this model on three CPU-GPU co-processor platforms that represent different budget categories. Our results demonstrate that utilizing hardware acceleration yields good results even without high-end equipment. While the most expensive platform (10X price of the least expensive one) converges to the initial accuracy target 10-30% and 60-70% faster than the other two, the differences among the platforms almost disappear at slightly higher accuracy targets. In addition, our results further highlight both the difficulty of evaluating ASR systems due to the complex, long, and resource intensive nature of the model training in this domain, and the importance of establishing benchmarks for ASR.
翻訳日:2022-12-21 05:24:09 公開日:2020-03-22
# UAS瞬時密度予測のためのミッション対応時空間深層学習モデル

Mission-Aware Spatio-Temporal Deep Learning Model for UAS Instantaneous Density Prediction ( http://arxiv.org/abs/2003.09785v1 )

ライセンス: Link先を確認
Ziyi Zhao, Zhao Jin, Wentian Bai, Wentan Bai, Carlos Caicedo, M. Cenk Gursoy, Qinru Qiu(参考訳) 制御されていない低高度空域における日々のsUAS活動の数は、数年のうちに数百万人に達すると予想されている。 したがって、UAS密度予測は新しくて困難な問題となっている。 本稿では,深層学習に基づくUAS瞬時密度予測モデルを提案する。 モデルは入力として2種類のデータを取ります。 1)歴史データから得られた歴史的密度、及び 2)将来のsUASミッション情報。 本モデルのアーキテクチャには,履歴密度定式化モジュール,UASミッション翻訳モジュール,ミッション特徴抽出モジュール,密度マップ投影モジュールの4つのコンポーネントが含まれている。 トレーニングとテストデータは、マルチエージェントair traffic resource usage simulator(matrus)フレームワークにインスパイアされたpythonベースのシミュレータによって生成される。 予測値とシミュレーション値との間の相関スコアと受信者動作特性(AUROC)によって予測の質を測定する。 実験結果は,深層学習に基づくuas密度予測器の性能を示す。 ベースラインモデルと比較して,飛べないゾーンやsuass間の安全な距離を考慮しない簡易交通シナリオでは,予測精度が15.2%以上向上し,相関スコアは0.947に達した。 より現実的なシナリオでは、A*ルーティングアルゴリズムを用いて非フライゾーン回避とsUAS間の安全な距離を維持できるが、我々のモデルは0.823の相関スコアを達成できる。 一方、AUROCはホットスポット予測で0.951に達する。

The number of daily sUAS operations in uncontrolled low altitude airspace is expected to reach into the millions in a few years. Therefore, UAS density prediction has become an emerging and challenging problem. In this paper, a deep learning-based UAS instantaneous density prediction model is presented. The model takes two types of data as input: 1) the historical density generated from the historical data, and 2) the future sUAS mission information. The architecture of our model contains four components: Historical Density Formulation module, UAS Mission Translation module, Mission Feature Extraction module, and Density Map Projection module. The training and testing data are generated by a python based simulator which is inspired by the multi-agent air traffic resource usage simulator (MATRUS) framework. The quality of prediction is measured by the correlation score and the Area Under the Receiver Operating Characteristics (AUROC) between the predicted value and simulated value. The experimental results demonstrate outstanding performance of the deep learning-based UAS density predictor. Compared to the baseline models, for simplified traffic scenario where no-fly zones and safe distance among sUASs are not considered, our model improves the prediction accuracy by more than 15.2% and its correlation score reaches 0.947. In a more realistic scenario, where the no-fly zone avoidance and the safe distance among sUASs are maintained using A* routing algorithm, our model can still achieve 0.823 correlation score. Meanwhile, the AUROC can reach 0.951 for the hot spot prediction.
翻訳日:2022-12-21 05:23:27 公開日:2020-03-22
# 深部合成マイノリティオーバーサンプリング技術

Deep Synthetic Minority Over-Sampling Technique ( http://arxiv.org/abs/2003.09788v1 )

ライセンス: Link先を確認
Hadi Mansourifar, Weidong Shi(参考訳) SMOTE(Synthetic Minority Over-Sampling Technique)は、最も一般的なオーバーサンプリング手法である。 しかし、そのランダムな性質により、合成データや不均衡な分類結果も不安定になる。 これは、SMOTE n を異なるタイミングで実行した場合、n 個の異なる分類結果によって、n 個の異なる合成インスタンスが得られることを意味する。 この問題に対処するため,我々はSMOTEのアイデアをディープラーニングアーキテクチャに適用する。 本手法では、従来のSMOTEの入力と出力をトレーニングするために、ディープニューラルネットワーク回帰モデルを用いる。 提案する深層回帰モデルの入力は、2つのランダムに選択されたデータポイントであり、これらを連結して二重サイズベクトルを形成する。 このモデルの出力は、元の次元を持つ2つのランダムに選択されたベクトル間のランダムに補間されたデータポイントに対応する。 実験結果から, ディープスモートは, 精度, f1スコア, 曲線下領域 (auc) において, 従来のスモートを上回ることができることがわかった。

Synthetic Minority Over-sampling Technique (SMOTE) is the most popular over-sampling method. However, its random nature makes the synthesized data and even imbalanced classification results unstable. It means that in case of running SMOTE n different times, n different synthesized in-stances are obtained with n different classification results. To address this problem, we adapt the SMOTE idea in deep learning architecture. In this method, a deep neural network regression model is used to train the inputs and outputs of traditional SMOTE. Inputs of the proposed deep regression model are two randomly chosen data points which are concatenated to form a double size vector. The outputs of this model are corresponding randomly interpolated data points between two randomly chosen vectors with original dimension. The experimental results show that, Deep SMOTE can outperform traditional SMOTE in terms of precision, F1 score and Area Under Curve (AUC) in majority of test cases.
翻訳日:2022-12-21 05:16:25 公開日:2020-03-22
# BS-NAS:検索可能なチャンネル数付きワンショットNAS

BS-NAS: Broadening-and-Shrinking One-Shot NAS with Searchable Numbers of Channels ( http://arxiv.org/abs/2003.09821v1 )

ライセンス: Link先を確認
Zan Shen, Jiang Qian, Bojin Zhuang, Shaojun Wang, Jing Xiao(参考訳) ワンショット法は、ウェイトシェアリングとスーパーネットの単一トレーニングにより、ニューラルネットワークサーチ(NAS)において最も一般的な方法の1つに進化した。 しかし,従来の手法では,各層に一定数のチャネルが最適以下である場合と,重み結合と連続的な探索空間の拡大によるモデル平均化効果とランキング相関の低下が問題となっている。 そこで本稿では,この課題を明示的に解決するために,bs-nas(bs-nas)フレームワークを提案する。"broadening"は,スーパーネットの訓練中にチャネル数を探索できるspringブロックで探索空間を広げることを目的としている。 上記の革新は、より広い表現の探索空間を広げ、徐々に低パフォーマンスな操作を取り除き、最適なアーキテクチャを効率的に探索する進化的アルゴリズムによって縮小する。 imagenetにおける広範な実験は、提案されたbs-nasの有効性と最先端の性能を示している。

One-Shot methods have evolved into one of the most popular methods in Neural Architecture Search (NAS) due to weight sharing and single training of a supernet. However, existing methods generally suffer from two issues: predetermined number of channels in each layer which is suboptimal; and model averaging effects and poor ranking correlation caused by weight coupling and continuously expanding search space. To explicitly address these issues, in this paper, a Broadening-and-Shrinking One-Shot NAS (BS-NAS) framework is proposed, in which `broadening' refers to broadening the search space with a spring block enabling search for numbers of channels during training of the supernet; while `shrinking' refers to a novel shrinking strategy gradually turning off those underperforming operations. The above innovations broaden the search space for wider representation and then shrink it by gradually removing underperforming operations, followed by an evolutionary algorithm to efficiently search for the optimal architecture. Extensive experiments on ImageNet illustrate the effectiveness of the proposed BS-NAS as well as the state-of-the-art performance.
翻訳日:2022-12-21 05:16:11 公開日:2020-03-22
# 出力空間量子化によるマルチターゲット回帰

Multi-target regression via output space quantization ( http://arxiv.org/abs/2003.09896v1 )

ライセンス: Link先を確認
Eleftherios Spyromitros-Xioufis, Konstantinos Sechidis and Ioannis Vlahavas(参考訳) マルチターゲット回帰は、複数の連続目標変数の予測に、共用した予測器を用いて関係している。 マルチターゲット回帰における2つの重要な課題は次のとおりである。 (a)対象の依存関係とモデリング (b)大きな出力空間へのスケーラビリティ。 本稿では,新しい問題変換手法を用いて,これらの課題に共同で対処する多目的回帰手法を提案する。 提案手法はmrqと呼ばれ、複数の連続対象を1つ以上の離散対象に変換するために出力空間を量子化するという考え方に基づいている。 変換された出力空間での学習は、予測精度と計算効率のトレードオフを制御するために、量子化戦略を柔軟にパラメータ化しながら、ターゲット依存関係のモデリングを可能にする。 ベンチマークデータセットの大規模なコレクションの実験は、MRQが高度にスケーラブルであり、精度の面で最先端と競合していることを示している。 特に、MRQのアンサンブルバージョンは、ランナーアップ法よりも桁違いに高速でありながら、最高の全体的な精度が得られる。

Multi-target regression is concerned with the prediction of multiple continuous target variables using a shared set of predictors. Two key challenges in multi-target regression are: (a) modelling target dependencies and (b) scalability to large output spaces. In this paper, a new multi-target regression method is proposed that tries to jointly address these challenges via a novel problem transformation approach. The proposed method, called MRQ, is based on the idea of quantizing the output space in order to transform the multiple continuous targets into one or more discrete ones. Learning on the transformed output space naturally enables modeling of target dependencies while the quantization strategy can be flexibly parameterized to control the trade-off between prediction accuracy and computational efficiency. Experiments on a large collection of benchmark datasets show that MRQ is both highly scalable and also competitive with the state-of-the-art in terms of accuracy. In particular, an ensemble version of MRQ obtains the best overall accuracy, while being an order of magnitude faster than the runner up method.
翻訳日:2022-12-21 05:15:51 公開日:2020-03-22
# コスト対応ベイズ最適化

Cost-aware Bayesian Optimization ( http://arxiv.org/abs/2003.10870v1 )

ライセンス: Link先を確認
Eric Hans Lee, Valerio Perrone, Cedric Archambeau, Matthias Seeger(参考訳) ベイズ最適化 (bayesian optimization, bo) は、高コストの目的関数を極力少ない関数評価で最小化するのに適した、大域的最適化アルゴリズムのクラスである。 BO予算は通常イテレーションで与えられるが、これは暗黙的に反復数の観点から収束を測定し、それぞれの評価に同じコストがかかると仮定する。 実際に、評価コストは検索空間の異なる領域で異なる可能性がある。 例えば、ニューラルネットワークトレーニングのコストは、典型的なハイパーパラメータであるレイヤサイズと2次的に増加する。 コスト対応BOは、バニラBO法が適さない時間、エネルギー、お金などの代替コスト指標との収束を測定する。 我々は,目標関数をできるだけ少ないコストで最小化しようとするコスト調整BO(CArBO)を導入する。 CArBOはコスト効率の良い初期設計とコスト冷却最適化フェーズを組み合わせることで、反復が進むにつれて学習コストモデルを劣化させる。 20のブラックボックス関数最適化問題に対して、CArBOは競合する手法よりもはるかに優れたハイパーパラメータ構成を見出した。

Bayesian optimization (BO) is a class of global optimization algorithms, suitable for minimizing an expensive objective function in as few function evaluations as possible. While BO budgets are typically given in iterations, this implicitly measures convergence in terms of iteration count and assumes each evaluation has identical cost. In practice, evaluation costs may vary in different regions of the search space. For example, the cost of neural network training increases quadratically with layer size, which is a typical hyperparameter. Cost-aware BO measures convergence with alternative cost metrics such as time, energy, or money, for which vanilla BO methods are unsuited. We introduce Cost Apportioned BO (CArBO), which attempts to minimize an objective function in as little cost as possible. CArBO combines a cost-effective initial design with a cost-cooled optimization phase which depreciates a learned cost model as iterations proceed. On a set of 20 black-box function optimization problems we show that, given the same cost budget, CArBO finds significantly better hyperparameter configurations than competing methods.
翻訳日:2022-12-21 05:14:57 公開日:2020-03-22
# HDF: シーン画像表現のためのハイブリッドディープ機能

HDF: Hybrid Deep Features for Scene Image Representation ( http://arxiv.org/abs/2003.09773v1 )

ライセンス: Link先を確認
Chiranjibi Sitaula and Yong Xiang and Anish Basnet and Sunil Aryal and Xuequan Lu(参考訳) 現在では,事前学習したディープラーニングモデルから抽出した特徴を,有望な分類性能を達成した画像表現として捉えることが一般的である。 既存のメソッドは通常、オブジェクトベースの機能かシーンベースの機能のみを考える。 しかし、どちらのタイプの機能もシーンイメージのような複雑な画像にとって重要であり、互いに補完することができる。 本稿では,シーン画像のための新しい特徴 -ハイブリッド深層特徴 - を提案する。 具体的には、オブジェクトベースとシーンベースの両方の特徴を、部分画像レベル(画像の一部)と全体画像レベル(画像全体)の2つのレベルで利用し、合計4種類の深い特徴を生成する。 また,部分画像のレベルに関して,部分的特徴を抽出する2つの新しいスライシング手法を提案する。 最後に、連結演算子を介してこれら4種類の深い特徴を集約する。 本研究では,3つのシーンデータセット(MIT-67, Scene-15, Event-8)のシーン画像分類タスクにおいて,ハイブリッドな深度特徴の有効性を示す。 広範な比較によって,導入した機能は,すべてのデータセットにまたがる既存機能の結果よりも一貫性と安定性を備えた最先端の分類アキュラティを生成できることが分かりました。

Nowadays it is prevalent to take features extracted from pre-trained deep learning models as image representations which have achieved promising classification performance. Existing methods usually consider either object-based features or scene-based features only. However, both types of features are important for complex images like scene images, as they can complement each other. In this paper, we propose a novel type of features -- hybrid deep features, for scene images. Specifically, we exploit both object-based and scene-based features at two levels: part image level (i.e., parts of an image) and whole image level (i.e., a whole image), which produces a total number of four types of deep features. Regarding the part image level, we also propose two new slicing techniques to extract part based features. Finally, we aggregate these four types of deep features via the concatenation operator. We demonstrate the effectiveness of our hybrid deep features on three commonly used scene datasets (MIT-67, Scene-15, and Event-8), in terms of the scene image classification task. Extensive comparisons show that our introduced features can produce state-of-the-art classification accuracies which are more consistent and stable than the results of existing features across all datasets.
翻訳日:2022-12-21 05:14:40 公開日:2020-03-22
# DAISI:AI外科教育のためのデータベース

DAISI: Database for AI Surgical Instruction ( http://arxiv.org/abs/2004.02809v1 )

ライセンス: Link先を確認
Edgar Rojas-Mu\~noz, Kyle Couperus and Juan Wachs(参考訳) 手術を行うテレメンタリング外科医は、現場での専門知識が得られない場合、患者の治療に不可欠である。 それでも、専門家のメンターは、訓練生にリアルタイムの医療指導を提供することができないことが多い。 メンターが使用できない場合、フォールバック自律機構は医療従事者に必要なガイダンスを提供する。 しかし、医療におけるai/自律的メンタリングは、一般化可能な予測モデルとそれらのモデルを訓練するための手術手順データセットの可用性によって制限されている。 本研究は,自律医療指導のための知的人工システムの開発に向けた最初のステップを示す。 具体的には,第1回AI手術指導データベース(DAISI)を紹介する。 DAISIは画像と指示を利用して、様々な医学分野から手順を実行する方法をステップバイステップで示す。 データセットは実際の手術手順と学術教科書から取得した。 我々はDAISIを用いて,手術の現在の展望から医療指導を予測することができるエンコーダ・デコーダニューラルネットワークを訓練した。 その後,ネットワークによって予測される指示は累積ブレウスコアと専門家医師からのインプットを用いて評価された。 BLEUのスコアによると、予測された真実命令と地上の真実命令は67%まで類似していた。 さらに、専門家医師は、ワートスケールを用いてアルゴリズムを主観的に評価し、予測された記述が画像と関連していると考えた。 この作業は、自律的な医療指導を支援するAIアルゴリズムのベースラインを提供する。

Telementoring surgeons as they perform surgery can be essential in the treatment of patients when in situ expertise is not available. Nonetheless, expert mentors are often unavailable to provide trainees with real-time medical guidance. When mentors are unavailable, a fallback autonomous mechanism should provide medical practitioners with the required guidance. However, AI/autonomous mentoring in medicine has been limited by the availability of generalizable prediction models, and surgical procedures datasets to train those models with. This work presents the initial steps towards the development of an intelligent artificial system for autonomous medical mentoring. Specifically, we present the first Database for AI Surgical Instruction (DAISI). DAISI leverages on images and instructions to provide step-by-step demonstrations of how to perform procedures from various medical disciplines. The dataset was acquired from real surgical procedures and data from academic textbooks. We used DAISI to train an encoder-decoder neural network capable of predicting medical instructions given a current view of the surgery. Afterwards, the instructions predicted by the network were evaluated using cumulative BLEU scores and input from expert physicians. According to the BLEU scores, the predicted and ground truth instructions were as high as 67% similar. Additionally, expert physicians subjectively assessed the algorithm using Likert scale, and considered that the predicted descriptions were related to the images. This work provides a baseline for AI algorithms to assist in autonomous medical mentoring.
翻訳日:2022-12-21 05:14:11 公開日:2020-03-22
# スパイキングニューラルネットワークシステムのための効率的なソフトウェアハードウェア設計フレームワーク

An Efficient Software-Hardware Design Framework for Spiking Neural Network Systems ( http://arxiv.org/abs/2003.09847v1 )

ライセンス: Link先を確認
Khanh N. Dang, Abderazek Ben Abdallah(参考訳) Spiking Neural Network(SNN)は、脳の自然な振る舞いを模倣するニューラルネットワーク(NN)の第3世代である。 バイナリ入力/出力に基づく処理により、SNNはより複雑さが低く、密度が高く、消費電力も少ない。 本研究では,ハードウェア上でSNNシステムを開発するための効率的なソフトウェアハードウェア設計フレームワークを提案する。 さらに,パケットスイッチング通信に基づく低コストなニューロシナプスコアの設計について述べる。 評価の結果, 784:1200:1200:10 の ANN から SNN への変換は MNIST の 99% の精度で行われ, 教師なし STDP では 89% の精度で 784:400 の繰り返し接続が可能であることがわかった。 256-ニューロンと65kシナプスの設計もASIC 45nm技術で実装されており、面積は0.205$m^2$である。

Spiking Neural Network (SNN) is the third generation of Neural Network (NN) mimicking the natural behavior of the brain. By processing based on binary input/output, SNNs offer lower complexity, higher density and lower power consumption. This work presents an efficient software-hardware design framework for developing SNN systems in hardware. In addition, a design of low-cost neurosynaptic core is presented based on packet-switching communication approach. The evaluation results show that the ANN to SNN conversion method with the size 784:1200:1200:10 performs 99% accuracy for MNIST while the unsupervised STDP archives 89% with the size 784:400 with recurrent connections. The design of 256-neurons and 65k synapses is also implemented in ASIC 45nm technology with an area cost of 0.205 $m m^2$.
翻訳日:2022-12-21 05:13:51 公開日:2020-03-22
# 不変な合理化

Invariant Rationalization ( http://arxiv.org/abs/2003.09772v1 )

ライセンス: Link先を確認
Shiyu Chang, Yang Zhang, Mo Yu, Tommi S. Jaakkola(参考訳) 選択的合理化は、予測を最も説明または支持する入力特徴の小さなサブセットを識別することによって、ニューラルネットワークの解釈性を改善する。 典型的な合理化基準、すなわち最大相互情報(MMI)は、合理性のみに基づいて予測性能を最大化する合理性を見つける。 しかし、MMIは入力特徴と出力との間に急激な相関関係を取るため、問題となる可能性がある。 代わりに,ゲーム理論的な不変な有理化基準を導入することで,同じ予測者が異なる環境にまたがって最適となるように理論を制約する。 提案手法は, 理論上, 実証的に両立し, 有意な相関を除外し, 異なるテストシナリオに一般化し, 人間の判断に合致することを示す。 データとコードは利用可能です。

Selective rationalization improves neural network interpretability by identifying a small subset of input features -- the rationale -- that best explains or supports the prediction. A typical rationalization criterion, i.e. maximum mutual information (MMI), finds the rationale that maximizes the prediction performance based only on the rationale. However, MMI can be problematic because it picks up spurious correlations between the input features and the output. Instead, we introduce a game-theoretic invariant rationalization criterion where the rationales are constrained to enable the same predictor to be optimal across different environments. We show both theoretically and empirically that the proposed rationales can rule out spurious correlations, generalize better to different test scenarios, and align better with human judgments. Our data and code are available.
翻訳日:2022-12-21 05:07:27 公開日:2020-03-22
# Attention-based Graph Neural Network を用いたマルチラベルテキスト分類

Multi-Label Text Classification using Attention-based Graph Neural Network ( http://arxiv.org/abs/2003.11644v1 )

ライセンス: Link先を確認
Ankit Pal, Muru Selvakumar and Malaikannan Sankarasubbu(参考訳) MLTC(Multi-Label Text Classification)では、1つのサンプルは複数のクラスに属することができる。 その結果,ほとんどのMLTCタスクにはラベル間の依存関係や相関が存在することがわかった。 既存の方法はラベル間の関係を無視する傾向がある。 本稿では,ラベル間の注意的依存構造を捉えるために,グラフ注意ネットワークに基づくモデルを提案する。 graph attention networkはフィーチャーマトリクスと相関マトリクスを使用して、ラベル間の重要な依存関係をキャプチャし、探索し、タスクの分類器を生成する。 生成された分類器は、テキスト特徴抽出ネットワーク(BiLSTM)から得られた文特徴ベクトルに適用され、エンドツーエンドのトレーニングを可能にする。 注意することで、システムはラベルごとに異なる重み付けを割り当て、ラベル間の依存関係を暗黙的に学習することができる。 提案モデルの結果は,5つの実世界のMLTCデータセットで検証される。 提案モデルは,従来の最先端モデルと同等あるいは良好な性能を実現する。

In Multi-Label Text Classification (MLTC), one sample can belong to more than one class. It is observed that most MLTC tasks, there are dependencies or correlations among labels. Existing methods tend to ignore the relationship among labels. In this paper, a graph attention network-based model is proposed to capture the attentive dependency structure among the labels. The graph attention network uses a feature matrix and a correlation matrix to capture and explore the crucial dependencies between the labels and generate classifiers for the task. The generated classifiers are applied to sentence feature vectors obtained from the text feature extraction network (BiLSTM) to enable end-to-end training. Attention allows the system to assign different weights to neighbor nodes per label, thus allowing it to learn the dependencies among labels implicitly. The results of the proposed model are validated on five real-world MLTC datasets. The proposed model achieves similar or better performance compared to the previous state-of-the-art models.
翻訳日:2022-12-21 05:06:37 公開日:2020-03-22
# GISNet:車両軌道予測のためのグラフ情報共有ネットワーク

GISNet: Graph-Based Information Sharing Network For Vehicle Trajectory Prediction ( http://arxiv.org/abs/2003.11973v1 )

ライセンス: Link先を確認
Ziyi Zhao, Haowen Fang, Zhao Jin, Qinru Qiu(参考訳) 軌道予測は、自律運転システムの設計において重要かつ困難な問題である。 Google Waymo、Uber、DiDiなどのAI指向企業は、より正確な車両軌道予測アルゴリズムを調査している。 しかし, 予測性能は, 周囲の車両の確率的挙動, 自己軌跡の歴史的情報, 隣人の相対的位置など, 絡み合った多くの要因に支配されている。 本稿では,対象車両とその周辺車両間の情報共有を可能にする新しいグラフベース情報共有ネットワーク(GISNet)を提案する。 一方、モデルはシーン内のすべての車両の歴史的軌跡情報を符号化する。 NGSIM US-101 と I-80 Dataset で実験を行い、予測性能を Root Mean Square Error (RMSE) で測定した。 定量的・定性的な実験結果から,本モデルは既存のモデルと比較して軌道予測精度を最大50.00%向上させることがわかった。

The trajectory prediction is a critical and challenging problem in the design of an autonomous driving system. Many AI-oriented companies, such as Google Waymo, Uber and DiDi, are investigating more accurate vehicle trajectory prediction algorithms. However, the prediction performance is governed by lots of entangled factors, such as the stochastic behaviors of surrounding vehicles, historical information of self-trajectory, and relative positions of neighbors, etc. In this paper, we propose a novel graph-based information sharing network (GISNet) that allows the information sharing between the target vehicle and its surrounding vehicles. Meanwhile, the model encodes the historical trajectory information of all the vehicles in the scene. Experiments are carried out on the public NGSIM US-101 and I-80 Dataset and the prediction performance is measured by the Root Mean Square Error (RMSE). The quantitative and qualitative experimental results show that our model significantly improves the trajectory prediction accuracy, by up to 50.00%, compared to existing models.
翻訳日:2022-12-21 05:06:24 公開日:2020-03-22
# 文化遺産に対する視覚的質問応答

Visual Question Answering for Cultural Heritage ( http://arxiv.org/abs/2003.09853v1 )

ライセンス: Link先を確認
Pietro Bongini, Federico Becattini, Andrew D. Bagdanov, Alberto Del Bimbo(参考訳) 特にスマートオーディオガイド、バーチャルと拡張現実、インタラクティブなインスタレーションが出現したことで、テクノロジーと文化遺産の成果はますます定着しつつある。 機械学習とコンピュータビジョンは、この進行中の統合の重要な要素であり、ユーザとミュージアム間の新しいインタラクションモードを可能にする。 それにもかかわらず、絵画や彫像との相互作用の最も頻繁な方法は現在でも撮影されている。 しかし、画像だけでは芸術の美学しか伝えられないが、それを十分に理解し、理解するために必要とされる情報が欠けている。 通常、この追加の知識は、アートワークそのもの(そしてそれを表現するイメージ)と、情報シートのような外部の知識ソースの両方からもたらされる。 前者はコンピュータビジョンアルゴリズムで推測できるが、後者は視覚コンテンツを関連情報と組み合わせるためにより構造化されたデータを必要とする。 ソースに関係なく、この情報はユーザに効果的に送信されなければならない。 コンピュータビジョンにおける一般的な新しいトレンドは、視覚質問応答(vqa)であり、ユーザーは自然言語で質問をしたり、視覚コンテンツに関する回答を受け取ることで、ニューラルネットワークと対話することができる。 これは博物館の訪問やスマートフォンでの簡単な画像閲覧のためのスマートオーディオガイドの進化だと信じています。 これにより、古典的なオーディオガイドがスマートなパーソナルインストラクターになり、訪問者は特定の興味に焦点を絞った説明を求めることで対話できる。 アドバンテージは2つある: 一方、訪問者の認知的負担は減少し、ユーザが実際に聞きたいものだけに情報のフローを制限し、一方、ガイドと対話し、エンゲージメントを優先する最も自然な方法を提案する。

Technology and the fruition of cultural heritage are becoming increasingly more entwined, especially with the advent of smart audio guides, virtual and augmented reality, and interactive installations. Machine learning and computer vision are important components of this ongoing integration, enabling new interaction modalities between user and museum. Nonetheless, the most frequent way of interacting with paintings and statues still remains taking pictures. Yet images alone can only convey the aesthetics of the artwork, lacking is information which is often required to fully understand and appreciate it. Usually this additional knowledge comes both from the artwork itself (and therefore the image depicting it) and from an external source of knowledge, such as an information sheet. While the former can be inferred by computer vision algorithms, the latter needs more structured data to pair visual content with relevant information. Regardless of its source, this information still must be be effectively transmitted to the user. A popular emerging trend in computer vision is Visual Question Answering (VQA), in which users can interact with a neural network by posing questions in natural language and receiving answers about the visual content. We believe that this will be the evolution of smart audio guides for museum visits and simple image browsing on personal smartphones. This will turn the classic audio guide into a smart personal instructor with which the visitor can interact by asking for explanations focused on specific interests. The advantages are twofold: on the one hand the cognitive burden of the visitor will decrease, limiting the flow of information to what the user actually wants to hear; and on the other hand it proposes the most natural way of interacting with a guide, favoring engagement.
翻訳日:2022-12-21 05:05:48 公開日:2020-03-22
# 自然言語理解におけるスロット充填のための事前知識駆動ラベル埋め込み

Prior Knowledge Driven Label Embedding for Slot Filling in Natural Language Understanding ( http://arxiv.org/abs/2003.09831v1 )

ライセンス: Link先を確認
Su Zhu, Zijian Zhao, Rao Ma, and Kai Yu(参考訳) 自然言語理解(NLU)における伝統的なスロットフィリングは、各単語の1ホットベクトルを予測する。 このようなラベル表現には意味的相関モデリングが欠如しており、特にnluモデルを新しいドメインに適応する場合、深刻なデータスパーシティ問題を引き起こす。 そこで本稿では,新しいラベル埋め込み型スロット充填フレームワークを提案する。 ここで、事前知識を用いて各スロットに分散ラベル埋め込みを構築する。 3つのエンコーディング手法を用いて、アトミック概念、スロット記述、スロット例の3種類の先行知識を組み込む。 提案したラベル埋め込みはテキストパターンを共有し、異なるスロットラベルでデータを再利用する傾向がある。 これにより、限られたデータを持つ適応的なNLUに役立ちます。 また、ラベル埋め込みはNLUモデルとは独立であるため、ほとんど全てのディープラーニングベースのスロットフィリングモデルと互換性がある。 提案手法は3つのデータセットで評価される。 単一ドメインとドメイン適応タスクにおける実験は、ラベル埋め込みが従来のワンホットラベル表現や先進的なゼロショットアプローチよりも大幅にパフォーマンスが向上することを示している。

Traditional slot filling in natural language understanding (NLU) predicts a one-hot vector for each word. This form of label representation lacks semantic correlation modelling, which leads to severe data sparsity problem, especially when adapting an NLU model to a new domain. To address this issue, a novel label embedding based slot filling framework is proposed in this paper. Here, distributed label embedding is constructed for each slot using prior knowledge. Three encoding methods are investigated to incorporate different kinds of prior knowledge about slots: atomic concepts, slot descriptions, and slot exemplars. The proposed label embeddings tend to share text patterns and reuses data with different slot labels. This makes it useful for adaptive NLU with limited data. Also, since label embedding is independent of NLU model, it is compatible with almost all deep learning based slot filling models. The proposed approaches are evaluated on three datasets. Experiments on single domain and domain adaptation tasks show that label embedding achieves significant performance improvement over traditional one-hot label representation as well as advanced zero-shot approaches.
翻訳日:2022-12-21 05:05:19 公開日:2020-03-22