このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200927となっている論文です。

PDF登録状況(公開日: 20200927)

TitleAuthorsAbstract論文公表日・翻訳日
# graphlime:グラフニューラルネットワークのための局所解釈可能なモデル説明

GraphLIME: Local Interpretable Model Explanations for Graph Neural Networks ( http://arxiv.org/abs/2001.06216v2 )

ライセンス: Link先を確認
Qiang Huang, Makoto Yamada, Yuan Tian, Dinesh Singh, Dawei Yin, Yi Chang(参考訳) グラフ構造化データは、物理、化学、生物学、コンピュータビジョン、ソーシャルネットワークなど、いくつかの分野に広く適用可能である。 近年,グラフニューラルネットワーク(GNN)は,優れた性能と一般化能力のため,グラフ構造化データを効果的に表現することに成功した。 GNNは、特定のノードとグラフの構造・トポロジ情報を組み合わせてノード表現を学習するディープラーニングベースの手法である。 しかし、他のディープモデルと同様に、GNNモデルの有効性を説明することは、繰り返しの複雑な非線形変換のために難しい課題である。 本稿では,非線型特徴選択法であるHilbert-Schmidt Independence Criterion (HSIC) Lassoを用いて,グラフの局所的解釈可能なモデル記述法GraphLIMEを提案する。 graphlimeは、説明されているノードのサブグラフで、非線形解釈可能なモデルをローカルに学習する汎用gnnモデル説明フレームワークである。 より具体的には、ノードを説明するために、N$ホップ近傍から非線形解釈可能なモデルを生成し、HSIC Lasso を用いた予測の説明として K の最も代表的な特徴を計算する。 2つの実世界のデータセットに関する実験を通じて、graphlimeの説明は、既存の説明方法と比較して、驚くほど記述的であることが判明した。

Graph structured data has wide applicability in various domains such as physics, chemistry, biology, computer vision, and social networks, to name a few. Recently, graph neural networks (GNN) were shown to be successful in effectively representing graph structured data because of their good performance and generalization ability. GNN is a deep learning based method that learns a node representation by combining specific nodes and the structural/topological information of a graph. However, like other deep models, explaining the effectiveness of GNN models is a challenging task because of the complex nonlinear transformations made over the iterations. In this paper, we propose GraphLIME, a local interpretable model explanation for graphs using the Hilbert-Schmidt Independence Criterion (HSIC) Lasso, which is a nonlinear feature selection method. GraphLIME is a generic GNN-model explanation framework that learns a nonlinear interpretable model locally in the subgraph of the node being explained. More specifically, to explain a node, we generate a nonlinear interpretable model from its $N$-hop neighborhood and then compute the K most representative features as the explanations of its prediction using HSIC Lasso. Through experiments on two real-world datasets, the explanations of GraphLIME are found to be of extraordinary degree and more descriptive in comparison to the existing explanation methods.
翻訳日:2023-01-10 10:00:19 公開日:2020-09-27
# オートエンコーダ再構成比を用いたアセットコモーメントの変化検出

Detecting Changes in Asset Co-Movement Using the Autoencoder Reconstruction Ratio ( http://arxiv.org/abs/2002.02008v2 )

ライセンス: Link先を確認
Bryan Lim, Stefan Zohren, Stephen Roberts(参考訳) 資産協調行動の変化を検出することは、歴史的相関関係の崩壊をタイムリーに検出することによるリスク管理のメリットが多数ある金融実践者にとって非常に重要である。 本稿では,アセット共動の一時的な増加を検出するためのリアルタイム指標として,低次元の潜在変数セットを用いてアセットリターンのバスケットをモデル化するオートエンコーダ再構成率を提案する。 ARRは、標準吸収率のPCAアプローチを置き換え、非ガウスリターンのためのより良いモデルを提供するリターンベクトルの次元削減を行うために、ディープスパースデノナイジングオートエンコーダを使用する。 CRSPUS総合市場指数の予測に関するシステム的リスク適用を通じて、低いARR値は高いボラティリティとより大きな下落と一致し、資産共同移動の増加は市場の弱さの期間に対応することを示す。 また, arr入力の追加により, 短期的(すなわち5分および1時間)のボラティリティと市場クラッシュを予測できることを示す。

Detecting changes in asset co-movements is of much importance to financial practitioners, with numerous risk management benefits arising from the timely detection of breakdowns in historical correlations. In this article, we propose a real-time indicator to detect temporary increases in asset co-movements, the Autoencoder Reconstruction Ratio, which measures how well a basket of asset returns can be modelled using a lower-dimensional set of latent variables. The ARR uses a deep sparse denoising autoencoder to perform the dimensionality reduction on the returns vector, which replaces the PCA approach of the standard Absorption Ratio, and provides a better model for non-Gaussian returns. Through a systemic risk application on forecasting on the CRSP US Total Market Index, we show that lower ARR values coincide with higher volatility and larger drawdowns, indicating that increased asset co-movement does correspond with periods of market weakness. We also demonstrate that short-term (i.e. 5-min and 1-hour) predictors for realised volatility and market crashes can be improved by including additional ARR inputs.
翻訳日:2023-01-07 12:48:21 公開日:2020-09-27
# 物体凝縮:物理検出器、グラフ、画像データにおける一段階グリッドフリー多物体再構成

Object condensation: one-stage grid-free multi-object reconstruction in physics detectors, graph and image data ( http://arxiv.org/abs/2002.03605v3 )

ライセンス: Link先を確認
Jan Kieseler(参考訳) 高エネルギー物理検出器、画像、点雲は、物体検出の点で多くの類似点を共有している。 しかし、画像中の未知数の物体を検出することはコンピュータビジョンにおいて十分に確立されているが、粒子物理学における機械学習支援物体再構成アルゴリズムでさえ、物体ごとの特性をほぼ完全に予測している。 コンピュータビジョンからの伝統的なアプローチは、オブジェクトのサイズや密度に暗黙の制約を課し、スパース検出器データにはあまり適さないか、あるいは密度が高く固いオブジェクトに依存している。 ここで提案するオブジェクト凝縮法は,オブジェクトサイズやソート,あるいはオブジェクト密度の仮定とは無関係に,さらにグラフや点雲などの非イメージ的なデータ構造に一般化し,検出信号の表現に適している。 ピクセルや頂点自体がオブジェクト全体の表現として機能し、潜在空間における学習可能な局所クラスタリングと信頼性割り当ての組み合わせにより、予測されたオブジェクトプロパティの凝縮を単純なアルゴリズムで収集することができる。 概念実証として,物体凝縮法を画像の単純な対象分類問題に適用し,検出器信号から複数の粒子を再構成する。 後者の結果は古典的な粒子流アプローチと比較される。

High-energy physics detectors, images, and point clouds share many similarities in terms of object detection. However, while detecting an unknown number of objects in an image is well established in computer vision, even machine learning assisted object reconstruction algorithms in particle physics almost exclusively predict properties on an object-by-object basis. Traditional approaches from computer vision either impose implicit constraints on the object size or density and are not well suited for sparse detector data or rely on objects being dense and solid. The object condensation method proposed here is independent of assumptions on object size, sorting or object density, and further generalises to non-image-like data structures, such as graphs and point clouds, which are more suitable to represent detector signals. The pixels or vertices themselves serve as representations of the entire object, and a combination of learnable local clustering in a latent space and confidence assignment allows one to collect condensates of the predicted object properties with a simple algorithm. As proof of concept, the object condensation method is applied to a simple object classification problem in images and used to reconstruct multiple particles from detector signals. The latter results are also compared to a classic particle flow approach.
翻訳日:2023-01-02 09:48:42 公開日:2020-09-27
# 3次元医用画像における部分内因性・外因性対称性の探索

Exploring Partial Intrinsic and Extrinsic Symmetry in 3D Medical Imaging ( http://arxiv.org/abs/2003.02294v2 )

ライセンス: Link先を確認
Javad Fotouhi, Giacomo Taylor, Mathias Unberath, Alex Johnson, Sing Chun Lee, Greg Osgood, Mehran Armand, Nassir Navab(参考訳) ヒト解剖学のCTにおける不完全な左右対称を検出するための新しい手法を提案する。 本稿では,骨盤骨の構造的対称性について検討し,外傷性骨折患者の片側骨折に対する介入画像増強法について検討した。 この解の数学的基礎は、内在的および外在的対称性の性質を満たし、外れ値に対して頑健な特性と特性を組み込んだものである。 最初のステップでは、CTデータ上に定義されたM\"obius空間において、固有の対称性を満たす特徴点を自動的に検出する。 これらの特徴は2段階のRANSACを介して切断され、外部対称性も満たす対応が得られる。 次に、テューキーの2重ロバスト推定器に基づく不一致関数を導入し、最大対側類似性をもたらす対称性平面パラメトリゼーションを識別するために最小化する。 最後に、骨密度ヒストグラムと部分対称性平面との類似性を高めるために、新しい正規化用語を導入し、損傷しても骨片が体内に残るという重要な生物学的観察に基づいて、骨密度ヒストグラムの類似性を高める。 本研究は, 各種骨折症例に対する広範囲な評価により, 新規な概念の妥当性と提案手法の堅牢性, 精度を実証するものである。

We present a novel methodology to detect imperfect bilateral symmetry in CT of human anatomy. In this paper, the structurally symmetric nature of the pelvic bone is explored and is used to provide interventional image augmentation for treatment of unilateral fractures in patients with traumatic injuries. The mathematical basis of our solution is on the incorporation of attributes and characteristics that satisfy the properties of intrinsic and extrinsic symmetry and are robust to outliers. In the first step, feature points that satisfy intrinsic symmetry are automatically detected in the M\"obius space defined on the CT data. These features are then pruned via a two-stage RANSAC to attain correspondences that satisfy also the extrinsic symmetry. Then, a disparity function based on Tukey's biweight robust estimator is introduced and minimized to identify a symmetry plane parametrization that yields maximum contralateral similarity. Finally, a novel regularization term is introduced to enhance similarity between bone density histograms across the partial symmetry plane, relying on the important biological observation that, even if injured, the dislocated bone segments remain within the body. Our extensive evaluations on various cases of common fracture types demonstrate the validity of the novel concepts and the robustness and accuracy of the proposed method.
翻訳日:2022-12-26 13:17:14 公開日:2020-09-27
# 微分プライベート確率勾配降下によるモデル精度への影響の除去

Removing Disparate Impact of Differentially Private Stochastic Gradient Descent on Model Accuracy ( http://arxiv.org/abs/2003.03699v2 )

ライセンス: Link先を確認
Depeng Xu, Wei Du and Xintao Wu(参考訳) 機械学習において差分プライバシを強制する場合、ユーティリティプライバシのトレードオフは各グループごとに異なります。 グラディエントクリッピングとランダムノイズ付加は、過度に表現され複雑なクラスやサブグループに影響を及ぼし、ユーティリティー損失の不平等をもたらす。 本研究では、差分プライバシーによるユーティリティ損失の不平等を分析し、DPSGD-Fと呼ばれる差分個人確率勾配勾配(DPSGD)を修正し、保護されたグループに対する差分プライバシーの潜在的な異なる影響を除去する。 DPSGD-Fは、グループクリッピングバイアスに応じてグループ内のサンプルのコントリビューションを調整する。 実験により, dpsgdにおける差分プライバシーの影響に対するグループサンプルサイズとグループクリッピングバイアスの影響と, dpsgd-fにおけるディファレンシャルプライバシに起因する異なる影響を, それぞれのグループに対する適応クリッピングが軽減することを示す。

When we enforce differential privacy in machine learning, the utility-privacy trade-off is different w.r.t. each group. Gradient clipping and random noise addition disproportionately affect underrepresented and complex classes and subgroups, which results in inequality in utility loss. In this work, we analyze the inequality in utility loss by differential privacy and propose a modified differentially private stochastic gradient descent (DPSGD), called DPSGD-F, to remove the potential disparate impact of differential privacy on the protected group. DPSGD-F adjusts the contribution of samples in a group depending on the group clipping bias such that differential privacy has no disparate impact on group utility. Our experimental evaluation shows how group sample size and group clipping bias affect the impact of differential privacy in DPSGD, and how adaptive clipping for each group helps to mitigate the disparate impact caused by differential privacy in DPSGD-F.
翻訳日:2022-12-25 14:06:46 公開日:2020-09-27
# AI4COVID-19:アプリのサンプルから新型コロナウイルスの予備診断を可能にするAI

AI4COVID-19: AI Enabled Preliminary Diagnosis for COVID-19 from Cough Samples via an App ( http://arxiv.org/abs/2004.01275v6 )

ライセンス: Link先を確認
Ali Imran, Iryna Posokhova, Haneya N. Qureshi, Usama Masood, Muhammad Sajid Riaz, Kamran Ali, Charles N. John, MD Iftikhar Hussain, Muhammad Nabeel(参考訳) 背景: 大規模にテストできないことが、新型コロナウイルス(covid-19)パンデミックに対する進行中の戦争において、人類のアキレス腱となった。 スケーラブルなスクリーニングツールはゲームチェンジャーになるだろう。 従来の呼吸器疾患の診断に関する研究に基づいて,スマートフォンアプリを通じてデプロイ可能なai(ai)による新型コロナウイルス感染スクリーニングソリューションを提案,開発,テストする。 AI4COVID-19と名付けられたこのアプリは、クラウド上で動くAIエンジンに3、3秒間音を録音し、2分以内に結果を返す。 方法: 30以上の非covid-19関連疾患の症状である。 これにより、新型コロナウイルス感染症の診断は、非常に困難な複数の学際的な問題である。 我々は,他の呼吸器感染症と比較して,COVID-19感染による呼吸器系の病理形態学的変化の明瞭さを調査することによって,この問題に対処する。 新型コロナウイルスの訓練データ不足を克服するために、移行学習を活用します。 この問題の複雑な次元から生じる誤診リスクを低減するために,我々は,マルチプロジェクタ中心のリスク・アバースAIアーキテクチャを活用する。 結果:ai4covid-19はcovid-19と非covid-19のいくつかのタイプを区別できることが示された。 この精度は、AI4COVID-19の一般化能力を評価するためにラベル付きコーグデータの大規模な収集を奨励するのに十分である。 AI4COVID-19は臨床レベルの検査ツールではない。 代わりに、いつでも、どこでも、誰でもデプロイできるスクリーニングツールを提供する。 また、最も必要な人に臨床検査と治療を伝え、より多くの命を救える臨床判断支援ツールにもなり得る。

Background: The inability to test at scale has become humanity's Achille's heel in the ongoing war against the COVID-19 pandemic. A scalable screening tool would be a game changer. Building on the prior work on cough-based diagnosis of respiratory diseases, we propose, develop and test an Artificial Intelligence (AI)-powered screening solution for COVID-19 infection that is deployable via a smartphone app. The app, named AI4COVID-19 records and sends three 3-second cough sounds to an AI engine running in the cloud, and returns a result within two minutes. Methods: Cough is a symptom of over thirty non-COVID-19 related medical conditions. This makes the diagnosis of a COVID-19 infection by cough alone an extremely challenging multidisciplinary problem. We address this problem by investigating the distinctness of pathomorphological alterations in the respiratory system induced by COVID-19 infection when compared to other respiratory infections. To overcome the COVID-19 cough training data shortage we exploit transfer learning. To reduce the misdiagnosis risk stemming from the complex dimensionality of the problem, we leverage a multi-pronged mediator centered risk-averse AI architecture. Results: Results show AI4COVID-19 can distinguish among COVID-19 coughs and several types of non-COVID-19 coughs. The accuracy is promising enough to encourage a large-scale collection of labeled cough data to gauge the generalization capability of AI4COVID-19. AI4COVID-19 is not a clinical grade testing tool. Instead, it offers a screening tool deployable anytime, anywhere, by anyone. It can also be a clinical decision assistance tool used to channel clinical-testing and treatment to those who need it the most, thereby saving more lives.
翻訳日:2022-12-17 10:13:31 公開日:2020-09-27
# ディープラーニングを用いた時系列予測:調査

Time Series Forecasting With Deep Learning: A Survey ( http://arxiv.org/abs/2004.13408v2 )

ライセンス: Link先を確認
Bryan Lim and Stefan Zohren(参考訳) さまざまなドメインにわたる時系列データセットの多様性に対応するために、多くのディープラーニングアーキテクチャが開発されている。 本稿では,ワンステップ・アヘッドとマルチホリゾン・時系列予測の両方で使用される共通エンコーダとデコーダの設計について,各モデルによる予測に時間情報がどのように組み込まれているかを記述する。 次に、よく研究された統計モデルとニューラルネットワークコンポーネントを組み合わせて、どちらのカテゴリにおいても純粋な手法を改善するハイブリッドディープラーニングモデルの開発について述べる。 最後に,時系列データを用いた意思決定支援を深層学習が促進する方法について概説する。

Numerous deep learning architectures have been developed to accommodate the diversity of time series datasets across different domains. In this article, we survey common encoder and decoder designs used in both one-step-ahead and multi-horizon time series forecasting -- describing how temporal information is incorporated into predictions by each model. Next, we highlight recent developments in hybrid deep learning models, which combine well-studied statistical models with neural network components to improve pure methods in either category. Lastly, we outline some ways in which deep learning can also facilitate decision support with time series data.
翻訳日:2022-12-08 22:26:17 公開日:2020-09-27
# POINTER: 挿入ベース生成事前学習による制約付きプログレッシブテキスト生成

POINTER: Constrained Progressive Text Generation via Insertion-based Generative Pre-training ( http://arxiv.org/abs/2005.00558v2 )

ライセンス: Link先を確認
Yizhe Zhang, Guoyin Wang, Chunyuan Li, Zhe Gan, Chris Brockett, Bill Dolan(参考訳) BERT や GPT-2 のような大規模事前学習型言語モデルは、言語表現学習や自由形式のテキスト生成において優れた性能を発揮している。 しかし、これらのモデルは特定の語彙制約の下でテキストを生成するために直接利用することはできない。 そこで本研究では,ハードコンストレートテキスト生成のための簡易かつ新規な挿入ベースアプローチであるpointer (progressive insert-based transformer)を提案する。 提案手法は,既存のトークン間で並列に新たなトークンを段階的に挿入することで動作する。 この手順はシーケンスが完了するまで再帰的に適用される。 その結果、粗大な階層構造が生成プロセスを直感的で解釈可能である。 12GBのウィキペディアデータセットでプログレッシブインサートベースを目標に事前トレーニングを行い、下流のハードコントラスト生成タスクで微調整する。 非自己回帰復号法は、推論時間の間に経験的な対数時間複雑性をもたらす。 NewsとYelpのデータセットによる実験結果から、POINTERは制約付きテキスト生成における最先端のパフォーマンスを達成することが示された。 我々は、将来の研究を促進するために事前訓練されたモデルとソースコードをリリースした(https://github.com/dreasysnail/POINTER)。

Large-scale pre-trained language models, such as BERT and GPT-2, have achieved excellent performance in language representation learning and free-form text generation. However, these models cannot be directly employed to generate text under specified lexical constraints. To address this challenge, we present POINTER (PrOgressive INsertion-based TransformER), a simple yet novel insertion-based approach for hard-constrained text generation. The proposed method operates by progressively inserting new tokens between existing tokens in a parallel manner. This procedure is recursively applied until a sequence is completed. The resulting coarse-to-fine hierarchy makes the generation process intuitive and interpretable. We pre-train our model with the proposed progressive insertion-based objective on a 12GB Wikipedia dataset, and fine-tune it on downstream hard-constrained generation tasks. Non-autoregressive decoding yields an empirically logarithmic time complexity during inference time. Experimental results on both News and Yelp datasets demonstrate that POINTER achieves state-of-the-art performance on constrained text generation. We released the pre-trained models and the source code to facilitate future research (https://github.com/dreasysnail/POINTER).
翻訳日:2022-12-07 22:34:18 公開日:2020-09-27
# 強化学習による連続空間システムの形式的ポリシー合成

Formal Policy Synthesis for Continuous-Space Systems via Reinforcement Learning ( http://arxiv.org/abs/2005.01319v2 )

ライセンス: Link先を確認
Milad Kazemi and Sadegh Soudjani(参考訳) 本稿では,連続状態空間を持つ未知確率過程における時間特性の満足度について検討する。 本稿では、確率過程の経路のみを用いて有限メモリで決定論的な計算ポリシーに対して強化学習(RL)を適用する方法を示す。 線形時間論理(LTL)で表現された特性に対処し、そのオートマトン表現を用いて、RLアルゴリズムにより最大化された経路依存報酬関数を与える。 我々は,学習した政策を連続状態空間の最適政策に収束させるために必要な仮定と理論を開発する。 構築されたスパース報酬関数の学習性能を向上させるために,LTL仕様の正の正規形式から得られたラベル付け関数のシーケンスに基づく逐次学習手法を提案する。 我々はこの手順を用いて、RLアルゴリズムをプロセス上の適切な仮定の下で最適なポリシーに収束するポリシーへ導く。 本研究では,4次元のカートポールシステムと6次元のボート運転問題に対するアプローチを示す。

This paper studies satisfaction of temporal properties on unknown stochastic processes that have continuous state spaces. We show how reinforcement learning (RL) can be applied for computing policies that are finite-memory and deterministic using only the paths of the stochastic process. We address properties expressed in linear temporal logic (LTL) and use their automaton representation to give a path-dependent reward function maximised via the RL algorithm. We develop the required assumptions and theories for the convergence of the learned policy to the optimal policy in the continuous state space. To improve the performance of the learning on the constructed sparse reward function, we propose a sequential learning procedure based on a sequence of labelling functions obtained from the positive normal form of the LTL specification. We use this procedure to guide the RL algorithm towards a policy that converges to an optimal policy under suitable assumptions on the process. We demonstrate the approach on a 4-dim cart-pole system and 6-dim boat driving problem.
翻訳日:2022-12-07 01:41:30 公開日:2020-09-27
# GOBO:低レイテンシ・エネルギー効率推論のための注意に基づくNLPモデルの定量化

GOBO: Quantizing Attention-Based NLP Models for Low Latency and Energy Efficient Inference ( http://arxiv.org/abs/2005.03842v2 )

ライセンス: Link先を確認
Ali Hadi Zadeh, Isak Edo, Omar Mohamed Awad, and Andreas Moshovos(参考訳) 注意に基づくモデルは、様々な自然言語理解タスクで顕著な成功を示している。 しかし、効率的な実行は、膨大な数のパラメータのためにメモリバウンドであるこれらのモデルにとって依然として課題である。 GOBOは,最先端のBERTモデルの32ビット浮動小数点パラメータの大部分(典型的には99.9%)を,精度を維持しながら3ビットに圧縮するモデル量子化手法である。 他の量子化法とは異なり、GOBOは量子化誤差を補うために微調整や再訓練を必要としない。 我々は,goboの実用的ハードウェア応用を2つ紹介する。 最初のgoboでは、メモリストレージとトラフィックを削減し、結果として遅延とエネルギー消費を推論する。 このGOBOメモリ圧縮機構は多くのアーキテクチャとプラグイン互換であり、TPU、Eyeris、Tensor Coresライクなユニットを使ったアーキテクチャでそれを実証する。 次に,計算量を削減するハードウェアアーキテクチャを提案する。 GOBOアーキテクチャは計算時でも3bの重みのほとんどを維持でき、(1)処理要素を面積効率よくし、単位面積当たりの計算パワーを増やせるようにし、(2)ほとんどの乗算累積を加算で置き換え、(3)オンチップメモリ容量を増幅することでオフチップトラフィックを減らすという特性を持つ。

Attention-based models have demonstrated remarkable success in various natural language understanding tasks. However, efficient execution remains a challenge for these models which are memory-bound due to their massive number of parameters. We present GOBO, a model quantization technique that compresses the vast majority (typically 99.9%) of the 32-bit floating-point parameters of state-of-the-art BERT models and their variants to 3 bits while maintaining their accuracy. Unlike other quantization methods, GOBO does not require fine-tuning nor retraining to compensate for the quantization error. We present two practical hardware applications of GOBO. In the first GOBO reduces memory storage and traffic and as a result inference latency and energy consumption. This GOBO memory compression mechanism is plug-in compatible with many architectures; we demonstrate it with the TPU, Eyeriss, and an architecture using Tensor Cores-like units. Second, we present a co-designed hardware architecture that also reduces computation. Uniquely, the GOBO architecture maintains most of the weights in 3b even during computation, a property that: (1) makes the processing elements area efficient, allowing us to pack more compute power per unit area, (2) replaces most multiply-accumulations with additions, and (3) reduces the off-chip traffic by amplifying on-chip memory capacity.
翻訳日:2022-12-05 12:07:37 公開日:2020-09-27
# データ駆動型ロバスト制御におけるデータ圧縮の最適トランスポートパラダイム

The optimal transport paradigm enables data compression in data-driven robust control ( http://arxiv.org/abs/2005.09393v2 )

ライセンス: Link先を確認
Filippo Fabiani, Paul J. Goulart(参考訳) 最近Coulsonらによって考案された不確実な線形時間不変システムのための新しいデータ対応制御技術は、大規模なデータセットから引き出された入出力対に対するコントローラの直接最適化に基づいている。 我々は,このような大規模データセットをより小さな代表行動の合成データセットに圧縮する最適な輸送方式を採用し,オンラインで実施するコントローラの計算負担を軽減することを目的とする。 具体的には、原データと圧縮データの両方に支持される原子分布間のワッサースタイン距離を最小にすることで合成データを決定する。 圧縮データを用いて計算された分布的ロバストな制御法は、計算が容易で十分な量で設定された曖昧さを増大させる価格で、元のデータセットと同じ性能保証を享受できることを示す。 数値シミュレーションにより, 合成データによる制御性能は, 元のデータと同等であるが, 計算量が少なくなることを確認した。

A new data-enabled control technique for uncertain linear time-invariant systems, recently conceived by Coulson et\ al., builds upon the direct optimization of controllers over input/output pairs drawn from a large dataset. We adopt an optimal transport-based method for compressing such large dataset to a smaller synthetic dataset of representative behaviours, aiming to alleviate the computational burden of controllers to be implemented online. Specifically, the synthetic data are determined by minimizing the Wasserstein distance between atomic distributions supported on both the original dataset and the compressed one. We show that a distributionally robust control law computed using the compressed data enjoys the same type of performance guarantees as the original dataset, at the price of enlarging the ambiguity set by an easily computable and well-behaved quantity. Numerical simulations confirm that the control performance with the synthetic data is comparable to the one obtained with the original data, but with significantly less computation required.
翻訳日:2022-12-01 14:50:59 公開日:2020-09-27
# リプレイスプーフィングアウェアテキスト非依存話者照合の統合化

Integrated Replay Spoofing-aware Text-independent Speaker Verification ( http://arxiv.org/abs/2006.05599v2 )

ライセンス: Link先を確認
Hye-jin Shim, Jee-weon Jung, Ju-ho Kim, Seung-bin Kim, Ha-Jin Yu(参考訳) 多くの研究が話者検証やプレゼンテーション攻撃検知システムの開発に成功している。 しかし、2つのタスクを統合する研究は、まだ初期段階にある。 本稿では,エンドツーエンドモノリシックアプローチとバックエンドモジュールアプローチという,話者検証とプレゼンテーション攻撃検出の統合システムを構築するための2つのアプローチを提案する。 第1のアプローチは,共通特徴を用いたマルチタスク学習を用いた話者識別,提示攻撃検出,統合システムの同時学習である。 しかし,話者認証システムは,話者埋め込みからデバイス固有の情報を除去しようとするが,プレゼンテーションアタック検出システムはそのような情報を利用するため,実験により,話者検証とプレゼンテーションアタック検出に必要な情報が異なる可能性があると仮定した。 そこで本研究では,話者照合とプレゼンテーションアタック検出にdnn(dispartment deep neural network)を用いたバックエンドモジュール方式を提案する。 このアプローチには2つの話者埋め込み(それぞれ登録とテスト)とプレゼンテーションアタックの予測という入力コンポーネントがある。 ASVspoof 2017-v2データセットを使用して、話者検証とプレゼンテーションアタック検出の統合に関する公式トライアルを含む実験が行われている。 提案したバックエンドアプローチは、従来の話者検証システムと比較して、統合試行において等しい誤差率で21.77%の相対的な改善を示す。

A number of studies have successfully developed speaker verification or presentation attack detection systems. However, studies integrating the two tasks remain in the preliminary stages. In this paper, we propose two approaches for building an integrated system of speaker verification and presentation attack detection: an end-to-end monolithic approach and a back-end modular approach. The first approach simultaneously trains speaker identification, presentation attack detection, and the integrated system using multi-task learning using a common feature. However, through experiments, we hypothesize that the information required for performing speaker verification and presentation attack detection might differ because speaker verification systems try to remove device-specific information from speaker embeddings, while presentation attack detection systems exploit such information. Therefore, we propose a back-end modular approach using a separate deep neural network (DNN) for speaker verification and presentation attack detection. This approach has thee input components: two speaker embeddings (for enrollment and test each) and prediction of presentation attacks. Experiments are conducted using the ASVspoof 2017-v2 dataset, which includes official trials on the integration of speaker verification and presentation attack detection. The proposed back-end approach demonstrates a relative improvement of 21.77% in terms of the equal error rate for integrated trials compared to a conventional speaker verification system.
翻訳日:2022-11-23 06:36:21 公開日:2020-09-27
# 連続的bert:covid-19文献の適応的抽出要約のための連続学習

Continual BERT: Continual Learning for Adaptive Extractive Summarization of COVID-19 Literature ( http://arxiv.org/abs/2007.03405v2 )

ライセンス: Link先を確認
Jong Won Park(参考訳) 科学界は毎日、新型コロナウイルスに関する膨大な量の新たな研究を公表し続けており、多くの文献が注目されることなく出版されている。 新型コロナウイルスの文献の急激な流れを理解する上で,コミュニティの助けとなるため,長文の簡潔かつ独創的な要約を提供する新しいBERTアーキテクチャを提案する。 モデルは、破滅的な忘れを最小化しながら、オンライン形式で新しいデータを継続的に学習し、コミュニティのニーズに適合する。 ベンチマークと手動による性能評価の結果,新たな科学的文献の要約が得られた。

The scientific community continues to publish an overwhelming amount of new research related to COVID-19 on a daily basis, leading to much literature without little to no attention. To aid the community in understanding the rapidly flowing array of COVID-19 literature, we propose a novel BERT architecture that provides a brief yet original summarization of lengthy papers. The model continually learns on new data in online fashion while minimizing catastrophic forgetting, thus fitting to the need of the community. Benchmark and manual examination of its performance show that the model provide a sound summary of new scientific literature.
翻訳日:2022-11-12 18:38:45 公開日:2020-09-27
# 回帰検出型バイナレッジ・トランスファーによる教師なし群数化に向けて

Towards Unsupervised Crowd Counting via Regression-Detection Bi-knowledge Transfer ( http://arxiv.org/abs/2008.05383v2 )

ライセンス: Link先を確認
Yuting Liu, Zheng Wang, Miaojing Shi, Shin'ichi Satoh, Qijun Zhao, Hongyu Yang(参考訳) 無監督の群集カウントは難しいが、ほとんど検討されていない課題である。 本稿では,ラベル付きソースセット内の回帰モデルと検出ベースモデルから学習したバイ知識を移譲することで,ラベル付きターゲットセット内の人物を検出・カウントするトランスファー学習環境においてこれを探索する。 2つのモデルの二重情報源知識は、群集分布の異なるモダリティを捉えるため、異質で相補的である。 回帰モデルと検出モデルの間の相互変換をシーンに依存しない2つのトランスフォーマーとして定式化し、2つのモデル間の知識蒸留を可能にする。 回帰および検出に基づくモデルとそれらの相互トランスフォーマーがソースで学習されたことを考慮し,回帰検出二知識伝達を目標とする反復的自己教師付き学習方式を提案する。 標準群集計数ベンチマーク, 上海技術, ucf\_cc\_50, ucf\_qnrf の広範な実験により, トランスファー学習環境における他の最先端技術と比較して, 本手法の大幅な改善が示された。

Unsupervised crowd counting is a challenging yet not largely explored task. In this paper, we explore it in a transfer learning setting where we learn to detect and count persons in an unlabeled target set by transferring bi-knowledge learnt from regression- and detection-based models in a labeled source set. The dual source knowledge of the two models is heterogeneous and complementary as they capture different modalities of the crowd distribution. We formulate the mutual transformations between the outputs of regression- and detection-based models as two scene-agnostic transformers which enable knowledge distillation between the two models. Given the regression- and detection-based models and their mutual transformers learnt in the source, we introduce an iterative self-supervised learning scheme with regression-detection bi-knowledge transfer in the target. Extensive experiments on standard crowd counting benchmarks, ShanghaiTech, UCF\_CC\_50, and UCF\_QNRF demonstrate a substantial improvement of our method over other state-of-the-arts in the transfer learning setting.
翻訳日:2022-10-31 05:31:15 公開日:2020-09-27
# 新生児白質皮質表面を用いた経年変化予測のための幾何学的深層学習

Geometric Deep Learning for Post-Menstrual Age Prediction based on the Neonatal White Matter Cortical Surface ( http://arxiv.org/abs/2008.06098v2 )

ライセンス: Link先を確認
Vitalis Vosylius, Andy Wang, Cemlyn Waters, Alexey Zakharov, Francis Ward, Loic Le Folgoc, John Cupitt, Antonios Makropoulos, Andreas Schuh, Daniel Rueckert, Amir Alansary(参考訳) 新生児期の正確な年齢推定は、神経発達、医学、成長の成果を測定するのに不可欠である。 本稿では,新生児白質皮質表面に基づく幾何学的深層学習の手法を用いて,scanにおける月経後年齢(pa)を予測する新しい手法を提案する。 我々は、皮質表面の幾何学的表現を用いて年齢を予測する複数の特殊なニューラルネットワークアーキテクチャを利用、比較し、MeshCNN、Pointnet++、GraphCNN、ボリュームベンチマークを比較した。 このデータセットは、開発ヒトコネクトームプロジェクト(dHCP)の一部であり、健康で未熟な新生児のコホートである。 27週から45週のpa患者を対象に, 650名 (727名) を対象にアプローチを評価した。 その結果,平均誤差は1週間未満と推定されたPAの正確な予測が得られた。

Accurate estimation of the age in neonates is essential for measuring neurodevelopmental, medical, and growth outcomes. In this paper, we propose a novel approach to predict the post-menstrual age (PA) at scan, using techniques from geometric deep learning, based on the neonatal white matter cortical surface. We utilize and compare multiple specialized neural network architectures that predict the age using different geometric representations of the cortical surface; we compare MeshCNN, Pointnet++, GraphCNN, and a volumetric benchmark. The dataset is part of the Developing Human Connectome Project (dHCP), and is a cohort of healthy and premature neonates. We evaluate our approach on 650 subjects (727scans) with PA ranging from 27 to 45 weeks. Our results show accurate prediction of the estimated PA, with mean error less than one week.
翻訳日:2022-10-30 23:48:08 公開日:2020-09-27
# 脳画像におけるランドマーク検出のためのコミュニケーション強化学習エージェント

Communicative Reinforcement Learning Agents for Landmark Detection in Brain Images ( http://arxiv.org/abs/2008.08055v2 )

ライセンス: Link先を確認
Guy Leroy, Daniel Rueckert, and Amir Alansary(参考訳) 解剖学的ランドマークの正確な検出は、いくつかの医療画像タスクにおいて重要なステップである。 本稿では,3次元脳画像のランドマークを自動的に検出する新しいコミュニケーティブマルチエージェント強化学習システムを提案する。 C-MARLは、すべてのエージェント間でアーキテクチャの特定の重みを共有することによって、明示的な通信チャネルや暗黙的な通信信号を学ぶことができる。 提案手法は成人MRIと胎児超音波による2つの脳画像データセットを用いて評価した。 実験の結果,複数エージェントの相互通信を学習することで,複数エージェントの連携が従来の手法よりも優れていることがわかった。

Accurate detection of anatomical landmarks is an essential step in several medical imaging tasks. We propose a novel communicative multi-agent reinforcement learning (C-MARL) system to automatically detect landmarks in 3D brain images. C-MARL enables the agents to learn explicit communication channels, as well as implicit communication signals by sharing certain weights of the architecture among all the agents. The proposed approach is evaluated on two brain imaging datasets from adult magnetic resonance imaging (MRI) and fetal ultrasound scans. Our experiments show that involving multiple cooperating agents by learning their communication with each other outperforms previous approaches using single agents.
翻訳日:2022-10-27 21:48:21 公開日:2020-09-27
# 特徴空間における認識指向虹彩画像品質評価

Recognition Oriented Iris Image Quality Assessment in the Feature Space ( http://arxiv.org/abs/2009.00294v2 )

ライセンス: Link先を確認
Leyuan Wang, Kunbo Zhang, Min Ren, Yunlong Wang, Zhenan Sun(参考訳) 実世界のシナリオで撮影された虹彩画像の大部分は、制御不能な環境と非協力的な対象のため品質が悪い。 認識アルゴリズムが低品質の画像に影響されないようにするため、従来の手作りの要因に基づく手法では、ほとんどの画像を破棄し、システムのタイムアウトやユーザエクスペリエンスの破壊を引き起こす。 本稿では,アイリス画像の認識指向品質指標と評価手法を提案する。 本手法は,特徴空間(DFS)における虹彩画像埋め込み距離を品質指標とし,注目機構を備えたディープニューラルネットワークに基づく予測を行う。 本稿では,手作りの要因に基づく虹彩品質評価法よりも有利な,認識のために捨てられた画像の数を削減しつつ,認識アルゴリズムの性能を著しく向上させることができる。 画像品質分布と同一認識アルゴリズムにおける品質評価アルゴリズムの性能を評価するために, 画像退避率 (IRR) と等誤差率 (EER) の関係について検討した。 提案手法は,手作りの因子に基づく手法と比較し,画質評価と生体認証のギャップを橋渡しする試みである。 コードはhttps://github.com/debatrix/dfsnetで入手できる。

A large portion of iris images captured in real world scenarios are poor quality due to the uncontrolled environment and the non-cooperative subject. To ensure that the recognition algorithm is not affected by low-quality images, traditional hand-crafted factors based methods discard most images, which will cause system timeout and disrupt user experience. In this paper, we propose a recognition-oriented quality metric and assessment method for iris image to deal with the problem. The method regards the iris image embeddings Distance in Feature Space (DFS) as the quality metric and the prediction is based on deep neural networks with the attention mechanism. The quality metric proposed in this paper can significantly improve the performance of the recognition algorithm while reducing the number of images discarded for recognition, which is advantageous over hand-crafted factors based iris quality assessment methods. The relationship between Image Rejection Rate (IRR) and Equal Error Rate (EER) is proposed to evaluate the performance of the quality assessment algorithm under the same image quality distribution and the same recognition algorithm. Compared with hand-crafted factors based methods, the proposed method is a trial to bridge the gap between the image quality assessment and biometric recognition. The code is available at https://github.com/Debatrix/DFSNet.
翻訳日:2022-10-23 01:44:37 公開日:2020-09-27
# MALCOM:悪意のあるコメントを生成してニューラルフェイクニュース検出モデルを攻撃する

MALCOM: Generating Malicious Comments to Attack Neural Fake News Detection Models ( http://arxiv.org/abs/2009.01048v2 )

ライセンス: Link先を確認
Thai Le, Suhang Wang, Dongwon Lee(参考訳) 近年、いわゆる「フェイクニュース」の普及は社会に大きな混乱をもたらし、ニュースエコシステムを弱体化させている。 そこで研究者たちは、高度なデータサイエンスと機械学習技術を用いて、ソーシャルメディア上の偽ニュースを自動的に検出する最先端のモデルを開発した。 そこで,本研究では,「敵がそのような検知モデルに攻撃を仕掛けたらどうするか」を問うとともに,関連する問題を調査する。 一 偽ニュース検知器に対する新たな脅威モデルを提案し、敵は偽ニュース検知器を誤解させるような悪質なコメントをニュース記事に投稿することができる。 (ii)このような攻撃を実現するために、エンドツーエンドの対向コメント生成フレームワークであるmalcomの開発。 包括的評価により、平均的MALCOMの94%と93.5%の時間は、最新のニューラル検出モデルのうち5つを誤解して、常にターゲットのリアルおよびフェイクニュースラベルを出力することに成功した。 さらに、MALCOMはブラックボックスの偽ニュース検知器を騙して、常に実際のニュースラベルを平均90%の時間で出力することができる。 また、攻撃モデルと2つの実世界のデータセットをまたいだ4つのベースラインを比較し、攻撃性能だけでなく、生成した品質、一貫性、転送性、堅牢性についても比較した。

In recent years, the proliferation of so-called "fake news" has caused much disruptions in society and weakened the news ecosystem. Therefore, to mitigate such problems, researchers have developed state-of-the-art models to auto-detect fake news on social media using sophisticated data science and machine learning techniques. In this work, then, we ask "what if adversaries attempt to attack such detection models?" and investigate related issues by (i) proposing a novel threat model against fake news detectors, in which adversaries can post malicious comments toward news articles to mislead fake news detectors, and (ii) developing MALCOM, an end-to-end adversarial comment generation framework to achieve such an attack. Through a comprehensive evaluation, we demonstrate that about 94% and 93.5% of the time on average MALCOM can successfully mislead five of the latest neural detection models to always output targeted real and fake news labels. Furthermore, MALCOM can also fool black box fake news detectors to always output real news labels 90% of the time on average. We also compare our attack model with four baselines across two real-world datasets, not only on attack performance but also on generated quality, coherency, transferability, and robustness.
翻訳日:2022-10-23 00:26:14 公開日:2020-09-27
# 音声再生のための無音音声インタフェース : レビュー

Silent Speech Interfaces for Speech Restoration: A Review ( http://arxiv.org/abs/2009.02110v3 )

ライセンス: Link先を確認
Jose A. Gonzalez-Lopez, Alejandro Gomez-Alanis, Juan M. Mart\'in-Do\~nas, Jos\'e L. P\'erez-C\'ordoba, Angel M. Gomez(参考訳) 本稿では,サイレント音声インタフェース(SSI)研究の現状を概説する。 SSIは、音声生成中に人体が生み出す非音響的生体信号に頼り、通常の言語コミュニケーションが不可能で、望ましくないときに通信を可能にする。 本総説では,重度言語障害児に対する新しい代替手段と拡張的コミュニケーション手段の提供を目的としたssi研究の初回および最新の事例に焦点を当てる。 SSIは、神経活動の電気生理学的記録、声道運動の筋電図(EMG)記録、画像技術を用いた関節運動の直接追跡など、サイレント通信を可能にするために様々なバイオシグナーを使用することができる。 この障害によっては、音声関連情報を捉えるのに他の方法より適しているものも考えられる。 例えば、emgとイメージング技術は喉頭摘出患者によく適しており、声道はほぼ無傷であるが声帯の除去後に話すことができないが、重度に麻痺した患者には不適である。 生体信号から、ssisは意図したメッセージを自動音声認識または音声合成アルゴリズムを用いて復号する。 近年の進歩にもかかわらず、ほとんどのSSIは健康なユーザーのために実験室でのみ検証されている。 そこで本稿で論じているように、SSIが現実のアプリケーションに昇格する前には、今後の研究で多くの課題に取り組む必要がある。 これらの課題にうまく対処できれば、将来のSSIは、コミュニケーション能力の回復により、重度音声障害者の生活を改善できる。

This review summarises the status of silent speech interface (SSI) research. SSIs rely on non-acoustic biosignals generated by the human body during speech production to enable communication whenever normal verbal communication is not possible or not desirable. In this review, we focus on the first case and present latest SSI research aimed at providing new alternative and augmentative communication methods for persons with severe speech disorders. SSIs can employ a variety of biosignals to enable silent communication, such as electrophysiological recordings of neural activity, electromyographic (EMG) recordings of vocal tract movements or the direct tracking of articulator movements using imaging techniques. Depending on the disorder, some sensing techniques may be better suited than others to capture speech-related information. For instance, EMG and imaging techniques are well suited for laryngectomised patients, whose vocal tract remains almost intact but are unable to speak after the removal of the vocal folds, but fail for severely paralysed individuals. From the biosignals, SSIs decode the intended message, using automatic speech recognition or speech synthesis algorithms. Despite considerable advances in recent years, most present-day SSIs have only been validated in laboratory settings for healthy users. Thus, as discussed in this paper, a number of challenges remain to be addressed in future research before SSIs can be promoted to real-world applications. If these issues can be addressed successfully, future SSIs will improve the lives of persons with severe speech impairments by restoring their communication capabilities.
翻訳日:2022-10-22 02:31:42 公開日:2020-09-27
# 音声の音響的・言語的特徴に基づく米国退役軍人の自殺イデオロギー検出のための機械学習アプローチ

A Machine Learning Approach to Detect Suicidal Ideation in US Veterans Based on Acoustic and Linguistic Features of Speech ( http://arxiv.org/abs/2009.09069v2 )

ライセンス: Link先を確認
Vaibhav Sourirajan, Anas Belouali, Mary Ann Dutton, Matthew Reinhard, Jyotishman Pathak(参考訳) 退役軍人の自殺を防ぐことが国家の優先事項である。 アメリカ退役軍人局(VA)は、自殺予防戦略に関する情報を収集し、分析し、公表している。 自殺の考えを検出するための現在のアプローチは、主に不適切で時間を要する患者自己報告に依存している。 本研究の目的は,機械学習(ml)アルゴリズムを用いて,個人の発話の音響的・言語的特徴から自殺イデオレーションを自動検出することであった。 ワシントンD.C. VA医療センターにおける湾岸戦争病に関する大規模な介入調査に登録された獣医の音声データを用いて, 目的達成のための異なるMLアプローチの性能評価を行った。 従来のMLモデルとディープラーニングモデルの両方をデータセットに合わせることで、各機能セットに最も効果的なアルゴリズムを特定しました。 古典的な機械学習アルゴリズムの中で、SVM(Support Vector Machine)は自殺獣医の分類において最も優れた音響特性を訓練した。 深層学習法のうち,言語的特徴を訓練した畳み込みニューラルネットワーク(cnn)が最も優れていた。 本研究は,機械学習パイプラインにおける音声分析が,退役軍人のスーシダリティ検出に有望なアプローチであることを示す。

Preventing Veteran suicide is a national priority. The US Department of Veterans Affairs (VA) collects, analyzes, and publishes data to inform suicide prevention strategies. Current approaches for detecting suicidal ideation mostly rely on patient self report which are inadequate and time consuming. In this research study, our goal was to automate suicidal ideation detection from acoustic and linguistic features of an individual's speech using machine learning (ML) algorithms. Using voice data collected from Veterans enrolled in a large interventional study on Gulf War Illness at the Washington DC VA Medical Center, we conducted an evaluation of the performance of different ML approaches in achieving our objective. By fitting both classical ML and deep learning models to the dataset, we identified the algorithms that were most effective for each feature set. Among classical machine learning algorithms, the Support Vector Machine (SVM) trained on acoustic features performed best in classifying suicidal Veterans. Among deep learning methods, the Convolutional Neural Network (CNN) trained on the linguistic features performed best. Our study shows that speech analysis in a machine learning pipeline is a promising approach for detecting suicidality among Veterans.
翻訳日:2022-10-18 13:18:12 公開日:2020-09-27
# 視覚群数における人間の視線行動に関する研究

A Study of Human Gaze Behavior During Visual Crowd Counting ( http://arxiv.org/abs/2009.06502v2 )

ライセンス: Link先を確認
Raji Annadi, Yupei Chen, Viresh Ranjan, Dimitris Samaras, Gregory Zelinsky, Minh Hoai(参考訳) 本稿では,視覚的群集カウント中に人間がどのように注意を割り当てるかについて述べる。 視線追跡装置を用いて、群集画像中の人の数をカウントする作業を行う人間の視線行動を収集した。 30枚の群集画像から10人の被験者の視線行動を分析し,視覚的計数に共通するアプローチを考察した。 小さな群衆のイメージの場合、このアプローチは、群衆の中のすべての人やグループを列挙することであり、これは、異なる人間の参加者の固定密度マップと高いレベルの類似性を説明する。 大群衆のイメージでは、参加者はイメージの1つのセクションに集中し、そのセクション内の人の数を数え、他のセクションに外挿する傾向があります。 計算精度の面では、現在の最先端のコンピュータアルゴリズムのパフォーマンスと比べて、人間の被験者は計算タスクが得意ではない。 興味深いことに、群衆画像に写っている人の数をカウントする傾向がある。 gazeの動作データと画像はhttps://www3.cs.stonybrook.edu/~minhhoai/projects/crowd_counting_gaze/からダウンロードできる。

In this paper, we describe our study on how humans allocate their attention during visual crowd counting. Using an eye tracker, we collect gaze behavior of human participants who are tasked with counting the number of people in crowd images. Analyzing the collected gaze behavior of ten human participants on thirty crowd images, we observe some common approaches for visual counting. For an image of a small crowd, the approach is to enumerate over all people or groups of people in the crowd, and this explains the high level of similarity between the fixation density maps of different human participants. For an image of a large crowd, our participants tend to focus on one section of the image, count the number of people in that section, and then extrapolate to the other sections. In terms of count accuracy, our human participants are not as good at the counting task, compared to the performance of the current state-of-the-art computer algorithms. Interestingly, there is a tendency to under count the number of people in all crowd images. Gaze behavior data and images can be downloaded from https://www3.cs.stonybrook.edu/~minhhoai/projects/crowd_counting_gaze/.
翻訳日:2022-10-18 12:33:20 公開日:2020-09-27
# ディープニューラルネットワークのための条件付き自動チャネルプルーニング

Conditional Automated Channel Pruning for Deep Neural Networks ( http://arxiv.org/abs/2009.09724v2 )

ライセンス: Link先を確認
Yixin Liu, Yong Guo, Zichang Liu, Haohua Liu, Jingjie Zhang, Zejun Chen, Jing Liu, Jian Chen(参考訳) モデル圧縮は、コンパクトモデルを得るためにディープネットワークの冗長性を減らすことを目的としている。 近年,チャネルプルーニングは資源制約されたデバイスにディープモデルをデプロイする主要な圧縮手法の1つとなっている。 ほとんどのチャネルプルーニング法は、モデルの全層に対して固定圧縮率を用いることが多いが、最適ではない可能性がある。 この問題を解決するために、モデル全体の目標圧縮率を考慮すれば、各層に対して最適な圧縮率を求めることができる。 それにもかかわらず、これらの手法は特定の目標圧縮率に対してチャネルプルーニングを行う。 複数の圧縮率を考慮すると、チャンネルの刈り込みプロセスを何度も繰り返す必要があり、これは非常に非効率だが不要である。 そこで本研究では, 圧縮速度の異なる圧縮モデルを得るための条件自動チャネルプルーニング(CACP)手法を提案する。 この目的のために,任意の圧縮率を入力とし,対応する圧縮モデルを出力する条件モデルを開発した。 実験では, 圧縮率の異なるモデルが, 既存の手法で圧縮されたモデルよりも, 目標圧縮率毎にチャネル刈り込みプロセスで常に優れていた。

Model compression aims to reduce the redundancy of deep networks to obtain compact models. Recently, channel pruning has become one of the predominant compression methods to deploy deep models on resource-constrained devices. Most channel pruning methods often use a fixed compression rate for all the layers of the model, which, however, may not be optimal. To address this issue, given a target compression rate for the whole model, one can search for the optimal compression rate for each layer. Nevertheless, these methods perform channel pruning for a specific target compression rate. When we consider multiple compression rates, they have to repeat the channel pruning process multiple times, which is very inefficient yet unnecessary. To address this issue, we propose a Conditional Automated Channel Pruning(CACP) method to obtain the compressed models with different compression rates through single channel pruning process. To this end, we develop a conditional model that takes an arbitrary compression rate as input and outputs the corresponding compressed model. In the experiments, the resultant models with different compression rates consistently outperform the models compressed by existing methods with a channel pruning process for each target compression rate.
翻訳日:2022-10-16 05:08:32 公開日:2020-09-27
# 低分解能3次元形状完了と高分解能2次元微細化による頭蓋内インプラントの予測

Cranial Implant Prediction using Low-Resolution 3D Shape Completion and High-Resolution 2D Refinement ( http://arxiv.org/abs/2009.10769v3 )

ライセンス: Link先を確認
Amirhossein Bayat, Suprosanna Shit, Adrian Kilian, J\"urgen T. Liechtenstein, Jan S. Kirschke, Bjoern H. Menze(参考訳) 頭蓋骨インプラントの設計には、頭蓋骨の完全な形状を3Dで理解する必要がある。 したがって、2Dモデルでは、欠陥のある頭蓋骨と健康な頭蓋骨の全体像が欠如しているため、2Dアプローチは準最適である。 さらに、通常のgpuでは、元の解像度で3d頭蓋骨の形状全体をロードすることは不可能である。 これらの問題を緩和するため,我々は2つのサブネットワークからなる完全畳み込みネットワークを提案する。 最初のサブネットワークは、ダウンサンプリングされた欠陥頭蓋骨の形状を完成させるために設計されている。 第2のサブネットワークは、再構成された形状をスライス的に増幅する。 3dネットワークと2dネットワークを、階層的損失関数でエンドツーエンドに訓練する。 提案手法は, ディススコアとハウスドルフ距離の観点から, 高分解能3Dインプラントを精度良く予測する。

Designing of a cranial implant needs a 3D understanding of the complete skull shape. Thus, taking a 2D approach is sub-optimal, since a 2D model lacks a holistic 3D view of both the defective and healthy skulls. Further, loading the whole 3D skull shapes at its original image resolution is not feasible in commonly available GPUs. To mitigate these issues, we propose a fully convolutional network composed of two subnetworks. The first subnetwork is designed to complete the shape of the downsampled defective skull. The second subnetwork upsamples the reconstructed shape slice-wise. We train the 3D and 2D networks together end-to-end, with a hierarchical loss function. Our proposed solution accurately predicts a high-resolution 3D implant in the challenge test case in terms of dice-score and the Hausdorff distance.
翻訳日:2022-10-15 23:09:01 公開日:2020-09-27
# CodeBLEU:コード合成の自動評価方法

CodeBLEU: a Method for Automatic Evaluation of Code Synthesis ( http://arxiv.org/abs/2009.10297v2 )

ライセンス: Link先を確認
Shuo Ren, Daya Guo, Shuai Lu, Long Zhou, Shujie Liu, Duyu Tang, Neel Sundaresan, Ming Zhou, Ambrosio Blanco, Shuai Ma(参考訳) 評価指標は、良いモデルと悪いモデルの区別の標準を定義するため、地域の成長において重要な役割を果たす。 コード合成の分野では、一般的に用いられる評価基準はBLEUまたは完全精度であるが、BLEUは元々は自然言語を評価するために設計されており、コードの重要な構文的・意味的特徴を無視しており、完全精度が厳しすぎるため、異なる出力を同じ意味論理で過小評価する。 そこで我々は,CodeBLEUと呼ばれる新しい自動評価指標を導入する。 n-gramマッチングにおけるBLEUの強度を吸収し、抽象構文木(AST)やデータフローによるコードセマンティクスを通じてコード構文を注入する。 コードブレンとプログラマが割り当てた品質スコアの相関係数、すなわち、テキストからコードへの変換、コードリファインメントの3つのコード合成タスクについて評価して実験を行う。 実験の結果,提案するcodebleuはbleuと精度に比較して,プログラマが割り当てたスコアとの相関性が向上することがわかった。

Evaluation metrics play a vital role in the growth of an area as it defines the standard of distinguishing between good and bad models. In the area of code synthesis, the commonly used evaluation metric is BLEU or perfect accuracy, but they are not suitable enough to evaluate codes, because BLEU is originally designed to evaluate the natural language, neglecting important syntactic and semantic features of codes, and perfect accuracy is too strict thus it underestimates different outputs with the same semantic logic. To remedy this, we introduce a new automatic evaluation metric, dubbed CodeBLEU. It absorbs the strength of BLEU in the n-gram match and further injects code syntax via abstract syntax trees (AST) and code semantics via data-flow. We conduct experiments by evaluating the correlation coefficient between CodeBLEU and quality scores assigned by the programmers on three code synthesis tasks, i.e., text-to-code, code translation, and code refinement. Experimental results show that our proposed CodeBLEU can achieve a better correlation with programmer assigned scores compared with BLEU and accuracy.
翻訳日:2022-10-15 22:41:41 公開日:2020-09-27
# AutoRC:アーキテクチャ検索によるBERTに基づく関係分類モデルの改善

AutoRC: Improving BERT Based Relation Classification Models via Architecture Search ( http://arxiv.org/abs/2009.10680v2 )

ライセンス: Link先を確認
Wei Zhu, Xipeng Qiu, Yuan Ni and Guotong Xie(参考訳) BERTに基づく関係分類(RC)モデルは、従来のディープラーニングモデルよりも大幅に改善されているが、最適なアーキテクチャとは何かという点では合意できないようである。 まず、エンティティスパン識別には複数の代替手段がある。 第二に、エンティティとコンテキストの表現を固定長ベクトルに集約するプール操作の集合がある。 第三に、それらの相互作用を含む特徴ベクトルを手動で決定することは、関係型を分類するのに有益である。 本研究では, bertベースrcモデルの包括的探索空間を設計し, ニューラルネットワーク検索 (nas) 手法を用いて, 上述の設計選択を自動的に発見する。 7 つのベンチマーク RC タスクの実験から,提案手法はベースライン BERT ベース RC モデルよりも効率的かつ効果的であることが示された。 アブレーション研究は,探索空間設計の必要性と探索手法の有効性を実証する。

Although BERT based relation classification (RC) models have achieved significant improvements over the traditional deep learning models, it seems that no consensus can be reached on what is the optimal architecture. Firstly, there are multiple alternatives for entity span identification. Second, there are a collection of pooling operations to aggregate the representations of entities and contexts into fixed length vectors. Third, it is difficult to manually decide which feature vectors, including their interactions, are beneficial for classifying the relation types. In this work, we design a comprehensive search space for BERT based RC models and employ neural architecture search (NAS) method to automatically discover the design choices mentioned above. Experiments on seven benchmark RC tasks show that our method is efficient and effective in finding better architectures than the baseline BERT based RC model. Ablation study demonstrates the necessity of our search space design and the effectiveness of our search method.
翻訳日:2022-10-15 22:23:54 公開日:2020-09-27
# イベント駆動スイッチング線形システムの学習

Learning event-driven switched linear systems ( http://arxiv.org/abs/2009.12831v1 )

ライセンス: Link先を確認
Atreyee Kundu and Pavithra Prabhakar(参考訳) 本稿では,スイッチング論理がイベント駆動であるブラックボックススイッチング線形システムの同定のためのオートマトン理論学習アルゴリズムを提案する。 スイッチングシステムは、ノードラベルがサブシステム行列である決定論的有限オートマトン(fa)によって表現される。 行列と事象の集合の次元に関する情報と、2つのオラクルへのアクセスにより、与えられた入力に対してシステムをシミュレートし、誤った仮説オートマトンを与えられたとき、反例を与えることができるので、未知のFAを出力するアルゴリズムを提供する。 提案アルゴリズムはまず,与えられたイベントの入力シーケンス上で実行されるシステムのノードラベルを取得し,次に Angluin の \(L^*\)-algorithm を拡張して,与えられた FA の言語を受け入れる FA を決定する。 ベンチマークの例で学習アルゴリズムの性能を示す。

We propose an automata theoretic learning algorithm for the identification of black-box switched linear systems whose switching logics are event-driven. A switched system is expressed by a deterministic finite automaton (FA) whose node labels are the subsystem matrices. With information about the dimensions of the matrices and the set of events, and with access to two oracles, that can simulate the system on a given input, and provide counter-examples when given an incorrect hypothesis automaton, we provide an algorithm that outputs the unknown FA. Our algorithm first uses the oracle to obtain the node labels of the system run on a given input sequence of events, and then extends Angluin's \(L^*\)-algorithm to determine the FA that accepts the language of the given FA. We demonstrate the performance of our learning algorithm on a set of benchmark examples.
翻訳日:2022-10-14 04:00:33 公開日:2020-09-27
# 同時関連性と多様性:新しい推薦推論アプローチ

Simultaneous Relevance and Diversity: A New Recommendation Inference Approach ( http://arxiv.org/abs/2009.12969v1 )

ライセンス: Link先を確認
Yifang Liu, Zhentao Xu, Qiyuan An, Yang Yi, Yanzhi Wang, Trevor Hastie(参考訳) 関連性と多様性は、ユーザーが大量のアイテムのプールから興味深いだけでなく探索的な候補のコンパクトな集合を見つけるのを助けるため、レコメンダシステムの成功にとって重要である。 課題は、関連性と多様性が通常、従来のレコメンデーションシステムにおいて2つの競合する目標として機能することであり、それは、搾取と探検の間の古典的なトレードオフを必要とする。 伝統的に、より高い多様性はしばしば関連性の犠牲を意味し、その逆である。 本稿では, 一般協調フィルタリング(general collaborative filtering, cf)を拡張する新しい手法として, 負対正のcf推論法を提案する。 不均質な推論は、1つのレコメンデーションモデルにおいて、関連性と多様性が互いに2つの目標として支持し、レコメンデーションの多様性がレコメンデーション推論プロセスの本質的な結果である。 その簡潔さと柔軟性から、我々のアプローチは様々な高度なレベルの推奨シナリオ/ユースケースに適用できる。 公開データセットと実世界の生産データに関する分析と実験により、我々のアプローチは、関連性および多様性に関する既存の手法を同時に上回ることを示した。

Relevance and diversity are both important to the success of recommender systems, as they help users to discover from a large pool of items a compact set of candidates that are not only interesting but exploratory as well. The challenge is that relevance and diversity usually act as two competing objectives in conventional recommender systems, which necessities the classic trade-off between exploitation and exploration. Traditionally, higher diversity often means sacrifice on relevance and vice versa. We propose a new approach, heterogeneous inference, which extends the general collaborative filtering (CF) by introducing a new way of CF inference, negative-to-positive. Heterogeneous inference achieves divergent relevance, where relevance and diversity support each other as two collaborating objectives in one recommendation model, and where recommendation diversity is an inherent outcome of the relevance inference process. Benefiting from its succinctness and flexibility, our approach is applicable to a wide range of recommendation scenarios/use-cases at various sophistication levels. Our analysis and experiments on public datasets and real-world production data show that our approach outperforms existing methods on relevance and diversity simultaneously.
翻訳日:2022-10-14 03:59:42 公開日:2020-09-27
# Ride-Hailingのためのスケーラブルな深層強化学習

Scalable Deep Reinforcement Learning for Ride-Hailing ( http://arxiv.org/abs/2009.14679v1 )

ライセンス: Link先を確認
Jiekun Feng, Mark Gluzman, J. G. Dai(参考訳) Didi Chuxing、Lyft、Uberなどのライドシェアサービスでは、一日中何千台もの車が乗車要求に応えている。 配車サービスシステムのマルコフ決定プロセス(mdp)モデルについて,強化学習(rl)問題として考察した。 多くのエージェント(車両)の同時制御は、車数とともに行動空間が指数関数的に増加するため、MDP最適化の課題となる。 本稿では,ドライバにタスクを逐次割り当てることにより,MDP動作の特殊分解を提案する。 新しいアクション構造はスケーラビリティの問題を解決し、制御ポリシ最適化に深いRLアルゴリズムを使用できる。 本研究では,Didi Chuxingの実データに基づく数値実験により,提案手法の利点を実証する。

Ride-hailing services, such as Didi Chuxing, Lyft, and Uber, arrange thousands of cars to meet ride requests throughout the day. We consider a Markov decision process (MDP) model of a ride-hailing service system, framing it as a reinforcement learning (RL) problem. The simultaneous control of many agents (cars) presents a challenge for the MDP optimization because the action space grows exponentially with the number of cars. We propose a special decomposition for the MDP actions by sequentially assigning tasks to the drivers. The new actions structure resolves the scalability problem and enables the use of deep RL algorithms for control policy optimization. We demonstrate the benefit of our proposed decomposition with a numerical experiment based on real data from Didi Chuxing.
翻訳日:2022-10-14 03:59:20 公開日:2020-09-27
# 画素プロセッサアレイを用いた非ホロノミック移動ロボットのアジャイル反応ナビゲーション

Agile Reactive Navigation for A Non-Holonomic Mobile Robot Using A Pixel Processor Array ( http://arxiv.org/abs/2009.12796v1 )

ライセンス: Link先を確認
Yanan Liu, Laurie Bose, Colin Greatwood, Jianing Chen, Rui Fan, Thomas Richardson, Stephen J. Carey, Piotr Dudek, Walterio Mayol-Cuevas(参考訳) 本稿では,非ホロノミックな地上車両を,低コストプロセッサアレイセンサを用いたクラッタ環境下において予め設定したコースを走行させるための,アジャイルなリアクティブナビゲーション戦略を提案する。 これにより、個別の汎用コンピュータを使用するのではなく、センサーのイメージプレーンに直接マシンビジョンタスクを実行することができる。 最小の計算資源を用いて,複数のゲートを高速で通過または回避する小型地上車両を実演する。 これを実現するために、画素処理アレイのための目標追跡アルゴリズムを開発し、撮像された画像を直接視覚センサに処理し、地上車両を制御するターゲット情報を取得する。 このアルゴリズムは屋外で最大2000fps、室内照明レベルで200fpsで動作する。 センサレベルでの画像処理を行う場合、従来のセンサで発生する画像転送のボトルネックを回避する。 オンボード画像処理とロバストネスのリアルタイム性能を実験により検証した。 実験結果から、地上車両が複数のゲートを通過する場合の平均速度は2.20m/s、視覚的乱雑な環境においては3.88m/sであることがわかった。

This paper presents an agile reactive navigation strategy for driving a non-holonomic ground vehicle around a preset course of gates in a cluttered environment using a low-cost processor array sensor. This enables machine vision tasks to be performed directly upon the sensor's image plane, rather than using a separate general-purpose computer. We demonstrate a small ground vehicle running through or avoiding multiple gates at high speed using minimal computational resources. To achieve this, target tracking algorithms are developed for the Pixel Processing Array and captured images are then processed directly on the vision sensor acquiring target information for controlling the ground vehicle. The algorithm can run at up to 2000 fps outdoors and 200fps at indoor illumination levels. Conducting image processing at the sensor level avoids the bottleneck of image transfer encountered in conventional sensors. The real-time performance of on-board image processing and robustness is validated through experiments. Experimental results demonstrate that the algorithm's ability to enable a ground vehicle to navigate at an average speed of 2.20 m/s for passing through multiple gates and 3.88 m/s for a 'slalom' task in an environment featuring significant visual clutter.
翻訳日:2022-10-14 03:54:51 公開日:2020-09-27
# AIM 2020:シーンリライティングと照明推定の課題

AIM 2020: Scene Relighting and Illumination Estimation Challenge ( http://arxiv.org/abs/2009.12798v1 )

ライセンス: Link先を確認
Majed El Helou, Ruofan Zhou, Sabine S\"usstrunk, Radu Timofte, Mahmoud Afifi, Michael S. Brown, Kele Xu, Hengxing Cai, Yuzhong Liu, Li-Wen Wang, Zhi-Song Liu, Chu-Tak Li, Sourya Dipta Das, Nisarg A. Shah, Akashdeep Jassal, Tongtong Zhao, Shanshan Zhao, Sabari Nathan, M. Parisa Beham, R. Suganya, Qing Wang, Zhongyun Hu, Xin Huang, Yaning Li, Maitreya Suin, Kuldeep Purohit, A. N. Rajagopalan, Densen Puthussery, Hrishikesh P S, Melvin Kuriakose, Jiji C V, Yu Zhu, Liping Dong, Zhuolong Jiang, Chenghua Li, Cong Leng, Jian Cheng(参考訳) 仮想画像の照準と照度推定に関するAIM 2020の課題を概観する。 本稿では,チャレンジに使用される新しいviditデータセットと,提案手法の相違,および3つのチャレンジトラックにおける最終評価結果について述べる。 最初のトラックは1対1のライトニングを考慮し、異なる色温度と照度(つまり光源位置)のシーンの入力写真をリライトすることを目的としていた。 第2トラックの目標は、所定の画像から照明設定、すなわち色温度と方向を推定することであった。 最後に、第3トラックは任意のリライトを扱うため、第1トラックの一般化が行われた。 目標の色温度と向きは事前に決定されるのではなく、ガイド画像によって与えられる。 参加者は、トラック1と2のソリューションをトラック3に使うことを許可された。 コースには94人、52人、56人の登録参加者が参加し、最終ステージには20人の応募が確認された。

We review the AIM 2020 challenge on virtual image relighting and illumination estimation. This paper presents the novel VIDIT dataset used in the challenge and the different proposed solutions and final evaluation results over the 3 challenge tracks. The first track considered one-to-one relighting; the objective was to relight an input photo of a scene with a different color temperature and illuminant orientation (i.e., light source position). The goal of the second track was to estimate illumination settings, namely the color temperature and orientation, from a given image. Lastly, the third track dealt with any-to-any relighting, thus a generalization of the first track. The target color temperature and orientation, rather than being pre-determined, are instead given by a guide image. Participants were allowed to make use of their track 1 and 2 solutions for track 3. The tracks had 94, 52, and 56 registered participants, respectively, leading to 20 confirmed submissions in the final competition stage.
翻訳日:2022-10-14 03:54:31 公開日:2020-09-27
# 物体輸送運動の認識と合成

Recognition and Synthesis of Object Transport Motion ( http://arxiv.org/abs/2009.12967v1 )

ライセンス: Link先を確認
Connor Daly(参考訳) ディープラーニングは一般的に、うまく利用するために、膨大な数のトレーニングサンプルを必要とする。 逆に、モーションキャプチャーデータの生成にはコストがかかることが多く、アクターが所定のモーションを生成するために特別な機器を必要とするため、モーションキャプチャーデータセットは比較的小さい傾向にある。 しかし、モーションキャプチャーデータは、人間とロボットのインタラクションにおけるジェスチャー認識からデータ駆動アニメーションまで、さまざまなアプリケーションでますます有用になりつつあるリッチな情報ソースを提供する。 このプロジェクトは、特定の種類の動き(オブジェクト転送)のシーケンスから詳細な情報を学習するための小さなモーションキャプチャデータセット上で、特殊なデータ拡張技術とともに、深い畳み込みネットワークをどのように使用できるかを示す。 このプロジェクトでは、モーション合成のより複雑なタスクで、これら同じ拡張テクニックをスケールアップする方法が示されています。 本研究は,GAN(Generative Adversarial Models)の概念,特にWasserstein GAN(英語版)の概念の最近の発展を探求することによって,様々なスタイルや輸送戦略を示すサンプルを用いて,生物のような物体の移動運動をうまく生成できるモデルを概説する。

Deep learning typically requires vast numbers of training examples in order to be used successfully. Conversely, motion capture data is often expensive to generate, requiring specialist equipment, along with actors to generate the prescribed motions, meaning that motion capture datasets tend to be relatively small. Motion capture data does however provide a rich source of information that is becoming increasingly useful in a wide variety of applications, from gesture recognition in human-robot interaction, to data driven animation. This project illustrates how deep convolutional networks can be used, alongside specialized data augmentation techniques, on a small motion capture dataset to learn detailed information from sequences of a specific type of motion (object transport). The project shows how these same augmentation techniques can be scaled up for use in the more complex task of motion synthesis. By exploring recent developments in the concept of Generative Adversarial Models (GANs), specifically the Wasserstein GAN, this project outlines a model that is able to successfully generate lifelike object transportation motions, with the generated samples displaying varying styles and transport strategies.
翻訳日:2022-10-14 03:53:31 公開日:2020-09-27
# VATLD: 交通信号検出の評価・理解・改善のためのビジュアル分析システム

VATLD: A Visual Analytics System to Assess, Understand and Improve Traffic Light Detection ( http://arxiv.org/abs/2009.12975v1 )

ライセンス: Link先を確認
Liang Gou, Lincan Zou, Nanxiang Li, Michael Hofmann, Arvind Kumar Shekar, Axel Wendt and Liu Ren(参考訳) 交通光検出は、自動運転における環境認識と意思決定に不可欠である。 最先端の検出器は深層畳み込みニューラルネットワーク(CNN)上に構築されており、有望な性能を示している。 しかし、cnnベースの検出器に対する懸念の1つは、自動運転車に配備する前に正確性と堅牢性のパフォーマンスを徹底的に評価する方法である。 本研究では,自律運転アプリケーションにおける交通光検出器の精度とロバスト性の評価,理解,向上を図るために,不整合表現学習とセマンティック敵対学習を備えた視覚解析システムVATLDを提案する。 不整合表現学習は、人間に親しみやすい視覚的要約で人間の認知を高めるためにデータ意味を抽出し、セマンティック敵対学習は、解釈可能な堅牢性リスクを効果的に露呈し、行動可能な洞察に対する人間との最小限の相互作用を可能にする。 また、視覚分析システムであるVATLDによる実用的な洞察から導かれる様々なパフォーマンス改善戦略の有効性を実証し、自律運転における安全クリティカルな応用への実践的な影響を示す。

Traffic light detection is crucial for environment perception and decision-making in autonomous driving. State-of-the-art detectors are built upon deep Convolutional Neural Networks (CNNs) and have exhibited promising performance. However, one looming concern with CNN based detectors is how to thoroughly evaluate the performance of accuracy and robustness before they can be deployed to autonomous vehicles. In this work, we propose a visual analytics system, VATLD, equipped with a disentangled representation learning and semantic adversarial learning, to assess, understand, and improve the accuracy and robustness of traffic light detectors in autonomous driving applications. The disentangled representation learning extracts data semantics to augment human cognition with human-friendly visual summarization, and the semantic adversarial learning efficiently exposes interpretable robustness risks and enables minimal human interaction for actionable insights. We also demonstrate the effectiveness of various performance improvement strategies derived from actionable insights with our visual analytics system, VATLD, and illustrate some practical implications for safety-critical applications in autonomous driving.
翻訳日:2022-10-14 03:53:12 公開日:2020-09-27
# スペクトル仮想診断による電子ビーム長手特性の高精度かつ確実な予測

Accurate and confident prediction of electron beam longitudinal properties using spectral virtual diagnostics ( http://arxiv.org/abs/2009.12835v1 )

ライセンス: Link先を確認
A. Hanuka, C. Emma, T. Maxwell, A. Fisher, B. Jacobson, M. J. Hogan, and Z. Huang(参考訳) 縦相空間(LPS)は、様々な科学応用のために電子ビーム力学に関する重要な情報を提供する。 例えば、自由電子レーザーからの高輝度X線放射についての洞察を与えることができる。 既存の診断は侵襲的であり、しばしば必要な解像度で動作できない。 本研究では、相対論的電子ビームの放射から非破壊的に収集されたスペクトル情報を用いて、ショット毎のLPSを正確に予測する機械学習ベースの仮想診断(VD)ツールを提案する。 実験およびシミュレーションデータを用いた3種類のケーススタディに対して,ツールの精度を示す。 それぞれのケースに対して,VDツールの信頼性を高める手法を提案する。 我々は、スペクトルVDが、データソートや分析だけでなく、DOEのユーザ施設における実験的な構成の設定と理解を改善することを期待する。 スペクトルVDは、データストレージ、読み出し、ストリーミング要求の負荷を低減しつつ、次世代の高繰り返し線形加速器における長手束特性の確実な知識を提供することができる。

Longitudinal phase space (LPS) provides a critical information about electron beam dynamics for various scientific applications. For example, it can give insight into the high-brightness X-ray radiation from a free electron laser. Existing diagnostics are invasive, and often times cannot operate at the required resolution. In this work we present a machine learning-based Virtual Diagnostic (VD) tool to accurately predict the LPS for every shot using spectral information collected non-destructively from the radiation of relativistic electron beam. We demonstrate the tool's accuracy for three different case studies with experimental or simulated data. For each case, we introduce a method to increase the confidence in the VD tool. We anticipate that spectral VD would improve the setup and understanding of experimental configurations at DOE's user facilities as well as data sorting and analysis. The spectral VD can provide confident knowledge of the longitudinal bunch properties at the next generation of high-repetition rate linear accelerators while reducing the load on data storage, readout and streaming requirements.
翻訳日:2022-10-14 03:52:16 公開日:2020-09-27
# クラス間分岐構造を考慮した手書き予測

Handwriting Prediction Considering Inter-Class Bifurcation Structures ( http://arxiv.org/abs/2009.12743v1 )

ライセンス: Link先を確認
Masaki Yamagata, Hideaki Hayashi, and Seiichi Uchida(参考訳) 時間的予測は、カオス的挙動、非マルコフ的特性、時間的信号の非定常ノイズにより、まだ難しい課題である。 上記の問題に加えて、クラス間分岐構造から生じる不確実性のため、手書き予測も困難である。 例えば、'0' と '6' のクラスは初期部分の点で非常によく似ているため、それに続く部分を初期部分から予測することはほとんど不可能である。 言い換えると、'0' と '6' はクラス間のあいまいさのために分岐構造を持ち、この文脈では長期的な予測はできない。 本稿では,この分岐構造に対処可能な時間予測モデルを提案する。 具体的には,各クラスに対するガウス混合モデル (GMM) およびクラスの後続確率として,分岐構造を明示的に学習する。 予測の最終結果は、クラス確率を重みとしてGMMの重み付け和として表される。 複数のクラスが重みを持つ場合、モデルは分岐を処理でき、不正確な予測を避けることができる。 提案モデルは、長期記憶を含むニューラルネットワークとして定式化され、エンドツーエンドで訓練される。 提案したモデルは,UNIPENのオンライン手書き文字データセットを用いて評価し,そのモデルが分岐構造をキャッチし,扱えることを示す。

Temporal prediction is a still difficult task due to the chaotic behavior, non-Markovian characteristics, and non-stationary noise of temporal signals. Handwriting prediction is also challenging because of uncertainty arising from inter-class bifurcation structures, in addition to the above problems. For example, the classes '0' and '6' are very similar in terms of their beginning parts; therefore it is nearly impossible to predict their subsequent parts from the beginning part. In other words, '0' and '6' have a bifurcation structure due to ambiguity between classes, and we cannot make a long-term prediction in this context. In this paper, we propose a temporal prediction model that can deal with this bifurcation structure. Specifically, the proposed model learns the bifurcation structure explicitly as a Gaussian mixture model (GMM) for each class as well as the posterior probability of the classes. The final result of prediction is represented as the weighted sum of GMMs using the class probabilities as weights. When multiple classes have large weights, the model can handle a bifurcation and thus avoid an inaccurate prediction. The proposed model is formulated as a neural network including long short-term memories and is thus trained in an end-to-end manner. The proposed model was evaluated on the UNIPEN online handwritten character dataset, and the results show that the model can catch and deal with the bifurcation structures.
翻訳日:2022-10-14 03:45:32 公開日:2020-09-27
# 仮想体験の現実世界への応用 : 視覚障害者のための強化学習を用いた歩道障害物回避

Virtual Experience to Real World Application: Sidewalk Obstacle Avoidance Using Reinforcement Learning for Visually Impaired ( http://arxiv.org/abs/2009.12877v1 )

ライセンス: Link先を確認
Faruk Ahmed, Md Sultan Mahmud, Kazi Ashraf Moinuddin, Mohammed Istiaque Hyder and Mohammed Yeasin(参考訳) 最小限のリスクをもたらす障害のない経路を見つけることは、安全なナビゲーションにとって重要である。 視覚障害者と視覚障害者は、歩道を歩いている間、ナビゲーションの安全性を必要とします。 本研究では,強化学習を用いた感覚入力を統合し,歩道における補助ナビゲーションを開発した。 シミュレーションロボット環境下での強化学習を通じて,Sidewalk Obstacle Avoidance Agent (SOAA) を訓練した。 Sidewalk Obstacle Conversational Agent (SOCA)は、自然言語会話エージェントを実際の会話データで訓練することによって構築される。 SOAAとSOCAは統合ガイド(AG)と呼ばれるプロトタイプデバイスに統合された。 実証分析の結果,81.29%のベースケースから約5%の障害物回避経験が改善された。

Finding a path free from obstacles that poses minimal risk is critical for safe navigation. People who are sighted and people who are visually impaired require navigation safety while walking on a sidewalk. In this research we developed an assistive navigation on a sidewalk by integrating sensory inputs using reinforcement learning. We trained a Sidewalk Obstacle Avoidance Agent (SOAA) through reinforcement learning in a simulated robotic environment. A Sidewalk Obstacle Conversational Agent (SOCA) is built by training a natural language conversation agent with real conversation data. The SOAA along with SOCA was integrated in a prototype device called augmented guide (AG). Empirical analysis showed that this prototype improved the obstacle avoidance experience about 5% from a base case of 81.29%
翻訳日:2022-10-14 03:44:53 公開日:2020-09-27
# 画像処理のための2ストリームエンコーダデコーダネットワーク

Two-stream Encoder-Decoder Network for Localizing Image Forgeries ( http://arxiv.org/abs/2009.12881v1 )

ライセンス: Link先を確認
Aniruddha Mazumdar and Prabin Kumar Bora(参考訳) 本稿では,高レベル画像と低レベル画像の両方を用いて,操作画像内の鍛造領域を高精度にローカライズする,新しい2ストリームエンコーダ・デコーダネットワークを提案する。 これは、偽造作成プロセスが一般的に、高レベルのアーティファクト(例えば、不自然なコントラスト)と低レベルのアーティファクト(例えば、ノイズの非一貫性)の両方を偽造画像に導入しているという事実に動機づけられている。 提案する2ストリームネットワークでは,エンコーダネットワークの第1層における高域フィルタの集合を通してノイズ残差を抽出することにより,エンコーダ側の低レベル操作関連特徴を学習する。 第2ストリームでは、エンコーダは入力画像RGB値から高レベル画像操作特徴を学習する。 両エンコーダの粗い特徴マップは、対応するデコーダネットワークによってアップサンプリングされ、密集した特徴マップを生成する。 2つのストリームの高密度特徴写像は連結され、シグモダル活性化を伴う最終畳み込み層に供給され、ピクセルワイズ予測を生成する。 提案手法の性能評価のために,複数の標準法医学データセットの実験的検討を行った。 実験結果から,提案手法の有効性が示唆された。

This paper proposes a novel two-stream encoder-decoder network, which utilizes both the high-level and the low-level image features for precisely localizing forged regions in a manipulated image. This is motivated from the fact that the forgery creation process generally introduces both the high-level artefacts (e.g. unnatural contrast) and the low-level artefacts (e.g. noise inconsistency) to the forged images. In the proposed two-stream network, one stream learns the low-level manipulation-related features in the encoder side by extracting noise residuals through a set of high-pass filters in the first layer of the encoder network. In the second stream, the encoder learns the high-level image manipulation features from the input image RGB values. The coarse feature maps of both the encoders are upsampled by their corresponding decoder network to produce dense feature maps. The dense feature maps of the two streams are concatenated and fed to a final convolutional layer with sigmoidal activation to produce pixel-wise prediction. We have carried out experimental analysis on multiple standard forensics datasets to evaluate the performance of the proposed method. The experimental results show the efficacy of the proposed method with respect to the state-of-the-art.
翻訳日:2022-10-14 03:44:41 公開日:2020-09-27
# 人間と物体の相互作用検出:クイックサーベイと方法の検討

Human-Object Interaction Detection:A Quick Survey and Examination of Methods ( http://arxiv.org/abs/2009.12950v1 )

ライセンス: Link先を確認
Trevor Bergstrom, Humphrey Shi(参考訳) 人間と物体の相互作用の検出はコンピュータビジョンと視覚的意味情報抽出の世界で比較的新しいタスクである。 人間がオブジェクト上で実行するインタラクションを識別するマシンの目標により、この分野の研究には現実世界のユースケースが数多く存在する。 私たちの知る限り、この分野における最先端とマイルストーンに関する調査は、これが初めてです。 本稿では,人間と物体の相互作用検出の分野での開発に関する基礎的な調査を行う。 この分野の多くの作品は、入力画像の複数のソースからの特徴を組み合わせたマルチストリーム畳み込みニューラルネットワークアーキテクチャを使用している。 最も一般的なものは、人間と物体であり、両者の空間的品質である。 私たちが知っている限りでは、各コンポーネントのパフォーマンスを個別に調べる詳細な研究は行われていない。 今後の研究者に洞察を与えるため、人間と物体の相互作用検出のための多ストリーム畳み込みニューラルネットワークアーキテクチャの各コンポーネントの性能を個別に調査する。 具体的には,HORCNNアーキテクチャを基礎研究として検討する。 さらに,人間と物体の相互作用検出の分野で人気のあるベンチマークであるHICO-DETデータセットを詳細に検討する。 コードと論文はhttps://github.com/SHI-Labs/Human-Object-Interaction-Detectionにある。

Human-object interaction detection is a relatively new task in the world of computer vision and visual semantic information extraction. With the goal of machines identifying interactions that humans perform on objects, there are many real-world use cases for the research in this field. To our knowledge, this is the first general survey of the state-of-the-art and milestone works in this field. We provide a basic survey of the developments in the field of human-object interaction detection. Many works in this field use multi-stream convolutional neural network architectures, which combine features from multiple sources in the input image. Most commonly these are the humans and objects in question, as well as the spatial quality of the two. As far as we are aware, there have not been in-depth studies performed that look into the performance of each component individually. In order to provide insight to future researchers, we perform an individualized study that examines the performance of each component of a multi-stream convolutional neural network architecture for human-object interaction detection. Specifically, we examine the HORCNN architecture as it is a foundational work in the field. In addition, we provide an in-depth look at the HICO-DET dataset, a popular benchmark in the field of human-object interaction detection. Code and papers can be found at https://github.com/SHI-Labs/Human-Object-Interaction-Detection.
翻訳日:2022-10-14 03:44:20 公開日:2020-09-27
# ニューラルネットのためのトランスファーラーニングを用いたスマート洗浄IoTソリューション

Smart Irrigation IoT Solution using Transfer Learning for Neural Networks ( http://arxiv.org/abs/2009.12747v1 )

ライセンス: Link先を確認
A. Risheh, A. Jalili, E. Nazerfard(参考訳) 本稿では,人工ニューラルネットワークを用いた温室のスマート灌水のための信頼性の高いシステムとIoTアーキテクチャを提案する。 溶液は土壌の異なる層に4つのセンサーを使い、将来の水分を予測する。 異なる土壌上で実験を行い, 得られたデータセットを用いて, ニューラルネットワークの性能を, 従来のサポートベクトル回帰法と比較した。 IoTエッジデバイスにおけるニューラルネットワークの処理能力を低減するために,転送学習を提案する。 トランスファーラーニングはまた、少量のトレーニングデータでトレーニングパフォーマンスを向上し、温室のスマート灌水に関する他の2つの課題である、事前訓練されたモデルに気候センサーを統合することができる。 提案したIoTアーキテクチャは、スマート灌水のための完全なソリューションである。

In this paper we develop a reliable system for smart irrigation of greenhouses using artificial neural networks, and an IoT architecture. Our solution uses four sensors in different layers of soil to predict future moisture. Using a dataset we collected by running experiments on different soils, we show high performance of neural networks compared to existing alternative method of support vector regression. To reduce the processing power of neural network for the IoT edge devices, we propose using transfer learning. Transfer learning also speeds up training performance with small amount of training data, and allows integrating climate sensors to a pre-trained model, which are the other two challenges of smart irrigation of greenhouses. Our proposed IoT architecture shows a complete solution for smart irrigation.
翻訳日:2022-10-14 03:44:03 公開日:2020-09-27
# 実用性の測定と信頼の獲得--xai研究者への実践的アドバイス

Measure Utility, Gain Trust: Practical Advice for XAI Researcher ( http://arxiv.org/abs/2009.12924v1 )

ライセンス: Link先を確認
Brittany Davis, Maria Glenski, William Sealy, Dustin Arendt(参考訳) 機械学習モデルの説明、すなわち説明可能なai(xai)に関する研究は、この10年間、ディープニューラルネットワークと共に指数関数的に成長している。 歴史的理由から、説明と信頼が絡み合っている。 しかし、信頼への焦点は狭すぎるため、人間や説明に関するより確固たる科学的知識を生み出した、試行錯誤された真の実証的な方法から研究コミュニティを混乱させてきた。 そこで我々は,XAI分野の研究者に対して,実践的な進路を提示する。 研究者は、信頼ではなく機械学習の説明の有用性に焦点を当てることを推奨する。 説明が有用である5つの幅広いユースケースを概説し、それぞれが客観的な経験的測定と誤用可能な仮説に依存する擬似実験について述べる。 我々はこの実験的な厳密さは、XAIの分野における科学的知識に貢献するために必要であると考えている。

Research into the explanation of machine learning models, i.e., explainable AI (XAI), has seen a commensurate exponential growth alongside deep artificial neural networks throughout the past decade. For historical reasons, explanation and trust have been intertwined. However, the focus on trust is too narrow, and has led the research community astray from tried and true empirical methods that produced more defensible scientific knowledge about people and explanations. To address this, we contribute a practical path forward for researchers in the XAI field. We recommend researchers focus on the utility of machine learning explanations instead of trust. We outline five broad use cases where explanations are useful and, for each, we describe pseudo-experiments that rely on objective empirical measurements and falsifiable hypotheses. We believe that this experimental rigor is necessary to contribute to scientific knowledge in the field of XAI.
翻訳日:2022-10-14 03:43:50 公開日:2020-09-27
# 後続類似度行列の要約と組み合わせのためのカーネル学習手法

Kernel learning approaches for summarising and combining posterior similarity matrices ( http://arxiv.org/abs/2009.12852v1 )

ライセンス: Link先を確認
Alessandra Cabassi, Sylvia Richardson, Paul D. W. Kirk(参考訳) マルコフ連鎖モンテカルロ(MCMC)アルゴリズムを用いて混合モデルのようなベイズ的クラスタリングモデルの推論を行う場合、出力は通常、後部分布から引き出されたクラスタリング(分割)のサンプルである。 実際に重要な課題は、このアウトプットを要約する方法だ。 ここでは、ベイズクラスタリングモデルに対するMCMCアルゴリズムの出力を要約するための新しいアプローチを提案するために、後部類似性行列(PSM)の概念を構築する。 我々の研究の重要な貢献は、PSMは正の半定値であり、従ってデータに存在するクラスタリング構造を捉える確率的に動機づけられたカーネル行列を定義するのに使うことができることである。 この観察により,サマリクラスタリングの取得にカーネル手法を多用し,psmで要約された情報を活用できる。 例えば、複数のPSMがあり、それぞれが共通の統計単位上の異なるデータセットに対応する場合、積分クラスタリングを実行するためにカーネルを組み合わせる標準的な方法を用いることができる。 さらに、結果誘導データ統合を実行するために予測カーネルモデルにpsmを組み込むこともできる。 本研究では,提案手法の性能をシミュレーション実験と2つの実データ応用を用いて実証する。 Rコードはhttps://github.com/acabassi/combine-psmsで入手できる。

When using Markov chain Monte Carlo (MCMC) algorithms to perform inference for Bayesian clustering models, such as mixture models, the output is typically a sample of clusterings (partitions) drawn from the posterior distribution. In practice, a key challenge is how to summarise this output. Here we build upon the notion of the posterior similarity matrix (PSM) in order to suggest new approaches for summarising the output of MCMC algorithms for Bayesian clustering models. A key contribution of our work is the observation that PSMs are positive semi-definite, and hence can be used to define probabilistically-motivated kernel matrices that capture the clustering structure present in the data. This observation enables us to employ a range of kernel methods to obtain summary clusterings, and otherwise exploit the information summarised by PSMs. For example, if we have multiple PSMs, each corresponding to a different dataset on a common set of statistical units, we may use standard methods for combining kernels in order to perform integrative clustering. We may moreover embed PSMs within predictive kernel models in order to perform outcome-guided data integration. We demonstrate the performances of the proposed methods through a range of simulation studies as well as two real data applications. R code is available at https://github.com/acabassi/combine-psms.
翻訳日:2022-10-14 03:43:35 公開日:2020-09-27
# ゲーム内エキスパートレベル音楽・ダンス翻訳のための半教師付き学習

Semi-Supervised Learning for In-Game Expert-Level Music-to-Dance Translation ( http://arxiv.org/abs/2009.12763v1 )

ライセンス: Link先を確認
Yinglin Duan (1), Tianyang Shi (1), Zhengxia Zou (2), Jia Qin (1 and 3), Yifei Zhao (1), Yi Yuan (1), Jie Hou (1), Xiang Wen (1 and 3), Changjie Fan (1) ((1) NetEase Fuxi AI Lab, (2) University of Michigan, Ann Arbor, (3) Zhejiang University)(参考訳) 音楽からダンスへの翻訳は、最近のロールプレイングゲームで新しくて強力な機能だ。 プレイヤーは、特定のミュージッククリップと共にキャラクターを踊らせることができ、ファンが作ったダンスビデオも生成できる。 このトピックの以前の作品は、時系列データに基づく教師付きモーション生成問題として音楽とダンスを考察している。 しかし、これらの方法は限られたトレーニングデータペアと動きの劣化に苦しむ。 本稿では,この課題に対する新たな視点として,コレオグラフィー理論に基づく断片的ダンスフレーズ検索問題として翻訳問題を再構成する。 このようなデザインにより、プレイヤーは私たちの世代の上にダンスの動きをさらに編集することができ、他の回帰ベースのメソッドはそのようなユーザーの対話性を無視できる。 ダンスモーションキャプチャは,プロのダンサーの助けを必要とする高価で時間を要する手順であると考え,ラベル付きデータセット(ラベル付きデータより20倍)が収集された半教師付き学習フレームワークを用いて,提案手法を訓練する。 ネットワークの堅牢性を改善するために,共起機構を導入する。 このラベルのないデータセットを使って、翻訳者が曲句のメロディ、リズム、その他の要素を理解できるように、自己教師付き事前学習も導入する。 事前学習は,スクラッチからの学習よりも翻訳精度が有意に向上することを示す。 実験結果から,本手法は様々なスタイルの楽曲を一般化するだけでなく,ゲームプレイヤのエキスパートレベルの振付にも有効であることが示唆された。

Music-to-dance translation is a brand-new and powerful feature in recent role-playing games. Players can now let their characters dance along with specified music clips and even generate fan-made dance videos. Previous works of this topic consider music-to-dance as a supervised motion generation problem based on time-series data. However, these methods suffer from limited training data pairs and the degradation of movements. This paper provides a new perspective for this task where we re-formulate the translation problem as a piece-wise dance phrase retrieval problem based on the choreography theory. With such a design, players are allowed to further edit the dance movements on top of our generation while other regression based methods ignore such user interactivity. Considering that the dance motion capture is an expensive and time-consuming procedure which requires the assistance of professional dancers, we train our method under a semi-supervised learning framework with a large unlabeled dataset (20x than labeled data) collected. A co-ascent mechanism is introduced to improve the robustness of our network. Using this unlabeled dataset, we also introduce self-supervised pre-training so that the translator can understand the melody, rhythm, and other components of music phrases. We show that the pre-training significantly improves the translation accuracy than that of training from scratch. Experimental results suggest that our method not only generalizes well over various styles of music but also succeeds in expert-level choreography for game players.
翻訳日:2022-10-14 03:42:59 公開日:2020-09-27
# 深層強化学習による無線マルチキャストシステムのスケジューリングと電力制御

Scheduling and Power Control for Wireless Multicast Systems via Deep Reinforcement Learning ( http://arxiv.org/abs/2011.14799v1 )

ライセンス: Link先を確認
Ramkumar Raghu, Mahadesh Panju, Vaneet Aggarwal and Vinod Sharma(参考訳) 無線システムにおけるマルチキャストは、コンテンツ中心ネットワークにおけるユーザ要求の冗長性を利用する自然な方法である。 電力制御と最適スケジューリングは、衰退中の無線マルチキャストネットワークの性能を著しく向上させることができる。 しかし、以前に研究した電力制御とスケジューリングのためのモデルに基づくアプローチは、大規模状態空間やシステムダイナミクスの変更には拡張性がない。 本稿では,深層ニューラルネットワークによるq関数の関数近似を用いて,小型ネットワークの最適ポリシーに適合する電力制御ポリシを得る深層強化学習手法を提案する。 このアプローチにより,大規模システムに対して電力制御方針を学習できることを実証する。 さらに, 平均電力制約を維持するために, マルチタイムスケール確率最適化を用いる。 学習アルゴリズムの微調整により,システム統計の時間変化を追跡できることを示した。 最後に,マルチタイムスケールアプローチを拡張し,電力制御とともに最適な待ち行列戦略を同時に学習する。 シミュレーションにより,アルゴリズムのスケーラビリティ,トラッキング,クロスレイヤ最適化機能を実証する。 提案したマルチタイムスケールアプローチは、複数の目的と制約を持つ一般の大規模状態空間力学システムで使用することができ、独立した関心を持つ可能性がある。

Multicasting in wireless systems is a natural way to exploit the redundancy in user requests in a Content Centric Network. Power control and optimal scheduling can significantly improve the wireless multicast network's performance under fading. However, the model based approaches for power control and scheduling studied earlier are not scalable to large state space or changing system dynamics. In this paper, we use deep reinforcement learning where we use function approximation of the Q-function via a deep neural network to obtain a power control policy that matches the optimal policy for a small network. We show that power control policy can be learnt for reasonably large systems via this approach. Further we use multi-timescale stochastic optimization to maintain the average power constraint. We demonstrate that a slight modification of the learning algorithm allows tracking of time varying system statistics. Finally, we extend the multi-timescale approach to simultaneously learn the optimal queueing strategy along with power control. We demonstrate scalability, tracking and cross layer optimization capabilities of our algorithms via simulations. The proposed multi-timescale approach can be used in general large state space dynamical systems with multiple objectives and constraints, and may be of independent interest.
翻訳日:2022-10-14 03:36:33 公開日:2020-09-27
# ESTAN:乳房超音波画像分割のための小型腫瘍認識ネットワーク

ESTAN: Enhanced Small Tumor-Aware Network for Breast Ultrasound Image Segmentation ( http://arxiv.org/abs/2009.12894v1 )

ライセンス: Link先を確認
Bryar Shareef, Alex Vakanski, Min Xian, Phoebe E. Freer(参考訳) 乳がん検出のためのcadシステムでは,腫瘍の正確な大きさ,形状,位置が腫瘍の定量化や分類に重要であるため,乳がんの分節化は重要な課題である。 しかし, 超音波画像中の小腫瘍の分割は, スペックルノイズ, 患者間の腫瘍形状や大きさの変化, 腫瘍様画像領域の存在などにより困難である。 近年、深層学習に基づくアプローチは、生体画像解析で大きな成功を収めているが、現在の最先端のアプローチでは、小乳腺腫瘍の分節化において性能が低下している。 本稿では,乳腺腫瘍を正確に,かつ頑健に分類するための新しいディープニューラルネットワークアーキテクチャであるESTAN(Enhanced Small tumor-Aware Network)を提案する。 estanは2つのエンコーダを導入し、異なるスケールで画像コンテキスト情報を抽出・融合し、エンコーダ内の行列のカーネルを利用して乳房解剖学に適応する。 提案手法の有効性を検証し、7つの定量的指標を用いて3つの乳房超音波データセットに対する最先端の9つのアプローチと比較した。 以上の結果から, 提案手法は全体の性能を最大化し, 腫瘍セグメンテーションにおける他のアプローチよりも優れることが示された。

Breast tumor segmentation is a critical task in computer-aided diagnosis (CAD) systems for breast cancer detection because accurate tumor size, shape and location are important for further tumor quantification and classification. However, segmenting small tumors in ultrasound images is challenging, due to the speckle noise, varying tumor shapes and sizes among patients, and the existence of tumor-like image regions. Recently, deep learning-based approaches have achieved great success for biomedical image analysis, but current state-of-the-art approaches achieve poor performance for segmenting small breast tumors. In this paper, we propose a novel deep neural network architecture, namely Enhanced Small Tumor-Aware Network (ESTAN), to accurately and robustly segment breast tumors. ESTAN introduces two encoders to extract and fuse image context information at different scales and utilizes row-column-wise kernels in the encoder to adapt to breast anatomy. We validate the proposed approach and compare it to nine state-of-the-art approaches on three public breast ultrasound datasets using seven quantitative metrics. The results demonstrate that the proposed approach achieves the best overall performance and outperforms all other approaches on small tumor segmentation.
翻訳日:2022-10-14 03:35:56 公開日:2020-09-27
# 代名詞共参照分解能の最近の展開に関する調査と比較研究

A Brief Survey and Comparative Study of Recent Development of Pronoun Coreference Resolution ( http://arxiv.org/abs/2009.12721v1 )

ライセンス: Link先を確認
Hongming Zhang, Xinran Zhao, Yangqiu Song(参考訳) PCR(Pronoun Coreference Resolution)は、プロノミナルな表現を彼らが参照するすべての言及に対して解決するタスクである。 一般的なコリファレンス解決タスクと比較すると、pcrの主な課題は言及検出よりもコリファレンス関係予測である。 重要な自然言語理解(NLU)コンポーネントの1つとして、代名詞分解は多くの下流タスクには不可欠であり、既存のモデルには依然として挑戦的です。 本稿では,まず,正規代名詞共参照解決タスクのための代表データセットとモデルを紹介する。 次に,近年のハード代名詞コリファレンス解決問題(例えば,winograd schema challenge)に注目し,現在のモデルに共通性がどの程度理解できるかを分析する。 我々は、現在のモデルが標準評価セットで良いパフォーマンスを達成しているにもかかわらず、実際のアプリケーションで使用する準備ができていないことを示すため、広範囲な実験を行っている(例:全てのSOTAモデルは、しばしば発生するオブジェクトに対して代名詞を正しく解くのに苦労している)。 すべての実験コードはhttps://github.com/HKUST-KnowComp/PCRで入手できる。

Pronoun Coreference Resolution (PCR) is the task of resolving pronominal expressions to all mentions they refer to. Compared with the general coreference resolution task, the main challenge of PCR is the coreference relation prediction rather than the mention detection. As one important natural language understanding (NLU) component, pronoun resolution is crucial for many downstream tasks and still challenging for existing models, which motivates us to survey existing approaches and think about how to do better. In this survey, we first introduce representative datasets and models for the ordinary pronoun coreference resolution task. Then we focus on recent progress on hard pronoun coreference resolution problems (e.g., Winograd Schema Challenge) to analyze how well current models can understand commonsense. We conduct extensive experiments to show that even though current models are achieving good performance on the standard evaluation set, they are still not ready to be used in real applications (e.g., all SOTA models struggle on correctly resolving pronouns to infrequent objects). All experiment codes are available at https://github.com/HKUST-KnowComp/PCR.
翻訳日:2022-10-14 03:35:12 公開日:2020-09-27
# 言語に依存しないということは何ですか? タイポロジー特性のための多言語文エンコーダの探索

What does it mean to be language-agnostic? Probing multilingual sentence encoders for typological properties ( http://arxiv.org/abs/2009.12862v1 )

ライセンス: Link先を確認
Rochelle Choenni, Ekaterina Shutova(参考訳) 多言語文エンコーダは、下流のNLPタスクに対する言語間モデル転送において大きな成功を収めている。 しかし、個々の言語の性質や、それらがエンコードする言語変化の一般的なパターンについてはあまりわかっていない。 本稿では, 語彙的, 形態的, 統語的構造に関して, 最先端多言語エンコーダ(LASER, M-BERT, XLM, XLM-R)から文表現を求める手法を提案する。 さらに,この情報をモデルの全層に分散させる方法について検討する。 本研究は,異なる事前学習戦略に関連する言語変化の符号化における興味深い違いを示す。

Multilingual sentence encoders have seen much success in cross-lingual model transfer for downstream NLP tasks. Yet, we know relatively little about the properties of individual languages or the general patterns of linguistic variation that they encode. We propose methods for probing sentence representations from state-of-the-art multilingual encoders (LASER, M-BERT, XLM and XLM-R) with respect to a range of typological properties pertaining to lexical, morphological and syntactic structure. In addition, we investigate how this information is distributed across all layers of the models. Our results show interesting differences in encoding linguistic variation associated with different pretraining strategies.
翻訳日:2022-10-14 03:34:28 公開日:2020-09-27
# バイオメディカル質問応答のための教師なし事前学習

Unsupervised Pre-training for Biomedical Question Answering ( http://arxiv.org/abs/2009.12952v1 )

ライセンス: Link先を確認
Vaishnavi Kommaraju, Karthick Gunasekaran, Kun Li, Trapit Bansal, Andrew McCallum, Ivana Williams, Ana-Maria Istrate(参考訳) バイオメディカルテキスト(BioBERT,SciBERT,BioSentVec)を用いた非教師なし表現学習法のバイオメディカル質問応答への適用性を検討した。 バイオメディカルQAの教師なし表現をさらに改善するために,バイオメディカル・エンティティの文脈における推論を目的としたラベルなしデータから,新たな事前学習タスクを導入する。 我々の事前学習方法は、バイオメディカルエンティティの言及をランダムなエンティティ参照にランダムに置き換えて、そのコンテキストの破損した部分を見つけるために、正しいエンティティ参照でモデルをクエリすることで、所定のコンテキストを破損させる。 このデノイズ化タスクは、トレーニング前のタスクと下流のQAタスク間の列車テストミスマッチを最小限に抑え、モデルをスパンを予測することを要求する、豊富なラベルなしのバイオメディカルテキストから良い表現を学習することを可能にする。 実験の結果,提案した事前学習課題におけるBioBERTの事前学習が性能を著しく向上させ,第7回BioASQタスク7b-Phase Bの課題よりも優れていた。

We explore the suitability of unsupervised representation learning methods on biomedical text -- BioBERT, SciBERT, and BioSentVec -- for biomedical question answering. To further improve unsupervised representations for biomedical QA, we introduce a new pre-training task from unlabeled data designed to reason about biomedical entities in the context. Our pre-training method consists of corrupting a given context by randomly replacing some mention of a biomedical entity with a random entity mention and then querying the model with the correct entity mention in order to locate the corrupted part of the context. This de-noising task enables the model to learn good representations from abundant, unlabeled biomedical text that helps QA tasks and minimizes the train-test mismatch between the pre-training task and the downstream QA tasks by requiring the model to predict spans. Our experiments show that pre-training BioBERT on the proposed pre-training task significantly boosts performance and outperforms the previous best model from the 7th BioASQ Task 7b-Phase B challenge.
翻訳日:2022-10-14 03:34:15 公開日:2020-09-27
# 確率論的ダイナミクスモデルによる同時現実移動予測

Predicting Sim-to-Real Transfer with Probabilistic Dynamics Models ( http://arxiv.org/abs/2009.12864v1 )

ライセンス: Link先を確認
Lei M. Zhang, Matthias Plappert, Wojciech Zaremba(参考訳) 本稿では,RL ポリシーの sim-to-real 転送性能を予測する手法を提案する。 我々の移動距離は、シミュレーションにおけるトレーニング設定(アルゴリズム、ハイパーパラメータ、ランダム化など)とポリシーの選択を、広範囲で時間を要する実世界のロールアウトを必要とせずに単純化する。 確率力学モデルはポリシーに沿って訓練され、実世界の軌道の固定セットで評価され、移動距離を得る。 実験により,複雑な操作作業を行うためのシミュレーション環境と実世界のロボット環境の両方において,トランスファーメトリックはポリシー性能と高い相関性を示す。 さらに、政策伝達性能に対するトレーニング設定の影響を予測することができることを示す。

We propose a method to predict the sim-to-real transfer performance of RL policies. Our transfer metric simplifies the selection of training setups (such as algorithm, hyperparameters, randomizations) and policies in simulation, without the need for extensive and time-consuming real-world rollouts. A probabilistic dynamics model is trained alongside the policy and evaluated on a fixed set of real-world trajectories to obtain the transfer metric. Experiments show that the transfer metric is highly correlated with policy performance in both simulated and real-world robotic environments for complex manipulation tasks. We further show that the transfer metric can predict the effect of training setups on policy transfer performance.
翻訳日:2022-10-14 03:28:25 公開日:2020-09-27
# ランダムな摂動による個人的対向性ロバスト性

Differentially Private Adversarial Robustness Through Randomized Perturbations ( http://arxiv.org/abs/2009.12718v1 )

ライセンス: Link先を確認
Nan Xu, Oluwaseyi Feyisetan, Abhinav Aggarwal, Zekun Xu, Nathanael Teissier(参考訳) ディープニューラルネットワークは、さまざまな領域で大きな成功を収めているが、正しく分類された例の小さな摂動に敏感であり、誤った予測に繋がる。 近年,トレーニング例のすべての置換に対して最悪のケース損失関数を最適化することで,この行動に対処できる可能性が示唆された。 しかし、これは不可能な置換の重み付けが難しくなり、精度の上昇が制限される。 本稿では,(1)置換確率が元の単語に近接して重み付けされることを保証し,最悪の場合の保証を回避し,性能向上を実現すること,(2)キャリブレーションされたランダムネスは,モデル出力に対する敵対的攻撃に対するロバスト性を付加する差分プライベートモデルトレーニングを付与すること,の2つの直接的な利点について検討する。 提案手法では, モデルロバスト性のセマンティックな類似性を維持しつつ, 語彙中の稀な単語と密な単語の置換の訓練を確実にする, 切り裂きガムベル雑音に基づく新しい密度ベース機構を用いる。

Deep Neural Networks, despite their great success in diverse domains, are provably sensitive to small perturbations on correctly classified examples and lead to erroneous predictions. Recently, it was proposed that this behavior can be combatted by optimizing the worst case loss function over all possible substitutions of training examples. However, this can be prone to weighing unlikely substitutions higher, limiting the accuracy gain. In this paper, we study adversarial robustness through randomized perturbations, which has two immediate advantages: (1) by ensuring that substitution likelihood is weighted by the proximity to the original word, we circumvent optimizing the worst case guarantees and achieve performance gains; and (2) the calibrated randomness imparts differentially-private model training, which additionally improves robustness against adversarial attacks on the model outputs. Our approach uses a novel density-based mechanism based on truncated Gumbel noise, which ensures training on substitutions of both rare and dense words in the vocabulary while maintaining semantic similarity for model robustness.
翻訳日:2022-10-14 03:28:12 公開日:2020-09-27
# フーバー回帰の統計的学習評価

A Statistical Learning Assessment of Huber Regression ( http://arxiv.org/abs/2009.12755v1 )

ライセンス: Link先を確認
Yunlong Feng and Qiang Wu(参考訳) 強固な統計の勝利とマイルストーンの1つとして、フーバー回帰は強固な推論と推定において重要な役割を果たす。 また、機械学習の様々な応用も発見されている。 パラメトリックな設定では、広く研究されている。 しかし、関数が通常非パラメトリックな方法で学習される統計的学習コンテキストでは、フーバー回帰推定器が条件付き平均関数をどのように学習するか、そしてそれが光尾付き雑音仮定がなければなぜ機能するのかについての理論的理解が不足している。 これらの基本的な問題に対処するため,統計的学習の観点からハマー回帰を評価する。 まず,機械学習で通常実施されているフーバー回帰推定器のリスク一貫性特性は,平均回帰における学習可能性を保証することができないことを示す。 第二に、フーバー回帰は平均回帰を行うために適応的に実装されるべきであり、ノイズのサンプルサイズとモーメント条件に応じてスケールパラメータを調整する必要があることを示唆する。 第3に、スケールパラメータの適応的選択により、ハマー回帰推定器は1+\epsilon)$-moment条件(\epsilon>0$)の下で漸近平均回帰をキャリブレーションできることを示した。 最後に、同じモーメント条件下では、フーバー回帰推定器の収束率をほぼ確実に設定する。 1+\epsilon)$-moment条件は応答変数が無限分散を持つ特別な場合に対応するので、確立された収束率はフーバー回帰推定器のロバスト性特徴を正当化する。 本研究は,フーバー回帰推定器の系統的統計的学習評価を提供し,理論的観点からのロバスト性の観点からそのメリットを正当化する。

As one of the triumphs and milestones of robust statistics, Huber regression plays an important role in robust inference and estimation. It has also been finding a great variety of applications in machine learning. In a parametric setup, it has been extensively studied. However, in the statistical learning context where a function is typically learned in a nonparametric way, there is still a lack of theoretical understanding of how Huber regression estimators learn the conditional mean function and why it works in the absence of light-tailed noise assumptions. To address these fundamental questions, we conduct an assessment of Huber regression from a statistical learning viewpoint. First, we show that the usual risk consistency property of Huber regression estimators, which is usually pursued in machine learning, cannot guarantee their learnability in mean regression. Second, we argue that Huber regression should be implemented in an adaptive way to perform mean regression, implying that one needs to tune the scale parameter in accordance with the sample size and the moment condition of the noise. Third, with an adaptive choice of the scale parameter, we demonstrate that Huber regression estimators can be asymptotic mean regression calibrated under $(1+\epsilon)$-moment conditions ($\epsilon>0$). Last but not least, under the same moment conditions, we establish almost sure convergence rates for Huber regression estimators. Note that the $(1+\epsilon)$-moment conditions accommodate the special case where the response variable possesses infinite variance and so the established convergence rates justify the robustness feature of Huber regression estimators. In the above senses, the present study provides a systematic statistical learning assessment of Huber regression estimators and justifies their merits in terms of robustness from a theoretical viewpoint.
翻訳日:2022-10-14 03:27:20 公開日:2020-09-27
# ガウス過程を用いたマルチタスク因果学習

Multi-task Causal Learning with Gaussian Processes ( http://arxiv.org/abs/2009.12821v1 )

ライセンス: Link先を確認
Virginia Aglietti, Theodoros Damoulas, Mauricio \'Alvarez, Javier Gonz\'alez(参考訳) 本稿では、因果モデルの有向非巡回グラフ(DAG)上に定義された一連の介入関数の相関構造を学習する問題を考察する。 これは、医療や手術研究などの分野に共通するDAGにおける変数の異なるサブセットに対する介入の因果効果を共同学習することに関心がある場合に有用である。 本稿では,DAG-GPと呼ばれるマルチタスク因果プロセス(GP)モデルを提案する。 DAG-GPはデータの可用性の観点から異なる仮定に適合し、よく定義された積分演算子を通して異なる次元の入力空間にある関数間の相関を捉える。 我々は,DAG-GPモデルがDAGに依存していつ,どのように定式化できるかを理論的に明らかにした。 予測の品質と校正された不確実性の両方をテストする。 シングルタスクモデルと比較して、DAG-GPは様々な実および合成設定において最高の適合性能を達成する。 さらに、アクティブラーニングやベイズ最適化といったシーケンシャルな意思決定フレームワークで使用される場合、競合するアプローチよりも迅速に最適な介入を選択するのに役立つ。

This paper studies the problem of learning the correlation structure of a set of intervention functions defined on the directed acyclic graph (DAG) of a causal model. This is useful when we are interested in jointly learning the causal effects of interventions on different subsets of variables in a DAG, which is common in field such as healthcare or operations research. We propose the first multi-task causal Gaussian process (GP) model, which we call DAG-GP, that allows for information sharing across continuous interventions and across experiments on different variables. DAG-GP accommodates different assumptions in terms of data availability and captures the correlation between functions lying in input spaces of different dimensionality via a well-defined integral operator. We give theoretical results detailing when and how the DAG-GP model can be formulated depending on the DAG. We test both the quality of its predictions and its calibrated uncertainties. Compared to single-task models, DAG-GP achieves the best fitting performance in a variety of real and synthetic settings. In addition, it helps to select optimal interventions faster than competing approaches when used within sequential decision making frameworks, like active learning or Bayesian optimization.
翻訳日:2022-10-14 03:18:37 公開日:2020-09-27
# ファンクターホモロジーを用いた軽量クイックカーネル

A Weighted Quiver Kernel using Functor Homology ( http://arxiv.org/abs/2009.12928v1 )

ライセンス: Link先を確認
Manohar Kaul and Dai Tamaki(参考訳) 本稿では,重み付き有向ネットワークの研究のための新しいホモロジー手法を提案する。 このようなネットワークのモデルは、有向グラフ$q$で、$q$で設定された$q_{1}$の矢印に重み関数$w$を備えています。 重み関数の範囲 $w$ には加算や乗法が備わっており、すなわち$w$ は数学用語におけるモノイドである。 W$ がベクトル空間 $M$ 上の表現を備えるとき、ホモロジー代数の標準的な方法により、ホモロジー群 $H_{*}(Q,w;M)$ を定義することができる。 Q$ が向き付けサイクルを持たないとき、$H_{n}(Q,w;M)=0$ for $n\ge 2$ と $H_{1}(Q,w;M)$ は容易に計算できることが知られている。 この事実により、重み付き有向グラフのための新しいグラフカーネルを定義することができる。 実データを用いて2つのサンプル計算を行い,本手法が有効であることを確認した。

In this paper, we propose a new homological method to study weighted directed networks. Our model of such networks is a directed graph $Q$ equipped with a weight function $w$ on the set $Q_{1}$ of arrows in $Q$. We require that the range $W$ of our weight function is equipped with an addition or a multiplication, i.e., $W$ is a monoid in the mathematical terminology. When $W$ is equipped with a representation on a vector space $M$, the standard method of homological algebra allows us to define the homology groups $H_{*}(Q,w;M)$. It is known that when $Q$ has no oriented cycles, $H_{n}(Q,w;M)=0$ for $n\ge 2$ and $H_{1}(Q,w;M)$ can be easily computed. This fact allows us to define a new graph kernel for weighted directed graphs. We made two sample computations with real data and found that our method is practically applicable.
翻訳日:2022-10-14 03:18:19 公開日:2020-09-27
# グラフに基づく半教師付き学習におけるラベルノイズの解析

Analysis of label noise in graph-based semi-supervised learning ( http://arxiv.org/abs/2009.12966v1 )

ライセンス: Link先を確認
Bruno Klaus de Aquino Afonso, Lilian Berton(参考訳) 機械学習では、目に見えないデータに一般化できるモデルを監督するためにラベルを取得する必要がある。 しかし、ラベル付けプロセスは退屈で、長く、高価で、エラーを起こしやすい。 多くの場合、私たちのデータのほとんどはラベルなしです。 半教師付き学習(SSL)は、ラベルと入力データ分布の関係について強い仮定をすることで緩和する。 このパラダイムは実際に成功したが、ほとんどのSSLアルゴリズムは、利用可能な数少ないラベルを完全に信頼している。 現実には、人間と自動化されたシステムの両方がミスを犯しやすい。私たちのアルゴリズムが、少数かつ信頼性の低いラベルで動作できることは不可欠です。 本研究の目的は,ガウス場や高調波関数,局所・グローバル整合性,ラプラシア固有写像,グラフ変換による最小化など,既存のグラフベースの半教師付きアルゴリズムを広範囲に評価することである。 そこで本研究では,ラベル付きデータの量やラベルノイズを多種多様に変化させながら,分類器の精度を比較する。 私たちの結果は、データセットがsslの仮定と一致している場合、最も迷惑なインスタンスを検出できることを示しているが、利用可能なラベルの数を減らすと難しくなる。 また,laplacian eigenmapsアルゴリズムは,高次元クラスタを用いた場合のラベル伝搬よりも優れていた。

In machine learning, one must acquire labels to help supervise a model that will be able to generalize to unseen data. However, the labeling process can be tedious, long, costly, and error-prone. It is often the case that most of our data is unlabeled. Semi-supervised learning (SSL) alleviates that by making strong assumptions about the relation between the labels and the input data distribution. This paradigm has been successful in practice, but most SSL algorithms end up fully trusting the few available labels. In real life, both humans and automated systems are prone to mistakes; it is essential that our algorithms are able to work with labels that are both few and also unreliable. Our work aims to perform an extensive empirical evaluation of existing graph-based semi-supervised algorithms, like Gaussian Fields and Harmonic Functions, Local and Global Consistency, Laplacian Eigenmaps, Graph Transduction Through Alternating Minimization. To do that, we compare the accuracy of classifiers while varying the amount of labeled data and label noise for many different samples. Our results show that, if the dataset is consistent with SSL assumptions, we are able to detect the noisiest instances, although this gets harder when the number of available labels decreases. Also, the Laplacian Eigenmaps algorithm performed better than label propagation when the data came from high-dimensional clusters.
翻訳日:2022-10-14 03:17:31 公開日:2020-09-27
# マルチターン対話生成における話題関係のモデル化

Modeling Topical Relevance for Multi-Turn Dialogue Generation ( http://arxiv.org/abs/2009.12735v1 )

ライセンス: Link先を確認
Hainan Zhang, Yanyan Lan, Liang Pang, Hongshen Chen, Zhuoye Ding and Dawei Yin(参考訳) トピックドリフトはマルチターン対話において一般的な現象である。 したがって、理想的な対話生成モデルは、各コンテキストのトピック情報をキャプチャし、関連するコンテキストを検出し、適切な応答を生成することができるべきである。 しかし、既存のモデルは通常、単語や文レベルの類似性を用いて関連するコンテキストを検出するが、トピックレベルの関連性をうまく把握できない。 本稿では,この問題に対処するための新しいモデルSTAR-BTMを提案する。 まず、Biterm Topic Modelはトレーニングデータセット全体に事前トレーニングされる。 そして、各文脈の話題表現に基づいてトピックレベルの注目重みを算出する。 最後に、復号処理において注意重みと話題分布を利用して対応する応答を生成する。 中国における顧客サービスデータと英語Ubuntuの対話データの両方の実験結果から、STAR-BTMはメートル法と人的評価の両面で、最先端の手法を著しく上回っていることがわかった。

Topic drift is a common phenomenon in multi-turn dialogue. Therefore, an ideal dialogue generation models should be able to capture the topic information of each context, detect the relevant context, and produce appropriate responses accordingly. However, existing models usually use word or sentence level similarities to detect the relevant contexts, which fail to well capture the topical level relevance. In this paper, we propose a new model, named STAR-BTM, to tackle this problem. Firstly, the Biterm Topic Model is pre-trained on the whole training dataset. Then, the topic level attention weights are computed based on the topic representation of each context. Finally, the attention weights and the topic distribution are utilized in the decoding process to generate the corresponding responses. Experimental results on both Chinese customer services data and English Ubuntu dialogue data show that STAR-BTM significantly outperforms several state-of-the-art methods, in terms of both metric-based and human evaluations.
翻訳日:2022-10-14 03:17:09 公開日:2020-09-27
# 翻訳推定に基づく最適推定による知識外グラフの帰納的表現

Inductively Representing Out-of-Knowledge-Graph Entities by Optimal Estimation Under Translational Assumptions ( http://arxiv.org/abs/2009.12765v1 )

ライセンス: Link先を確認
Damai Dai, Hua Zheng, Fuli Luo, Pengcheng Yang, Baobao Chang, Zhifang Sui(参考訳) 従来の知識グラフ補完(KGC)は、すべてのテストエンティティがトレーニング中に現れることを前提としている。 しかし,実世界のシナリオでは知識グラフ(KG)は知識外グラフ(OOKG)エンティティを頻繁に追加することで急速に進化し,これらのエンティティを効率的に表現する必要がある。 既存の知識グラフ埋め込み(KGE)メソッドは、KG全体においてコストがかかることなくOOKGエンティティを表現できない。 効率を高めるために, 翻訳仮定に基づく最適推定により, ookgエンティティを誘導的に表現する簡易かつ効果的な手法を提案する。 In-knowledge-graph (IKG) エンティティの事前の埋め込みを考えると,本手法は追加の学習を必要としない。 実験結果から,OOKG を用いた2つの KGC タスクにおいて,本手法は高い効率で最先端の手法よりも優れていることがわかった。

Conventional Knowledge Graph Completion (KGC) assumes that all test entities appear during training. However, in real-world scenarios, Knowledge Graphs (KG) evolve fast with out-of-knowledge-graph (OOKG) entities added frequently, and we need to represent these entities efficiently. Most existing Knowledge Graph Embedding (KGE) methods cannot represent OOKG entities without costly retraining on the whole KG. To enhance efficiency, we propose a simple and effective method that inductively represents OOKG entities by their optimal estimation under translational assumptions. Given pretrained embeddings of the in-knowledge-graph (IKG) entities, our method needs no additional learning. Experimental results show that our method outperforms the state-of-the-art methods with higher efficiency on two KGC tasks with OOKG entities.
翻訳日:2022-10-14 03:16:54 公開日:2020-09-27
# 3次元対象空間における近似最適分布を用いた品質指標の解析

An Analysis of Quality Indicators Using Approximated Optimal Distributions in a Three-dimensional Objective Space ( http://arxiv.org/abs/2009.12788v1 )

ライセンス: Link先を確認
Ryoji Tanabe and Hisao Ishibuchi(参考訳) 品質指標は進化的多目的最適化アルゴリズムのベンチマークにおいて重要な役割を果たすが、その特性はまだ不明である。 品質指標を理解するための有望なアプローチの一つは、各品質指標を最適化する客観的ベクトルの最適分布を使用することである。 しかし,その理論的な性質が不明な場合には,各品質指標の最適分布を得ることは困難である。 したがって、ほとんどの品質指標に対する最適分布は十分に研究されていない。 この問題に対処するため,まず,任意のパレート面における各品質指標の最適分布を求める問題定式化を提案する。 次に,提案する問題定式化を用いて9つの品質指標の最適分布を近似する。 3目的問題に対する8種類のパレート面の近似最適分布を用いて9つの品質指標を解析した。 解析により,パレートフロント全体における一様分散対象ベクトルが最適でない場合が多いことが示された。 各品質指標は、パレートフロント毎に最適な分布を持つ。 また,9つの品質指標の一貫性についても検討した。

Although quality indicators play a crucial role in benchmarking evolutionary multi-objective optimization algorithms, their properties are still unclear. One promising approach for understanding quality indicators is the use of the optimal distribution of objective vectors that optimizes each quality indicator. However, it is difficult to obtain the optimal distribution for each quality indicator, especially when its theoretical property is unknown. Thus, optimal distributions for most quality indicators have not been well investigated. To address these issues, first, we propose a problem formulation of finding the optimal distribution for each quality indicator on an arbitrary Pareto front. Then, we approximate the optimal distributions for nine quality indicators using the proposed problem formulation. We analyze the nine quality indicators using their approximated optimal distributions on eight types of Pareto fronts of three-objective problems. Our analysis demonstrates that uniformly-distributed objective vectors over the entire Pareto front are not optimal in many cases. Each quality indicator has its own optimal distribution for each Pareto front. We also examine the consistency among the nine quality indicators.
翻訳日:2022-10-14 03:16:18 公開日:2020-09-27
# 使い易い実世界の多目的最適化問題スイート

An Easy-to-use Real-world Multi-objective Optimization Problem Suite ( http://arxiv.org/abs/2009.12867v1 )

ライセンス: Link先を確認
Ryoji Tanabe and Hisao Ishibuchi(参考訳) 合成試験問題は、進化的多目的最適化アルゴリズムの性能評価に広く用いられているが、過大評価/過小評価につながる可能性のある非現実的特性を含む可能性が高い。 この問題に対処するために,16の制約付き実世界の問題からなる多目的最適化問題スイートを提案する。 問題スイートには、目的数、Paretoフロントの形状、設計変数の種類など、さまざまな問題が含まれている。 16のうち4は多目的混合整数最適化問題である。 私たちは16の問題のjava、c、matlabのソースコードを提供し、それらをそのまま利用できるようにしています。 各テスト問題の近似パレートフロントについて検討した。 また,16問題に対する6つの代表的な進化的多目的最適化アルゴリズムの性能解析を行った。 16問題に加えて,制約付き多目的実世界の8問題を示す。

Although synthetic test problems are widely used for the performance assessment of evolutionary multi-objective optimization algorithms, they are likely to include unrealistic properties which may lead to overestimation/underestimation. To address this issue, we present a multi-objective optimization problem suite consisting of 16 bound-constrained real-world problems. The problem suite includes various problems in terms of the number of objectives, the shape of the Pareto front, and the type of design variables. 4 out of the 16 problems are multi-objective mixed-integer optimization problems. We provide Java, C, and Matlab source codes of the 16 problems so that they are available in an off-the-shelf manner. We examine an approximated Pareto front of each test problem. We also analyze the performance of six representative evolutionary multi-objective optimization algorithms on the 16 problems. In addition to the 16 problems, we present 8 constrained multi-objective real-world problems.
翻訳日:2022-10-14 03:16:04 公開日:2020-09-27
# 医用ビジュアル質問応答のための階層型ディープマルチモーダルネットワーク

Hierarchical Deep Multi-modal Network for Medical Visual Question Answering ( http://arxiv.org/abs/2009.12770v1 )

ライセンス: Link先を確認
Deepak Gupta, Swati Suman, Asif Ekbal(参考訳) 医療領域における視覚的質問応答(VQA-Med)は,エンドユーザに医療支援を提供する上で重要な役割を担っている。 これらのユーザは、イエス/ノーの直接的な質問か、詳細かつ説明的な回答を必要とする挑戦的な質問のいずれかを提起することが期待される。 vqa-medの既存のテクニックは、異なる質問タイプを区別できないため、単純な問題を複雑にしたり、複雑な問題を過度に単純化したりすることがある。 異なる質問タイプに対して、複数の異なるシステムがエンドユーザに混乱と不快をもたらすことは確かである。 この問題に対処するために,エンドユーザーの質問やクエリを分析し,分類する階層型深層マルチモーダルネットワークを提案する。 提案手法は,階層的質問分離に基づく視覚的質問応答,略してhqs-vqaと呼ぶ。 まず、VQAMedのQS(Qs)手法を提案し、第2に、QSモデルを階層的な深層マルチモーダルニューラルネットワークに統合し、医用画像に関するクエリに対する適切な回答を生成するとともに、第3に、提案モデルとQSのないモデルとを比較して、医療用VQAにおけるQSの影響について検討する。 提案したモデルの性能を2つのベンチマークデータセットであるvizで評価した。 RADとCLEF18。 実験の結果,提案手法がベースラインモデルよりも高いマージンを示した。 また,得られた結果の定量的,定性的な分析を行い,誤差とその解の潜在的な原因を発見する。

Visual Question Answering in Medical domain (VQA-Med) plays an important role in providing medical assistance to the end-users. These users are expected to raise either a straightforward question with a Yes/No answer or a challenging question that requires a detailed and descriptive answer. The existing techniques in VQA-Med fail to distinguish between the different question types sometimes complicates the simpler problems, or over-simplifies the complicated ones. It is certainly true that for different question types, several distinct systems can lead to confusion and discomfort for the end-users. To address this issue, we propose a hierarchical deep multi-modal network that analyzes and classifies end-user questions/queries and then incorporates a query-specific approach for answer prediction. We refer our proposed approach as Hierarchical Question Segregation based Visual Question Answering, in short HQS-VQA. Our contributions are three-fold, viz. firstly, we propose a question segregation (QS) technique for VQAMed; secondly, we integrate the QS model to the hierarchical deep multi-modal neural network to generate proper answers to the queries related to medical images; and thirdly, we study the impact of QS in Medical-VQA by comparing the performance of the proposed model with QS and a model without QS. We evaluate the performance of our proposed model on two benchmark datasets, viz. RAD and CLEF18. Experimental results show that our proposed HQS-VQA technique outperforms the baseline models with significant margins. We also conduct a detailed quantitative and qualitative analysis of the obtained results and discover potential causes of errors and their solutions.
翻訳日:2022-10-14 03:10:03 公開日:2020-09-27
# 訓練用DNNにおける正規化技術:方法論,解析,応用

Normalization Techniques in Training DNNs: Methodology, Analysis and Application ( http://arxiv.org/abs/2009.12836v1 )

ライセンス: Link先を確認
Lei Huang, Jie Qin, Yi Zhou, Fan Zhu, Li Liu, Ling Shao(参考訳) 正規化技術は深層ニューラルネットワーク(DNN)の訓練と一般化の促進に不可欠であり、様々な応用に成功している。 本稿では,DNNトレーニングにおける正規化手法の過去,現在,未来に関するレビューとコメントを行う。 我々は最適化の観点から異なるアプローチの背後にある主な動機を統一した図を示し,それらの類似点と相違点を理解するための分類法を提案する。 具体的には、最も代表的な正規化活性化法のパイプラインを、正規化領域分割、正規化操作、正規化表現回復の3つの構成要素に分解する。 そこで我々は,新しい正規化手法を設計するための洞察を与える。 最後に、正規化手法の理解の現在の進展を議論し、重要課題を効果的に解決できる特定のタスクに対する正規化の適用の包括的レビューを提供する。

Normalization techniques are essential for accelerating the training and improving the generalization of deep neural networks (DNNs), and have successfully been used in various applications. This paper reviews and comments on the past, present and future of normalization methods in the context of DNN training. We provide a unified picture of the main motivation behind different approaches from the perspective of optimization, and present a taxonomy for understanding the similarities and differences between them. Specifically, we decompose the pipeline of the most representative normalizing activation methods into three components: the normalization area partitioning, normalization operation and normalization representation recovery. In doing so, we provide insight for designing new normalization technique. Finally, we discuss the current progress in understanding normalization methods, and provide a comprehensive review of the applications of normalization for particular tasks, in which it can effectively solve the key issues.
翻訳日:2022-10-14 03:09:35 公開日:2020-09-27
# ハイブリッドトラヒックグラフによるインタラクションに基づく軌道予測

Interaction-Based Trajectory Prediction Over a Hybrid Traffic Graph ( http://arxiv.org/abs/2009.12916v1 )

ライセンス: Link先を確認
Sumit Kumar, Yiming Gu, Jerrick Hoang, Galen Clark Haynes, Micol Marchetti-Bowick(参考訳) 交通機関の行動予測は、現実の自動運転システムにおいて不可欠な要素である。 俳優の長期的な行動は、シーン内の他の俳優や交通要素(交通信号、停止標識)との相互作用によって制御される傾向がある。 この高度に複雑な相互作用構造を捉えるために,ノードがトラフィックアクターと静的および動的トラフィック要素の両方を表すハイブリッドグラフを提案する。 アクタとトラフィック要素間の時間的相互作用(例えば停止と移動)の異なるモードは、グラフエッジによって明示的にモデル化される。 この離散的相互作用型に関する明確な推論は、将来の動きを予測するだけでなく、自律運転のような安全クリティカルなアプリケーションにとって重要なモデルの解釈可能性を高める。 半教師付きで訓練されたグラフニューラルネットワークを用いて,アクターの軌跡やインタラクションタイプを予測する。 提案モデルであるTrafficGraphNetは,高い解釈性を維持しつつ,最先端の軌道予測精度を実現する。

Behavior prediction of traffic actors is an essential component of any real-world self-driving system. Actors' long-term behaviors tend to be governed by their interactions with other actors or traffic elements (traffic lights, stop signs) in the scene. To capture this highly complex structure of interactions, we propose to use a hybrid graph whose nodes represent both the traffic actors as well as the static and dynamic traffic elements present in the scene. The different modes of temporal interaction (e.g., stopping and going) among actors and traffic elements are explicitly modeled by graph edges. This explicit reasoning about discrete interaction types not only helps in predicting future motion, but also enhances the interpretability of the model, which is important for safety-critical applications such as autonomous driving. We predict actors' trajectories and interaction types using a graph neural network, which is trained in a semi-supervised manner. We show that our proposed model, TrafficGraphNet, achieves state-of-the-art trajectory prediction accuracy while maintaining a high level of interpretability.
翻訳日:2022-10-14 03:09:00 公開日:2020-09-27
# より高速な生物学的グラディエントDescent Learning

Faster Biological Gradient Descent Learning ( http://arxiv.org/abs/2009.12745v1 )

ライセンス: Link先を確認
Ho Ling Li(参考訳) バックプロパゲーション(back-propagation)は、ニューラルネットワークのトレーニングに勾配降下を用いる、一般的な機械学習アルゴリズムである。 収束を高速化し、学習の堅牢性を改善するために、多くのアルゴリズムが開発されている。 しかし、以前の更新情報を必要とするため、生物学的に実装するのは複雑である。 生物学におけるシナプスの競争に触発されて、過去の詳細を必要とせずにトレーニング時間を短縮できる単純で局所的な勾配勾配最適化アルゴリズムを考案した。 私たちのアルゴリズムはdynamic learning rate(dlr)と呼ばれ、バックプロパゲーションで使われる従来の勾配降下法と同様に動作するが、全てのシナプスに均一な学習率を持つ代わりに、学習速度は現在のニューロンの結合重みに依存する。 我々のアルゴリズムは、特に小さなネットワークで学習を高速化する。

Back-propagation is a popular machine learning algorithm that uses gradient descent in training neural networks for supervised learning, but can be very slow. A number of algorithms have been developed to speed up convergence and improve robustness of the learning. However, they are complicated to implement biologically as they require information from previous updates. Inspired by synaptic competition in biology, we have come up with a simple and local gradient descent optimization algorithm that can reduce training time, with no demand on past details. Our algorithm, named dynamic learning rate (DLR), works similarly to the traditional gradient descent used in back-propagation, except that instead of having a uniform learning rate across all synapses, the learning rate depends on the current neuronal connection weights. Our algorithm is found to speed up learning, particularly for small networks.
翻訳日:2022-10-14 03:08:45 公開日:2020-09-27
# リアルタイム意味画像セグメンテーションのための深層学習法に関する調査

A Survey on Deep Learning Methods for Semantic Image Segmentation in Real-Time ( http://arxiv.org/abs/2009.12942v1 )

ライセンス: Link先を確認
Georgios Takos(参考訳) セマンティクス画像のセグメンテーションは、様々なアプリケーションでコンピュータビジョンが急速に成長している分野の1つである。 ロボット工学や自動運転車などの多くの分野では、ピクセルレベルでのシーン理解に基づいてアクションを行うために必要なコンテキストを提供するため、セマンティックイメージのセグメンテーションが不可欠である。 さらに、医療診断や治療の成功は、検討中のデータの極めて正確な理解とセマンティック画像分割が、多くの場合において重要なツールの1つである。 ディープラーニングの最近の進歩は、この問題を効率的に、そして精度を高めるための多くのツールを提供している。 この研究は、画像セグメンテーションにおける最先端のディープラーニングアーキテクチャを包括的に分析し、さらに重要なことは、高速な推論と計算効率を達成するための幅広いテクニックのリストを提供する。 これらの技術の起源と強み、トレードオフは、この地域におけるそれらの影響の詳細な分析で論じられている。 最高のパフォーマンスのアーキテクチャは、これらの最先端の結果を達成するために使用されるメソッドのリストで要約される。

Semantic image segmentation is one of fastest growing areas in computer vision with a variety of applications. In many areas, such as robotics and autonomous vehicles, semantic image segmentation is crucial, since it provides the necessary context for actions to be taken based on a scene understanding at the pixel level. Moreover, the success of medical diagnosis and treatment relies on the extremely accurate understanding of the data under consideration and semantic image segmentation is one of the important tools in many cases. Recent developments in deep learning have provided a host of tools to tackle this problem efficiently and with increased accuracy. This work provides a comprehensive analysis of state-of-the-art deep learning architectures in image segmentation and, more importantly, an extensive list of techniques to achieve fast inference and computational efficiency. The origins of these techniques as well as their strengths and trade-offs are discussed with an in-depth analysis of their impact in the area. The best-performing architectures are summarized with a list of methods used to achieve these state-of-the-art results.
翻訳日:2022-10-14 03:07:12 公開日:2020-09-27