このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201110となっている論文です。

PDF登録状況(公開日: 20201110)

TitleAuthorsAbstract論文公表日・翻訳日
# DeepMark++: エッジでのリアルタイムクローン検出

DeepMark++: Real-time Clothing Detection at the Edge ( http://arxiv.org/abs/2006.00710v3 )

ライセンス: Link先を確認
Alexey Sidnev, Alexander Krapivin, Alexey Trushkov, Ekaterina Krasikova, Maxim Kazakov, Mikhail Viryasov(参考訳) 衣服認識は、ファッション領域における最も基本的なAIアプリケーションチャレンジである。 既存のソリューションは適切な認識精度を提供するが、一般的には遅く、かなりの計算資源を必要とする。 本稿では,この障害を克服し,迅速な衣服検出とキーポイント推定を実現するための単段アプローチを提案する。 提案手法は,マルチターゲットネットワークであるCenterNetをベースとして,性能向上のためのポストプロセッシング技術をいくつか導入する。 私たちの最も正確なモデルは、deepfashion2データセットの最先端ソリューションに匹敵する結果を達成し、軽量で高速なモデルはhuawei p40 proの17fpsで動作します。 さらに、テストデータセットの0.582 mAPでDeepFashion2 Landmark Estimation Challenge 2020で2位を獲得しました。

Clothing recognition is the most fundamental AI application challenge within the fashion domain. While existing solutions offer decent recognition accuracy, they are generally slow and require significant computational resources. In this paper we propose a single-stage approach to overcome this obstacle and deliver rapid clothing detection and keypoint estimation. Our solution is based on a multi-target network CenterNet, and we introduce several powerful post-processing techniques to enhance performance. Our most accurate model achieves results comparable to state-of-the-art solutions on the DeepFashion2 dataset, and our light and fast model runs at 17 FPS on the Huawei P40 Pro smartphone. In addition, we achieved second place in the DeepFashion2 Landmark Estimation Challenge 2020 with 0.582 mAP on the test dataset.
翻訳日:2022-11-26 07:16:19 公開日:2020-11-10
# 位置と対話的なマルチモーダル会話

Situated and Interactive Multimodal Conversations ( http://arxiv.org/abs/2006.01460v2 )

ライセンス: Link先を確認
Seungwhan Moon, Satwik Kottur, Paul A. Crook, Ankita De, Shivani Poddar, Theodore Levin, David Whitney, Daniel Difranco, Ahmad Beirami, Eunjoon Cho, Rajen Subba, Alborz Geramifard(参考訳) 次世代の仮想アシスタントは、マルチモーダル入力(例えば、ユーザの発話に加えて、以前のインタラクションの視覚、記憶)を処理し、マルチモーダルアクション(例えば、システムの発話生成に加えて経路を表示する)を行うように想定されている。 我々は,対話履歴に加えて,マルチモーダルな入力コンテキストを基盤としたマルチモーダルな動作を行う訓練エージェントを指向した,Situated Interactive MultiModal Conversations (SIMMC) を新たに導入する。 マルチモーダルWizard-of-Oz(WoZ)セットアップを用いて,2つのショッピングドメインに合計13K人の対話(~169K発話)を集計したSIMMCデータセットを提供する。 (a)家具(共有仮想環境内にあるもの)及び (b)ファッション(進化した画像のセットでグラウンド化)。 また,各場面に出現する項目のログと文脈的NLUおよびコア参照アノテーションを,ユーザおよびアシスタント発話のSIMMC会話行動の新しい統一フレームワークを用いて提供する。 最後に、構造化API予測や応答生成などの客観的評価プロトコルとして、SIMMC内のいくつかのタスクを提示する。 SIMMCタスク上の既存のモデルの集合を強力なベースラインとしてベンチマークし、リッチなマルチモーダル対話相互作用を示す。 私たちのデータ、アノテーション、コード、モデルは公開されています。

Next generation virtual assistants are envisioned to handle multimodal inputs (e.g., vision, memories of previous interactions, in addition to the user's utterances), and perform multimodal actions (e.g., displaying a route in addition to generating the system's utterance). We introduce Situated Interactive MultiModal Conversations (SIMMC) as a new direction aimed at training agents that take multimodal actions grounded in a co-evolving multimodal input context in addition to the dialog history. We provide two SIMMC datasets totalling ~13K human-human dialogs (~169K utterances) using a multimodal Wizard-of-Oz (WoZ) setup, on two shopping domains: (a) furniture (grounded in a shared virtual environment) and, (b) fashion (grounded in an evolving set of images). We also provide logs of the items appearing in each scene, and contextual NLU and coreference annotations, using a novel and unified framework of SIMMC conversational acts for both user and assistant utterances. Finally, we present several tasks within SIMMC as objective evaluation protocols, such as Structural API Prediction and Response Generation. We benchmark a collection of existing models on these SIMMC tasks as strong baselines, and demonstrate rich multimodal conversational interactions. Our data, annotations, code, and models are publicly available.
翻訳日:2022-11-25 23:09:19 公開日:2020-11-10
# RarePlanes: 合成データが飛行する

RarePlanes: Synthetic Data Takes Flight ( http://arxiv.org/abs/2006.02963v2 )

ライセンス: Link先を確認
Jacob Shermeyer, Thomas Hossler, Adam Van Etten, Daniel Hogan, Ryan Lewis, Daeil Kim(参考訳) RarePlanesは、実画像と合成画像の両方を組み込んだ、ユニークなオープンソースの機械学習データセットである。 RarePlanesデータセットは、コンピュータビジョンアルゴリズムが衛星画像中の航空機とその属性を自動的に検出する能力を支援するために、合成データの価値を特に重視している。 他の合成と実の組み合わせデータセットは存在するが、RarePlanesは、オーバーヘッドの観点から合成データの価値をテストするために構築された、オープンソースで利用可能な超高解像度データセットである。 これまでの研究では、合成データは必要な実際のトレーニングデータ量を減らし、コンピュータビジョン領域の多くのタスクのパフォーマンスを向上させる可能性があることが示されている。 データセットの実際の部分は、112箇所に2,142 km^2と14,700機の手書きの航空機を含む253 Maxar WorldView-3衛星シーンで構成されている。 付随する合成データセットはAI.Reverieのシミュレーションプラットフォームで生成され、合計面積9331.2 km^2の合成衛星画像5万枚と航空機のアノテーション630,000枚をシミュレートする。 実機と合成型の両方の航空機は、翼長、翼幅、翼配置、翼幅クラス、推進力、エンジン数、垂直安定剤の数、カナードの存在、航空機の役割を含む10の細かい粒度特性を備えている。 最後に,実データと合成データを比較実験し,実データと合成データを比較した。 そこで,本研究では,航空機の検出・分類作業における合成データの価値を頭上から示す。

RarePlanes is a unique open-source machine learning dataset that incorporates both real and synthetically generated satellite imagery. The RarePlanes dataset specifically focuses on the value of synthetic data to aid computer vision algorithms in their ability to automatically detect aircraft and their attributes in satellite imagery. Although other synthetic/real combination datasets exist, RarePlanes is the largest openly-available very-high resolution dataset built to test the value of synthetic data from an overhead perspective. Previous research has shown that synthetic data can reduce the amount of real training data needed and potentially improve performance for many tasks in the computer vision domain. The real portion of the dataset consists of 253 Maxar WorldView-3 satellite scenes spanning 112 locations and 2,142 km^2 with 14,700 hand-annotated aircraft. The accompanying synthetic dataset is generated via AI.Reverie's simulation platform and features 50,000 synthetic satellite images simulating a total area of 9331.2 km^2 with ~630,000 aircraft annotations. Both the real and synthetically generated aircraft feature 10 fine grain attributes including: aircraft length, wingspan, wing-shape, wing-position, wingspan class, propulsion, number of engines, number of vertical-stabilizers, presence of canards, and aircraft role. Finally, we conduct extensive experiments to evaluate the real and synthetic datasets and compare performances. By doing so, we show the value of synthetic data for the task of detecting and classifying aircraft from an overhead perspective.
翻訳日:2022-11-25 12:39:04 公開日:2020-11-10
# 二重発振リスクと容積飽和効果:幾何学的視点

Double Descent Risk and Volume Saturation Effects: A Geometric Perspective ( http://arxiv.org/abs/2006.04366v2 )

ライセンス: Link先を確認
Prasad Cheema, Mahito Sugiyama(参考訳) 複発リスク現象の出現は、U字型の列車試験曲線の背後にあるよく理解された概念に挑戦するため、機械学習と統計学コミュニティへの関心が高まっている。 リッサネンの最小記述長(MDL)、バラスラマニアのOccam's Razor、アマリの情報幾何を通して、モデル体積の対数:$\log V$は、AICとBICモデル選択基準の背景にある直観を拡張するためにどのように機能するかを考察する。 等方的線形回帰と統計格子の特定のモデルクラスに対して、$\log V$ 項は異なる成分の和に分解され、それぞれがこの現象の出現を説明するのに役立つ。 特に、一般化誤差がモデル次元の増加とともに必ずしも増大しない理由を示唆している。

The appearance of the double-descent risk phenomenon has received growing interest in the machine learning and statistics community, as it challenges well-understood notions behind the U-shaped train-test curves. Motivated through Rissanen's minimum description length (MDL), Balasubramanian's Occam's Razor, and Amari's information geometry, we investigate how the logarithm of the model volume: $\log V$, works to extend intuition behind the AIC and BIC model selection criteria. We find that for the particular model classes of isotropic linear regression and statistical lattices, the $\log V$ term may be decomposed into a sum of distinct components, each of which assist in their explanations of the appearance of this phenomenon. In particular they suggest why generalization error does not necessarily continue to grow with increasing model dimensionality.
翻訳日:2022-11-24 00:33:59 公開日:2020-11-10
# 後方対称性の破れによるベイズ行列因子の効率的なMCMCサンプリング

Efficient MCMC Sampling for Bayesian Matrix Factorization by Breaking Posterior Symmetries ( http://arxiv.org/abs/2006.04295v3 )

ライセンス: Link先を確認
Saibal De, Hadi Salehi, Alex Gorodetsky(参考訳) ベイズ低ランク行列分解技術は関係データ解析と行列補完に必須のツールとなっている。 標準的アプローチは、係数行列の列または列にゼロ平均ガウス前駆体を割り当てて共役系を作成することである。 この事前選択は単純な実装につながるが、マルコフ連鎖モンテカルロ(MCMC)サンプリング手法の効率を著しく低下させる後続分布の対称性を引き起こす。 本稿では,これらの対称性を解消し,精度を維持・改善する事前選択の簡単な修正を提案する。 具体的には、ガウス平均と共分散が満たさなければならない条件を提供するので、後部はサンプリング困難をもたらす不変性は示さない。 例えば,非ゼロ線形独立な先行手段を用いることでMCMCサンプルの自己相関が著しく低下し,再建誤差の低減につながることを示す。

Bayesian low-rank matrix factorization techniques have become an essential tool for relational data analysis and matrix completion. A standard approach is to assign zero-mean Gaussian priors on the columns or rows of factor matrices to create a conjugate system. This choice of prior leads to simple implementations; however it also causes symmetries in the posterior distribution that can severely reduce the efficiency of Markov-chain Monte-Carlo (MCMC) sampling approaches. In this paper, we propose a simple modification to the prior choice that provably breaks these symmetries and maintains/improves accuracy. Specifically, we provide conditions that the Gaussian prior mean and covariance must satisfy so the posterior does not exhibit invariances that yield sampling difficulties. For example, we show that using non-zero linearly independent prior means significantly lowers the autocorrelation of MCMC samples, and can also lead to lower reconstruction errors.
翻訳日:2022-11-24 00:24:37 公開日:2020-11-10
# 波動画像の幾何学的学習

Learning the geometry of wave-based imaging ( http://arxiv.org/abs/2006.05854v3 )

ライセンス: Link先を確認
Konik Kothari, Maarten de Hoop, Ivan Dokmani\'c(参考訳) 本稿では,波動画像問題に対する一般物理に基づくディープラーニングアーキテクチャを提案する。 背景波速度の異なる撮像問題の鍵となる問題は、媒質がその位置や方向によって異なる波を「束ねる」ことである。 この空間分割幾何により、畳み込みネットワークの変換に対する同値性は望ましくない帰納的バイアスとなる。 我々は、フーリエ積分作用素(fios)に触発された解釈可能なニューラルネットワークを構築し、波動物理学を近似する。 FIOは地震学やレーダーからドップラーや超音波まで幅広い画像モダリティをモデル化している。 我々は,データに暗黙的なfiosが捉えた波動伝搬の幾何構造を,最適輸送に基づく損失を通して学習することに焦点を当てる。 提案するフィオネットは,多くの画像逆問題,特に分布外テストにおいて,通常のベースラインよりも著しく優れた性能を示す。

We propose a general physics-based deep learning architecture for wave-based imaging problems. A key difficulty in imaging problems with a varying background wave speed is that the medium "bends" the waves differently depending on their position and direction. This space-bending geometry makes the equivariance to translations of convolutional networks an undesired inductive bias. We build an interpretable neural architecture inspired by Fourier integral operators (FIOs) which approximate the wave physics. FIOs model a wide range of imaging modalities, from seismology and radar to Doppler and ultrasound. We focus on learning the geometry of wave propagation captured by FIOs, which is implicit in the data, via a loss based on optimal transport. The proposed FIONet performs significantly better than the usual baselines on a number of imaging inverse problems, especially in out-of-distribution tests.
翻訳日:2022-11-23 06:27:00 公開日:2020-11-10
# 表現学習のための自己教師付き関係推論

Self-Supervised Relational Reasoning for Representation Learning ( http://arxiv.org/abs/2006.05849v3 )

ライセンス: Link先を確認
Massimiliano Patacchiola and Amos Storkey(参考訳) 自己教師あり学習において、システムはラベルなしデータの集合上の代替目標を定義することによって、代理目的を達成することを任務とする。 その目的は、コストのかかる手動アノテーションなしで、ダウンストリームタスクで使用できる便利な表現を構築することである。 本研究では,学習者がラベルなしデータに暗黙の情報から信号をブートストラップできる関係推論の自己教師あり定式化を提案する。 リレーションヘッドをトレーニングして、エンティティが自分自身(イントラ推論)や他のエンティティ(イントラ推論)とどのように関連しているかを識別し、基盤となるニューラルネットワークのバックボーンにリッチで記述的な表現をもたらし、分類や画像検索などの下流タスクで使用することができる。 標準データセット,プロトコル,バックボーンを用いて,厳密な実験手順に従って提案手法を評価する。 自己教師付きリレーショナル推論は、すべての条件において、平均14%の精度でベストコンペティタを上回り、最新の最新モデルでは3%も上回っている。 本手法の有効性をベルヌーイログ類似度(bernolli log-likelihood)の最大化と結びつけ,相互情報の最大化の指標として考察した。

In self-supervised learning, a system is tasked with achieving a surrogate objective by defining alternative targets on a set of unlabeled data. The aim is to build useful representations that can be used in downstream tasks, without costly manual annotation. In this work, we propose a novel self-supervised formulation of relational reasoning that allows a learner to bootstrap a signal from information implicit in unlabeled data. Training a relation head to discriminate how entities relate to themselves (intra-reasoning) and other entities (inter-reasoning), results in rich and descriptive representations in the underlying neural network backbone, which can be used in downstream tasks such as classification and image retrieval. We evaluate the proposed method following a rigorous experimental procedure, using standard datasets, protocols, and backbones. Self-supervised relational reasoning outperforms the best competitor in all conditions by an average 14% in accuracy, and the most recent state-of-the-art model by 3%. We link the effectiveness of the method to the maximization of a Bernoulli log-likelihood, which can be considered as a proxy for maximizing the mutual information, resulting in a more efficient objective with respect to the commonly used contrastive losses.
翻訳日:2022-11-23 04:41:04 公開日:2020-11-10
# ベイジアンアクティブラーニングによるオンザフライクローズドループ自律材料発見

On-the-fly Closed-loop Autonomous Materials Discovery via Bayesian Active Learning ( http://arxiv.org/abs/2006.06141v2 )

ライセンス: Link先を確認
A. Gilad Kusne, Heshan Yu, Changming Wu, Huairuo Zhang, Jason Hattrick-Simpers, Brian DeCost, Suchismita Sarker, Corey Oses, Cormac Toher, Stefano Curtarolo, Albert V. Davydov, Ritesh Agarwal, Leonid A. Bendersky, Mo Li, Apurva Mehta, Ichiro Takeuchi(参考訳) 最適な実験設計に特化した機械学習(ML)の分野であるアクティブ・ラーニング(Active Learning)は、ラプラスが天体力学の発見を導くのに使用した18世紀まで科学において重要な役割を果たしてきた。 この研究では、クローズドループでアクティブな学習駆動の自律システムに注目し、さらに大きな課題である、非常に複雑な合成プロセス-構造-プロパティのランドスケープに対する高度な素材の発見に焦点をあてています。 我々は、複雑で高度な材料を到達可能な自律的な研究方法論(すなわち自律的な仮説定義と評価)を示し、科学者がより賢く失敗し、より速く学習し、研究にリソースを消費し、同時に科学的結果と機械学習ツールへの信頼を向上させる。 さらに、このロボット科学は、ネットワーク上の科学を可能にし、科学者の経済的影響を研究室から物理的に分離する。 放射光線における材料探索・最適化(CAMEO)のためのリアルタイム閉ループ自律システムを用いて,高速位相マッピングと特性最適化の基本的な相互接続タスクを高速化し,各サイクルに数秒から数分を要し,新しいエピタキシャルナノコンポジット相変化メモリ材料が発見された。

Active learning - the field of machine learning (ML) dedicated to optimal experiment design, has played a part in science as far back as the 18th century when Laplace used it to guide his discovery of celestial mechanics [1]. In this work we focus a closed-loop, active learning-driven autonomous system on another major challenge, the discovery of advanced materials against the exceedingly complex synthesis-processes-structure-property landscape. We demonstrate autonomous research methodology (i.e. autonomous hypothesis definition and evaluation) that can place complex, advanced materials in reach, allowing scientists to fail smarter, learn faster, and spend less resources in their studies, while simultaneously improving trust in scientific results and machine learning tools. Additionally, this robot science enables science-over-the-network, reducing the economic impact of scientists being physically separated from their labs. We used the real-time closed-loop, autonomous system for materials exploration and optimization (CAMEO) at the synchrotron beamline to accelerate the fundamentally interconnected tasks of rapid phase mapping and property optimization, with each cycle taking seconds to minutes, resulting in the discovery of a novel epitaxial nanocomposite phase-change memory material.
翻訳日:2022-11-22 14:26:57 公開日:2020-11-10
# 分類器非依存な逆ロバスト性下限

Classifier-independent Lower-Bounds for Adversarial Robustness ( http://arxiv.org/abs/2006.09989v6 )

ライセンス: Link先を確認
Elvis Dohmatob(参考訳) 理論的には、テストタイムの逆数と雑音の分類例に対する堅牢性の限界を分析する。 我々の研究は、与えられた問題に対してすべての分類器(すなわち、特徴からラベルへの可測関数)に一様に適用される境界の導出に焦点を当てている。 私たちの貢献は2倍です。 1) 最適輸送理論を用いて, 分類器が与えられた分類問題に対して, 逆攻撃の対象となるベイズ最適誤差の変分公式を導出する。 最適対向攻撃は、特定の攻撃モデルによって誘導される特定のバイナリコスト関数に対する最適な輸送計画であり、二部グラフ上の最大マッチングに基づく単純なアルゴリズムで計算できる。 (2)一般的な距離ベース攻撃の場合,ベイズ最適誤差の明示的な下限を導出する。 これらの境界は、データのクラス条件分布の幾何学に依存するという意味で普遍的であるが、特定の分類器には依存しない。 本研究の結果は,非ゼロな通常のテストエラーの結果,分類器の逆の脆弱性が引き起こされる,既存の文献と対照的である。

We theoretically analyse the limits of robustness to test-time adversarial and noisy examples in classification. Our work focuses on deriving bounds which uniformly apply to all classifiers (i.e all measurable functions from features to labels) for a given problem. Our contributions are two-fold. (1) We use optimal transport theory to derive variational formulae for the Bayes-optimal error a classifier can make on a given classification problem, subject to adversarial attacks. The optimal adversarial attack is then an optimal transport plan for a certain binary cost-function induced by the specific attack model, and can be computed via a simple algorithm based on maximal matching on bipartite graphs. (2) We derive explicit lower-bounds on the Bayes-optimal error in the case of the popular distance-based attacks. These bounds are universal in the sense that they depend on the geometry of the class-conditional distributions of the data, but not on a particular classifier. Our results are in sharp contrast with the existing literature, wherein adversarial vulnerability of classifiers is derived as a consequence of nonzero ordinary test error.
翻訳日:2022-11-19 18:59:29 公開日:2020-11-10
# 非パラメトリック因果グラフ学習のための多項式時間アルゴリズム

A polynomial-time algorithm for learning nonparametric causal graphs ( http://arxiv.org/abs/2006.11970v2 )

ライセンス: Link先を確認
Ming Gao, Yi Ding, Bryon Aragam(参考訳) データから非線形非パラメトリック有向非巡回グラフ(DAG)モデルを学習するための多項式時間アルゴリズムの有限サンプル保証を確立する。 解析はモデルフリーであり、線形性、付加性、独立ノイズ、忠実性を仮定しない。 代わりに、同じ分散を持つ線形モデルにおける以前の仕事と密接に関連した残差分散に条件を課す。 可変順序付けに関するoracleの知識を持つ最適なアルゴリズムと比較すると、アルゴリズムの追加コストは次元$d$とサンプル数$n$で線形である。 最後に,提案手法と既存手法との比較を行った。

We establish finite-sample guarantees for a polynomial-time algorithm for learning a nonlinear, nonparametric directed acyclic graphical (DAG) model from data. The analysis is model-free and does not assume linearity, additivity, independent noise, or faithfulness. Instead, we impose a condition on the residual variances that is closely related to previous work on linear models with equal variances. Compared to an optimal algorithm with oracle knowledge of the variable ordering, the additional cost of the algorithm is linear in the dimension $d$ and the number of samples $n$. Finally, we compare the proposed algorithm to existing approaches in a simulation study.
翻訳日:2022-11-18 05:29:11 公開日:2020-11-10
# 三角形写像を用いた高速かつフレキシブルな時間点過程

Fast and Flexible Temporal Point Processes with Triangular Maps ( http://arxiv.org/abs/2006.12631v2 )

ライセンス: Link先を確認
Oleksandr Shchur, Nicholas Gao, Marin Bilo\v{s}, Stephan G\"unnemann(参考訳) 時間的ポイントプロセス(tpp)モデルとリカレントニューラルネットワークの組み合わせは、連続時間イベントデータをモデリングするための強力なフレームワークを提供する。 このようなモデルは柔軟であるが、本質的にシーケンシャルであるため、現代のハードウェアの並列性から恩恵を受けることはできない。 流れの正規化の分野における最近の発展を生かして、サンプリングと確率計算の両方を並列に行う、TriTPP -- 新たな非リカレントTPPモデルのクラスを設計する。 TriTPPはRNNベースのメソッドの柔軟性にマッチするが、より高速なサンプリングが可能である。 これにより、連続時間離散状態系の変分推論に新しいモデルを使用することができる。 合成および実世界のデータセットにおける提案フレームワークの利点を実証する。

Temporal point process (TPP) models combined with recurrent neural networks provide a powerful framework for modeling continuous-time event data. While such models are flexible, they are inherently sequential and therefore cannot benefit from the parallelism of modern hardware. By exploiting the recent developments in the field of normalizing flows, we design TriTPP -- a new class of non-recurrent TPP models, where both sampling and likelihood computation can be done in parallel. TriTPP matches the flexibility of RNN-based methods but permits orders of magnitude faster sampling. This enables us to use the new model for variational inference in continuous-time discrete-state systems. We demonstrate the advantages of the proposed framework on synthetic and real-world datasets.
翻訳日:2022-11-18 05:10:41 公開日:2020-11-10
# 画像分類のためのオンラインバイレベル最適化による学習データ強化

Learning Data Augmentation with Online Bilevel Optimization for Image Classification ( http://arxiv.org/abs/2006.14699v2 )

ライセンス: Link先を確認
Saypraseuth Mounsaveng, Issam Laradji, Ismail Ben Ayed, David Vazquez, Marco Pedersoli(参考訳) データ拡張は、一般化性能を改善するための機械学習の重要なプラクティスである。 しかし、最高のデータ拡張ハイパーパラメータを見つけるには、ドメイン知識や計算上要求される検索が必要である。 本稿では,変換の効果的な分布を学習し,その一般化を改善するためのネットワークの自動学習手法を提案する。 バイレベル最適化を用いて,検証セットを用いてデータ拡張パラメータを直接最適化する。 このフレームワークは、分類器のようなエンドタスクモデルと共同で最適なデータ拡張を学ぶための一般的なソリューションとして使用できる。 以上の結果から,共同学習法では,手作りデータ拡張法に比べて画像分類精度が向上し,精度も向上した。 しかし、データ拡張ハイパーパラメータに関する高価な外部検証ループは必要ない。

Data augmentation is a key practice in machine learning for improving generalization performance. However, finding the best data augmentation hyperparameters requires domain knowledge or a computationally demanding search. We address this issue by proposing an efficient approach to automatically train a network that learns an effective distribution of transformations to improve its generalization. Using bilevel optimization, we directly optimize the data augmentation parameters using a validation set. This framework can be used as a general solution to learn the optimal data augmentation jointly with an end task model like a classifier. Results show that our joint training method produces an image classification accuracy that is comparable to or better than carefully hand-crafted data augmentation. Yet, it does not need an expensive external validation loop on the data augmentation hyperparameters.
翻訳日:2022-11-17 02:55:08 公開日:2020-11-10
# 質問応答における潜在構成表現による体系的一般化の改善

Latent Compositional Representations Improve Systematic Generalization in Grounded Question Answering ( http://arxiv.org/abs/2007.00266v3 )

ライセンス: Link先を確認
Ben Bogin, Sanjay Subramanian, Matt Gardner, Jonathan Berant(参考訳) 複数段階の推論を含む質問に答えるには、それらを分解し、中間ステップの回答を使用して最終回答に到達する必要がある。 しかしながら、接地質問応答における最先端のモデルは、しばしば分解を明示的に行わないため、分散例への一般化が困難になる。 そこで本研究では,CKY型構文解析器を用いたボトムアップ・コンポジション方式で,全ての質問に対する表現と記述を計算したモデルを提案する。 私たちのモデルは、エンドツーエンド(回答)の監視のみによって駆動される潜木を誘導します。 本稿では,木構造に対する帰納的バイアスが,算術式ベンチマークの強いベースラインや,接地質問応答の体系的一般化に焦点を当てたデータセットであるクロージャと比較して,分布外例への系統的一般化を劇的に改善することを示す。 この困難なデータセットでは、このモデルは96.1%の精度に達し、ランダムな分散分割でタスクをほぼ完全に解決する以前のモデルよりもかなり高い。

Answering questions that involve multi-step reasoning requires decomposing them and using the answers of intermediate steps to reach the final answer. However, state-of-the-art models in grounded question answering often do not explicitly perform decomposition, leading to difficulties in generalization to out-of-distribution examples. In this work, we propose a model that computes a representation and denotation for all question spans in a bottom-up, compositional manner using a CKY-style parser. Our model induces latent trees, driven by end-to-end (the answer) supervision only. We show that this inductive bias towards tree structures dramatically improves systematic generalization to out-of-distribution examples, compared to strong baselines on an arithmetic expressions benchmark as well as on CLOSURE, a dataset that focuses on systematic generalization for grounded question answering. On this challenging dataset, our model reaches an accuracy of 96.1%, significantly higher than prior models that almost perfectly solve the task on a random, in-distribution split.
翻訳日:2022-11-14 21:42:47 公開日:2020-11-10
# 繰り返し生成フィードバックを持つニューラルネットワーク

Neural Networks with Recurrent Generative Feedback ( http://arxiv.org/abs/2007.09200v2 )

ライセンス: Link先を確認
Yujia Huang, James Gornet, Sihui Dai, Zhiding Yu, Tan Nguyen, Doris Y. Tsao, Anima Anandkumar(参考訳) ニューラルネットワークは、付加ノイズや逆攻撃などの入力摂動に対して脆弱である。 対照的に、人間の知覚はそのような摂動に対してより頑丈である。 ベイズ脳仮説では、人間の脳は感覚入力の後の信念を更新するために内部生成モデルを使用する。 このメカニズムは、内部生成モデルにおけるMAP推定の最大値と外部環境との間の自己整合性の形式として解釈することができる。 このような仮説に触発されて,生成的反復フィードバックを取り入れ,ニューラルネットワークの自己一貫性を強制する。 畳み込みニューラルネットワーク(CNN)でこの設計をインスタンス化する。 The proposed framework, called Convolutional Neural Networks with Feedback (CNN-F)は、既存のCNNアーキテクチャに潜伏変数による生成フィードバックを導入し、ベイズフレームワークの下でMAP推論を交互に行う。 実験では、cnn-fは標準ベンチマークで従来のfeedforward cnnよりもかなり頑健であることを示した。

Neural networks are vulnerable to input perturbations such as additive noise and adversarial attacks. In contrast, human perception is much more robust to such perturbations. The Bayesian brain hypothesis states that human brains use an internal generative model to update the posterior beliefs of the sensory input. This mechanism can be interpreted as a form of self-consistency between the maximum a posteriori (MAP) estimation of an internal generative model and the external environment. Inspired by such hypothesis, we enforce self-consistency in neural networks by incorporating generative recurrent feedback. We instantiate this design on convolutional neural networks (CNNs). The proposed framework, termed Convolutional Neural Networks with Feedback (CNN-F), introduces a generative feedback with latent variables to existing CNN architectures, where consistent predictions are made through alternating MAP inference under a Bayesian framework. In the experiments, CNN-F shows considerably improved adversarial robustness over conventional feedforward CNNs on standard benchmarks.
翻訳日:2022-11-09 12:47:04 公開日:2020-11-10
# 時間周波数散乱による楽器演奏の音響的類似性

Time-Frequency Scattering Accurately Models Auditory Similarities Between Instrumental Playing Techniques ( http://arxiv.org/abs/2007.10926v2 )

ライセンス: Link先を確認
Vincent Lostanlen, Christian El-Hajj, Mathias Rossignol, Gr\'egoire Lafay, Joakim And\'en and Mathieu Lagrange(参考訳) ヴィブラート、グリッサンドス、トリルといった楽器演奏技法は、古典的・民謡的な文脈において、しばしば音楽の表現力を表す。 しかし、既存の音楽類似性検索のアプローチのほとんどは、いわゆる「順序」技法を超えて音色を記述できず、音色品質の代理として楽器のアイデンティティを使用し、新しい主題の知覚的慣用性へのカスタマイズを許さない。 本稿では,31名の被験者に対して,78個の孤立音符を音色クラスタに整理するように依頼する。 彼らの反応を分析すると、音色知覚は楽器や演奏技術だけで提供されるものよりも柔軟な分類の範囲内で動作することが示唆される。 また, 楽器, ミュート, 技法間の聴覚類似度のクラスターグラフを復元する機械聴力モデルを提案する。 我々のモデルは、音響特性として分光時間変調を抽出するために、結合時間周波数散乱特性に依存している。 さらに, クラスタグラフの3重項損失を, 隣り合う大行列(LMNN)距離学習アルゴリズムを用いて最小化する。 9346の孤立したノートのデータセット上で、最先端の平均精度をランク5(AP@5)99.0\%\pm1$で報告する。 アブレーション研究では、結合時間周波数散乱変換またはメートル法学習アルゴリズムが顕著に性能を劣化させることを示した。

Instrumental playing techniques such as vibratos, glissandos, and trills often denote musical expressivity, both in classical and folk contexts. However, most existing approaches to music similarity retrieval fail to describe timbre beyond the so-called "ordinary" technique, use instrument identity as a proxy for timbre quality, and do not allow for customization to the perceptual idiosyncrasies of a new subject. In this article, we ask 31 human subjects to organize 78 isolated notes into a set of timbre clusters. Analyzing their responses suggests that timbre perception operates within a more flexible taxonomy than those provided by instruments or playing techniques alone. In addition, we propose a machine listening model to recover the cluster graph of auditory similarities across instruments, mutes, and techniques. Our model relies on joint time--frequency scattering features to extract spectrotemporal modulations as acoustic features. Furthermore, it minimizes triplet loss in the cluster graph by means of the large-margin nearest neighbor (LMNN) metric learning algorithm. Over a dataset of 9346 isolated notes, we report a state-of-the-art average precision at rank five (AP@5) of $99.0\%\pm1$. An ablation study demonstrates that removing either the joint time--frequency scattering transform or the metric learning algorithm noticeably degrades performance.
翻訳日:2022-11-08 05:55:52 公開日:2020-11-10
# ユーザレビューのためのアプリアウェア応答合成

App-Aware Response Synthesis for User Reviews ( http://arxiv.org/abs/2007.15793v3 )

ライセンス: Link先を確認
Umar Farooq, A.B. Siddique, Fuad Jamour, Zhijia Zhao, Vagelis Hristidis(参考訳) ユーザレビューに対する反応は、アプリケーションの人気と成功の鍵となるアプリケーションレーティングを、迅速かつ良好に改善します。 このようなレビューの拡散は、開発者が手動で対応し続けることを事実上不可能にする。 この課題に対処するため、最近の研究は自動応答生成の可能性を示している。 しかし、トレーニングレビューとレスポンスのペアは多くの異なるアプリから集約されているため、これらのモデルがアプリ固有の応答を生成することは依然として困難であり、一方、アプリが異なる機能と関心を持っているため、しばしば望ましい。 個々のアプリにはレビューとレスポンスのペアが限られており、そのようなペアは一般的に、新しいレビューに対応するために必要な関連情報が欠けているため、アプリごとにモデルを構築するだけでは解決できない。 アプリ固有の応答生成を可能にするために,アプリケーション対応応答合成システムであるAARSynthを提案する。 AARSynthの背景にある重要なアイデアは、特定のアプリ固有の情報でSeq2seqモデルを拡張することだ。 新しいユーザーレビューをすると、最初に最も関連するアプリレビューのトップkと最も関連するスニペットをアプリ説明から取り出す。 得られた情報と新しいユーザーレビューは、seq2seqモデルと機械学習理解モデルを統合する融合機械学習モデルに送られます。 後者は、検索したレビューとアプリ記述の消化に役立つ。 最後に、融合モデルは、所定のアプリにカスタマイズされたレスポンスを生成する。 AARSynthをGoogle Playから大量のレビューとレスポンスを用いて評価した。 その結果,aarsynth は bleu-4 スコアで 22.2% の差を示した。 さらに,AARSynthは,最先端システムと比較して,応答品質が統計的に有意に向上していることを示す。

Responding to user reviews promptly and satisfactorily improves application ratings, which is key to application popularity and success. The proliferation of such reviews makes it virtually impossible for developers to keep up with responding manually. To address this challenge, recent work has shown the possibility of automatic response generation. However, because the training review-response pairs are aggregated from many different apps, it remains challenging for such models to generate app-specific responses, which, on the other hand, are often desirable as apps have different features and concerns. Solving the challenge by simply building a model per app (i.e., training with review-response pairs of a single app) may be insufficient because individual apps have limited review-response pairs, and such pairs typically lack the relevant information needed to respond to a new review. To enable app-specific response generation, this work proposes AARSynth: an app-aware response synthesis system. The key idea behind AARSynth is to augment the seq2seq model with information specific to a given app. Given a new user review, it first retrieves the top-K most relevant app reviews and the most relevant snippet from the app description. The retrieved information and the new user review are then fed into a fused machine learning model that integrates the seq2seq model with a machine reading comprehension model. The latter helps digest the retrieved reviews and app description. Finally, the fused model generates a response that is customized to the given app. We evaluated AARSynth using a large corpus of reviews and responses from Google Play. The results show that AARSynth outperforms the state-of-the-art system by 22.2% on BLEU-4 score. Furthermore, our human study shows that AARSynth produces a statistically significant improvement in response quality compared to the state-of-the-art system.
翻訳日:2022-11-04 07:15:17 公開日:2020-11-10
# 経路依存構造方程式モデル

Path Dependent Structural Equation Models ( http://arxiv.org/abs/2008.10706v2 )

ライセンス: Link先を確認
Ranjani Srinivasan, Jaron Lee, Rohit Bhattacharya, Narges Ahmidi, Ilya Shpitser(参考訳) 縦断データの因果分析は一般に、変数に関連する定性的因果構造が時間とともに不変であると仮定する。 離散時間ステップで定性的に異なる状態間を遷移する構造化システムでは、そのようなアプローチは2つのフロントで不十分である。 まず、時間変化変数は、キャプチャが必要な状態固有の因果関係を持つ。 第二に、介入は、データで実際に観察されたものと異なる介入の下流の状態遷移をもたらす。 言い換えれば、介入はその後のシステムの時間的進化を事実上変える可能性がある。 このようなシステムを記述するための因果的グラフィカルモデルであるパス依存構造方程式モデル(pdsems)の一般化を提案する。 このようなモデルでどのように因果推論を行うかを示し, 外科手術で得られたシミュレーションやデータについて述べる。

Causal analyses of longitudinal data generally assume that the qualitative causal structure relating variables remains invariant over time. In structured systems that transition between qualitatively different states in discrete time steps, such an approach is deficient on two fronts. First, time-varying variables may have state-specific causal relationships that need to be captured. Second, an intervention can result in state transitions downstream of the intervention different from those actually observed in the data. In other words, interventions may counterfactually alter the subsequent temporal evolution of the system. We introduce a generalization of causal graphical models, Path Dependent Structural Equation Models (PDSEMs), that can describe such systems. We show how causal inference may be performed in such models and illustrate its use in simulations and data obtained from a septoplasty surgical procedure.
翻訳日:2022-10-25 12:44:43 公開日:2020-11-10
# 拡張分類器スター生成型adversarial networkを用いた非並列音声変換

Nonparallel Voice Conversion with Augmented Classifier Star Generative Adversarial Networks ( http://arxiv.org/abs/2008.12604v7 )

ライセンス: Link先を確認
Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo(参考訳) 我々は以前に、StarGANと呼ばれるGAN(Generative Adversarial Network)の変種を用いて、非並列音声変換(VC)を可能にする方法を提案した。 stargan-vc法の主な特徴は以下のとおりである。 まず、音声生成訓練のために並列発話、転写、時間アライメントの手順を必要としない。 第二に、単一のジェネレータネットワークを使用して複数のドメイン間のマッピングを同時に学習し、複数のドメインから収集されたトレーニングデータをフル活用して、すべてのドメインに共通する潜伏した特徴をキャプチャする。 第3に、リアルタイム実装を可能にするのに十分な速さで変換された音声信号を生成でき、合理的に現実的な音声を生成するためのトレーニング例をほんの数分しか必要としない。 本稿では,新たに導入されたstargan変種である"augmented classifier stargan (a-stargan)"を含むstarganの3つの定式化を,非並列vcタスクで比較する。 また,いくつかのベースライン手法と比較した。

We previously proposed a method that allows for nonparallel voice conversion (VC) by using a variant of generative adversarial networks (GANs) called StarGAN. The main features of our method, called StarGAN-VC, are as follows: First, it requires no parallel utterances, transcriptions, or time alignment procedures for speech generator training. Second, it can simultaneously learn mappings across multiple domains using a single generator network and thus fully exploit available training data collected from multiple domains to capture latent features that are common to all the domains. Third, it can generate converted speech signals quickly enough to allow real-time implementations and requires only several minutes of training examples to generate reasonably realistic-sounding speech. In this paper, we describe three formulations of StarGAN, including a newly introduced novel StarGAN variant called "Augmented classifier StarGAN (A-StarGAN)", and compare them in a nonparallel VC task. We also compare them with several baseline methods.
翻訳日:2022-10-24 08:20:26 公開日:2020-11-10
# ピッチと音声品質を考慮した畳み込み音声認識

Convolutional Speech Recognition with Pitch and Voice Quality Features ( http://arxiv.org/abs/2009.01309v2 )

ライセンス: Link先を確認
Guillermo C\'ambara, Jordi Luque and Mireia Farr\'us(参考訳) 本研究は、自動音声認識のための最先端cnnモデルに、ピッチやjitterやshimmerなどの音声品質特性を加えることによる効果について検討した。 ピッチ機能は従来、古典的なhmmやdnnベースラインの改善に用いられてきたが、jitterやshimmerパラメータは話者や感情認識といったタスクに有用であることが証明されている。 私たちの知る限り、このようなピッチと音声品質の機能を現代的な畳み込みアーキテクチャと組み合わせた最初の作品であり、それぞれ公開のスペイン語共通音声データセットとLibriSpeech 100hデータセットに対して、7%と3%の相対的なWERポイントが改善されている。 特に,これらの特徴をメル周波数スペクトル係数(MFSC)と組み合わせて,Gated Linear Units(Conv GLUs)を用いた畳み込み構造を学習する。 このようなモデルは少ない単語誤り率を示し、オンラインストリーミング認識のユースケースでは並列処理に非常に適している。 我々は、facebookのwav2letter音声認識フレームワークにピッチと音声品質機能を追加し、さらに実験を続けるために、そのようなコードとレシピをコミュニティに提供する。 さらに、私たちの知る限りでは、スペイン語の共通音声レシピはwav2letterの最初の公開スペイン語レシピです。

The effects of adding pitch and voice quality features such as jitter and shimmer to a state-of-the-art CNN model for Automatic Speech Recognition are studied in this work. Pitch features have been previously used for improving classical HMM and DNN baselines, while jitter and shimmer parameters have proven to be useful for tasks like speaker or emotion recognition. Up to our knowledge, this is the first work combining such pitch and voice quality features with modern convolutional architectures, showing improvements up to 7% and 3% relative WER points, for the publicly available Spanish Common Voice and LibriSpeech 100h datasets, respectively. Particularly, our work combines these features with mel-frequency spectral coefficients (MFSCs) to train a convolutional architecture with Gated Linear Units (Conv GLUs). Such models have shown to yield small word error rates, while being very suitable for parallel processing for online streaming recognition use cases. We have added pitch and voice quality functionality to Facebook's wav2letter speech recognition framework, and we provide with such code and recipes to the community, to carry on with further experiments. Besides, to the best of our knowledge, our Spanish Common Voice recipe is the first public Spanish recipe for wav2letter.
翻訳日:2022-10-22 19:02:06 公開日:2020-11-10
# 変動係数を有するマルチロス重み付け

Multi-Loss Weighting with Coefficient of Variations ( http://arxiv.org/abs/2009.01717v2 )

ライセンス: Link先を確認
Rick Groenendijk, Sezer Karaoglu, Theo Gevers, Thomas Mensink(参考訳) 機械学習とコンピュータビジョンにおける多くの興味深いタスクは、複数の損失の重み付き線形結合として定義される目的関数を最適化することで学習される。 最終的なパフォーマンスは、これらの損失に対して正しい(相対的な)重みを選択することに敏感である。 良い重みの集合を見つけることは、しばしば、広範グリッドサーチを用いて設定されるハイパーパラメータの集合にそれらを取り入れることによって行われる。 これは計算コストが高い。 本稿では,変形係数に基づく重み付けスキームを提案し,モデルの学習中に観測された特性に基づいて重み付けをセットする。 提案手法では,損失のバランスをとるための不確実性尺度が組み込まれており,その結果,他の(学習に基づく)最適化を必要とせず,トレーニング中に損失重みが進化する。 文献における多くの損失重み付け手法とは対照的に,単眼深度推定やセマンティクスセグメンテーションといったシングルタスクのマルチロス問題に着目し,損失重み付けのマルチタスクアプローチがそれらのシングルタスクでは機能しないことを示す。 提案手法の有効性は,複数のデータセット上での深度推定とセマンティックセグメンテーションに実証的に示される。

Many interesting tasks in machine learning and computer vision are learned by optimising an objective function defined as a weighted linear combination of multiple losses. The final performance is sensitive to choosing the correct (relative) weights for these losses. Finding a good set of weights is often done by adopting them into the set of hyper-parameters, which are set using an extensive grid search. This is computationally expensive. In this paper, we propose a weighting scheme based on the coefficient of variations and set the weights based on properties observed while training the model. The proposed method incorporates a measure of uncertainty to balance the losses, and as a result the loss weights evolve during training without requiring another (learning based) optimisation. In contrast to many loss weighting methods in literature, we focus on single-task multi-loss problems, such as monocular depth estimation and semantic segmentation, and show that multi-task approaches for loss weighting do not work on those single-tasks. The validity of the approach is shown empirically for depth estimation and semantic segmentation on multiple datasets.
翻訳日:2022-10-22 07:00:28 公開日:2020-11-10
# upb at semeval-2020 task 8: joint textual and visual modeling in a multi-task learning architecture for memotion analysis

UPB at SemEval-2020 Task 8: Joint Textual and Visual Modeling in a Multi-Task Learning Architecture for Memotion Analysis ( http://arxiv.org/abs/2009.02779v2 )

ライセンス: Link先を確認
George-Alexandru Vlad, George-Eduard Zaharia, Dumitru-Clementin Cercel, Costin-Gabriel Chiru, Stefan Trausan-Matu(参考訳) オンライン環境のユーザーは、自分の考え、意見、あるいは娯楽の概念を表現する異なる方法を作ることができる。 これらの状況に特化してインターネットミームが作られた。 彼らの主な目的は、イメージとテキストの組み合わせを使ってアイデアを伝達することであり、ミームが送信しなければならないメッセージに応じて、受信者の特定の状態を生成する。 これらの投稿は、様々な状況や出来事と関連づけられるので、私たちの世界のあらゆる状況に面白い側面を加えることができる。 本稿では,semeval-2020タスク8用に開発したシステムであるmemotion analysisについて述べる。 具体的には、テキストエンコーディングのalbertと画像表現のvgg-16を組み合わせたマルチモーダルマルチタスク学習アーキテクチャである、これらの投稿を分析する新しいシステムを提案する。 このようにして、その背後にある情報が適切に明らかにできることを示す。 提案手法は,現在大会の3つのサブタスクにおいて,第11位がSubtask A(0.3453マクロF1スコア),第1位がSubtask B(0.5183マクロF1スコア),第3位がSubtask C(0.3171マクロF1スコア),第3位がオフィシャルベースラインを上回り,それぞれにおいて良好な性能を発揮する。

Users from the online environment can create different ways of expressing their thoughts, opinions, or conception of amusement. Internet memes were created specifically for these situations. Their main purpose is to transmit ideas by using combinations of images and texts such that they will create a certain state for the receptor, depending on the message the meme has to send. These posts can be related to various situations or events, thus adding a funny side to any circumstance our world is situated in. In this paper, we describe the system developed by our team for SemEval-2020 Task 8: Memotion Analysis. More specifically, we introduce a novel system to analyze these posts, a multimodal multi-task learning architecture that combines ALBERT for text encoding with VGG-16 for image representation. In this manner, we show that the information behind them can be properly revealed. Our approach achieves good performance on each of the three subtasks of the current competition, ranking 11th for Subtask A (0.3453 macro F1-score), 1st for Subtask B (0.5183 macro F1-score), and 3rd for Subtask C (0.3171 macro F1-score) while exceeding the official baseline results by high margins.
翻訳日:2022-10-21 08:21:50 公開日:2020-11-10
# 長距離ステレオマッチングにおけるバイアス調整:意味論的アプローチ

Adjusting Bias in Long Range Stereo Matching: A semantics guided approach ( http://arxiv.org/abs/2009.04629v2 )

ライセンス: Link先を確認
WeiQin Chuah, Ruwan Tennakoon, Reza Hoseinnezhad, Alireza Bab-Hadiashar, David Suter(参考訳) ステレオビジョンは一般にピクセル対応の計算と、直交した画像ペア間の差の推定を含む。 同時測位・マッピング(slam)や3次元物体検出を含む多くの応用において、深度値を計算するためには主に差が必要であり、深さ推定の精度はずれ推定よりも魅力的であることが多い。 しかし,不均一度推定の精度は,特に遠距離物体の深度推定の精度に直接は変換されない。 学習に基づくステレオシステムの文脈では、これは主に、格差に基づく損失関数とトレーニングデータの選択によって課されるバイアスによるものである。 その結果、学習アルゴリズムは、特に大きな距離〜($>50$m)で、フォアグラウンドオブジェクトの信頼できない深さ推定を生成する。 この問題を解決するために,まずこれらのバイアスの影響を分析し,前景と背景の深さに基づく新しい損失関数を別々に提案する。 これらの損失関数はチューナブルであり、ステレオ学習アルゴリズム固有のバイアスのバランスをとることができる。 提案手法の有効性は,最先端技術に対してベンチマークした広範な実験によって実証された。 我々は,KITTI~2015ベンチマークにおいて,50mを超える距離の物体に対して,提案手法により差分と深さの推定が大幅に向上し,従来よりも10\%の値が得られたことを示す。

Stereo vision generally involves the computation of pixel correspondences and estimation of disparities between rectified image pairs. In many applications, including simultaneous localization and mapping (SLAM) and 3D object detection, the disparities are primarily needed to calculate depth values and the accuracy of depth estimation is often more compelling than disparity estimation. The accuracy of disparity estimation, however, does not directly translate to the accuracy of depth estimation, especially for faraway objects. In the context of learning-based stereo systems, this is largely due to biases imposed by the choices of the disparity-based loss function and the training data. Consequently, the learning algorithms often produce unreliable depth estimates of foreground objects, particularly at large distances~($>50$m). To resolve this issue, we first analyze the effect of those biases and then propose a pair of novel depth-based loss functions for foreground and background, separately. These loss functions are tunable and can balance the inherent bias of the stereo learning algorithms. The efficacy of our solution is demonstrated by an extensive set of experiments, which are benchmarked against state of the art. We show on KITTI~2015 benchmark that our proposed solution yields substantial improvements in disparity and depth estimation, particularly for objects located at distances beyond 50 meters, outperforming the previous state of the art by $10\%$.
翻訳日:2022-10-20 03:36:51 公開日:2020-11-10
# ダイアログ蒸留:未ペアデータを用いたオープンドメインダイアログ拡張

Dialogue Distillation: Open-Domain Dialogue Augmentation Using Unpaired Data ( http://arxiv.org/abs/2009.09427v2 )

ライセンス: Link先を確認
Rongsheng Zhang, Yinhe Zheng, Jianzhi Shao, Xiaoxi Mao, Yadong Xi, Minlie Huang(参考訳) オープンドメイン対話システムの最近の進歩は、大規模データに基づいて訓練されたニューラルモデルの成功に依存している。 しかし、大規模な対話データの収集は通常、時間と労力がかかる。 このデータジレンマに対処するために、未ペアデータを利用したオープンドメイン対話モデルのトレーニングのための新しいデータ拡張手法を提案する。 具体的には,非ペアデータからポストと応答の両方を検索する付加対話を構築するために,まずデータレベルの蒸留プロセスを提案する。 低品質の対話をフィルタリングするためにランキングモジュールが使用される。 さらに、高品質なペアデータに訓練された教師モデルを拡張対話ペアに蒸留するモデルレベル蒸留処理を施し、拡張データ内のノイズによる対話モデルへの影響を防止する。 自動的および手作業による評価は,多種多様な内容を持つ高品質な対話ペアを作成できることを示すとともに,提案するデータレベルおよびモデルレベルの対話蒸留は,競合ベースラインの性能を向上させることができる。

Recent advances in open-domain dialogue systems rely on the success of neural models that are trained on large-scale data. However, collecting large-scale dialogue data is usually time-consuming and labor-intensive. To address this data dilemma, we propose a novel data augmentation method for training open-domain dialogue models by utilizing unpaired data. Specifically, a data-level distillation process is first proposed to construct augmented dialogues where both post and response are retrieved from the unpaired data. A ranking module is employed to filter out low-quality dialogues. Further, a model-level distillation process is employed to distill a teacher model trained on high-quality paired data to augmented dialogue pairs, thereby preventing dialogue models from being affected by the noise in the augmented data. Automatic and manual evaluation indicates that our method can produce high-quality dialogue pairs with diverse contents, and the proposed data-level and model-level dialogue distillation can improve the performance of competitive baselines.
翻訳日:2022-10-16 12:52:19 公開日:2020-11-10
# tic tac toeを人間のようにプレイするランダム化高速no-lossエキスパートシステム

Randomized fast no-loss expert system to play tic tac toe like a human ( http://arxiv.org/abs/2009.11225v2 )

ライセンス: Link先を確認
Aditya Jyoti Paul(参考訳) 本稿では,T3DTと呼ばれる決定木を用いたTic Tac Toeの高速・無損失エキスパートシステムについて紹介する。 ブルートフォースやミニマックス、進化的テクニックは使用しないが、それでも常に無敵である。 ゲームプレイをより人間らしくするために、ランダム化を優先し、T3DTは各ステップにおける複数の最適な動きの1つをランダムに選択する。 いずれの時点でも完全なゲームツリーを解析する必要はないので、t3dtはどのブルート力やミニマックスアルゴリズムよりも非常に高速である。 t3dtは、進化モデルのトレーニングにデータセットや時間も必要とせず、tic tac toeをプレイするための実用的なno-lossアプローチとなっている。

This paper introduces a blazingly fast, no-loss expert system for Tic Tac Toe using Decision Trees called T3DT, that tries to emulate human gameplay as closely as possible. It does not make use of any brute force, minimax or evolutionary techniques, but is still always unbeatable. In order to make the gameplay more human-like, randomization is prioritized and T3DT randomly chooses one of the multiple optimal moves at each step. Since it does not need to analyse the complete game tree at any point, T3DT is exceptionally faster than any brute force or minimax algorithm, this has been shown theoretically as well as empirically from clock-time analyses in this paper. T3DT also doesn't need the data sets or the time to train an evolutionary model, making it a practical no-loss approach to play Tic Tac Toe.
翻訳日:2022-10-15 16:46:58 公開日:2020-11-10
# 機械学習における非平滑性:具体的構造、近位識別および応用

Nonsmoothness in Machine Learning: specific structure, proximal identification, and applications ( http://arxiv.org/abs/2010.00848v2 )

ライセンス: Link先を確認
Franck Iutzeler (DAO), J\'er\^ome Malick (DAO)(参考訳) 非滑らかさは、しばしば最適化の呪いであるが、機械学習の応用において、時には祝福である。 本稿では,機械学習に現れる非滑らかな最適化問題の具体的構造について述べるとともに,この構造を実際に活用する方法を,圧縮,加速,次元縮小のために説明する。 簡単な例と一般的な結果の両方で、簡潔で容易にアクセスできるようにするため、プレゼンテーションに特別な注意を払っています。

Nonsmoothness is often a curse for optimization; but it is sometimes a blessing, in particular for applications in machine learning. In this paper, we present the specific structure of nonsmooth optimization problems appearing in machine learning and illustrate how to leverage this structure in practice, for compression, acceleration, or dimension reduction. We pay a special attention to the presentation to make it concise and easily accessible, with both simple examples and general results.
翻訳日:2022-10-12 02:25:50 公開日:2020-11-10
# Mixup-Transformer: NLPタスクのための動的データ拡張

Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks ( http://arxiv.org/abs/2010.02394v2 )

ライセンス: Link先を確認
Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip S. Yu, Lifang He(参考訳) Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。 画素レベルで画像を補間することで画像分類に強い効果を示した。 この研究に触発されて、本稿では、我々は、 一 自然言語処理タスクにミックスアップを施す方法は、テキストデータが生のフォーマットで混ざり合うことがほとんどないので、どのようにして行うか。 ii)mixupが変圧器ベースの学習モデル、例えばbertにおいてなお有効である場合。 この目的を達成するために,我々は,エンドツーエンドのトレーニングシステム全体を維持しつつ,幅広いnlpタスクに"mixup-transformer"と呼ばれるトランスフォーマベースの事前学習アーキテクチャにmixupを組み込む。 提案手法をGLUEベンチマークで広範な実験により評価する。 さらに,低リソースシナリオにおけるmixup-transformerの性能を,トレーニングデータを一定割合で削減することで検証する。 本研究では、mixupは事前学習された言語モデルに対するドメインに依存しないデータ拡張技術であることを示す。

Mixup is the latest data augmentation technique that linearly interpolates input examples and the corresponding labels. It has shown strong effectiveness in image classification by interpolating images at the pixel level. Inspired by this line of research, in this paper, we explore i) how to apply mixup to natural language processing tasks since text data can hardly be mixed in the raw format; ii) if mixup is still effective in transformer-based learning models, e.g., BERT. To achieve the goal, we incorporate mixup to transformer-based pre-trained architecture, named "mixup-transformer", for a wide range of NLP tasks while keeping the whole end-to-end training system. We evaluate the proposed framework by running extensive experiments on the GLUE benchmark. Furthermore, we also examine the performance of mixup-transformer in low-resource scenarios by reducing the training data with a certain ratio. Our studies show that mixup is a domain-independent data augmentation technique to pre-trained language models, resulting in significant performance improvement for transformer-based models.
翻訳日:2022-10-10 20:20:25 公開日:2020-11-10
# 円筒状パノラマ映像からの奥行き・自我運動の教師なし学習と仮想現実への応用

Unsupervised Learning of Depth and Ego-Motion from Cylindrical Panoramic Video with Applications for Virtual Reality ( http://arxiv.org/abs/2010.07704v2 )

ライセンス: Link先を確認
Alisha Sharma, Ryan Nett, and Jonathan Ventura(参考訳) 円筒型パノラマビデオからの深度とエゴモーションの教師なし学習のための畳み込みニューラルネットワークモデルを提案する。 パノラマ深度推定は、仮想現実、3dモデリング、自律ロボットナビゲーションなどのアプリケーションにとって重要な技術である。 パノラマ画像に畳み込みニューラルネットワークを適用する従来のアプローチとは対照的に,我々は,畳み込みフィルタや最大プールなどの従来のCNNレイヤを変更せずに使用できる円筒型パノラマ投影を用いている。 合成および実データを用いた評価では, 円筒型パノラマ画像の深度とエゴモーションの教師なし学習が高品質な深度マップを作成でき, 視野の増大によりエゴモーション推定精度が向上することが示された。 CARLAシミュレータを使って作成した合成データセットと、ヘルメットを装着したカメラから収集したパノラマビデオの新たなデータセットであるHeadcamの2つの新しいデータセットを作成し、都市環境でサイクリングを行った。 また,このネットワークを,単眼パノラマをステレオパノラマに変換する問題に適用する。

We introduce a convolutional neural network model for unsupervised learning of depth and ego-motion from cylindrical panoramic video. Panoramic depth estimation is an important technology for applications such as virtual reality, 3D modeling, and autonomous robotic navigation. In contrast to previous approaches for applying convolutional neural networks to panoramic imagery, we use the cylindrical panoramic projection which allows for the use of the traditional CNN layers such as convolutional filters and max pooling without modification. Our evaluation of synthetic and real data shows that unsupervised learning of depth and ego-motion on cylindrical panoramic images can produce high-quality depth maps and that an increased field-of-view improves ego-motion estimation accuracy. We create two new datasets to evaluate our approach: a synthetic dataset created using the CARLA simulator, and Headcam, a novel dataset of panoramic video collected from a helmet-mounted camera while biking in an urban setting. We also apply our network to the problem of converting monocular panoramas to stereo panoramas.
翻訳日:2022-10-07 13:10:08 公開日:2020-11-10
# 質問記述関連規則化によるコード検索の敵意学習

Adversarial Training for Code Retrieval with Question-Description Relevance Regularization ( http://arxiv.org/abs/2010.09803v2 )

ライセンス: Link先を確認
Jie Zhao, Huan Sun(参考訳) コード検索は自然言語とプログラミング言語のマッチングを目的とした重要なタスクである。 本研究では,質問記述関連性によって正規化されるコード検索のための逆学習を提案する。 まず,入力質問から難解なコードスニペットを生成するために,単純な逆学習手法を適用することで,バイモーダル・データ・スカルス課題に直面するコード検索の学習を支援する。 第2に,生成したコードスニペットがコード検索トレーニングの損失により多くの貢献をするべきであるが,そのペアリングされた自然言語記述がユーザの質問にはあまり関係がないと予測された場合に限り,質問記述との関連性を活用することを提案する。 2つのプログラミング言語の大規模コード検索データセットに関する実験により,本手法は最先端モデルの性能を向上させることができることが示された。 さらに、対向学習を規則化する追加の重複質問予測モデルを用いることで、パフォーマンスがさらに向上し、強力なマルチタスク学習ベースラインで重複質問を使用するよりも効果的である。

Code retrieval is a key task aiming to match natural and programming languages. In this work, we propose adversarial learning for code retrieval, that is regularized by question-description relevance. First, we adapt a simple adversarial learning technique to generate difficult code snippets given the input question, which can help the learning of code retrieval that faces bi-modal and data-scarce challenges. Second, we propose to leverage question-description relevance to regularize adversarial learning, such that a generated code snippet should contribute more to the code retrieval training loss, only if its paired natural language description is predicted to be less relevant to the user given question. Experiments on large-scale code retrieval datasets of two programming languages show that our adversarial learning method is able to improve the performance of state-of-the-art models. Moreover, using an additional duplicate question prediction model to regularize adversarial learning further improves the performance, and this is more effective than using the duplicated questions in strong multi-task learning baselines
翻訳日:2022-10-05 20:36:26 公開日:2020-11-10
# 一度の対人訓練:自由のためのロバストさと正確さのトレードオフ

Once-for-All Adversarial Training: In-Situ Tradeoff between Robustness and Accuracy for Free ( http://arxiv.org/abs/2010.11828v2 )

ライセンス: Link先を確認
Haotao Wang, Tianlong Chen, Shupeng Gui, Ting-Kuei Hu, Ji Liu and Zhangyang Wang(参考訳) adversarial trainingとその多くの変種はディープネットワークの堅牢性を大幅に改善したが、標準精度を妥協するコストがかかる。 さらに、トレーニングプロセスは重く、正確性と堅牢性の間のトレードオフを徹底的に検討することは非現実的になる。 この論文は、トレーニングされたモデルをその場で迅速に校正し、その標準と堅牢なアキュラシーの間の達成可能なトレードオフを、何回も(再)訓練することなく調査する方法を問う。 提案手法は,超パラメータ制御を入力として,革新的なモデル条件トレーニングフレームワークを基盤として構築した。 トレーニングされたモデルは、テスト時にさまざまな標準と堅牢なアキュラシを“無償”で調整することができる。 重要なノブとして,2重バッチ正規化を標準特徴統計と逆特徴統計の分離に活用し,性能を低下させることなく1つのモデルで学習できるようにする。 さらに私たちは,OATを,正確性,堅牢性,実行効率の両面において共同でトレードオフを可能にする,OATS(One-for-all Adversarial Training and Slimming)フレームワークに拡張しています。 実験によれば、oat/oatは再トレーニングもセンシングも行わず、様々な構成で専用に訓練されたモデルと同等またはそれ以上の性能を達成している。 私たちのコードと事前訓練済みモデルは、https://github.com/VITA-Group/Once-for-All-Adversarial-Training.comで利用可能です。

Adversarial training and its many variants substantially improve deep network robustness, yet at the cost of compromising standard accuracy. Moreover, the training process is heavy and hence it becomes impractical to thoroughly explore the trade-off between accuracy and robustness. This paper asks this new question: how to quickly calibrate a trained model in-situ, to examine the achievable trade-offs between its standard and robust accuracies, without (re-)training it many times? Our proposed framework, Once-for-all Adversarial Training (OAT), is built on an innovative model-conditional training framework, with a controlling hyper-parameter as the input. The trained model could be adjusted among different standard and robust accuracies "for free" at testing time. As an important knob, we exploit dual batch normalization to separate standard and adversarial feature statistics, so that they can be learned in one model without degrading performance. We further extend OAT to a Once-for-all Adversarial Training and Slimming (OATS) framework, that allows for the joint trade-off among accuracy, robustness and runtime efficiency. Experiments show that, without any re-training nor ensembling, OAT/OATS achieve similar or even superior performance compared to dedicatedly trained models at various configurations. Our codes and pretrained models are available at: https://github.com/VITA-Group/Once-for-All-Adversarial-Training.
翻訳日:2022-10-04 05:47:53 公開日:2020-11-10
# ディープRLを実践するための方法

How to Make Deep RL Work in Practice ( http://arxiv.org/abs/2010.13083v2 )

ライセンス: Link先を確認
Nirnai Rao, Elie Aljalbout, Axel Sauer, Sami Haddadin(参考訳) 近年,深層強化学習(rl)により,難解な制御課題が解決可能となった。 大規模な実世界のアプリケーションにRLを使用できるためには、その性能のある程度の信頼性が必要である。 最新のアルゴリズムの報告結果は、しばしば再現が困難である。 この理由の1つは、特定の実装の詳細がパフォーマンスに大きな影響を及ぼすからである。 一般的に、これらの詳細は最先端のパフォーマンスを達成する重要な技術として強調されていない。 さらに、教師付き学習のテクニックは、しばしばデフォルトで使用されるが、強化学習環境でのアルゴリズムによく影響し、よく理解されていない。 本稿では, ある初期化, 入力正規化, 適応学習技術が, 最先端RLアルゴリズムの性能に与える影響について検討する。 デフォルトで使用するテクニックのどれを推奨し、RLに特化されたソリューションの恩恵を受ける可能性のある領域を強調します。

In recent years, challenging control problems became solvable with deep reinforcement learning (RL). To be able to use RL for large-scale real-world applications, a certain degree of reliability in their performance is necessary. Reported results of state-of-the-art algorithms are often difficult to reproduce. One reason for this is that certain implementation details influence the performance significantly. Commonly, these details are not highlighted as important techniques to achieve state-of-the-art performance. Additionally, techniques from supervised learning are often used by default but influence the algorithms in a reinforcement learning setting in different and not well-understood ways. In this paper, we investigate the influence of certain initialization, input normalization, and adaptive learning techniques on the performance of state-of-the-art RL algorithms. We make suggestions which of those techniques to use by default and highlight areas that could benefit from a solution specifically tailored to RL.
翻訳日:2022-10-03 05:16:57 公開日:2020-11-10
# 世界的なcovid-19ツイートの感情分析

Global Sentiment Analysis Of COVID-19 Tweets Over Time ( http://arxiv.org/abs/2010.14234v2 )

ライセンス: Link先を確認
Muvazima Mansoor, Kirthika Gurumurthy, Anantharam R U, V R Badri Prasad(参考訳) コロナウイルスのパンデミックは、通常の生活に影響を与えている。 世界中の人々がソーシャルメディアで、嵐によって世界を支配したこの現象に関する意見や一般的な感情を表明している。 TwitterのソーシャルネットワーキングサイトであるTwitterは、小説『コロナウイルス』に関するツイートがごく短期間で前例のない増加を見せた。 本稿では、新型コロナウイルスに関連するツイートのグローバル感情分析と、各国の人々の感情の変化について述べる。 さらに, 日常生活におけるコロナウイルスの影響を明らかにするために, ワーク・フロイト・ホーム(WFH)とオンライン・ラーニングに関連するツイートを抽出し, 時間とともに感情の変化を観察した。 さらに、感情分類のためのLong Short Term Memory(LSTM)やArtificial Neural Networks(ANN)などの機械学習モデルを実装し、その精度を決定した。 また、このパンデミックの開始から2020年6月までのケースの変化に対する感情の変化を比較するために、いくつかの最悪の国において、日毎の感染者数に関する情報を提供するデータセットについても探索データ分析を行った。

The Coronavirus pandemic has affected the normal course of life. People around the world have taken to social media to express their opinions and general emotions regarding this phenomenon that has taken over the world by storm. The social networking site, Twitter showed an unprecedented increase in tweets related to the novel Coronavirus in a very short span of time. This paper presents the global sentiment analysis of tweets related to Coronavirus and how the sentiment of people in different countries has changed over time. Furthermore, to determine the impact of Coronavirus on daily aspects of life, tweets related to Work From Home (WFH) and Online Learning were scraped and the change in sentiment over time was observed. In addition, various Machine Learning models such as Long Short Term Memory (LSTM) and Artificial Neural Networks (ANN) were implemented for sentiment classification and their accuracies were determined. Exploratory data analysis was also performed for a dataset providing information about the number of confirmed cases on a per-day basis in a few of the worst-hit countries to provide a comparison between the change in sentiment with the change in cases since the start of this pandemic till June 2020.
翻訳日:2022-10-02 11:40:37 公開日:2020-11-10
# 新型コロナウイルスのケアイメージ分析のポイント

Point of Care Image Analysis for COVID-19 ( http://arxiv.org/abs/2011.01789v2 )

ライセンス: Link先を確認
Daniel Yaron, Daphna Keidar, Elisha Goldstein, Yair Shachar, Ayelet Blass, Oz Frank, Nir Schipper, Nogah Shabshin, Ahuva Grubstein, Dror Suhami, Naama R. Bogot, Eyal Sela, Amiel A. Dror, Mordehay Vaturi, Federico Mento, Elena Torri, Riccardo Inchingolo, Andrea Smargiassi, Gino Soldati, Tiziano Perrone, Libertario Demi, Meirav Galun, Shai Bagon, Yishai M. Elyada and Yonina C. Eldar(参考訳) 新型コロナウイルスの早期発見は、パンデミックを含む上で鍵となる。 画像に基づく疾患の検出と評価は迅速かつ安価であり、ウイルス処理において重要な役割を果たしている。 新型コロナウイルスは胸部CTでは検出が容易だが、高価で非可搬性で消毒が難しいため、POC(point-of-care)モダリティには適さない。 一方、胸部X線(CXR)と肺超音波(LUS)は広く用いられているが、これらのモダリティにおけるCOVID-19の発見は必ずしも明確ではない。 ここでは,深層ニューラルネットワークを訓練し,cxrとlusを用いたcovid-19患者の検出,評価,監視能力を大幅に向上させる。 イスラエルのいくつかの病院とコラボレーションすることで、cxrの大規模なデータセットを収集し、このデータセットを使用して、covid-19検出率90%を超えるニューラルネットワークをトレーニングします。 さらに, イタリアのULTRa(Ultrasound Laboratory Trento, イタリア)と病院の協力を得て, 重症度のアノテーションを用いたPOC超音波データを取得し, 重症度自動評価のためのディープネットワークを訓練した。

Early detection of COVID-19 is key in containing the pandemic. Disease detection and evaluation based on imaging is fast and cheap and therefore plays an important role in COVID-19 handling. COVID-19 is easier to detect in chest CT, however, it is expensive, non-portable, and difficult to disinfect, making it unfit as a point-of-care (POC) modality. On the other hand, chest X-ray (CXR) and lung ultrasound (LUS) are widely used, yet, COVID-19 findings in these modalities are not always very clear. Here we train deep neural networks to significantly enhance the capability to detect, grade and monitor COVID-19 patients using CXRs and LUS. Collaborating with several hospitals in Israel we collect a large dataset of CXRs and use this dataset to train a neural network obtaining above 90% detection rate for COVID-19. In addition, in collaboration with ULTRa (Ultrasound Laboratory Trento, Italy) and hospitals in Italy we obtained POC ultrasound data with annotations of the severity of disease and trained a deep network for automatic severity grading.
翻訳日:2022-10-02 06:14:59 公開日:2020-11-10
# HHAR-net:ニューラルネットワークを用いた階層的人間活動認識

HHAR-net: Hierarchical Human Activity Recognition using Neural Networks ( http://arxiv.org/abs/2010.16052v2 )

ライセンス: Link先を確認
Mehrdad Fazli, Kamran Kowsari, Erfaneh Gharavi, Laura Barnes, Afsaneh Doryab(参考訳) スマートデバイスやウェアラブルデバイスに内蔵されたセンサーを用いたアクティビティ認識は、野生の人間の行動を理解し、検出する絶好の機会となり、個人の健康と健康をより包括的に見ることができます。 センサストリームに多くの計算手法を適用し、異なる日常活動を認識する。 しかし、ほとんどの方法は人間の行動に隠された様々な活動の層を捉えることができない。 また,活動数の増加に伴い,モデルの性能が低下し始める。 本研究では,ニューラルネットワークを用いた階層型分類の構築を目標とし,さまざまな抽象化レベルに基づいて人間の活動を認識する。 スマートフォンやスマートウォッチから収集したデータを含むデータセットであるextrasensory datasetでモデルを評価した。 私たちは、合計で6つの排他的ラベルを持つ2階層階層、すなわち、"lying down"、"sitting"、"standing in place"、"walking"、"running"、"bicycling"を、"stationary"と"non-stationary"に分割して使用しています。 その結果,6ラベルに対して95.8%の精度,92.8%の精度で低レベル活動(静止・非定常)を認識できることがわかった。 これは私たちの最高のパフォーマンスベースラインの3%以上です。

Activity recognition using built-in sensors in smart and wearable devices provides great opportunities to understand and detect human behavior in the wild and gives a more holistic view of individuals' health and well being. Numerous computational methods have been applied to sensor streams to recognize different daily activities. However, most methods are unable to capture different layers of activities concealed in human behavior. Also, the performance of the models starts to decrease with increasing the number of activities. This research aims at building a hierarchical classification with Neural Networks to recognize human activities based on different levels of abstraction. We evaluate our model on the Extrasensory dataset; a dataset collected in the wild and containing data from smartphones and smartwatches. We use a two-level hierarchy with a total of six mutually exclusive labels namely, "lying down", "sitting", "standing in place", "walking", "running", and "bicycling" divided into "stationary" and "non-stationary". The results show that our model can recognize low-level activities (stationary/non-stationary) with 95.8% accuracy and overall accuracy of 92.8% over six labels. This is 3% above our best performing baseline.
翻訳日:2022-10-02 04:37:32 公開日:2020-11-10
# 傾斜地におけるロバスト四足歩行 : 線形政策アプローチ

Robust Quadrupedal Locomotion on Sloped Terrains: A Linear Policy Approach ( http://arxiv.org/abs/2010.16342v2 )

ライセンス: Link先を確認
Kartik Paigwar, Lokesh Krishna, Sashank Tirumala, Naman Khetan, Aditya Sagi, Ashish Joglekar, Shalabh Bhatnagar, Ashitava Ghosal, Bharadwaj Amrutur, Shishir Kolathaya(参考訳) 本稿では,ローコストハードウェアにおける移動歩行の迅速な展開をめざして,四足歩行ロボットStochを2ドル(約2,200円)で実現するための線形ポリシーを提案する。 特に、エンドフット軌道のパラメータは、胴体方向と地形傾斜を入力として取る線形フィードバックポリシによって形成される。 対応する所望の関節角は、逆キネマティクスソルバを介して得られ、PID制御法により追跡される。 拡張ランダム探索、モデルフリーで勾配フリーな学習アルゴリズムは、この線形ポリシーのトレーニングに使用される。 シミュレーションの結果,地すべりの変動や外圧に強い歩行が認められた。 この手法は計算量的に軽量であるだけでなく、ロボットの最小限の感知とアクティベーション能力を利用して、アプローチを正当化する。

In this paper, with a view toward fast deployment of locomotion gaits in low-cost hardware, we use a linear policy for realizing end-foot trajectories in the quadruped robot, Stoch $2$. In particular, the parameters of the end-foot trajectories are shaped via a linear feedback policy that takes the torso orientation and the terrain slope as inputs. The corresponding desired joint angles are obtained via an inverse kinematics solver and tracked via a PID control law. Augmented Random Search, a model-free and a gradient-free learning algorithm is used to train this linear policy. Simulation results show that the resulting walking is robust to terrain slope variations and external pushes. This methodology is not only computationally light-weight but also uses minimal sensing and actuation capabilities in the robot, thereby justifying the approach.
翻訳日:2022-10-01 16:46:27 公開日:2020-11-10
# 深層強化学習によるオプティカルツイーザーの演奏--仮想・物理的・拡張環境において

Playing optical tweezers with deep reinforcement learning: in virtual, physical and augmented environments ( http://arxiv.org/abs/2011.04424v2 )

ライセンス: Link先を確認
Matthew Praeger, Yunhui Xie, James A. Grant-Jacob, Robert W. Eason and Ben Mills(参考訳) 複数のモータ軸上の連続速度制御を学ぶために,シミュレーション環境で強化学習を行った。 これは、レーザートレーディングされたマイクロスフィアをターゲットの場所に移動させ、他の自由移動型マイクロスフィアとの衝突を避けることを目的として、実世界の光トウィーザー実験に適用された。 仮想環境におけるニューラルネットワークのトレーニングという概念は、実験的な最適化と制御のための機械学習の適用において大きな可能性を秘めている。 ニューラルネットワークは仮想環境と物理環境の両方を同等に扱うので、仮想環境と物理環境が結合された拡張環境にもネットワークを適用することができる。 このテクニックは、機械の動きの安全限界を強制したり、追加のセンサーから観察を入力したりするなど、混合および拡張現実に関連する機能をアンロックする可能性がある。

Reinforcement learning was carried out in a simulated environment to learn continuous velocity control over multiple motor axes. This was then applied to a real-world optical tweezers experiment with the objective of moving a laser-trapped microsphere to a target location whilst avoiding collisions with other free-moving microspheres. The concept of training a neural network in a virtual environment has significant potential in the application of machine learning for experimental optimization and control, as the neural network can discover optimal methods for problem solving without the risk of damage to equipment, and at a speed not limited by movement in the physical environment. As the neural network treats both virtual and physical environments equivalently, we show that the network can also be applied to an augmented environment, where a virtual environment is combined with the physical environment. This technique may have the potential to unlock capabilities associated with mixed and augmented reality, such as enforcing safety limits for machine motion or as a method of inputting observations from additional sensors.
翻訳日:2022-09-29 11:49:15 公開日:2020-11-10
# グラフ上のマルチエージェント分散信念伝播

Multi-Agent Decentralized Belief Propagation on Graphs ( http://arxiv.org/abs/2011.04501v2 )

ライセンス: Link先を確認
Yitao Chen and Deepanshu Vasal(参考訳) 本稿では,通信ネットワークのノードにエージェントを配置する対話的部分観測可能なマルコフ決定プロセス(I-POMDP)について考察する。 具体的には、すべてのメッセージに対して特定のメッセージタイプを仮定する。 さらに、各エージェントは、ネットワーク上の対話的信念状態、ローカルに観測された情報、および隣人から受信されたメッセージに基づいて、個別の決定を行う。 この設定の中で、エージェントの集団的目標は、隣人との情報交換を通じて、ネットワーク全体の平均的なリターンを最大化することである。 本稿では,この問題に対する分散的信念伝播アルゴリズムを提案し,アルゴリズムの収束性を証明する。 最後に、フレームワークの複数のアプリケーションを示します。 我々の研究は、ネットワーク化されたマルチエージェントI-POMDPのための分散信念伝播アルゴリズムの最初の研究である。

We consider the problem of interactive partially observable Markov decision processes (I-POMDPs), where the agents are located at the nodes of a communication network. Specifically, we assume a certain message type for all messages. Moreover, each agent makes individual decisions based on the interactive belief states, the information observed locally and the messages received from its neighbors over the network. Within this setting, the collective goal of the agents is to maximize the globally averaged return over the network through exchanging information with their neighbors. We propose a decentralized belief propagation algorithm for the problem, and prove the convergence of our algorithm. Finally we show multiple applications of our framework. Our work appears to be the first study of decentralized belief propagation algorithm for networked multi-agent I-POMDPs.
翻訳日:2022-09-29 04:23:39 公開日:2020-11-10
# 光フローとevmを用いたマイクロ表現認識のためのマルチストリーム畳み込みニューラルネットワーク

A Multi-stream Convolutional Neural Network for Micro-expression Recognition Using Optical Flow and EVM ( http://arxiv.org/abs/2011.03756v2 )

ライセンス: Link先を確認
Jinming Liu, Ke Li, Baolin Song, Li Zhao(参考訳) マイクロ・エクスプレッション(ME)の認識は、特に公共の安全や心理療法において、幅広い応用において重要な役割を果たす。 近年,従来の手法は機械学習設計を過度に頼りすぎており,認識速度が短かったり強度が低かったりするため,実用化には不十分である。 一方,深層学習に基づく手法では,データベースの不均衡などの問題により高い精度が得られない場合もある。 これらの問題に対処するため,本稿では,ME認識のためのマルチストリーム畳み込みニューラルネットワーク(MSCNN)を設計する。 具体的には,esmとオプティカルフローを用いて,mesの微妙な動き変化を拡大可視化し,光フロー画像からマスクを抽出する。 そして、マスク、光学フロー画像、グレースケール画像をMSCNNに追加します。 その後、データベースの不均衡を克服するために、ニューラルネットワークのDense Layerの後、ランダムなオーバーサンプルを追加しました。 最後に、CASME IIとSAMMの2つのパブリックMEデータベース上で広範な実験を行う。 近年の最先端手法と比較すると,より有望な認識結果が得られる。

Micro-expression (ME) recognition plays a crucial role in a wide range of applications, particularly in public security and psychotherapy. Recently, traditional methods rely excessively on machine learning design and the recognition rate is not high enough for its practical application because of its short duration and low intensity. On the other hand, some methods based on deep learning also cannot get high accuracy due to problems such as the imbalance of databases. To address these problems, we design a multi-stream convolutional neural network (MSCNN) for ME recognition in this paper. Specifically, we employ EVM and optical flow to magnify and visualize subtle movement changes in MEs and extract the masks from the optical flow images. And then, we add the masks, optical flow images, and grayscale images into the MSCNN. After that, in order to overcome the imbalance of databases, we added a random over-sampler after the Dense Layer of the neural network. Finally, extensive experiments are conducted on two public ME databases: CASME II and SAMM. Compared with many recent state-of-the-art approaches, our method achieves more promising recognition results.
翻訳日:2022-09-28 22:53:39 公開日:2020-11-10
# 顕微鏡画像における細胞自動計数のための高精度密度回帰法

Deeply-Supervised Density Regression for Automatic Cell Counting in Microscopy Images ( http://arxiv.org/abs/2011.03683v2 )

ライセンス: Link先を確認
Shenghua He, Kyaw Thu Minn, Lilianna Solnica-Krezel, Mark A. Anastasio and Hua Li(参考訳) 多くの医学的診断や生物学的研究において、顕微鏡画像中の細胞数を正確にカウントする必要がある。 このタスクは退屈で時間がかかり、主観的なエラーを起こしやすい。 しかし, 画像コントラストの低下, 背景の複雑化, 細胞形状とカウントのばらつき, および二次元顕微鏡画像における有意な細胞閉塞などにより, 自動計測手法の設計は依然として困難である。 本研究では,顕微鏡画像中の細胞を自動的に計数する新しい密度回帰法を提案する。 提案手法は他の最先端の密度回帰法と比較して2つの革新を処理している。 まず, 密度回帰モデル (DRM) をC-FCRN (concatenated fully convolutional regression network) として設計し, 与えられた画像からセル密度マップを推定するためのマルチスケール画像特徴を用いた。 第二に、補助畳み込みニューラルネットワーク(AuxCNN)を使用して、設計したC-FCRNの中間層をトレーニングし、目に見えないデータセットのDRM性能を改善する。 4つのデータセットで評価した実験は,提案手法の優れた性能を示す。

Accurately counting the number of cells in microscopy images is required in many medical diagnosis and biological studies. This task is tedious, time-consuming, and prone to subjective errors. However, designing automatic counting methods remains challenging due to low image contrast, complex background, large variance in cell shapes and counts, and significant cell occlusions in two-dimensional microscopy images. In this study, we proposed a new density regression-based method for automatically counting cells in microscopy images. The proposed method processes two innovations compared to other state-of-the-art density regression-based methods. First, the density regression model (DRM) is designed as a concatenated fully convolutional regression network (C-FCRN) to employ multi-scale image features for the estimation of cell density maps from given images. Second, auxiliary convolutional neural networks (AuxCNNs) are employed to assist in the training of intermediate layers of the designed C-FCRN to improve the DRM performance on unseen datasets. Experimental studies evaluated on four datasets demonstrate the superior performance of the proposed method.
翻訳日:2022-09-28 22:25:36 公開日:2020-11-10
# グラフカーネル:最新技術と今後の課題

Graph Kernels: State-of-the-Art and Future Challenges ( http://arxiv.org/abs/2011.03854v2 )

ライセンス: Link先を確認
Karsten Borgwardt, Elisabetta Ghisu, Felipe Llinares-L\'opez, Leslie O'Bray, Bastian Rieck(参考訳) グラフ構造化データは、化学情報学、計算生物学、ニューロイメージング、ソーシャルネットワーク分析など、多くのアプリケーション領域の不可欠な部分である。 過去20年間で、グラフ間のカーネル関数である多数のグラフカーネルが、グラフ間の類似性を評価する問題を解決するために提案され、分類と回帰設定の両方で予測が行えるようになった。 この原稿は、既存のグラフカーネル、それらのアプリケーション、ソフトウェアとデータリソースのレビューと最先端のグラフカーネルの実証的な比較を提供する。

Graph-structured data are an integral part of many application domains, including chemoinformatics, computational biology, neuroimaging, and social network analysis. Over the last two decades, numerous graph kernels, i.e. kernel functions between graphs, have been proposed to solve the problem of assessing the similarity between graphs, thereby making it possible to perform predictions in both classification and regression settings. This manuscript provides a review of existing graph kernels, their applications, software plus data resources, and an empirical comparison of state-of-the-art graph kernels.
翻訳日:2022-09-28 22:15:18 公開日:2020-11-10
# ディープネットワークによる多目的遺伝的最適化によるテキスト分類器の逆ブラックボックス攻撃

Adversarial Black-Box Attacks On Text Classifiers Using Multi-Objective Genetic Optimization Guided By Deep Networks ( http://arxiv.org/abs/2011.03901v2 )

ライセンス: Link先を確認
Alex Mathai, Shreya Khare, Srikanth Tamilselvam, Senthil Mani(参考訳) ニューラルネットワークベースのテキスト分類器をうまく騙すブラックボックスの逆転例を生成する新しい遺伝的アルゴリズムを提案する。 深層学習に基づく推論とseq2seq変異によって誘導される多目的最適化による遺伝的探索を行い,意味的に類似するが不可避な敵を生成する。 SSTとIMDBの感情データセットに対するDeepWordBug(DWB)のアプローチを, char-LSTM, word-LSTM, elmo-LSTMの3つのトレーニングモデルを攻撃することで比較した。 平均して、sstでは65.67%、imdbでは36.45%のアタック成功率を達成し、それぞれ49.48%と101%の改善を示した。 さらに, 定性的な調査により, 94%のユーザがオリジナル標本と敵試料を区別できなかったことが判明した。

We propose a novel genetic-algorithm technique that generates black-box adversarial examples which successfully fool neural network based text classifiers. We perform a genetic search with multi-objective optimization guided by deep learning based inferences and Seq2Seq mutation to generate semantically similar but imperceptible adversaries. We compare our approach with DeepWordBug (DWB) on SST and IMDB sentiment datasets by attacking three trained models viz. char-LSTM, word-LSTM and elmo-LSTM. On an average, we achieve an attack success rate of 65.67% for SST and 36.45% for IMDB across the three models showing an improvement of 49.48% and 101% respectively. Furthermore, our qualitative study indicates that 94% of the time, the users were not able to distinguish between an original and adversarial sample.
翻訳日:2022-09-28 08:28:44 公開日:2020-11-10
# EDEN: 閉ざされたガーデンシーンのマルチモーダル合成データセット

EDEN: Multimodal Synthetic Dataset of Enclosed GarDEN Scenes ( http://arxiv.org/abs/2011.04389v2 )

ライセンス: Link先を確認
Hoang-An Le, Thomas Mensink, Partha Das, Sezer Karaoglu, Theo Gevers(参考訳) 屋外シーン向けのマルチモーダル大規模データセットは、主に都市運転問題のために設計されている。 シーンは、庭園や公園のような自然中心のシーンに見られるシナリオと非常に構造的で意味的に異なる。 農業やガーデニングといった自然指向の応用のための機械学習手法を促進するために,エンクローズドガーデンシーン(eden)のためのマルチモーダル合成データセットを提案する。 データセットには、100以上の園芸モデルから取得した300万以上の画像が含まれている。 各画像には、セマンティクスセグメンテーション、深さ、表面の正常性、内在色、光学フローなど、様々な低レベル・高レベルの視覚モダリティがアノテートされる。 コンピュータビジョンにおける2つの重要な課題である, セマンティックセグメンテーションと単眼深度予測の最先端手法に関する実験結果は, 未構造化自然シーンのデータセットに対する事前学習深度ネットワークの効果を示す。 データセットと関連資料はhttps://lhoangan.github.io/eden.com/で入手できる。

Multimodal large-scale datasets for outdoor scenes are mostly designed for urban driving problems. The scenes are highly structured and semantically different from scenarios seen in nature-centered scenes such as gardens or parks. To promote machine learning methods for nature-oriented applications, such as agriculture and gardening, we propose the multimodal synthetic dataset for Enclosed garDEN scenes (EDEN). The dataset features more than 300K images captured from more than 100 garden models. Each image is annotated with various low/high-level vision modalities, including semantic segmentation, depth, surface normals, intrinsic colors, and optical flow. Experimental results on the state-of-the-art methods for semantic segmentation and monocular depth prediction, two important tasks in computer vision, show positive impact of pre-training deep networks on our dataset for unstructured natural scenes. The dataset and related materials will be available at https://lhoangan.github.io/eden.
翻訳日:2022-09-28 01:27:36 公開日:2020-11-10
# 対話管理への行動状態更新アプローチ

Action State Update Approach to Dialogue Management ( http://arxiv.org/abs/2011.04637v2 )

ライセンス: Link先を確認
Svetlana Stoyanchev, Simon Keizer and Rama Doddipatla(参考訳) 発話解釈は対話管理システムの重要な構成要素である対話マネージャの主要な機能の一つである。 ユーザ発話のテキスト中の対話状態更新動作を検出するために,統計的に訓練されたバイナリ分類器を特徴とする発話解釈のための動作状態更新アプローチ(ASU)を提案する。 私たちの目標は、ドメイン固有の自然言語理解コンポーネントを使わずに、ユーザ入力中の参照表現を解釈することです。 モデルのトレーニングにはアクティブラーニングを使用して,シミュレーショントレーニングの例を自動的に選択する。 ユーザシミュレーションと対話的評価の両面から,ASUアプローチは,参照表現を含む対話システムにおいて,ユーザ発話の解釈に成功していることを示す。

Utterance interpretation is one of the main functions of a dialogue manager, which is the key component of a dialogue system. We propose the action state update approach (ASU) for utterance interpretation, featuring a statistically trained binary classifier used to detect dialogue state update actions in the text of a user utterance. Our goal is to interpret referring expressions in user input without a domain-specific natural language understanding component. For training the model, we use active learning to automatically select simulated training examples. With both user-simulated and interactive human evaluations, we show that the ASU approach successfully interprets user utterances in a dialogue system, including those with referring expressions.
翻訳日:2022-09-28 01:09:37 公開日:2020-11-10
# 命題論理に基づく決定図と都市システムにおける意思決定の組み合わせ

Combining Propositional Logic Based Decision Diagrams with Decision Making in Urban Systems ( http://arxiv.org/abs/2011.04405v2 )

ライセンス: Link先を確認
Jiajing Ling, Kushagra Chandak, Akshat Kumar(参考訳) マルチエージェント問題の解決は, 環境の不確実性, 部分観測可能性, 今後の課題のスケーラビリティなどにより, 困難な課題となる。 特に都市部では,エージェントの混雑と移動時間を最小限に抑えながら,すべてのユーザに対する安全性を維持する必要があるため,より多くの課題がある。 本研究では,不確実性と部分的可観測性の下でのマルチエージェントパスフィンディングの問題に対処し,エージェントが出発点から終了点へ移動すると同時に,混雑度が低いなどの制約を満たし,マルチエージェント強化学習問題としてモデル化する。 我々は命題論理を用いてドメイン制約をコンパイルし、RLアルゴリズムと統合し、RLの高速なシミュレーションを可能にする。

Solving multiagent problems can be an uphill task due to uncertainty in the environment, partial observability, and scalability of the problem at hand. Especially in an urban setting, there are more challenges since we also need to maintain safety for all users while minimizing congestion of the agents as well as their travel times. To this end, we tackle the problem of multiagent pathfinding under uncertainty and partial observability where the agents are tasked to move from their starting points to ending points while also satisfying some constraints, e.g., low congestion, and model it as a multiagent reinforcement learning problem. We compile the domain constraints using propositional logic and integrate them with the RL algorithms to enable fast simulation for RL.
翻訳日:2022-09-28 01:08:15 公開日:2020-11-10
# 主成分クラスタリング法によるコミュニティ検出

Community Detection by Principal Components Clustering Methods ( http://arxiv.org/abs/2011.04377v2 )

ライセンス: Link先を確認
Huan Qing and Jingli Wang(参考訳) ネットワークコミュニティ検出問題に対する古典的Degree Corrected Stochastic Blockmodel (DCSBM)モデルに基づいて、主成分クラスタリング(PCC)と正規化主成分クラスタリング(NPCC)の2つの新しいアプローチを提案する。 パラメータを見積もる必要がないため、PCC法は実装が簡単である。 軽度の条件下では,PCCが一貫したコミュニティ検出をもたらすことを示す。 NPCCはPCCとRCC法の組み合わせに基づいて設計されている(Qin & Rohe 2013)。 NPCCの個体群解析は、NPCCがDCSBMの下での理想的な場合の完全なクラスタリングを返すことを示している。 PCCとNPCCは、合成および実世界のデータセットを通して説明される。 NPCCはPCCおよびRCCと比較して有意に改善した。 さらに、NPCCはPCCとRCCの優れた性質を継承し、NPCCはクラスタ化される固有ベクトルの数やチューニングパラメータの選択に敏感である。 シモンズとカルテックの2つの弱い信号ネットワークを扱う場合、クラスタリングのための1つの固有ベクトルを考慮し、PCC+とNPCC+の2つの改良PCC+とNPCC+を提供する。 2つの改良アルゴリズムは、元のアルゴリズムと比較して改善された性能を提供する。 特にNPCC+は、SimmonsとCaltechでそれぞれ121/1137と96/590のエラー率で満足なパフォーマンスを提供する。

Based on the classical Degree Corrected Stochastic Blockmodel (DCSBM) model for network community detection problem, we propose two novel approaches: principal component clustering (PCC) and normalized principal component clustering (NPCC). Without any parameters to be estimated, the PCC method is simple to be implemented. Under mild conditions, we show that PCC yields consistent community detection. NPCC is designed based on the combination of the PCC and the RSC method (Qin & Rohe 2013). Population analysis for NPCC shows that NPCC returns perfect clustering for the ideal case under DCSBM. PCC and NPCC is illustrated through synthetic and real-world datasets. Numerical results show that NPCC provides a significant improvement compare with PCC and RSC. Moreover, NPCC inherits nice properties of PCC and RSC such that NPCC is insensitive to the number of eigenvectors to be clustered and the choosing of the tuning parameter. When dealing with two weak signal networks Simmons and Caltech, by considering one more eigenvectors for clustering, we provide two refinements PCC+ and NPCC+ of PCC and NPCC, respectively. Both two refinements algorithms provide improvement performances compared with their original algorithms. Especially, NPCC+ provides satisfactory performances on Simmons and Caltech, with error rates of 121/1137 and 96/590, respectively.
翻訳日:2022-09-28 00:43:50 公開日:2020-11-10
# トリプレットネットワークを用いた産業用表面の距離ベース異常検出

Distance-Based Anomaly Detection for Industrial Surfaces Using Triplet Networks ( http://arxiv.org/abs/2011.04121v2 )

ライセンス: Link先を確認
Tareq Tayeh, Sulaiman Aburakhia, Ryan Myers, and Abdallah Shami(参考訳) 表面異常検出はスクラップ生産を減らすために多くの製造業において重要な品質管理の役割を担っている。 近年,人間ではなく機械による視覚検査が採用されている。 特に、ディープラーニング畳み込みニューラルネットワーク(cnns)は、その予測精度と効率性から、これらの画像処理ベースのソリューションの最前線にある。 分類対象のCNNをトレーニングするには十分な量の欠陥データが必要であるが、しばしば利用できない。 本稿では,cnnを距離に基づく異常検出目標を用いて表面テクスチャパッチでトレーニングすることで,その課題を解決する。 深部残留型三重項ネットワークモデルを用いて、非欠陥サンプルからランダム消去技術を用いて欠陥学習サンプルのみを合成し、同一クラスサンプルと外部サンプルとの類似度メトリックを直接学習する。 実験結果から, トレーニングデータの一部であり, 未知表面である既知の表面に対して, 曲げ, 破壊面, ひび割れ面などの異なる種類の異常を検出する際のアプローチの強さが示された。

Surface anomaly detection plays an important quality control role in many manufacturing industries to reduce scrap production. Machine-based visual inspections have been utilized in recent years to conduct this task instead of human experts. In particular, deep learning Convolutional Neural Networks (CNNs) have been at the forefront of these image processing-based solutions due to their predictive accuracy and efficiency. Training a CNN on a classification objective requires a sufficiently large amount of defective data, which is often not available. In this paper, we address that challenge by training the CNN on surface texture patches with a distance-based anomaly detection objective instead. A deep residual-based triplet network model is utilized, and defective training samples are synthesized exclusively from non-defective samples via random erasing techniques to directly learn a similarity metric between the same-class samples and out-of-class samples. Evaluation results demonstrate the approach's strength in detecting different types of anomalies, such as bent, broken, or cracked surfaces, for known surfaces that are part of the training data and unseen novel surfaces.
翻訳日:2022-09-27 23:57:00 公開日:2020-11-10
# 活動情報によるモードハンティング

Mode hunting through active information ( http://arxiv.org/abs/2011.05794v1 )

ライセンス: Link先を確認
Daniel Andr\'es D\'iaz-Pach\'on and Juan Pablo S\'aenz and J. Sunil Rao and Jean-Eudes Dazard(参考訳) 本稿では,アクティブな情報に基づく新しいモード探索手法を提案する。 このアルゴリズムは主成分に頼らずに次元を減少させ、さらに人口的にもモードが存在しない場合はモードを検知しない。

We propose a new method to find modes based on active information. We develop an algorithm that, when applied to the whole space, will say whether there are any modes present \textit{and} where they are; this algorithm will reduce the dimensionality without resorting to Principal Components; and more importantly, population-wise, will not detect modes when they are not present.
翻訳日:2022-09-27 08:40:56 公開日:2020-11-10
# 制限付きニューラルネットワークによる整数制約最適化の学習

Learning for Integer-Constrained Optimization through Neural Networks with Limited Training ( http://arxiv.org/abs/2011.05399v1 )

ライセンス: Link先を確認
Zhou Zhou, Shashank Jere, Lizhong Zheng, Lingjia Liu(参考訳) 本稿では,整数制約付きプログラミング問題に対するニューラルネットワークに基づく学習手法について,非常に限定的な学習法を用いて検討する。 具体的には、その構成成分の機能の観点から完全に解釈可能な、対称的で分解されたニューラルネットワーク構造を導入する。 整数制約の基本的なパターンと目的関数のアフィンの性質を生かして、導入されたニューラルネットワークは、整数制約の固有の構造を利用しない他の一般的なニューラルネットワーク構造と比較して、限られたトレーニングで優れた一般化性能を提供する。 さらに,導入された分解アプローチを半分解フレームワークにも拡張できることを示す。 一般に利用可能なトレーニングセットが制限された無線通信システムのコンテキストにおいて、導入した学習アプローチは分類/記号検出タスクによって評価される。 評価の結果,導入した学習戦略は,3gppコミュニティが指定する幅広い無線チャネル環境において,分類・記号検出タスクを効果的に実行できることがわかった。

In this paper, we investigate a neural network-based learning approach towards solving an integer-constrained programming problem using very limited training. To be specific, we introduce a symmetric and decomposed neural network structure, which is fully interpretable in terms of the functionality of its constituent components. By taking advantage of the underlying pattern of the integer constraint, as well as of the affine nature of the objective function, the introduced neural network offers superior generalization performance with limited training, as compared to other generic neural network structures that do not exploit the inherent structure of the integer constraint. In addition, we show that the introduced decomposed approach can be further extended to semi-decomposed frameworks. The introduced learning approach is evaluated via the classification/symbol detection task in the context of wireless communication systems where available training sets are usually limited. Evaluation results demonstrate that the introduced learning strategy is able to effectively perform the classification/symbol detection task in a wide variety of wireless channel environments specified by the 3GPP community.
翻訳日:2022-09-27 08:35:17 公開日:2020-11-10
# Compressionは個人レベルのフェデレーション学習を促進する

Compression Boosts Differentially Private Federated Learning ( http://arxiv.org/abs/2011.05578v1 )

ライセンス: Link先を確認
Raouf Kerkouche, Gergely \'Acs, Claude Castelluccia and Pierre Genev\`es(参考訳) フェデレートラーニング(Federated Learning)により、分散エンティティは、独自のデータを共有することなく、コモンモデルを協調的にトレーニングできる。 パラメータ更新のみを交換することでデータの収集と集約を防止するが、悪意のあるエンティティが取得した勾配から参加者のトレーニングデータに関するプライベート情報を学習できるさまざまな推論や再構成攻撃に対して脆弱である。 差分プライバシーは、交換された更新ベクタをノイズ付けすることで、そのような推論攻撃に対して理論的に健全なプライバシー保証を得るために使用される。 しかし、追加されたノイズはモデルサイズに比例し、現代のニューラルネットワークでは非常に大きい可能性がある。 これにより、モデル品質が低下する可能性がある。 本稿では,圧縮センシングを用いてモデルサイズを小さくし,プライバシーを犠牲にすることなくモデル品質を向上させる。 2つのデータセットを使用することで,従来の非プライベートフェデレーション学習方式に比べて,通信コストを最大95%削減できることを示す。

Federated Learning allows distributed entities to train a common model collaboratively without sharing their own data. Although it prevents data collection and aggregation by exchanging only parameter updates, it remains vulnerable to various inference and reconstruction attacks where a malicious entity can learn private information about the participants' training data from the captured gradients. Differential Privacy is used to obtain theoretically sound privacy guarantees against such inference attacks by noising the exchanged update vectors. However, the added noise is proportional to the model size which can be very large with modern neural networks. This can result in poor model quality. In this paper, compressive sensing is used to reduce the model size and hence increase model quality without sacrificing privacy. We show experimentally, using 2 datasets, that our privacy-preserving proposal can reduce the communication costs by up to 95% with only a negligible performance penalty compared to traditional non-private federated learning schemes.
翻訳日:2022-09-27 08:34:43 公開日:2020-11-10
# 機械学習技術に基づく病理画像の客観的診断:古典的アプローチと新しい動向

Objective Diagnosis for Histopathological Images Based on Machine Learning Techniques: Classical Approaches and New Trends ( http://arxiv.org/abs/2011.05790v1 )

ライセンス: Link先を確認
Naira Elazab, Hassan Soliman, Shaker El-Sappagh, S. M. Riazul Islam, and Mohammed Elmogy(参考訳) 病理組織学は、生検標本の病理学者による検査を指す。 病理像は顕微鏡で撮影され、がんの種類など多くの疾患を特定し、調査し、分類する。 様々な種類の病気とその組織状態の詳細な観察を提供する。 これらの画像は、生物学的組成を定義したり、細胞や組織構造を解析するための必須資源である。 このイメージングモダリティは診断応用において非常に重要である。 病理組織像の解析は、疾患診断を支える多種多様な研究領域である。 本稿では,病理組織像解析の課題を評価する。 組織像解析に応用された従来型および深層学習技術の広範なレビューを行った。 このレビューは、現在の多くのデータセットを要約し、将来の研究方法とともに、最近のディープラーニング技術で重要な課題と制約を強調する。 これまでの研究分野の進歩にもかかわらず、画像技術や疾患特有の特徴が多種多様であることから、まだオープン研究の重要領域である。

Histopathology refers to the examination by a pathologist of biopsy samples. Histopathology images are captured by a microscope to locate, examine, and classify many diseases, such as different cancer types. They provide a detailed view of different types of diseases and their tissue status. These images are an essential resource with which to define biological compositions or analyze cell and tissue structures. This imaging modality is very important for diagnostic applications. The analysis of histopathology images is a prolific and relevant research area supporting disease diagnosis. In this paper, the challenges of histopathology image analysis are evaluated. An extensive review of conventional and deep learning techniques which have been applied in histological image analyses is presented. This review summarizes many current datasets and highlights important challenges and constraints with recent deep learning techniques, alongside possible future research avenues. Despite the progress made in this research area so far, it is still a significant area of open research because of the variety of imaging techniques and disease-specific characteristics.
翻訳日:2022-09-27 08:34:26 公開日:2020-11-10
# グラフにおける変化点と異常検出の統計的学習

Statistical learning for change point and anomaly detection in graphs ( http://arxiv.org/abs/2011.06080v1 )

ライセンス: Link先を確認
Anna Malinovskaya, Philipp Otto and Torben Peters(参考訳) 静的グラフや動的グラフの形で表現できる複雑なシステムは、コミュニケーション、エンジニアリング、産業など、さまざまな分野において発生する。 動的ネットワーク構造を分析する際の興味深い問題のひとつは、その開発の変化を監視することである。 人工知能と従来の統計に基づく方法の両方を包含する統計的学習は、この研究分野の進歩に利用できる。 しかし、ほとんどのアプローチは1つまたは他のフレームワークだけを適用します。 本稿では,統計的プロセス制御と深層学習アルゴリズムを組み合わせた事例に着目したネットワーク監視手法を構築するために,両分野の連携の可能性について論じる。 本稿では,ネットワークデータにおける変化点と異常検出の提示とともに,救急車の応答時間を監視し,定位関数値の制御チャートとグラフ畳み込みネットワークを共同で適用することを提案する。

Complex systems which can be represented in the form of static and dynamic graphs arise in different fields, e.g. communication, engineering and industry. One of the interesting problems in analysing dynamic network structures is to monitor changes in their development. Statistical learning, which encompasses both methods based on artificial intelligence and traditional statistics, can be used to progress in this research area. However, the majority of approaches apply only one or the other framework. In this paper, we discuss the possibility of bringing together both disciplines in order to create enhanced network monitoring procedures focussing on the example of combining statistical process control and deep learning algorithms. Together with the presentation of change point and anomaly detection in network data, we propose to monitor the response times of ambulance services, applying jointly the control chart for quantile function values and a graph convolutional network.
翻訳日:2022-09-27 08:34:12 公開日:2020-11-10
# 深層学習支援多光子顕微鏡による露光低減と迅速イメージング

Deep machine learning-assisted multiphoton microscopy to reduce light exposure and expedite imaging ( http://arxiv.org/abs/2011.06408v1 )

ライセンス: Link先を確認
Stephen McAleer, Alex Fast, Yuntian Xue, Magdalene Seiler, William Tang, Mihaela Balu, Pierre Baldi, Andrew W. Browne(参考訳) 2光子励起蛍光(2PEF)は、組織を厚さ約1mmまでイメージングする。 通常、蛍光励起露光の低減は画像の品質を低下させる。 しかし、ディープラーニングのスーパーレゾリューション技術を使って、これらの低解像度画像を高解像度画像に変換することができる。 本研究は, 蛍光励起露光を低減しつつ, 画像品質を最大化するために深層学習を適用したヒト組織イメージングの改善について検討する。 U-Netに基づく手法とパッチベースの回帰手法の2つの方法を分析する。 どちらの方法も、皮膚データセットと眼データセットで評価される。 眼球データセットは、1200対の高出力と低出力の網膜オルガノイド画像を含む。 皮膚データセットは、ヒト皮膚の各サンプルの複数のフレームを含む。 高分解能画像は, 試料平均70フレーム, 低分解能画像は試料平均7フレーム, 試料平均15フレームで形成した。 スキンデータセットは、解像度レベルごとに550の画像を含む。 平均二乗誤差 (MSE) と構造的類似度指数 (SSIM) の2つの手法の性能測定を行った。 眼球データセットでは、U-Net法では平均MSEが27,611、U-Net法では146,855、U-Net法では平均SSIMが0.636である。 皮膚データセットでは,U-Net法では平均MSEが3.768,U-Net法では4.032,U-Net法では平均SSIMが0.824,U-Net法では0.783であった。 画像の画質は良いが、予測速度を比較する場合、パッチ法はu-net法よりも悪く、1つの画像を予測するのに303秒かかり、u-net法では1秒未満である。

Two-photon excitation fluorescence (2PEF) allows imaging of tissue up to about one millimeter in thickness. Typically, reducing fluorescence excitation exposure reduces the quality of the image. However, using deep learning super resolution techniques, these low-resolution images can be converted to high-resolution images. This work explores improving human tissue imaging by applying deep learning to maximize image quality while reducing fluorescence excitation exposure. We analyze two methods: a method based on U-Net, and a patch-based regression method. Both methods are evaluated on a skin dataset and an eye dataset. The eye dataset includes 1200 paired high power and low power images of retinal organoids. The skin dataset contains multiple frames of each sample of human skin. High-resolution images were formed by averaging 70 frames for each sample and low-resolution images were formed by averaging the first 7 and 15 frames for each sample. The skin dataset includes 550 images for each of the resolution levels. We track two measures of performance for the two methods: mean squared error (MSE) and structural similarity index measure (SSIM). For the eye dataset, the patches method achieves an average MSE of 27,611 compared to 146,855 for the U-Net method, and an average SSIM of 0.636 compared to 0.607 for the U-Net method. For the skin dataset, the patches method achieves an average MSE of 3.768 compared to 4.032 for the U-Net method, and an average SSIM of 0.824 compared to 0.783 for the U-Net method. Despite better performance on image quality, the patches method is worse than the U-Net method when comparing the speed of prediction, taking 303 seconds to predict one image compared to less than one second for the U-Net method.
翻訳日:2022-09-27 08:33:59 公開日:2020-11-10
# ディープニューラルネットワークを用いた光学自由画像の分類

Classification of optics-free images with deep neural networks ( http://arxiv.org/abs/2011.05132v1 )

ライセンス: Link先を確認
Soren Nelson and Rajesh Menon(参考訳) 最薄のカメラは、全ての光学系を取り除き、イメージセンサーだけを残すことで達成される。 深層ニューラルネットワークを訓練し,人間中心の画像再構成を必要とせず,光学系フリーな画像に対して,マルチクラス検出とバイナリ分類(精度92%)を行う。 光学自由画像からの参照は、プライバシーと電力効率を高める可能性がある。

The thinnest possible camera is achieved by removing all optics, leaving only the image sensor. We train deep neural networks to perform multi-class detection and binary classification (with accuracy of 92%) on optics-free images without the need for anthropocentric image reconstructions. Inferencing from optics-free images has the potential for enhanced privacy and power efficiency.
翻訳日:2022-09-27 08:32:39 公開日:2020-11-10
# 有向グラフの高次スペクトルクラスタリング

Higher-Order Spectral Clustering of Directed Graphs ( http://arxiv.org/abs/2011.05080v1 )

ライセンス: Link先を確認
Steinar Laenen and He Sun(参考訳) クラスタリングはアルゴリズムの重要なトピックであり、機械学習、コンピュータビジョン、統計学、その他いくつかの研究分野に多くの応用がある。 従来のグラフクラスタリングの目的は、コンダクタンスの低いクラスタを見つけることである。 これらの目的が単に無向グラフに適用できるだけでなく、クラスタ間の関係を考慮に入れられないため、多くのアプリケーションにとって不可欠である。 これらの欠点を克服するために,クラスタが相互にさらに"構造的"な情報を示す有向グラフ (digraphs) について検討した。 ダイグラフのエルミート行列表現に基づいて、ダイグラフクラスタリングのためのほぼ線形時間アルゴリズムを提案し、さらに、提案アルゴリズムが妥当な仮定の下でサブ線形時間で実装可能であることを示す。 我々の理論的な研究の意義は、uncomtradeデータセットに関する広範な実験結果によって示される: このアルゴリズムの出力クラスタリングは、これらのクラスター(国の集合)が、その輸入および輸出記録に対してどのように相互に関係しているかを示すだけでなく、これらのクラスターが国際貿易における既知の事実に従って、時間とともにどのように進化するかを示す。

Clustering is an important topic in algorithms, and has a number of applications in machine learning, computer vision, statistics, and several other research disciplines. Traditional objectives of graph clustering are to find clusters with low conductance. Not only are these objectives just applicable for undirected graphs, they are also incapable to take the relationships between clusters into account, which could be crucial for many applications. To overcome these downsides, we study directed graphs (digraphs) whose clusters exhibit further "structural" information amongst each other. Based on the Hermitian matrix representation of digraphs, we present a nearly-linear time algorithm for digraph clustering, and further show that our proposed algorithm can be implemented in sublinear time under reasonable assumptions. The significance of our theoretical work is demonstrated by extensive experimental results on the UN Comtrade Dataset: the output clustering of our algorithm exhibits not only how the clusters (sets of countries) relate to each other with respect to their import and export records, but also how these clusters evolve over time, in accordance with known facts in international trade.
翻訳日:2022-09-27 08:26:16 公開日:2020-11-10
# 非凸非平滑問題に対するモーメントを用いた分散確率的合意最適化

Distributed Stochastic Consensus Optimization with Momentum for Nonconvex Nonsmooth Problems ( http://arxiv.org/abs/2011.05082v1 )

ライセンス: Link先を確認
Zhiguo Wang, Jiawei Zhang, Tsung-Hui Chang, Jian Li and Zhi-Quan Luo(参考訳) ネットワーク上で滑らかあるいは凸な問題を解決するために多くの分散最適化アルゴリズムが提案されているが、非凸および非滑らかな問題を処理できるものは少ない。 本稿では,非凸および非スムース問題の最適化を高速化するために,ネステロフ運動量を持つ(統計的)分散アルゴリズムを提案する。 理論上,提案手法は,計算複雑性が$\mathcal{o}(1/\epsilon^2)$,通信複雑性が$\mathcal{o}(1/\epsilon)$で,一定のステップサイズで$\epsilon$定常解を実現できることを示す。 従来の勾配追跡法と比較すると,提案アルゴリズムは計算複雑性は同じだが通信複雑性は低い。 我々の知る限りでは、提示された結果は非凸および非スムース問題に対する$\mathcal{o}(1/\epsilon)$通信複雑性を持つ最初の確率的アルゴリズムである。 提案手法の有効性を示すために,分散非凸回帰問題とディープニューラルネットワークに基づく分類問題に対する数値実験を行った。

While many distributed optimization algorithms have been proposed for solving smooth or convex problems over the networks, few of them can handle non-convex and non-smooth problems. Based on a proximal primal-dual approach, this paper presents a new (stochastic) distributed algorithm with Nesterov momentum for accelerated optimization of non-convex and non-smooth problems. Theoretically, we show that the proposed algorithm can achieve an $\epsilon$-stationary solution under a constant step size with $\mathcal{O}(1/\epsilon^2)$ computation complexity and $\mathcal{O}(1/\epsilon)$ communication complexity. When compared to the existing gradient tracking based methods, the proposed algorithm has the same order of computation complexity but lower order of communication complexity. To the best of our knowledge, the presented result is the first stochastic algorithm with the $\mathcal{O}(1/\epsilon)$ communication complexity for non-convex and non-smooth problems. Numerical experiments for a distributed non-convex regression problem and a deep neural network based classification problem are presented to illustrate the effectiveness of the proposed algorithms.
翻訳日:2022-09-27 08:25:58 公開日:2020-11-10
# 生成逆ネットワークを用いた大規模宇宙構造符号化

Encoding large scale cosmological structure with Generative Adversarial Networks ( http://arxiv.org/abs/2011.05244v1 )

ライセンス: Link先を確認
Marion Ullmo, Aur\'elien Decelle, Nabila Aghanim(参考訳) 近年,計算量と計算能力の面では,重い計算や高価な宇宙シミュレーションをバイパスするために,シミュレーションライクなデータセットの高速生成のための解としてgans(generative adversarial networks)と呼ばれるニューラルネットワークが提案されている。 本研究では,GANを構築して,そのようなアプローチの強みと限界をより深く検討する。 そこで我々は,予測モデル構築に向けた第一歩として,訓練されたGANを用いて単純なオートエンコーダ(AE)を構築する新しい手法を提案する。 ganとaeはどちらも、2dと3dの2種類のn体シミュレーションから生成される画像に基づいて訓練される。 GANはトレーニングした画像と統計的に一致した新しい画像を生成することに成功した。 次に,AEがシミュレーション画像から効率的に情報を抽出し,GANの潜伏符号化を満足して推定し,同様の大規模構造を持つ画像を生成することを示す。

Recently a type of neural networks called Generative Adversarial Networks (GANs) has been proposed as a solution for fast generation of simulation-like datasets, in an attempt to bypass heavy computations and expensive cosmological simulations to run in terms of time and computing power. In the present work, we build and train a GAN to look further into the strengths and limitations of such an approach. We then propose a novel method in which we make use of a trained GAN to construct a simple autoencoder (AE) as a first step towards building a predictive model. Both the GAN and AE are trained on images issued from two types of N-body simulations, namely 2D and 3D simulations. We find that the GAN successfully generates new images that are statistically consistent with the images it was trained on. We then show that the AE manages to efficiently extract information from simulation images, satisfyingly inferring the latent encoding of the GAN to generate an image with similar large scale structures.
翻訳日:2022-09-27 08:24:49 公開日:2020-11-10
# パーシステンス-感度最適化による位相正規化

Topological Regularization via Persistence-Sensitive Optimization ( http://arxiv.org/abs/2011.05290v1 )

ライセンス: Link先を確認
Arnur Nigmetov, Aditi S. Krishnapriyan, Nicole Sanderson, Dmitriy Morozov(参考訳) 機械学習と統計の重要なツールである最適化は、オーバーフィッティングを減らすために正規化に依存している。 従来の正規化法はその滑らかさを保証するために解のノルムを制御する。 近年、トポロジカル手法は、解のより正確で表現力豊かな制御を提供し、その粗さの定量化と低減に永続的ホモロジーに依存している。 このような既存のテクニックはすべて、関数のトポロジ的特徴の要約である永続化ダイアグラムを通じて勾配をバックプロパゲートする。 彼らの欠点は、関数のクリティカルポイントでのみ情報を提供することだ。 そこで本稿では,永続性に敏感な単純化の上に構築され,必要な変更を永続性図に変換して,臨界点と正則点の両方を含む領域の大規模部分集合の変化に変換する手法を提案する。 このアプローチは、より速くより正確な位相正則化を可能にし、その利点は実験的な証拠で示される。

Optimization, a key tool in machine learning and statistics, relies on regularization to reduce overfitting. Traditional regularization methods control a norm of the solution to ensure its smoothness. Recently, topological methods have emerged as a way to provide a more precise and expressive control over the solution, relying on persistent homology to quantify and reduce its roughness. All such existing techniques back-propagate gradients through the persistence diagram, which is a summary of the topological features of a function. Their downside is that they provide information only at the critical points of the function. We propose a method that instead builds on persistence-sensitive simplification and translates the required changes to the persistence diagram into changes on large subsets of the domain, including both critical and regular points. This approach enables a faster and more precise topological regularization, the benefits of which we illustrate with experimental evidence.
翻訳日:2022-09-27 08:24:31 公開日:2020-11-10
# PACSET (Packed Serialized Trees): ツリーアンサンブル展開における推論レイテンシ低減

PACSET (Packed Serialized Trees): Reducing Inference Latency for Tree Ensemble Deployment ( http://arxiv.org/abs/2011.05383v1 )

ライセンス: Link先を確認
Meghana Madhyastha, Kunal Lillaney, James Browne, Joshua Vogelstein, Randal Burns(参考訳) モデルがまだメモリにロードされていない場合の推論遅延を最適化する,ツリーアンサンブルのシリアライズとデシリアライズを行う手法を提案する。 これは、モデルがメモリよりも大きい場合だけでなく、モノのインターネットのような低リソースデバイスにモデルがデプロイされる場合や、必要に応じてリソースが割り当てられるWebマイクロサービスとして実行される場合にも発生する。 組込みシリアライズドツリー(PACSET)は、外部メモリアルゴリズムの原理を用いて、ツリーアンサンブルのレイアウトにおける参照ローカリティを符号化する。 レイアウトは複数の木にまたがる相関ノードをインターリーブし、リーフ濃度を使って最も人気のあるパス上のノードをコロケーションし、i/oブロックに最適化される。 その結果、各I/Oは有用なデータの割合が高くなり、対話型ワークロードの分類遅延が2~6倍削減される。

We present methods to serialize and deserialize tree ensembles that optimize inference latency when models are not already loaded into memory. This arises whenever models are larger than memory, but also systematically when models are deployed on low-resource devices, such as in the Internet of Things, or run as Web micro-services where resources are allocated on demand. Our packed serialized trees (PACSET) encode reference locality in the layout of a tree ensemble using principles from external memory algorithms. The layout interleaves correlated nodes across multiple trees, uses leaf cardinality to collocate the nodes on the most popular paths and is optimized for the I/O blocksize. The result is that each I/O yields a higher fraction of useful data, leading to a 2-6 times reduction in classification latency for interactive workloads.
翻訳日:2022-09-27 08:23:46 公開日:2020-11-10
# ステレオおよびrgb-dカメラからの意味点雲の登録のための新しい枠組み

A New Framework for Registration of Semantic Point Clouds from Stereo and RGB-D Cameras ( http://arxiv.org/abs/2012.03683v1 )

ライセンス: Link先を確認
Ray Zhang, Tzu-Yuan Lin, Chien Erh Lin, Steven A. Parkison, William Clark, Jessy W. Grizzle, Ryan M. Eustice and Maani Ghaffari(参考訳) 本稿では,色や意味ラベルなどの幾何学的および意味的計測をアライメントプロセスに統合し,明示的なデータ関連付けを必要としない,新しい非パラメトリック剛性点クラウド登録フレームワークについて報告する。 点雲は再現可能な核ヒルベルト空間における非パラメトリック関数として表される。 アライメント問題は、2つの関数間の内積の最大化(本質的には重み付きカーネルの和)として定式化され、それぞれが局所幾何学的特徴と意味的特徴を利用する。 連続モデルの結果、解析的勾配を計算でき、剛体変換群に対する最適化により局所解を得ることができる。 さらに,提案フレームワークに固有の新たなポイントクラウドアライメント指標を提案し,幾何学的および意味的情報を考慮した。 公開ステレオおよびRGB-Dデータセットを用いて評価した結果,提案手法は屋外および屋内のフレーム・ツー・フレームの登録方法よりも優れていた。 オープンソースのGPU実装も提供されている。

This paper reports on a novel nonparametric rigid point cloud registration framework that jointly integrates geometric and semantic measurements such as color or semantic labels into the alignment process and does not require explicit data association. The point clouds are represented as nonparametric functions in a reproducible kernel Hilbert space. The alignment problem is formulated as maximizing the inner product between two functions, essentially a sum of weighted kernels, each of which exploits the local geometric and semantic features. As a result of the continuous models, analytical gradients can be computed, and a local solution can be obtained by optimization over the rigid body transformation group. Besides, we present a new point cloud alignment metric that is intrinsic to the proposed framework and takes into account geometric and semantic information. The evaluations using publicly available stereo and RGB-D datasets show that the proposed method outperforms state-of-the-art outdoor and indoor frame-to-frame registration methods. An open-source GPU implementation is also provided.
翻訳日:2022-09-27 08:17:51 公開日:2020-11-10
# 信号時相論理仕様に基づくモデルベース強化学習

Model-based Reinforcement Learning from Signal Temporal Logic Specifications ( http://arxiv.org/abs/2011.04950v1 )

ライセンス: Link先を確認
Parv Kapoor, Anand Balakrishnan, Jyotirmoy V. Deshmukh(参考訳) 強化学習(RL)に基づく技術は、ロボットシステムの制御ポリシーの設計にますます利用されている。 RLは基本的に、ロボットの望ましい振る舞いを符号化する状態に基づく報酬関数に依存しており、悪い報酬関数は学習エージェントによる搾取の傾向があり、最良の場合では望ましくない行動につながり、最悪の場合は致命的な危険をもたらす。 一方,複雑なタスクに対して適切な報酬関数を設計することは,難しい課題である。 本稿では,報酬/コスト関数の代替として,STL(Signal Temporal Logic)と呼ばれる形式仕様言語を用いて,望ましいロボット動作を表現することを提案する。 STL仕様をモデルベース学習と併用して,STL仕様の満足度を有限時間水平線上で最適化するモデル予測コントローラを設計する。 提案アルゴリズムは,ロボットアームのピック・アンド・プレースや自律走行車両の適応クルーズ制御などのロボットシステムのシミュレーションに基づいて実証的に評価される。

Techniques based on Reinforcement Learning (RL) are increasingly being used to design control policies for robotic systems. RL fundamentally relies on state-based reward functions to encode desired behavior of the robot and bad reward functions are prone to exploitation by the learning agent, leading to behavior that is undesirable in the best case and critically dangerous in the worst. On the other hand, designing good reward functions for complex tasks is a challenging problem. In this paper, we propose expressing desired high-level robot behavior using a formal specification language known as Signal Temporal Logic (STL) as an alternative to reward/cost functions. We use STL specifications in conjunction with model-based learning to design model predictive controllers that try to optimize the satisfaction of the STL specification over a finite time horizon. The proposed algorithm is empirically evaluated on simulations of robotic system such as a pick-and-place robotic arm, and adaptive cruise control for autonomous vehicles.
翻訳日:2022-09-27 08:17:33 公開日:2020-11-10
# 神経ゲノム組立への一歩

A step towards neural genome assembly ( http://arxiv.org/abs/2011.05013v1 )

ライセンス: Link先を確認
Lovro Vr\v{c}ek, Petar Veli\v{c}kovi\'c, Mile \v{S}iki\'c(参考訳) de novoゲノムアセンブリは、元のゲノムを再構築するために膨大な数の短い配列間の接続を見つけることに焦点を当てている。 ゲノム集合の中心的な問題は、未知の数のノードとエッジを回避すべきという制約のある大きな有向グラフを通してハミルトン経路を見つけることができる。 しかし、グラフの局所構造や生物学的特徴のため、冗長な情報の除去を含むグラフの単純化に還元することができる。 グラフ表現学習とアルゴリズムのニューラル実行の最近の進歩により、我々は最大集約子を用いてMPNNモデルを訓練し、グラフ単純化のためのいくつかのアルゴリズムを実行する。 アルゴリズムがうまく学習され、トレーニングで使用されるグラフの最大20倍の大きさのグラフにスケールできることを示す。 また、ラムダファージと大腸菌の実際のゲノムデータから得られたグラフについても検証した。

De novo genome assembly focuses on finding connections between a vast amount of short sequences in order to reconstruct the original genome. The central problem of genome assembly could be described as finding a Hamiltonian path through a large directed graph with a constraint that an unknown number of nodes and edges should be avoided. However, due to local structures in the graph and biological features, the problem can be reduced to graph simplification, which includes removal of redundant information. Motivated by recent advancements in graph representation learning and neural execution of algorithms, in this work we train the MPNN model with max-aggregator to execute several algorithms for graph simplification. We show that the algorithms were learned successfully and can be scaled to graphs of sizes up to 20 times larger than the ones used in training. We also test on graphs obtained from real-world genomic data---that of a lambda phage and E. coli.
翻訳日:2022-09-27 08:15:31 公開日:2020-11-10
# 勾配強化型未学習ニューラルネットワークによる低通信コストの分散学習

Distributed Learning with Low Communication Cost via Gradient Boosting Untrained Neural Network ( http://arxiv.org/abs/2011.05022v1 )

ライセンス: Link先を確認
Xiatian Zhang, Xunshi He, Nan Wang and Rong Chen(参考訳) 高次元データの場合,GBDT の通信量と特徴量の関係から,分散 GBDT には膨大な通信コストがかかる。 そこで本研究では,新しい勾配ブースティングアルゴリズムである勾配ブースティング非学習ニューラルネットワーク(gbun)を提案する。 GBUNは、トレーニングされていないランダムに生成されたニューラルネットワークをアンサンブルし、データサンプルを複数のニューロン出力にソフトに分散し、分散学習のための通信コストを劇的に削減する。 高次元データのための巨大なニューラルネットワークを作成するのを避けるため、Simhashアルゴリズムを拡張し、ニューラルネットワークの前方計算を模倣する。 複数のパブリックデータセットを用いた実験の結果,gbunは従来のgbdtと同程度に精度が高く,分散学習のスケーリング特性よりも優れていることがわかった。 従来のgbdtと比べ、gbunは64台のマシンでクラスタ上で最大13回、ネットワーク帯域が100kb/sのクラスタ上で最大4614回、トレーニングプロセスを高速化している。 したがって、GBUNは効率的な分散学習アルゴリズムであるだけでなく、連合学習にも大きな可能性を持っている。

For high-dimensional data, there are huge communication costs for distributed GBDT because the communication volume of GBDT is related to the number of features. To overcome this problem, we propose a novel gradient boosting algorithm, the Gradient Boosting Untrained Neural Network(GBUN). GBUN ensembles the untrained randomly generated neural network that softly distributes data samples to multiple neuron outputs and dramatically reduces the communication costs for distributed learning. To avoid creating huge neural networks for high-dimensional data, we extend Simhash algorithm to mimic forward calculation of the neural network. Our experiments on multiple public datasets show that GBUN is as good as conventional GBDT in terms of prediction accuracy and much better than it in scaling property for distributed learning. Comparing to conventional GBDT varieties, GBUN speeds up the training process up to 13 times on the cluster with 64 machines, and up to 4614 times on the cluster with 100KB/s network bandwidth. Therefore, GBUN is not only an efficient distributed learning algorithm but also has great potentials for federated learning.
翻訳日:2022-09-27 08:15:17 公開日:2020-11-10
# リアルなボケをレンダリングするaim 2020チャレンジ

AIM 2020 Challenge on Rendering Realistic Bokeh ( http://arxiv.org/abs/2011.04988v1 )

ライセンス: Link先を確認
Andrey Ignatov, Radu Timofte, Ming Qian, Congyu Qiao, Jiamin Lin, Zhenyu Guo, Chenghua Li, Cong Leng, Jian Cheng, Juewen Peng, Xianrui Luo, Ke Xian, Zijin Wu, Zhiguo Cao, Densen Puthussery, Jiji C V, Hrishikesh P S, Melvin Kuriakose, Saikat Dutta, Sourya Dipta Das, Nisarg A. Shah, Kuldeep Purohit, Praveen Kandula, Maitreya Suin, A. N. Rajagopalan, Saagara M B, Minnu A L, Sanjana A R, Praseeda S, Ge Wu, Xueqin Chen, Tengyao Wang, Max Zheng, Hulk Wong, Jay Zou(参考訳) 本稿では,第2回AIM現実ボケ効果レンダリングチャレンジをレビューし,提案手法と結果について述べる。 そこでは、Canon 7D DSLRカメラでキャプチャした5Kの浅度/広深度の画像ペアからなる大規模なESB!ボケデータセットを使用して、現実的な浅度フォーカス技術を学ぶことが目標だった。 参加者は、他のカメラやセンサーからの追加データなしで、単一のフレームのみに基づいてボケ効果をレンダリングしなければならなかった。 この課題で使用されるターゲットメトリックは、実行時とユーザスタディで測定されたソリューションの知覚品質を組み合わせたものだ。 提案したモデルの効率を確保するため,標準デスクトップCPU上でのランタイムの測定と,スマートフォンGPU上でのモデル実行を行った。 提案手法は, 実効ボケ効果レンダリング問題に対する最先端技術を定義することによって, ベースライン結果を大幅に改善した。

This paper reviews the second AIM realistic bokeh effect rendering challenge and provides the description of the proposed solutions and results. The participating teams were solving a real-world bokeh simulation problem, where the goal was to learn a realistic shallow focus technique using a large-scale EBB! bokeh dataset consisting of 5K shallow / wide depth-of-field image pairs captured using the Canon 7D DSLR camera. The participants had to render bokeh effect based on only one single frame without any additional data from other cameras or sensors. The target metric used in this challenge combined the runtime and the perceptual quality of the solutions measured in the user study. To ensure the efficiency of the submitted models, we measured their runtime on standard desktop CPUs as well as were running the models on smartphone GPUs. The proposed solutions significantly improved the baseline results, defining the state-of-the-art for practical bokeh effect rendering problem.
翻訳日:2022-09-27 08:08:04 公開日:2020-11-10
# 画像信号処理パイプラインのAIM 2020への挑戦

AIM 2020 Challenge on Learned Image Signal Processing Pipeline ( http://arxiv.org/abs/2011.04994v1 )

ライセンス: Link先を確認
Andrey Ignatov, Radu Timofte, Zhilu Zhang, Ming Liu, Haolin Wang, Wangmeng Zuo, Jiawei Zhang, Ruimao Zhang, Zhanglin Peng, Sijie Ren, Linhui Dai, Xiaohong Liu, Chengqi Li, Jun Chen, Yuichi Ito, Bhavya Vasudeva, Puneesh Deora, Umapada Pal, Zhenyu Guo, Yu Zhu, Tian Liang, Chenghua Li, Cong Leng, Zhihong Pan, Baopu Li, Byung-Hoon Kim, Joonyoung Song, Jong Chul Ye, JaeHyun Baek, Magauiya Zhussip, Yeskendir Koishekenov, Hwechul Cho Ye, Xin Liu, Xueying Hu, Jun Jiang, Jinwei Gu, Kai Li, Pengliang Tan, Bingxin Hou(参考訳) 本稿では,第2回AIM学習ISPチャレンジをレビューし,提案したソリューションと結果について解説する。 参加チームは現実世界のRAW-to-RGBマッピング問題を解決し、Huawei P20デバイスが捉えた品質の低いRAW画像を、Canon 5D DSLRカメラで取得したのと同じ写真にマッピングすることを目的としていた。 検討されたタスクは、画像の復調、ノイズ除去、ホワイトバランス、色とコントラストの補正、復調など、多くの複雑なコンピュータビジョンサブタスクを取り入れていた。 この課題で使用される対象尺度は,PSNRとSSIMと,ユーザスタディで測定されたソリューションの知覚結果を組み合わせたものである。 提案手法はベースライン結果を大幅に改善し,実用的な画像信号処理パイプラインモデリングのための最先端技術を定義した。

This paper reviews the second AIM learned ISP challenge and provides the description of the proposed solutions and results. The participating teams were solving a real-world RAW-to-RGB mapping problem, where to goal was to map the original low-quality RAW images captured by the Huawei P20 device to the same photos obtained with the Canon 5D DSLR camera. The considered task embraced a number of complex computer vision subtasks, such as image demosaicing, denoising, white balancing, color and contrast correction, demoireing, etc. The target metric used in this challenge combined fidelity scores (PSNR and SSIM) with solutions' perceptual results measured in a user study. The proposed solutions significantly improved the baseline results, defining the state-of-the-art for practical image signal processing pipeline modeling.
翻訳日:2022-09-27 08:07:47 公開日:2020-11-10
# Noise2Stack: ボリュームデータからの学習による画像復元の改善

Noise2Stack: Improving Image Restoration by Learning from Volumetric Data ( http://arxiv.org/abs/2011.05105v1 )

ライセンス: Link先を確認
Mikhail Papkov, Kenny Roberts, Lee Ann Madissoon, Omer Bayraktar, Dmytro Fishman, Kaupo Palo, Leopold Parts(参考訳) バイオメディカル画像が騒がしい。 撮像装置自体には物理的制約があり、信号対雑音比、取得速度、撮像深度の一連の実験的なトレードオフは問題を悪化させる。 したがって、デノイジングはあらゆる画像処理パイプラインの重要な部分であり、畳み込みニューラルネットワークは、このタスクに現在選択されている方法である。 一般的なアプローチである noise2noise は、クリーンな地上真理を必要とせず、第2のノイズコピーをトレーニングターゲットとして使用する。 Noise2SelfやNoss2Voidのような自己監督的手法は、明確なターゲットのない信号を学ぶことによって、データの要求を緩和するが、単一の画像における情報の不足によって制限される。 本稿では,空間隣接平面間の共有信号を利用した画像スタックへのノイズ2ノイズ法の拡張である noise2stack を導入する。 磁気共鳴脳スキャンと新たに取得したマルチプレーン顕微鏡データにより,スタック内の画像近傍のみからの学習はノイズ2ノイズとノイズ2Voidを上回り,そのギャップを教師付き復調法に埋めるのに十分であることが示された。 以上の結果から,多面体生物医学画像のノイズ除去パイプラインにおける低コスト,高精度な改善が示唆された。 この研究の一環として,多面体画像評価のためのベンチマークを確立するため,顕微鏡データセットをリリースする。

Biomedical images are noisy. The imaging equipment itself has physical limitations, and the consequent experimental trade-offs between signal-to-noise ratio, acquisition speed, and imaging depth exacerbate the problem. Denoising is, therefore, an essential part of any image processing pipeline, and convolutional neural networks are currently the method of choice for this task. One popular approach, Noise2Noise, does not require clean ground truth, and instead, uses a second noisy copy as a training target. Self-supervised methods, like Noise2Self and Noise2Void, relax data requirements by learning the signal without an explicit target but are limited by the lack of information in a single image. Here, we introduce Noise2Stack, an extension of the Noise2Noise method to image stacks that takes advantage of a shared signal between spatially neighboring planes. Our experiments on magnetic resonance brain scans and newly acquired multiplane microscopy data show that learning only from image neighbors in a stack is sufficient to outperform Noise2Noise and Noise2Void and close the gap to supervised denoising methods. Our findings point towards low-cost, high-reward improvement in the denoising pipeline of multiplane biomedical images. As a part of this work, we release a microscopy dataset to establish a benchmark for the multiplane image denoising.
翻訳日:2022-09-27 08:07:33 公開日:2020-11-10
# 生涯都市スケールマップによるスマートフォン上の協調型拡張現実

Collaborative Augmented Reality on Smartphones via Life-long City-scale Maps ( http://arxiv.org/abs/2011.05370v1 )

ライセンス: Link先を確認
Lukas Platinsky, Michal Szabados, Filip Hlasek, Ross Hemsley, Luca Del Pero, Andrej Pancik, Bryan Baum, Hugo Grimmett, Peter Ondruska(参考訳) 本稿では,モバイル端末上で都市規模でar体験を共有するためのエンド・ツー・エンドのコンピュータビジョンシステムについて紹介する。 そこで我々は,都市規模SLAMのスケーラビリティ,堅牢性,マップ更新,実運用システムに必要な全天候性能といった重要な課題に対する効果的なソリューションとして,経験ベースマッピングフレームワークの新たな定式化を提案する。 さらに,複数のエッジデバイスのシームレスなリアルタイムローカライズを実現するために,SLAMシステムの同期方法を提案する。 これらはすべて、ネットワークのレイテンシと帯域幅の制限がある。 システムはサンフランシスコで大規模に展開、テストされ、数百kmの地図化されたエリアでAR体験を提供する。 この分野のさらなる発展を促進するために、我々はデータセットを一般向けに提供し、これまでで最大のデータである。

In this paper we present the first published end-to-end production computer-vision system for powering city-scale shared augmented reality experiences on mobile devices. In doing so we propose a new formulation for an experience-based mapping framework as an effective solution to the key issues of city-scale SLAM scalability, robustness, map updates and all-time all-weather performance required by a production system. Furthermore, we propose an effective way of synchronising SLAM systems to deliver seamless real-time localisation of multiple edge devices at the same time. All this in the presence of network latency and bandwidth limitations. The resulting system is deployed and tested at scale in San Francisco where it delivers AR experiences in a mapped area of several hundred kilometers. To foster further development of this area we offer the data set to the public, constituting the largest of this kind to date.
翻訳日:2022-09-27 08:07:07 公開日:2020-11-10
# 深層学習による病理組織像スコアを用いた第3相臨床試験

Deep Learning Derived Histopathology Image Score for Increasing Phase 3 Clinical Trial Probability of Success ( http://arxiv.org/abs/2011.05406v1 )

ライセンス: Link先を確認
Qi Tang and Vardaan Kishore Kumar(参考訳) 第3相臨床試験の失敗は腫瘍学における薬の開発コストの高騰に寄与する。 このようなコストを大幅に削減するには、第3相臨床試験の計画前に患者データを限られた量で、創薬過程の早期に腫瘍治療への応答者を特定する必要がある。 第1相非小細胞肺癌臨床試験において,腫瘍生検試料に発現する標的抗原の免疫組織化学像に基づいて,深層学習由来のデジタル病理学スコアを用いて応答者を同定した。 以上の結果から, 深層学習法により, ROC曲線のAUCが4%, 精度・リコール曲線のAUCが6%, 腫瘍比率スコア(TPS)が6%であった。 また, 単発検査群では, 深層学習の成績が, TPS検査群と比較して, 人口増加率の25%以上を数値的に上回ったことも確認した。

Failures in Phase 3 clinical trials contribute to expensive cost of drug development in oncology. To drastically reduce such cost, responders to an oncology treatment need to be identified early on in the drug development process with limited amount of patient data before the planning of Phase 3 clinical trials. Despite the challenge of small sample size, we pioneered the use of deep-learning derived digital pathology scores to identify responders based on the immunohistochemistry images of the target antigen expressed in tumor biopsy samples from a Phase 1 Non-small Cell Lung Cancer clinical trial. Based on repeated 10-fold cross validations, the deep-learning derived score on average achieved 4% higher AUC of ROC curve and 6% higher AUC of Precision-Recall curve comparing to the tumor proportion score (TPS) based clinical benchmark. In a small independent testing set of patients, we also demonstrated that the deep-learning derived score achieved numerically at least 25% higher responder rate in the enriched population than the TPS clinical benchmark.
翻訳日:2022-09-27 08:06:53 公開日:2020-11-10
# 脳ctスキャンにおける自己教師付き分布外検出

Self-Supervised Out-of-Distribution Detection in Brain CT Scans ( http://arxiv.org/abs/2011.05428v1 )

ライセンス: Link先を確認
Abinav Ravi Venkatakrishnan, Seong Tae Kim, Rami Eisawy, Franz Pfister, Nassir Navab(参考訳) 医用画像データは、3D医療データの注釈付けに時間がかかり、コストがかかるため、アノテーションの入手が限られている。 さらに、たとえアノテーションが利用可能であっても、教師付き学習ベースのアプローチは高度に不均衡なデータに苦しむ。 スクリーニング中のスキャンのほとんどは正常な被験者によるものだが、異常な症例も多様である。 これらの問題に対処するため,近年,大規模正規スキャンでモデルを訓練し,再構成誤差を算出した異常スキャンを検出する,教師なし深部異常検出法が報告されている。 本稿では,異常検出のための新しい自己教師あり学習手法を提案する。 私たちのアーキテクチャは2つの部分で構成されています。 1)再建・再建 2)幾何変換を予測する。 ネットワークをトレーニングして幾何学的変換を予測することで、モデルがより優れた画像特徴と正規スキャンの分布を学ぶことができる。 テスト時間において、幾何変換予測器は、幾何変換と予測の間の誤差を計算して異常スコアを割り当てることができる。 さらに,自己教師型学習と文脈復元を併用して,モデルの事前学習を行う。 臨床脳CTにおける比較実験により,提案法の有効性が検証された。

Medical imaging data suffers from the limited availability of annotation because annotating 3D medical data is a time-consuming and expensive task. Moreover, even if the annotation is available, supervised learning-based approaches suffer highly imbalanced data. Most of the scans during the screening are from normal subjects, but there are also large variations in abnormal cases. To address these issues, recently, unsupervised deep anomaly detection methods that train the model on large-sized normal scans and detect abnormal scans by calculating reconstruction error have been reported. In this paper, we propose a novel self-supervised learning technique for anomaly detection. Our architecture largely consists of two parts: 1) Reconstruction and 2) predicting geometric transformations. By training the network to predict geometric transformations, the model could learn better image features and distribution of normal scans. In the test time, the geometric transformation predictor can assign the anomaly score by calculating the error between geometric transformation and prediction. Moreover, we further use self-supervised learning with context restoration for pretraining our model. By comparative experiments on clinical brain CT scans, the effectiveness of the proposed method has been verified.
翻訳日:2022-09-27 08:06:38 公開日:2020-11-10
# 機械のエンドツーエンド最適化画像圧縮に関する研究

End-to-end optimized image compression for machines, a study ( http://arxiv.org/abs/2011.06409v1 )

ライセンス: Link先を確認
Lahiru D. Chamain, Fabien Racap\'e, Jean B\'egaint, Akshay Pushparaja, Simon Feltman(参考訳) 画像と映像の共有度は、人間が見るのではなく機械によって分析されるため、リモートで解析を行うアプリケーションに対してコーデックを最適化することが重要となる。 残念なことに、従来のコーディングツールは、元々人間の知覚のために設計されたマシンタスクの専門化が難しい。 しかし、ニューラルネットワークベースのコーデックは、任意の畳み込みニューラルネットワーク(CNN)ベースのタスクモデルと共同でトレーニングすることができる。 本稿では、圧縮モジュールとエンドツーエンドに最適化可能なタスクアルゴリズムからなるチェーンを用いて、リモートマシンタスク分析のための効率的な画像圧縮を可能にするエンドツーエンドフレームワークを提案する。 コーデックとタスクネットワークを協調的に微調整する場合,特に低ビットレートでタスク精度を大幅に向上させることができることを示す。 トレーニングやデプロイメントの制約によっては、選択的な微調整はエンコーダ、デコーダ、タスクネットワークのみに適用でき、既製のコーデックやタスクネットワークよりもレート精度が向上する。 また,実用化に向けたエンドツーエンドパイプラインの柔軟性も実証した。

An increasing share of image and video content is analyzed by machines rather than viewed by humans, and therefore it becomes relevant to optimize codecs for such applications where the analysis is performed remotely. Unfortunately, conventional coding tools are challenging to specialize for machine tasks as they were originally designed for human perception. However, neural network based codecs can be jointly trained end-to-end with any convolutional neural network (CNN)-based task model. In this paper, we propose to study an end-to-end framework enabling efficient image compression for remote machine task analysis, using a chain composed of a compression module and a task algorithm that can be optimized end-to-end. We show that it is possible to significantly improve the task accuracy when fine-tuning jointly the codec and the task networks, especially at low bit-rates. Depending on training or deployment constraints, selective fine-tuning can be applied only on the encoder, decoder or task network and still achieve rate-accuracy improvements over an off-the-shelf codec and task network. Our results also demonstrate the flexibility of end-to-end pipelines for practical applications.
翻訳日:2022-09-27 08:06:02 公開日:2020-11-10
# 補助変数局所探索による離散エネルギーモデル学習

Learning Discrete Energy-based Models via Auxiliary-variable Local Exploration ( http://arxiv.org/abs/2011.05363v1 )

ライセンス: Link先を確認
Hanjun Dai, Rishabh Singh, Bo Dai, Charles Sutton, Dale Schuurmans(参考訳) 離散構造は、プログラム言語モデリングやソフトウェア工学のようなアプリケーションにおいて重要な役割を果たす。 複雑な構造を予測しようとする現在のアプローチでは、一般的に、柔軟性を犠牲にして、自己回帰モデルを適用する。 一方、エネルギーベースモデル(EBM)は、そのような分布をモデル化するためのより柔軟で強力なアプローチを提供するが、分割関数の推定が必要である。 本稿では,局所探索を模倣した学習サンプルを用いてパラメータ勾配を推定する,離散構造データに対する条件付きおよび非条件付きEMMの学習アルゴリズムであるALOEを提案する。 エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練でき、柔軟性とトラクタビリティのトレードオフをよりよく達成できることを示す。 実験により,ローカル検索の学習は,アプリケーション領域の挑戦において大きな改善をもたらすことが示された。 最も注目すべきは、libfuzzerのようなよく設計されたファジングエンジンに匹敵する性能を達成するソフトウェアテストのためのエネルギーモデル誘導ファジングである。

Discrete structures play an important role in applications like program language modeling and software engineering. Current approaches to predicting complex structures typically consider autoregressive models for their tractability, with some sacrifice in flexibility. Energy-based models (EBMs) on the other hand offer a more flexible and thus more powerful approach to modeling such distributions, but require partition function estimation. In this paper we propose ALOE, a new algorithm for learning conditional and unconditional EBMs for discrete structured data, where parameter gradients are estimated using a learned sampler that mimics local search. We show that the energy function and sampler can be trained efficiently via a new variational form of power iteration, achieving a better trade-off between flexibility and tractability. Experimentally, we show that learning local search leads to significant improvements in challenging application domains. Most notably, we present an energy model guided fuzzer for software testing that achieves comparable performance to well engineered fuzzing engines like libfuzzer.
翻訳日:2022-09-27 08:01:08 公開日:2020-11-10
# オンライン非負行列分解の画像・時系列データへの応用

Applications of Online Nonnegative Matrix Factorization to Image and Time-Series Data ( http://arxiv.org/abs/2011.05384v1 )

ライセンス: Link先を確認
Hanbaek Lyu, Georg Menz, Deanna Needell, Christopher Strohmeier(参考訳) オンライン非負行列分解(onmf)は、ストリーミング形式でデータが取得され、行列因子が更新されるオンライン環境での行列分解手法である。 これにより、新しいデータサンプルの到着と同時に、因子分析が実行できる。 本稿では、オンライン非負行列分解アルゴリズムを用いて、相関データセットの集合から共同辞書原子を学習する方法を実証する。 本稿では,onmfアルゴリズムに基づく時系列データセットのための時間辞書学習手法を提案する。 我々は,過去の温度データ,ビデオフレーム,カラー画像の応用状況において,辞書学習手法を実証する。

Online nonnegative matrix factorization (ONMF) is a matrix factorization technique in the online setting where data are acquired in a streaming fashion and the matrix factors are updated each time. This enables factor analysis to be performed concurrently with the arrival of new data samples. In this article, we demonstrate how one can use online nonnegative matrix factorization algorithms to learn joint dictionary atoms from an ensemble of correlated data sets. We propose a temporal dictionary learning scheme for time-series data sets, based on ONMF algorithms. We demonstrate our dictionary learning technique in the application contexts of historical temperature data, video frames, and color images.
翻訳日:2022-09-27 08:00:18 公開日:2020-11-10
# グラフニューラルネットワークを用いた人間対応ナビゲーションマップの作成

Generation of Human-aware Navigation Maps using Graph Neural Networks ( http://arxiv.org/abs/2011.05180v1 )

ライセンス: Link先を確認
Daniel Rodriguez-Criado and Pilar Bachiller and Luis J. Manso(参考訳) 社会状況下での移動時のロボットによる不快感を最小限に抑えることが重要である。 本稿では,既存の1次元データセットをブートストラップしてコストマップデータセットを生成する機械学習フレームワークと,グラフニューラルネットワークと畳み込みニューラルネットワーク層を組み合わせたモデルを提案する。 提案するフレームワークは,元の1次元データセットとシミュレーションナビゲーションタスクに対して評価される。 結果は、データセットの精度と使用するナビゲーションメトリクスを考慮して、同様の最先端メソッドを上回っている。 提案するフレームワークの応用は、人間の認識するナビゲーションに限らず、マップ生成が必要な他の分野にも適用できる。

Minimising the discomfort caused by robots when navigating in social situations is crucial for them to be accepted. The paper presents a machine learning-based framework that bootstraps existing one-dimensional datasets to generate a cost map dataset and a model combining Graph Neural Network and Convolutional Neural Network layers to produce cost maps for human-aware navigation in real-time. The proposed framework is evaluated against the original one-dimensional dataset and in simulated navigation tasks. The results outperform similar state-of-the-art-methods considering the accuracy on the dataset and the navigation metrics used. The applications of the proposed framework are not limited to human-aware navigation, it could be applied to other fields where map generation is needed.
翻訳日:2022-09-27 07:59:33 公開日:2020-11-10
# ノンパーソナライズド・レコメンデーションにおける二面公平性

Two-Sided Fairness in Non-Personalised Recommendations ( http://arxiv.org/abs/2011.05287v1 )

ライセンス: Link先を確認
Aadi Swadipto Mondal and Rakesh Bal and Sayan Sinha, Gourab K Patro(参考訳) recommender systemsは、いくつかのオンラインプラットフォームで最も広く利用されているサービスの1つで、エンドユーザに潜在的なアイテムを提案する。 これらのサービスは、特に下流サービスに社会的影響をもたらす能力がある場合に、フェアネスが関連する要因となる、異なる機械学習技術を使用することが多い。 したがって、ニュースメディアプラットフォームの非パーソナライズド(グローバル)レコメンデーション(例えば、twitter上のトップkトレンドトピック、ニュースプラットフォーム上のトップkニュースなど)に焦点を当て、ユーザーフェアネスと組織フェアネスの2つの特定の公平性(伝統的に別々に研究されている)について論じる。 ユーザフェアネスは、グローバルなレコメンデーションの場合、個々のユーザの選択を表現するというアイデアを捉えている一方で、組織フェアネスは政治的・イデオロギー的にバランスの取れたレコメンデーションセットを確実にしようと試みている。 これにより、ユーザの公平性はユーザ側の要件であり、組織の公平性はプラットフォーム側の要件となる。 ユーザフェアネスについては、社会的選択理論、すなわち、ユーザ選択をより良く表現するために知られている様々な投票ルールの手法を用いてテストする。 投票ルールを推薦設定に適用しても、高いユーザ満足度スコアを観察する。 そこで, 組織的公平性のために, 推奨項目群(論文)の総合的イデオロギーバイアスを測定するバイアスメトリックを提案する。 投票ルールに基づくレコメンデーションの結果を分析すると、よく知られた投票ルールはユーザー側より優れているが、高いバイアス値を示し、プラットフォームの組織的要件には明らかに適さないことが分かる。 したがって、ユーザフェアネスと組織フェアネスのアイデアを結束して包括的メカニズムを構築する必要がある。 本稿では,このようなメカニズムの要件の背景にあるモチベーションの明確化とともに,基本概念を体系化する。

Recommender systems are one of the most widely used services on several online platforms to suggest potential items to the end-users. These services often use different machine learning techniques for which fairness is a concerning factor, especially when the downstream services have the ability to cause social ramifications. Thus, focusing on the non-personalised (global) recommendations in news media platforms (e.g., top-k trending topics on Twitter, top-k news on a news platform, etc.), we discuss on two specific fairness concerns together (traditionally studied separately)---user fairness and organisational fairness. While user fairness captures the idea of representing the choices of all the individual users in the case of global recommendations, organisational fairness tries to ensure politically/ideologically balanced recommendation sets. This makes user fairness a user-side requirement and organisational fairness a platform-side requirement. For user fairness, we test with methods from social choice theory, i.e., various voting rules known to better represent user choices in their results. Even in our application of voting rules to the recommendation setup, we observe high user satisfaction scores. Now for organisational fairness, we propose a bias metric which measures the aggregate ideological bias of a recommended set of items (articles). Analysing the results obtained from voting rule-based recommendation, we find that while the well-known voting rules are better from the user side, they show high bias values and clearly not suitable for organisational requirements of the platforms. Thus, there is a need to build an encompassing mechanism by cohesively bridging ideas of user fairness and organisational fairness. In this abstract paper, we intend to frame the elementary ideas along with the clear motivation behind the requirement of such a mechanism.
翻訳日:2022-09-27 07:59:21 公開日:2020-11-10
# ベイズ情報フュージョンを用いたクラウドソーシングウェイズデータからの緊急インシデント検出

Emergency Incident Detection from Crowdsourced Waze Data using Bayesian Information Fusion ( http://arxiv.org/abs/2011.05440v1 )

ライセンス: Link先を確認
Yasas Senarath, Saideep Nannapaneni, Hemant Purohit, Abhishek Dubey(参考訳) 都市化が進むにつれて、緊急事態の数は年々増加している。 このパターンは、限られたリソースで緊急サービスを圧倒し、応答プロセスの最適化を要求する。 これは、元が緊急番号(例えば、米国では911)の呼び出しを開始し、潜在的に最適な応答を遅らせ、制限する、インシデントに関するデータを収集する、従来の緊急サービスの"reactive"アプローチによるものである。 wazeのようなクラウドソーシングプラットフォームは、クラウド生成の観察レポートを通じてインシデントに関するデータを収集する、迅速で“積極的な”アプローチを開発する機会を提供する。 しかし、報告源の信頼性と報告事件の時空間的不確実性は、そのような積極的なアプローチの設計に挑戦する。 そこで本稿では,ノイズの多いクラウドソーシングWazeデータを用いた緊急インシデント検出手法を提案する。 本研究では, 群衆発生報告の信頼性の不確実性と, その空間的, 時間的統合をモデル化し, ベイズ理論に基づく計算手法を提案する。 Wazeが収集したデータによる大規模な実験と、ナッシュビル、テネシーでの公式報告によると、我々の手法はF1スコアとAUCの両方の強力なベースラインを上回ります。 この研究の応用は、我々のコミュニティにおける緊急対応操作を改善し最適化するために、積極的なインシデント検出のために異なるノイズデータソースを組み込む拡張可能なフレームワークを提供する。

The number of emergencies have increased over the years with the growth in urbanization. This pattern has overwhelmed the emergency services with limited resources and demands the optimization of response processes. It is partly due to traditional `reactive' approach of emergency services to collect data about incidents, where a source initiates a call to the emergency number (e.g., 911 in U.S.), delaying and limiting the potentially optimal response. Crowdsourcing platforms such as Waze provides an opportunity to develop a rapid, `proactive' approach to collect data about incidents through crowd-generated observational reports. However, the reliability of reporting sources and spatio-temporal uncertainty of the reported incidents challenge the design of such a proactive approach. Thus, this paper presents a novel method for emergency incident detection using noisy crowdsourced Waze data. We propose a principled computational framework based on Bayesian theory to model the uncertainty in the reliability of crowd-generated reports and their integration across space and time to detect incidents. Extensive experiments using data collected from Waze and the official reported incidents in Nashville, Tenessee in the U.S. show our method can outperform strong baselines for both F1-score and AUC. The application of this work provides an extensible framework to incorporate different noisy data sources for proactive incident detection to improve and optimize emergency response operations in our communities.
翻訳日:2022-09-27 07:58:47 公開日:2020-11-10
# RANSAC仮説と3次元剛体登録のための効率的なロバスト計量について

On Efficient and Robust Metrics for RANSAC Hypotheses and 3D Rigid Registration ( http://arxiv.org/abs/2011.04862v1 )

ライセンス: Link先を確認
Jiaqi Yang, Zhiqiang Huang, Siwen Quan, Qian Zhang, Yanning Zhang, Zhiguo Cao(参考訳) 本稿では,高精度な3次元剛性登録を実現するために,RANSAC仮説の効率的かつ堅牢な評価指標の開発に焦点をあてる。 特徴対応から6自由度(6-DoF)のポーズを推定することは、ランダムサンプルコンセンサス(RANSAC)がこの問題のデファクトな選択である3次元剛性登録に対する一般的なアプローチである。 しかし、RANSAC仮説の既存のメトリクスは、一般的な問題、パラメータのバリエーション、異なるアプリケーションシナリオに時間を要するか、あるいは敏感であるため、全体的な登録精度と速度が低下する。 我々はまず、まずインレーヤとアウトレーヤのコントリビューションを分析し、その後、RANSAC仮説の異なる設計モチベーションを持つ複数の効率的で堅牢なメトリクスを提案し、この問題を緩和する。 異なるニュアンスとアプリケーションシナリオを持つ4つの標準データセットの比較実験は、提案されたメトリクスが登録性能を大幅に改善し、最先端の競合相手よりも堅牢であることを検証する。 この研究はまた興味深い結論を導き出している:すなわち、すべてのイノリアーが等しくなくとも、すべてのイノリアーが等しくなければならないわけではない。

This paper focuses on developing efficient and robust evaluation metrics for RANSAC hypotheses to achieve accurate 3D rigid registration. Estimating six-degree-of-freedom (6-DoF) pose from feature correspondences remains a popular approach to 3D rigid registration, where random sample consensus (RANSAC) is a de-facto choice to this problem. However, existing metrics for RANSAC hypotheses are either time-consuming or sensitive to common nuisances, parameter variations, and different application scenarios, resulting in performance deterioration in overall registration accuracy and speed. We alleviate this problem by first analyzing the contributions of inliers and outliers, and then proposing several efficient and robust metrics with different designing motivations for RANSAC hypotheses. Comparative experiments on four standard datasets with different nuisances and application scenarios verify that the proposed metrics can significantly improve the registration performance and are more robust than several state-of-the-art competitors, making them good gifts to practical applications. This work also draws an interesting conclusion, i.e., not all inliers are equal while all outliers should be equal, which may shed new light on this research problem.
翻訳日:2022-09-27 07:57:55 公開日:2020-11-10
# 単純で速い:cpu上の一人称ビデオのリアルタイム人間の動き予測

Simple means Faster: Real-Time Human Motion Forecasting in Monocular First Person Videos on CPU ( http://arxiv.org/abs/2011.04943v1 )

ライセンス: Link先を確認
Junaid Ahmed Ansari and Brojeshwar Bhowmick(参考訳) 人称単眼ビデオにおける人間の将来の位置を予測するための,シンプルで高速で軽量なRNNベースのフレームワークを提案する。 この研究の主な動機は、CPU上で非常に高い速度で将来の軌道を正確に予測できるネットワークを設計することであった。 このようなシステムの典型的な応用は、より重く、電力効率が低く、よりコストが高いことを避けるために高い計算能力を持つ余裕がないため、社会ロボットや視覚補助システムである。 カメラエゴモーションや人間の2Dポーズなど,複数のタイプのキューに依存する従来の手法とは対照的に,境界ボックスにのみ依存するネットワークモデルでは,性能が向上するだけでなく,約17MB程度の大きさのトラジェクトリを極めて高い速度で予測できることが示されている。 具体的には,過去の情報の符号化フェーズに自動エンコーダを,最後に正規化層を配置することにより,オーバーヘッドを無視できる予測精度が向上することを示す。 我々は、CityWalks、FPL、JAADという3つのファーストパーソンビデオデータセットを実験した。 CityWalksでトレーニングした単純な手法は、CPU上で9.6倍高速なSTED(State-of-the-art method)の予測精度を上回る。 また、我々のモデルは、ゼロショットまたは15%の微調整を他の類似したデータセットに転送し、そのようなデータセット(FPLとDTP)の最先端の手法と同等に実行することを示す。 我々の知る限りでは、我々はcpu上で非常に高い予測速度で軌道を正確に予測した最初の人物である。

We present a simple, fast, and light-weight RNN based framework for forecasting future locations of humans in first person monocular videos. The primary motivation for this work was to design a network which could accurately predict future trajectories at a very high rate on a CPU. Typical applications of such a system would be a social robot or a visual assistance system for all, as both cannot afford to have high compute power to avoid getting heavier, less power efficient, and costlier. In contrast to many previous methods which rely on multiple type of cues such as camera ego-motion or 2D pose of the human, we show that a carefully designed network model which relies solely on bounding boxes can not only perform better but also predicts trajectories at a very high rate while being quite low in size of approximately 17 MB. Specifically, we demonstrate that having an auto-encoder in the encoding phase of the past information and a regularizing layer in the end boosts the accuracy of predictions with negligible overhead. We experiment with three first person video datasets: CityWalks, FPL and JAAD. Our simple method trained on CityWalks surpasses the prediction accuracy of state-of-the-art method (STED) while being 9.6x faster on a CPU (STED runs on a GPU). We also demonstrate that our model can transfer zero-shot or after just 15% fine-tuning to other similar datasets and perform on par with the state-of-the-art methods on such datasets (FPL and DTP). To the best of our knowledge, we are the first to accurately forecast trajectories at a very high prediction rate of 78 trajectories per second on CPU.
翻訳日:2022-09-27 07:57:31 公開日:2020-11-10
# 非参照画像品質評価のためのマルチプールインセプション機能

Multi-pooled Inception features for no-reference image quality assessment ( http://arxiv.org/abs/2011.05139v1 )

ライセンス: Link先を確認
Domonkos Varga(参考訳) 画像品質評価(IQA)は、自動ビデオストリーミングからディスプレイ技術まで幅広い分野のアプリケーションにおいて重要な要素である。 さらに、画質の測定には、画像内容と特徴のバランスのとれた調査が必要となる。 提案手法は,imagenet database pretrained convolutional neural network (cnn) 上の複数のインセプションモジュールにgap(global average pooling)層をアタッチすることで視覚特徴を抽出する。 従来の手法とは対照的に、入力画像からパッチを取らない。 代わりに、入力画像全体が処理され、事前訓練されたcnn本体を通り抜けて、解像度非依存、多レベル深層特徴を抽出する。 その結果、任意の入力画像サイズと事前学習されたcnnに容易に一般化できる。 そこで本研究では,CNNベースアーキテクチャに関する詳細なパラメータスタディと,異なる深部特徴の有効性について述べる。 当社のベストプロポーザルであるmultigap-nriqaは,3つのベンチマーク iqa データベースで最先端の結果を提供することができます。 さらに、これらの結果は、LIVE In the Wild Image Quality Challengeデータベースを用いたクロスデータベーステストでも確認された。

Image quality assessment (IQA) is an important element of a broad spectrum of applications ranging from automatic video streaming to display technology. Furthermore, the measurement of image quality requires a balanced investigation of image content and features. Our proposed approach extracts visual features by attaching global average pooling (GAP) layers to multiple Inception modules of on an ImageNet database pretrained convolutional neural network (CNN). In contrast to previous methods, we do not take patches from the input image. Instead, the input image is treated as a whole and is run through a pretrained CNN body to extract resolution-independent, multi-level deep features. As a consequence, our method can be easily generalized to any input image size and pretrained CNNs. Thus, we present a detailed parameter study with respect to the CNN base architectures and the effectiveness of different deep features. We demonstrate that our best proposal - called MultiGAP-NRIQA - is able to provide state-of-the-art results on three benchmark IQA databases. Furthermore, these results were also confirmed in a cross database test using the LIVE In the Wild Image Quality Challenge database.
翻訳日:2022-09-27 07:51:14 公開日:2020-11-10
# 細胞イメージングデータによるウイルス粒子の高精度非教師なし検出

Pixel precise unsupervised detection of viral particle proliferation in cellular imaging data ( http://arxiv.org/abs/2011.05209v1 )

ライセンス: Link先を確認
Birgitta Dresp-Langley, John M. Wandeto(参考訳) 細胞局所感染後のウイルス増殖の単一段階を特徴づける細胞および分子イメージング技術とモデルがin vitroで開発されている。 細胞イメージングデータの高速かつ自動分類は、宿主細胞のウイルス伝播の数学的モデルに対する代表的実験データのさらなる比較に先立って有効である。 本稿では,前報で得られた宿主細胞単分子層における進行性ウイルス粒子の増殖を示す細胞イメージングデータから,画像モデルの再現から得られたコンピュータ画像を用いた。 実験時間に基づく画像データに触発されて, ウイルス粒子の時間増加は, 死細胞または一部感染した細胞を表わす黒または灰色の単一画素において, 画像全体で1/1の増加と, 元の画像モデルで生体細胞をコードする白画素の1/1増加による仮定的寛解によってシミュレートされる。 画像シミュレーションは、自己組織化マップ(SOM)により教師なし学習に送信され、SOM出力(SOM-QE)における量子化エラーは、ウイルス粒子増殖または細胞回復の表現範囲の関数として画像シミュレーションの自動分類に使用される。 100万画素以上のモデル画像のSOM-QEによる教師なし分類は、RGB画像平均計算による人間のコンピュータ支援画像分類より、統計的に信頼性が高く、精度が高く、高速な分類モデルを提供する。 ここで提案される自動分類法は、in vitroや他の細胞株におけるウイルスの感染および増殖の微調整機構を理解するための強力なアプローチを提供する。

Cellular and molecular imaging techniques and models have been developed to characterize single stages of viral proliferation after focal infection of cells in vitro. The fast and automatic classification of cell imaging data may prove helpful prior to any further comparison of representative experimental data to mathematical models of viral propagation in host cells. Here, we use computer generated images drawn from a reproduction of an imaging model from a previously published study of experimentally obtained cell imaging data representing progressive viral particle proliferation in host cell monolayers. Inspired by experimental time-based imaging data, here in this study viral particle increase in time is simulated by a one-by-one increase, across images, in black or gray single pixels representing dead or partially infected cells, and hypothetical remission by a one-by-one increase in white pixels coding for living cells in the original image model. The image simulations are submitted to unsupervised learning by a Self-Organizing Map (SOM) and the Quantization Error in the SOM output (SOM-QE) is used for automatic classification of the image simulations as a function of the represented extent of viral particle proliferation or cell recovery. Unsupervised classification by SOM-QE of 160 model images, each with more than three million pixels, is shown to provide a statistically reliable, pixel precise, and fast classification model that outperforms human computer-assisted image classification by RGB image mean computation. The automatic classification procedure proposed here provides a powerful approach to understand finely tuned mechanisms in the infection and proliferation of virus in cell lines in vitro or other cells.
翻訳日:2022-09-27 07:50:57 公開日:2020-11-10
# 時空間アグリゲーションに基づくポッドリファインメントシステム:実世界の映像における人間活動の理解を目指して

Selective Spatio-Temporal Aggregation Based Pose Refinement System: Towards Understanding Human Activities in Real-World Videos ( http://arxiv.org/abs/2011.05358v1 )

ライセンス: Link先を確認
Di Yang, Rui Dai, Yaohui Wang, Rupayan Mallick, Luca Minciullo, Gianpiero Francesca, Francois Bremond(参考訳) 近年,人間の行動を理解するためのポーズデータの利用が注目されている。 しかし、最先端のポーズ推定者は、実世界の無注釈ビデオにおいて、咬合、切断、低解像度による高品質な2dまたは3dポーズデータを得るのに苦労している。 したがって,本研究において提案する。 1) 複数の専門家のポーズ推定器によって抽出されたキーポイントの位置を洗練・円滑化する選択時空間集約機構SST-A 2) 実世界のポーズ推定のための手作りアノテーションの代わりに, 集約されたポーズを擬似接地真実として活用する, 効果的な自己学習フレームワーク。 4つのデータセット(Toyota Smarthome, NTU-RGB+D, Charades, Kinetics-50)において, 上流ポーズ補正だけでなく, 下流アクション認識性能の評価を行う。 ポーズ・リファインメント・システム(ssta-prs)によって精製されたスケルトンデータは,既存の様々な行動認識モデルの強化に有効であることを実証した。

Taking advantage of human pose data for understanding human activities has attracted much attention these days. However, state-of-the-art pose estimators struggle in obtaining high-quality 2D or 3D pose data due to occlusion, truncation and low-resolution in real-world un-annotated videos. Hence, in this work, we propose 1) a Selective Spatio-Temporal Aggregation mechanism, named SST-A, that refines and smooths the keypoint locations extracted by multiple expert pose estimators, 2) an effective weakly-supervised self-training framework which leverages the aggregated poses as pseudo ground-truth instead of handcrafted annotations for real-world pose estimation. Extensive experiments are conducted for evaluating not only the upstream pose refinement but also the downstream action recognition performance on four datasets, Toyota Smarthome, NTU-RGB+D, Charades, and Kinetics-50. We demonstrate that the skeleton data refined by our Pose-Refinement system (SSTA-PRS) is effective at boosting various existing action recognition models, which achieves competitive or state-of-the-art performance.
翻訳日:2022-09-27 07:50:30 公開日:2020-11-10
# fast & slow learning: ニューラルメモリコントローラに合成勾配を組み込む

Fast & Slow Learning: Incorporating Synthetic Gradients in Neural Memory Controllers ( http://arxiv.org/abs/2011.05438v1 )

ライセンス: Link先を確認
Tharindu Fernando, Simon Denman, Sridha Sridharan, Clinton Fookes(参考訳) ニューラルメモリネットワーク(nmns)は近年、制約付きメモリを使用するディープアーキテクチャに比べて注目を集めている。 新たな魅力にもかかわらず、NMNsの成功は、勾配に基づくオプティマイザがNMNコントローラのインクリメンタルトレーニングを実行し、その高容量を知識検索に活用する方法を決定することによる。 これは、トレーニングデータの一貫性と分散性に優れたパフォーマンスを実現することができるが、コントローラーがモデルトレーニング中にそれらを効果的に組み込むことができないため、希少なデータサンプルを学習することは困難である。 人間の認知過程,特にヒト脳におけるニューロモジュレータの利用からインスピレーションを得て,NMNコントローラの学習プロセスを分離し,新しい情報の存在下で柔軟かつ迅速な適応を可能にすることを提案する。 この特性は、メモリコントローラがターゲットドメインの抽象概念を素早く把握し、格納された知識を適応しなければならないメタ学習タスクに非常に有益である。 これによりNMNコントローラは、どのメモリを保持し、どのメモリを消去するかを素早く決定し、新しいタスクに迅速に戦略を適用することができる。 分類・回帰タスクを含む複数の公開ベンチマークにおける定量的・質的評価を通じ,提案手法の有用性を実証する。 我々の評価は、提案したNMNアーキテクチャが現在の最先端手法よりも優れていることを示すだけでなく、提案した拡張がそのような優れた結果の達成にどのように役立つかについての洞察を提供する。 さらに,学習経路を複数のニューラルメモリネットワーク間で共有し,知識共有のメカニズムとする学習戦略の実際的意義を実証する。

Neural Memory Networks (NMNs) have received increased attention in recent years compared to deep architectures that use a constrained memory. Despite their new appeal, the success of NMNs hinges on the ability of the gradient-based optimiser to perform incremental training of the NMN controllers, determining how to leverage their high capacity for knowledge retrieval. This means that while excellent performance can be achieved when the training data is consistent and well distributed, rare data samples are hard to learn from as the controllers fail to incorporate them effectively during model training. Drawing inspiration from the human cognition process, in particular the utilisation of neuromodulators in the human brain, we propose to decouple the learning process of the NMN controllers to allow them to achieve flexible, rapid adaptation in the presence of new information. This trait is highly beneficial for meta-learning tasks where the memory controllers must quickly grasp abstract concepts in the target domain, and adapt stored knowledge. This allows the NMN controllers to quickly determine which memories are to be retained and which are to be erased, and swiftly adapt their strategy to the new task at hand. Through both quantitative and qualitative evaluations on multiple public benchmarks, including classification and regression tasks, we demonstrate the utility of the proposed approach. Our evaluations not only highlight the ability of the proposed NMN architecture to outperform the current state-of-the-art methods, but also provide insights on how the proposed augmentations help achieve such superior results. In addition, we demonstrate the practical implications of the proposed learning strategy, where the feedback path can be shared among multiple neural memory networks as a mechanism for knowledge sharing.
翻訳日:2022-09-27 07:50:06 公開日:2020-11-10
# 多話者音声合成のための事前学習戦略、波形モデル選択、音響構成

Pretraining Strategies, Waveform Model Choice, and Acoustic Configurations for Multi-Speaker End-to-End Speech Synthesis ( http://arxiv.org/abs/2011.04839v1 )

ライセンス: Link先を確認
Erica Cooper, Xin Wang, Yi Zhao, Yusuke Yasuda, Junichi Yamagishi(参考訳) 我々は,ゼロショット・マルチスピーカー・エンドツーエンド合成のための最善の戦略を選択することを目的として,ベースコーパスの選択を含む事前学習戦略を検討する。 また、波形合成のためのニューラルボコーダの選択や、メルスペクトログラムや最終的な音声出力に用いる音響構成についても検討する。 簡単な品質閾値を達成したオーディオブックデータからマルチ話者モデルを微調整することで、合成音声の未確認話者と自然性や類似性を向上させることができる。 さらに,16kHzから24kHzのサンプリングレートでリスナが識別できることや,WaveRNNがWaveNetに匹敵する品質の出力波形を高速な推論時間で生成できることが判明した。

We explore pretraining strategies including choice of base corpus with the aim of choosing the best strategy for zero-shot multi-speaker end-to-end synthesis. We also examine choice of neural vocoder for waveform synthesis, as well as acoustic configurations used for mel spectrograms and final audio output. We find that fine-tuning a multi-speaker model from found audiobook data that has passed a simple quality threshold can improve naturalness and similarity to unseen target speakers of synthetic speech. Additionally, we find that listeners can discern between a 16kHz and 24kHz sampling rate, and that WaveRNN produces output waveforms of a comparable quality to WaveNet, with a faster inference time.
翻訳日:2022-09-27 07:49:36 公開日:2020-11-10
# GitHubイシューコメントの対話行為分類のための伝達学習アプローチ

A Transfer Learning Approach for Dialogue Act Classification of GitHub Issue Comments ( http://arxiv.org/abs/2011.04867v1 )

ライセンス: Link先を確認
Ayesha Enayet and Gita Sukthankar(参考訳) githubのようなソーシャルコーディングプラットフォームは、オープンソースソフトウェア開発における協調的な問題解決を研究するための実験室として機能している。 チームメンバー間の対話を分析することで、仮想チームのパフォーマンスに関する重要な洞察を得ることができる。 本稿では,論文コメントの対話行為分類を行うためのトランスファー学習手法を提案する。 GitHubイシューコメントのラベル付きコーパスは存在しないため、転送学習を利用することで、標準的な対話行動データセットとGitHubコメントデータセットを併用することが可能になります。 本稿では,Global Vectors for Word Representations (GloVe), Universal Sentence Encoder (USE), Bidirectional Encoder Representations from Transformers (BERT)など,複数の単語および文レベルの符号化モデルの性能を比較した。 問題コメントを対話行動にマッピングできることは、認知チームのプロセスを理解するための有用な一歩です。

Social coding platforms, such as GitHub, serve as laboratories for studying collaborative problem solving in open source software development; a key feature is their ability to support issue reporting which is used by teams to discuss tasks and ideas. Analyzing the dialogue between team members, as expressed in issue comments, can yield important insights about the performance of virtual teams. This paper presents a transfer learning approach for performing dialogue act classification on issue comments. Since no large labeled corpus of GitHub issue comments exists, employing transfer learning enables us to leverage standard dialogue act datasets in combination with our own GitHub comment dataset. We compare the performance of several word and sentence level encoding models including Global Vectors for Word Representations (GloVe), Universal Sentence Encoder (USE), and Bidirectional Encoder Representations from Transformers (BERT). Being able to map the issue comments to dialogue acts is a useful stepping stone towards understanding cognitive team processes.
翻訳日:2022-09-27 07:49:23 公開日:2020-11-10
# シーケンスラベリングのためのニューラル潜時依存モデル

Neural Latent Dependency Model for Sequence Labeling ( http://arxiv.org/abs/2011.05009v1 )

ライセンス: Link先を確認
Yang Zhou, Yong Jiang, Zechuan Hu, Kewei Tu(参考訳) シーケンスラベリングは、機械学習、自然言語処理、その他多くの分野における基本的な問題である。 配列ラベリングの古典的なアプローチは線形連鎖条件確率場(crfs)である。 ニューラルネットワークエンコーダと組み合わせると、多くのシーケンスラベリングタスクで非常に優れたパフォーマンスが得られる。 線形鎖 CRF の制限の一つは、ラベル間の長距離依存をモデル化できないことである。 高次 CRF は線形鎖 CRF を拡張し、依存関係をモデル化するが、計算複雑性は指数関数的に増大する。 本稿では,潜在木構造を持つラベル間の任意の長さの依存性をモデル化するニューラル潜在依存モデル(nldm)を提案する。 エンド・ツー・エンドのトレーニングアルゴリズムと多項式時間推論アルゴリズムを開発した。 合成データセットと実データの両方でモデルを評価し,モデルが強いベースラインより優れていることを示す。

Sequence labeling is a fundamental problem in machine learning, natural language processing and many other fields. A classic approach to sequence labeling is linear chain conditional random fields (CRFs). When combined with neural network encoders, they achieve very good performance in many sequence labeling tasks. One limitation of linear chain CRFs is their inability to model long-range dependencies between labels. High order CRFs extend linear chain CRFs by modeling dependencies no longer than their order, but the computational complexity grows exponentially in the order. In this paper, we propose the Neural Latent Dependency Model (NLDM) that models dependencies of arbitrary length between labels with a latent tree structure. We develop an end-to-end training algorithm and a polynomial-time inference algorithm of our model. We evaluate our model on both synthetic and real datasets and show that our model outperforms strong baselines.
翻訳日:2022-09-27 07:49:06 公開日:2020-11-10
# ビッグデータのための説明可能な知識トレースモデル: センスリングは答か?

Explainable Knowledge Tracing Models for Big Data: Is Ensembling an Answer? ( http://arxiv.org/abs/2011.05285v1 )

ライセンス: Link先を確認
Tirth Shah, Lukas Olson, Aditya Sharma, Nirmal Patel(参考訳) 本稿では,2020年のNeurIPS Education Challengeにおける知識追跡モデルについて述べる。 我々は、22種類のモデルを組み合わせて、学生が与えられた質問に正しく答えられるかどうかを予測する。 異なるアプローチを組み合わせることで、個々のモデルよりも精度が向上し、モデルタイプの変化によって、より説明しやすくなり、学習科学理論との整合性が向上し、高い予測能力が得られました。

In this paper, we describe our Knowledge Tracing model for the 2020 NeurIPS Education Challenge. We used a combination of 22 models to predict whether the students will answer a given question correctly or not. Our combination of different approaches allowed us to get an accuracy higher than any of the individual models, and the variation of our model types gave our solution better explainability, more alignment with learning science theories, and high predictive power.
翻訳日:2022-09-27 07:48:25 公開日:2020-11-10
# マルチリレーショナル伝播を伴う知識グラフにおけるノード属性の完全性

Node Attribute Completion in Knowledge Graphs with Multi-Relational Propagation ( http://arxiv.org/abs/2011.05301v1 )

ライセンス: Link先を確認
Eda Bayram and Alberto Garcia-Duran and Robert West(参考訳) 知識グラフ補完に関する既存の文献は主にリンク予測タスクに焦点を当てている。 しかし、ナレッジグラフにはさらに不完全性の問題があり、ノードには数値属性があり、その値はしばしば失われる。 本手法は,知識グラフのマルチリレーショナル構造に情報を伝播することにより,欠落属性の値を推定する。 回帰関数を使用して、ノードと属性のタイプの関係に応じて、別のノード属性からひとつのノード属性を予測する。 伝達機構は、反復毎に予測を収集し、ノード属性の値を更新するメッセージパッシングスキームで反復的に動作する。 2つのベンチマークデータセットに対する実験は、我々のアプローチの有効性を示している。

The existing literature on knowledge graph completion mostly focuses on the link prediction task. However, knowledge graphs have an additional incompleteness problem: their nodes possess numerical attributes, whose values are often missing. Our approach, denoted as MrAP, imputes the values of missing attributes by propagating information across the multi-relational structure of a knowledge graph. It employs regression functions for predicting one node attribute from another depending on the relationship between the nodes and the type of the attributes. The propagation mechanism operates iteratively in a message passing scheme that collects the predictions at every iteration and updates the value of the node attributes. Experiments over two benchmark datasets show the effectiveness of our approach.
翻訳日:2022-09-27 07:48:18 公開日:2020-11-10
# CoADNet:Co-Salient Object Detectionのための協調集約分散ネットワーク

CoADNet: Collaborative Aggregation-and-Distribution Networks for Co-Salient Object Detection ( http://arxiv.org/abs/2011.04887v1 )

ライセンス: Link先を確認
Qijian Zhang, Runmin Cong, Junhui Hou, Chongyi Li, Yao Zhao(参考訳) cosod(co-salient object detection)は、2つ以上の関連画像を含む所定のクエリグループで繰り返し現れるサルエントオブジェクトを見つけることを目的としている。 課題の1つは、画像間の関係をモデル化し活用することで、協力関係の手がかりを効果的に捉える方法である。 本稿では,複数画像から有能かつ反復的な視覚パターンを抽出する,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。 まず,サリエンシ前処理をバックボーン機能に統合し,オンラインのサリエンシ内誘導構造を通じて冗長な背景情報を抑制する。 その後、2段階のアグリゲート・アンド・ディストリビュート・アーキテクチャを設計し,グループ間の意味的相互作用を探索し,協調性を実現する。 第1段階では,画像間関係をモデル化し,グループ間意味表現を生成するグループアグリゲーションモジュールを提案する。 第2段階では,学習群の意味を動的ゲーティング機構において異なる個人に適応的に分配するゲート群分散モジュールを提案する。 最後に、cosodタスク用に調整されたグループ一貫性保存デコーダを開発し、機能デコード中にグループ制約を維持し、より一貫性のあるフルレゾリューションコサリエンシーマップを予測する。 提案したCoADNetは4つの一般的なCoSODベンチマークデータセットで評価され、最先端の競合10社に対する顕著なパフォーマンス改善を示している。

Co-Salient Object Detection (CoSOD) aims at discovering salient objects that repeatedly appear in a given query group containing two or more relevant images. One challenging issue is how to effectively capture co-saliency cues by modeling and exploiting inter-image relationships. In this paper, we present an end-to-end collaborative aggregation-and-distribution network (CoADNet) to capture both salient and repetitive visual patterns from multiple images. First, we integrate saliency priors into the backbone features to suppress the redundant background information through an online intra-saliency guidance structure. After that, we design a two-stage aggregate-and-distribute architecture to explore group-wise semantic interactions and produce the co-saliency features. In the first stage, we propose a group-attentional semantic aggregation module that models inter-image relationships to generate the group-wise semantic representations. In the second stage, we propose a gated group distribution module that adaptively distributes the learned group semantics to different individuals in a dynamic gating mechanism. Finally, we develop a group consistency preserving decoder tailored for the CoSOD task, which maintains group constraints during feature decoding to predict more consistent full-resolution co-saliency maps. The proposed CoADNet is evaluated on four prevailing CoSOD benchmark datasets, which demonstrates the remarkable performance improvement over ten state-of-the-art competitors.
翻訳日:2022-09-27 07:42:48 公開日:2020-11-10
# オートディストリビューションに基づく教師なしコントラストフォトツーキャラクチュアル翻訳

Unsupervised Contrastive Photo-to-Caricature Translation based on Auto-distortion ( http://arxiv.org/abs/2011.04965v1 )

ライセンス: Link先を確認
Yuhe Ding, Xin Ma, Mandi Luo, Aihua Zheng, Ran He(参考訳) Photo-to-caricature翻訳は、スケッチ、鉛筆のストローク、その他の芸術的図面を通じて特徴を誇張するレンダリング画像として、似顔絵を合成することを目的としている。 スタイルレンダリングと幾何学的変形は、photo-to-caricature translationタスクで最も重要な側面である。 そこで,本論文では,教師なしのコントラスト型フォトツーキャピチュアル翻訳アーキテクチャを提案する。 既存手法の直感的なアーティファクトを考慮し,画像の描画スタイルと似通ったスタイルを強制し,写真との相違を同時に強化するスタイルレンダリングの対照的なスタイルロスを提案する。 制御点を固定しながら各入力画像の変位ベクトルの集合を予測し,その後に薄板のスプライン補間を行う歪予測モジュール(DPM)を提案する。 モデルは非ペア写真と似顔絵で訓練され、一方、写真または似顔絵の入力によって双方向の合成を提供することができる。 広範な実験により,提案モデルが既存の競合他社と比較して手描きの似顔絵を生成するのに有効であることが示された。

Photo-to-caricature translation aims to synthesize the caricature as a rendered image exaggerating the features through sketching, pencil strokes, or other artistic drawings. Style rendering and geometry deformation are the most important aspects in photo-to-caricature translation task. To take both into consideration, we propose an unsupervised contrastive photo-to-caricature translation architecture. Considering the intuitive artifacts in the existing methods, we propose a contrastive style loss for style rendering to enforce the similarity between the style of rendered photo and the caricature, and simultaneously enhance its discrepancy to the photos. To obtain an exaggerating deformation in an unpaired/unsupervised fashion, we propose a Distortion Prediction Module (DPM) to predict a set of displacements vectors for each input image while fixing some controlling points, followed by the thin plate spline interpolation for warping. The model is trained on unpaired photo and caricature while can offer bidirectional synthesizing via inputting either a photo or a caricature. Extensive experiments demonstrate that the proposed model is effective to generate hand-drawn like caricatures compared with existing competitors.
翻訳日:2022-09-27 07:41:27 公開日:2020-11-10
# 残差ポーズ:深度に基づく3次元ポーズ推定のための分離アプローチ

Residual Pose: A Decoupled Approach for Depth-based 3D Human Pose Estimation ( http://arxiv.org/abs/2011.05010v1 )

ライセンス: Link先を確認
Angel Mart\'inez-Gonz\'alez, Michael Villamizar, Olivier Can\'evet and Jean-Marc Odobez(参考訳) 我々は,畳み込みニューラルネットワーク(CNN)を用いた信頼性2次元ポーズ推定の最近の進歩を活用し,多対人ロボットインタラクション(HRI)シナリオにおける深度画像から人の3次元ポーズを推定することを提案する。 本手法は, 深度情報を用いて2次元物体のランドマーク検出から3次元浮揚点を得ることにより, 真の3次元人間のポーズを大まかに推定し, 改良段階を要した。 その意味での私たちの貢献は3倍です。 i)2次元ポーズ推定と3次元ポーズ補正を分離して深度画像から3次元ポーズ推定を行うことを提案する。 二) 持ち上げられた3dポーズと真の3dポーズとの間の残留ポーズを後退させるディープラーニングアプローチを提案する。 3)本手法は,その単純さにもかかわらず,2つの公開データセットの精度と速度の両面で非常に競争力のある結果が得られることを示し,近年の最先端手法と比較して,多人数HRIをアピールしている。

We propose to leverage recent advances in reliable 2D pose estimation with Convolutional Neural Networks (CNN) to estimate the 3D pose of people from depth images in multi-person Human-Robot Interaction (HRI) scenarios. Our method is based on the observation that using the depth information to obtain 3D lifted points from 2D body landmark detections provides a rough estimate of the true 3D human pose, thus requiring only a refinement step. In that line our contributions are threefold. (i) we propose to perform 3D pose estimation from depth images by decoupling 2D pose estimation and 3D pose refinement; (ii) we propose a deep-learning approach that regresses the residual pose between the lifted 3D pose and the true 3D pose; (iii) we show that despite its simplicity, our approach achieves very competitive results both in accuracy and speed on two public datasets and is therefore appealing for multi-person HRI compared to recent state-of-the-art methods.
翻訳日:2022-09-27 07:40:25 公開日:2020-11-10
# パラメータ空間における剛性変換の一貫性評価に基づく点雲登録

Point Cloud Registration Based on Consistency Evaluation of Rigid Transformation in Parameter Space ( http://arxiv.org/abs/2011.05014v1 )

ライセンス: Link先を確認
Masaki Yoshii, Ikuko Shimizu(参考訳) 登録と呼ばれる手法を使って、現実世界の形を表す点雲を統合することができる。 本稿では,高精度かつ安定した登録手法を提案する。 本手法はポイントクラウドからキーポイントを検出し,複数のディスクリプタを用いてトリプレットを生成する。 さらに,各三重項の剛性変換パラメータとヒストグラムとの整合性を評価し,点雲間の剛性変換を求める。 本論文の実験では,本手法は誤りを最小限に抑え,大きな故障は生じなかった。 その結果,比較手法と比較して十分な精度と安定した登録結果を得た。

We can use a method called registration to integrate some point clouds that represent the shape of the real world. In this paper, we propose highly accurate and stable registration method. Our method detects keypoints from point clouds and generates triplets using multiple descriptors. Furthermore, our method evaluates the consistency of rigid transformation parameters of each triplet with histograms and obtains the rigid transformation between the point clouds. In the experiment of this paper, our method had minimul errors and no major failures. As a result, we obtained sufficiently accurate and stable registration results compared to the comparative methods.
翻訳日:2022-09-27 07:40:06 公開日:2020-11-10
# 発音文字を用いた画像中のテキストのオンデバイス言語識別

On-Device Language Identification of Text in Images using Diacritic Characters ( http://arxiv.org/abs/2011.05108v1 )

ライセンス: Link先を確認
Shubham Vatsal, Nikhil Arora, Gopi Ramena, Sukumar Moharana, Dhruval Jain, Naresh Purre, Rachit S Munjal(参考訳) 発音文字は、与えられた言語をかなり高い精度で識別する上で、適切かつ重要な手がかりを提供する、一意の文字集合と見なすことができる。 音声学に関連するダイアクリティカルな言語は、多くの言語、特にラテン文字で区別される特徴である。 本研究は,任意の自動環境下での光学的文字認識(OCR)性能を改善するために,発音文字の存在を利用して画像中のテキスト言語を特定することを目的とする。 85のダイアクリティカル文字を含む13のラテン言語にまたがる作品を紹介します。 ダイアクリティカル文字のオブジェクト検出にspeicedetに似たアーキテクチャを使用し,最後に浅いネットワークを使用して言語を識別する。 特定言語パラメータを伴う場合、OCRシステムは単独のOCRシステムよりも良い結果をもたらす傾向にある。 OCR結果の改善の保証とは別に、モデルサイズや推測時間の観点からデバイス上での制約(携帯電話)も考慮に入れている。

Diacritic characters can be considered as a unique set of characters providing us with adequate and significant clue in identifying a given language with considerably high accuracy. Diacritics, though associated with phonetics often serve as a distinguishing feature for many languages especially the ones with a Latin script. In this proposed work, we aim to identify language of text in images using the presence of diacritic characters in order to improve Optical Character Recognition (OCR) performance in any given automated environment. We showcase our work across 13 Latin languages encompassing 85 diacritic characters. We use an architecture similar to Squeezedet for object detection of diacritic characters followed by a shallow network to finally identify the language. OCR systems when accompanied with identified language parameter tends to produce better results than sole deployment of OCR systems. The discussed work apart from guaranteeing an improvement in OCR results also takes on-device (mobile phone) constraints into consideration in terms of model size and inference time.
翻訳日:2022-09-27 07:39:29 公開日:2020-11-10
# 多言語 amr-to-text 生成

Multilingual AMR-to-Text Generation ( http://arxiv.org/abs/2011.05443v1 )

ライセンス: Link先を確認
Angela Fan, Claire Gardent(参考訳) 構造化データからテキストを生成するには、ギャップを埋める必要があるため、難しい (i)構造と自然言語(NL)と (ii)意味的に不特定な入力と完全なNL出力。 多言語生成は、様々な単語順序と形態的特性を持つ言語に生成するという、さらなる課題をもたらす。 本研究では,構造化入力として抽象的意味表現 (abstract meaning representations, amrs) に着目した。 我々は、言語間埋め込み、事前学習、多言語モデルの進歩を活用して、20の異なる言語で生成される多言語AMR-to-textモデルを作成する。 自動メトリクスに基づく18言語の場合、我々の多言語モデルは単一の言語を生成するベースラインを超えます。 我々は、人間の評価を用いて形態や単語の順序を正確に把握する多言語モデルの能力を分析し、母語話者が我々の世代を流動的であると判断する。

Generating text from structured data is challenging because it requires bridging the gap between (i) structure and natural language (NL) and (ii) semantically underspecified input and fully specified NL output. Multilingual generation brings in an additional challenge: that of generating into languages with varied word order and morphological properties. In this work, we focus on Abstract Meaning Representations (AMRs) as structured input, where previous research has overwhelmingly focused on generating only into English. We leverage advances in cross-lingual embeddings, pretraining, and multilingual models to create multilingual AMR-to-text models that generate in twenty one different languages. For eighteen languages, based on automatic metrics, our multilingual models surpass baselines that generate into a single language. We analyse the ability of our multilingual models to accurately capture morphology and word order using human evaluation, and find that native speakers judge our generations to be fluent.
翻訳日:2022-09-27 07:33:21 公開日:2020-11-10
# Fact Checking Briefsの生成

Generating Fact Checking Briefs ( http://arxiv.org/abs/2011.05448v1 )

ライセンス: Link先を確認
Angela Fan, Aleksandra Piktus, Fabio Petroni, Guillaume Wenzek, Marzieh Saeidi, Andreas Vlachos, Antoine Bordes, Sebastian Riedel(参考訳) 大規模なファクトチェックは難しい -- アクティブなファクトチェックwebサイトの数は増えているが、現代のメディアエコシステムのニーズには小さすぎる。 しかし、善意にもかかわらず、ボランティアからの貢献はしばしばエラーを起こし、実際にはクレーム検出に制限される。 そこで本研究では,事実チェックを行う前に,事実チェックの正確性と効率を向上させる方法について,自然言語ブリーフという形で検討する。 本稿では,ウィキペディアからの関連記事,言及されたエンティティのウィキペディアページからなるエンティティ中心のブリーフ,およびクレームを分解した質問回答ブリーフ,およびその回答を考察する。 QABrief を生成するために,クレームに条件付き質問セットを生成し,証拠を検索し,回答を生成するモデル QABriefer を開発した。 コンポーネントをトレーニングするために、クラウドソーシングを通じて収集したQABriefDatasetを紹介します。 特にカブリフス(qabriefs)による事実チェックによって、群衆労働者の正確性が10%向上し、時間の短縮が図られている。 ボランティア(無給)のファクトチェッカーの場合、QABriefsは精度をわずかに向上させ、必要な時間を約20%削減する。

Fact checking at scale is difficult -- while the number of active fact checking websites is growing, it remains too small for the needs of the contemporary media ecosystem. However, despite good intentions, contributions from volunteers are often error-prone, and thus in practice restricted to claim detection. We investigate how to increase the accuracy and efficiency of fact checking by providing information about the claim before performing the check, in the form of natural language briefs. We investigate passage-based briefs, containing a relevant passage from Wikipedia, entity-centric ones consisting of Wikipedia pages of mentioned entities, and Question-Answering Briefs, with questions decomposing the claim, and their answers. To produce QABriefs, we develop QABriefer, a model that generates a set of questions conditioned on the claim, searches the web for evidence, and generates answers. To train its components, we introduce QABriefDataset which we collected via crowdsourcing. We show that fact checking with briefs -- in particular QABriefs -- increases the accuracy of crowdworkers by 10% while slightly decreasing the time taken. For volunteer (unpaid) fact checkers, QABriefs slightly increase accuracy and reduce the time required by around 20%.
翻訳日:2022-09-27 07:33:06 公開日:2020-11-10
# 教師なし機械翻訳から逆テキスト生成へ

From Unsupervised Machine Translation To Adversarial Text Generation ( http://arxiv.org/abs/2011.05449v1 )

ライセンス: Link先を確認
Ahmad Rashid, Alan Do-Omri, Md. Akmal Haidar, Qun Liu and Mehdi Rezagholizadeh(参考訳) 本稿では、教師なしニューラルネットワーク翻訳システムのエンコーダ表現からテキストを生成することができる自己注意型バイリンガル対向テキスト生成器(B-GAN)を提案する。 B-GANは、注目に基づくデコーダと組み合わせて、流動的な文を生成する分散潜在空間表現を生成することができる。 2つの言語間で共有され、適切なデコーダとペアリングされたエンコーダでトレーニングされると、どちらの言語でも文を生成することができる。 B-GANは、自動エンコーダの再構成損失、翻訳のクロスドメイン損失、テキスト生成のGANベースの対逆損失の組み合わせを用いて訓練される。 複数の損失のみを用いて単言語コーパスを訓練したb-ganは,パラメータの半数を効果的に用いながら,単言語ベースラインよりも流れる文を生成する。

We present a self-attention based bilingual adversarial text generator (B-GAN) which can learn to generate text from the encoder representation of an unsupervised neural machine translation system. B-GAN is able to generate a distributed latent space representation which can be paired with an attention based decoder to generate fluent sentences. When trained on an encoder shared between two languages and paired with the appropriate decoder, it can generate sentences in either language. B-GAN is trained using a combination of reconstruction loss for auto-encoder, a cross domain loss for translation and a GAN based adversarial loss for text generation. We demonstrate that B-GAN, trained on monolingual corpora only using multiple losses, generates more fluent sentences compared to monolingual baselines while effectively using half the number of parameters.
翻訳日:2022-09-27 07:32:45 公開日:2020-11-10
# ニューラルネットワーク制御システムの安全性検証

Safety Verification of Neural Network Controlled Systems ( http://arxiv.org/abs/2011.05174v1 )

ライセンス: Link先を確認
Arthur Clavi\`ere, Eric Asselin, Christophe Garion (ISAE-SUPAERO), Claire Pagetti (ANITI)(参考訳) 本稿では,連続時間物理システムと離散時間ニューラルネットワークベースのコントローラを組み合わせることで,ニューラルネットワーク制御システムの安全性を検証するシステムレベルアプローチを提案する。 ニューラルネットワークを含む単純かつ複雑な動作をキャプチャできるコントローラの汎用モデルが想定されている。 このモデルに基づいて,システム全体の到達可能な状態を的確に近似した到達可能性解析を行い,安全性の正式な証明を実現する。 この目的のために、検証されたシミュレーションを用いて物理系の挙動を近似し、抽象的な解釈を行い、コントローラの挙動を近似する。 本手法の適用性は実世界のユースケースを用いて評価する。 また,本手法では,システムが完全に安全であることを証明できない場合に,貴重な情報を提供できることを示す。

In this paper, we propose a system-level approach for verifying the safety of neural network controlled systems, combining a continuous-time physical system with a discrete-time neural network based controller. We assume a generic model for the controller that can capture both simple and complex behaviours involving neural networks. Based on this model, we perform a reachability analysis that soundly approximates the reachable states of the overall system, allowing to achieve a formal proof of safety. To this end, we leverage both validated simulation to approximate the behaviour of the physical system and abstract interpretation to approximate the behaviour of the controller. We evaluate the applicability of our approach using a real-world use case. Moreover, we show that our approach can provide valuable information when the system cannot be proved totally safe.
翻訳日:2022-09-27 07:32:31 公開日:2020-11-10
# CenterFusion:3次元物体検出のためのセンターベースレーダとカメラフュージョン

CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection ( http://arxiv.org/abs/2011.04841v1 )

ライセンス: Link先を確認
Ramin Nabati, Hairong Qi(参考訳) 自動運転車の知覚システムは、周囲の物体を検出し、追跡する。 これは通常、いくつかのセンシングモードを利用して堅牢性と精度を高め、センサ融合を知覚システムの重要な部分とする。 本稿では,レーダとカメラセンサの融合問題に着目し,レーダデータとカメラデータを併用して3次元物体検出を行うミドルフュージョン手法を提案する。 CenterFusionと呼ばれる私たちのアプローチでは、まず中心点検出ネットワークを使用して、画像上の中心点を識別します。 次に,新しいフラスタムに基づく手法を用いて,レーダ検出を対象物の中心点に関連付けることにより,鍵データアソシエーション問題を解く。 関連するレーダー検出は、画像の特徴を補完するレーダーベースの特徴マップを生成するために使用され、深さ、回転、速度などの物体特性に回帰する。 CenterFusionは、最新のカメラベースアルゴリズムのnuScenes Detection Score(NDS)を12%以上改善する挑戦的なnuScenesデータセットに基づいて評価する。 さらに,センタフュージョンは時間的情報を用いずに速度推定精度を大幅に向上させることを示した。 コードはhttps://github.com/mrnabati/CenterFusion で公開されている。

The perception system in autonomous vehicles is responsible for detecting and tracking the surrounding objects. This is usually done by taking advantage of several sensing modalities to increase robustness and accuracy, which makes sensor fusion a crucial part of the perception system. In this paper, we focus on the problem of radar and camera sensor fusion and propose a middle-fusion approach to exploit both radar and camera data for 3D object detection. Our approach, called CenterFusion, first uses a center point detection network to detect objects by identifying their center points on the image. It then solves the key data association problem using a novel frustum-based method to associate the radar detections to their corresponding object's center point. The associated radar detections are used to generate radar-based feature maps to complement the image features, and regress to object properties such as depth, rotation and velocity. We evaluate CenterFusion on the challenging nuScenes dataset, where it improves the overall nuScenes Detection Score (NDS) of the state-of-the-art camera-based algorithm by more than 12%. We further show that CenterFusion significantly improves the velocity estimation accuracy without using any additional temporal information. The code is available at https://github.com/mrnabati/CenterFusion .
翻訳日:2022-09-27 07:31:46 公開日:2020-11-10
# ソーン材質画像における楕円検出と結び目への応用

Ellipse Detection and Localization with Applications to Knots in Sawn Lumber Images ( http://arxiv.org/abs/2011.04844v1 )

ライセンス: Link先を確認
Shenyi Pan, Shuxian Fan, Samuel W.K. Wong, James V. Zidek, Helge Rhodin(参考訳) 一般物体検出は著しく進展しているが,楕円物体の局在性は文献上ではほとんど注目されていない。 本研究のモチベーションは,木ノット数や種類が木ノットの品質に悪影響を及ぼす視覚的特徴であるため,木ノットの検出である。 より一般的には、ガラスやプラスチックを鋳造する際の封入気泡などの楕円形欠陥が工業生産において一般的である。 本稿では,高速 r-cnn とその領域提案ネットワーク (rpn) をガウス関数を持つ楕円型物体のモデル化に適用し,領域間プーリングと回帰分岐を加えて既存のガウス型提案ネットワーク (gpn) アーキテクチャを拡張し,損失関数として wasserstein 距離を用いて楕円型物体の正確な位置を予測した。 提案手法は, 木材結び目データセットにおいて有望な結果を得た: 結び目は, 一般目的検出器では63.63%に対して, 平均交点73.05%で検出される。 また,木材応用に特有な手法として,走査中の木材画像の誤りを補正するアルゴリズムを提案し,前処理画像の楕円結び目をラベル付けして,第1のオープンソース木材結び目データセットに寄与する手法を提案する。

While general object detection has seen tremendous progress, localization of elliptical objects has received little attention in the literature. Our motivating application is the detection of knots in sawn timber images, which is an important problem since the number and types of knots are visual characteristics that adversely affect the quality of sawn timber. We demonstrate how models can be tailored to the elliptical shape and thereby improve on general purpose detectors; more generally, elliptical defects are common in industrial production, such as enclosed air bubbles when casting glass or plastic. In this paper, we adapt the Faster R-CNN with its Region Proposal Network (RPN) to model elliptical objects with a Gaussian function, and extend the existing Gaussian Proposal Network (GPN) architecture by adding the region-of-interest pooling and regression branches, as well as using the Wasserstein distance as the loss function to predict the precise locations of elliptical objects. Our proposed method has promising results on the lumber knot dataset: knots are detected with an average intersection over union of 73.05%, compared to 63.63% for general purpose detectors. Specific to the lumber application, we also propose an algorithm to correct any misalignment in the raw timber images during scanning, and contribute the first open-source lumber knot dataset by labeling the elliptical knots in the preprocessed images.
翻訳日:2022-09-27 07:31:26 公開日:2020-11-10
# 畳み込みニューラルネットワークと生成逆向ネットワークを用いたハンドジェスチャの理解

Understanding the hand-gestures using Convolutional Neural Networks and Generative Adversial Networks ( http://arxiv.org/abs/2011.04860v1 )

ライセンス: Link先を確認
Arpita Vats(参考訳) 本稿では,文字をリアルタイムで認識する手動ジェスチャー認識システムを提案する。 このシステムは、畳み込みニューラルネットワークを用いたリアルタイムハンドトラッキング、トレーニングジェスチャ、ジェスチャー認識の3つのモジュールで構成されている。 モーションディスクリプタとハンド領域を得るために,ハンドトラッキングのためのcamshiftアルゴリズムとhand blobs分析が使用されている。 背景クラスタに頑丈で、手のジェスチャー追跡や認識に肌の色を使用する。 さらに,入力パターンをジェスチャとして評価する非ジェスチャパターンを除去するために,トレーニング画像の選択や適応しきい値ジェスチャなどの手法を用いて,認識性能と精度を向上させる手法が提案されている。 実験では、アルファベットや数字を含む36のジェスチャーの語彙に対して検証され、アプローチの有効性が示された。

In this paper, it is introduced a hand gesture recognition system to recognize the characters in the real time. The system consists of three modules: real time hand tracking, training gesture and gesture recognition using Convolutional Neural Networks. Camshift algorithm and hand blobs analysis for hand tracking are being used to obtain motion descriptors and hand region. It is fairy robust to background cluster and uses skin color for hand gesture tracking and recognition. Furthermore, the techniques have been proposed to improve the performance of the recognition and the accuracy using the approaches like selection of the training images and the adaptive threshold gesture to remove non-gesture pattern that helps to qualify an input pattern as a gesture. In the experiments, it has been tested to the vocabulary of 36 gestures including the alphabets and digits, and results effectiveness of the approach.
翻訳日:2022-09-27 07:31:00 公開日:2020-11-10
# STCNet:産業煙検知のための時空間クロスネットワーク

STCNet: Spatio-Temporal Cross Network for Industrial Smoke Detection ( http://arxiv.org/abs/2011.04863v1 )

ライセンス: Link先を確認
Yichao Cao, Qingfei Tang, Xiaobo Lu, Fan Li, and Jinde Cao(参考訳) 産業煙の排出は、自然の生態系と人間の健康に深刻な脅威をもたらす。 以前の研究では、煙を識別するコンピュータビジョン技術が低コストで便利な方法であることが示されている。 しかし、産業用煙検知は、産業用排出粒子が積み上げや設備の外で急速に崩壊し、蒸気が煙と非常によく似ているため、難しい課題である。 これらの問題を克服するため,産業用煙排出ガスを識別する新しい時空間クロスネットワーク(STCNet)が提案されている。 提案するstcnetは,テクスチャ特徴を抽出する空間経路と,煙の運動情報をキャプチャする時間経路を含む。 空間的経路と時間的経路が相互に導出できると仮定する。 例えば、空間経路は木や建物のような明らかな干渉を容易に認識することができ、時間経路は煙の動きのあいまいな痕跡を強調することができる。 この2つの経路が相互に誘導できるなら、煙の検出性能に役立ちます。 さらに,マルチスケールの時空間情報の融合性を向上させるため,効率良く簡潔な時空間双対ピラミッドアーキテクチャを設計した。 最後に、パブリックデータセットに関する広範な実験により、当社のSTCNetは、RISE産業煙検知データセットを最も優れた競合相手に対して6.2%改善したことを示す。 コードはhttps://github.com/caoyichao/stcnet。

Industrial smoke emissions present a serious threat to natural ecosystems and human health. Prior works have shown that using computer vision techniques to identify smoke is a low cost and convenient method. However, industrial smoke detection is a challenging task because industrial emission particles are often decay rapidly outside the stacks or facilities and steam is very similar to smoke. To overcome these problems, a novel Spatio-Temporal Cross Network (STCNet) is proposed to recognize industrial smoke emissions. The proposed STCNet involves a spatial pathway to extract texture features and a temporal pathway to capture smoke motion information. We assume that spatial and temporal pathway could guide each other. For example, the spatial path can easily recognize the obvious interference such as trees and buildings, and the temporal path can highlight the obscure traces of smoke movement. If the two pathways could guide each other, it will be helpful for the smoke detection performance. In addition, we design an efficient and concise spatio-temporal dual pyramid architecture to ensure better fusion of multi-scale spatiotemporal information. Finally, extensive experiments on public dataset show that our STCNet achieves clear improvements on the challenging RISE industrial smoke detection dataset against the best competitors by 6.2%. The code will be available at: https://github.com/Caoyichao/STCNet.
翻訳日:2022-09-27 07:30:47 公開日:2020-11-10
# 低レイテンシ ASR-free end to end 音声言語理解システム

A low latency ASR-free end to end spoken language understanding system ( http://arxiv.org/abs/2011.04884v1 )

ライセンス: Link先を確認
Mohamed Mhiri, Samuel Myer, Vikrant Singh Tomar(参考訳) 近年では、まず音声をテキストに書き込むことなく、意図やスロットなどの構造化データに波形を分類する音声理解システムの開発が興味深い研究課題となっている。 本研究は,小型マイクロコントローラや組込みシステム上で,最小レイテンシで動作可能なフットプリントの少ないシステムの設計に制約を加えたシステムを提案する。 ストリーミング入力音声信号が与えられると、提案するシステムは、処理の瞬間にストリーム全体を保持することなく、セグメント毎の処理を行うことができる。 提案システムは,公開可能なfluent speech commandデータセット上で評価される。 実験の結果,提案システムでは,同じタスクにおける他の論文と比較した場合,低レイテンシとはるかに少ないモデルにより,最先端の性能が得られることがわかった。

In recent years, developing a speech understanding system that classifies a waveform to structured data, such as intents and slots, without first transcribing the speech to text has emerged as an interesting research problem. This work proposes such as system with an additional constraint of designing a system that has a small enough footprint to run on small micro-controllers and embedded systems with minimal latency. Given a streaming input speech signal, the proposed system can process it segment-by-segment without the need to have the entire stream at the moment of processing. The proposed system is evaluated on the publicly available Fluent Speech Commands dataset. Experiments show that the proposed system yields state-of-the-art performance with the advantage of low latency and a much smaller model when compared to other published works on the same task.
翻訳日:2022-09-27 07:30:24 公開日:2020-11-10
# 文脈における自然言語推論 -長文に対する文脈推論の検討-

Natural Language Inference in Context -- Investigating Contextual Reasoning over Long Texts ( http://arxiv.org/abs/2011.04864v1 )

ライセンス: Link先を確認
Hanmeng Liu, Leyang Cui, Jian Liu, Yue Zhang(参考訳) 自然言語推論(NLI)は2つのテキスト間の関連性を調べる基本的なNLPタスクである。 一般的なNLIデータセットは、タスクを文レベルで提示する。 意味表現のテストには適しているが、人間の推論プロセスの自然な部分である長いテキストに対する文脈推論のテストには不足している。 本稿では,ConTextual Reasoning on Longテキストのための新しいデータセットであるConTRoLを紹介する。 専門家が設計した8,325の"context-hypothesis"ペアとゴールドラベルで構成されるConTRoLは、論理的推論のような複雑なコンテキスト推論型に焦点を当てたパスレベルのNLIデータセットである。 これは、専門家レベルの品質で、警察採用のための競争選択および採用テスト(バーバル推論テスト)から派生したものである。 以前のNLIベンチマークと比較すると、ConTRoLの材料はより困難であり、様々な推論タイプを含んでいる。 実験の結果、最先端の言語モデルは教育を受けた人間よりもはるかに悪い結果が得られた。 私たちのデータセットは、アセンブリのFactual Correctnessチェックのような下流タスクのテストセットとしても機能します。

Natural language inference (NLI) is a fundamental NLP task, investigating the entailment relationship between two texts. Popular NLI datasets present the task at sentence-level. While adequate for testing semantic representations, they fall short for testing contextual reasoning over long texts, which is a natural part of the human inference process. We introduce ConTRoL, a new dataset for ConTextual Reasoning over Long texts. Consisting of 8,325 expert-designed "context-hypothesis" pairs with gold labels, ConTRoL is a passage-level NLI dataset with a focus on complex contextual reasoning types such as logical reasoning. It is derived from competitive selection and recruitment test (verbal reasoning test) for police recruitment, with expert level quality. Compared with previous NLI benchmarks, the materials in ConTRoL are much more challenging, involving a range of reasoning types. Empirical results show that state-of-the-art language models perform by far worse than educated humans. Our dataset can also serve as a testing-set for downstream tasks like Checking Factual Correctness of Summaries.
翻訳日:2022-09-27 07:24:11 公開日:2020-11-10
# データの事前学習には何十億もの言葉が必要か?

When Do You Need Billions of Words of Pretraining Data? ( http://arxiv.org/abs/2011.04946v1 )

ライセンス: Link先を確認
Yian Zhang, Alex Warstadt, Haau-Sing Li, and Samuel R. Bowman(参考訳) 現在、NLPはRoBERTaのような汎用事前学習言語モデルによって支配されており、数十億の単語を事前学習することで、NLUタスクの強力なパフォーマンスを実現している。 しかし、Transformer LMは、より少ないデータから学べない大規模な事前学習から、正確な知識やスキルを学ぶことができるだろうか? 分類法,情報理論的探索,教師なし相対受容性判定,NLUタスクの微調整の4つの手法を採用し,MiniBERTas,1M,10M,100M,1Bワードで事前学習したRoBERTaモデルを用いて,これらの言語能力の様々な尺度の成長を追跡する学習曲線を描画する。 lmsは、テストする構文的および意味的特徴のほとんどを確実にエンコードする表現を学ぶために、約10mまたは1mの単語しか必要としないことがわかった。 一般的なnluタスクを習得するために必要なコモンセンス知識やその他のスキルを取得するには、より多くのデータが必要である。 その結果、言語的特徴をエンコードする能力は言語理解にほぼ確実に必要であるが、他の形態の知識が、大規模事前学習モデルにおける最近の言語理解の改善の主要な要因である可能性が示唆された。

NLP is currently dominated by general-purpose pretrained language models like RoBERTa, which achieve strong performance on NLU tasks through pretraining on billions of words. But what exact knowledge or skills do Transformer LMs learn from large-scale pretraining that they cannot learn from less data? We adopt four probing methods---classifier probing, information-theoretic probing, unsupervised relative acceptability judgment, and fine-tuning on NLU tasks---and draw learning curves that track the growth of these different measures of linguistic ability with respect to pretraining data volume using the MiniBERTas, a group of RoBERTa models pretrained on 1M, 10M, 100M and 1B words. We find that LMs require only about 10M or 100M words to learn representations that reliably encode most syntactic and semantic features we test. A much larger quantity of data is needed in order to acquire enough commonsense knowledge and other skills required to master typical downstream NLU tasks. The results suggest that, while the ability to encode linguistic features is almost certainly necessary for language understanding, it is likely that other forms of knowledge are the major drivers of recent improvements in language understanding among large pretrained models.
翻訳日:2022-09-27 07:23:54 公開日:2020-11-10
# オンライン・アーティクル・リカバリ・フォーラムに投稿されたコメントに表れるソーシャルサポートは存在するか?

Does Social Support Expressed in Post Titles Elicit Comments in Online Substance Use Recovery Forums? ( http://arxiv.org/abs/2011.05103v1 )

ライセンス: Link先を確認
Anietie Andy and Sharath Guntuku(参考訳) 物質使用から回復する個人は、しばしば、オンラインリカバリフォーラムにおける社会的支援(感情的および情報的)を求め、そこでは投稿を書いてコメントし、苦労と成功を表現できる。 これらのフォーラムで共通する課題は、特定の投稿(いくつかはサポートしているかもしれない)にコメントがないことである。 本研究では、Redditの2つの物質回収フォーラム(/r/Leavesと/r/OpiatesRecovery)のデータを用いて、投稿のタイトルに表されるソーシャルサポートと、受け取ったコメント数との関係を判定する。 本稿では,コメントを引用するポストタイトルで表現されるソーシャルサポートの種類が,ある物質利用回復フォーラムによって異なることを示す。

Individuals recovering from substance use often seek social support (emotional and informational) on online recovery forums, where they can both write and comment on posts, expressing their struggles and successes. A common challenge in these forums is that certain posts (some of which may be support seeking) receive no comments. In this work, we use data from two Reddit substance recovery forums:/r/Leaves and/r/OpiatesRecovery, to determine the relationship between the social supports expressed in the titles of posts and the number of comments they receive. We show that the types of social support expressed in post titles that elicit comments vary from one substance use recovery forum to the other.
翻訳日:2022-09-27 07:23:30 公開日:2020-11-10
# twitterにおける抑うつと不安の事前検出に向けて

Towards Preemptive Detection of Depression and Anxiety in Twitter ( http://arxiv.org/abs/2011.05249v1 )

ライセンス: Link先を確認
David Owen, Jose Camacho Collados, Luis Espinosa-Anke(参考訳) うつ病と不安は、日常生活の多くの領域で観察される精神疾患である。 例えば、これらの障害は、ソーシャルメディアで診断されていないユーザーによって書かれたテキストに頻繁に現れる。 しかし、これらの条件でユーザを検知することは、彼らの精神状態について明示的に話すことのできない単純なタスクではなく、もしそうであるなら、即時性のような文脈的な手がかりを考慮する必要がある。 利用可能な場合、不安や抑うつを示す言語旗は、医療専門家がより良いガイドラインや治療を書くために使用できる。 本稿では,twitterにおける抑うつと不安検出の研究を促進すべく,検出タスクをバイナリ・ツイート分類問題として表現したデータセットを開発した。 次に、このデータセットに最先端の分類モデルを適用し、定性的エラー解析と競合するベースラインセットを提供する。 その結果,言語モデルの性能は従来のベースラインよりも良好であることがわかった。 それにもかかわらず、特にバランスのとれないトレーニングセットや、一見明らかな言語的手がかり(キーワード)が直観的に使われる場合など、改善の余地は明らかである。

Depression and anxiety are psychiatric disorders that are observed in many areas of everyday life. For example, these disorders manifest themselves somewhat frequently in texts written by nondiagnosed users in social media. However, detecting users with these conditions is not a straightforward task as they may not explicitly talk about their mental state, and if they do, contextual cues such as immediacy must be taken into account. When available, linguistic flags pointing to probable anxiety or depression could be used by medical experts to write better guidelines and treatments. In this paper, we develop a dataset designed to foster research in depression and anxiety detection in Twitter, framing the detection task as a binary tweet classification problem. We then apply state-of-the-art classification models to this dataset, providing a competitive set of baselines alongside qualitative error analysis. Our results show that language models perform reasonably well, and better than more traditional baselines. Nonetheless, there is clear room for improvement, particularly with unbalanced training sets and in cases where seemingly obvious linguistic cues (keywords) are used counter-intuitively.
翻訳日:2022-09-27 07:22:49 公開日:2020-11-10
# 医用知識に富んだテキスト・エンターメント・フレームワーク

Medical Knowledge-enriched Textual Entailment Framework ( http://arxiv.org/abs/2011.05257v1 )

ライセンス: Link先を確認
Shweta Yadav, Vishal Pallagani, Amit Sheth(参考訳) 堅牢な医療質問応答システムを実現するための基本的なタスクの1つは、テキストによる補足である。 既存のアプローチでは、事前訓練された言語モデルやデータ拡張のアンサンブルを使用して、検証メトリクスのより高い数値をクロックすることが多い。 しかし,(1)質問の焦点/意図を理解すること,(2)実世界の背景知識を活用して文章以外の文脈を捉えること,の2つの大きな欠点は,質問内容の特定において高い成功を妨げている。 本稿では,入力された医用テキストの意味的およびグローバルな表現を,関連するドメイン固有の知識グラフの助けを借りて獲得することのできる,新しい医用知識豊か化テクスチュアル・エンターメント・フレームワークを提案する。 我々は、ベンチマーク mediqa-rqe データセット上でフレームワークを評価し、知識強化されたデュアルエンコーディング機構が sota 言語モデルに対する8.27%の絶対的改善を達成するのに役立つことを示す。 ソースコードはここで公開しています。

One of the cardinal tasks in achieving robust medical question answering systems is textual entailment. The existing approaches make use of an ensemble of pre-trained language models or data augmentation, often to clock higher numbers on the validation metrics. However, two major shortcomings impede higher success in identifying entailment: (1) understanding the focus/intent of the question and (2) ability to utilize the real-world background knowledge to capture the context beyond the sentence. In this paper, we present a novel Medical Knowledge-Enriched Textual Entailment framework that allows the model to acquire a semantic and global representation of the input medical text with the help of a relevant domain-specific knowledge graph. We evaluate our framework on the benchmark MEDIQA-RQE dataset and manifest that the use of knowledge enriched dual-encoding mechanism help in achieving an absolute improvement of 8.27% over SOTA language models. We have made the source code available here.
翻訳日:2022-09-27 07:22:31 公開日:2020-11-10
# 極低資源アフリカの言語に対するニューラル機械翻訳 : バンバラを事例として

Neural Machine Translation for Extremely Low-Resource African Languages: A Case Study on Bambara ( http://arxiv.org/abs/2011.05284v1 )

ライセンス: Link先を確認
Allahsera Auguste Tapo, Bakary Coulibaly, S\'ebastien Diarra, Christopher Homan, Julia Kreutzer, Sarah Luger, Arthur Nagashima, Marcos Zampieri, Michael Leventhal(参考訳) 低リソース言語は(神経)機械翻訳に固有の課題を示す。 本稿では,トレーニングデータが不足し,大量の前処理を必要とするマンデ言語であるbambaraの事例について述べる。 バンバラ語そのものの言語的状況よりも、バンバラ話者が住む社会文化的文脈は、この言語の自動処理の課題を提起している。 本稿では,Bambaraを英語とフランス語に翻訳するための最初の並列データセットと,Bambaraの機械翻訳における最初のベンチマーク結果を示す。 我々は低リソース言語を扱う際の課題について議論し、低リソース機械翻訳(MT)におけるデータ不足に対処するための戦略を提案する。

Low-resource languages present unique challenges to (neural) machine translation. We discuss the case of Bambara, a Mande language for which training data is scarce and requires significant amounts of pre-processing. More than the linguistic situation of Bambara itself, the socio-cultural context within which Bambara speakers live poses challenges for automated processing of this language. In this paper, we present the first parallel data set for machine translation of Bambara into and from English and French and the first benchmark results on machine translation to and from Bambara. We discuss challenges in working with low-resource languages and propose strategies to cope with data scarcity in low-resource machine translation (MT).
翻訳日:2022-09-27 07:22:15 公開日:2020-11-10
# DoLFIn: 解釈可能性のための潜在機能上の分散

DoLFIn: Distributions over Latent Features for Interpretability ( http://arxiv.org/abs/2011.05295v1 )

ライセンス: Link先を確認
Phong Le and Willem Zuidema(参考訳) ニューラルモデルの内部動作を解釈することは、モデルの堅牢性と信頼性を確保する上で重要なステップだが、ニューラルネットワークの解釈可能性に関する作業は、一般的にトレードオフに直面している。 実験では、このトレードオフを避けるために、解釈可能性を達成するための新しい戦略を提案します。 私たちのアプローチは、例えば注意機構内で、確率を中央の量として使うという成功に基づいている。 私たちのアーキテクチャであるDoLFIn(Relatnt Features for Interpretability)では、各機能が何を表現しているかを事前に決めていません。 それぞれの特徴は0から1までの確率を持ち、さらなる処理の重要性を重み付けている。 注意と塩分マップのアプローチとは異なり、このセットアップは、入力コンポーネントが神経モデルが下す決定をサポートする確率を計算するためにストレートフォワードであることを示している。 提案手法の有用性を示すために,テキスト分類にDoLFInを適用し,解釈可能なソリューションを提供するだけでなく,SST2およびAG-newsデータセット上の古典的CNNおよびBiLSTMテキスト分類器よりも若干優れていることを示す。

Interpreting the inner workings of neural models is a key step in ensuring the robustness and trustworthiness of the models, but work on neural network interpretability typically faces a trade-off: either the models are too constrained to be very useful, or the solutions found by the models are too complex to interpret. We propose a novel strategy for achieving interpretability that -- in our experiments -- avoids this trade-off. Our approach builds on the success of using probability as the central quantity, such as for instance within the attention mechanism. In our architecture, DoLFIn (Distributions over Latent Features for Interpretability), we do no determine beforehand what each feature represents, and features go altogether into an unordered set. Each feature has an associated probability ranging from 0 to 1, weighing its importance for further processing. We show that, unlike attention and saliency map approaches, this set-up makes it straight-forward to compute the probability with which an input component supports the decision the neural model makes. To demonstrate the usefulness of the approach, we apply DoLFIn to text classification, and show that DoLFIn not only provides interpretable solutions, but even slightly outperforms the classical CNN and BiLSTM text classifiers on the SST2 and AG-news datasets.
翻訳日:2022-09-27 07:22:04 公開日:2020-11-10
# 絶滅危惧言語テキストに対するOCRポスト補正

OCR Post Correction for Endangered Language Texts ( http://arxiv.org/abs/2011.05402v1 )

ライセンス: Link先を確認
Shruti Rijhwani, Antonios Anastasopoulos, Graham Neubig(参考訳) ほとんどの絶滅危惧言語で自然言語処理モデルを構築するデータはほとんど、ほとんどありません。 しかし、これらの言語のテキストデータは、紙本やスキャンされた画像など、機械で読めない形式にしばしば存在する。 本研究では,これらの資源からテキストを抽出する作業に対処する。 3つの危惧言語におけるスキャンされた書籍の書き起こしのベンチマークデータセットを作成し、絶滅危惧言語のデータセット設定に対して汎用OCRツールがいかに堅牢でないかを体系的に分析する。 我々は,このデータスカース設定におけるトレーニングを容易にするため,OCRポストコレクション法を開発し,認識誤り率を3言語平均34%削減した。

There is little to no data available to build natural language processing models for most endangered languages. However, textual data in these languages often exists in formats that are not machine-readable, such as paper books and scanned images. In this work, we address the task of extracting text from these resources. We create a benchmark dataset of transcriptions for scanned books in three critically endangered languages and present a systematic analysis of how general-purpose OCR tools are not robust to the data-scarce setting of endangered languages. We develop an OCR post-correction method tailored to ease training in this data-scarce setting, reducing the recognition error rate by 34% on average across the three languages.
翻訳日:2022-09-27 07:21:41 公開日:2020-11-10
# 密度推定器の効率的な補間

Efficient Interpolation of Density Estimators ( http://arxiv.org/abs/2011.04922v1 )

ライセンス: Link先を確認
Paxton Turner, Jingbo Liu, and Philippe Rigollet(参考訳) 未知の密度を近似する非パラメトリック推定器の空間的および時間的効率評価の問題について検討する。 一貫した推定が可能なシステムでは、分数的に多変量多項式補間スキームを用いて、元の推定器を効率よく、空間要求の少ない新しい推定器に変換し、元の近似品質を悪用することなく、計算効率の良い構成を与える。 本結果は,基礎となる滑らかさの存在下でのカーネル密度推定器の高速評価に関する新しい統計的視点を与える。 corollary として、滑らかな函数の H\"{o}lder クラスの計量エントロピーについて、コルモゴロフ--チホミロフの古典的な結果の簡潔な導出を与える。

We study the problem of space and time efficient evaluation of a nonparametric estimator that approximates an unknown density. In the regime where consistent estimation is possible, we use a piecewise multivariate polynomial interpolation scheme to give a computationally efficient construction that converts the original estimator to a new estimator that can be queried efficiently and has low space requirements, all without adversely deteriorating the original approximation quality. Our result gives a new statistical perspective on the problem of fast evaluation of kernel density estimators in the presence of underlying smoothness. As a corollary, we give a succinct derivation of a classical result of Kolmogorov---Tikhomirov on the metric entropy of H\"{o}lder classes of smooth functions.
翻訳日:2022-09-27 07:15:15 公開日:2020-11-10
# 新型コロナウイルス(covid-19)の胸部x線トリアージのためのプリシンアノテーションを用いたマルチモーダル訓練型人工知能ソリューション

Pristine annotations-based multi-modal trained artificial intelligence solution to triage chest X-ray for COVID-19 ( http://arxiv.org/abs/2011.05186v1 )

ライセンス: Link先を確認
Tao Tan, Bipul Das, Ravi Soni, Mate Fejes, Sohan Ranjan, Daniel Attila Szabo, Vikram Melapudi, K S Shriram, Utkarsh Agrawal, Laszlo Rusko, Zita Herczeg, Barbara Darazs, Pal Tegzes, Lehel Ferenczi, Rakesh Mullick, Gopal Avinash(参考訳) 新型コロナウイルス(covid-19)のパンデミックは世界人口の健康に影響を与え続けている。 CT(Computed tomography)やX線といった最前線のモダリティは、新型コロナウイルス患者のトリアージに重要な役割を果たす。 資源(ハードウェアと訓練員の両方)の限られたアクセスと汚染対策を考えると、CTは疑わしい被験者をトリアージするのに理想的ではないかもしれない。 人工知能(AI)によるトリアージとモニタリングのためのX線ベースの応用には、経験豊富な放射線学者が、ウイルス患者をタイムリーに識別し、疾患領域の境界をさらに明確にすることが必要である。 提案するソリューションは,産業や学術コミュニティの既存のソリューションと異なり,単一のx線画像を用いた参照によるトリアージのための機能的aiモデルを示し,ディープラーニングモデルはx線とctデータの両方を用いてトレーニングする。 このようなマルチモーダルトレーニングが,x線のみのトレーニングよりもソリューションを改善する方法について報告する。 マルチモーダル解はAUC(受信機動作特性曲線下の領域)を0.89から0.93に増加させ、またDice係数(0.59から0.62)に正の影響を与える。 我々の知る限りでは、それは開発にマルチモーダル情報を活用する最初のX線ソリューションである。

The COVID-19 pandemic continues to spread and impact the well-being of the global population. The front-line modalities including computed tomography (CT) and X-ray play an important role for triaging COVID patients. Considering the limited access of resources (both hardware and trained personnel) and decontamination considerations, CT may not be ideal for triaging suspected subjects. Artificial intelligence (AI) assisted X-ray based applications for triaging and monitoring require experienced radiologists to identify COVID patients in a timely manner and to further delineate the disease region boundary are seen as a promising solution. Our proposed solution differs from existing solutions by industry and academic communities, and demonstrates a functional AI model to triage by inferencing using a single x-ray image, while the deep-learning model is trained using both X-ray and CT data. We report on how such a multi-modal training improves the solution compared to X-ray only training. The multi-modal solution increases the AUC (area under the receiver operating characteristic curve) from 0.89 to 0.93 and also positively impacts the Dice coefficient (0.59 to 0.62) for localizing the pathology. To the best our knowledge, it is the first X-ray solution by leveraging multi-modal information for the development.
翻訳日:2022-09-27 07:14:38 公開日:2020-11-10
# コミュニケーションの学習とポーズエラーの修正

Learning to Communicate and Correct Pose Errors ( http://arxiv.org/abs/2011.05289v1 )

ライセンス: Link先を確認
Nicholas Vadivelu, Mengye Ren, James Tu, Jingkang Wang, Raquel Urtasun(参考訳) 学習されたコミュニケーションは、分散情報を集約することで、マルチエージェントシステムをより効果的にする。 しかし、個々のエージェントが受信する可能性のある誤ったメッセージの脅威にさらされる。 本稿では,近傍の自動運転車が協調的に物体検出と運動予測を行うv2vnetで提案されている設定について検討する。 エージェントが一緒にタスクを解くと性能が大幅に向上するが、通信が空間変換に依存するため、ポーズノイズの存在下での利得は急速に低下する。 そこで本研究では,コミュニケーションを学び,潜在的な誤りを推定し,最終的にそれらの誤りについて合意に達するための新しいニューラル推論フレームワークを提案する。 実験により,提案手法は,現実的かつ厳密な位置定位雑音下でのマルチエージェント型自律認識と運動予測システムの堅牢性を大幅に向上させることを確認した。

Learned communication makes multi-agent systems more effective by aggregating distributed information. However, it also exposes individual agents to the threat of erroneous messages they might receive. In this paper, we study the setting proposed in V2VNet, where nearby self-driving vehicles jointly perform object detection and motion forecasting in a cooperative manner. Despite a huge performance boost when the agents solve the task together, the gain is quickly diminished in the presence of pose noise since the communication relies on spatial transformations. Hence, we propose a novel neural reasoning framework that learns to communicate, to estimate potential errors, and finally, to reach a consensus about those errors. Experiments confirm that our proposed framework significantly improves the robustness of multi-agent self-driving perception and motion forecasting systems under realistic and severe localization noise.
翻訳日:2022-09-27 07:14:14 公開日:2020-11-10
# マルチモーダルラジオグラフィーと組織データを用いたグリオーマ分類

Glioma Classification Using Multimodal Radiology and Histology Data ( http://arxiv.org/abs/2011.05410v1 )

ライセンス: Link先を確認
Azam Hamidinekoo, Tomasz Pieciak, Maryam Afzali, Otar Akanyeti, Yinyin Yuan(参考訳) グリオーマは、高い死亡率の脳腫瘍である。 この腫瘍には様々な分類とサブタイプがあり、治療手順は様々である。 臨床医や腫瘍医は、放射線と組織データの視覚的検査に基づいてこれらの腫瘍を診断し分類する。 しかし、このプロセスは時間がかかり、主観的になりうる。 このコンピュータ支援手法は、臨床医がより良く、より迅速に意思決定するのに役立つ。 本稿では,放射線画像と病理画像の両方を用いて,グリオーマを自動的に3つのサブタイプ(オリゴデンドログリオーマ,アストロサイトーマ,グリオブラストマ)に分類するパイプラインを提案する。 提案手法は,放射線学と組織学の異なる分類モデルを実装し,それらをアンサンブル法で組み合わせる。 分類アルゴリズムは、まず、深層学習法を用いてタイルレベル(組織学)とスライスレベル(放射線学)の分類を行い、その後、タイル/スライスレベル潜在特徴を、全スライディングおよび全ボリュームサブタイプ予測に組み合わせる。 分類アルゴリズムは, CPM-RadPath 2020 チャレンジで提供されるデータセットを用いて評価した。 提案されたパイプラインはF1スコア0.886、カッパスコア0.811、バランス精度0.860を達成した。 多様な特徴のエンド・ツー・エンド学習のために提案されたモデルの能力は、グリオーマ腫瘍のサブタイプの予測に匹敵するものである。

Gliomas are brain tumours with a high mortality rate. There are various grades and sub-types of this tumour, and the treatment procedure varies accordingly. Clinicians and oncologists diagnose and categorise these tumours based on visual inspection of radiology and histology data. However, this process can be time-consuming and subjective. The computer-assisted methods can help clinicians to make better and faster decisions. In this paper, we propose a pipeline for automatic classification of gliomas into three sub-types: oligodendroglioma, astrocytoma, and glioblastoma, using both radiology and histopathology images. The proposed approach implements distinct classification models for radiographic and histologic modalities and combines them through an ensemble method. The classification algorithm initially carries out tile-level (for histology) and slice-level (for radiology) classification via a deep learning method, then tile/slice-level latent features are combined for a whole-slide and whole-volume sub-type prediction. The classification algorithm was evaluated using the data set provided in the CPM-RadPath 2020 challenge. The proposed pipeline achieved the F1-Score of 0.886, Cohen's Kappa score of 0.811 and Balance accuracy of 0.860. The ability of the proposed model for end-to-end learning of diverse features enables it to give a comparable prediction of glioma tumour sub-types.
翻訳日:2022-09-27 07:13:47 公開日:2020-11-10
# gansを用いたディープフェイク生成のための最小トレーニングデータ合成

Using GANs to Synthesise Minimum Training Data for Deepfake Generation ( http://arxiv.org/abs/2011.05421v1 )

ライセンス: Link先を確認
Simranjeet Singh and Rajneesh Sharma and Alan F. Smeaton(参考訳) コンピュータビジョン、自然言語処理、音声合成などの分野では、GAN(Generative Adversarial Networks)の多くの応用がある。 もっとも顕著な成果は、画像合成の分野、特にディープフェイクビデオの生成である。 ディープフェイクはメディアの報道をかなり否定的に受け取っているが、エンターテイメントや顧客関係、さらには支援ケアといったアプリケーションには便利な技術だ。 ディープフェイクを生成する際の1つの問題は、被写体の多くの画像訓練データを要求することであるが、被写体が既に多くの画像が存在する有名人であれば問題ではない。 訓練用画像がわずかでもあれば、ディープフェイクのクオリティは低くなるだろう。 メディアの報道によると、良いディープフェイクは500枚程度の画像で作れるが、実際にはクオリティのディープフェイクには何千もの画像が必要であり、有名人や政治家のディープフェイクがこれほど人気になった理由の1つである。 本研究では,GANの特性を利用して表情の異なる人物の画像を生成し,それを用いてディープフェイクを生成する。 合成GAN生成訓練画像の表情の変動と、その量の減少により、ほぼ現実的なディープフェイク映像が作成できることが観察された。

There are many applications of Generative Adversarial Networks (GANs) in fields like computer vision, natural language processing, speech synthesis, and more. Undoubtedly the most notable results have been in the area of image synthesis and in particular in the generation of deepfake videos. While deepfakes have received much negative media coverage, they can be a useful technology in applications like entertainment, customer relations, or even assistive care. One problem with generating deepfakes is the requirement for a lot of image training data of the subject which is not an issue if the subject is a celebrity for whom many images already exist. If there are only a small number of training images then the quality of the deepfake will be poor. Some media reports have indicated that a good deepfake can be produced with as few as 500 images but in practice, quality deepfakes require many thousands of images, one of the reasons why deepfakes of celebrities and politicians have become so popular. In this study, we exploit the property of a GAN to produce images of an individual with variable facial expressions which we then use to generate a deepfake. We observe that with such variability in facial expressions of synthetic GAN-generated training images and a reduced quantity of them, we can produce a near-realistic deepfake videos.
翻訳日:2022-09-27 07:07:28 公開日:2020-11-10
# モデル説明のためのデバッギングテスト

Debugging Tests for Model Explanations ( http://arxiv.org/abs/2011.05429v1 )

ライセンス: Link先を確認
Julius Adebayo, Michael Muelly, Ilaria Liccardi, Been Kim(参考訳) モデルエラーの診断にポストホックモデルの説明が有効かどうかを検討する。 モデルの予測を説明する上での課題に対して,多数の説明手法が提案されている。 使用量の増加にもかかわらず、有効かどうかは不明である。 まず、ソースに基づいて、次のように分類する。~\textit{data, model, and test-time} 汚染バグ。 いくつかの説明法では, 突発的相関アーチファクト(データ汚染), 誤ラベル付きトレーニング例(データ汚染), 再初期化モデルとトレーニングモデル(モデル汚染)を区別し, アウト・オブ・ディストリビューション入力(テスト時間汚染)を検出する能力を評価する。 テストした手法は、素早いバックグラウンドバグを診断できるが、誤ってラベル付けされたトレーニング例を確定するものではない。 さらに、バックプロパゲーションアルゴリズムを変更する手法のクラスは、ディープネットワークの上位層パラメータに不変であるため、モデル汚染の診断には有効ではない。 分析を人間の被験者による研究で補完し、被験者は帰属を使って欠陥のあるモデルを識別できないが、主にモデル予測に依存していることを発見した。 総合すると,モデルデバッグのためのツールとして説明を行う実践者や研究者にガイダンスを提供する。

We investigate whether post-hoc model explanations are effective for diagnosing model errors--model debugging. In response to the challenge of explaining a model's prediction, a vast array of explanation methods have been proposed. Despite increasing use, it is unclear if they are effective. To start, we categorize \textit{bugs}, based on their source, into:~\textit{data, model, and test-time} contamination bugs. For several explanation methods, we assess their ability to: detect spurious correlation artifacts (data contamination), diagnose mislabeled training examples (data contamination), differentiate between a (partially) re-initialized model and a trained one (model contamination), and detect out-of-distribution inputs (test-time contamination). We find that the methods tested are able to diagnose a spurious background bug, but not conclusively identify mislabeled training examples. In addition, a class of methods, that modify the back-propagation algorithm are invariant to the higher layer parameters of a deep network; hence, ineffective for diagnosing model contamination. We complement our analysis with a human subject study, and find that subjects fail to identify defective models using attributions, but instead rely, primarily, on model predictions. Taken together, our results provide guidance for practitioners and researchers turning to explanations as tools for model debugging.
翻訳日:2022-09-27 07:07:06 公開日:2020-11-10
# 多発性粒子型ナノ粒子癌治療の進歩

Evolving Nano Particle Cancer Treatments with Multiple Particle Types ( http://arxiv.org/abs/2011.04975v1 )

ライセンス: Link先を確認
Michail-Antisthenis Tsompanas, Larry Bull, Andrew Adamatzky, Igor Balaz(参考訳) 進化的アルゴリズムは、解の適切なサイズが未定の最適化問題に長い間使われてきた。 本手法の適用性は, 癌腫瘍を標的としたナノ粒子(np)ベースの薬物デリバリーシステムの設計について検討した。 複数のタイプのnpsからなる治療は、処理の複雑さが高いため、より効果的であることが期待される。 本稿では、よく知られたNKモデルを用いて、ゲノム長の進化と解の複雑さに対するフィットネスランドスケープの頑丈さの影響を調べることから始める。 新規配列の大きさや配列欠落の有無も考慮される。 その結果、ランドスケープの頑丈さはプロセスのダイナミクスを変えることができるが、ゲノム長の進化を妨げるものではないことが示された。 これらの発見は、前述の現実世界の問題の中で調査される。 最初の例では、エージェントベースのオープンソース物理学ベースの細胞シミュレータを通して、複数のタイプのNPによる処理を同時に使用する。 この結果から,あらかじめ定義された計算予算の下で,進化的手法を用いて解空間を探索する場合,複数のタイプのNPを利用する方が効率的であることが示唆された。

Evolutionary algorithms have long been used for optimization problems where the appropriate size of solutions is unclear a priori. The applicability of this methodology is here investigated on the problem of designing a nano-particle (NP) based drug delivery system targeting cancer tumours. Utilizing a treatment comprising of multiple types of NPs is expected to be more effective due to the higher complexity of the treatment. This paper begins by utilizing the well-known NK model to explore the effects of fitness landscape ruggedness upon the evolution of genome length and, hence, solution complexity. The size of a novel sequence and the absence or presence of sequence deletion are also considered. Results show that whilst landscape ruggedness can alter the dynamics of the process, it does not hinder the evolution of genome length. These findings are then explored within the aforementioned real-world problem. In the first known instance, treatments with multiple types of NPs are used simultaneously, via an agent-based open source physics-based cell simulator. The results suggest that utilizing multiple types of NPs is more efficient when the solution space is explored with the evolutionary techniques under a predefined computational budget.
翻訳日:2022-09-27 07:06:19 公開日:2020-11-10
# タスク関連キーポイント学習による難易度ノットのアンタングリング

Untangling Dense Knots by Learning Task-Relevant Keypoints ( http://arxiv.org/abs/2011.04999v1 )

ライセンス: Link先を確認
Jennifer Grannen, Priya Sundaresan, Brijen Thananjeyan, Jeffrey Ichnowski, Ashwin Balakrishna, Minho Hwang, Vainavi Viswanath, Michael Laskey, Joseph E. Gonzalez, Ken Goldberg(参考訳) ロープ、ワイヤー、ケーブルのアンタングルは、高次元構成空間、視覚的均質性、自己閉塞性、複雑なダイナミクスのために、ロボットにとって難しい課題である。 我々は,自己交叉間の空間を欠く(密接な)結び目を考察し,構成学の幾何学的構造を用いた反復的アプローチを提案する。 学習に基づく知覚と幾何学的プランナーを組み合わせることで、二者間ロボットに結び目を解き放つように導くポリシーが実現されます。 この方針を評価するため,我々は,様々な結び目タイプやテクスチャを持つケーブルをモデル化する新しいシミュレーション環境と,ダヴィンチ手術ロボットを用いた物理的システムで実験を行った。 HULKは、高密度のフィギュアエイトとオーバーハンド結び目でケーブルをアンタングルし、様々なテクスチャや外観に一般化することができる。 HULKの2つの変種を3つのベースラインと比較し、HULKが次の最良ベースラインと比較して物理的システムで43.3%高い成功率を達成することを観察する。 HULKは、378のシミュレーション実験の97.9%で、2本のオーバーハンドとフィギュアエイトノットを含む密集した初期構成からケーブルを解き放つことに成功した。 物理実験では、HULKは61.7%の精度で成功し、1回の試行で平均8.48アクションを達成している。 追加資料、コード、ビデオはhttps://tinyurl.com/y3a88ycu.comにある。

Untangling ropes, wires, and cables is a challenging task for robots due to the high-dimensional configuration space, visual homogeneity, self-occlusions, and complex dynamics. We consider dense (tight) knots that lack space between self-intersections and present an iterative approach that uses learned geometric structure in configurations. We instantiate this into an algorithm, HULK: Hierarchical Untangling from Learned Keypoints, which combines learning-based perception with a geometric planner into a policy that guides a bilateral robot to untangle knots. To evaluate the policy, we perform experiments both in a novel simulation environment modelling cables with varied knot types and textures and in a physical system using the da Vinci surgical robot. We find that HULK is able to untangle cables with dense figure-eight and overhand knots and generalize to varied textures and appearances. We compare two variants of HULK to three baselines and observe that HULK achieves 43.3% higher success rates on a physical system compared to the next best baseline. HULK successfully untangles a cable from a dense initial configuration containing up to two overhand and figure-eight knots in 97.9% of 378 simulation experiments with an average of 12.1 actions per trial. In physical experiments, HULK achieves 61.7% untangling success, averaging 8.48 actions per trial. Supplementary material, code, and videos can be found at https://tinyurl.com/y3a88ycu.
翻訳日:2022-09-27 07:05:48 公開日:2020-11-10
# ランダム化された不確定な社会的選好からの創発的相互性とチーム形成

Emergent Reciprocity and Team Formation from Randomized Uncertain Social Preferences ( http://arxiv.org/abs/2011.05373v1 )

ライセンス: Link先を確認
Bowen Baker(参考訳) マルチエージェント強化学習(MARL)は、ますます複雑な固定チームゼロサム環境において、近年成功している。 しかし、現実世界はゼロサムでも固定チームでもない。人間は多くの社会的ジレンマに直面し、いつ協力し、いつ競争するかを学ぶ必要がある。 エージェントを人間の世界にうまく配置するには、彼らが私たちの紛争を理解し、支援できることが重要だ。 残念ながら、利己的なMARLエージェントは通常、社会的ジレンマに直面して失敗します。 本研究では,無作為化された不確定な社会的選好(rusp)を持つエージェントの学習において,創発的な直接的な相互関係,間接的な相互性と評判,チーム形成の証拠を示す。 RUSPは汎用的でスケーラブルであり、元のゲームダイナミクスや目的を変更することなく、任意のマルチエージェント環境に適用することができる。 特に、RUSPではこれらの行動が出現し、より複雑な時間的環境において、Iterated Prisoner's Dilemmaのような古典的な抽象的社会ジレンマの社会福祉均衡をもたらすことが示される。

Multi-agent reinforcement learning (MARL) has shown recent success in increasingly complex fixed-team zero-sum environments. However, the real world is not zero-sum nor does it have fixed teams; humans face numerous social dilemmas and must learn when to cooperate and when to compete. To successfully deploy agents into the human world, it may be important that they be able to understand and help in our conflicts. Unfortunately, selfish MARL agents typically fail when faced with social dilemmas. In this work, we show evidence of emergent direct reciprocity, indirect reciprocity and reputation, and team formation when training agents with randomized uncertain social preferences (RUSP), a novel environment augmentation that expands the distribution of environments agents play in. RUSP is generic and scalable; it can be applied to any multi-agent environment without changing the original underlying game dynamics or objectives. In particular, we show that with RUSP these behaviors can emerge and lead to higher social welfare equilibria in both classic abstract social dilemmas like Iterated Prisoner's Dilemma as well in more complex intertemporal environments.
翻訳日:2022-09-27 07:04:37 公開日:2020-11-10
# クロスエントロピー損失の活用と悪用--近代的深層学習を事例として

Uses and Abuses of the Cross-Entropy Loss: Case Studies in Modern Deep Learning ( http://arxiv.org/abs/2011.05231v1 )

ライセンス: Link先を確認
Elliott Gordon-Rodriguez, Gabriel Loaiza-Ganem, Geoff Pleiss, John P. Cunningham(参考訳) 現代のディープラーニングは、主に実験的な科学であり、経験的な進歩が確率的厳密さを犠牲にされることがある。 ここでは,その1つの例に焦点を当てる。すなわち,厳密な分類ではなく,単純な値を取るモデルデータに対するカテゴリ間クロスエントロピー損失の利用である。 このプラクティスは、ラベル平滑化やアクタ-ミミック強化学習など、ニューラルネットワークアーキテクチャにおいて標準的なものだ。 最近発見された連続的カテゴリー分布に基づき,これらのモデルに対する確率的インスパイアされた代替案を提案し,より原理的かつ理論的に魅力的であるアプローチを提案する。 アブレーション研究を含む慎重な実験を通じて,これらのモデルにおけるアウトパフォーマンスの可能性を特定し,適切な確率的治療の重要性を強調するとともに,その障害モードのいくつかを例示する。

Modern deep learning is primarily an experimental science, in which empirical advances occasionally come at the expense of probabilistic rigor. Here we focus on one such example; namely the use of the categorical cross-entropy loss to model data that is not strictly categorical, but rather takes values on the simplex. This practice is standard in neural network architectures with label smoothing and actor-mimic reinforcement learning, amongst others. Drawing on the recently discovered continuous-categorical distribution, we propose probabilistically-inspired alternatives to these models, providing an approach that is more principled and theoretically appealing. Through careful experimentation, including an ablation study, we identify the potential for outperformance in these models, thereby highlighting the importance of a proper probabilistic treatment, as well as illustrating some of the failure modes thereof.
翻訳日:2022-09-27 06:57:36 公開日:2020-11-10
# 3次元cnnにおける時間的確率的ソフトマックス : 表情認識への応用

Temporal Stochastic Softmax for 3D CNNs: An Application in Facial Expression Recognition ( http://arxiv.org/abs/2011.05227v1 )

ライセンス: Link先を確認
Th\'eo Ayral, Marco Pedersoli, Simon Bacon and Eric Granger(参考訳) ビデオにおける表情の正確な時空間認識のためのディープラーニングモデルの訓練には、かなりの計算資源が必要である。 実用的な理由から、3D畳み込みニューラルネットワーク(3D CNN)は通常、ビデオからランダムに抽出された比較的短いクリップで訓練される。 しかしながら、このような一様サンプリングは一般に、各時間クリップに等しい重要性が割り当てられるため、準最適である。 本稿では,3次元CNNの効率的なビデオベーストレーニング戦略を提案する。 ソフトマックスの時間プーリングと、最も関連するトレーニングクリップを選択するための重み付けサンプリング機構に依存している。 効率的なクリップサンプリングによる計算複雑性の低減と、トレーニングと推論の両方において、時間重み付けがより適切なクリップにフォーカスするため、精度の向上である。 提案手法を用いた複数の表情認識ベンチマークによる実験結果から,訓練ビデオにおけるより有意義なクリップに着目した効果が得られた。 特に,不正確なトリミングやビデオの粗末なアノテーションの影響を低減し,時間にまたがる視覚情報の異種分布を低減し,性能と計算コストを向上させる。

Training deep learning models for accurate spatiotemporal recognition of facial expressions in videos requires significant computational resources. For practical reasons, 3D Convolutional Neural Networks (3D CNNs) are usually trained with relatively short clips randomly extracted from videos. However, such uniform sampling is generally sub-optimal because equal importance is assigned to each temporal clip. In this paper, we present a strategy for efficient video-based training of 3D CNNs. It relies on softmax temporal pooling and a weighted sampling mechanism to select the most relevant training clips. The proposed softmax strategy provides several advantages: a reduced computational complexity due to efficient clip sampling, and an improved accuracy since temporal weighting focuses on more relevant clips during both training and inference. Experimental results obtained with the proposed method on several facial expression recognition benchmarks show the benefits of focusing on more informative clips in training videos. In particular, our approach improves performance and computational cost by reducing the impact of inaccurate trimming and coarse annotation of videos, and heterogeneous distribution of visual information across time.
翻訳日:2022-09-27 06:55:32 公開日:2020-11-10
# コンパクト畳み込みニューラルネットワークを用いた偏光SAR画像の分類

Classification of Polarimetric SAR Images Using Compact Convolutional Neural Networks ( http://arxiv.org/abs/2011.05243v1 )

ライセンス: Link先を確認
Mete Ahishali, Serkan Kiranyaz, Turker Ince, Moncef Gabbouj(参考訳) ポーラリメトリック合成開口レーダ(PolSAR)画像の分類は、環境応用において大きな役割を果たす活発な研究領域である。 この領域で提案される従来の機械学習(ML)手法は一般的に、分類性能を改善するために高い差別的特徴を活用することに重点を置いている。 深層畳み込みニューラルネットワーク(CNN)に基づく他のアプローチには、高い計算複雑性、地味なラベルを持つ不可能な大規模なトレーニングセット、特別なハードウェア要件など、一定の制限と欠点がある。 本研究では,従来のMLと深部CNNに基づく手法の限界に対処するため,スライディングウインドウの分類手法を用いたCNNのコンパクトかつ適応的な実装に基づいて,PolSAR画像の分類のための新しい系統分類フレームワークを提案する。 提案手法には3つの利点がある。 まず、広範な特徴抽出のプロセスは不要である。 第二に、コンパクトな構成を利用するため、計算効率が良い。 特に,提案するコンパクトで適応的なcnnモデルは,最大分類精度を最小のトレーニングと計算複雑性で達成するために設計されている。 これはpolsar分類のラベル付けに関わる高いコストを考慮すると非常に重要である。 最後に,提案手法は深部CNNよりも小さいウィンドウサイズで分類できる。 最も一般的に使用されている4つのpolsar画像(airsar l-bandとradarsat-2 c-band data)に対して、サンフランシスコ湾とフレボランド地域の実験的評価がなされている。 したがって、得られた総合的精度は92.33から99.39%の範囲である。

Classification of polarimetric synthetic aperture radar (PolSAR) images is an active research area with a major role in environmental applications. The traditional Machine Learning (ML) methods proposed in this domain generally focus on utilizing highly discriminative features to improve the classification performance, but this task is complicated by the well-known "curse of dimensionality" phenomena. Other approaches based on deep Convolutional Neural Networks (CNNs) have certain limitations and drawbacks, such as high computational complexity, an unfeasibly large training set with ground-truth labels, and special hardware requirements. In this work, to address the limitations of traditional ML and deep CNN based methods, a novel and systematic classification framework is proposed for the classification of PolSAR images, based on a compact and adaptive implementation of CNNs using a sliding-window classification approach. The proposed approach has three advantages. First, there is no requirement for an extensive feature extraction process. Second, it is computationally efficient due to utilized compact configurations. In particular, the proposed compact and adaptive CNN model is designed to achieve the maximum classification accuracy with minimum training and computational complexity. This is of considerable importance considering the high costs involved in labelling in PolSAR classification. Finally, the proposed approach can perform classification using smaller window sizes than deep CNNs. Experimental evaluations have been performed over the most commonly-used four benchmark PolSAR images: AIRSAR L-Band and RADARSAT-2 C-Band data of San Francisco Bay and Flevoland areas. Accordingly, the best obtained overall accuracies range between 92.33 - 99.39% for these benchmark study sites.
翻訳日:2022-09-27 06:55:17 公開日:2020-11-10
# 制御プリミティブの連続学習:リセットゲームによるスキル発見

Continual Learning of Control Primitives: Skill Discovery via Reset-Games ( http://arxiv.org/abs/2011.05286v1 )

ライセンス: Link先を確認
Kelvin Xu, Siddharth Verma, Chelsea Finn, Sergey Levine(参考訳) 強化学習は複雑な環境での行動の獲得を自動化する可能性があるが、それがうまく展開されるためには、多くの実用的な課題に対処する必要がある。 まず、現実世界の設定では、エージェントがタスクを試みて失敗すると、エージェントが再びタスクを試みられるように、環境が何かを「リセット」する必要がある。 シミュレーションは簡単だが、特に試行回数が非常に多い場合は、現実世界でかなりの人的努力が必要になる可能性がある。 第二に、現実世界の学習は、しばしば複雑で時間的に拡張された振る舞いを伴い、ランダムな探索で取得することが難しい。 これらの2つの問題は、当初は無関係に見えるかもしれないが、本研究では、エージェントがリセットの必要をなくしながら、最小限の監督力でスキルを習得できる方法を示す。 我々は、エージェントを学習タスクの初期状態の広いセットに“リセット”する必要があるという洞察を利用して、多様な“リセットスキル”を学習するための自然な設定を提供します。 そこで本研究では,リセットと学習スキルのバランスをとる汎用ゲーム定式化を提案し,リセットフリータスクの性能向上効果を示すとともに,得られたスキルを下流学習の大幅な促進に活用できることを実証する。

Reinforcement learning has the potential to automate the acquisition of behavior in complex settings, but in order for it to be successfully deployed, a number of practical challenges must be addressed. First, in real world settings, when an agent attempts a task and fails, the environment must somehow "reset" so that the agent can attempt the task again. While easy in simulation, this could require considerable human effort in the real world, especially if the number of trials is very large. Second, real world learning often involves complex, temporally extended behavior that is often difficult to acquire with random exploration. While these two problems may at first appear unrelated, in this work, we show how a single method can allow an agent to acquire skills with minimal supervision while removing the need for resets. We do this by exploiting the insight that the need to "reset" an agent to a broad set of initial states for a learning task provides a natural setting to learn a diverse set of "reset-skills". We propose a general-sum game formulation that balances the objectives of resetting and learning skills, and demonstrate that this approach improves performance on reset-free tasks, and additionally show that the skills we obtain can be used to significantly accelerate downstream learning.
翻訳日:2022-09-27 06:48:58 公開日:2020-11-10
# 会話レコメンデーションシステムのトレーニングコストの推定について

On Estimating the Training Cost of Conversational Recommendation Systems ( http://arxiv.org/abs/2011.05302v1 )

ライセンス: Link先を確認
Stefanos Antaris, Dimitrios Rafailidis, Mohammad Aliannejadi(参考訳) 会話レコメンデーションシステムは、ユーザが複数の会話のターンで継続的にシステムと対話できるため、近年多くの注目を集めている。 しかし,対話型レコメンデーションシステムは複雑なニューラルアーキテクチャに基づいているため,モデルのトレーニングコストが高い。 最先端の会話モデルの高い計算訓練時間を明らかにするために,5つの代表的な戦略を検討し,この問題を実証する。 さらに、知識蒸留戦略の後に高いトレーニングコストに対処する方法についても論じ、対話型レコメンデーションシステムにおいて、多数のモデルパラメータのオンライン推論時間を短縮する上で重要な課題を詳述する。

Conversational recommendation systems have recently gain a lot of attention, as users can continuously interact with the system over multiple conversational turns. However, conversational recommendation systems are based on complex neural architectures, thus the training cost of such models is high. To shed light on the high computational training time of state-of-the art conversational models, we examine five representative strategies and demonstrate this issue. Furthermore, we discuss possible ways to cope with the high training cost following knowledge distillation strategies, where we detail the key challenges to reduce the online inference time of the high number of model parameters in conversational recommendation systems
翻訳日:2022-09-27 06:48:36 公開日:2020-11-10
# 深部強化学習における摂動に基づく探索法

Perturbation-based exploration methods in deep reinforcement learning ( http://arxiv.org/abs/2011.05446v1 )

ライセンス: Link先を確認
Sneha Aenugu(参考訳) 構造化探査の最近の研究は、国家空間における新しい状態の特定と、本質的な報酬ボーナスを通じてそれらを再考するエージェントのインセンティブに重点を置いている。 本研究では,これらの手法によって実証された性能向上は,エージェントの探索スケジュールにおける構造発見によるものであるのか,あるいは,構造探索を追求する上で現れる政策や報酬空間の摂動に起因するメリットなのかを疑問視する。 本研究では,政策と報酬空間における摂動がエージェントの探索行動に及ぼす影響について検討する。 我々は,ソフトマックス層の直前にポリシーを乱す単純な行為と,散発的な報酬ボーナスをドメインに導入することで,アーケード学習環境のいくつかの領域における探索を大幅に促進できることを示す。 これらの知見を踏まえ, 騒音探査の背景から, 構造探査研究への拡張のベンチマークを推奨する。

Recent research on structured exploration placed emphasis on identifying novel states in the state space and incentivizing the agent to revisit them through intrinsic reward bonuses. In this study, we question whether the performance boost demonstrated through these methods is indeed due to the discovery of structure in exploratory schedule of the agent or is the benefit largely attributed to the perturbations in the policy and reward space manifested in pursuit of structured exploration. In this study we investigate the effect of perturbations in policy and reward spaces on the exploratory behavior of the agent. We proceed to show that simple acts of perturbing the policy just before the softmax layer and introduction of sporadic reward bonuses into the domain can greatly enhance exploration in several domains of the arcade learning environment. In light of these findings, we recommend benchmarking any enhancements to structured exploration research against the backdrop of noisy exploration.
翻訳日:2022-09-27 06:48:06 公開日:2020-11-10
# MarginsはGradient Boostingの説明に不十分である

Margins are Insufficient for Explaining Gradient Boosting ( http://arxiv.org/abs/2011.04998v1 )

ライセンス: Link先を確認
Allan Gr{\o}nlund, Lior Kamma, Kasper Green Larsen(参考訳) ブースティングは機械学習において最も成功したアイデアの1つであり、微調整をほとんど行わずに優れた実用的なパフォーマンスを達成する。 強化された分類器の成功は、しばしばマージンの改善によるものである。 マージンの説明への焦点は、Schapire et al. (1998) の独創的な研究で開拓され、Gao と Zhou (2013) が束縛した$k$'th margin generalization において頂点に達した(Gronlund et al. 2019)。 本研究ではまず,最先端勾配ブースターの性能を説明する上で,$k$'th margin boundが不十分であることを示す。 次に、$k$'thマージン境界の短絡を説明し、現代の勾配ブースターの性能を説明することに成功し、より強くより洗練されたマージンベースの一般化を証明した。 最後に、gr{\o}nlund et al. (2019) による最近の一般化低域化について改善する。

Boosting is one of the most successful ideas in machine learning, achieving great practical performance with little fine-tuning. The success of boosted classifiers is most often attributed to improvements in margins. The focus on margin explanations was pioneered in the seminal work by Schapire et al. (1998) and has culminated in the $k$'th margin generalization bound by Gao and Zhou (2013), which was recently proved to be near-tight for some data distributions (Gronlund et al. 2019). In this work, we first demonstrate that the $k$'th margin bound is inadequate in explaining the performance of state-of-the-art gradient boosters. We then explain the short comings of the $k$'th margin bound and prove a stronger and more refined margin-based generalization bound for boosted classifiers that indeed succeeds in explaining the performance of modern gradient boosters. Finally, we improve upon the recent generalization lower bound by Gr{\o}nlund et al. (2019).
翻訳日:2022-09-27 06:47:50 公開日:2020-11-10
# 2つの時間スケール値に基づく強化学習アルゴリズムのサンプル複雑性境界

Sample Complexity Bounds for Two Timescale Value-based Reinforcement Learning Algorithms ( http://arxiv.org/abs/2011.05053v1 )

ライセンス: Link先を確認
Tengyu Xu, Yingbin Liang(参考訳) 2つの時間スケール確率近似(SA)は、値に基づく強化学習アルゴリズムで広く使われている。 政策評価設定では、勾配補正(TDC)アルゴリズムを線形SAと非線形SAとして、線形および非線形時間差分学習をモデル化することができる。 ポリシー最適化設定では、2つの時間スケール非線形SAがグリーディ勾配-Q (Greedy-GQ) アルゴリズムをモデル化できる。 これまでの研究では、線形TDCとGreedy-GQの非漸近解析はマルコフのセッティングにおいて、減少または精度に依存したステップサイズで研究されてきた。 非線形TDCアルゴリズムでは漸近収束のみが確立されている。 本稿では,2つの時間スケール線形および非線形tdcとgreedy-gqの非漸近収束速度をマルコフサンプリングと精度に依存しない定数ステップで検討する。 線形 TDC に対して、新しい非漸近解析を提供し、一定のステップサイズで $\mathcal{O}(\epsilon^{-1}\log(1/\epsilon))$ の最適なサンプル複雑性を持つ $\epsilon$-正確な解が得られることを示す。 非線形 TDC と Greedy-GQ に対して、両方のアルゴリズムがサンプル複雑性$\mathcal{O}(\epsilon^{-2})$で$\epsilon$-正確な定常解を得ることを示す。 これはマルコフサンプリングの下で非線形 tdc に対して確立された最初の非漸近収束結果であり、greedy-gq の結果は$\mathcal{o}(\epsilon^{-1}\log(1/\epsilon))$ の係数によって順序的に前の結果を上回る。

Two timescale stochastic approximation (SA) has been widely used in value-based reinforcement learning algorithms. In the policy evaluation setting, it can model the linear and nonlinear temporal difference learning with gradient correction (TDC) algorithms as linear SA and nonlinear SA, respectively. In the policy optimization setting, two timescale nonlinear SA can also model the greedy gradient-Q (Greedy-GQ) algorithm. In previous studies, the non-asymptotic analysis of linear TDC and Greedy-GQ has been studied in the Markovian setting, with diminishing or accuracy-dependent stepsize. For the nonlinear TDC algorithm, only the asymptotic convergence has been established. In this paper, we study the non-asymptotic convergence rate of two timescale linear and nonlinear TDC and Greedy-GQ under Markovian sampling and with accuracy-independent constant stepsize. For linear TDC, we provide a novel non-asymptotic analysis and show that it attains an $\epsilon$-accurate solution with the optimal sample complexity of $\mathcal{O}(\epsilon^{-1}\log(1/\epsilon))$ under a constant stepsize. For nonlinear TDC and Greedy-GQ, we show that both algorithms attain $\epsilon$-accurate stationary solution with sample complexity $\mathcal{O}(\epsilon^{-2})$. It is the first non-asymptotic convergence result established for nonlinear TDC under Markovian sampling and our result for Greedy-GQ outperforms the previous result orderwisely by a factor of $\mathcal{O}(\epsilon^{-1}\log(1/\epsilon))$.
翻訳日:2022-09-27 06:47:13 公開日:2020-11-10
# 類似言語翻訳:多言語変換における相互知能の役割

Translating Similar Languages: Role of Mutual Intelligibility in Multilingual Transformers ( http://arxiv.org/abs/2011.05037v1 )

ライセンス: Link先を確認
Ife Adebara, El Moatez Billah Nagoudi, Muhammad Abdul Mageed(参考訳) 我々は、wmt 2020 類似言語翻訳共有タスクへの貢献の一環として、低リソース条件下で類似言語間の翻訳の異なるアプローチを調査した。 すべての言語ペアに対して,トランスフォーマティブに基づくバイリンガルシステムとマルチリンガルシステムを提案した。 私たちはまた、言語ペアの1つにバックトランスレーションを利用し、3つ以上の点の改善を得ました。 本研究は,両者の相互信頼度(ジャカード類似度に基づく)の程度を考慮し,相互信頼度とモデル性能の正の相関関係を見出した。 私たちのスペイン・カタランモデルは、5つの言語ペアの中で最高のパフォーマンスを持っています。 Hindi-Marathiを除いて、我々のバイリンガルモデルは全てのペアのマルチリンガルモデルよりも優れた性能を達成する。

We investigate different approaches to translate between similar languages under low resource conditions, as part of our contribution to the WMT 2020 Similar Languages Translation Shared Task. We submitted Transformer-based bilingual and multilingual systems for all language pairs, in the two directions. We also leverage back-translation for one of the language pairs, acquiring an improvement of more than 3 BLEU points. We interpret our results in light of the degree of mutual intelligibility (based on Jaccard similarity) between each pair, finding a positive correlation between mutual intelligibility and model performance. Our Spanish-Catalan model has the best performance of all the five language pairs. Except for the case of Hindi-Marathi, our bilingual models achieve better performance than the multilingual models on all pairs.
翻訳日:2022-09-27 06:39:33 公開日:2020-11-10
# UmBERTo-MTSA @ AcCompl-It: 自己監督アノテーションを用いたマルチタスク学習による複雑度とアクセプタビリティ予測の改善

UmBERTo-MTSA @ AcCompl-It: Improving Complexity and Acceptability Prediction with Multi-task Learning on Self-Supervised Annotations ( http://arxiv.org/abs/2011.05197v1 )

ライセンス: Link先を確認
Gabriele Sarti(参考訳) 本研究は,ラベル付きデータの適度な使用量のみの学習モデルの性能向上に使用される,自己教師型データ拡張手法について述べる。 オリジナルのモデルの複数のコピーは、最初に下流タスクでトレーニングされる。 それらの予測は、未ラベルの例の大きなセットに注釈付けするために使われる。 最後に、得られた訓練セットの並列アノテーションに基づいてマルチタスクトレーニングを行い、注釈者固有の頭部予測を平均して最終スコアを得る。 ニューラルネットワークモデルは、EVALITA 2020におけるAcCompl-it共有タスクのコンテキストにおいて、この手順を使用して微調整される。

This work describes a self-supervised data augmentation approach used to improve learning models' performances when only a moderate amount of labeled data is available. Multiple copies of the original model are initially trained on the downstream task. Their predictions are then used to annotate a large set of unlabeled examples. Finally, multi-task training is performed on the parallel annotations of the resulting training set, and final scores are obtained by averaging annotator-specific head predictions. Neural language models are fine-tuned using this procedure in the context of the AcCompl-it shared task at EVALITA 2020, obtaining considerable improvements in prediction quality.
翻訳日:2022-09-27 06:39:04 公開日:2020-11-10
# E.T.: Entity-Transformers。 Entity-Transformerブロックによるよりリッチな参照表現のための参照強化ニューラルネットワークモデル

E.T.: Entity-Transformers. Coreference augmented Neural Language Model for richer mention representations via Entity-Transformer blocks ( http://arxiv.org/abs/2011.05431v1 )

ライセンス: Link先を確認
Nikolaos Stylianou, Ioannis Vlahavas(参考訳) 過去10年間、ニューラル言語モデリングの分野は、トランスフォーマーアーキテクチャを使った新しいモデルの開発によって、大きな変化を目にしてきた。 しかし、これらのモデルでさえ、メモリの制約と計算複雑性の増大のために長いシーケンスをモデル化するのに苦労している。 トレーニングデータに対する参照アノテーションは、そのような言語モデルのモデリング制限を超えてコンテキストを提供することができる。 本稿では、トレーニング中にエンティティアノテーションを組み込むために、ニューラルネットワークモデル、特にgpt2で使用されるトランスフォーマーブロックアーキテクチャの拡張を提案する。 我々のモデルであるGPT2Eは、GPT2のトランスフォーマー層アーキテクチャをEntity-Transformersに拡張しています。 そのために,エンティティの言及をよりリッチに表現し,トレーニングに要するコストを抑える。 CoNLL 2012 と LAMBADA データセットのパープレキシティの点から GPT2 と GPT2E の比較モデル性能を示すとともに,エンティティ表現における重要な違いと,名前付きエンティティ認識のような下流タスクにおけるそれらの効果を示す。 さらに,本手法はTransformerベースの言語モデルの大部分に採用することができる。

In the last decade, the field of Neural Language Modelling has witnessed enormous changes, with the development of novel models through the use of Transformer architectures. However, even these models struggle to model long sequences due to memory constraints and increasing computational complexity. Coreference annotations over the training data can provide context far beyond the modelling limitations of such language models. In this paper we present an extension over the Transformer-block architecture used in neural language models, specifically in GPT2, in order to incorporate entity annotations during training. Our model, GPT2E, extends the Transformer layers architecture of GPT2 to Entity-Transformers, an architecture designed to handle coreference information when present. To that end, we achieve richer representations for entity mentions, with insignificant training cost. We show the comparative model performance between GPT2 and GPT2E in terms of Perplexity on the CoNLL 2012 and LAMBADA datasets as well as the key differences in the entity representations and their effects in downstream tasks such as Named Entity Recognition. Furthermore, our approach can be adopted by the majority of Transformer-based language models.
翻訳日:2022-09-27 06:38:52 公開日:2020-11-10
# 畳み込みニューラルネットワークを用いた多面的疾患診断法

A Multi-Plant Disease Diagnosis Method using Convolutional Neural Network ( http://arxiv.org/abs/2011.05151v1 )

ライセンス: Link先を確認
Muhammad Mohsin Kabir, Abu Quwsar Ohi, M. F. Mridha(参考訳) 植物を最大容量から制限する疾患は、植物病と定義される。 農業の観点からは、病気が植物の生産能力を制限することが多いため、植物病の診断が重要である。 しかし、植物の病気を認識するための手動のアプローチは、しばしば時間的、挑戦的で時間を要する。 したがって、農業自動化の分野では、植物病のコンピュータ認識が望まれている。 近年のコンピュータビジョンの改善により、特定の植物の葉画像を用いた病気の同定がすでに行われている。 しかしながら、最も導入されたモデルは特定の植物の病気のみを診断することができる。 そこで本章では,複数の植物の診断を組み合わせる最適な植物病診断モデルについて検討する。 マルチクラス分類に依存しているにもかかわらず、このモデルは、植物と病気のタイプを並列に識別するマルチラベル分類法を継承する。 実験および評価のために,トマト,ジャガイモ,米,トウモロコシ,ブドウ,リンゴの6種の葉のイメージを含む各種オンライン資料からデータを収集した。 本研究では,cnn(popular convolutional neural network)アーキテクチャを実装した。 Xception と DenseNet アーキテクチャは,マルチラベル植物病の分類タスクにおいて,より優れた性能を示した。 アーキテクチャ調査を通じて,接続のスキップ,空間的畳み込み,隠蔽層接続の短縮が植物病の分類により良い結果をもたらすことを示唆する。

A disease that limits a plant from its maximal capacity is defined as plant disease. From the perspective of agriculture, diagnosing plant disease is crucial, as diseases often limit plants' production capacity. However, manual approaches to recognize plant diseases are often temporal, challenging, and time-consuming. Therefore, computerized recognition of plant diseases is highly desired in the field of agricultural automation. Due to the recent improvement of computer vision, identifying diseases using leaf images of a particular plant has already been introduced. Nevertheless, the most introduced model can only diagnose diseases of a specific plant. Hence, in this chapter, we investigate an optimal plant disease identification model combining the diagnosis of multiple plants. Despite relying on multi-class classification, the model inherits a multilabel classification method to identify the plant and the type of disease in parallel. For the experiment and evaluation, we collected data from various online sources that included leaf images of six plants, including tomato, potato, rice, corn, grape, and apple. In our investigation, we implement numerous popular convolutional neural network (CNN) architectures. The experimental results validate that the Xception and DenseNet architectures perform better in multi-label plant disease classification tasks. Through architectural investigation, we imply that skip connections, spatial convolutions, and shorter hidden layer connectivity cause better results in plant disease classification.
翻訳日:2022-09-27 06:38:18 公開日:2020-11-10
# 低リソース言語におけるソーシャルメディア操作の検出

Detecting Social Media Manipulation in Low-Resource Languages ( http://arxiv.org/abs/2011.05367v1 )

ライセンス: Link先を確認
Samar Haider, Luca Luceri, Ashok Deb, Adam Badawy, Nanyun Peng, Emilio Ferrara(参考訳) ソーシャルメディアは政治的操作や偽情報を含む悪意ある目的のために意図的に使われてきた。 ほとんどの研究は高リソース言語に焦点を当てている。 しかし、悪質なアクターは低リソースのアクターを含む国や言語でコンテンツを共有している。 本稿では,低リソース言語設定で悪意あるアクターをどの程度検出できるかを検討する。 2016年アメリカ合衆国大統領選挙後のTwitterによる干渉行為の取り締まりの一環として、タガログに投稿された大量のアカウントが停止されていることが分かった。 テキスト埋め込みと転送学習を組み合わせることで、我々のフレームワークは、有望な精度で、タガログに投稿する悪意のあるユーザーを、その言語の悪意のあるコンテンツに対する事前の知識や訓練なしに検出することができる。 まず,各言語の組込みモデル,すなわち高リソース言語(英語)と低リソース言語(tagalog)をそれぞれ独立に学習する。 次に,2つの潜在空間間のマッピングを学習し,検出モデルを転送する。 提案手法は,BERTを含む最先端モデルよりも大幅に優れており,オンラインプラットフォームにおける悪意ある活動の検出に対処する際の,非常に限られたトレーニングデータを用いた設定において顕著な優位性を示す。

Social media have been deliberately used for malicious purposes, including political manipulation and disinformation. Most research focuses on high-resource languages. However, malicious actors share content across countries and languages, including low-resource ones. Here, we investigate whether and to what extent malicious actors can be detected in low-resource language settings. We discovered that a high number of accounts posting in Tagalog were suspended as part of Twitter's crackdown on interference operations after the 2016 US Presidential election. By combining text embedding and transfer learning, our framework can detect, with promising accuracy, malicious users posting in Tagalog without any prior knowledge or training on malicious content in that language. We first learn an embedding model for each language, namely a high-resource language (English) and a low-resource one (Tagalog), independently. Then, we learn a mapping between the two latent spaces to transfer the detection model. We demonstrate that the proposed approach significantly outperforms state-of-the-art models, including BERT, and yields marked advantages in settings with very limited training data-the norm when dealing with detecting malicious activity in online platforms.
翻訳日:2022-09-27 06:37:58 公開日:2020-11-10
# 自動・自己認識異常検出システムの構築

Building an Automated and Self-Aware Anomaly Detection System ( http://arxiv.org/abs/2011.05047v1 )

ライセンス: Link先を確認
Sayan Chakraborty, Smit Shah, Kiumars Soltani, Anna Swigart, Luyao Yang, Kyle Buckingham(参考訳) 組織は、運用およびビジネスパフォーマンスの重要な側面を計測し、モデル化するために、時系列メトリクスに大きく依存します。 これらのメトリクスで問題を確実に検出する能力は、普及する前に主要な問題の早期指標を特定するのに不可欠である。 多数の多様で絶えず変化する時系列を積極的に監視することは非常に難しいため、監視カバレッジのギャップや、誤ったポジティブアラームによるモニターの無効化や無視、問題検出のためにチャートを手動で検査するチームなどが多い。 伝統的に、データ生成プロセスやパターンのバリエーションは、異常を正確にフラグするモデルを作成するために、強力なモデリング専門知識を必要としてきた。 本稿では,手作業による介入を必要とせず,各モデルに必要な変更を加えることで,この共通課題を克服する異常検出システムについて述べる。 我々は、この新しいアプローチが、多くのシナリオで利用可能なベンチマークデータセットの代替案を上回ることを実証する。

Organizations rely heavily on time series metrics to measure and model key aspects of operational and business performance. The ability to reliably detect issues with these metrics is imperative to identifying early indicators of major problems before they become pervasive. It can be very challenging to proactively monitor a large number of diverse and constantly changing time series for anomalies, so there are often gaps in monitoring coverage, disabled or ignored monitors due to false positive alarms, and teams resorting to manual inspection of charts to catch problems. Traditionally, variations in the data generation processes and patterns have required strong modeling expertise to create models that accurately flag anomalies. In this paper, we describe an anomaly detection system that overcomes this common challenge by keeping track of its own performance and making changes as necessary to each model without requiring manual intervention. We demonstrate that this novel approach outperforms available alternatives on benchmark datasets in many scenarios.
翻訳日:2022-09-27 06:37:41 公開日:2020-11-10
# あまり読むな - オープンドメインの質問回答に対する適応型計算

Don't Read Too Much into It: Adaptive Computation for Open-Domain Question Answering ( http://arxiv.org/abs/2011.05435v1 )

ライセンス: Link先を確認
Yuxiang Wu, Sebastian Riedel, Pasquale Minervini, Pontus Stenetorp(参考訳) Open-Domain Question Answeringへのほとんどのアプローチは、候補パスのセットを選択する軽量な検索器と、正しい回答を特定するためにパスを調べる計算コストの高い読者で構成される。 以前の著作では、検索された文数が増えるにつれて、読み手のパフォーマンスも向上することを示した。 しかし、検索された全てのパスは等しく重要であり、それらに同じ量の計算を割り当てると仮定し、計算コストが大幅に増加する。 このコストを削減するため,本研究では,読み込むパスに割り当てられた計算予算を制御するための適応計算法を提案する。 まず,任意の時間予測と早期出口確率の層毎推定に依存する個別経路を分離して操作する手法を紹介する。 次に,強化学習によって訓練された資源割当方針に基づき,各ステップで計算を割り当てる経路を動的に決定する手法であるskylinebuilderを提案する。 SQuAD-Openで行った結果から,グローバルな優先順位付けによる適応計算は,複数の強い静的および適応的手法よりも向上し,全モデルの95%性能を維持しつつ,計算の4.3倍の削減が達成された。

Most approaches to Open-Domain Question Answering consist of a light-weight retriever that selects a set of candidate passages, and a computationally expensive reader that examines the passages to identify the correct answer. Previous works have shown that as the number of retrieved passages increases, so does the performance of the reader. However, they assume all retrieved passages are of equal importance and allocate the same amount of computation to them, leading to a substantial increase in computational cost. To reduce this cost, we propose the use of adaptive computation to control the computational budget allocated for the passages to be read. We first introduce a technique operating on individual passages in isolation which relies on anytime prediction and a per-layer estimation of an early exit probability. We then introduce SkylineBuilder, an approach for dynamically deciding on which passage to allocate computation at each step, based on a resource allocation policy trained via reinforcement learning. Our results on SQuAD-Open show that adaptive computation with global prioritisation improves over several strong static and adaptive methods, leading to a 4.3x reduction in computation while retaining 95% performance of the full model.
翻訳日:2022-09-27 06:30:44 公開日:2020-11-10
# あなたはどう思うだろうか? インテントアウトカムによるエージェントの行動説明

What Did You Think Would Happen? Explaining Agent Behaviour Through Intended Outcomes ( http://arxiv.org/abs/2011.05064v1 )

ライセンス: Link先を確認
Herman Yau, Chris Russell, Simon Hadfield,(参考訳) 本稿では,意図した結果の概念に基づく強化学習の新たな説明方法を提案する。 これらの説明は、エージェントがそのアクションによって達成しようとする結果を説明する。 従来の強化学習では,この性質のポストホックな説明の一般的な方法が不可能であることを示す。 むしろ、説明に必要な情報はエージェントのトレーニングと合わせて収集する必要がある。 提案手法は,いくつかのQ関数近似の変種に対する意図に基づく局所的な説明を抽出し,その説明と学習したQ値との整合性を証明する。 我々は,複数の強化学習問題に対して本手法を実証し,研究者がRL環境やアルゴリズムをイントロスペクションするためのコードを提供する。

We present a novel form of explanation for Reinforcement Learning, based around the notion of intended outcome. These explanations describe the outcome an agent is trying to achieve by its actions. We provide a simple proof that general methods for post-hoc explanations of this nature are impossible in traditional reinforcement learning. Rather, the information needed for the explanations must be collected in conjunction with training the agent. We derive approaches designed to extract local explanations based on intention for several variants of Q-function approximation and prove consistency between the explanations and the Q-values learned. We demonstrate our method on multiple reinforcement learning problems, and provide code to help researchers introspecting their RL environments and algorithms.
翻訳日:2022-09-27 06:30:08 公開日:2020-11-10
# ディエンスビデオキャプションのためのマルチモーダルプレトレーニング

Multimodal Pretraining for Dense Video Captioning ( http://arxiv.org/abs/2011.11760v1 )

ライセンス: Link先を確認
Gabriel Huang, Bo Pang, Zhenhai Zhu, Clara Rivera, Radu Soricut(参考訳) 料理、車のメンテナンス、家庭の修理といった特定のハンズオンスキルを学ぶことは、教育ビデオを通じてますます起こる。 このようなビデオのユーザエクスペリエンスは、主要なステップのタイムスタンプアノテーションなどのメタ情報によって改善されることが知られている。 このようなアノテーションの自動生成は困難であり、関連する2つのコントリビューションについて説明する。 まず、様々な指導ビデオとタイムスタンプ付きアノテーションを備えた、新しい高密度ビデオキャプションデータセット、Video Timeline Tags(ViTT)を構築し、リリースする。 第2に,ビデオやキャプションライクなテキストの大きな教師なしデータセットを活用する,マルチモーダルシーケンスからシーケンスへの事前学習戦略について検討する。 YouCook2 と ViTT を併用した高密度動画キャプションモデルの事前訓練を行った。 このようなモデルが一般化し,多種多様な授業ビデオに対して頑健であることを示す。

Learning specific hands-on skills such as cooking, car maintenance, and home repairs increasingly happens via instructional videos. The user experience with such videos is known to be improved by meta-information such as time-stamped annotations for the main steps involved. Generating such annotations automatically is challenging, and we describe here two relevant contributions. First, we construct and release a new dense video captioning dataset, Video Timeline Tags (ViTT), featuring a variety of instructional videos together with time-stamped annotations. Second, we explore several multimodal sequence-to-sequence pretraining strategies that leverage large unsupervised datasets of videos and caption-like texts. We pretrain and subsequently finetune dense video captioning models using both YouCook2 and ViTT. We show that such models generalize well and are robust over a wide variety of instructional videos.
翻訳日:2022-09-27 06:29:59 公開日:2020-11-10
# スペクトル帯域の選択と結合のためのソフトコンピューティングアプローチ

A Soft Computing Approach for Selecting and Combining Spectral Bands ( http://arxiv.org/abs/2011.05127v1 )

ライセンス: Link先を確認
Juan F. H. Albarrac\'in, Rafael S. Oliveira, Marina Hirota, Jefersson A. dos Santos, Ricardo da S. Torres(参考訳) 本稿では,分類タスクに使用可能なマルチスペクトル画像のリモートセンシングからインデックスの自動選択と合成を行うソフトコンピューティング手法を提案する。 提案手法は, 遺伝的プログラミング(GP)フレームワークを基礎として, 様々な最適化問題によく用いられる手法である。 GPを通して、2つの異なるクラスからのサンプルの分離性を最大化する指標を学ぶことができる。 すべてのクラスのペアに特化したインデックスが取得されると、ピクセル単位の分類タスクで使用される。 GPをベースとした手法を用いて,熱帯生物群間の植生の種別識別に関連するような複雑な分類問題を評価した。 学習したスペクトル指標で定義される時系列を用いて、GPフレームワークは熱帯生物の識別・分類に使用される他の指標よりも優れた結果をもたらすことを示す。

We introduce a soft computing approach for automatically selecting and combining indices from remote sensing multispectral images that can be used for classification tasks. The proposed approach is based on a Genetic-Programming (GP) framework, a technique successfully used in a wide variety of optimization problems. Through GP, it is possible to learn indices that maximize the separability of samples from two different classes. Once the indices specialized for all the pairs of classes are obtained, they are used in pixelwise classification tasks. We used the GP-based solution to evaluate complex classification problems, such as those that are related to the discrimination of vegetation types within and between tropical biomes. Using time series defined in terms of the learned spectral indices, we show that the GP framework leads to superior results than other indices that are used to discriminate and classify tropical biomes.
翻訳日:2022-09-27 06:29:45 公開日:2020-11-10
# GANのグローバルロスランドスケープ化に向けて

Towards a Better Global Loss Landscape of GANs ( http://arxiv.org/abs/2011.04926v1 )

ライセンス: Link先を確認
Ruoyu Sun, Tiantian Fang, Alex Schwing(参考訳) GANトレーニングの理解は依然として極めて限られている。 主な課題の1つは、非凸非凸min-maxの目標であり、これは準最適局所極小に繋がる可能性がある。 本研究では,グローバルなランドスケープ解析を行い,GANの損失を実証した。 JS-GANを含む分離可能なGANのクラスは指数関数的に多くの悪い盆地を持ち、モード崩壊と見なされる。 また, 生成したサンプルと真のサンプルを結合した相対論的ペアリングGAN(RpGAN)損失についても検討した。 我々はRpGANが悪い盆地を持たないことを証明した。 合成データによる実験では、予測された悪い盆地は訓練中に実際に現れることが示されている。 また,RpGANは分離可能なGANよりもランドスケープが優れているという理論を支持する実験を行った。 例えば、RpGANは比較的狭いニューラルネットを持つ分離可能なGANよりも優れた性能を示す。 コードはhttps://github.com/AilsaF/RS-GANで公開されている。

Understanding of GAN training is still very limited. One major challenge is its non-convex-non-concave min-max objective, which may lead to sub-optimal local minima. In this work, we perform a global landscape analysis of the empirical loss of GANs. We prove that a class of separable-GAN, including the original JS-GAN, has exponentially many bad basins which are perceived as mode-collapse. We also study the relativistic pairing GAN (RpGAN) loss which couples the generated samples and the true samples. We prove that RpGAN has no bad basins. Experiments on synthetic data show that the predicted bad basin can indeed appear in training. We also perform experiments to support our theory that RpGAN has a better landscape than separable-GAN. For instance, we empirically show that RpGAN performs better than separable-GAN with relatively narrow neural nets. The code is available at https://github.com/AilsaF/RS-GAN.
翻訳日:2022-09-27 06:29:31 公開日:2020-11-10
# マルチタスク学習を用いたクラウドソーシングデータセットの質問応答可能性の決定

Determining Question-Answer Plausibility in Crowdsourced Datasets Using Multi-Task Learning ( http://arxiv.org/abs/2011.04883v1 )

ライセンス: Link先を確認
Rachel Gardner, Maya Varma, Clare Zhu, Ranjay Krishna(参考訳) ソーシャルネットワークやオンラインフォーラムから抽出されたデータセットは、しばしば自然言語の落とし穴、すなわち、構造化されていない、ノイズの多いデータによって引き起こされる。 本研究では,質分析とデータクリーニングの新たなタスクを提案することで,ソーシャルメディアからの質の高い質問応答データセットの収集を可能にすることを目指す。 マシンやユーザ生成の質問、ソーシャルメディアユーザからのクラウドソースの回答が与えられた場合、質問と回答が有効であるかどうかを判断します。 BERTをベースとしたモデルをQA検証タスクとして設計し,クリーンで使いやすい質問応答データセットを生成するためのモデルの有効性を評価する。 提案手法は,質問の妥当性を決定する単一タスクモデルと,回答の妥当性を評価するマルチタスクモデルと,回答を抽出する(クエストプラズビリティAUROC=0.75,レスポンスプラズビリティAUROC=0.78,アンサー抽出F1=0.665)。

Datasets extracted from social networks and online forums are often prone to the pitfalls of natural language, namely the presence of unstructured and noisy data. In this work, we seek to enable the collection of high-quality question-answer datasets from social media by proposing a novel task for automated quality analysis and data cleaning: question-answer (QA) plausibility. Given a machine or user-generated question and a crowd-sourced response from a social media user, we determine if the question and response are valid; if so, we identify the answer within the free-form response. We design BERT-based models to perform the QA plausibility task, and we evaluate the ability of our models to generate a clean, usable question-answer dataset. Our highest-performing approach consists of a single-task model which determines the plausibility of the question, followed by a multi-task model which evaluates the plausibility of the response as well as extracts answers (Question Plausibility AUROC=0.75, Response Plausibility AUROC=0.78, Answer Extraction F1=0.665).
翻訳日:2022-09-27 06:29:15 公開日:2020-11-10
# BERTをベースとした多言語音声言語理解における言語境界の理解

To What Degree Can Language Borders Be Blurred In BERT-based Multilingual Spoken Language Understanding? ( http://arxiv.org/abs/2011.05007v1 )

ライセンス: Link先を確認
Quynh Do, Judith Gaspers, Tobias Roding, Melanie Bradford(参考訳) 本稿では,BERTをベースとした多言語音声言語理解(SLU)モデルが言語間で知識を伝達できる程度について述べる。 実験を通して、それは遠くの言語グループでもかなりうまく機能するが、理想的な多言語のパフォーマンスにはまだギャップがあることを示す。 さらに,多言語SLUのための言語共有および言語固有表現を学習するための,BERTに基づく新しい逆モデルアーキテクチャを提案する。 実験の結果,提案モデルは理想的多言語性能にギャップを狭めることができることがわかった。

This paper addresses the question as to what degree a BERT-based multilingual Spoken Language Understanding (SLU) model can transfer knowledge across languages. Through experiments we will show that, although it works substantially well even on distant language groups, there is still a gap to the ideal multilingual performance. In addition, we propose a novel BERT-based adversarial model architecture to learn language-shared and language-specific representations for multilingual SLU. Our experimental results prove that the proposed model is capable of narrowing the gap to the ideal multilingual performance.
翻訳日:2022-09-27 06:28:56 公開日:2020-11-10
# 微分帰納論理プログラミングによる資源制約付き対話政策学習

Resource Constrained Dialog Policy Learning via Differentiable Inductive Logic Programming ( http://arxiv.org/abs/2011.05457v1 )

ライセンス: Link先を確認
Zhenpeng Zhou, Ahmad Beirami, Paul Crook, Pararth Shah, Rajen Subba, and Alborz Geramifard(参考訳) リソース制約付きダイアログポリシー学習の必要性に動機づけられ,微分可能帰納論理(dilog)によるダイアログポリシーを導入する。 我々は,simdial と multiwoz 上の dilog を用いて,ワンショット学習とゼロショットドメイン転送のタスクを検討する。 レストランドメインの1つの代表ダイアログを使用して、シムディアルデータセットでダイアログをトレーニングし、99+%のドメイン内テスト精度を得る。 また、訓練されたDILOGゼロショットは99%以上の精度で他のすべてのドメインに転送され、スロット充足ダイアログに対するDILOGの適合性が証明された。 さらに,本研究をマルチウォズデータセットに拡張し,90+%のインフォメーションとサクセスメトリックを実現する。 また,これらの指標は偽陽性という観点からはDILOGの欠点を捉えていないため,補助的行動F1スコアを測定する必要がある。 この結果から,DILOGはMultiWoZの最先端ニューラルネットワークに比べて100倍のデータ効率が向上し,類似のパフォーマンス指標が得られた。 本稿では,DILOGの強みと弱みについて論じる。

Motivated by the needs of resource constrained dialog policy learning, we introduce dialog policy via differentiable inductive logic (DILOG). We explore the tasks of one-shot learning and zero-shot domain transfer with DILOG on SimDial and MultiWoZ. Using a single representative dialog from the restaurant domain, we train DILOG on the SimDial dataset and obtain 99+% in-domain test accuracy. We also show that the trained DILOG zero-shot transfers to all other domains with 99+% accuracy, proving the suitability of DILOG to slot-filling dialogs. We further extend our study to the MultiWoZ dataset achieving 90+% inform and success metrics. We also observe that these metrics are not capturing some of the shortcomings of DILOG in terms of false positives, prompting us to measure an auxiliary Action F1 score. We show that DILOG is 100x more data efficient than state-of-the-art neural approaches on MultiWoZ while achieving similar performance metrics. We conclude with a discussion on the strengths and weaknesses of DILOG.
翻訳日:2022-09-27 06:28:46 公開日:2020-11-10