このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200513となっている論文です。

PDF登録状況(公開日: 20200513)

TitleAuthorsAbstract論文公表日・翻訳日
# 粗粒力学系のための深い確率的機械学習フレームワークにおける物理的制約の組み入れ

Incorporating physical constraints in a deep probabilistic machine learning framework for coarse-graining dynamical systems ( http://arxiv.org/abs/1912.12976v4 )

ライセンス: Link先を確認
Sebastian Kaltenbach, Phaedon-Stelios Koutsourelakis(参考訳) 高次元力学系の有効粗粒度(CG)モデルのデータに基づく発見は、計算物理学、特にマルチスケール問題の文脈においてユニークな課題である。 本稿では,予測の不確実性の定量化を可能にする,データに基づく確率論的視点を提供する。 優れた問題の1つは、確率的機械学習の目標に物理的制約を導入することである。 このような制約の主な効用は、それらが表す質量、エネルギーなどの保存のような未議論の物理法則に由来する。 さらに、物理的に現実的な予測に繋がるだけでなく、高次元のマルチスケールシステムでは取得にコストがかかるトレーニングデータの必要量を大幅に削減することができる(Small Data regime)。 我々は、確率的状態空間モデルを用いて粗粒化過程を定式化し、上記の等式制約を関連する密度の仮想観測可能性として考慮する。 本研究では,ニューラルネットワークとそれらの進化モデルを組み合わせた粗粒度変数の同定に確率的推論ツールを用いることで,詳細な(制約)投影を定義する必要がなく,状態変数の時間微分も必要としないことを示す。 さらに、完全な微細なシステムの進化を再構築することができるため、関心の観測対象を事前に選択する必要はない。 相互作用する粒子の系と非線形振り子の画像系列に適用することで,提案手法の有効性を実証する。

Data-based discovery of effective, coarse-grained (CG) models of high-dimensional dynamical systems presents a unique challenge in computational physics and particularly in the context of multiscale problems. The present paper offers a data-based, probablistic perspective that enables the quantification of predictive uncertainties. One of the outstanding problems has been the introduction of physical constraints in the probabilistic machine learning objectives. The primary utility of such constraints stems from the undisputed physical laws such as conservation of mass, energy etc. that they represent. Furthermore and apart from leading to physically realistic predictions, they can significantly reduce the requisite amount of training data which for high-dimensional, multiscale systems are expensive to obtain (Small Data regime). We formulate the coarse-graining process by employing a probabilistic state-space model and account for the aforementioned equality constraints as virtual observables in the associated densities. We demonstrate how probabilistic inference tools can be employed to identify the coarse-grained variables in combination with deep neural nets and their evolution model without ever needing to define a fine-to-coarse (restriction) projection and without needing time-derivatives of state variables. Furthermore, it is capable of reconstructing the evolution of the full, fine-scale system and therefore the observables of interest need not be selected a priori. We demonstrate the efficacy of the proposed framework by applying it to systems of interacting particles and an image-series of a nonlinear pendulum.
翻訳日:2023-01-17 02:51:08 公開日:2020-05-13
# アクティブ遺伝子を用いた集積型カードゲームアリーナデック構築への進化的アプローチ

Evolutionary Approach to Collectible Card Game Arena Deckbuilding using Active Genes ( http://arxiv.org/abs/2001.01326v2 )

ライセンス: Link先を確認
Jakub Kowalski, Rados{\l}aw Miernik(参考訳) 本稿では,HearthstoneやTES: Legendsなどの人気カードゲームに触発されたプログラミングゲームであるRegends of Code and Magicのアリーナモードにおけるカード選択戦略を進化させる。 アリーナゲームモードでは、各試合前にプレイヤーは、以前知らなかった選択肢から1枚ずつデッキ選択カードを組み立てなければならない。 このようなシナリオは、適応関数が非決定論的であるだけでなく、与えられた問題例であっても直接計算することは不可能であり、シミュレーションに基づくアプローチでのみ推定できるため、最適化の観点からは困難である。 そこで本研究では,遺伝子型の世代別サブシーケンスのみに対する演算子の範囲を減らすために,活性遺伝子の概念を用いた進化的アルゴリズムの変種を提案する。 そこで我々は,学習プロセスのバッチ化と,前回のテストの知識を忘れずに,特定のドラフトに関連するカードにのみ,進化的更新を制約した。 我々は,このアイデアの様々な実装を開発・テストし,各バリエーションの計算コストを考慮し,その性能を検証した。 性能実験により、導入されたアクティブジェネシスアルゴリズムのいくつかは、比較した手法よりも早く学習し、統計的に優れたドラフトポリシーを生成する傾向があることが示された。

In this paper, we evolve a card-choice strategy for the arena mode of Legends of Code and Magic, a programming game inspired by popular collectible card games like Hearthstone or TES: Legends. In the arena game mode, before each match, a player has to construct his deck choosing cards one by one from the previously unknown options. Such a scenario is difficult from the optimization point of view, as not only the fitness function is non-deterministic, but its value, even for a given problem instance, is impossible to be calculated directly and can only be estimated with simulation-based approaches. We propose a variant of the evolutionary algorithm that uses a concept of an active gene to reduce the range of the operators only to generation-specific subsequences of the genotype. Thus, we batched learning process and constrained evolutionary updates only to the cards relevant for the particular draft, without forgetting the knowledge from the previous tests. We developed and tested various implementations of this idea, investigating their performance by taking into account the computational cost of each variant. Performed experiments show that some of the introduced active-genes algorithms tend to learn faster and produce statistically better draft policies than the compared methods.
翻訳日:2023-01-14 07:50:46 公開日:2020-05-13
# 不均衡データ環境における重み付き損失の連続バッチ正規化

Consistent Batch Normalization for Weighted Loss in Imbalanced-Data Environment ( http://arxiv.org/abs/2001.01433v3 )

ライセンス: Link先を確認
Muneki Yasuda and Yeo Xian En and Seishirou Ueno(参考訳) 本研究では,データ不均衡環境におけるフィードフォワードニューラルネットワークに基づく分類問題を考える。 不均衡データセットからの学習は、機械学習の分野で最も重要な実践的問題の1つである。 コスト感受性アプローチに基づく重み付き損失関数(WLF)は、不均衡データセットのよく知られた効果的な方法である。 本稿では WLF とバッチ正規化 (BN) の組み合わせについて考察する。 BNは近年のディープラーニングの発展において、強力な標準技術であると考えられている。 両方の手法の単純な組み合わせは、両方の手法におけるデータセットの有効サイズの解釈のミスマッチによるサイズ不整合の問題につながる。 BN の単純な修正は、重み付け BN (WBN) と呼ばれ、サイズミスマッチを補正するために提案されている。 WBNの考え方は単純で自然なものである。 データ不均衡環境における提案手法を数値実験により検証した。

In this study, classification problems based on feedforward neural networks in a data-imbalanced environment are considered. Learning from an imbalanced dataset is one of the most important practical problems in the field of machine learning. A weighted loss function (WLF) based on a cost-sensitive approach is a well-known and effective method for imbalanced datasets. A combination of WLF and batch normalization (BN) is considered in this study. BN is considered as a powerful standard technique in the recent developments in deep learning. A simple combination of both methods leads to a size-inconsistency problem due to a mismatch between the interpretations of the effective size of the dataset in both methods. A simple modification to BN, called weighted BN (WBN), is proposed to correct the size mismatch. The idea of WBN is simple and natural. The proposed method in a data-imbalanced environment is validated using numerical experiments.
翻訳日:2023-01-14 02:00:01 公開日:2020-05-13
# 多部プロセスにおける速度行列依存性の制約による最小エントロピー生成

Minimal entropy production due to constraints on rate matrix dependencies in multipartite processes ( http://arxiv.org/abs/2001.02205v3 )

ライセンス: Link先を確認
David H Wolpert(参考訳) 各サブシステムのレートマトリックスに制約があり、他のサブシステムがそのダイナミクスに直接影響を及ぼすことができるかを制限するマルチパートプロセスを考える。 私は、そのサブシステムのレート行列に対するこれらの制約の観点から、プロセスの達成可能な最小エントロピー生成率に厳密に非ゼロな下界を導き出す。 境界は、あるサブシステムは固定され、他のサブは進化することが許される反事実率行列を構築することに基づいている。 この境界は定常二分系における「学習率」と関連しており、より一般に二分系における「情報の流れ」に関連している。

I consider multipartite processes in which there are constraints on each subsystem's rate matrix, restricting which other subsystems can directly affect its dynamics. I derive a strictly nonzero lower bound on the minimal achievable entropy production rate of the process in terms of these constraints on the rate matrices of its subsystems. The bound is based on constructing counterfactual rate matrices, in which some subsystems are held fixed while the others are allowed to evolve. This bound is related to the "learning rate" of stationary bipartite systems, and more generally to the "information flow" in bipartite systems.
翻訳日:2023-01-13 21:20:33 公開日:2020-05-13
# mm波大容量mimoシステムによる大規模知的表面の深いチャネル学習

Deep Channel Learning For Large Intelligent Surfaces Aided mm-Wave Massive MIMO Systems ( http://arxiv.org/abs/2001.11085v3 )

ライセンス: Link先を確認
Ahmet M. Elbir, A Papazafeiropoulos, P. Kourtessis, and S. Chatzinotas(参考訳) 本稿では,大規模インテリジェントサーフェス(LIS)を用いたMIMO(multiple-input multiple-output)システムにおけるチャネル推定のためのディープラーニング(DL)フレームワークの導入について述べる。 2つの畳み込みニューラルネットワーク(cnn)アーキテクチャを設計し、受信したパイロット信号によって直接チャネルとカスケードチャネルの両方を推定する。 マルチユーザシナリオでは、各ユーザがcnnにアクセスして、自身のチャネルを見積もる。 提案手法の性能評価と,最先端のDLベース技術との比較を行い,その優れた性能を示す。

This letter presents the first work introducing a deep learning (DL) framework for channel estimation in large intelligent surface (LIS) assisted massive MIMO (multiple-input multiple-output) systems. A twin convolutional neural network (CNN) architecture is designed and it is fed with the received pilot signals to estimate both direct and cascaded channels. In a multi-user scenario, each user has access to the CNN to estimate its own channel. The performance of the proposed DL approach is evaluated and compared with state-of-the-art DL-based techniques and its superior performance is demonstrated.
翻訳日:2023-01-05 21:37:18 公開日:2020-05-13
# ハイパーグラフに高次情報が必要なのはいつ頃か? ハイパーエッジ予測に関する事例研究

How Much and When Do We Need Higher-order Information in Hypergraphs? A Case Study on Hyperedge Prediction ( http://arxiv.org/abs/2001.11181v3 )

ライセンス: Link先を確認
Se-eun Yoon, Hyungseok Song, Kijung Shin, and Yung Yi(参考訳) ハイパーグラフは、群関係を表現する自然な方法を提供し、その複雑さは、ある種の抽象と高次相互作用の単純化を取り入れるために、様々な先行研究を動機付ける。 グループインタラクションの抽象化がハイパーグラフタスクの解決にどの程度必要か、データセット間で結果がどの程度異なるか、といった問題はまだ解決されていない。 この質問は、適切に答えれば、ダウンストリームタスクを解決する複雑さと正確さのトレードオフ方法に関する有用なエンジニアリングガイドラインを提供する。 そこで本研究では,n-way間相互作用に関する情報を蓄積するn-projected graphの概念を用いて,グループ間相互作用を漸進的に表現する手法を提案する。 下流タスクとして、グラフモデルを評価するための標準的なタスクであるリンク予測の拡張であるハイパーエッジ予測を考える。 15の現実世界のデータセットの実験を通して、以下のメッセージを描きます。 (a)最小の n は近似に匹敵する精度を達成するのに十分である。 b)トラブルシューター: タスクがより困難になるにつれて、大きなnはより多くの利益をもたらす。 (c) 可視性: 対の相互作用が高次相互作用についてあまり語らないデータセットは、対の抽象化に還元されると、多くの精度を失う。

Hypergraphs provide a natural way of representing group relations, whose complexity motivates an extensive array of prior work to adopt some form of abstraction and simplification of higher-order interactions. However, the following question has yet to be addressed: How much abstraction of group interactions is sufficient in solving a hypergraph task, and how different such results become across datasets? This question, if properly answered, provides a useful engineering guideline on how to trade off between complexity and accuracy of solving a downstream task. To this end, we propose a method of incrementally representing group interactions using a notion of n-projected graph whose accumulation contains information on up to n-way interactions, and quantify the accuracy of solving a task as n grows for various datasets. As a downstream task, we consider hyperedge prediction, an extension of link prediction, which is a canonical task for evaluating graph models. Through experiments on 15 real-world datasets, we draw the following messages: (a) Diminishing returns: small n is enough to achieve accuracy comparable with near-perfect approximations, (b) Troubleshooter: as the task becomes more challenging, larger n brings more benefit, and (c) Irreducibility: datasets whose pairwise interactions do not tell much about higher-order interactions lose much accuracy when reduced to pairwise abstractions.
翻訳日:2023-01-05 12:38:22 公開日:2020-05-13
# 最適分類木を学習する:強いマックスフロー定式化

Learning Optimal Classification Trees: Strong Max-Flow Formulations ( http://arxiv.org/abs/2002.09142v2 )

ライセンス: Link先を確認
Sina Aghaei, Andres Gomez, Phebe Vayanos(参考訳) 最適な二分分類木を学習する問題を考察する。 この話題に関する文献は近年、ヒューリスティックアプローチの実証的最適性と、混合整数型プログラミング(mip)技術の大幅な改善の両方によって動機づけられつつある。 しかし、文献からの既存のアプローチは、MIPのパワーを最大限に活用していない。 実際、それらは弱い定式化に依存し、緩やかな収束と大きな最適性ギャップをもたらす。 このギャップを埋めるために,より強い線形プログラミング緩和を持つ最適二分分類木に対するフローベースのmip定式化を提案する。 我々の定式化は魅力的な分解可能な構造を示す。 この構造とmax-flow/min-cut双対性を利用して、より大きなインスタンスにスケールするベンダー分解法を導出する。 標準ベンチマークデータセットに関する広範な計算実験を行い,提案手法が最先端mipベース手法の50倍高速であることを示し,サンプル性能を最大13.8%向上させることを示した。

We consider the problem of learning optimal binary classification trees. Literature on the topic has burgeoned in recent years, motivated both by the empirical suboptimality of heuristic approaches and the tremendous improvements in mixed-integer programming (MIP) technology. Yet, existing approaches from the literature do not leverage the power of MIP to its full extent. Indeed, they rely on weak formulations, resulting in slow convergence and large optimality gaps. To fill this gap in the literature, we propose a flow-based MIP formulation for optimal binary classification trees that has a stronger linear programming relaxation. Our formulation presents an attractive decomposable structure. We exploit this structure and max-flow/min-cut duality to derive a Benders' decomposition method, which scales to larger instances. We conduct extensive computational experiments on standard benchmark datasets on which we show that our proposed approaches are 50 times faster than state-of-the art MIP-based techniques and improve out of sample performance up to 13.8%.
翻訳日:2022-12-30 01:01:23 公開日:2020-05-13
# jiant:汎用テキスト理解モデル研究のためのソフトウェアツールキット

jiant: A Software Toolkit for Research on General-Purpose Text Understanding Models ( http://arxiv.org/abs/2003.02249v2 )

ライセンス: Link先を確認
Yada Pruksachatkun, Phil Yeres, Haokun Liu, Jason Phang, Phu Mon Htut, Alex Wang, Ian Tenney and Samuel R. Bowman(参考訳) 英語のnluタスクでマルチタスクおよび転送学習実験を行うためのオープンソースツールキットであるjiantを紹介する。 jiantは最新モデルのモジュール化と構成駆動の実験を可能にし、探索、転送学習、マルチタスクトレーニング実験のための幅広いタスクセットを実装している。 Jiantは、GLUEとSuperGLUEベンチマークタスクを含む50以上のNLUタスクを実装している。 我々は、BERTやRoBERTaなど、さまざまなタスクやモデル上で、jiantがパブリッシュパフォーマンスを再現することを示した。 jiantはhttps://jiant.info.comで入手できる。

We introduce jiant, an open source toolkit for conducting multitask and transfer learning experiments on English NLU tasks. jiant enables modular and configuration-driven experimentation with state-of-the-art models and implements a broad set of tasks for probing, transfer learning, and multitask training experiments. jiant implements over 50 NLU tasks, including all GLUE and SuperGLUE benchmark tasks. We demonstrate that jiant reproduces published performance on a variety of tasks and models, including BERT and RoBERTa. jiant is available at https://jiant.info.
翻訳日:2022-12-26 13:08:37 公開日:2020-05-13
# プライベート分類とオンライン予測のためのクロージャ特性

Closure Properties for Private Classification and Online Prediction ( http://arxiv.org/abs/2003.04509v3 )

ライセンス: Link先を確認
Noga Alon, Amos Beimel, Shay Moran, and Uri Stemmer(参考訳) $\cH'$ をブール関数の類とし、任意のアグリゲーション規則を用いて~$\cH'$ から派生した {$\cH'$ を考える(例えば、$\cH'$ は $\cH$ の3つの多元関数全体のクラスであるかもしれない)。 我々はリトルストーン次元の~$\cH'$を~$\cH$の項で上界する。 本稿では,オンライン学習とプライベートPAC学習のクロージャ特性について考察する。 リトルストーン次元の導出境界は、望ましくない指数依存性を示す。 プライベート学習では、この準最適依存性を回避する最適境界に近いことが証明される。 プライベート学習のサンプル複雑性に関する改善された境界は、オリジナルのクラス$\cH$のプライベート学習者を、合成クラス~$\cH'$のプライベート学習者に変換することでアルゴリズム的に導出される。 同じ考えを用いることで、実現可能な場合(例がクラス内のある関数によってラベル付けされた場合)で$\ch$の関数のクラスを学習する({\em properまたは不適切な)プライベートアルゴリズムは、非依存の場合で$\ch$のクラスを学習するプライベートアルゴリズムに変換できることを示した。

Let~$\cH$ be a class of boolean functions and consider a {\it composed class} $\cH'$ that is derived from~$\cH$ using some arbitrary aggregation rule (for example, $\cH'$ may be the class of all 3-wise majority-votes of functions in $\cH$). We upper bound the Littlestone dimension of~$\cH'$ in terms of that of~$\cH$. As a corollary, we derive closure properties for online learning and private PAC learning. The derived bounds on the Littlestone dimension exhibit an undesirable exponential dependence. For private learning, we prove close to optimal bounds that circumvents this suboptimal dependency. The improved bounds on the sample complexity of private learning are derived algorithmically via transforming a private learner for the original class $\cH$ to a private learner for the composed class~$\cH'$. Using the same ideas we show that any ({\em proper or improper}) private algorithm that learns a class of functions $\cH$ in the realizable case (i.e., when the examples are labeled by some function in the class) can be transformed to a private algorithm that learns the class $\cH$ in the agnostic case.
翻訳日:2022-12-24 20:36:03 公開日:2020-05-13
# brazildam:tailingsダム検出のためのベンチマークデータセット

BrazilDAM: A Benchmark dataset for Tailings Dam Detection ( http://arxiv.org/abs/2003.07948v2 )

ライセンス: Link先を確認
Edemir Ferreira, Matheus Brito, Remis Balaniuk, M\'ario S. Alvim, and Jefersson A. dos Santos(参考訳) 本研究では,ブラジル国立鉱業庁 (ANM) が集計したすべての尾翼ダムをカバーする,Sentinel-2 と Landsat-8 衛星画像に基づく新しいパブリックデータセットである BrazilDAM を紹介する。 このデータセットは、2016年から2019年の間に記録された769のダムの画像を用いて構築された。 時系列はクラウドフリーの画像を生成するために処理された。 ダムには様々な鉱石カテゴリーの廃棄物が含まれており、形状、面積、体積が非常に異なるため、ブラジルダムは特に興味深く、機械学習ベンチマークでの使用が困難である。 オリジナルのカタログにはダム座標に加えて、主な鉱石、建設方法、リスクカテゴリ、関連する潜在的な損傷に関する情報が含まれている。 ブラジルDAMの予測可能性を評価するために,最先端の深層畳み込みニューラルネットワーク(CNN)を用いて分類エッセイを行った。 実験では,ダム二分分類作業において,平均分類精度94.11%を達成した。 さらに、他の4つの実験のセットアップでは、元のカタログから補完的な情報を使用して、提案したデータセットの容量を徹底的に活用した。

In this work we present BrazilDAM, a novel public dataset based on Sentinel-2 and Landsat-8 satellite images covering all tailings dams cataloged by the Brazilian National Mining Agency (ANM). The dataset was built using georeferenced images from 769 dams, recorded between 2016 and 2019. The time series were processed in order to produce cloud free images. The dams contain mining waste from different ore categories and have highly varying shapes, areas and volumes, making BrazilDAM particularly interesting and challenging to be used in machine learning benchmarks. The original catalog contains, besides the dam coordinates, information about: the main ore, constructive method, risk category, and associated potential damage. To evaluate BrazilDAM's predictive potential we performed classification essays using state-of-the-art deep Convolutional Neural Network (CNNs). In the experiments, we achieved an average classification accuracy of 94.11% in tailing dam binary classification task. In addition, others four setups of experiments were made using the complementary information from the original catalog, exhaustively exploiting the capacity of the proposed dataset.
翻訳日:2022-12-22 21:40:17 公開日:2020-05-13
# 照明室:空間コヒーレント照明の照明量予測

Lighthouse: Predicting Lighting Volumes for Spatially-Coherent Illumination ( http://arxiv.org/abs/2003.08367v2 )

ライセンス: Link先を確認
Pratul P. Srinivasan, Ben Mildenhall, Matthew Tancik, Jonathan T. Barron, Richard Tucker, Noah Snavely(参考訳) 入力狭帯域ステレオ画像ペアからシーン内の任意の3次元位置における入射照度を推定する深層学習ソリューションを提案する。 画像からグローバル照明を予測する以前のアプローチでは、シーン全体の1つの照明だけを予測するか、同じ3dシーンと一致させることなく各3d位置の照明を別々に見積もる。 代わりに,観察された視野外のコンテンツを含むシーンの3次元ボリュームrgbaモデルを推定し,そのボリューム内の任意の3次元位置における入射照明を標準ボリュームレンダリングを用いて推定する深層学習モデルを提案する。 本モデルでは,地上真理3dデータを用いず,入力ステレオペア近傍のホールドアウト視点と,各シーン内の球面パノラマのみを監督として使用する。 本手法は,実画像に高精細な仮想物体を照らし,挿入するのに十分説得力のある空間変動照明を予測できることを実証する。

We present a deep learning solution for estimating the incident illumination at any 3D location within a scene from an input narrow-baseline stereo image pair. Previous approaches for predicting global illumination from images either predict just a single illumination for the entire scene, or separately estimate the illumination at each 3D location without enforcing that the predictions are consistent with the same 3D scene. Instead, we propose a deep learning model that estimates a 3D volumetric RGBA model of a scene, including content outside the observed field of view, and then uses standard volume rendering to estimate the incident illumination at any 3D location within that volume. Our model is trained without any ground truth 3D data and only requires a held-out perspective view near the input stereo pair and a spherical panorama taken within each scene as supervision, as opposed to prior methods for spatially-varying lighting estimation, which require ground truth scene geometry for training. We demonstrate that our method can predict consistent spatially-varying lighting that is convincing enough to plausibly relight and insert highly specular virtual objects into real images.
翻訳日:2022-12-22 13:08:05 公開日:2020-05-13
# dMFEA-II:順応型離散最適化問題に対する適応多因子進化アルゴリズム

dMFEA-II: An Adaptive Multifactorial Evolutionary Algorithm for Permutation-based Discrete Optimization Problems ( http://arxiv.org/abs/2004.06559v3 )

ライセンス: Link先を確認
Eneko Osaba, Aritz D. Martinez, Akemi Galvez, Andres Iglesias, Javier Del Ser(参考訳) マルチタスク最適化とよばれる新たな研究パラダイムは、単一の探索プロセスを用いて複数の最適化タスクを同時に解決することを目的としている。 この目的のために、解決すべきタスク間の相補性の活用が重要であり、しばしば遺伝物質の移動によって達成され、転送最適化分野を鍛造する。 この文脈では、進化的マルチタスクは進化的計算の概念を頼りにこのパラダイムに対処する。 この特定のブランチ内では、MFEA(Multifactorial Evolutionary Algorithm)のようなアプローチが、複数の最適化タスクに取り組む際に、近年顕著な勢いを増している。 この研究は、最近導入されたMFEA-II(Multifactorial Evolutionary Algorithm II)を置換に基づく離散最適化環境に適応させることによって、この傾向に寄与する。 この適応をモデル化するために、親中心相互作用のような離散探索空間に直接適用できない概念がある。 本稿では,MFEA-IIの本質的な利点を損なうことなく,置換に基づく探索空間を扱うのに適した,そのような概念を完全に再構成する。 提案手法の性能は,TSP (Traveing Salesman) とCVRP (Capacitated Vehicle Routing Problems) の8つのデータセットを用いて,5種類のマルチタスク・セットアップで評価されている。 得られた結果とMFEAの離散版との比較により, 開発したdMFEA-IIの良好な性能が確認され, 連続最適化のための従来の研究で得られた知見と一致した。

The emerging research paradigm coined as multitasking optimization aims to solve multiple optimization tasks concurrently by means of a single search process. For this purpose, the exploitation of complementarities among the tasks to be solved is crucial, which is often achieved via the transfer of genetic material, thereby forging the Transfer Optimization field. In this context, Evolutionary Multitasking addresses this paradigm by resorting to concepts from Evolutionary Computation. Within this specific branch, approaches such as the Multifactorial Evolutionary Algorithm (MFEA) has lately gained a notable momentum when tackling multiple optimization tasks. This work contributes to this trend by proposing the first adaptation of the recently introduced Multifactorial Evolutionary Algorithm II (MFEA-II) to permutation-based discrete optimization environments. For modeling this adaptation, some concepts cannot be directly applied to discrete search spaces, such as parent-centric interactions. In this paper we entirely reformulate such concepts, making them suited to deal with permutation-based search spaces without loosing the inherent benefits of MFEA-II. The performance of the proposed solver has been assessed over 5 different multitasking setups, composed by 8 datasets of the well-known Traveling Salesman (TSP) and Capacitated Vehicle Routing Problems (CVRP). The obtained results and their comparison to those by the discrete version of the MFEA confirm the good performance of the developed dMFEA-II, and concur with the insights drawn in previous studies for continuous optimization.
翻訳日:2022-12-13 08:46:29 公開日:2020-05-13
# 無人航空機からの航空画像による車両位置推定

Vehicle Position Estimation with Aerial Imagery from Unmanned Aerial Vehicles ( http://arxiv.org/abs/2004.08206v2 )

ライセンス: Link先を確認
Friedrich Kruber, Eduardo S\'anchez Morales, Samarjit Chakraborty, Michael Botsch(参考訳) 実世界のデータの入手は、自動車と交通研究の分野における新しい発展の鍵となる要素である。 航空画像は複数の物体を同時に記録する大きな利点があり、閉塞などの制限を克服する。 しかし、利用可能なデータセットはわずかである。 この研究は、航空画像から正確な車両の位置を推定する過程を記述する。 信頼性の高い結果には堅牢なオブジェクト検出が不可欠であるため、最先端のディープニューラルネットワークであるMask-RCNNが適用される。 2つのトレーニングデータセットが採用されている: 1つは試験車両の検出に最適化され、もう1つは公道でランダムに選択された画像で構成されている。 誤りを減らすために、ドローンの動きや写真からの視点投影など、いくつかの側面が説明されている。 推定位置は、試験車両に搭載された基準システムと照合される。 その結果,100mまでの飛行高度,フルhd解像度,フレームバイフレーム検出により,平均20cmの精度を達成できた。 信頼性のある位置推定は、追加の車両状態変数を取得するなど、さらなるデータ処理の基盤となる。 ソースコード、トレーニングウェイト、ラベル付きデータ、サンプルビデオが公開されている。 これにより、研究者は特定のローカル条件で新しいトラフィックデータセットを作成することができる。

The availability of real-world data is a key element for novel developments in the fields of automotive and traffic research. Aerial imagery has the major advantage of recording multiple objects simultaneously and overcomes limitations such as occlusions. However, there are only few data sets available. This work describes a process to estimate a precise vehicle position from aerial imagery. A robust object detection is crucial for reliable results, hence the state-of-the-art deep neural network Mask-RCNN is applied for that purpose. Two training data sets are employed: The first one is optimized for detecting the test vehicle, while the second one consists of randomly selected images recorded on public roads. To reduce errors, several aspects are accounted for, such as the drone movement and the perspective projection from a photograph. The estimated position is comapared with a reference system installed in the test vehicle. It is shown, that a mean accuracy of 20 cm can be achieved with flight altitudes up to 100 m, Full-HD resolution and a frame-by-frame detection. A reliable position estimation is the basis for further data processing, such as obtaining additional vehicle state variables. The source code, training weights, labeled data and example videos are made publicly available. This supports researchers to create new traffic data sets with specific local conditions.
翻訳日:2022-12-12 13:25:03 公開日:2020-05-13
# データ駆動型洪水エミュレーション:深層畳み込みニューラルネットワークによる都市洪水予測の高速化

Data-driven Flood Emulation: Speeding up Urban Flood Predictions by Deep Convolutional Neural Networks ( http://arxiv.org/abs/2004.08340v2 )

ライセンス: Link先を確認
Zifeng Guo, Joao P. Leitao, Nuno E. Simoes, and Vahid Moosavi(参考訳) 計算複雑性は,高空間分解能の大規模都市に物理シミュレーションを適用し,効率的かつ体系的な洪水解析とリスク評価を行うボトルネックとなっている。 そこで本研究では, 最大水深ラスターの予測を, 入力高度ラスターから生成する画像から画像への変換問題として, シミュレーションを行うよりもデータから得た情報を用いて行うこと, 予測プロセスを著しく加速することを提案する。 提案手法は, 深層畳み込みニューラルネットワークを用いて, 選択した3つの流域における18の設計ヒエトグラフの洪水シミュレーションデータを学習した。 人工降雨と実際の降雨の両方で複数の実験を行い, ニューラルネットワークによる洪水予測は, 0.5 %の時間しか使用せず, 予測精度と一般化能力が期待できることを示した。 提案したニューラルネットワークは、都市レイアウト計画のための洪水予測など、異なるが関連する問題にも適用することができる。

Computational complexity has been the bottleneck of applying physically-based simulations on large urban areas with high spatial resolution for efficient and systematic flooding analyses and risk assessments. To address this issue of long computational time, this paper proposes that the prediction of maximum water depth rasters can be considered as an image-to-image translation problem where the results are generated from input elevation rasters using the information learned from data rather than by conducting simulations, which can significantly accelerate the prediction process. The proposed approach was implemented by a deep convolutional neural network trained on flood simulation data of 18 designed hyetographs on three selected catchments. Multiple tests with both designed and real rainfall events were performed and the results show that the flood predictions by neural network uses only 0.5 % of time comparing with physically-based approaches, with promising accuracy and ability of generalizations. The proposed neural network can also potentially be applied to different but relevant problems including flood predictions for urban layout planning.
翻訳日:2022-12-12 13:07:08 公開日:2020-05-13
# SpellGCN:中国語スペルチェックのための言語モデルへの音韻的および視覚的類似性の導入

SpellGCN: Incorporating Phonological and Visual Similarities into Language Models for Chinese Spelling Check ( http://arxiv.org/abs/2004.14166v2 )

ライセンス: Link先を確認
Xingyi Cheng, Weidi Xu, Kunlong Chen, Shaohua Jiang, Feng Wang, Taifeng Wang, Wei Chu, Yuan Qi(参考訳) Chinese Spelling Check (CSC)は、中国語のスペルエラーを検出し修正するタスクである。 既存の手法は漢字間の類似知識を取り入れようと試みている。 しかし、それらは類似性知識を外部の入力リソースまたはヒューリスティックなルールとして捉えている。 本稿では,特殊グラフ畳み込みネットワーク(SpellGCN)を用いて,音韻的・視覚的類似知識をCSCの言語モデルに組み込むことを提案する。 モデルは文字の上にグラフを構築し、SpellGCNはこのグラフを独立した文字分類器の集合にマッピングする。 これらの分類器はBERTなどの他のネットワークによって抽出された表現に適用され、ネットワーク全体がエンドツーエンドのトレーニングが可能となる。 実験(データセットとこの論文のコードはhttps://github.com/ACL2020SpellGCN/SpellGCN)は3つの人為的なデータセットで実施されている。 本手法は従来のモデルよりも大きなマージンで優れた性能を実現する。

Chinese Spelling Check (CSC) is a task to detect and correct spelling errors in Chinese natural language. Existing methods have made attempts to incorporate the similarity knowledge between Chinese characters. However, they take the similarity knowledge as either an external input resource or just heuristic rules. This paper proposes to incorporate phonological and visual similarity knowledge into language models for CSC via a specialized graph convolutional network (SpellGCN). The model builds a graph over the characters, and SpellGCN is learned to map this graph into a set of inter-dependent character classifiers. These classifiers are applied to the representations extracted by another network, such as BERT, enabling the whole network to be end-to-end trainable. Experiments (The dataset and all code for this paper are available at https://github.com/ACL2020SpellGCN/SpellGCN) are conducted on three human-annotated datasets. Our method achieves superior performance against previous models by a large margin.
翻訳日:2022-12-09 13:37:23 公開日:2020-05-13
# 衛星insarデータを用いた構築環境における地盤変形検出のための深層学習フレームワーク

Deep Learning Framework for Detecting Ground Deformation in the Built Environment using Satellite InSAR data ( http://arxiv.org/abs/2005.03221v2 )

ライセンス: Link先を確認
Nantheera Anantrasirichai, Juliet Biggs, Krisztina Kelevitz, Zahra Sadeghi, Tim Wright, James Thompson, Alin Achim, David Bull(参考訳) 欧州で生産された大量のセンチネル-1データは、パン・ナショナリズムの地上運動サービスの開発に使用されている。 しかし、しきい値化のような単純な分析技術では、複雑な変形信号を検出・分類することはできず、幅広い非専門家に利用可能な情報を提供することが困難である。 本稿では,事前学習された畳み込みニューラルネットワーク(cnn)を用いて,全国規模の速度場の変形を検出することで,ディープラーニング手法の適用性を検討する。 概念実証のために、我々は、以前に特定された変形が石炭採掘、地下水の離脱、地すべり、トンネルに関係している英国に焦点を当てています。 画像間の空間的畳み込みの計算を含む深層学習ネットワークにおいて、測定点の空間性とスパイクノイズの存在がこれを困難にしている。 さらに、バランスの取れたトレーニングデータセットを構築するのに十分な基底真理データが存在し、変形信号は以前のアプリケーションよりも遅く、より局所化されている。 これらの問題に対処するための3つの拡張手法を提案する。 一 改良されたマトリックスの完成を伴う空間補間 二 実英国速度マップの特性に基づく総合訓練データセット、及び 三 オーバーラッピング技術の強化。 2015~2019年の速度マップを用いて, 脱水, スレート採石場, 地すべり, トンネル工学工事による石炭の沈降, 隆起のいくつかの領域を検出する。 その結果,提案手法が自動地動解析システムの開発に応用できる可能性が示唆された。

The large volumes of Sentinel-1 data produced over Europe are being used to develop pan-national ground motion services. However, simple analysis techniques like thresholding cannot detect and classify complex deformation signals reliably making providing usable information to a broad range of non-expert stakeholders a challenge. Here we explore the applicability of deep learning approaches by adapting a pre-trained convolutional neural network (CNN) to detect deformation in a national-scale velocity field. For our proof-of-concept, we focus on the UK where previously identified deformation is associated with coal-mining, ground water withdrawal, landslides and tunnelling. The sparsity of measurement points and the presence of spike noise make this a challenging application for deep learning networks, which involve calculations of the spatial convolution between images. Moreover, insufficient ground truth data exists to construct a balanced training data set, and the deformation signals are slower and more localised than in previous applications. We propose three enhancement methods to tackle these problems: i) spatial interpolation with modified matrix completion, ii) a synthetic training dataset based on the characteristics of real UK velocity map, and iii) enhanced over-wrapping techniques. Using velocity maps spanning 2015-2019, our framework detects several areas of coal mining subsidence, uplift due to dewatering, slate quarries, landslides and tunnel engineering works. The results demonstrate the potential applicability of the proposed framework to the development of automated ground motion analysis systems.
翻訳日:2022-12-05 23:51:15 公開日:2020-05-13
# ファウショット学習のためのメモリ拡張関係ネットワーク

Memory-Augmented Relation Network for Few-Shot Learning ( http://arxiv.org/abs/2005.04414v2 )

ライセンス: Link先を確認
Jun He, Richang Hong, Xueliang Liu, Mingliang Xu, Zhengjun Zha and Meng Wang(参考訳) メトリックベースの数ショット学習手法は、ラベル付きインスタンスの限られた数の監督の下で、見知らぬカテゴリから見えないカテゴリによく一般化する、伝達可能な特徴埋め込みを学習することに集中する。 しかしながら、ほとんどの場合、作業コンテキストにおける個々のインスタンスを、他のインスタンスとの関係を考慮せずに別々に扱う。 本研究では,これらの関係を明示的に活用するために,新しい距離学習手法であるメモリ拡張関係ネットワーク(MRN)について検討する。 特に、作業状況と視覚的に類似したサンプルを選択し、重み付けされた情報伝搬を行い、選択したサンプルから有用な情報を注意深く集約し、その表現を強化する。 MRNでは、類似度の測定を学習する学習可能な関係モジュールとして距離メートル法を定式化し、その一般化に寄与して、作業コンテキストをメモリスロットで拡張する。 我々は、MRNが祖先よりも大幅に改善し、miniImagenetとtyredImagenetという2つの主要なベンチマークデータセットの他の数ショットの学習アプローチと比較して、競争力やパフォーマンスが向上することを示した。

Metric-based few-shot learning methods concentrate on learning transferable feature embedding that generalizes well from seen categories to unseen categories under the supervision of limited number of labelled instances. However, most of them treat each individual instance in the working context separately without considering its relationships with the others. In this work, we investigate a new metric-learning method, Memory-Augmented Relation Network (MRN), to explicitly exploit these relationships. In particular, for an instance, we choose the samples that are visually similar from the working context, and perform weighted information propagation to attentively aggregate helpful information from the chosen ones to enhance its representation. In MRN, we also formulate the distance metric as a learnable relation module which learns to compare for similarity measurement, and augment the working context with memory slots, both contributing to its generality. We empirically demonstrate that MRN yields significant improvement over its ancestor and achieves competitive or even better performance when compared with other few-shot learning approaches on the two major benchmark datasets, i.e. miniImagenet and tieredImagenet.
翻訳日:2022-12-05 07:00:29 公開日:2020-05-13
# 非会話テキストによる多変量対話生成

Diversifying Dialogue Generation with Non-Conversational Text ( http://arxiv.org/abs/2005.04346v2 )

ライセンス: Link先を確認
Hui Su, Xiaoyu Shen, Sanqiang Zhao, Xiao Zhou, Pengwei Hu, Randy Zhong, Cheng Niu and Jie Zhou(参考訳) seq2seq(neural network-based sequence-to-sequence)モデルは、オープンドメインの対話生成に関して、低多様性の問題に強く苦しむ。 blandとgeneric utterancesは通常、日々のchitchatの頻度分布を支配しているため、より興味深いレスポンスを生成するのを避けるには、複雑なデータフィルタリング、サンプリングテクニック、トレーニング目的の変更が必要です。 本稿では,非会話テキストを活用した対話生成の多様化のための新しい視点を提案する。 双方向の会話と比較して、非会話テキストはより入手しやすく、より多様性があり、より幅広い話題をカバーする。 フォーラムコメントやイディオム,書籍スニペットなど,複数のソースから大規模な非会話コーパスを収集する。 さらに,これらのテキストを反復的な逆変換によって効果的に組み込むための学習パラダイムを提案する。 得られたモデルは2つの会話型データセット上でテストされ、コンテキストとの関連性を犠牲にすることなく、はるかに多様な応答を生成することが示される。

Neural network-based sequence-to-sequence (seq2seq) models strongly suffer from the low-diversity problem when it comes to open-domain dialogue generation. As bland and generic utterances usually dominate the frequency distribution in our daily chitchat, avoiding them to generate more interesting responses requires complex data filtering, sampling techniques or modifying the training objective. In this paper, we propose a new perspective to diversify dialogue generation by leveraging non-conversational text. Compared with bilateral conversations, non-conversational text are easier to obtain, more diverse and cover a much broader range of topics. We collect a large-scale non-conversational corpus from multi sources including forum comments, idioms and book snippets. We further present a training paradigm to effectively incorporate these text via iterative back translation. The resulting model is tested on two conversational datasets and is shown to produce significantly more diverse responses without sacrificing the relevance with context.
翻訳日:2022-12-05 06:50:52 公開日:2020-05-13
# 語彙データセットバイアスに対するNLIモデルのロバスト化に向けて

Towards Robustifying NLI Models Against Lexical Dataset Biases ( http://arxiv.org/abs/2005.04732v2 )

ライセンス: Link先を確認
Xiang Zhou, Mohit Bansal(参考訳) ディープラーニングモデルは自然言語推論のタスクにおいて急速に進歩しているが、最近の研究では、これらのモデルがいくつかのデータセットバイアスを利用して、言語意味論の深い理解なしに高い精度を達成することも示されている。 本稿では、矛盾語バイアスと単語重複バイアスを2つのバイアスの例として用い、語彙的データセットバイアスに対するモデル強化のためのデータレベルとモデルレベルのデバイアス法について検討する。 まず,データ拡張と拡張によってデータセットをデバイアスするが,この手法ではモデルバイアスを完全に取り除くことはできないことを示す。 次に、データセットのバイアスが何であるかを事前に知ることなく、モデルを直接デバイアスする2つの方法を比較する。 最初のアプローチは、埋め込みレベルでラベルバイアスを取り除くことである。 第2のアプローチでは,バイアスを悪用する可能性のある機能をキャプチャするために,バガ・オブ・ワード(bag-of-words)のサブモデルを採用している。 mnliデータセットから抽出した新しいバランスデータセットとnliストレステストについて評価を行い, 総合的精度を維持しつつモデルのデバイアスに直交性アプローチが優れていることを示した。 私たちのコードとデータは、https://github.com/owenzx/lexicaldebias-acl2020で利用可能です。

While deep learning models are making fast progress on the task of Natural Language Inference, recent studies have also shown that these models achieve high accuracy by exploiting several dataset biases, and without deep understanding of the language semantics. Using contradiction-word bias and word-overlapping bias as our two bias examples, this paper explores both data-level and model-level debiasing methods to robustify models against lexical dataset biases. First, we debias the dataset through data augmentation and enhancement, but show that the model bias cannot be fully removed via this method. Next, we also compare two ways of directly debiasing the model without knowing what the dataset biases are in advance. The first approach aims to remove the label bias at the embedding level. The second approach employs a bag-of-words sub-model to capture the features that are likely to exploit the bias and prevents the original model from learning these biased features by forcing orthogonality between these two sub-models. We performed evaluations on new balanced datasets extracted from the original MNLI dataset as well as the NLI stress tests, and show that the orthogonality approach is better at debiasing the model while maintaining competitive overall accuracy. Our code and data are available at: https://github.com/owenzx/LexicalDebias-ACL2020
翻訳日:2022-12-05 01:30:07 公開日:2020-05-13
# VIDIT:照明転送のための仮想画像データセット

VIDIT: Virtual Image Dataset for Illumination Transfer ( http://arxiv.org/abs/2005.05460v2 )

ライセンス: Link先を確認
Majed El Helou, Ruofan Zhou, Johan Barthas, Sabine S\"usstrunk(参考訳) 最近は、人間の努力なしに照明特有のリタッチによって光の強化を可能にするため、深層画像のリライティングがますます関心を集めている。 美的拡張とフォトモンタージュは別として、イメージリライトはトレーニング用のデータセットの強化や入力テストデータの正規化など、ドメイン適応に有用である。 しかし、正確なリライトは、シャドウの除去と再キャストの困難さや異なる表面のモデリングなど、様々な理由から非常に困難である。 本稿では、参照評価ベンチマークを作成し、照明操作手法の開発を進めるために、新たなデータセットであるVIDIT(Virtual Image Dataset for Illumination Transfer)を提案する。 仮想データセットは、実画像のパフォーマンスを達成するための重要なステップであるだけでなく、実データセットが取得および利用可能になった場合でも、トレーニングを改善する能力も証明されている。 VIDITには、トレーニングに使用される300の仮想シーンが含まれており、すべてのシーンは合計40回撮影されている。

Deep image relighting is gaining more interest lately, as it allows photo enhancement through illumination-specific retouching without human effort. Aside from aesthetic enhancement and photo montage, image relighting is valuable for domain adaptation, whether to augment datasets for training or to normalize input test data. Accurate relighting is, however, very challenging for various reasons, such as the difficulty in removing and recasting shadows and the modeling of different surfaces. We present a novel dataset, the Virtual Image Dataset for Illumination Transfer (VIDIT), in an effort to create a reference evaluation benchmark and to push forward the development of illumination manipulation methods. Virtual datasets are not only an important step towards achieving real-image performance but have also proven capable of improving training even when real datasets are possible to acquire and available. VIDIT contains 300 virtual scenes used for training, where every scene is captured 40 times in total: from 8 equally-spaced azimuthal angles, each lit with 5 different illuminants.
翻訳日:2022-12-04 20:47:37 公開日:2020-05-13
# 画像に基づく消化管定位のための深層学習と幾何学的特徴の融合

Combining Deep Learning with Geometric Features for Image based Localization in the Gastrointestinal Tract ( http://arxiv.org/abs/2005.05481v2 )

ライセンス: Link先を確認
Jingwei Song, Mitesh Patel, Andreas Girgensohn, Chelhwon Kim(参考訳) 消化管におけるモノクロ大腸鏡(gi)の追跡は,画像の変形,ぼやけたテクスチャ,外観の著しい変化に苦しむため,困難な課題である。 従来の幾何学に基づく手法の追跡能力を大幅に制限する。 深層学習(DL)はこれらの問題を克服できるが、ラベリングの制限は最先端のDL手法の障害となる。 そこで本研究では,DL法と従来の特徴量に基づく手法を併用して,小さなトレーニングデータを用いたより優れたローカライゼーションを実現する手法を提案する。 本手法は,セグメンテッドトレーニング画像セットの最も近いゾーンにマイトショット分類を行うため,シャムネットワーク構造を導入することで,両世界のベストを最大限に活用する。 分類ラベルは、スコープのポーズを初期化するためにさらに採用される。 トレーニングデータセットを十分に利用するために、トレーニングセット内のゾーン内の予め生成された三角マップポイントを観察登録し、テスト画像の最適なポーズの推定に寄与する。 提案手法は既存の手法と広範囲に比較検討され,従来の幾何ベースやdlベースに比べて大きな改善が見られた。 精度は28.94% (Position) と10.97% (Orientation) で改善されている。

Tracking monocular colonoscope in the Gastrointestinal tract (GI) is a challenging problem as the images suffer from deformation, blurred textures, significant changes in appearance. They greatly restrict the tracking ability of conventional geometry based methods. Even though Deep Learning (DL) can overcome these issues, limited labeling data is a roadblock to state-of-art DL method. Considering these, we propose a novel approach to combine DL method with traditional feature based approach to achieve better localization with small training data. Our method fully exploits the best of both worlds by introducing a Siamese network structure to perform few-shot classification to the closest zone in the segmented training image set. The classified label is further adopted to initialize the pose of scope. To fully use the training dataset, a pre-generated triangulated map points within the zone in the training set are registered with observation and contribute to estimating the optimal pose of the test image. The proposed hybrid method is extensively tested and compared with existing methods, and the result shows significant improvement over traditional geometric based or DL based localization. The accuracy is improved by 28.94% (Position) and 10.97% (Orientation) with respect to state-of-art method.
翻訳日:2022-12-04 20:39:50 公開日:2020-05-13
# ニューラル多合成言語モデリング

Neural Polysynthetic Language Modelling ( http://arxiv.org/abs/2005.05477v2 )

ライセンス: Link先を確認
Lane Schwartz, Francis Tyers, Lori Levin, Christo Kirov, Patrick Littell, Chi-kiu Lo, Emily Prud'hommeaux, Hyunji Hayley Park, Kenneth Steimel, Rebecca Knowles, Jeffrey Micher, Lonny Strunk, Han Liu, Coleman Haley, Katherine J. Zhang, Robbie Jimmerson, Vasilisa Andriyanets, Aldrian Obaja Muis, Naoki Otani, Jong Hyuk Park, and Zhisong Zhang(参考訳) 自然言語処理の研究は一般的に、英語や他の広く使われている言語でうまく機能するアプローチは「言語に依存しない」と仮定している。 高リソース言語、特に解析的な言語では、共通根の形態的固有の変種を完全独立語型として扱うのが一般的である。 これは、根に限られた形態的屈折があり、大多数が十分に大きなコーパスに現れて、モデルがそれぞれの形式に関する統計を適切に学習できると仮定する。 ステミング、補綴、またはサブワードセグメンテーションのようなアプローチは、これらの仮定が成立しない場合、特に英語よりも屈折が多いスペイン語やロシア語のような合成言語の場合、しばしば用いられる。 文献では、フィンランド語やトルコ語のような言語は、共通のモデリング仮定に挑戦する複雑さの極端な例として扱われている。 しかし、世界のすべての言語を考えると、フィンランド語とトルコ語は平均的なケースに近い。 多合成言語(モルフォロジー的複雑性の極端に)を考えると、stemming、lemmatization、subword modelingのようなアプローチは十分ではないかもしれない。 これらの言語は非常に多くのhapax legomenaを持ち、モデルが十分な単語統計を捉えることができないような、適切な形態素処理の必要性を示している。 言語モデリング,機械翻訳,および4つの多義語(Guran\'i, St. Lawrence Island Yupik, Central Alaskan Yupik, Inuktitut)のテキスト予測の現状について検討した。 そこで本研究では,有限状態形態素解析器からの知識表現とテンソル積表現を組み合わせた言語モデリングのための新しい枠組みを提案する。

Research in natural language processing commonly assumes that approaches that work well for English and and other widely-used languages are "language agnostic". In high-resource languages, especially those that are analytic, a common approach is to treat morphologically-distinct variants of a common root as completely independent word types. This assumes, that there are limited morphological inflections per root, and that the majority will appear in a large enough corpus, so that the model can adequately learn statistics about each form. Approaches like stemming, lemmatization, or subword segmentation are often used when either of those assumptions do not hold, particularly in the case of synthetic languages like Spanish or Russian that have more inflection than English. In the literature, languages like Finnish or Turkish are held up as extreme examples of complexity that challenge common modelling assumptions. Yet, when considering all of the world's languages, Finnish and Turkish are closer to the average case. When we consider polysynthetic languages (those at the extreme of morphological complexity), approaches like stemming, lemmatization, or subword modelling may not suffice. These languages have very high numbers of hapax legomena, showing the need for appropriate morphological handling of words, without which it is not possible for a model to capture enough word statistics. We examine the current state-of-the-art in language modelling, machine translation, and text prediction for four polysynthetic languages: Guaran\'i, St. Lawrence Island Yupik, Central Alaskan Yupik, and Inuktitut. We then propose a novel framework for language modelling that combines knowledge representations from finite-state morphological analyzers with Tensor Product Representations in order to enable neural language models capable of handling the full range of typologically variant languages.
翻訳日:2022-12-04 20:21:20 公開日:2020-05-13
# ロボットとAIにおける行動木の調査

A Survey of Behavior Trees in Robotics and AI ( http://arxiv.org/abs/2005.05842v2 )

ライセンス: Link先を確認
Matteo Iovino, Edvards Scukins, Jonathan Styrud, Petter \"Ogren and Christian Smith(参考訳) ビヘイビアツリー(BT)は、コンピュータゲームでモジュラーAIを可能にするツールとして発明されたが、過去10年間でロボットコミュニティで注目を集めている。 エージェントAIの複雑さに対する要求が高まり、ゲームプログラマはFSM(Finite State Machines)がスケールが悪く、拡張、適応、再利用が困難であることに気付いた。 btsでは、状態遷移論理は個々の状態に分散せず、階層的な木構造に組織され、状態は葉として扱われる。 これはモジュラリティに大きな影響を与え、それによって人間やアルゴリズムによる合成と解析の両方が簡単になる。 これらの利点は、ゲームAI設計だけでなく、ロボット工学にも必要である。 本稿では,人工知能およびロボット応用におけるbtsのトピックに関する包括的調査を行う。 既存の文献は手法,適用領域,コントリビューションに基づいて分類され,オープンな研究課題のリストでまとめられる。

Behavior Trees (BTs) were invented as a tool to enable modular AI in computer games, but have received an increasing amount of attention in the robotics community in the last decade. With rising demands on agent AI complexity, game programmers found that the Finite State Machines (FSM) that they used scaled poorly and were difficult to extend, adapt and reuse. In BTs, the state transition logic is not dispersed across the individual states, but organized in a hierarchical tree structure, with the states as leaves. This has a significant effect on modularity, which in turn simplifies both synthesis and analysis by humans and algorithms alike. These advantages are needed not only in game AI design, but also in robotics, as is evident from the research being done. In this paper we present a comprehensive survey of the topic of BTs in Artificial Intelligence and Robotic applications. The existing literature is described and categorized based on methods, application areas and contributions, and the paper is concluded with a list of open research challenges.
翻訳日:2022-12-03 19:37:26 公開日:2020-05-13
# COVID-19インフォデミック中のインドにおける国家ブルエチンとTwitterの感情の心理分析と結合

Psychometric Analysis and Coupling of Emotions Between State Bulletins and Twitter in India during COVID-19 Infodemic ( http://arxiv.org/abs/2005.05513v2 )

ライセンス: Link先を確認
Baani Leen Kaur Jolly, Palash Aggrawal, Amogh Gulati, Amarjit Singh Sethi, Ponnurangam Kumaraguru, Tavpritesh Sethi(参考訳) 新型コロナウイルスのインフォデミックは、パンデミックそのものよりも急速に広がっている。 インフォデミック波に乗る誤報は、人々の健康とガバナンスシステムにとって大きな脅威となる。 ソーシャルメディアは最大の情報源であるため、インフォデミックを管理するには誤情報の緩和だけでなく、心理的パターンの早期の理解が必要である。 新型コロナウイルス(covid-19)危機の間、twitterだけでキュレートされたイベントページの利用は45%急増し、ダイレクトメッセージの利用は2020年3月6日以降30%増加した。 本研究は、インド国内および州レベルでの、COVID-19インフォデミックと、COVID-19に関する公式の掲示板との心理的影響と結合を分析した。 感情の心理言語的レンズでこれら2つのソースを見て,その範囲と結合度を定量化した。 我々は、健康関連感情を効果的に捉えるために、ディープスキップグラムベースのオープンソースのレキシコンビルダーであるパスを修正した。 そして、ソーシャルメディアや公式の掲示板で健康関連感情のタイムエボリューションを捉えました。 グレンジャーの因果関係を用いた公式の掲示板から抽出された感情の時系列とソーシャルメディア間のリードラグ関係の分析により,医療緊急事態などの情動をソーシャルメディアに導いていることが明らかとなった。 また、政策立案者および誤情報の緩和に積極的に携わるコミュニケーターに潜在的に関係のあるさらなる洞察についても論じる。 また本論文は、インドから国内および州レベルで最初のソーシャルメディアベースのcovid-19データセットであるcoronaindiadataset2(コロナインディアデータセット2)についても紹介する。 最後に,CoronaIndiaDataset上で得られた心理学的洞察を全国レベルおよび州レベルで収集する対話型WebアプリケーションであるCOVibesについて紹介する。

COVID-19 infodemic has been spreading faster than the pandemic itself. The misinformation riding upon the infodemic wave poses a major threat to people's health and governance systems. Since social media is the largest source of information, managing the infodemic not only requires mitigating of misinformation but also an early understanding of psychological patterns resulting from it. During the COVID-19 crisis, Twitter alone has seen a sharp 45% increase in the usage of its curated events page, and a 30% increase in its direct messaging usage, since March 6th 2020. In this study, we analyze the psychometric impact and coupling of the COVID-19 infodemic with the official bulletins related to COVID-19 at the national and state level in India. We look at these two sources with a psycho-linguistic lens of emotions and quantified the extent and coupling between the two. We modified path, a deep skip-gram based open-sourced lexicon builder for effective capture of health-related emotions. We were then able to capture the time-evolution of health-related emotions in social media and official bulletins. An analysis of lead-lag relationships between the time series of extracted emotions from official bulletins and social media using Granger's causality showed that state bulletins were leading the social media for some emotions such as Medical Emergency. Further insights that are potentially relevant for the policymaker and the communicators actively engaged in mitigating misinformation are also discussed. Our paper also introduces CoronaIndiaDataset2, the first social media based COVID-19 dataset at national and state levels from India with over 5.6 million national and 2.6 million state-level tweets. Finally, we present our findings as COVibes, an interactive web application capturing psychometric insights captured upon the CoronaIndiaDataset, both at a national and state level.
翻訳日:2022-12-03 19:36:36 公開日:2020-05-13
# 群衆カウントのための局所カウントマップを用いた適応混合回帰ネットワーク

Adaptive Mixture Regression Network with Local Counting Map for Crowd Counting ( http://arxiv.org/abs/2005.05776v2 )

ライセンス: Link先を確認
Xiyang Liu, Jie Yang, Wenrui Ding(参考訳) 群衆カウントタスクは、ビデオから画像やフレームにある人の数を推定することを目的としています。 既存の手法では、ポイント・ツー・ポイントの損失を最適化するためのトレーニングターゲットとして密度マップを広く採用している。 実験段階では, 群集数と密度マップの全体和の差にのみ注目し, 学習目標と評価基準との矛盾を示唆する。 そこで本研究では, 局所カウントマップ (LCM) と呼ばれる新しいターゲットを導入し, 密度マップに基づくアプローチよりも正確な結果を得る。 さらに, 群集推定の精度をさらに向上させるために, 3つのモジュールからなる適応的混合回帰フレームワークを提案し, スケールアウェアモジュール (sam), 混合回帰モジュール (mrm), 適応ソフトインターバルモジュール (asim) を提案する。 具体的には、SAMは、異なる畳み込み特徴からコンテキストとマルチスケールの情報を完全に活用し、MRMとASIMは、画像の局所パッチに対してより正確なカウントレグレッションを実行する。 提案手法は,従来の手法と比較して,典型的なデータセットよりも優れた性能を示す。 ソースコードはhttps://github.com/xiyang1012/local-crowd-countingで入手できる。

The crowd counting task aims at estimating the number of people located in an image or a frame from videos. Existing methods widely adopt density maps as the training targets to optimize the point-to-point loss. While in testing phase, we only focus on the differences between the crowd numbers and the global summation of density maps, which indicate the inconsistency between the training targets and the evaluation criteria. To solve this problem, we introduce a new target, named local counting map (LCM), to obtain more accurate results than density map based approaches. Moreover, we also propose an adaptive mixture regression framework with three modules in a coarse-to-fine manner to further improve the precision of the crowd estimation: scale-aware module (SAM), mixture regression module (MRM) and adaptive soft interval module (ASIM). Specifically, SAM fully utilizes the context and multi-scale information from different convolutional features; MRM and ASIM perform more precise counting regression on local patches of images. Compared with current methods, the proposed method reports better performances on the typical datasets. The source code is available at https://github.com/xiyang1012/Local-Crowd-Counting.
翻訳日:2022-12-03 19:16:43 公開日:2020-05-13
# 多粒度機械読解のためのグラフアテンションネットワークによる文書モデリング

Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension ( http://arxiv.org/abs/2005.05806v2 )

ライセンス: Link先を確認
Bo Zheng, Haoyang Wen, Yaobo Liang, Nan Duan, Wanxiang Che, Daxin Jiang, Ming Zhou and Ting Liu(参考訳) Natural Questionsは、2つのきめ細かな回答を持つ新しい挑戦的な機械読解ベンチマークで、長い回答(通常は1段落)と短い回答(長い回答の中の1つ以上のエンティティ)である。 このベンチマークにおける既存のメソッドの有効性にもかかわらず、トレーニング中にこれらの2つのサブタスクを個別に扱い、依存関係を無視している。 この問題に対処するために,我々は,文書,段落,文,トークンといった粒度が異なる階層的性質の文書をモデル化することに焦点を当てた,新しい多粒度機械読解フレームワークを提案する。 グラフ注意ネットワークを用いて、異なるレベルの表現を同時に学習できるようにします。 長文と短文の回答は、それぞれ段落レベルの表現とトークンレベルの表現から抽出できる。 このようにして、2つの粒度の答え間の依存関係をモデル化し、互いに証拠を与えることができます。 我々は,2つのサブタスクを共同で訓練し,実験により,我々のアプローチが,従来のシステムよりも長文と短文の両方の回答基準において有意に優れていることを示した。

Natural Questions is a new challenging machine reading comprehension benchmark with two-grained answers, which are a long answer (typically a paragraph) and a short answer (one or more entities inside the long answer). Despite the effectiveness of existing methods on this benchmark, they treat these two sub-tasks individually during training while ignoring their dependencies. To address this issue, we present a novel multi-grained machine reading comprehension framework that focuses on modeling documents at their hierarchical nature, which are different levels of granularity: documents, paragraphs, sentences, and tokens. We utilize graph attention networks to obtain different levels of representations so that they can be learned simultaneously. The long and short answers can be extracted from paragraph-level representation and token-level representation, respectively. In this way, we can model the dependencies between the two-grained answers to provide evidence for each other. We jointly train the two sub-tasks, and our experiments show that our approach significantly outperforms previous systems at both long and short answer criteria.
翻訳日:2022-12-03 19:10:18 公開日:2020-05-13
# 識別型マルチモダリティ音声認識

Discriminative Multi-modality Speech Recognition ( http://arxiv.org/abs/2005.05592v2 )

ライセンス: Link先を確認
Bo Xu, Cheng Lu, Yandong Guo and Jacob Wang(参考訳) 視覚は音声音声認識(ASR)の補完的モダリティとしてよく用いられ、特に単独の音声のモダリティが著しく低下する雑音環境において用いられる。 視覚的モダリティを組み合わせた後、ASRはマルチモーダル音声認識(MSR)にアップグレードされる。 本稿では,二段階音声認識モデルを提案する。 第1段階では、対象音声を、対応する唇運動の視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。 第2段階では、視覚的モダリティを再び組み合わせ、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。 他にも、P3Dベースの視覚的フロントエンドを導入して、より識別的な特徴を抽出し、時間的畳み込みネットワーク(TCN)により1D ResNetから時間的畳み込みブロックをアップグレードし、時間的タスクにより適しており、MSRサブネットワークは、長いシーケンスでTransformerよりも効果的であるElement-wise-Attention Gated Recurrent Unit(EleAtt-GRU)の上に構築されている。 LRS3-TEDとLRWデータセットについて広範な実験を行った。 我々の2段階モデル(オーディオ拡張マルチモーダル音声認識, AE-MSR)は, AE-MSRの必要性と有効性を示す有意差による最先端性能を一貫して達成する。

Vision is often used as a complementary modality for audio speech recognition (ASR), especially in the noisy environment where performance of solo audio modality significantly deteriorates. After combining visual modality, ASR is upgraded to the multi-modality speech recognition (MSR). In this paper, we propose a two-stage speech recognition model. In the first stage, the target voice is separated from background noises with help from the corresponding visual information of lip movements, making the model 'listen' clearly. At the second stage, the audio modality combines visual modality again to better understand the speech by a MSR sub-network, further improving the recognition rate. There are some other key contributions: we introduce a pseudo-3D residual convolution (P3D)-based visual front-end to extract more discriminative features; we upgrade the temporal convolution block from 1D ResNet with the temporal convolutional network (TCN), which is more suitable for the temporal tasks; the MSR sub-network is built on the top of Element-wise-Attention Gated Recurrent Unit (EleAtt-GRU), which is more effective than Transformer in long sequences. We conducted extensive experiments on the LRS3-TED and the LRW datasets. Our two-stage model (audio enhanced multi-modality speech recognition, AE-MSR) consistently achieves the state-of-the-art performance by a significant margin, which demonstrates the necessity and effectiveness of AE-MSR.
翻訳日:2022-12-03 18:43:10 公開日:2020-05-13
# 教育データマイニングのための体系的アンサンブルモデル選択手法

Systematic Ensemble Model Selection Approach for Educational Data Mining ( http://arxiv.org/abs/2005.06647v1 )

ライセンス: Link先を確認
MohammadNoor Injadat, Abdallah Moubayed, Ali Bou Nassif, Abdallah Shami(参考訳) 学生の育成を支援するために,学生の業績を予測することに焦点を当てた研究が過去に数多く行われている。 多くの機関は、成績と教育の質の向上に重点を置いており、これはデータマイニング技術を利用して、生徒のパフォーマンスを分析し予測し、最終点に影響を与える可能性のある要因を決定することで達成できる。 この問題に対処するために、この研究は、複数のグラフィカル、統計学的、定量的手法を使用して、2つの異なるデータセット(それぞれ20%と50%)のコースデリバリの別々の段階で、徹底的に調査し分析することから始まる。 機能分析は、考慮されたさまざまな機能の性質に関する洞察を提供し、機械学習アルゴリズムとそのパラメータの選択に役立ちます。 さらに,Giniインデックスとp値に基づく体系的アプローチを提案し,潜在的機械学習アルゴリズムの6つの組み合わせから適切なアンサンブル学習者を選択する。 実験の結果,両データセットのすべての段階で高い精度と低い偽陽性率が得られることがわかった。

A plethora of research has been done in the past focusing on predicting student's performance in order to support their development. Many institutions are focused on improving the performance and the education quality; and this can be achieved by utilizing data mining techniques to analyze and predict students' performance and to determine possible factors that may affect their final marks. To address this issue, this work starts by thoroughly exploring and analyzing two different datasets at two separate stages of course delivery (20 percent and 50 percent respectively) using multiple graphical, statistical, and quantitative techniques. The feature analysis provides insights into the nature of the different features considered and helps in the choice of the machine learning algorithms and their parameters. Furthermore, this work proposes a systematic approach based on Gini index and p-value to select a suitable ensemble learner from a combination of six potential machine learning algorithms. Experimental results show that the proposed ensemble models achieve high accuracy and low false positive rate at all stages for both datasets.
翻訳日:2022-12-03 13:44:38 公開日:2020-05-13
# 抗がん剤反応予測のためのアンサンブル転送学習

Ensemble Transfer Learning for the Prediction of Anti-Cancer Drug Response ( http://arxiv.org/abs/2005.09572v1 )

ライセンス: Link先を確認
Yitan Zhu, Thomas Brettin, Yvonne A. Evrard, Alexander Partin, Fangfang Xia, Maulik Shukla, Hyunseung Yoo, James H. Doroshow, Rick Stevens(参考訳) 転送学習は、対象問題のトレーニングデータが限られているが、関連する(ソース)問題のデータが豊富である多くのアプリケーションにおいて有効であることが示されている。 本稿では,抗がん剤反応の予測に転送学習を適用する。 薬物治療に対する腫瘍細胞の反応を予測するモデルの構築に焦点をあてた、薬物反応予測のための以前の転写学習研究。 新しい腫瘍細胞と新しい薬物の両方を予測できる一般的な予測モデルを構築するという、より困難なタスクをターゲットにしています。 我々は、ソースデータセット上で予測モデルをトレーニングし、ターゲットデータセットで洗練する古典的な転送学習フレームワークを適用し、アンサンブルを通じてフレームワークを拡張します。 アンサンブル転送学習パイプラインは、LightGBMと異なるアーキテクチャを持つ2つのディープニューラルネットワーク(DNN)モデルを使用して実装されている。 薬物再資源化, 精度オンコロジー, 新規医薬品開発など, クロスバリデーションの異なるデータ分割方式による3つの応用環境の能力について検討した。 提案したアンサンブルトランスファー学習をin vitroの薬物スクリーニングデータセットで検証し,1つのデータセットをソースドメインとし,別のデータセットをターゲットドメインとする。 分析の結果,LightGBMモデルとDNNモデルの両方を用いた3つのアプリケーションにおいて,抗がん剤の反応を予測するためにアンサンブル変換学習を適用する利点が示された。 異なる予測モデルと比較すると、腫瘍の特徴と薬物特徴の入力のための2つのサブネットワークを持つdnnモデルは、光gbmと、腫瘍の特徴と薬物特徴を結合した他のdnnモデルとを別々に比較して、薬物の再構成および精密な腫瘍学応用に応用する。 新しい薬物開発への挑戦的な応用として、LightGBMは他の2つのDNNモデルよりも優れている。

Transfer learning has been shown to be effective in many applications in which training data for the target problem are limited but data for a related (source) problem are abundant. In this paper, we apply transfer learning to the prediction of anti-cancer drug response. Previous transfer learning studies for drug response prediction focused on building models that predict the response of tumor cells to a specific drug treatment. We target the more challenging task of building general prediction models that can make predictions for both new tumor cells and new drugs. We apply the classic transfer learning framework that trains a prediction model on the source dataset and refines it on the target dataset, and extends the framework through ensemble. The ensemble transfer learning pipeline is implemented using LightGBM and two deep neural network (DNN) models with different architectures. Uniquely, we investigate its power for three application settings including drug repurposing, precision oncology, and new drug development, through different data partition schemes in cross-validation. We test the proposed ensemble transfer learning on benchmark in vitro drug screening datasets, taking one dataset as the source domain and another dataset as the target domain. The analysis results demonstrate the benefit of applying ensemble transfer learning for predicting anti-cancer drug response in all three applications with both LightGBM and DNN models. Compared between the different prediction models, a DNN model with two subnetworks for the inputs of tumor features and drug features separately outperforms LightGBM and the other DNN model that concatenates tumor features and drug features for input in the drug repurposing and precision oncology applications. In the more challenging application of new drug development, LightGBM performs better than the other two DNN models.
翻訳日:2022-12-03 13:44:19 公開日:2020-05-13
# 大型繊維強化複合材料のX線CTからの局所繊維配向

Local Fiber Orientation from X-ray Region-of-Interest Computed Tomography of large Fiber Reinforced Composite Components ( http://arxiv.org/abs/2005.06431v1 )

ライセンス: Link先を確認
Thomas Baranowski, Dascha Dobrovolskij, Kilian Dremel, Astrid H\"olzing, G\"unter Lohfink, Katja Schladitz, Simon Zabler(参考訳) 局所繊維配向は繊維強化ポリマーからなる部品の機械的特性に必須なミクロ構造的特徴である。 マイクロ計算トモグラフィデータとその後の3次元画像の定量的解析から決定することができる。 しかし、本手法は本質的に非破壊的であるが、解析に必要な高い横分解能を達成するために、数ミリのエッジ長のサンプルをカットする必要がある。 本稿では,本手法が非破壊的であることを示す構造テクスチャ配向解析と関心領域スキャンの併用に成功したことを報告する。 繊維強化ポリマー製の自動車産業からの大きな軸受部に関心のあるいくつかの領域をスキャンして分析する。 局所繊維配向に関するこれらの領域の差異を定量化する。 また,横分解能の異なる走査に基づく解析の一貫性が証明された。 最後に、各領域の1つについて、測定および数値シミュレーションによる方位テンソルを比較する。

The local fiber orientation is a micro-structural feature crucial for the mechanical properties of parts made from fiber reinforced polymers. It can be determined from micro-computed tomography data and subsequent quantitative analysis of the resulting 3D images. However, although being by nature non-destructive, this method so far has required to cut samples of a few millimeter edge length in order to achieve the high lateral resolution needed for the analysis. Here, we report on the successful combination of region-of-interest scanning with structure texture orientation analysis rendering the above described approach truly non-destructive. Several regions of interest in a large bearing part from the automotive industry made of fiber reinforced polymer are scanned and analyzed. Differences of these regions with respect to local fiber orientation are quantified. Moreover, consistency of the analysis based on scans at varying lateral resolutions is proved. Finally, measured and numerically simulated orientation tensors are compared for one of the regions.
翻訳日:2022-12-03 13:43:49 公開日:2020-05-13
# スパースLiDARデータのサラウンドビューセマンティックセマンティックセグメンテーションのためのマルチレイヤグリッドマップのエクスプロイト

Exploiting Multi-Layer Grid Maps for Surround-View Semantic Segmentation of Sparse LiDAR Data ( http://arxiv.org/abs/2005.06667v1 )

ライセンス: Link先を確認
Frank Bieder, Sascha Wirges, Johannes Janosovits, Sven Richter, Zheyuan Wang, and Christoph Stiller(参考訳) 本稿では,LiDARのみのセマンティックセグメンテーションの課題にアプローチするために,レーザーレンジ計測をトップビューグリッドマップ表現に変換することを検討する。 SemanticKITTIデータセットが最近発表されて以来、研究者は妥当な量のデータに基づいて都市LiDARシーケンスのセマンティックセグメンテーションを研究することができるようになった。 他のアプローチでは、3dポイントクラウドで直接学習することを提案していますが、私たちはグリッドマップフレームワークを利用して関連する情報を抽出し、マルチレイヤーグリッドマップを使って表現しています。 この表現により、画像領域からのよく研究されたディープラーニングアーキテクチャを用いて、単一のLiDARスキャンのスパース入力データのみを用いて、密なセマンティックグリッドマップを予測できる。 単層と多層のアプローチを比較し,多層グリッドマップ入力の利点を実証する。 グリッドマップの表現により,密集した360{\deg}意味環境の表現を予測できるので,複数のスキャンから意味情報を合成し,密集した真実のグリッドを作成する手法をさらに開発する。 本手法により, グリッドセルを検出対象とするだけでなく, フル可視範囲でモデルの性能を評価, 比較することが可能となる。

In this paper, we consider the transformation of laser range measurements into a top-view grid map representation to approach the task of LiDAR-only semantic segmentation. Since the recent publication of the SemanticKITTI data set, researchers are now able to study semantic segmentation of urban LiDAR sequences based on a reasonable amount of data. While other approaches propose to directly learn on the 3D point clouds, we are exploiting a grid map framework to extract relevant information and represent them by using multi-layer grid maps. This representation allows us to use well-studied deep learning architectures from the image domain to predict a dense semantic grid map using only the sparse input data of a single LiDAR scan. We compare single-layer and multi-layer approaches and demonstrate the benefit of a multi-layer grid map input. Since the grid map representation allows us to predict a dense, 360{\deg} semantic environment representation, we further develop a method to combine the semantic information from multiple scans and create dense ground truth grids. This method allows us to evaluate and compare the performance of our models not only based on grid cells with a detection, but on the full visible measurement range.
翻訳日:2022-12-03 13:43:38 公開日:2020-05-13
# 適応平滑化経路積分制御

Adaptive Smoothing Path Integral Control ( http://arxiv.org/abs/2005.06364v1 )

ライセンス: Link先を確認
Dominik Thalmeier, Hilbert J. Kappen, Simone Totaro, Vicen\c{c} G\'omez(参考訳) 経路積分制御問題では、最適制御力学系の表現を形式的に計算し、パラメータ化されたポリシーを学ぶためのガイドポストとして機能する。 Path Integral Cross-Entropy (PICE)法は、これを活用しようとするが、サンプル効率の低下によって妨げられる。 本稿では、コスト関数にインフ畳み込みを適用し、ポリシー最適化の収束を高速化するASPIC(Adaptive Smoothing of Path Integral Control)と呼ばれるモデルフリーアルゴリズムを提案する。 我々はPICEをそのような手法の無限な平滑化限界とみなし、PICEが抱えるサンプル効率の問題が有限レベルの平滑化のために消えることを示す。 ゼロ平滑化の場合、この手法は現在の強化学習における標準的なアプローチであるコストのグリージーな最適化となる。 PICE法と直接コスト最適化法に比較して, 解析的, 実証的に, 中間段階の平滑化が最適であることを示す。

In Path Integral control problems a representation of an optimally controlled dynamical system can be formally computed and serve as a guidepost to learn a parametrized policy. The Path Integral Cross-Entropy (PICE) method tries to exploit this, but is hampered by poor sample efficiency. We propose a model-free algorithm called ASPIC (Adaptive Smoothing of Path Integral Control) that applies an inf-convolution to the cost function to speedup convergence of policy optimization. We identify PICE as the infinite smoothing limit of such technique and show that the sample efficiency problems that PICE suffers disappear for finite levels of smoothing. For zero smoothing this method becomes a greedy optimization of the cost, which is the standard approach in current reinforcement learning. We show analytically and empirically that intermediate levels of smoothing are optimal, which renders the new method superior to both PICE and direct cost-optimization.
翻訳日:2022-12-03 13:43:05 公開日:2020-05-13
# 条件付き生成逆数ネットワークを用いた深層学習対流

Deep Learning Convective Flow Using Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2005.06422v1 )

ライセンス: Link先を確認
Changlin Jiang, Amir Barati Farimani(参考訳) 我々は,エネルギー輸送を伴う時間依存対流の学習と予測が可能な,汎用的なディープラーニングフレームワークであるfluidganを開発した。 fluidganは高速で正確でデータ駆動であり、基礎となる流体やエネルギー輸送物理学の知識なしに流体の物理を満たしている。 また、FluidGANは速度、圧力、温度場の結合も学習する。 我々の枠組みは、基礎となる物理モデルが複雑または未知である決定論的多物理現象の学習に利用できる。

We developed a general deep learning framework, FluidGAN, that is capable of learning and predicting time-dependent convective flow coupled with energy transport. FluidGAN is thoroughly data-driven with high speed and accuracy and satisfies the physics of fluid without any prior knowledge of underlying fluid and energy transport physics. FluidGAN also learns the coupling between velocity, pressure and temperature fields. Our framework could be used to learn deterministic multiphysics phenomena where the underlying physical model is complex or unknown.
翻訳日:2022-12-03 13:42:47 公開日:2020-05-13
# MosMedData: 新型コロナウイルス関連データで胸部CT検査

MosMedData: Chest CT Scans With COVID-19 Related Findings Dataset ( http://arxiv.org/abs/2005.06465v1 )

ライセンス: Link先を確認
S.P. Morozov, A.E. Andreychenko, N.A. Pavlov, A.V. Vladzymyrskyy, N.V. Ledikhova, V.A. Gombolevskiy, I.A. Blokhin, P.B. Gelezhe, A.V. Gonchar, V.Yu. Chernina(参考訳) このデータセットには、匿名化されたヒト肺CTスキャンとCOVID-19関連所見が含まれており、そのような所見はない。 研究の小さなサブセットは、興味のある領域(地上ガラスの透明化と統合)を描いたバイナリピクセルマスクで注釈付けされている。 また,2020年3月1日から4月25日にかけて,モスクワ市立病院でCT検査を行った。 永久リンク: https://mosmed.ai/datasets/covid19_1110。 このデータセットはCreative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported (CC BY-NC-ND 3.0)ライセンスでライセンスされている。 キーワード:人工知能、covid-19、機械学習、データセット、ct、胸部、画像

This dataset contains anonymised human lung computed tomography (CT) scans with COVID-19 related findings, as well as without such findings. A small subset of studies has been annotated with binary pixel masks depicting regions of interests (ground-glass opacifications and consolidations). CT scans were obtained between 1st of March, 2020 and 25th of April, 2020, and provided by municipal hospitals in Moscow, Russia. Permanent link: https://mosmed.ai/datasets/covid19_1110. This dataset is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported (CC BY-NC-ND 3.0) License. Key words: artificial intelligence, COVID-19, machine learning, dataset, CT, chest, imaging
翻訳日:2022-12-03 13:42:38 公開日:2020-05-13
# 熱帯データ科学

Tropical Data Science ( http://arxiv.org/abs/2005.06586v1 )

ライセンス: Link先を確認
Ruriko Yoshida(参考訳) フィロジェノミクス(英: Phylogenomics)は、系統学のツールをゲノムデータに適用する新しい分野である。 新たな技術とデータ量の増加により、系統樹の空間でそれらを解析する新たな課題に直面しています。 葉にラベルが固定された系統樹の空間はユークリッドではないので、単にデータサイエンスにツールを適用することはできない。 本稿では,熱帯地形を用いた機械学習モデルの新たな展開を概説し,樹木空間上の系統樹群を解析する。

Phylogenomics is a new field which applies to tools in phylogenetics to genome data. Due to a new technology and increasing amount of data, we face new challenges to analyze them over a space of phylogenetic trees. Because a space of phylogenetic trees with a fixed set of labels on leaves is not Euclidean, we cannot simply apply tools in data science. In this paper we survey some new developments of machine learning models using tropical geometry to analyze a set of phylogenetic trees over a tree space.
翻訳日:2022-12-03 13:42:26 公開日:2020-05-13
# トップレベルドメイン解析によるフィッシングurl検出:記述的アプローチ

Phishing URL Detection Through Top-level Domain Analysis: A Descriptive Approach ( http://arxiv.org/abs/2005.06599v1 )

ライセンス: Link先を確認
Orestis Christou and Nikolaos Pitropakis and Pavlos Papadopoulos and Sean McKeown and William J. Buchanan(参考訳) フィッシングは、その柔軟性と驚くほど高い成功率のため、最も一般的なサイバー攻撃の1つと考えられている。 適切なトレーニングと高い状況意識にもかかわらず、ユーザーが訪問しているウェブサイトのURLを継続的に認識することは困難である。 従来の検出方法はブロックリストとコンテンツ分析に依存しており、どちらも人間の検証に時間を要する。 このように、そのようなURLの予測フィルタリングに焦点を当てる試みがある。 本研究では,Splunkプラットフォーム内で使用可能な不正URLを検出する機械学習モデルを開発することを目的とする。 文学における同様のアプローチから着想を得た私たちは、文学で見つかった悪意のある、良心的なデータセットと作成した1つのデータセットを使用して、SVMとランダムフォレストアルゴリズムを訓練しました。 我々は,アルゴリズムの性能を精度とリコールで評価し,ランダムフォレストの場合,最大85%の精度と87%のリコールを達成し,SVMは90%の精度,88%のリコールを記述的特徴のみで達成した。

Phishing is considered to be one of the most prevalent cyber-attacks because of its immense flexibility and alarmingly high success rate. Even with adequate training and high situational awareness, it can still be hard for users to continually be aware of the URL of the website they are visiting. Traditional detection methods rely on blocklists and content analysis, both of which require time-consuming human verification. Thus, there have been attempts focusing on the predictive filtering of such URLs. This study aims to develop a machine-learning model to detect fraudulent URLs which can be used within the Splunk platform. Inspired from similar approaches in the literature, we trained the SVM and Random Forests algorithms using malicious and benign datasets found in the literature and one dataset that we created. We evaluated the algorithms' performance with precision and recall, reaching up to 85% precision and 87% recall in the case of Random Forests while SVM achieved up to 90% precision and 88% recall using only descriptive features.
翻訳日:2022-12-03 13:42:18 公開日:2020-05-13
# 重畳RNNにおける文脈特徴融合を用いた歩行者行動予測

Pedestrian Action Anticipation using Contextual Feature Fusion in Stacked RNNs ( http://arxiv.org/abs/2005.06582v1 )

ライセンス: Link先を確認
Amir Rasouli, Iuliia Kotseruba, John K. Tsotsos(参考訳) 都市環境における自動運転車の重要な課題の1つは、他の道路利用者の行動、特に横断する地点の歩行者を理解し予測することである。 この問題を解決する一般的なアプローチは、エージェントの運動履歴を使って将来の軌道を予測することである。 しかし、歩行者は、歩行者自身とその周囲の視覚的な観察なしには理解できない、非常に多様な行動を示す。 この目的のために,交差点における歩行者行動予測問題の解法を提案する。 提案手法では,様々なソースから収集した情報(シーンダイナミクスと視覚特徴)を,異なる処理レベルで徐々にネットワークに融合させる,新たなRNNアーキテクチャを用いる。 実験により,提案アルゴリズムは,他の再帰的ネットワークアーキテクチャと比較して高い予測精度が得られることを示す。 提案手法の性能に及ぼす観察時間,イベント時間,特徴の種類の影響を調べる実験を行った。 最後に、異なるデータ融合戦略が予測精度に与える影響を実証する。

One of the major challenges for autonomous vehicles in urban environments is to understand and predict other road users' actions, in particular, pedestrians at the point of crossing. The common approach to solving this problem is to use the motion history of the agents to predict their future trajectories. However, pedestrians exhibit highly variable actions most of which cannot be understood without visual observation of the pedestrians themselves and their surroundings. To this end, we propose a solution for the problem of pedestrian action anticipation at the point of crossing. Our approach uses a novel stacked RNN architecture in which information collected from various sources, both scene dynamics and visual features, is gradually fused into the network at different levels of processing. We show, via extensive empirical evaluations, that the proposed algorithm achieves a higher prediction accuracy compared to alternative recurrent network architectures. We conduct experiments to investigate the impact of the length of observation, time to event and types of features on the performance of the proposed method. Finally, we demonstrate how different data fusion strategies impact prediction accuracy.
翻訳日:2022-12-03 13:36:13 公開日:2020-05-13
# モデルベースアプローチと奥行きカラー画像を用いた26自由度ハンド認識

Recognition of 26 Degrees of Freedom of Hands Using Model-based approach and Depth-Color Images ( http://arxiv.org/abs/2005.07068v1 )

ライセンス: Link先を確認
Cong Hoang Quach, Minh Trien Pham, Anh Viet Dang, Dinh Tuan Pham, Thuan Hoang Tran, Manh Duong Phung(参考訳) 本研究では,人間の手の26自由度を完全に認識するためのモデルベースアプローチを提案する。 入力データにはKinectカメラから取得したRGB-D画像と、その解剖学的およびグラフィカルな行列から構築された手の3Dモデルが含まれる。 コスト関数は、モデルと観測画像が一致するときに最小値が達成されるように定義される。 26次元空間における最適化問題を解くために、改良を伴う粒子群最適化アルゴリズムを用いる。 さらに、グラフィカル処理ユニット(GPU)における並列計算を用いて計算コストの高いタスクを処理する。 シミュレーションおよび実験結果から,フレームあたり0.8秒の処理時間で26自由度を認識できることが示唆された。 アルゴリズムはノイズに対して堅牢であり、ハードウェア要件は単一のカメラで単純である。

In this study, we present an model-based approach to recognize full 26 degrees of freedom of a human hand. Input data include RGB-D images acquired from a Kinect camera and a 3D model of the hand constructed from its anatomy and graphical matrices. A cost function is then defined so that its minimum value is achieved when the model and observation images are matched. To solve the optimization problem in 26 dimensional space, the particle swarm optimization algorimth with improvements are used. In addition, parallel computation in graphical processing units (GPU) is utilized to handle computationally expensive tasks. Simulation and experimental results show that the system can recognize 26 degrees of freedom of hands with the processing time of 0.8 seconds per frame. The algorithm is robust to noise and the hardware requirement is simple with a single camera.
翻訳日:2022-12-03 13:35:58 公開日:2020-05-13
# フーリエ基準とワッサースタイン指標のイメージング問題に対する等価性

The Equivalence of Fourier-based and Wasserstein Metrics on Imaging Problems ( http://arxiv.org/abs/2005.06530v1 )

ライセンス: Link先を確認
Gennaro Auricchio, Andrea Codegoni, Stefano Gualandi, Giuseppe Toscani, Marco Veneroni(参考訳) フーリエ型確率計量のクラスの拡張の性質について検討し、もともと空間的に同質なボルツマン方程式の解に対する平衡収束を研究するために導入された。 オリジナルのものとは異なり、新しいフーリエベースのメトリクスは、質量中心が異なる確率分布や、正則格子上でサポートされた離散確率測度に対してもよく定義されている。 その他の性質の中で、離散的な設定では、これらの新しいフーリエ測度はユークリッド-ワッサーシュタイン距離$W_2$、またはカントロヴィチ-ワッサーシュタイン距離$W_1$のいずれかに等しい。 数値的な結果から、画像処理のベンチマーク問題において、フーリエメトリクスはwassersteinよりも優れたランタイムを提供することが示された。

We investigate properties of some extensions of a class of Fourier-based probability metrics, originally introduced to study convergence to equilibrium for the solution to the spatially homogeneous Boltzmann equation. At difference with the original one, the new Fourier-based metrics are well-defined also for probability distributions with different centers of mass, and for discrete probability measures supported over a regular grid. Among other properties, it is shown that, in the discrete setting, these new Fourier-based metrics are equivalent either to the Euclidean-Wasserstein distance $W_2$, or to the Kantorovich-Wasserstein distance $W_1$, with explicit constants of equivalence. Numerical results then show that in benchmark problems of image processing, Fourier metrics provide a better runtime with respect to Wasserstein ones.
翻訳日:2022-12-03 13:35:08 公開日:2020-05-13
# 機械学習フレームワークにおけるシステム関連問題の性質の理解--探索的研究

Understanding the Nature of System-Related Issues in Machine Learning Frameworks: An Exploratory Study ( http://arxiv.org/abs/2005.06091v1 )

ライセンス: Link先を確認
Yang Ren, Gregory Gay, Christian K\"astner, Pooyan Jamshidi(参考訳) 現代のシステムは開発フレームワークを使って構築されます。 これらのフレームワークは、結果のシステムの実行方法、構成の管理方法、テスト方法、デプロイの方法と場所に大きな影響を与える。 機械学習(ML)フレームワークとそれを用いて開発されたシステムは、従来のフレームワークと大きく異なる。 当然、このようなフレームワークに現れる問題と、その問題に対処する開発者の振る舞いは、相違するかもしれません。 私たちは、パフォーマンス、メモリ、リソース使用、その他の品質属性に影響を与える問題、そして、MLフレームワークに現れる問題、そして従来のフレームワークとどのように異なるか、といった、システム関連の問題を特徴づけることに興味があります。 10の一般的な機械学習フレームワークから実世界のシステム関連問題を中規模で分析した。 本研究は,特定の問題タイプの発生頻度の違い,議論と時間の影響が問題修正に与える影響の観察,開発者の専門化の違いなど,機械学習システムの開発に示唆を与える。 この探索的な研究によって、開発者がmlベースのシステムを開発するためにこれらのフレームワークが提供するツールを利用することで、期待やリスクの計画、リソースの割り当てが可能になります。

Modern systems are built using development frameworks. These frameworks have a major impact on how the resulting system executes, how configurations are managed, how it is tested, and how and where it is deployed. Machine learning (ML) frameworks and the systems developed using them differ greatly from traditional frameworks. Naturally, the issues that manifest in such frameworks may differ as well---as may the behavior of developers addressing those issues. We are interested in characterizing the system-related issues---issues impacting performance, memory and resource usage, and other quality attributes---that emerge in ML frameworks, and how they differ from those in traditional frameworks. We have conducted a moderate-scale exploratory study analyzing real-world system-related issues from 10 popular machine learning frameworks. Our findings offer implications for the development of machine learning systems, including differences in the frequency of occurrence of certain issue types, observations regarding the impact of debate and time on issue correction, and differences in the specialization of developers. We hope that this exploratory study will enable developers to improve their expectations, plan for risk, and allocate resources accordingly when making use of the tools provided by these frameworks to develop ML-based systems.
翻訳日:2022-12-03 13:34:52 公開日:2020-05-13
# テキストデータラベリングのための適応ルール発見

Adaptive Rule Discovery for Labeling Text Data ( http://arxiv.org/abs/2005.06133v1 )

ライセンス: Link先を確認
Sainyam Galhotra, Behzad Golshan and Wang-Chiew Tan(参考訳) ラベル付きデータの作成と収集は、機械学習パイプラインにおける大きなボトルネックの1つであり、多くのトレーニングデータを必要とするディープラーニングのような自動機能生成技術の出現は、この問題をさらに悪化させた。 弱いスーパービジョン技術はこのボトルネックを回避しているが、既存のフレームワークでは、データにラベルをつけるための多様な高品質のルール(例えばシュノーケル)を書くか、自動的にルールをマイニングするデータのラベル付きサブセット(例えばsnuba)が必要となる。 手動でルールを書くプロセスは面倒で時間がかかります。 同時に、データのラベル付きサブセットを作成することは、不均衡設定でコストがかかり、さらには実現不可能になる可能性がある。 これは、不均衡な設定のランダムなサンプルが、少数の正のインスタンスしか含まないためである。 これらの欠点に対処するため,テキストデータを弱教師付き設定でラベル付けするためのルール記述作業の軽減を目的とした対話型システムであるDarwinを提案する。 初期ラベリングルールが与えられると、darwinは手元にあるラベリングタスクの一連の候補ルールを自動的に生成し、アノテーションのフィードバックを利用して候補ルールを適応させる。 darwinのスケーラビリティと汎用性について説明する。 大きなテキストコーパス(100万文以上)で操作でき、幅広いラベリング機能(文脈自由文法を使って指定できる任意の関数)をサポートする。 最後に、darwinが弱い教師付きラベルを効率的にかつ低コストで生成できる5つの実世界のデータセットに関する一連の実験を行った。 実際、我々の実験では、ダーウィンが発見したルールは、1000のラベル付きインスタンスが提供される場合でも、スヌーバよりも40%多い正のインスタンスを識別している。

Creating and collecting labeled data is one of the major bottlenecks in machine learning pipelines and the emergence of automated feature generation techniques such as deep learning, which typically requires a lot of training data, has further exacerbated the problem. While weak-supervision techniques have circumvented this bottleneck, existing frameworks either require users to write a set of diverse, high-quality rules to label data (e.g., Snorkel), or require a labeled subset of the data to automatically mine rules (e.g., Snuba). The process of manually writing rules can be tedious and time consuming. At the same time, creating a labeled subset of the data can be costly and even infeasible in imbalanced settings. This is due to the fact that a random sample in imbalanced settings often contains only a few positive instances. To address these shortcomings, we present Darwin, an interactive system designed to alleviate the task of writing rules for labeling text data in weakly-supervised settings. Given an initial labeling rule, Darwin automatically generates a set of candidate rules for the labeling task at hand, and utilizes the annotator's feedback to adapt the candidate rules. We describe how Darwin is scalable and versatile. It can operate over large text corpora (i.e., more than 1 million sentences) and supports a wide range of labeling functions (i.e., any function that can be specified using a context free grammar). Finally, we demonstrate with a suite of experiments over five real-world datasets that Darwin enables annotators to generate weakly-supervised labels efficiently and with a small cost. In fact, our experiments show that rules discovered by Darwin on average identify 40% more positive instances compared to Snuba even when it is provided with 1000 labeled instances.
翻訳日:2022-12-03 13:34:19 公開日:2020-05-13
# リレーショナルデータベースへの埋め込みについて

On Embeddings in Relational Databases ( http://arxiv.org/abs/2005.06437v1 )

ライセンス: Link先を確認
Siddhant Arora, Srikanta Bedathur(参考訳) 低次元埋め込みを用いた関係データベースにおけるエンティティの分散表現学習の問題に対処する。 低次元埋め込みは、最小情報の損失を伴う基礎となるデータセットの簡潔なベクトル表現をカプセル化することを目的としている。 関係データベース内のエンティティにまたがる埋め込みは、複雑なデータ関係と表現の複雑さのため、あまり研究されていない。 リレーショナルデータベースは、エンティティ間の関係をモデル化するだけでなく、エンティティ間の複雑な関係を定義するデータの複雑なドメイン固有の量的および時間的属性を記録する、相互に織り込まれた関係の集合である。 近年の埋め込み学習法は,すべてのテーブルの完全結合を具体化し,知識グラフとして表すことにより,データベースの完全非正規化を考慮すべきネーブな手法である。 この一般的なアプローチは、リレーショナルデータベースにエンコードされた、ブラウザ間の関係と追加のセマンティクスをキャプチャできないため、一定の制限がある。 本稿では,関係結合と潜在的な列間関係を用いて表中の列の意味論を活用し,表現を学習するためのより良い手法を示す。 類似度ジョインとテーブル補完タスクの評価が提案を裏付ける実世界のデータベース上での経験的結果。

We address the problem of learning a distributed representation of entities in a relational database using a low-dimensional embedding. Low-dimensional embeddings aim to encapsulate a concise vector representation for an underlying dataset with minimum loss of information. Embeddings across entities in a relational database have been less explored due to the intricate data relations and representation complexity involved. Relational databases are an inter-weaved collection of relations that not only model relationships between entities but also record complex domain-specific quantitative and temporal attributes of data defining complex relationships among entities. Recent methods for learning an embedding constitute of a naive approach to consider complete denormalization of the database by materializing the full join of all tables and representing as a knowledge graph. This popular approach has certain limitations as it fails to capture the inter-row relationships and additional semantics encoded in the relational databases. In this paper we demonstrate; a better methodology for learning representations by exploiting the underlying semantics of columns in a table while using the relation joins and the latent inter-row relationships. Empirical results over a real-world database with evaluations on similarity join and table completion tasks support our proposition.
翻訳日:2022-12-03 13:33:49 公開日:2020-05-13
# Action Image Representation: Zero Real World DataによるスケーラブルなDeep Grasping Policiesの学習

Action Image Representation: Learning Scalable Deep Grasping Policies with Zero Real World Data ( http://arxiv.org/abs/2005.06594v1 )

ライセンス: Link先を確認
Mohi Khansari, Daniel Kappler, Jianlan Luo, Jeff Bingham, Mrinal Kalakrishnan(参考訳) 本稿では,エンド・ツー・エンドのディープ・グラッピング・ポリシーを学習可能な新しいグラブ・プロポーザル表現であるaction imageを提案する。 我々のモデルは、実世界のオブジェクトが172ドルで8,4\%の成功を収める一方で、ナイーブなドメインランダム化だけで4,8ドルのオブジェクトのシミュレーションでしか訓練されない。 オブジェクト検出などのコンピュータビジョン問題と同様に、Action Imageはオブジェクトの特徴が画像空間の変換に不変であるという考え方に基づいている。 したがって、オブジェクトとグリップの関係を評価する際には、グリップ品質は不変であり、オブジェクトのグリップの成功は、そのローカルコンテキストに依存するが、周囲環境とは独立である。 動作画像は把持提案を画像として表現し、深い畳み込みネットワークを用いて把持品質を推定する。 動作画像表現を用いることで,学習したネットワークは,異なる対象や環境にまたがるタスクの局所的,有意義な特徴を抽出できることを示す。 この表現は、色画像(RGB)、深度画像(D)、組み合わせ色深度(RGB-D)など様々な入力に作用することを示す。 実験の結果,実世界のセンサストリームにおけるシミュレーションデータと推定の間に,動作画像表現を用いたネットワークが強いドメイン転送を示すことがわかった。 最後に,行動画像で訓練されたネットワークは,同じ構造を持つベースラインモデルに対して,ベクタとして符号化された動作を用いることで,把持成功率(84\%$ vs. 53\%$)が向上することを示す。

This paper introduces Action Image, a new grasp proposal representation that allows learning an end-to-end deep-grasping policy. Our model achieves $84\%$ grasp success on $172$ real world objects while being trained only in simulation on $48$ objects with just naive domain randomization. Similar to computer vision problems, such as object detection, Action Image builds on the idea that object features are invariant to translation in image space. Therefore, grasp quality is invariant when evaluating the object-gripper relationship; a successful grasp for an object depends on its local context, but is independent of the surrounding environment. Action Image represents a grasp proposal as an image and uses a deep convolutional network to infer grasp quality. We show that by using an Action Image representation, trained networks are able to extract local, salient features of grasping tasks that generalize across different objects and environments. We show that this representation works on a variety of inputs, including color images (RGB), depth images (D), and combined color-depth (RGB-D). Our experimental results demonstrate that networks utilizing an Action Image representation exhibit strong domain transfer between training on simulated data and inference on real-world sensor streams. Finally, our experiments show that a network trained with Action Image improves grasp success ($84\%$ vs. $53\%$) over a baseline model with the same structure, but using actions encoded as vectors.
翻訳日:2022-12-03 13:33:29 公開日:2020-05-13
# カメラのカラー化のためのVora値最適化によるカラーフィルタの設計

Designing a Color Filter via Optimization of Vora-Value for Making a Camera more Colorimetric ( http://arxiv.org/abs/2005.06421v1 )

ライセンス: Link先を確認
Yuteng Zhu, Graham D. Finlayson(参考訳) ルーサー条件では、カメラの分光感度応答が人間の視覚系のカラーマッチング機能から線形変換である場合、カメラはカラーメトリックである。 以前の研究は、カメラの前に設置すると、ルーサー条件を最も満足する感度が得られるフィルタの解決を提案した。 構築により、先行技術は、例えばXYZ色マッチング関数やコーン応答関数など、与えられた人間の視覚感度のセットに対するフィルタを解く。 しかし、対象のスペクトル感度セットに応じて、異なる最適フィルタが存在する。 本稿では,コーンの基本,XYZ色マッチング関数,あるいはその線形結合が同じ3次元部分空間にまたがる観察から始める。 そこで我々は,人間の視覚センサによる空間と可能な限り類似した,フィルタ付きカメラによるベクトル空間の認識性を実現するフィルタを考案した。 Vora-Valueは部分空間の類似度を測定するのに適した方法であり,Vora-Value測度を最大化するフィルタを見つけるための最適化手法を開発する。 実験により,従来の手法に比べてvora値が有意に高いフィルタ付きカメラ感度が得られた。

The Luther condition states that if the spectral sensitivity responses of a camera are a linear transform from the color matching functions of the human visual system, the camera is colorimetric. Previous work proposed to solve for a filter which, when placed in front of a camera, results in sensitivities that best satisfy the Luther condition. By construction, the prior art solves for a filter for a given set of human visual sensitivities, e.g. the XYZ color matching functions or the cone response functions. However, depending on the target spectral sensitivity set, a different optimal filter is found. This paper begins with the observation that the cone fundamentals, XYZ color matching functions or any linear combination thereof span the same 3-dimensional subspace. Thus, we set out to solve for a filter that makes the vector space spanned by the filtered camera sensitivities as similar as possible to the space spanned by human vision sensors. We argue that the Vora-Value is a suitable way to measure subspace similarity and we develop an optimization method for finding a filter that maximizes the Vora-Value measure. Experiments demonstrate that our new optimization leads to filtered camera sensitivities which have a significantly higher Vora-Value compared with antecedent methods.
翻訳日:2022-12-03 13:26:51 公開日:2020-05-13
# 漢方文字認識のための複数注意ピラミッドネットワーク

Multiple Attentional Pyramid Networks for Chinese Herbal Recognition ( http://arxiv.org/abs/2005.06423v1 )

ライセンス: Link先を確認
Yingxue Xu, Guihua Wen, Yang Hu, Mingnan Luo, Dan Dai, Yishan Zhuang and Wendy Hall(参考訳) 漢方薬は中国伝統医学において重要な役割を担っている。 認識の粒度が異なるため、経験豊富な専門家によってのみ正確に認識することができる。 機械学習のような新しい技術を使って自動的に認識されることが期待されている。 しかし、中国のハーブ画像データセットは使用できない。 同時に、中国語の草本画像認識をうまく処理できる機械学習手法は存在しない。 そこで本稿では,新しい標準中国語ヘルブスデータセットの構築から始める。 その後,新たな競合的注意と空間的協調的注意の両方が提案され,応用される,中国語のハーブ認識のための新しい注意ピラミッドネットワーク(apn)が提案されている。 APNは、異なる特徴尺度で中国語の草本画像を適応的にモデル化することができる。 最後に, apnの新しい応用として, 漢方体認識のための新たな枠組みを提案する。 構築したデータセット上で実験を行い,提案手法の有効性を検証する。

Chinese herbs play a critical role in Traditional Chinese Medicine. Due to different recognition granularity, they can be recognized accurately only by professionals with much experience. It is expected that they can be recognized automatically using new techniques like machine learning. However, there is no Chinese herbal image dataset available. Simultaneously, there is no machine learning method which can deal with Chinese herbal image recognition well. Therefore, this paper begins with building a new standard Chinese-Herbs dataset. Subsequently, a new Attentional Pyramid Networks (APN) for Chinese herbal recognition is proposed, where both novel competitive attention and spatial collaborative attention are proposed and then applied. APN can adaptively model Chinese herbal images with different feature scales. Finally, a new framework for Chinese herbal recognition is proposed as a new application of APN. Experiments are conducted on our constructed dataset and validate the effectiveness of our methods.
翻訳日:2022-12-03 13:26:32 公開日:2020-05-13
# 2ストリーム残差畳み込みネットワークを用いたロバストなビジュアルオブジェクト追跡

Robust Visual Object Tracking with Two-Stream Residual Convolutional Networks ( http://arxiv.org/abs/2005.06536v1 )

ライセンス: Link先を確認
Ning Zhang, Jingen Liu, Ke Wang, Dan Zeng, Tao Mei(参考訳) 現在のディープラーニングに基づくビジュアルトラッキングアプローチは、オフラインモードで大量の教師付きトレーニングデータからターゲット分類と/または推定モデルを学ぶことで、非常に成功した。 しかし、そのほとんどは、密集した邪魔物、背景の混乱、動きのぼやけなど、より困難な問題のために、オブジェクトの追跡に失敗する可能性がある。 動きの手がかりを利用して背景とターゲットを区別する「視覚追跡」機能に触発されて,視覚追跡のための2つの流れ残差畳み込みネットワーク(ts-rcn)を提案する。 私たちのts-rcnは、既存のディープラーニングベースのビジュアルトラッカーと統合できます。 追跡性能をさらに向上するため,特徴抽出バックボーンとして"ワイド"な残差ネットワークresnextを採用する。 我々の知る限り、TS-RCNは最初のエンドツーエンドのトレーニング可能な2ストリームビジュアルトラッキングシステムであり、ターゲットの外観と動きの両方をフル活用しています。 我々は、VOT2018、VOT2019、GOT-10Kなど、最も広く使われているベンチマークデータセット上でTS-RCNを広範囲に評価してきた。 実験の結果,2つのストリームモデルが出現型トラッカを大幅に上回り,最先端のパフォーマンスを達成できることが実証できた。 トラッキングシステムは最大38.1 FPSで動作可能である。

The current deep learning based visual tracking approaches have been very successful by learning the target classification and/or estimation model from a large amount of supervised training data in offline mode. However, most of them can still fail in tracking objects due to some more challenging issues such as dense distractor objects, confusing background, motion blurs, and so on. Inspired by the human "visual tracking" capability which leverages motion cues to distinguish the target from the background, we propose a Two-Stream Residual Convolutional Network (TS-RCN) for visual tracking, which successfully exploits both appearance and motion features for model update. Our TS-RCN can be integrated with existing deep learning based visual trackers. To further improve the tracking performance, we adopt a "wider" residual network ResNeXt as its feature extraction backbone. To the best of our knowledge, TS-RCN is the first end-to-end trainable two-stream visual tracking system, which makes full use of both appearance and motion features of the target. We have extensively evaluated the TS-RCN on most widely used benchmark datasets including VOT2018, VOT2019, and GOT-10K. The experiment results have successfully demonstrated that our two-stream model can greatly outperform the appearance based tracker, and it also achieves state-of-the-art performance. The tracking system can run at up to 38.1 FPS.
翻訳日:2022-12-03 13:26:22 公開日:2020-05-13
# 保守プロセス支援のためのヒューマンマシン対話システムの構築に向けて

Towards Automatic building of Human-Machine Conversational System to support Maintenance Processes ( http://arxiv.org/abs/2005.06517v1 )

ライセンス: Link先を確認
Elena Coli, Nicola Melluso, Gualtiero Fantoni and Daniele Mazzei(参考訳) 企業は産業4.0パラダイムの導入で多くの認知的変化に対処している。 この絶えず変化する環境では、知識管理が重要な要素です。 対話システムは、人間と会話できるので、ビジネス環境における知識管理を支援することができる。 しかし、現在これらのシステムは手書きで書かれており、人間があらゆる可能な質問や回答を書いて、対話を計画する必要がある。 このプロセスは時間を要するだけでなく、スケーラブルではありません。 逆に、技術ドキュメントからルールを抽出するだけで、スクラッチからダイアログシステム(チャットボットとも呼ばれる)を構築することができる。 そこで本研究の目的は,産業環境下での対話が可能な人間機械対話システムの自動構築手法を設計することである。 メンテナンスマニュアルに見いだされるエンティティを含む初期分類法を、BOBST SAによって提供されるマニュアルの関連文を特定し、テキストマイニング技術を適用し、自動的に拡張する。 最終的な結果は、エンティティとその関係を表す分類ネットワークであり、将来の作業でメンテナンスチャットボットのインタラクションを管理するために使用される。

Companies are dealing with many cognitive changes with the introduction of the Industry 4.0 paradigm. In this constantly changing environment, knowledge management is a key factor. Dialog systems, being able to hold a conversation with humans, could support the knowledge management in business environment. Although, these systems are currently hand-coded and need the intervention of a human being in writing all the possible questions and answers, and then planning the interactions. This process, besides being time-consuming, is not scalable. Conversely, a dialog system, also referred to as chatbot, can be built from scratch by simply extracting rules from technical documentation. So, the goal of this research is designing a methodology for automatic building of human-machine conversational system, able to interact in an industrial environment. An initial taxonomy, containing entities expected to be found in maintenance manuals, is used to identify the relevant sentences of a manual provided by the company BOBST SA and applying text mining techniques, it is automatically expanded. The final result is a taxonomy network representing the entities and their relation, that will be used in future works for managing the interactions of a maintenance chatbot.
翻訳日:2022-12-03 13:25:31 公開日:2020-05-13
# R2RMLとRMLによるRDF生成のルール検証と矛盾解消の比較

R2RML and RML Comparison for RDF Generation, their Rules Validation and Inconsistency Resolution ( http://arxiv.org/abs/2005.06293v1 )

ライセンス: Link先を確認
Anastasia Dimou(参考訳) 本稿では、W3C推奨R2RMLとその一般化RMLという2つの一般的なマッピング言語に焦点を当て、知識グラフ生成技術の概要について述べる。 それらの違いの詳細を考察し、知識グラフがrdfグラフの形で2つのマッピング言語のいずれかでどのように生成できるかを説明する。 次に,R2RMLとRMLのどちらを用いて所望の知識グラフを生成するかで,語彙用語が適切なデータに適用され,その使用に違反が生じていないかを評価する。

In this paper, an overview of the state of the art on knowledge graph generation is provided, with focus on the two prevalent mapping languages: the W3C recommended R2RML and its generalisation RML. We look into details on their differences and explain how knowledge graphs, in the form of RDF graphs, can be generated with each one of the two mapping languages. Then we assess if the vocabulary terms were properly applied to the data and no violations occurred on their use, either using R2RML or RML to generate the desired knowledge graph.
翻訳日:2022-12-03 13:25:14 公開日:2020-05-13
# NSGA-IIIを用いた多目的ソフトウェア再構成

Many-Objective Software Remodularization using NSGA-III ( http://arxiv.org/abs/2005.06510v1 )

ライセンス: Link先を確認
Mohamed Wiem Mkaouer, Marouane Kessentini, Adnan Shaout, Patrice Koligheu, Slim Bechikh, Kalyanmoy Deb, and Ali Ouni(参考訳) 現在のソフトウェアシステムは、継続的な変更と悪い設計選択のため、複雑でメンテナンスが難しい。 システムの複雑さを扱うために、ソフトウェア製品は一般的に、依存するクラスを含むパッケージ/モジュールの観点で分解される。 しかし、保守性を改善するために自動的にシステムをモジュール化することは困難である。 既存のリモーダル化作業の大部分は、結合と凝集を最適化することでパッケージの構造を改善するという目的を主に満たしている。 さらに,既存の研究のほとんどは,移動クラスや分割パッケージなどの操作タイプに限られている。 設計のセマンティクス、変更回数の削減、開発変更履歴との一貫性の最大化といった他の多くの目的は、ソフトウェアの品質をモジュール化することで改善する上で重要である。 本稿では,NSGA-IIIを用いた多目的探索手法を提案する。 このプロセスは、パッケージの構造を改善し、変更数を最小化し、セマンティクスの一貫性を保ち、変更の歴史を再利用する最適な再モジュール化ソリューションを見つけることを目的としている。 我々は,4つの異なるオープンソースシステムと,産業パートナーが提供した自動車産業プロジェクトを用いて,ソフトウェア技術者による定量的・質的研究により,アプローチの効率性を評価する。

Software systems nowadays are complex and difficult to maintain due to continuous changes and bad design choices. To handle the complexity of systems, software products are, in general, decomposed in terms of packages/modules containing classes that are dependent. However, it is challenging to automatically remodularize systems to improve their maintainability. The majority of existing remodularization work mainly satisfy one objective which is improving the structure of packages by optimizing coupling and cohesion. In addition, most of existing studies are limited to only few operation types such as move class and split packages. Many other objectives, such as the design semantics, reducing the number of changes and maximizing the consistency with development change history, are important to improve the quality of the software by remodularizing it. In this paper, we propose a novel many-objective search-based approach using NSGA-III. The process aims at finding the optimal remodularization solutions that improve the structure of packages, minimize the number of changes, preserve semantics coherence, and re-use the history of changes. We evaluate the efficiency of our approach using four different open-source systems and one automotive industry project, provided by our industrial partner, through a quantitative and qualitative study conducted with software engineers.
翻訳日:2022-12-03 13:25:03 公開日:2020-05-13
# ビル自動化システムを用いたファジィ型パトロールロボットの開発

Development of a Fuzzy-based Patrol Robot Using in Building Automation System ( http://arxiv.org/abs/2006.02216v1 )

ライセンス: Link先を確認
Thi Thanh Van Nguyen, Manh Duong Phung, Dinh Tuan Pham, Quang Vinh Tran(参考訳) ビル管理システム(BAS)は、HVAC(Heating-Ventilation, Air-conditioning Control)、電気消費管理、火災警報制御、セキュリティとアクセス制御、家電のスイッチング制御など、すべてのビルサブシステムの動作を監視し制御する機能を備えている。 basでは、ほぼ操作が制御センターで自動的に行われるため、建物のセキュリティは厳格に保護されなければならない。 従来のシステムでは、セキュリティは通常、固定された位置に設置された多数のカメラによって保証される。 そこで本稿では,この欠点を克服するために,移動ロボットをパトロールとして使用する新しいセキュリティシステムを提案する。 ロボットはファジィベースのアルゴリズムを備えており、未知の環境における障害物や、パトロールミッションに必要な他のメカニズムを避けることができる。 実験の結果,システムは建物を監視・確保する目的の要件を満たしていることがわかった。

A Building Automation System (BAS) has functions of monitoring and controlling the operation of all building sub-systems such as HVAC (Heating-Ventilation, Air-conditioning Control), electric consumption management, fire alarm control, security and access control, and appliance switching control. In the BAS, almost operations are automatically performed at the control centre, the building security therefore must be strictly protected. In the traditional system, the security is usually ensured by a number of cameras installed at fixed positions and it may results in a limited vision. To overcome this disadvantage, our paper presents a novel security system in which a mobile robot is used as a patrol. The robot is equipped with fuzzy-based algorithms to allow it to avoid the obstacles in an unknown environment as well as other necessary mechanisms demanded for its patrol mission. The experiment results show that the system satisfies the requirements for the objective of monitoring and securing the building.
翻訳日:2022-12-03 13:24:45 公開日:2020-05-13
# CheXNet精度向上のための骨陰影除去のための文脈学習

Context Learning for Bone Shadow Exclusion in CheXNet Accuracy Improvement ( http://arxiv.org/abs/2005.06189v1 )

ライセンス: Link先を確認
Minh-Chuong Huynh, Trung-Hieu Nguyen, Minh-Triet Tran(参考訳) 胸部X線検査は肺疾患の検出に重要な役割を果たしている。 この作業の精度が高ければ高いほど、経験豊富な放射線技師が必要とされる。 ChestX-ray14データセットには、14の疾患のX線画像が10万枚以上含まれており、精度の高いモデルがいくつか提案されている。 本稿では,胸部X線画像における肺疾患診断のためのワークフローを開発し,最先端モデルのAUROCを0.8414から0.8445に改善する。 画像前処理のステップを14の疾患検出モデルに適用する。 我々のプロジェクトには3つのモデルがある: 1つは、処理された画像がより良い結果をもたらすかどうかを予測するDenseNet-121、もう1つは、骨陰影排除のための畳み込み自動エンコーダモデル、もう1つはオリジナルのCheXNetである。

Chest X-ray examination plays an important role in lung disease detection. The more accuracy of this task, the more experienced radiologists are required. After ChestX-ray14 dataset containing over 100,000 frontal-view X-ray images of 14 diseases was released, several models were proposed with high accuracy. In this paper, we develop a work flow for lung disease diagnosis in chest X-ray images, which can improve the average AUROC of the state-of-the-art model from 0.8414 to 0.8445. We apply image preprocessing steps before feeding to the 14 diseases detection model. Our project includes three models: the first one is DenseNet-121 to predict whether a processed image has a better result, a convolutional auto-encoder model for bone shadow exclusion is the second one, and the last is the original CheXNet.
翻訳日:2022-12-03 13:24:27 公開日:2020-05-13
# スパイク型網膜を用いたオンライン学習を実現する28nm畳み込みニューロモルフィックプロセッサ

A 28-nm Convolutional Neuromorphic Processor Enabling Online Learning with Spike-Based Retinas ( http://arxiv.org/abs/2005.06318v1 )

ライセンス: Link先を確認
Charlotte Frenkel, Jean-Didier Legat, David Bol(参考訳) 生物学的情報表現と組織原理に従うために、神経形工学の分野は通常、生物物理学モデルからサイリコの大規模統合までボトムアップにアプローチされる。 認知コンピューティングと神経科学の実験プラットフォームとして理想的だが、ボトムアップ型ニューロモルフィックプロセッサは、現実世界の問題に対する特殊なニューラルネットワークアクセラレーターに比べて、効率の利点をまだ示していない。 トップダウンアプローチは、この困難に答えることを目指している (i)適用問題から始まり、 (ii)関連するアルゴリズムをハードウェア効率良く、生物学的に評価可能なものにする方法の検討。 スパイク型ニューロモルフィック網膜のデータスパーシティを適応エッジコンピューティングや視覚応用に活用するために,トップダウンアプローチを採用し,28nmイベント駆動cnn(ecnn)であるspoonを提案する。 16.8-%のパワーと11.8-%のオーバヘッドしか持たないオンライン学習を、生物学的に証明可能な直接ランダムターゲットプロジェクション(DRTP)アルゴリズムで埋め込んでいる。 0.6vでの313njの分類と95.3%(オンチップトレーニング)と97.5%(オフチップトレーニング)の精度で 0.32-mm$^2$領域のmnistの分類で、soonがオンチップ学習を組み込みながら、イベントベースのセンサーと互換性のある従来の機械学習アクセラレータの効率に到達できることを実証し、n-mnistベンチマークでさらに強調する。

In an attempt to follow biological information representation and organization principles, the field of neuromorphic engineering is usually approached bottom-up, from the biophysical models to large-scale integration in silico. While ideal as experimentation platforms for cognitive computing and neuroscience, bottom-up neuromorphic processors have yet to demonstrate an efficiency advantage compared to specialized neural network accelerators for real-world problems. Top-down approaches aim at answering this difficulty by (i) starting from the applicative problem and (ii) investigating how to make the associated algorithms hardware-efficient and biologically-plausible. In order to leverage the data sparsity of spike-based neuromorphic retinas for adaptive edge computing and vision applications, we follow a top-down approach and propose SPOON, a 28-nm event-driven CNN (eCNN). It embeds online learning with only 16.8-% power and 11.8-% area overheads with the biologically-plausible direct random target projection (DRTP) algorithm. With an energy per classification of 313nJ at 0.6V and a 0.32-mm$^2$ area for accuracies of 95.3% (on-chip training) and 97.5% (off-chip training) on MNIST, we demonstrate that SPOON reaches the efficiency of conventional machine learning accelerators while embedding on-chip learning and being compatible with event-based sensors, a point that we further emphasize with N-MNIST benchmarking.
翻訳日:2022-12-03 13:18:12 公開日:2020-05-13
# オンライン適応による自己監督型深部眼振計測

Self-Supervised Deep Visual Odometry with Online Adaptation ( http://arxiv.org/abs/2005.06136v1 )

ライセンス: Link先を確認
Shunkai Li, Xin Wang, Yingdian Cao, Fei Xue, Zike Yan, Hongbin Zha(参考訳) 自己監督型VO法は、ビデオからカメラのポーズと深さを共同で推定することに成功した。 しかし、既存のVOネットワークは、多くのデータ駆動方式と同様に、トレーニングデータとは異なるシーンに直面すると、顕著な性能低下に悩まされるため、実用的な応用には適さない。 本稿では,VOネットワークが自己指導型で新しい環境に継続的に適応できるオンラインメタ学習アルゴリズムを提案する。 提案手法は、畳み込み長短期記憶(convLSTM)を用いて、過去の豊富な時空間情報を集約する。 ネットワークは過去の経験を記憶し、学習することで、現在のフレームに対するより良い推定と迅速な適応を可能にする。 オープンな世界でVOを実行する場合、環境の変化に対処するため、異なるタイミングで特徴分布を調整してオンライン機能アライメント手法を提案する。 私たちのvoネットワークは、異なる環境にシームレスに適応することができます。 映像のない屋外シーン,仮想から現実世界,屋外から屋内環境に対する大規模な実験は,我々の手法が最先端の自己監督型VOベースラインを大幅に上回っていることを示す。

Self-supervised VO methods have shown great success in jointly estimating camera pose and depth from videos. However, like most data-driven methods, existing VO networks suffer from a notable decrease in performance when confronted with scenes different from the training data, which makes them unsuitable for practical applications. In this paper, we propose an online meta-learning algorithm to enable VO networks to continuously adapt to new environments in a self-supervised manner. The proposed method utilizes convolutional long short-term memory (convLSTM) to aggregate rich spatial-temporal information in the past. The network is able to memorize and learn from its past experience for better estimation and fast adaptation to the current frame. When running VO in the open world, in order to deal with the changing environment, we propose an online feature alignment method by aligning feature distributions at different time. Our VO network is able to seamlessly adapt to different environments. Extensive experiments on unseen outdoor scenes, virtual to real world and outdoor to indoor environments demonstrate that our method consistently outperforms state-of-the-art self-supervised VO baselines considerably.
翻訳日:2022-12-03 13:17:26 公開日:2020-05-13
# 深層学習によるカメラ位置推定のための3次元シーン幾何学的制約

3D Scene Geometry-Aware Constraint for Camera Localization with Deep Learning ( http://arxiv.org/abs/2005.06147v1 )

ライセンス: Link先を確認
Mi Tian, Qiong Nie, Hao Shen(参考訳) カメラのローカライゼーションは、自動運転車や移動ロボットの基本的かつ重要なコンポーネントであり、環境認識、経路計画、移動制御のために世界規模でローカライズされる。 近年、畳み込みニューラルネットワークに基づくエンドツーエンドのアプローチは、従来の3次元幾何学に基づく手法を達成または超えるように研究されている。 本研究では,絶対カメラポーズ回帰のためのコンパクトネットワークを提案する。 従来の手法からヒントを得た3Dシーンの幾何学的制約も、動き、深さ、画像の内容を含むすべての利用可能な情報を活用することによって導入される。 この制約を、画素レベルの測光損失と画像レベルの構造的類似性損失を定義することにより、提案ネットワークに正規化項として加える。 本手法をベンチマークするために,提案手法と最先端技術を用いて,屋内環境と屋外環境を含む様々な挑戦シーンを検証した。 実験の結果,予測精度と収束効率の両面において,本手法の有効性が向上した。

Camera localization is a fundamental and key component of autonomous driving vehicles and mobile robots to localize themselves globally for further environment perception, path planning and motion control. Recently end-to-end approaches based on convolutional neural network have been much studied to achieve or even exceed 3D-geometry based traditional methods. In this work, we propose a compact network for absolute camera pose regression. Inspired from those traditional methods, a 3D scene geometry-aware constraint is also introduced by exploiting all available information including motion, depth and image contents. We add this constraint as a regularization term to our proposed network by defining a pixel-level photometric loss and an image-level structural similarity loss. To benchmark our method, different challenging scenes including indoor and outdoor environment are tested with our proposed approach and state-of-the-arts. And the experimental results demonstrate significant performance improvement of our method on both prediction accuracy and convergence efficiency.
翻訳日:2022-12-03 13:17:07 公開日:2020-05-13
# 車体再同定のための属性誘導特徴抽出と強化ロバスト学習

Attribute-guided Feature Extraction and Augmentation Robust Learning for Vehicle Re-identification ( http://arxiv.org/abs/2005.06184v1 )

ライセンス: Link先を確認
Chaoran Zhuge, Yujie Peng, Yadong Li, Jiangbo Ai, Junru Chen(参考訳) 車両の再識別は、インテリジェントな交通システムとスマートシティのコア技術の一つであるが、クラス内における大きな多様性とクラス間類似性は、既存の方法にとって大きな課題となる。 本稿では,属性情報を活用したマルチガイド学習手法を提案するとともに,学習中のロバスト性を改善するために2つの新しいランダム拡張を導入する。 さらに,属性制約法とグループ再ランク戦略を提案し,マッチング結果を洗練する。 CVPR 2020 AI City Challengeでは,mAPの66.83%,ランク1の精度76.05%を達成した。

Vehicle re-identification is one of the core technologies of intelligent transportation systems and smart cities, but large intra-class diversity and inter-class similarity poses great challenges for existing method. In this paper, we propose a multi-guided learning approach which utilizing the information of attributes and meanwhile introducing two novel random augments to improve the robustness during training. What's more, we propose an attribute constraint method and group re-ranking strategy to refine matching results. Our method achieves mAP of 66.83% and rank-1 accuracy 76.05% in the CVPR 2020 AI City Challenge.
翻訳日:2022-12-03 13:16:50 公開日:2020-05-13
# マイクロ表現分類のための平均指向リース特徴

Mean Oriented Riesz Features for Micro Expression Classification ( http://arxiv.org/abs/2005.06198v1 )

ライセンス: Link先を確認
Carlos Arango Duque, Olivier Alata, R\'emi Emonet, Hubert Konik and Anne-Claire Legrand(参考訳) マイクロ表現は簡潔で微妙な表情で、ほんの数秒で顔に出入りする。 この種の表情は通常、高い利害状況で起こり、人間の本当の意図を反映していると考えられている。 マイクロ圧縮解析にはいくつかの関心があるが、ほとんどの手法は局所的なバイナリパターン、勾配のヒストグラム、光の流れといった古典的に確立されたコンピュータビジョン法に基づいている。 リースピラミッドを用いたマイクロ表現認識のための新しい手法として,多スケールステアブルヒルベルト変換を提案する。 実際、このツールで画像シーケンスを変換すると、画像位相のバリエーションが抽出され、動きのプロキシとしてフィルタされる。 さらに、Riesz変換からの支配的な配向定数を利用して、マイクロ圧縮シーケンスを画像対に平均化する。 これに基づいて、平均指向Riesz特徴記述が導入される。 最後に,本手法の性能を2つの自発的マイクロ表現データベースでテストし,最新手法と比較した。

Micro-expressions are brief and subtle facial expressions that go on and off the face in a fraction of a second. This kind of facial expressions usually occurs in high stake situations and is considered to reflect a human's real intent. There has been some interest in micro-expression analysis, however, a great majority of the methods are based on classically established computer vision methods such as local binary patterns, histogram of gradients and optical flow. A novel methodology for micro-expression recognition using the Riesz pyramid, a multi-scale steerable Hilbert transform is presented. In fact, an image sequence is transformed with this tool, then the image phase variations are extracted and filtered as proxies for motion. Furthermore, the dominant orientation constancy from the Riesz transform is exploited to average the micro-expression sequence into an image pair. Based on that, the Mean Oriented Riesz Feature description is introduced. Finally the performance of our methods are tested in two spontaneous micro-expressions databases and compared to state-of-the-art methods.
翻訳日:2022-12-03 13:16:40 公開日:2020-05-13
# 自己教師付き単眼深度推定の不確かさについて

On the uncertainty of self-supervised monocular depth estimation ( http://arxiv.org/abs/2005.06209v1 )

ライセンス: Link先を確認
Matteo Poggi, Filippo Aleotti, Fabio Tosi, Stefano Mattoccia(参考訳) 単眼深度推定のための自己監督パラダイムは、基礎的な真理アノテーションを全く必要としないため、非常に魅力的である。 このような手法によって得られた驚くべき結果にもかかわらず、推定深度マップの不確かさを推論する学習は、実際的な応用にとって最重要であり、文献にはない。 本研究は,本課題に対する不確実性の評価方法と,それが深度精度に与える影響を初めて検討し,自己教師型アプローチに特有な手法を提案する。 標準のKITTIデータセットを用いて、各手法の性能を異なる自己監督パラダイムで徹底的に評価する。 このような評価は我々の提案が 一 常に深度精度を著しく改善する 二 ステレオペアを一意に配置したシーケンス及び競合結果の訓練において、不確実性推定に関する最新の結果を得る。

Self-supervised paradigms for monocular depth estimation are very appealing since they do not require ground truth annotations at all. Despite the astonishing results yielded by such methodologies, learning to reason about the uncertainty of the estimated depth maps is of paramount importance for practical applications, yet uncharted in the literature. Purposely, we explore for the first time how to estimate the uncertainty for this task and how this affects depth accuracy, proposing a novel peculiar technique specifically designed for self-supervised approaches. On the standard KITTI dataset, we exhaustively assess the performance of each method with different self-supervised paradigms. Such evaluation highlights that our proposal i) always improves depth accuracy significantly and ii) yields state-of-the-art results concerning uncertainty estimation when training on sequences and competitive results uniquely deploying stereo pairs.
翻訳日:2022-12-03 13:16:23 公開日:2020-05-13
# ワンショット顔再現のためのFaR-GAN

FaR-GAN for One-Shot Face Reenactment ( http://arxiv.org/abs/2005.06402v1 )

ライセンス: Link先を確認
Hanxiang Hao and Sriram Baireddy and Amy R. Reibman and Edward J. Delp(参考訳) 画像編集や映画製作の分野では,静的な顔画像と対象の表情と動きをアニメーションすることが重要である。 この顔再現プロセスは、人間の顔の複雑な形状と動きのために困難である。 以前の作品は通常、外観をモデル化するために同じ人物からの大量の画像を必要とする。 本稿では、任意のソースidとターゲット表現の1つの顔画像のみを入力として、同一のソースidとターゲット表現の同一顔画像を生成するワンショット顔再現モデルfar-ganを提案する。 提案手法は,音源の同一性,表情,頭部ポーズ,さらには画像背景についても仮定しない。 提案手法をVoxCeleb1データセット上で評価し,比較した手法よりも高品質な顔画像を生成することができることを示す。

Animating a static face image with target facial expressions and movements is important in the area of image editing and movie production. This face reenactment process is challenging due to the complex geometry and movement of human faces. Previous work usually requires a large set of images from the same person to model the appearance. In this paper, we present a one-shot face reenactment model, FaR-GAN, that takes only one face image of any given source identity and a target expression as input, and then produces a face image of the same source identity but with the target expression. The proposed method makes no assumptions about the source identity, facial expression, head pose, or even image background. We evaluate our method on the VoxCeleb1 dataset and show that our method is able to generate a higher quality face image than the compared methods.
翻訳日:2022-12-03 13:15:23 公開日:2020-05-13
# 大規模マルチアクタ生成ダイアログモデリング

Large Scale Multi-Actor Generative Dialog Modeling ( http://arxiv.org/abs/2005.06114v1 )

ライセンス: Link先を確認
Alex Boyd, Raul Puri, Mohammad Shoeybi, Mostofa Patwary, and Bryan Catanzaro(参考訳) 非ゴール指向の対話エージェント(チャットボットなど)は、ユーザとのさまざまな会話を創造することを目的としているが、通常、会話間の一貫性のないパーソナリティか、すべてのユーザの平均的なパーソナリティのいずれかを示す。 本稿では,対象俳優の事前会話を条件づけてエージェントのペルソナを生成時に制御することで,これらの問題に対処する。 そうすることで、人間の発話の中でより抽象的なパターンを活用し、生成された応答でよりエミュレートすることができるのです。 本研究は,アクターのペルソナにおける多ターン会話を確率論的にモデル化するために,過去の参照会話を条件とした拡張および微調整gpt-2言語モデルであるジェネレーティブ会話制御モデルを紹介する。 6ヶ月分のredditコメントから10.3mの会話を得るためのデータ収集手順を導入する。 我々は1.7Mから8.3Bへのスケールモデルサイズが1.7Mの会話で23.14から13.14に改善されることを実証した。 モデルスケールの増大は、リアル性(31%が37%から42%に増加)、スタイルマッチング(37%から42%)、文法と内容の質(29%から42%)、会話の一貫性(32%から40%)でモデルサンプルの嗜好を測定する人間の評価に類似した改善をもたらした。 自動評価において,過去の会話を条件付きモデリングすることでパープレキシティが0.47向上することがわかった。 人間の試行を通じて,条件付きモデリングとスタイルマッチングの正の傾向を特定し,さらにペルソナ制御を改善するためのアウトラインステップを示す。

Non-goal oriented dialog agents (i.e. chatbots) aim to produce varying and engaging conversations with a user; however, they typically exhibit either inconsistent personality across conversations or the average personality of all users. This paper addresses these issues by controlling an agent's persona upon generation via conditioning on prior conversations of a target actor. In doing so, we are able to utilize more abstract patterns within a person's speech and better emulate them in generated responses. This work introduces the Generative Conversation Control model, an augmented and fine-tuned GPT-2 language model that conditions on past reference conversations to probabilistically model multi-turn conversations in the actor's persona. We introduce an accompanying data collection procedure to obtain 10.3M conversations from 6 months worth of Reddit comments. We demonstrate that scaling model sizes from 117M to 8.3B parameters yields an improvement from 23.14 to 13.14 perplexity on 1.7M held out Reddit conversations. Increasing model scale yielded similar improvements in human evaluations that measure preference of model samples to the held out target distribution in terms of realism (31% increased to 37% preference), style matching (37% to 42%), grammar and content quality (29% to 42%), and conversation coherency (32% to 40%). We find that conditionally modeling past conversations improves perplexity by 0.47 in automatic evaluations. Through human trials we identify positive trends between conditional modeling and style matching and outline steps to further improve persona control.
翻訳日:2022-12-03 13:09:22 公開日:2020-05-13
# 画面品質評価:誰が指名されたか予測できるか?

Screenplay Quality Assessment: Can We Predict Who Gets Nominated? ( http://arxiv.org/abs/2005.06123v1 )

ライセンス: Link先を確認
Ming-Chang Chiu, Tiantian Feng, Xiang Ren, Shrikanth Narayanan(参考訳) どのスクリプトを映画にするかを決めることは、映画製作者にとってコストと時間がかかるプロセスである。 したがって、映画製作の初期段階である脚本選択を支援するツールを構築することは、非常に有益である。 そこで本研究では,その目的に向けて,言語的手がかりに基づく脚本の品質評価手法を提案する。 本研究は,(1)映画大賞における脚本のノミネート予測として,ピア認識の脚本が成功する確率が高いという仮説を定め,その課題を2つのアプローチで解決する。 2) 業界意見とナラトロジーに基づいて, 共通分類手法にドメイン固有の特徴を抽出し, 統合する。 1) スクリプトは他のドキュメントデータセットよりもはるかに長く、(2) ノミネートされたスクリプトは制限され、収集が困難である。 しかし、ナラトロジーに触発されたモデリングとドメイン機能により、我々のアプローチは強力なベースラインよりも明確な改善を提供する。 私たちの作品は、スクリーンプレイ分析における今後の作業に新しいアプローチを提供します。

Deciding which scripts to turn into movies is a costly and time-consuming process for filmmakers. Thus, building a tool to aid script selection, an initial phase in movie production, can be very beneficial. Toward that goal, in this work, we present a method to evaluate the quality of a screenplay based on linguistic cues. We address this in a two-fold approach: (1) we define the task as predicting nominations of scripts at major film awards with the hypothesis that the peer-recognized scripts should have a greater chance to succeed. (2) based on industry opinions and narratology, we extract and integrate domain-specific features into common classification techniques. We face two challenges (1) scripts are much longer than other document datasets (2) nominated scripts are limited and thus difficult to collect. However, with narratology-inspired modeling and domain features, our approach offers clear improvements over strong baselines. Our work provides a new approach for future work in screenplay analysis.
翻訳日:2022-12-03 13:08:50 公開日:2020-05-13
# 応答生成におけるオンデマンド知識統合のための応答予測メモリ

Response-Anticipated Memory for On-Demand Knowledge Integration in Response Generation ( http://arxiv.org/abs/2005.06128v1 )

ライセンス: Link先を確認
Zhiliang Tian, Wei Bi, Dongkyu Lee, Lanqing Xue, Yiping Song, Xiaojiang Liu, Nevin L. Zhang(参考訳) ニューラルな会話モデルは、一般的に適切なが非形式的な応答を生成することが知られている。 情報提供性を大幅に向上できるシナリオは、ある外部文書に関して会話が行われるCbR(Conversing by Reading)である。 先行研究では、(1)文書からの情報と会話内容とを統合した文脈対応文書メモリを作成し、(2)そのメモリを参照する応答を生成することで外部文書を活用する。 本稿では,期待される応答を念頭に,文書メモリを作成することを提案する。 これは教師-学生のフレームワークを使って達成される。 教師は、外部文書、文脈、地味な応答を与えられ、3つの情報ソースから応答対応の文書メモリを構築する方法を学ぶ。 学生は、最初の2つのソースから応答予測ドキュメントメモリを構築することを学び、教師のメモリ生成に対する洞察を得る。 実験の結果,我々のモデルはCbRタスクの先行技術よりも優れていた。

Neural conversation models are known to generate appropriate but non-informative responses in general. A scenario where informativeness can be significantly enhanced is Conversing by Reading (CbR), where conversations take place with respect to a given external document. In previous work, the external document is utilized by (1) creating a context-aware document memory that integrates information from the document and the conversational context, and then (2) generating responses referring to the memory. In this paper, we propose to create the document memory with some anticipated responses in mind. This is achieved using a teacher-student framework. The teacher is given the external document, the context, and the ground-truth response, and learns how to build a response-aware document memory from three sources of information. The student learns to construct a response-anticipated document memory from the first two sources, and the teacher's insight on memory creation. Empirical results show that our model outperforms the previous state-of-the-art for the CbR task.
翻訳日:2022-12-03 13:08:34 公開日:2020-05-13
# サンスクリットセグメンテーションを再考

Sanskrit Segmentation Revisited ( http://arxiv.org/abs/2005.06383v1 )

ライセンス: Link先を確認
Sriram Krishnan and Amba Kulkarni(参考訳) サンスクリットのテキストを計算解析するには、初期段階で適切なセグメンテーションが必要である。 サンスクリット語テキストセグメンテーションのための様々なツールが開発されている。 これらのうち、G\'erard Huet's Reader in the Sanskrit Heritage Engine(英語版)は入力テキストを分析し、単語パラメーター(iic、ifc、Pr、Substなどのようなフェーズ)と、単語の最初の部分で単語の最後に起こるサンジー(または遷移)のような単語パラメーターに基づいてセグメント化する。 そして、フェーズの助けを借りて、可能なすべてのソリューションを識別します。 フェーズとその分析は、センデンシャルパーサーの領域で使用される。 しかしセグメンテーションでは、これらは相で形成された単語が形態的に有効かどうかを判断する以外には使われない。 本稿では,(いくつかの場合を除いて)位相詳細を無視して,上記のセグメンタの修正を試みるとともに,最上位の有効な解を導出するための解のリストを優先する確率関数を提案する。

Computationally analyzing Sanskrit texts requires proper segmentation in the initial stages. There have been various tools developed for Sanskrit text segmentation. Of these, G\'erard Huet's Reader in the Sanskrit Heritage Engine analyzes the input text and segments it based on the word parameters - phases like iic, ifc, Pr, Subst, etc., and sandhi (or transition) that takes place at the end of a word with the initial part of the next word. And it enlists all the possible solutions differentiating them with the help of the phases. The phases and their analyses have their use in the domain of sentential parsers. In segmentation, though, they are not used beyond deciding whether the words formed with the phases are morphologically valid. This paper tries to modify the above segmenter by ignoring the phase details (except for a few cases), and also proposes a probability function to prioritize the list of solutions to bring up the most valid solutions at the top.
翻訳日:2022-12-03 13:08:01 公開日:2020-05-13
# $h-1$ Headsは$h-1$ Headsより優れている

A Mixture of $h-1$ Heads is Better than $h$ Heads ( http://arxiv.org/abs/2005.06537v1 )

ライセンス: Link先を確認
Hao Peng, Roy Schwartz, Dianqi Li, and Noah A. Smith(参考訳) マルチヘッド注意型ニューラルアーキテクチャは、様々な自然言語処理タスクにおいて最先端の結果を得た。 過剰パラメータである証拠が示されており、注意ヘッドはパフォーマンスを損なうことなく刈り取ることができる。 この作業では、代わりにそれらを"再配置"します -- モデルは異なる入力で異なるヘッドを活性化するように学習します。 本稿では,多面的注意と専門家の混在の関連性について,注意的専門家モデル(MAE)の混合を提案する。 MAEは(1)専門家の責任と(2)パラメータの更新を交互に行うブロック座標降下アルゴリズムを用いて訓練される。 機械翻訳と言語モデリングの実験により、MAEは両方のタスクにおいて強いベースラインを上回ります。 特に、WMT14の英語からドイツ語への翻訳データセットでは、MAEは"transformer-base"を0.8 BLEUで改善し、同じ数のパラメータを持つ。 分析の結果、我々のモデルは、異なる専門家を異なる入力に専門化することを学びました。

Multi-head attentive neural architectures have achieved state-of-the-art results on a variety of natural language processing tasks. Evidence has shown that they are overparameterized; attention heads can be pruned without significant performance loss. In this work, we instead "reallocate" them -- the model learns to activate different heads on different inputs. Drawing connections between multi-head attention and mixture of experts, we propose the mixture of attentive experts model (MAE). MAE is trained using a block coordinate descent algorithm that alternates between updating (1) the responsibilities of the experts and (2) their parameters. Experiments on machine translation and language modeling show that MAE outperforms strong baselines on both tasks. Particularly, on the WMT14 English to German translation dataset, MAE improves over "transformer-base" by 0.8 BLEU, with a comparable number of parameters. Our analysis shows that our model learns to specialize different experts to different inputs.
翻訳日:2022-12-03 13:07:42 公開日:2020-05-13
# タグ付きゴールドコーパス構築のためのサンスクリット遺産ツールを用いたdcsコーパスの検証と正規化

Validation and Normalization of DCS corpus using Sanskrit Heritage tools to build a tagged Gold Corpus ( http://arxiv.org/abs/2005.06545v1 )

ライセンス: Link先を確認
Sriram Krishnan and Amba Kulkarni and G\'erard Huet(参考訳) サンスクリットのデジタルコーパスは、その形態的および語彙的タグ付けとともに約65万文を記録している。 しかし形態素解析の矛盾や、セグメンテーションされた単語のような重要な情報の提供では、このコーパスの標準化と検証の必要性が求められる。 検証プロセスを自動化するには効率的なアナライザが必要である。 サンスクリット・ヘリテージ・エンジン (sanskrit heritage engine) の読者は、形態学的および語彙的分析によって可能な全てのセグメントを生成する。 これらのシステムを調整することは、言語の違いを記録するのに役立ち、これらのシステムを更新して標準化された結果を生成するのに役立ち、また、セグメント化された単語とともに、完全な形態情報と語彙情報をタグ付けしたゴールドコーパスも提供します。 Krishna et al. (2017) は言語的な違いを考慮して115,000の文を並べた。 どちらのシステムも大きく進化してきたため、これらのシステム間の言語的な違いをすべて考慮し、アライメントは再び行われる。 本稿では,修正アライメントの過程を詳細に記述し,追加の言語的差異を記録する。 参考:Amrith Krishna、Pavankumar Satuluri、Pawan Goyal。 2017. サンスクリット単語分割のためのデータセット。 The Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, page 105-114 計算言語学協会、8月。

The Digital Corpus of Sanskrit records around 650,000 sentences along with their morphological and lexical tagging. But inconsistencies in morphological analysis, and in providing crucial information like the segmented word, urges the need for standardization and validation of this corpus. Automating the validation process requires efficient analyzers which also provide the missing information. The Sanskrit Heritage Engine's Reader produces all possible segmentations with morphological and lexical analyses. Aligning these systems would help us in recording the linguistic differences, which can be used to update these systems to produce standardized results and will also provide a Gold corpus tagged with complete morphological and lexical information along with the segmented words. Krishna et al. (2017) aligned 115,000 sentences, considering some of the linguistic differences. As both these systems have evolved significantly, the alignment is done again considering all the remaining linguistic differences between these systems. This paper describes the modified alignment process in detail and records the additional linguistic differences observed. Reference: Amrith Krishna, Pavankumar Satuluri, and Pawan Goyal. 2017. A dataset for Sanskrit word segmentation. In Proceedings of the Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, page 105-114. Association for Computational Linguistics, August.
翻訳日:2022-12-03 13:07:25 公開日:2020-05-13
# マルチグラニュラリティコンテクスト化符号化を用いた文書レベルイベントロールフィラ抽出

Document-Level Event Role Filler Extraction using Multi-Granularity Contextualized Encoding ( http://arxiv.org/abs/2005.06579v1 )

ライセンス: Link先を確認
Xinya Du and Claire Cardie(参考訳) イベント抽出の文献において、抽出決定を行うために個々の文を超えた作品はほとんどない。 イベント引数を認識するために必要な情報が複数の文に分散している場合、これは問題となる。 ドキュメントレベルのイベント抽出は、イベントロールフィラーに対応するテキストのスパンを決定するために、より大きなコンテキストのビューを必要とするため、難しい作業であると主張する。 まず、文書レベルのロールフィラー抽出において、エンドツーエンドのニューラルシーケンスモデル(事前訓練された言語モデル表現)がどのように機能するか、また、取得したコンテキストの長さがモデルの性能に与える影響について検討する。 異なる粒度レベル(文レベルや段落レベルなど)で学習した神経表現によって得られる情報を動的に集約するために,新しい多粒度リーダを提案する。 MUC-4イベント抽出データセットを用いて,本モデルの評価を行い,従来よりも優れた性能を示した。 また,タスクにおける文脈長とニューラルモデルの性能の関係について報告する。

Few works in the literature of event extraction have gone beyond individual sentences to make extraction decisions. This is problematic when the information needed to recognize an event argument is spread across multiple sentences. We argue that document-level event extraction is a difficult task since it requires a view of a larger context to determine which spans of text correspond to event role fillers. We first investigate how end-to-end neural sequence models (with pre-trained language model representations) perform on document-level role filler extraction, as well as how the length of context captured affects the models' performance. To dynamically aggregate information captured by neural representations learned at different levels of granularity (e.g., the sentence- and paragraph-level), we propose a novel multi-granularity reader. We evaluate our models on the MUC-4 event extraction dataset, and show that our best system performs substantially better than prior work. We also report findings on the relationship between context length and neural model performance on the task.
翻訳日:2022-12-03 13:06:52 公開日:2020-05-13
# PERLEX:関係抽出のためのバイリンガルペルシア英語ゴールドデータセット

PERLEX: A Bilingual Persian-English Gold Dataset for Relation Extraction ( http://arxiv.org/abs/2005.06588v1 )

ライセンス: Link先を確認
Majid Asgari-Bidhendi, Mehrdad Nasser, Behrooz Janfada, Behrouz Minaei-Bidgoli(参考訳) 関係抽出は文中のエンティティ間の意味関係を抽出するタスクである。 これは、情報抽出、知識抽出、知識ベース人口といった自然言語処理タスクの不可欠な部分である。 この研究の主な動機は、ペルシア語における関係抽出のためのデータセットの欠如と、ペルシア語で成長しているビッグデータから異なる用途のために知識を抽出する必要があることにある。 本稿では,"Semeval-2010-Task-8"データセットのエキスパート翻訳版である,関係抽出のための最初のペルシア語データセットとして"PERLEX"を提案する。 本稿では,最先端言語非依存アルゴリズムを用いたペルシャ関係抽出について述べる。 提案するバイリンガルモデル(ベースライン),3つのニューラルモデル,多言語・バート文脈表現による2つの深層学習モデルを含む,多言語データセットにおける関係抽出に6つの異なるモデルを用いる。 実験の結果、ペルシャ語における関係抽出の最先端技術として、最大fスコア77.66%(BERTEM-MTB法で提供される)が得られた。

Relation extraction is the task of extracting semantic relations between entities in a sentence. It is an essential part of some natural language processing tasks such as information extraction, knowledge extraction, and knowledge base population. The main motivations of this research stem from a lack of a dataset for relation extraction in the Persian language as well as the necessity of extracting knowledge from the growing big-data in the Persian language for different applications. In this paper, we present "PERLEX" as the first Persian dataset for relation extraction, which is an expert-translated version of the "Semeval-2010-Task-8" dataset. Moreover, this paper addresses Persian relation extraction utilizing state-of-the-art language-agnostic algorithms. We employ six different models for relation extraction on the proposed bilingual dataset, including a non-neural model (as the baseline), three neural models, and two deep learning models fed by multilingual-BERT contextual word representations. The experiments result in the maximum f-score 77.66% (provided by BERTEM-MTB method) as the state-of-the-art of relation extraction in the Persian language.
翻訳日:2022-12-03 13:06:33 公開日:2020-05-13
# 敵の例も役に立つ!

Adversarial examples are useful too! ( http://arxiv.org/abs/2005.06107v1 )

ライセンス: Link先を確認
Ali Borji(参考訳) ディープラーニングは長い道のりを歩み、前例のない成功を収めました。 しかし、高い精度にもかかわらず、深層モデルは脆く、知覚できない逆境の摂動によって容易に騙される。 一般的な推論時攻撃とは対照的に、バックドア攻撃 (\aka Trojan) はモデル構築の訓練段階をターゲットにしており、戦闘が極めて困難である。 a) モデルが通常,試験セット上で振る舞うこと,及び b) 拡張摂動は軽微であり,わずかな訓練サンプルにしか影響しない。 本稿では,モデルがバックドア攻撃を受けたかどうかを判断する新しい手法を提案する。 このアイデアは、FGSMのような従来の攻撃を使用して、ターゲットまたは未ターゲットの敵の例を生成し、それらを分類器に返送する。 異なるカテゴリの画像の統計(ここでは単にマップを意味する)を計算し、それらを参照モデルの統計と比較することで、乱れた領域を視覚的に見つけ出し、攻撃を露呈することができる。

Deep learning has come a long way and has enjoyed an unprecedented success. Despite high accuracy, however, deep models are brittle and are easily fooled by imperceptible adversarial perturbations. In contrast to common inference-time attacks, Backdoor (\aka Trojan) attacks target the training phase of model construction, and are extremely difficult to combat since a) the model behaves normally on a pristine testing set and b) the augmented perturbations can be minute and may only affect few training samples. Here, I propose a new method to tell whether a model has been subject to a backdoor attack. The idea is to generate adversarial examples, targeted or untargeted, using conventional attacks such as FGSM and then feed them back to the classifier. By computing the statistics (here simply mean maps) of the images in different categories and comparing them with the statistics of a reference model, it is possible to visually locate the perturbed regions and unveil the attack.
翻訳日:2022-12-03 13:00:34 公開日:2020-05-13
# アトラスを用いた深層学習によるヒト胚脳のセグメンテーションと空間的アライメント

Towards segmentation and spatial alignment of the human embryonic brain using deep learning for atlas-based registration ( http://arxiv.org/abs/2005.06368v1 )

ライセンス: Link先を確認
Wietske A.P. Bastiaansen, Melek Rousian, R\'egine P.M. Steegers-Theunissen, Wiro J. Niessen, Anton Koning and Stefan Klein(参考訳) 本研究では,アトラスをベースとした登録のための教師なし深層学習手法を提案し,単一の枠組みで胚性脳のセグメンテーションと空間的アライメントを実現する。 提案手法は3dファーストトライメスター超音波の課題に対処するために設計した損失関数を持つ2つのシーケンシャルネットワークからなる。 第1部はアフィン変換を学習し、第2部はターゲット画像とアトラスとの間のボクセル回りの非剛性変形を学習する。 このネットワークをエンドツーエンドでトレーニングし、3dファーストトリメスター超音波の課題に類似するように設計された合成データセットの基盤的真理に対して検証した。 この方法は生後9週間で得られたヒト胚超音波量のデータセットでテストされ、いくつかの症例で脳のアライメントを示し、提案法に対するオープンな挑戦に対する洞察を与えた。 本手法は、3次元超音波による胚脳の空間的アライメントとセグメンテーションの完全自動化への有望なアプローチである。

We propose an unsupervised deep learning method for atlas based registration to achieve segmentation and spatial alignment of the embryonic brain in a single framework. Our approach consists of two sequential networks with a specifically designed loss function to address the challenges in 3D first trimester ultrasound. The first part learns the affine transformation and the second part learns the voxelwise nonrigid deformation between the target image and the atlas. We trained this network end-to-end and validated it against a ground truth on synthetic datasets designed to resemble the challenges present in 3D first trimester ultrasound. The method was tested on a dataset of human embryonic ultrasound volumes acquired at 9 weeks gestational age, which showed alignment of the brain in some cases and gave insight in open challenges for the proposed method. We conclude that our method is a promising approach towards fully automated spatial alignment and segmentation of embryonic brains in 3D ultrasound.
翻訳日:2022-12-03 12:59:50 公開日:2020-05-13
# 皮膚病変の局在とセグメンテーションのための検出器・セグメンタネットワーク

Detector-SegMentor Network for Skin Lesion Localization and Segmentation ( http://arxiv.org/abs/2005.06550v1 )

ライセンス: Link先を確認
Shreshth Saini (1), Divij Gupta (1), Anil Kumar Tiwari (1) ((1) Indian Institute of Technology Jodhpur)(参考訳) メラノーマ(Melanoma)は、早期に未診断となった皮膚癌の一種である。 非メラノーマ癌の方がメラノーマ癌より多いが、メラノーマ癌の方が致命的である。 悪性黒色腫の早期発見は,悪性黒色腫のタイムリーな診断に不可欠であり,遠隔部への転移を禁止している。 皮膚病変の分画は,皮膚内視鏡画像中の癌病変からメラノーマ癌を分類する上で重要なステップである。 皮膚画像の手動分割は非常に時間がかかり、エラーが発生しやすいため、インテリジェントで正確なアルゴリズムが必要である。 本研究では,ネットワーク・イン・ネットワーク畳み込みニューラルネットワーク(cnn)を用いた皮膚病変の分節化手法を提案する。 より高速な領域ベースのcnn(faster rcnn)を用いて前処理を行い、画像全体の病変の境界ボックスを予測し、その後、切り抜きてセグメンテーションネットワークに供給し、病変マスクを得る。 セグメンテーションネットワークは unet と hourglass のネットワークの組み合わせである。 私たちは、ISIC 2018データセットでモデルをトレーニングし、評価し、PH\textsuperscript{2}とISBI 2017データセットで相互検証しました。 提案手法は, isic 2018 データセットにおける dice 類似度係数 0.915 と精度 0.959 を, isbi 2017 データセットにおける dice 類似度係数 0.947 と精度 0.971 を上回った。

Melanoma is a life-threatening form of skin cancer when left undiagnosed at the early stages. Although there are more cases of non-melanoma cancer than melanoma cancer, melanoma cancer is more deadly. Early detection of melanoma is crucial for the timely diagnosis of melanoma cancer and prohibit its spread to distant body parts. Segmentation of skin lesion is a crucial step in the classification of melanoma cancer from the cancerous lesions in dermoscopic images. Manual segmentation of dermoscopic skin images is very time consuming and error-prone resulting in an urgent need for an intelligent and accurate algorithm. In this study, we propose a simple yet novel network-in-network convolution neural network(CNN) based approach for segmentation of the skin lesion. A Faster Region-based CNN (Faster RCNN) is used for preprocessing to predict bounding boxes of the lesions in the whole image which are subsequently cropped and fed into the segmentation network to obtain the lesion mask. The segmentation network is a combination of the UNet and Hourglass networks. We trained and evaluated our models on ISIC 2018 dataset and also cross-validated on PH\textsuperscript{2} and ISBI 2017 datasets. Our proposed method surpassed the state-of-the-art with Dice Similarity Coefficient of 0.915 and Accuracy 0.959 on ISIC 2018 dataset and Dice Similarity Coefficient of 0.947 and Accuracy 0.971 on ISBI 2017 dataset.
翻訳日:2022-12-03 12:59:32 公開日:2020-05-13
# ガウスのクラスタブルな混合をロバストに学習する

Robustly Learning any Clusterable Mixture of Gaussians ( http://arxiv.org/abs/2005.06417v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Samuel B. Hopkins, Daniel Kane, Sushrut Karmalkar(参考訳) 本研究では,外乱条件下での高次元ガウス混合の効率的な学習性について検討する。 成分が全変動距離で相互に分離された場合、この問題の多項式学習可能性を解決する。 具体的には、任意の定数数に対して、$k$ が多項式時間で実行され、理論上は$\tilde{O}(\epsilon)$ に近い最適誤差である$\tilde{O}(\epsilon)$ の成分を学習するアルゴリズムを、任意のコンポーネントのペアである$P_i, P_j$(つまり、$-TV(P_i, P_j)$) の重なりが$\mathrm{poly}(\epsilon)$ で有界であるという仮定の下で提供する。 我々の分離条件は、試料の正確なクラスタリングが可能な定性的に弱い仮定である。 特に、任意の共分散を持つ成分と、その共分散が十分に異なる限り、同じ手段を持つ成分が可能である。 oursは、k=2$でもこの問題に対する最初の多項式時間アルゴリズムである。 アルゴリズムは二乗法に基づく証明からアルゴリズムへのアプローチに従っている。 我々の主な技術的貢献は、ガウス混合体からのクラスターの新たな堅牢な同定可能性証明であり、これは、一定の度合いの正方形証明システムによって捉えることができる。 この証明の鍵となる要素は、SOS検出可能なアンチ濃度の新規使用と、パラメータ距離が小さい(次元に依存しない)ガウスのペアの新たな特徴である。

We study the efficient learnability of high-dimensional Gaussian mixtures in the outlier-robust setting, where a small constant fraction of the data is adversarially corrupted. We resolve the polynomial learnability of this problem when the components are pairwise separated in total variation distance. Specifically, we provide an algorithm that, for any constant number of components $k$, runs in polynomial time and learns the components of an $\epsilon$-corrupted $k$-mixture within information theoretically near-optimal error of $\tilde{O}(\epsilon)$, under the assumption that the overlap between any pair of components $P_i, P_j$ (i.e., the quantity $1-TV(P_i, P_j)$) is bounded by $\mathrm{poly}(\epsilon)$. Our separation condition is the qualitatively weakest assumption under which accurate clustering of the samples is possible. In particular, it allows for components with arbitrary covariances and for components with identical means, as long as their covariances differ sufficiently. Ours is the first polynomial time algorithm for this problem, even for $k=2$. Our algorithm follows the Sum-of-Squares based proofs to algorithms approach. Our main technical contribution is a new robust identifiability proof of clusters from a Gaussian mixture, which can be captured by the constant-degree Sum of Squares proof system. The key ingredients of this proof are a novel use of SoS-certifiable anti-concentration and a new characterization of pairs of Gaussians with small (dimension-independent) overlap in terms of their parameter distance.
翻訳日:2022-12-03 12:58:07 公開日:2020-05-13
# 予めトレーニングした非可逆・非訓練ネットワークを用いたサブスタンプフーリエ断層撮影

Subsampled Fourier Ptychography using Pretrained Invertible and Untrained Network Priors ( http://arxiv.org/abs/2005.07026v1 )

ライセンス: Link先を確認
Fahad Shamshad, Asif Hanif, Ali Ahmed(参考訳) 近年, サブサンプリングされたフーリエ・プチコグラフィー(FP)は, 極めて低サンプリング率と高ノイズの再現性において有望な結果を示した。 しかし、これらの事前訓練された生成前の大きな欠点の1つは、その限定的な表現能力である。 さらに、これらの生成モデルをトレーニングするには、FPの文脈で取得できない顔や数字のような特定の種類の画像の、多数の完全に保存されたクリーンなサンプルにアクセスする必要がある。 本稿では,事前学習した非可逆生成モデルと未学習生成モデルのパワーを利用して,多数のサンプル画像(生成モデルの訓練用)の表現誤り問題と要求を緩和する。 広範にわたる実験を通して, 低サンプリング率と高雑音レベルに対するFPの文脈における提案手法の有効性を示す。

Recently pretrained generative models have shown promising results for subsampled Fourier Ptychography (FP) in terms of quality of reconstruction for extremely low sampling rate and high noise. However, one of the significant drawbacks of these pretrained generative priors is their limited representation capabilities. Moreover, training these generative models requires access to a large number of fully-observed clean samples of a particular class of images like faces or digits that is prohibitive to obtain in the context of FP. In this paper, we propose to leverage the power of pretrained invertible and untrained generative models to mitigate the representation error issue and requirement of a large number of example images (for training generative models) respectively. Through extensive experiments, we demonstrate the effectiveness of proposed approaches in the context of FP for low sampling rates and high noise levels.
翻訳日:2022-12-03 12:57:36 公開日:2020-05-13
# DeepRobust: 敵の攻撃と防御のためのPyTorchライブラリ

DeepRobust: A PyTorch Library for Adversarial Attacks and Defenses ( http://arxiv.org/abs/2005.06149v1 )

ライセンス: Link先を確認
Yaxin Li, Wei Jin, Han Xu, Jiliang Tang(参考訳) DeepRobustはPyTorchの逆習学習ライブラリで、この研究分野を育成するための総合的で使いやすいプラットフォームの構築を目指している。 現在、画像ドメインに10以上の攻撃アルゴリズムと8つの防御アルゴリズム、グラフドメインに9つの攻撃アルゴリズムと4つの防御アルゴリズムが含まれている。 本マニュアルでは,deeprobustの主内容に詳細な指示を加えて紹介する。 ライブラリは更新され、https://github.com/DSE-MSU/DeepRobust.comで見ることができる。

DeepRobust is a PyTorch adversarial learning library which aims to build a comprehensive and easy-to-use platform to foster this research field. It currently contains more than 10 attack algorithms and 8 defense algorithms in image domain and 9 attack algorithms and 4 defense algorithms in graph domain, under a variety of deep learning architectures. In this manual, we introduce the main contents of DeepRobust with detailed instructions. The library is kept updated and can be found at https://github.com/DSE-MSU/DeepRobust.
翻訳日:2022-12-03 12:51:01 公開日:2020-05-13
# 量子デバイス校正における巨人の肩の昇圧

Boosting on the shoulders of giants in quantum device calibration ( http://arxiv.org/abs/2005.06194v1 )

ライセンス: Link先を確認
Alex Wozniakowski, Jayne Thompson, Mile Gu, Felix Binder(参考訳) 光文字認識などの従来の機械学習アプリケーションは、コンピュータがルーチンタスクを実行するように明示的にプログラムできないことから生まれた。 この文脈では、学習アルゴリズムは通常、巨大なデータセットに存在する証拠からのみモデルを導き出す。 しかし、いくつかの科学的分野において、データの豊富な取得は非現実的な高級品であり、以前の科学的発見に基づく領域の明確なモデルが存在する。 本稿では,事前の科学的発見を活用し,科学的モデルに対する一般化可能性を向上させるための新しい機械学習手法を提案する。 超伝導量子デバイス上でのハミルトニアンの全エネルギースペクトルの予測にその効果を示す。 われわれの精度は現在の最先端を20倍以上上回っている。 我々のアプローチは、人工知能が「巨人の肩に立つ」ことによってさらに強化されることを示す。

Traditional machine learning applications, such as optical character recognition, arose from the inability to explicitly program a computer to perform a routine task. In this context, learning algorithms usually derive a model exclusively from the evidence present in a massive dataset. Yet in some scientific disciplines, obtaining an abundance of data is an impractical luxury, however; there is an explicit model of the domain based upon previous scientific discoveries. Here we introduce a new approach to machine learning that is able to leverage prior scientific discoveries in order to improve generalizability over a scientific model. We show its efficacy in predicting the entire energy spectrum of a Hamiltonian on a superconducting quantum device, a key task in present quantum computer calibration. Our accuracy surpasses the current state-of-the-art by over $20\%.$ Our approach thus demonstrates how artificial intelligence can be further enhanced by "standing on the shoulders of giants."
翻訳日:2022-12-03 12:50:37 公開日:2020-05-13
# シングルアクセスポイントCSI屋内位置推定のためのCNN-LSTM量子化器

A CNN-LSTM Quantifier for Single Access Point CSI Indoor Localization ( http://arxiv.org/abs/2005.06394v1 )

ライセンス: Link先を確認
Minh Tu Hoang, Brosnan Yuen, Kai Ren, Xiaodai Dong, Tao Lu, Robert Westendorp, Kishore Reddy(参考訳) 本稿では,Wi-Fiフィンガープリンティング屋内ローカライゼーションのための畳み込みニューラルネットワーク(CNN)と長寿命メモリ(LSTM)量子化器の併用ネットワーク構造を提案する。 分類モデルを用いた空間データのみを利用する従来の手法とは対照的に,我々のCNN-LSTMネットワークは受信したチャネル状態情報(CSI)の空間的特徴と時間的特徴を単一のルータから抽出する。 さらに,本提案ネットワークは,文献研究の大部分と同様,限られた分類モデルではなく定量化モデルを構築し,基準点と同一でない試験点の推定を可能にする。 csiの不安定性を分析し,包括的フィルタと正規化スキームを用いて緩和解を示す。 携帯電話 (Nexus 5) やノートパソコン (Intel 5300 NIC) など,何百ものテスト場所での大規模なオンサイト実験を通じて, ローカライゼーションの精度を調査した。 WiFiルータを1つだけ使うと、我々の構造は平均2.5〜mのローカライズ誤差を4〜m以下の誤差の$\mathrm{80\%}$で達成し、同じテスト環境下で約$\mathrm{50\%}$で他の報告アルゴリズムより優れている。

This paper proposes a combined network structure between convolutional neural network (CNN) and long-short term memory (LSTM) quantifier for WiFi fingerprinting indoor localization. In contrast to conventional methods that utilize only spatial data with classification models, our CNN-LSTM network extracts both space and time features of the received channel state information (CSI) from a single router. Furthermore, the proposed network builds a quantification model rather than a limited classification model as in most of the literature work, which enables the estimation of testing points that are not identical to the reference points. We analyze the instability of CSI and demonstrate a mitigation solution using a comprehensive filter and normalization scheme. The localization accuracy is investigated through extensive on-site experiments with several mobile devices including mobile phone (Nexus 5) and laptop (Intel 5300 NIC) on hundreds of testing locations. Using only a single WiFi router, our structure achieves an average localization error of 2.5~m with $\mathrm{80\%}$ of the errors under 4~m, which outperforms the other reported algorithms by approximately $\mathrm{50\%}$ under the same test environment.
翻訳日:2022-12-03 12:50:24 公開日:2020-05-13
# Crackovid: グループテストの最適化

Crackovid: Optimizing Group Testing ( http://arxiv.org/abs/2005.06413v1 )

ライセンス: Link先を確認
Louis Abraham, Gary B\'ecigneul, Bernhard Sch\"olkopf(参考訳) 我々は、通常グループテストと呼ばれる問題を、COVID-19の文脈で研究する。 患者から採取したサンプルが$n$であれば、テスト対象のサンプルの混合物をどうやって選び、情報の最大化と検査回数の最小化を図るべきか? 適応戦略と非適応戦略をともに考慮し,患者感染と検査誤差の両方について,事前のベイズアプローチをとる。 まず、情報理論に基づく数学的原理に基づく目標を提案する。 次に、遺伝的アルゴリズムを用いて非適応最適化戦略を最適化し、適応サブモジュラリティの数学的枠組みを活用し、グリーディ適応法に対する理論的保証を得る。

We study the problem usually referred to as group testing in the context of COVID-19. Given $n$ samples taken from patients, how should we select mixtures of samples to be tested, so as to maximize information and minimize the number of tests? We consider both adaptive and non-adaptive strategies, and take a Bayesian approach with a prior both for infection of patients and test errors. We start by proposing a mathematically principled objective, grounded in information theory. We then optimize non-adaptive optimization strategies using genetic algorithms, and leverage the mathematical framework of adaptive sub-modularity to obtain theoretical guarantees for the greedy-adaptive method.
翻訳日:2022-12-03 12:49:57 公開日:2020-05-13
# ODVICE:インタラクティブコホート抽出のためのオントロジー駆動型ビジュアル分析ツール

ODVICE: An Ontology-Driven Visual Analytic Tool for Interactive Cohort Extraction ( http://arxiv.org/abs/2005.06434v1 )

ライセンス: Link先を確認
Mohamed Ghalwash, Zijun Yao, Prithwish Chakrabotry, James Codella, Daby Sow(参考訳) 電子健康記録(EHR)の普及により、研究者は様々な医学的問題の研究が可能となった。 調査中の仮説のコホート選択は、EHR分析の主要な考慮事項の1つである。 一般的な疾患では、EHRから抽出されたコホートは非常に限られた数の記録を含んでいる。 データ拡張方法は、主にシミュレートされたレコードを使用してこの問題に対処するために、他のドメインでうまく適用されている。 本稿では,医療概念のオントロジーを利用したデータ拡張フレームワークODVICEについて,新しいオントロジーガイド付きモンテカルログラフスパンニングアルゴリズムを用いて,記録を体系的に拡張する。 このツールは、エンドユーザが拡張プロセスを制御するための小さなインタラクティブコントロールセットを指定することができる。 2つの学習課題を対象としたMIMIC-IIIデータセットの研究によってODVICEの重要性を分析する。 以上の結果から, ODVICE拡張コーホートの予測性能は, 非拡張データセットや他のデータ拡張戦略に比べて, 曲線下面積(AUC)が約30%向上していることが示唆された。

Increased availability of electronic health records (EHR) has enabled researchers to study various medical questions. Cohort selection for the hypothesis under investigation is one of the main consideration for EHR analysis. For uncommon diseases, cohorts extracted from EHRs contain very limited number of records - hampering the robustness of any analysis. Data augmentation methods have been successfully applied in other domains to address this issue mainly using simulated records. In this paper, we present ODVICE, a data augmentation framework that leverages the medical concept ontology to systematically augment records using a novel ontologically guided Monte-Carlo graph spanning algorithm. The tool allows end users to specify a small set of interactive controls to control the augmentation process. We analyze the importance of ODVICE by conducting studies on MIMIC-III dataset for two learning tasks. Our results demonstrate the predictive performance of ODVICE augmented cohorts, showing ~30% improvement in area under the curve (AUC) over the non-augmented dataset and other data augmentation strategies.
翻訳日:2022-12-03 12:49:47 公開日:2020-05-13
# 教師付き機械学習によるコーディネートに基づくリソース割り当て

Coordinates-based Resource Allocation Through Supervised Machine Learning ( http://arxiv.org/abs/2005.06509v1 )

ライセンス: Link先を確認
Sahar Imtiaz, Sebastian Schiessl, Georgios P. Koudouridis and James Gross(参考訳) 次世代無線技術におけるユーザトラフィックの増大に対応するためには,システムリソースの適切な割り当てが不可欠である。 伝統的に、システムはリソース割り当てを最適化するためにユーザのチャネル状態情報(csi)に依存している。 将来の無線技術は、移動端末が送信機の直視下にある高密度ネットワーク配置に基づいており、端末の位置情報はチャネル条件を推定する代替手段を提供する。 本研究では,教師付き機械学習手法を用いたコーディネートに基づく資源割当方式を提案し,様々な伝搬条件下での従来の手法と比較して,この方式がいかに効率的に機能するかを検討する。 1つの送信機が1人のモバイルユーザーに提供する第1ステップとして設定された単純化システムを考える。 その結果、端末の利用可能な座標が誤っていても、座標ベースのリソース割当スキームはcsiベースのスキームに非常に近い性能を達成できることがわかった。 提案手法は, 実システムシミュレーションと一貫して良好に動作し, 4秒のトレーニング時間しか必要とせず, 適切なリソース割り当てを90マイクロ秒未満で予測し, 学習モデルのサイズは1kb未満である。

Appropriate allocation of system resources is essential for meeting the increased user-traffic demands in the next generation wireless technologies. Traditionally, the system relies on channel state information (CSI) of the users for optimizing the resource allocation, which becomes costly for fast-varying channel conditions. Considering that future wireless technologies will be based on dense network deployment, where the mobile terminals are in line-of-sight of the transmitters, the position information of terminals provides an alternative to estimate the channel condition. In this work, we propose a coordinates-based resource allocation scheme using supervised machine learning techniques, and investigate how efficiently this scheme performs in comparison to the traditional approach under various propagation conditions. We consider a simplistic system set up as a first step, where a single transmitter serves a single mobile user. The performance results show that the coordinates-based resource allocation scheme achieves a performance very close to the CSI-based scheme, even when the available coordinates of terminals are erroneous. The proposed scheme performs consistently well with realistic-system simulation, requiring only 4 s of training time, and the appropriate resource allocation is predicted in less than 90 microseconds with a learnt model of size less than 1 kB.
翻訳日:2022-12-03 12:49:28 公開日:2020-05-13
# 新製品の販売予測を改善するためのネットワークベース転送学習手法

A network-based transfer learning approach to improve sales forecasting of new products ( http://arxiv.org/abs/2005.06978v1 )

ライセンス: Link先を確認
Tristan Karb, Niklas K\"uhl, Robin Hirt, Varvara Glivici-Cotruta(参考訳) 機械学習や時系列予測などのデータ駆動手法は、食品小売分野での販売予測に広く利用されている。 しかし、新たに導入された製品では、正確なモデルのトレーニングに不十分なトレーニングデータを利用できる。 この場合、予測性能を向上させるために人間エキスパートシステムが実装される。 人間の専門家は、暗黙的かつ明示的なドメイン知識と、類似商品の歴史的販売に関する知識を、新製品の販売予測に頼っている。 転校学習という概念を応用し,上場商品と新製品の知識を伝達する分析手法を提案する。 ディープニューラルネットワークのためのネットワークベースのトランスファーラーニングアプローチは、食品販売予測領域におけるトランスファーラーニングの効率を調べるために設計されている。 さらに,異なる製品間での知識の共有方法や,伝達に最も適した製品を特定する方法について検討する。 提案手法を検証するため,オーストリアの食品小売会社のデータをもとに,新たに導入した食品の包括的ケーススタディを行う。 その結果, 食品販売予測におけるディープニューラルネットワークの予測精度は, 提案手法により効果的に向上することが示された。

Data-driven methods -- such as machine learning and time series forecasting -- are widely used for sales forecasting in the food retail domain. However, for newly introduced products insufficient training data is available to train accurate models. In this case, human expert systems are implemented to improve prediction performance. Human experts rely on their implicit and explicit domain knowledge and transfer knowledge about historical sales of similar products to forecast new product sales. By applying the concept of Transfer Learning, we propose an analytical approach to transfer knowledge between listed stock products and new products. A network-based Transfer Learning approach for deep neural networks is designed to investigate the efficiency of Transfer Learning in the domain of food sales forecasting. Furthermore, we examine how knowledge can be shared across different products and how to identify the products most suitable for transfer. To test the proposed approach, we conduct a comprehensive case study for a newly introduced product, based on data of an Austrian food retailing company. The experimental results show, that the prediction accuracy of deep neural networks for food sales forecasting can be effectively increased using the proposed approach.
翻訳日:2022-12-03 12:42:33 公開日:2020-05-13
# シーングラフを用いた構造化クエリに基づく画像検索

Structured Query-Based Image Retrieval Using Scene Graphs ( http://arxiv.org/abs/2005.06653v1 )

ライセンス: Link先を確認
Brigit Schroeder, Subarna Tripathi(参考訳) 構造化クエリは、単一のオブジェクト(例えば「woman」や「motorcycle」)と異なり、オブジェクトインタラクションの複雑さ(例えば「woman ride motorcycle」)をキャプチャできる。 したがって、構造化クエリを用いた検索は、単一のオブジェクト検索よりもはるかに有用であるが、より難しい問題である。 本稿では,画像検索手法の基盤としてシーングラフ埋め込みを用いる手法を提案する。 本研究では,シーングラフから得られる視覚的関係を構造化クエリとして利用する方法について検討する。 視覚的関係は、主観と対象を述語関係で接続されたノードとするシーングラフの有向部分グラフである。 特に、長い尾のCOCO-Stuffデータセットにある低-中頻度のオブジェクトでも高いリコールを達成でき、視覚的リレーションにインスパイアされた損失を追加することで、ベストケースではリコールを10%向上させることができる。

A structured query can capture the complexity of object interactions (e.g. 'woman rides motorcycle') unlike single objects (e.g. 'woman' or 'motorcycle'). Retrieval using structured queries therefore is much more useful than single object retrieval, but a much more challenging problem. In this paper we present a method which uses scene graph embeddings as the basis for an approach to image retrieval. We examine how visual relationships, derived from scene graphs, can be used as structured queries. The visual relationships are directed subgraphs of the scene graph with a subject and object as nodes connected by a predicate relationship. Notably, we are able to achieve high recall even on low to medium frequency objects found in the long-tailed COCO-Stuff dataset, and find that adding a visual relationship-inspired loss boosts our recall by 10% in the best case.
翻訳日:2022-12-03 12:42:17 公開日:2020-05-13
# 新たな筋刺激(EMS)ルアー・アンサンブル・ネットワーク・アルゴリズムを用いたサステナブルなレクリエーション漁獲による漁獲・放流の最大化

Sustainable Recreational Fishing Using a Novel Electrical Muscle Stimulation (EMS) Lure and Ensemble Network Algorithm to Maximize Catch and Release Survivability ( http://arxiv.org/abs/2006.10125v1 )

ライセンス: Link先を確認
Petteri Haverinen, Krithik Ramesh, Nathan Wang(参考訳) 世界で2億~7億アングルを持つsportfishingは、商用トロールの5倍も一般的だ。 世界中で何十万人もの雇用がスポーツ漁業産業と結びついており、水辺のコミュニティや漁業の保護団体にも何十億ドルもの収入をもたらしている。 しかし、レクリエーション漁業の人気は、規制が難しい水生生物多様性に脅かされている。 例えば、魚の過剰な個体群の25%はアングルサーに遡ることができる。 このアラーム統計は平均キャッチ・アンド・リリース死亡率43%で説明され、これは主にフック関連の怪我と不注意な水の取扱いによって引き起こされる。 本論文で提案する仮特許設計は,これらの課題をそれぞれ別々に解決し,シャープフックに代わる無害で低コストな代替手段として新規な電気筋肉刺激による釣り用ルアーを提案する。 初期の試作機では、200gのヨーロッパのパーチの顎を通して印加された90mAの電流が、必要な範囲で安全に2Nのリーリング張力をサポートすることを示した。 第2に、魚眼カメラのbobは、水中の映像をスマートフォンアプリにワイヤレス中継するように設計されている。そこでは、アンサンブル畳み込みニューラルネットワークが自動的に魚の種を分類し、その長さを推定し、地元の漁獲規制(最小サイズ、最大バッグ制限、キャッチシーズン)と交差する。 この能力は、アンカーが誤ってガイドラインに違反しないようにすることで過剰漁を減らし、魚を巻き込む必要がなくなる。 同時に、この安価で軽量でハイテクな発明は、世界の好きな時を保ちながら、レクリエーション漁をより持続可能なものにするパラダイムシフトである。

With 200-700 million anglers in the world, sportfishing is nearly five times more common than commercial trawling. Worldwide, hundreds of thousands of jobs are linked to the sportfishing industry, which generates billions of dollars for water-side communities and fisheries conservatories alike. However, the sheer popularity of recreational fishing poses threats to aquatic biodiversity that are hard to regulate. For example, as much as 25% of overfished populations can be traced to anglers. This alarming statistic is explained by the average catch and release mortality rate of 43%, which primarily results from hook-related injuries and careless out-of-water handling. The provisional-patented design proposed in this paper addresses both these problems separately First, a novel, electrical muscle stimulation based fishing lure is proposed as a harmless and low cost alternative to sharp hooks. Early prototypes show a constant electrical current of 90 mA applied through a 200g European perch's jaw can support a reeling tension of 2N - safely within the necessary ranges. Second, a fish-eye camera bob is designed to wirelessly relay underwater footage to a smartphone app, where an ensemble convolutional neural network automatically classifies the fish's species, estimates its length, and cross references with local and state fishing regulations (ie. minimum size, maximum bag limit, and catch season). This capability reduces overfishing by helping anglers avoid accidentally violating guidelines and eliminates the need to reel the fish in and expose it to negligent handling. IN conjunction, this cheap, lightweight, yet high-tech invention is a paradigm shift in preserving a world favorite pastime; while at the same time making recreational fishing more sustainable.
翻訳日:2022-12-03 12:41:49 公開日:2020-05-13
# 深部生成モデルによる大規模ヘイトスピーチ検出に向けて

Towards Hate Speech Detection at Large via Deep Generative Modeling ( http://arxiv.org/abs/2005.06370v1 )

ライセンス: Link先を確認
Tomer Wullach, Amir Adler, Einat Minkov(参考訳) ヘイトスピーチの検出はソーシャルメディアプラットフォームにおいて重要な問題であり、しばしば憎しみの拡散と身体的暴力の発火を許容しているとして非難される。 ヘイトスピーチ検出には、オンライン投稿やツイート監視のための高性能コンピューティングや、疑わしい投稿やツイートを毎日スクリーニングする何千もの人間専門家を含む圧倒的なリソースが必要である。 近年,数千のヘイトスピーチシーケンスのゆるやかなトレーニングデータセットを用いたヘイトスピーチの自動検出のためのディープラーニング(dl)ベースのソリューションが提案されている。 これらの手法は特定のデータセットでよく機能するが、新しいヘイトスピーチシーケンスを検出する能力は制限されており、研究されていない。 データ駆動型アプローチであるDLは、列車のデータセットサイズと多様性のスケールアップが達成されると、他の手法を超えることはよく知られている。 そこで,我々はまず,深層生成言語モデルを用いて生成した100万件の現実的憎悪と非憎悪シーケンスのデータセットを提示する。 さらに,この生成したデータセットを用いて,dlベースのヘイト音声検出装置を訓練し,5つのパブリックヘイト音声データセットにおける一貫性と大幅なパフォーマンス向上を実証する。 そこで,提案手法は,多種多様なヘイト音声列の高感度検出を可能にし,完全自動解への道を開く。

Hate speech detection is a critical problem in social media platforms, being often accused for enabling the spread of hatred and igniting physical violence. Hate speech detection requires overwhelming resources including high-performance computing for online posts and tweets monitoring as well as thousands of human experts for daily screening of suspected posts or tweets. Recently, Deep Learning (DL)-based solutions have been proposed for automatic detection of hate speech, using modest-sized training datasets of few thousands of hate speech sequences. While these methods perform well on the specific datasets, their ability to detect new hate speech sequences is limited and has not been investigated. Being a data-driven approach, it is well known that DL surpasses other methods whenever a scale-up in train dataset size and diversity is achieved. Therefore, we first present a dataset of 1 million realistic hate and non-hate sequences, produced by a deep generative language model. We further utilize the generated dataset to train a well-studied DL-based hate speech detector, and demonstrate consistent and significant performance improvements across five public hate speech datasets. Therefore, the proposed solution enables high sensitivity detection of a very large variety of hate speech sequences, paving the way to a fully automatic solution.
翻訳日:2022-12-03 12:41:16 公開日:2020-05-13
# 遺伝的アルゴリズムを用いたエッジ検出におけるセルオートマトンの進化

Using Genetic Algorithm To Evolve Cellular Automata In Performing Edge Detection ( http://arxiv.org/abs/2005.06142v1 )

ライセンス: Link先を確認
Karan Nayak(参考訳) セルオートマトン(Cellular Automatica)は、複雑性の一般的なモデルとして表される離散的および計算モデルである。 これらは様々な応用において、提示されたモデルの一般化された振る舞いを導出するために用いられる。 本稿では1つの応用例を挙げる。 我々は遺伝的アルゴリズムを用いて画像のエッジ検出を試みている。 ここでの目的と意図は、提案する遺伝的アルゴリズムの機能と性能を分析することである。 遺伝的アルゴリズムは与えられた問題の一般的な解を描写または取得するために用いられる。 GAのこの特徴を用いて、我々は細胞オートマトンを進化させ、それが望ましい結果にどのように収束するかを示した。

Cellular automata are discrete and computational models thatcan be shown as general models of complexity. They are used in varied applications to derive the generalized behavior of the presented model. In this paper we have took one such application. We have made an effort to perform edge detection on an image using genetic algorithm. The purpose and the intention here is to analyze the capability and performance of the suggested genetic algorithm. Genetic algorithms are used to depict or obtain a general solution of given problem. Using this feature of GA we have tried to evolve the cellular automata and shown that how with time it converges to the desired results.
翻訳日:2022-12-03 12:40:06 公開日:2020-05-13
# リレーショナルネットワークを用いたファッション推薦と相性予測

Fashion Recommendation and Compatibility Prediction Using Relational Network ( http://arxiv.org/abs/2005.06584v1 )

ライセンス: Link先を確認
Maryam Moosaei, Yusan Lin, Hao Yang(参考訳) Fashionは本質的に視覚的な概念であり、コンピュータビジョンと人工知能(AI)はこの領域の将来を形作る上でますます重要な役割を担っている。 学習したユーザの好みに基づいてファッション製品を推奨する研究が数多く行われている。 しかし、単一のアイテムを推奨するだけでなく、AIはユーザーが既に持っているアイテムからスタイリッシュな衣装を作るのに役立つ。 互換性は、単一アイテムからスタイリッシュな衣装を作る上で重要な要素である。 これまでの研究は主にペアワイド互換性のモデリングに重点を置いてきた。 服全体を考えるアプローチはいくつかあるが、これらのアプローチには、豊富な意味情報、カテゴリラベル、アイテムの固定順序といった制限がある。 したがって、そのような情報が得られない場合、互換性を効果的に決定できない。 本研究では、新しい互換性学習モデルであるFashion RNとFashionRN-VSEを開発するために、Relation Network(RN)を採用し、既存のアプローチの限界に対処する。 fashionrnは、任意の数のアイテムを含む衣装全体の互換性を、任意の順序で学習する。 我々はPolyvoreのウェブサイトから収集した49,740の服の大規模なデータセットを用いてモデルを評価した。 実験の結果, 適合性予測と補間試験の両方において, 文献の代替法と比較して, 美術性能が定量的に評価された。 FashionRNが学習したアイテムの埋め込みは、ファッションアイテム間の互換性を示していることも、定性的に示している。

Fashion is an inherently visual concept and computer vision and artificial intelligence (AI) are playing an increasingly important role in shaping the future of this domain. Many research has been done on recommending fashion products based on the learned user preferences. However, in addition to recommending single items, AI can also help users create stylish outfits from items they already have, or purchase additional items that go well with their current wardrobe. Compatibility is the key factor in creating stylish outfits from single items. Previous studies have mostly focused on modeling pair-wise compatibility. There are a few approaches that consider an entire outfit, but these approaches have limitations such as requiring rich semantic information, category labels, and fixed order of items. Thus, they fail to effectively determine compatibility when such information is not available. In this work, we adopt a Relation Network (RN) to develop new compatibility learning models, Fashion RN and FashionRN-VSE, that addresses the limitations of existing approaches. FashionRN learns the compatibility of an entire outfit, with an arbitrary number of items, in an arbitrary order. We evaluated our model using a large dataset of 49,740 outfits that we collected from Polyvore website. Quantitatively, our experimental results demonstrate state of the art performance compared with alternative methods in the literature in both compatibility prediction and fill-in-the-blank test. Qualitatively, we also show that the item embedding learned by FashionRN indicate the compatibility among fashion items.
翻訳日:2022-12-03 12:39:55 公開日:2020-05-13
# 知識トレースのための解釈可能な深層学習モデルに向けて

Towards Interpretable Deep Learning Models for Knowledge Tracing ( http://arxiv.org/abs/2005.06139v1 )

ライセンス: Link先を確認
Yu Lu, Deliang Wang, Qinggang Meng, Penghe Chen(参考訳) 学習者の知識状態をモデル化する重要な手法として,知的学習システムやMOOCプラットフォームをサポートするために,従来の知識追跡(KT)モデルが広く用いられている。 ディープラーニング技術の急速な進歩によって駆動されるディープニューラルネットワークは、予測性能を改善するために、最近、新しいKTモデルを設計するために採用されている。 しかしながら、これらのモデルの解釈可能性の欠如は、その出力と動作機構が不透明な決定プロセスと複雑な内部構造に悩まされているため、その実践的応用を困難にしている。 そこで我々は,深層学習に基づく知識追跡(DLKT)モデルの解釈可能性問題に対処するポストホック手法を提案する。 具体的には、モデルの出力層から入力層への関連性を逆伝搬することにより、RNNベースのDLKTモデルの解釈にLRP法を適用することに焦点を当てる。 実験の結果,LRP法を用いてDLKTモデルの予測を解釈し,問題レベルと概念レベルの両方から計算された妥当性スコアを部分的に検証した。 我々は,DLKTモデルを完全に解釈し,教育分野における実践的応用を促進するための確かなステップであると考えている。

As an important technique for modeling the knowledge states of learners, the traditional knowledge tracing (KT) models have been widely used to support intelligent tutoring systems and MOOC platforms. Driven by the fast advancements of deep learning techniques, deep neural network has been recently adopted to design new KT models for achieving better prediction performance. However, the lack of interpretability of these models has painfully impeded their practical applications, as their outputs and working mechanisms suffer from the intransparent decision process and complex inner structures. We thus propose to adopt the post-hoc method to tackle the interpretability issue for deep learning based knowledge tracing (DLKT) models. Specifically, we focus on applying the layer-wise relevance propagation (LRP) method to interpret RNN-based DLKT model by backpropagating the relevance from the model's output layer to its input layer. The experiment results show the feasibility using the LRP method for interpreting the DLKT model's predictions, and partially validate the computed relevance scores from both question level and concept level. We believe it can be a solid step towards fully interpreting the DLKT models and promote their practical applications in the education domain.
翻訳日:2022-12-03 10:17:03 公開日:2020-05-13
# モンテカルロドロップアウトオートエンコーダを用いた生体医学データに対する多重インプテーション

Multiple Imputation for Biomedical Data using Monte Carlo Dropout Autoencoders ( http://arxiv.org/abs/2005.06173v1 )

ライセンス: Link先を確認
Kristian Miok, Dong Nguyen-Doan, Marko Robnik-\v{S}ikonja and Daniela Zaharie(参考訳) 複雑な実験的な設定のため、バイオメディカルデータでは欠落する値が一般的である。 この問題に対処するため、不完全なインスタンスを無視することから様々なデータ計算アプローチまで、多くの手法が提案されている。 近年のディープニューラルネットワークの台頭により、不足するデータ計算の分野は、データ分散のモデリングに向けられている。 本稿では,(可変)オートエンコーダ内のモンテカルロドロップアウトに基づくアプローチを提案する。このアプローチは,データの分散に対する適応性が極めて良好であるだけでなく,特定のインスタンスに適応した新たなデータの生成も可能にする。 提案手法により,計算誤差と予測類似性を改善することができることを示す。

Due to complex experimental settings, missing values are common in biomedical data. To handle this issue, many methods have been proposed, from ignoring incomplete instances to various data imputation approaches. With the recent rise of deep neural networks, the field of missing data imputation has oriented towards modelling of the data distribution. This paper presents an approach based on Monte Carlo dropout within (Variational) Autoencoders which offers not only very good adaptation to the distribution of the data but also allows generation of new data, adapted to each specific instance. The evaluation shows that the imputation error and predictive similarity can be improved with the proposed approach.
翻訳日:2022-12-03 10:16:27 公開日:2020-05-13
# ターゲット正規化とモメンタムが染料ReLUに及ぼす影響

The effect of Target Normalization and Momentum on Dying ReLU ( http://arxiv.org/abs/2005.06195v1 )

ライセンス: Link先を確認
Isac Arnekvist, J. Frederico Carvalho, Danica Kragic and Johannes A. Stork(参考訳) 運動量によるパラメータの最適化、データ値の正規化、修正線形単位(ReLU)の使用は、ニューラルネットワーク(NN)回帰において一般的な選択である。 ReLUは人気があるが、一定の機能と"ディー"に崩壊し、モデルから効果的にコントリビューションを取り除くことができる。 いくつかの軽減策が知られているが、最適化中にReLUが死滅する根本的な理由は、現時点では理解されていない。 本稿では、目標正規化と運動量による死のReLUへの影響について考察する。 単位分散目標が十分に動機付けられており、ターゲット分散が0に近づくと、ReLUはより簡単に死滅する。 この問題をさらに調査するため,離散時間線形自律システムの解析を行い,単一のreluを持つモデルとの関連性と,共通性がreluの死亡にどのように影響するかを理論的に示す。 また, 単一ReLUモデルの勾配を解析して, 死亡するReLUに対応するサドル点と領域を同定し, 運動量を用いた場合のパラメータの進化について検討する。 最後に,残差ネットワークを含む深いモデルでは,この問題が持続し,悪化していることが実証的に示される。

Optimizing parameters with momentum, normalizing data values, and using rectified linear units (ReLUs) are popular choices in neural network (NN) regression. Although ReLUs are popular, they can collapse to a constant function and "die", effectively removing their contribution from the model. While some mitigations are known, the underlying reasons of ReLUs dying during optimization are currently poorly understood. In this paper, we consider the effects of target normalization and momentum on dying ReLUs. We find empirically that unit variance targets are well motivated and that ReLUs die more easily, when target variance approaches zero. To further investigate this matter, we analyze a discrete-time linear autonomous system, and show theoretically how this relates to a model with a single ReLU and how common properties can result in dying ReLU. We also analyze the gradients of a single-ReLU model to identify saddle points and regions corresponding to dying ReLU and how parameters evolve into these regions when momentum is used. Finally, we show empirically that this problem persist, and is aggravated, for deeper models including residual networks.
翻訳日:2022-12-03 10:16:16 公開日:2020-05-13
# 説明可能な強化学習: 調査

Explainable Reinforcement Learning: A Survey ( http://arxiv.org/abs/2005.06247v1 )

ライセンス: Link先を確認
Erika Puiutta and Eric MSP Veith(参考訳) 説明可能な人工知能(XAI)、すなわちより透明で解釈可能なAIモデルの開発は、ここ数年で勢いを増している。 これは、強力なユビキタスツールへの成長と合わせて、AIモデルは1つの有害な特性、すなわちパフォーマンス-透明性トレードオフを示すという事実による。 これは、モデルの内部動作が複雑になるほど、その予測や決定が達成された方法が明確でないという事実を記述する。 しかし、特にシステムが自律的に学習する強化学習(rl)のような機械学習(ml)手法を考えると、その決定の基盤となる推論を理解する必要性が明らかになる。 我々の知る限りでは、説明可能な強化学習(XRL)の方法の概要を提供する単一の研究は存在しないので、この調査はこのギャップに対処しようと試みる。 本稿では,問題の簡潔な要約,重要な用語の定義,現行のXRL手法の分類と評価について述べる。 私たちはそれを見つけました a) XRLメソッドの大多数は、本質的に単純なものではなく、複雑なモデルを模倣し、単純化することで機能し、 b)XRL(およびXAI)の手法は、心理学や哲学などの関連する分野の研究を考慮せずに、方程式の人的側面を考慮することをしばしば無視する。 したがって、XRLとXAIの分野全般において、効果的に進歩するために、生成した説明を(専門家でない)人間のユーザに適用するために、学際的な努力が必要である。

Explainable Artificial Intelligence (XAI), i.e., the development of more transparent and interpretable AI models, has gained increased traction over the last few years. This is due to the fact that, in conjunction with their growth into powerful and ubiquitous tools, AI models exhibit one detrimential characteristic: a performance-transparency trade-off. This describes the fact that the more complex a model's inner workings, the less clear it is how its predictions or decisions were achieved. But, especially considering Machine Learning (ML) methods like Reinforcement Learning (RL) where the system learns autonomously, the necessity to understand the underlying reasoning for their decisions becomes apparent. Since, to the best of our knowledge, there exists no single work offering an overview of Explainable Reinforcement Learning (XRL) methods, this survey attempts to address this gap. We give a short summary of the problem, a definition of important terms, and offer a classification and assessment of current XRL methods. We found that a) the majority of XRL methods function by mimicking and simplifying a complex model instead of designing an inherently simple one, and b) XRL (and XAI) methods often neglect to consider the human side of the equation, not taking into account research from related fields like psychology or philosophy. Thus, an interdisciplinary effort is needed to adapt the generated explanations to a (non-expert) human user in order to effectively progress in the field of XRL and XAI in general.
翻訳日:2022-12-03 10:15:55 公開日:2020-05-13
# 定期血液検査による中等度covid-19および他のウイルス性肺炎のトリエイジング

Triaging moderate COVID-19 and other viral pneumonias from routine blood tests ( http://arxiv.org/abs/2005.06546v1 )

ライセンス: Link先を確認
Forrest Sheng Bao, Youbiao He, Jie Liu, Yuanfang Chen, Qian Li, Christina R. Zhang, Lei Han, Baoli Zhu, Yaorong Ge, Shi Chen, Ming Xu, Liu Ouyang(参考訳) 新型コロナウイルス(COVID-19)は世界中で致命的な結果をもたらしている。 感染性および他の肺炎との臨床的類似性により、covid-19と非covid-19ウイルス性肺炎に感染した患者を優先的に分離することが課題となっている。 しかし、新型コロナウイルスの検査は、米国のような先進国でも既存の方法の可用性とコストによって大幅に制限されている。 日常的な血液検査が広く利用可能であることに興味をそそられ、機械学習の力を利用して新型コロナウイルス検査に利用することを提案する。 この課題に対処するために、実証された2つの機械学習モデルファミリー、ランダムフォレスト(RF)とサポートベクターマシン(SVM)が採用されている。 208名の中等度患者と86名の非共生型中等度ウイルス性肺炎患者から血液データに基づいてトレーニングした結果、svmベースの分類器において、精度84%、感度88%、特異度80%、精度92%で最良の結果が得られる。 結果は、機械学習と医療の両方の観点から説明できる。 プライバシ保護されたWebポータルは、医療従事者の実践を支援するために設定されており、トレーニングされたモデルがリリースされ、開発者は他のアプリケーションをさらに構築できる。 私たちの結果は、このパンデミックとの戦いを支援し、より大きな人口に対する我々のアプローチの臨床的検証を歓迎できることを願っています。

The COVID-19 is sweeping the world with deadly consequences. Its contagious nature and clinical similarity to other pneumonias make separating subjects contracted with COVID-19 and non-COVID-19 viral pneumonia a priority and a challenge. However, COVID-19 testing has been greatly limited by the availability and cost of existing methods, even in developed countries like the US. Intrigued by the wide availability of routine blood tests, we propose to leverage them for COVID-19 testing using the power of machine learning. Two proven-robust machine learning model families, random forests (RFs) and support vector machines (SVMs), are employed to tackle the challenge. Trained on blood data from 208 moderate COVID-19 subjects and 86 subjects with non-COVID-19 moderate viral pneumonia, the best result is obtained in an SVM-based classifier with an accuracy of 84%, a sensitivity of 88%, a specificity of 80%, and a precision of 92%. The results are found explainable from both machine learning and medical perspectives. A privacy-protected web portal is set up to help medical personnel in their practice and the trained models are released for developers to further build other applications. We hope our results can help the world fight this pandemic and welcome clinical verification of our approach on larger populations.
翻訳日:2022-12-03 10:14:56 公開日:2020-05-13
# 探索のための自己組織化階層表現の進歩的成長

Progressive growing of self-organized hierarchical representations for exploration ( http://arxiv.org/abs/2005.06369v1 )

ライセンス: Link先を確認
Mayalen Etcheverry, Pierre-Yves Oudeyer, Chris Reinke(参考訳) 未知の環境における構造やスキルの多様性を自律的に発見し、学習できる設計エージェントは、生涯にわたる機械学習の鍵となる。 中心的な課題は、発見されている構造の地図を段階的に構築し、さらに探索するためにそれを再利用するために、インクリメンタルな表現をどのように学習するかである。 この課題に対処するために、我々はいくつかの重要な機能を特定し、ターゲットとする。 まず, 永続的な表現を構築し, 探索過程を通じて破滅的な忘れ物を避けることを目的とする。 第2に、複雑な高次元環境における構造の多様性(および関連するスキル)を発見できる表現の多様性を学習することを目的とする。 第3に,エージェントの発見を粗い方法で構造化できる表現をターゲットとした。 最後に,このような表現の再利用を目標として,例えば人的指導の活用など,"興味をそそる"タイプの多様性への探索を進める。 状態表現学習における現在のアプローチは、一般的にこれらすべての機能を有効にしないモノリシックアーキテクチャに依存している。 そこで本研究では, HOLMES と呼ばれる探索成層のための観測潜在モデル階層を段階的に構築する新しい手法を提案する。 この手法は、動的モジュラーモデルアーキテクチャを用いて、本質的に動機付けされたゴール探索プロセス(IMGEP)を用いた表現学習を行う。 Reinke et al. (2019) の実験フレームワークを検証した結果から, 多様な自己組織化パターンの自動発見の分野における成果を示す。

Designing agent that can autonomously discover and learn a diversity of structures and skills in unknown changing environments is key for lifelong machine learning. A central challenge is how to learn incrementally representations in order to progressively build a map of the discovered structures and re-use it to further explore. To address this challenge, we identify and target several key functionalities. First, we aim to build lasting representations and avoid catastrophic forgetting throughout the exploration process. Secondly we aim to learn a diversity of representations allowing to discover a "diversity of diversity" of structures (and associated skills) in complex high-dimensional environments. Thirdly, we target representations that can structure the agent discoveries in a coarse-to-fine manner. Finally, we target the reuse of such representations to drive exploration toward an "interesting" type of diversity, for instance leveraging human guidance. Current approaches in state representation learning rely generally on monolithic architectures which do not enable all these functionalities. Therefore, we present a novel technique to progressively construct a Hierarchy of Observation Latent Models for Exploration Stratification, called HOLMES. This technique couples the use of a dynamic modular model architecture for representation learning with intrinsically-motivated goal exploration processes (IMGEPs). The paper shows results in the domain of automated discovery of diverse self-organized patterns, considering as testbed the experimental framework from Reinke et al. (2019).
翻訳日:2022-12-03 10:08:14 公開日:2020-05-13
# videoqaにおける時間的局所化のための集束マッチングとフレーム選択ゲーティング

Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA ( http://arxiv.org/abs/2005.06409v1 )

ライセンス: Link先を確認
Hyounghun Kim, Zineng Tang, Mohit Bansal(参考訳) ビデオは豊富な情報を伝える。 ビデオクリップには人・物間の動的時空間的関係と多様なマルチモーダルイベントが存在する。 したがって,映像から正確な情報を抽出できる自動モデルを開発することが重要である。 ビデオの質問に答えることは、このようなAI能力を評価するタスクの1つだ。 本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連のある質問情報を求めるビデオ質問応答モデルを提案する。 具体的には,まず高密度画像キャプションを用いて,被写体とその詳細な局所領域や行動の識別を支援し,そのモデルが質問に対する回答に有用な追加情報(明示的なテキスト形式でのマッチング)を提供する。 さらに,本モデルは,二段階注意(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己/クロス統合,さらに,より関連性の高い情報を分類器に渡すゲートも構成する。 最後に、フレーム選択問題をマルチラベル分類タスクとして用い、人間の重要アノテーションでモデルをよりよく監視するために、IOFSM(In-andOut Frame Score Margin)とBBCE(Ba balanced Binary Cross-Entropy)という2つの損失関数を導入した。 当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,挑戦的なTVQAデータセット上で評価され,全体のモデルが最先端(74.09%対70.52%)よりも優れています。 また,単語,オブジェクト,フレームレベルの可視化研究も行った。 私たちのコードは、https://github.com/hyounghk/VideoQADenseCapFrameGate-ACL2020で公開されています。

Videos convey rich information. Dynamic spatio-temporal relationships between people/objects, and diverse multimodal events are present in a video clip. Hence, it is important to develop automated models that can accurately extract such information from videos. Answering questions on videos is one of the tasks which can evaluate such AI abilities. In this paper, we propose a video question answering model which effectively integrates multi-modal input sources and finds the temporally relevant information to answer questions. Specifically, we first employ dense image captions to help identify objects and their detailed salient regions and actions, and hence give the model useful extra information (in explicit textual format to allow easier matching) for answering questions. Moreover, our model is also comprised of dual-level attention (word/object and frame level), multi-head self/cross-integration for different sources (video and dense captions), and gates which pass more relevant information to the classifier. Finally, we also cast the frame selection problem as a multi-label classification task and introduce two loss functions, In-andOut Frame Score Margin (IOFSM) and Balanced Binary Cross-Entropy (BBCE), to better supervise the model with human importance annotations. We evaluate our model on the challenging TVQA dataset, where each of our model components provides significant gains, and our overall model outperforms the state-of-the-art by a large margin (74.09% versus 70.52%). We also present several word, object, and frame level visualization studies. Our code is publicly available at: https://github.com/hyounghk/VideoQADenseCapFrameGate-ACL2020
翻訳日:2022-12-03 10:07:54 公開日:2020-05-13
# ゼロショット学習のための生物学的特徴強調フレームワーク

A Biologically Inspired Feature Enhancement Framework for Zero-Shot Learning ( http://arxiv.org/abs/2005.08704v1 )

ライセンス: Link先を確認
Zhongwu Xie, Weipeng Cao, Xizhao Wang, Zhong Ming, Jingjing Zhang, Jiyong Zhang(参考訳) ゼロショット学習(zsl)アルゴリズムのほとんどは、通常、ディープニューラルネットワークを使用してimagenetデータセットでトレーニングされる特徴抽出器として、事前学習されたモデルを使用している。 事前訓練されたモデルに埋め込まれた特徴情報の豊かさは、ZSLモデルが限られたトレーニングサンプルからより有用な特徴を抽出するのに役立ちます。 しかし、時として、現在のZSLタスクのトレーニングデータセットとImageNetデータセットの差が大きすぎるため、事前トレーニングされたモデルの使用はZSLモデルの性能に明らかな助けやネガティブな影響を与えない。 そこで本研究では,ZSLのための生物学的機能強化フレームワークを提案する。 具体的には,zslモデルの特徴抽出機能を強化するために補助データセットを用いた2チャネル学習フレームワークを設計し,生物分類学の知識に基づく補助データセットの選択を導く新しい手法を提案する。 実験結果から,提案手法はZSLモデルの一般化能力を効果的に向上し,3つのベンチマークZSLタスクの最先端結果が得られることが示された。 また,特徴可視化による実験現象についても説明した。

Most of the Zero-Shot Learning (ZSL) algorithms currently use pre-trained models as their feature extractors, which are usually trained on the ImageNet data set by using deep neural networks. The richness of the feature information embedded in the pre-trained models can help the ZSL model extract more useful features from its limited training samples. However, sometimes the difference between the training data set of the current ZSL task and the ImageNet data set is too large, which may lead to the use of pre-trained models has no obvious help or even negative impact on the performance of the ZSL model. To solve this problem, this paper proposes a biologically inspired feature enhancement framework for ZSL. Specifically, we design a dual-channel learning framework that uses auxiliary data sets to enhance the feature extractor of the ZSL model and propose a novel method to guide the selection of the auxiliary data sets based on the knowledge of biological taxonomy. Extensive experimental results show that our proposed method can effectively improve the generalization ability of the ZSL model and achieve state-of-the-art results on three benchmark ZSL tasks. We also explained the experimental phenomena through the way of feature visualization.
翻訳日:2022-12-03 10:07:24 公開日:2020-05-13
# INFOTABS: 半構造化データとしてのテーブルの推論

INFOTABS: Inference on Tables as Semi-structured Data ( http://arxiv.org/abs/2005.06117v1 )

ライセンス: Link先を確認
Vivek Gupta, Maitrey Mehta, Pegah Nokhiz and Vivek Srikumar(参考訳) 本稿では,半構造化の集計テキストがユビキタスであることを示す。その理解には,テキスト断片の意味を理解するだけでなく,それらの間の暗黙の関係も必要である。 このようなデータは、情報に対する理由を理解するためのテスト場として証明できる、と私たちは主張する。 そこで本研究では,wikipediaのインフォボックスから抽出された表である前提に基づく人文によるテキスト仮説からなる,infotabsという新しいデータセットを提案する。 解析の結果, 半構造化, マルチドメイン, 異質性は複雑で多面的な推論を許容することがわかった。 実験の結果、人間アノテータはテーブル-仮説のペア間の関係について合意するが、いくつかの標準的なモデリング戦略はタスクで失敗し、テーブルについての推論が難しいモデリング課題を引き起こす可能性が示唆された。

In this paper, we observe that semi-structured tabulated text is ubiquitous; understanding them requires not only comprehending the meaning of text fragments, but also implicit relationships between them. We argue that such data can prove as a testing ground for understanding how we reason about information. To study this, we introduce a new dataset called INFOTABS, comprising of human-written textual hypotheses based on premises that are tables extracted from Wikipedia info-boxes. Our analysis shows that the semi-structured, multi-domain and heterogeneous nature of the premises admits complex, multi-faceted reasoning. Experiments reveal that, while human annotators agree on the relationships between a table-hypothesis pair, several standard modeling strategies are unsuccessful at the task, suggesting that reasoning about tables can pose a difficult modeling challenge.
翻訳日:2022-12-03 10:06:46 公開日:2020-05-13
# 人間の実践的推論の速度歪曲的視点

A Rate-Distortion view of human pragmatic reasoning ( http://arxiv.org/abs/2005.06641v1 )

ライセンス: Link先を確認
Noga Zaslavsky, Jennifer Hu, Roger P. Levy(参考訳) 人間の実践的推論の根底にある計算原理は何か? プラグマティクスに対する顕著なアプローチはラショナル音声法(RSA)フレームワークであり、これは確率的話者とリスナーが互いに再帰的に推論するものとして実用的推論を定式化したものである。 RSAは広範な経験的支援を享受しているが、そのような再帰的推論の力学が一般的な最適化原理によって支配されるかどうかはまだ明らかになっていない。 本稿では,この問題に対するrsaフレームワークの新たな分析について述べる。 まず、RSA再帰は、期待されるユーティリティと通信労力のトレードオフを最適化するために、交互に最大化を実装していることを示す。 そこで本研究では,rsa再帰のダイナミクスを考察し,再帰深さで実用性が向上することが保証されていると推測した。 第2に、RSAは人間の行動を考慮したり、ランダムな発話生成に対するRSAの偏見を回避したりしながら、レート・歪曲理論に基礎を置くことができることを示す。 この研究はrsaモデルの数学的理解をさらに深め、一般的な情報理論の原理が人間の実用的推論を引き起こす可能性を示唆している。

What computational principles underlie human pragmatic reasoning? A prominent approach to pragmatics is the Rational Speech Act (RSA) framework, which formulates pragmatic reasoning as probabilistic speakers and listeners recursively reasoning about each other. While RSA enjoys broad empirical support, it is not yet clear whether the dynamics of such recursive reasoning may be governed by a general optimization principle. Here, we present a novel analysis of the RSA framework that addresses this question. First, we show that RSA recursion implements an alternating maximization for optimizing a tradeoff between expected utility and communicative effort. On that basis, we study the dynamics of RSA recursion and disconfirm the conjecture that expected utility is guaranteed to improve with recursion depth. Second, we show that RSA can be grounded in Rate-Distortion theory, while maintaining a similar ability to account for human behavior and avoiding a bias of RSA toward random utterance production. This work furthers the mathematical understanding of RSA models, and suggests that general information-theoretic principles may give rise to human pragmatic reasoning.
翻訳日:2022-12-03 10:06:31 公開日:2020-05-13
# 事前学習言語モデルによる並列コーパスフィルタリング

Parallel Corpus Filtering via Pre-trained Language Models ( http://arxiv.org/abs/2005.06166v1 )

ライセンス: Link先を確認
Boliang Zhang, Ajay Nagesh, and Kevin Knight(参考訳) Webcrawled Dataは、機械翻訳モデルをトレーニングするための並列コーパスの優れたソースを提供する。 近年の研究では、ニューラルマシン翻訳システムは従来の統計機械翻訳法よりもノイズに敏感であることが示されている。 本稿では,Webcrawled corporaから,事前学習言語モデルを用いてノイズの多い文ペアを抽出する手法を提案する。 bertの多言語機能を活用して文並列性を測定し,データ領域のバランスをとるためのドメインフィルタとしてgpt(generative pre-training)言語モデルを用いた。 本稿では,提案手法をwmt 2018並列コーパスフィルタリング共有タスクと,webクローリングした日経並列コーパス上で評価する。 本手法は, ベースラインを著しく上回り, 新たな最先端を実現する。 教師なし設定では、トップ1教師付き手法に匹敵する性能を達成する。 また,公開可能な日本語-中国語並列コーパスについても評価した。

Web-crawled data provides a good source of parallel corpora for training machine translation models. It is automatically obtained, but extremely noisy, and recent work shows that neural machine translation systems are more sensitive to noise than traditional statistical machine translation methods. In this paper, we propose a novel approach to filter out noisy sentence pairs from web-crawled corpora via pre-trained language models. We measure sentence parallelism by leveraging the multilingual capability of BERT and use the Generative Pre-training (GPT) language model as a domain filter to balance data domains. We evaluate the proposed method on the WMT 2018 Parallel Corpus Filtering shared task, and on our own web-crawled Japanese-Chinese parallel corpus. Our method significantly outperforms baselines and achieves a new state-of-the-art. In an unsupervised setting, our method achieves comparable performance to the top-1 supervised method. We also evaluate on a web-crawled Japanese-Chinese parallel corpus that we make publicly available.
翻訳日:2022-12-03 10:06:11 公開日:2020-05-13
# 政治学のための深層学習

Deep Learning for Political Science ( http://arxiv.org/abs/2005.06540v1 )

ライセンス: Link先を確認
Kakia Chatsiou and Slava Jankin Mikhaylov(参考訳) 政治学や社会科学は伝統的に、投票行動、政策立案、国際紛争、国際開発などの分野を研究するために計算手法を用いてきた。 最近では、大量のデータが改良されたアルゴリズムと手頃な計算リソースと組み合わされ、ボリュームと多様性の大きいデータから新しい洞察を予測、学習、発見できるようになった。 機械学習、ディープラーニング、自然言語処理(NLP)、そしてより一般的には、人工知能(AI)が理論をテストし、介入やプログラムの影響をよりダイナミックで効果的な方法で評価する新たな機会を開いている。 大量の構造化データと非構造化データを使用するアプリケーションは、政府や産業で一般的になり、社会科学研究でもますます普及している。 本章では、このような手法を政治学から例題として紹介する。 この章は、これらの分野の課題とメソッドの強みが一致する領域に焦点を当て、まずaiとそのコア技術である機械学習を紹介し、急速に発展するディープラーニングのサブフィールドを紹介する。 ディープニューラルネットワークの議論は、政治科学に関連するNLPタスクで説明される。 NLPのディープラーニング手法の最近の進歩と、政治科学テキストからの情報抽出とパターン認識の改善の可能性についても概説する。

Political science, and social science in general, have traditionally been using computational methods to study areas such as voting behavior, policy making, international conflict, and international development. More recently, increasingly available quantities of data are being combined with improved algorithms and affordable computational resources to predict, learn, and discover new insights from data that is large in volume and variety. New developments in the areas of machine learning, deep learning, natural language processing (NLP), and, more generally, artificial intelligence (AI) are opening up new opportunities for testing theories and evaluating the impact of interventions and programs in a more dynamic and effective way. Applications using large volumes of structured and unstructured data are becoming common in government and industry, and increasingly also in social science research. This chapter offers an introduction to such methods drawing examples from political science. Focusing on the areas where the strengths of the methods coincide with challenges in these fields, the chapter first presents an introduction to AI and its core technology - machine learning, with its rapidly developing subfield of deep learning. The discussion of deep neural networks is illustrated with the NLP tasks that are relevant to political science. The latest advances in deep learning methods for NLP are also reviewed, together with their potential for improving information extraction and pattern recognition from political science texts.
翻訳日:2022-12-03 10:05:50 公開日:2020-05-13
# 後方規則化によるジェンダーバイアス増幅の緩和

Mitigating Gender Bias Amplification in Distribution by Posterior Regularization ( http://arxiv.org/abs/2005.06251v1 )

ライセンス: Link先を確認
Shengyu Jia, Tao Meng, Jieyu Zhao and Kai-Wei Chang(参考訳) 高度な機械学習技術は、自然言語処理の性能を高めた。 しかし、最近の研究、例えばZhao et al. (2017) は、これらの技術がコーパスに隠された社会的偏見を不注意に捉え、さらに増幅していることを示している。 しかし、それらの分析はモデルのトップ予測のみで行われる。 本稿では、分布の観点から性別バイアスの増幅問題を考察し、ラベル上の予測確率分布の観点からバイアスが増幅されていることを示す。 さらに,後続正則化に基づくバイアス緩和手法を提案する。 性能損失が少ないため,本手法は分布のバイアス増幅をほぼ除去できる。 我々の研究はバイアス増幅の理解に光を当てている。

Advanced machine learning techniques have boosted the performance of natural language processing. Nevertheless, recent studies, e.g., Zhao et al. (2017) show that these techniques inadvertently capture the societal bias hidden in the corpus and further amplify it. However, their analysis is conducted only on models' top predictions. In this paper, we investigate the gender bias amplification issue from the distribution perspective and demonstrate that the bias is amplified in the view of predicted probability distribution over labels. We further propose a bias mitigation approach based on posterior regularization. With little performance loss, our method can almost remove the bias amplification in the distribution. Our study sheds the light on understanding the bias amplification.
翻訳日:2022-12-03 09:59:26 公開日:2020-05-13
# dream architecture: ロボティクスにおけるオープンエンド学習への開発アプローチ

DREAM Architecture: a Developmental Approach to Open-Ended Learning in Robotics ( http://arxiv.org/abs/2005.06223v1 )

ライセンス: Link先を確認
Stephane Doncieux (ISIR), Nicolas Bredeche (ISIR), L\'eni Le Goff (ISIR), Beno\^it Girard (ISIR), Alexandre Coninx (ISIR), Olivier Sigaud (ISIR), Mehdi Khamassi (ISIR), Natalia D\'iaz-Rodr\'iguez (U2IS), David Filliat (U2IS), Timothy Hospedales (ICSA), A. Eiben (VU), Richard Duro(参考訳) ロボットは制御された状態に限られており、ロボット設計者はロボットに適切なモデルや行動を与えるのに十分な詳細を知っている。 学習アルゴリズムは、いくつかのデモンストレーションや強化学習アルゴリズムによる探索を導く報奨として、適切な行動を発見できる柔軟性を付加する。 強化学習アルゴリズムは、到達可能な振る舞いを定義する状態空間と行動空間の定義に依存する。 小さい空間と離散空間は高速学習をもたらすが、大きな空間と連続空間は困難であり、長い訓練期間を必要とするか、ロボットが適切な行動に収束することを防ぐかのどちらかである。 ポリシー実行の運用サイクルと、新しいポリシーを取得するために遅い時間スケールで動作する学習サイクルの他に、より遅い時間スケールで作業する3番目のサイクルである再記述サイクルを導入し、必要な表現をロボット、その環境、タスクに生成または適応する。 我々は、このサイクルによって引き起こされた課題を紹介し、この再記述プロセス段階を段階的にブートストラップし、適切な動機を持った新しい状態表現を構築し、獲得した知識をドメインやタスク、さらにはロボット間で伝達する、開発認知アーキテクチャであるdream(deferred restructuring of experience in autonomous machines)を提案する。 このアプローチで得られた結果について述べるとともに,神経科学における疑問について考察する。

Robots are still limited to controlled conditions, that the robot designer knows with enough details to endow the robot with the appropriate models or behaviors. Learning algorithms add some flexibility with the ability to discover the appropriate behavior given either some demonstrations or a reward to guide its exploration with a reinforcement learning algorithm. Reinforcement learning algorithms rely on the definition of state and action spaces that define reachable behaviors. Their adaptation capability critically depends on the representations of these spaces: small and discrete spaces result in fast learning while large and continuous spaces are challenging and either require a long training period or prevent the robot from converging to an appropriate behavior. Beside the operational cycle of policy execution and the learning cycle, which works at a slower time scale to acquire new policies, we introduce the redescription cycle, a third cycle working at an even slower time scale to generate or adapt the required representations to the robot, its environment and the task. We introduce the challenges raised by this cycle and we present DREAM (Deferred Restructuring of Experience in Autonomous Machines), a developmental cognitive architecture to bootstrap this redescription process stage by stage, build new state representations with appropriate motivations, and transfer the acquired knowledge across domains or tasks or even across robots. We describe results obtained so far with this approach and end up with a discussion of the questions it raises in Neuroscience.
翻訳日:2022-12-03 09:59:16 公開日:2020-05-13
# ノベルティサーチによる進化可能性の回避

Novelty Search makes Evolvability Inevitable ( http://arxiv.org/abs/2005.06224v1 )

ライセンス: Link先を確認
Stephane Doncieux (ISIR), Giuseppe Paolo (ISIR), Alban Laflaqui\`ere, Alexandre Coninx (ISIR)(参考訳) 進化可能性(Evolvability)は、興味深い新しい解決策を見つけ、解決すべき問題の条件の変化に対処する進化過程の能力に影響を与える重要な特徴である。 進化可能性の推定は単純ではなく、一般的に進化過程において選択的な圧力として直接使われるには高価すぎる。 選択圧力を計算するのが簡単で高速な他の方法の副作用として間接的に進化性を促進することは有利である。 非有界な行動空間では、進化可能な個人が自然に現れ、空の行動ニッチに侵入する傾向があるため、選択される傾向があることが既に示されている。 したがって、進化可能性はこの文脈における探索の自然な副産物である。 しかし、実用的なエージェントや環境はしばしば到達可能な行動空間に制限を課す。 これらの境界は進化可能性にどのように影響するか? この文脈では、進化性は明示的に報いることなく促進できますか? 我々は, 新規な探索が有界な行動空間においても高い進化可能性の圧力を暗黙的に生み出すことを示し, その原因を探究する。 より正確には、探索を通して、ノベルティの動的評価は、行動空間において非常に移動的な個人に報酬を与え、それによって進化性を促進することを示す。

Evolvability is an important feature that impacts the ability of evolutionary processes to find interesting novel solutions and to deal with changing conditions of the problem to solve. The estimation of evolvability is not straightforward and is generally too expensive to be directly used as selective pressure in the evolutionary process. Indirectly promoting evolvability as a side effect of other easier and faster to compute selection pressures would thus be advantageous. In an unbounded behavior space, it has already been shown that evolvable individuals naturally appear and tend to be selected as they are more likely to invade empty behavior niches. Evolvability is thus a natural byproduct of the search in this context. However, practical agents and environments often impose limits on the reach-able behavior space. How do these boundaries impact evolvability? In this context, can evolvability still be promoted without explicitly rewarding it? We show that Novelty Search implicitly creates a pressure for high evolvability even in bounded behavior spaces, and explore the reasons for such a behavior. More precisely we show that, throughout the search, the dynamic evaluation of novelty rewards individuals which are very mobile in the behavior space, which in turn promotes evolvability.
翻訳日:2022-12-03 09:58:52 公開日:2020-05-13
# 機械学習の理解:文脈化言語モデルの役割とその先

Machine Reading Comprehension: The Role of Contextualized Language Models and Beyond ( http://arxiv.org/abs/2005.06249v1 )

ライセンス: Link先を確認
Zhuosheng Zhang, Hai Zhao, Rui Wang(参考訳) machine reading comprehension(mrc)は、自然言語処理(nlp)の長年の目標である、機械に人間の言語を読み解くことを教えることを目的としている。 深層ニューラルネットワークの爆発と文脈化された言語モデル(CLM)の進化により、MRCの研究は2つの大きなブレークスルーを経験した。 MRCとCLMは、現象として、NLPコミュニティに大きな影響を与えます。 本調査では,MRCに関する総合的,比較的な研究内容について概説する。 1) MRC と CLM の起源と発展,特に CLM の役割に焦点をあてて 2) MRCとCLMがNLPコミュニティに与える影響 3) MRCの定義,データセット及び評価 4)人間の認知過程の洞察に基づく2段階エンコーダ・デコーダ解法の観点からの一般的なmrcアーキテクチャ及び技術手法 5) これまでのハイライト,話題の出現,そして我々の経験的分析は,特にMRC研究の異なる期間で何が機能するかに注目している。 本稿では,これらのトピックに関する分類と分類を提案する。 私たちが到達した主要な見解は、 1) MRCは言語処理から理解への進歩を促進する。 2)mrcシステムの急速な改善は,clmの開発から大きな利益を得る。 3) MRCのテーマは, 浅いテキストマッチングから認知的推論へと徐々に移りつつある。

Machine reading comprehension (MRC) aims to teach machines to read and comprehend human languages, which is a long-standing goal of natural language processing (NLP). With the burst of deep neural networks and the evolution of contextualized language models (CLMs), the research of MRC has experienced two significant breakthroughs. MRC and CLM, as a phenomenon, have a great impact on the NLP community. In this survey, we provide a comprehensive and comparative review on MRC covering overall research topics about 1) the origin and development of MRC and CLM, with a particular focus on the role of CLMs; 2) the impact of MRC and CLM to the NLP community; 3) the definition, datasets, and evaluation of MRC; 4) general MRC architecture and technical methods in the view of two-stage Encoder-Decoder solving architecture from the insights of the cognitive process of humans; 5) previous highlights, emerging topics, and our empirical analysis, among which we especially focus on what works in different periods of MRC researches. We propose a full-view categorization and new taxonomies on these topics. The primary views we have arrived at are that 1) MRC boosts the progress from language processing to understanding; 2) the rapid improvement of MRC systems greatly benefits from the development of CLMs; 3) the theme of MRC is gradually moving from shallow text matching to cognitive reasoning.
翻訳日:2022-12-03 09:57:25 公開日:2020-05-13
# BIOMRC: バイオメディカルマシン読解のためのデータセット

BIOMRC: A Dataset for Biomedical Machine Reading Comprehension ( http://arxiv.org/abs/2005.06376v1 )

ライセンス: Link先を確認
Petros Stavropoulos, Dimitris Pappas, Ion Androutsopoulos, Ryan McDonald(参考訳) 本稿では,大規模閉鎖型バイオメディカルMRCデータセットであるBIOMRCを紹介する。 Pappas et al. (2018) の以前のBIIOREADデータセットと比較して、ノイズを減らすために注意が払われた。 実験の結果、単純なヒューリスティックスは新たなデータセットではうまく機能せず、BIOREADでテストされた2つのニューラルMCCモデルは、BIOMRCでははるかに良く機能し、新しいデータセットが実際にノイズが少ないか、少なくともそのタスクがより実現可能であることを示している。 新たなデータセットでは、BIOREADよりも非専門家の人的パフォーマンスが向上し、バイオメディカルの専門家のパフォーマンスはさらに向上した。 また,新たなBERTベースのMRCモデルも導入し,試験対象の他の方法よりもはるかに優れており,バイオメディカル専門家の精度を上回っている。 新しいデータセットを3つの異なるサイズで提供し、コードもリリースし、リーダボードを提供しています。

We introduce BIOMRC, a large-scale cloze-style biomedical MRC dataset. Care was taken to reduce noise, compared to the previous BIOREAD dataset of Pappas et al. (2018). Experiments show that simple heuristics do not perform well on the new dataset, and that two neural MRC models that had been tested on BIOREAD perform much better on BIOMRC, indicating that the new dataset is indeed less noisy or at least that its task is more feasible. Non-expert human performance is also higher on the new dataset compared to BIOREAD, and biomedical experts perform even better. We also introduce a new BERT-based MRC model, the best version of which substantially outperforms all other methods tested, reaching or surpassing the accuracy of biomedical experts in some experiments. We make the new dataset available in three different sizes, also releasing our code, and providing a leaderboard.
翻訳日:2022-12-03 09:56:42 公開日:2020-05-13