このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201025となっている論文です。

PDF登録状況(公開日: 20201025)

TitleAuthorsAbstract論文公表日・翻訳日
# 政策空間における一階制約最適化

First Order Constrained Optimization in Policy Space ( http://arxiv.org/abs/2002.06506v2 )

ライセンス: Link先を確認
Yiming Zhang, Quan Vuong, Keith W. Ross(参考訳) 強化学習では、エージェントは環境との相互作用を通じてハイパフォーマンスな振る舞いを学習しようとするが、そのような振る舞いはしばしば報酬関数の形で定量化される。 しかし、安全でないと見なされ、避けられるような行動のいくつかの側面は、制約によって最もよく捉えられる。 本稿では,エージェントがコスト制約を満たすことを保証しつつ,エージェントの全体的な報酬を最大化する,FOCOPS(First Order Constrained Optimization in Policy Space)と呼ばれる新しいアプローチを提案する。 現在の方針から生成されたデータを用いて、FOCOPSは、非パラメータ化ポリシー空間における制約付き最適化問題を解くことにより、最適な更新ポリシーを最初に見つける。 次にfocopsは、更新ポリシーをパラメトリックポリシー空間に投影する。 本手法は, 学習中における最悪の制約違反に対する近似上限を持ち, 実装が容易である。 我々は,ロボット機関車の一連の作業において,簡単なアプローチがより良い性能を達成するという実証的な証拠を提供する。

In reinforcement learning, an agent attempts to learn high-performing behaviors through interacting with the environment, such behaviors are often quantified in the form of a reward function. However some aspects of behavior-such as ones which are deemed unsafe and to be avoided-are best captured through constraints. We propose a novel approach called First Order Constrained Optimization in Policy Space (FOCOPS) which maximizes an agent's overall reward while ensuring the agent satisfies a set of cost constraints. Using data generated from the current policy, FOCOPS first finds the optimal update policy by solving a constrained optimization problem in the nonparameterized policy space. FOCOPS then projects the update policy back into the parametric policy space. Our approach has an approximate upper bound for worst-case constraint violation throughout training and is first-order in nature therefore simple to implement. We provide empirical evidence that our simple approach achieves better performance on a set of constrained robotics locomotive tasks.
翻訳日:2022-12-31 17:32:00 公開日:2020-10-25
# 動的環境の群構造とアンタングル表現の学習

Learning Group Structure and Disentangled Representations of Dynamical Environments ( http://arxiv.org/abs/2002.06991v2 )

ライセンス: Link先を確認
Robin Quessard, Thomas D. Barrett, William R. Clements(参考訳) 異種表現の学習は、環境の基盤構造を効果的に発見しモデル化するための重要なステップである。 自然科学において、物理学は対称性保存変換の観点から宇宙を記述することで大きな成功を収めた。 この形式主義に触発されて,群表現の理論に基づく枠組みを提案し,その進化を生み出す変換を中心に構成された動的環境の表現を学習する。 実験では,逐次相互作用によって生成された観測データから観察することなく,明示的に対称な環境の構造を学習する。 さらに,学習表現の解釈可能性を確保するために,直観的な異方性規則化を導入する。 本手法は, 高精度な長方形予測を可能にし, 潜在空間における予測品質と絡み合いの関係を示す。

Learning disentangled representations is a key step towards effectively discovering and modelling the underlying structure of environments. In the natural sciences, physics has found great success by describing the universe in terms of symmetry preserving transformations. Inspired by this formalism, we propose a framework, built upon the theory of group representation, for learning representations of a dynamical environment structured around the transformations that generate its evolution. Experimentally, we learn the structure of explicitly symmetric environments without supervision from observational data generated by sequential interactions. We further introduce an intuitive disentanglement regularisation to ensure the interpretability of the learnt representations. We show that our method enables accurate long-horizon predictions, and demonstrate a correlation between the quality of predictions and disentanglement in the latent space.
翻訳日:2022-12-31 12:07:59 公開日:2020-10-25
# パースペクティブトランスフォーマー層を用いた距離における車線および道路マーキングの検出

Detecting Lane and Road Markings at A Distance with Perspective Transformer Layers ( http://arxiv.org/abs/2003.08550v2 )

ライセンス: Link先を確認
Zhuoping Yu, Xiaozhou Ren, Yuyao Huang, Wei Tian, Junqiao Zhao(参考訳) レーンや道路標識の正確な検出は、インテリジェントな車両にとって非常に重要な課題である。 既存の手法では、検出精度はしばしば距離の増加とともに低下する。 これは、遠方の車線と道路のマーキングが画像内の少数のピクセルを占めており、車線と道路のマーキングのスケールが様々な距離と視点で一貫性がないためである。 逆視点マッピング(ipm)は視点歪みの除去に使用できるが、内在的な補間は特に遠方の車線や道路のマーキング周辺のアーティファクトにつながり、レーンマーキング検出とセグメンテーションの精度に悪影響を及ぼす。 この問題を解決するために,完全畳み込みネットワークにおいてエンコーダ・デコーダアーキテクチャを採用し,空間トランスフォーマネットワークのアイデアを活用し,新しい意味セグメンテーションニューラルネットワークを導入する。 このアプローチは、IPMプロセスを複数の連続的な微分可能なホモグラフィック変換層に分解し、これを"Perspective Transformer Layers"と呼ぶ。 さらに、補間特徴マップは、後続の畳み込み層によって洗練され、アーティファクトが減少し、精度が向上する。 レーンマーキング検出における提案手法の有効性を,TuSimpleとApolloScapeの2つの公開データセットで検証した。

Accurate detection of lane and road markings is a task of great importance for intelligent vehicles. In existing approaches, the detection accuracy often degrades with the increasing distance. This is due to the fact that distant lane and road markings occupy a small number of pixels in the image, and scales of lane and road markings are inconsistent at various distances and perspectives. The Inverse Perspective Mapping (IPM) can be used to eliminate the perspective distortion, but the inherent interpolation can lead to artifacts especially around distant lane and road markings and thus has a negative impact on the accuracy of lane marking detection and segmentation. To solve this problem, we adopt the Encoder-Decoder architecture in Fully Convolutional Networks and leverage the idea of Spatial Transformer Networks to introduce a novel semantic segmentation neural network. This approach decomposes the IPM process into multiple consecutive differentiable homographic transform layers, which are called "Perspective Transformer Layers". Furthermore, the interpolated feature map is refined by subsequent convolutional layers thus reducing the artifacts and improving the accuracy. The effectiveness of the proposed method in lane marking detection is validated on two public datasets: TuSimple and ApolloScape
翻訳日:2022-12-22 04:26:04 公開日:2020-10-25
# 遠方形状と外観による多視点ニューラルサーフェス再構成

Multiview Neural Surface Reconstruction by Disentangling Geometry and Appearance ( http://arxiv.org/abs/2003.09852v3 )

ライセンス: Link先を確認
Lior Yariv, Yoni Kasten, Dror Moran, Meirav Galun, Matan Atzmon, Ronen Basri, Yaron Lipman(参考訳) 本研究では,マルチビュー3次元表面再構成の課題に対処する。 我々は、未知の幾何学、カメラパラメータ、および表面からカメラに向かって反射された光を近似するニューラルネットワークレンダラーを同時に学習するニューラルネットワークアーキテクチャを導入する。 この幾何学はニューラルネットワークのゼロレベルセットとして表現されるが、レンダリング方程式から導かれたニューラルネットワークレンダラーは(単純に)幅広い照明条件や材料をモデル化することができる。 我々は,dtu mvsデータセットから,異なる材料特性,照明条件,ノイズの多いカメラ初期化を持つ物体の,実世界の2d画像に対してネットワークを訓練した。 我々は,高忠実度,高精細度,高精細度で3次元表面再構成の状態を再現するモデルを見出した。

In this work we address the challenging problem of multiview 3D surface reconstruction. We introduce a neural network architecture that simultaneously learns the unknown geometry, camera parameters, and a neural renderer that approximates the light reflected from the surface towards the camera. The geometry is represented as a zero level-set of a neural network, while the neural renderer, derived from the rendering equation, is capable of (implicitly) modeling a wide set of lighting conditions and materials. We trained our network on real world 2D images of objects with different material properties, lighting conditions, and noisy camera initializations from the DTU MVS dataset. We found our model to produce state of the art 3D surface reconstructions with high fidelity, resolution and detail.
翻訳日:2022-12-21 05:23:06 公開日:2020-10-25
# プロセスモデルの一般化を定量化するadversarial system variant approximation

Adversarial System Variant Approximation to Quantify Process Model Generalization ( http://arxiv.org/abs/2003.12168v2 )

ライセンス: Link先を確認
Julian Theis and Houshang Darabi(参考訳) プロセスマイニングにおいて、プロセスモデルはプロセス発見アルゴリズムを用いてイベントログから抽出され、一般に複数の品質次元を用いて評価される。 抽出されたプロセスモデルとイベントログの関係を測定するメトリクスはよく研究されているが、プロセスモデルがその基礎となるシステムの観察できない振る舞いを記述できるレベルを定量化することは文献において不足している。 本稿では,この問題を解決するために,Adversarial System Variant Approximation (AVATAR) と呼ばれる新しいディープラーニング手法を提案する。 シーケンス生成逆ネットワークは、システム動作の基盤となる変種分布を近似する目的で、イベントログに含まれる変種に基づいて訓練される。 観測されていない現実的な変種は、Sequence Generative Adversarial Networkから直接サンプリングするか、Metropolis-Hastingsアルゴリズムを利用する。 プロセスモデルがその基盤となる未知のシステムの振る舞いに関連する度合いは、確立されたプロセスモデルの品質指標を用いて、現実的な観察と推定された未観測変量に基づいて定量化される。 現実的な未観測変種を明らかにするための重要な性能改善が、15の真理系の制御実験で実証された。 さらに,提案手法を実験的に検証し,そのシステムに関する60のプロセスモデルの一般化を定量的に評価した。

In process mining, process models are extracted from event logs using process discovery algorithms and are commonly assessed using multiple quality dimensions. While the metrics that measure the relationship of an extracted process model to its event log are well-studied, quantifying the level by which a process model can describe the unobserved behavior of its underlying system falls short in the literature. In this paper, a novel deep learning-based methodology called Adversarial System Variant Approximation (AVATAR) is proposed to overcome this issue. Sequence Generative Adversarial Networks are trained on the variants contained in an event log with the intention to approximate the underlying variant distribution of the system behavior. Unobserved realistic variants are sampled either directly from the Sequence Generative Adversarial Network or by leveraging the Metropolis-Hastings algorithm. The degree by which a process model relates to its underlying unknown system behavior is then quantified based on the realistic observed and estimated unobserved variants using established process model quality metrics. Significant performance improvements in revealing realistic unobserved variants are demonstrated in a controlled experiment on 15 ground truth systems. Additionally, the proposed methodology is experimentally tested and evaluated to quantify the generalization of 60 discovered process models with respect to their systems.
翻訳日:2022-12-19 21:05:52 公開日:2020-10-25
# 小データによる深層学習の概観

A Close Look at Deep Learning with Small Data ( http://arxiv.org/abs/2003.12843v3 )

ライセンス: Link先を確認
L. Brigato and L. Iocchi(参考訳) 本研究では,限られたサイズのデータセット上で,異なるディープラーニングアーキテクチャを用いた多種多様な実験を行う。 そこで本研究では,クラス毎に数個のサンプルしか利用できない場合,モデル複雑性が重要な要因であることを示す。 文献とは違って,いくつかの構成では,低複雑性モデルを用いて技術の状態を改善することができる。 例えば、不足したトレーニングサンプルやデータ拡張のない問題では、低複雑さの畳み込みニューラルネットワークは最先端のアーキテクチャよりも相容れない、あるいは優れている。 さらに,標準データ拡張であっても認識性能が大幅に向上することを示す。 この結果は、データが制限された場合に、より複雑なデータ生成/提供パイプラインの開発を示唆する。 最後に、広く使われている正規化手法であるdropoutが、データが不足しても優れた正規化者としての役割を担っていることを示す。 この結果はCIFAR-10, Fashion-MNIST, SVHNベンチマークのサブサンプル版で実証的に検証された。

In this work, we perform a wide variety of experiments with different deep learning architectures on datasets of limited size. According to our study, we show that model complexity is a critical factor when only a few samples per class are available. Differently from the literature, we show that in some configurations, the state of the art can be improved using low complexity models. For instance, in problems with scarce training samples and without data augmentation, low-complexity convolutional neural networks perform comparably well or better than state-of-the-art architectures. Moreover, we show that even standard data augmentation can boost recognition performance by large margins. This result suggests the development of more complex data generation/augmentation pipelines for cases when data is limited. Finally, we show that dropout, a widely used regularization technique, maintains its role as a good regularizer even when data is scarce. Our findings are empirically validated on the sub-sampled versions of popular CIFAR-10, Fashion-MNIST and, SVHN benchmarks.
翻訳日:2022-12-18 23:28:05 公開日:2020-10-25
# 多視点言語表現を用いたブリッジング言語型と多言語機械翻訳

Bridging Linguistic Typology and Multilingual Machine Translation with Multi-View Language Representations ( http://arxiv.org/abs/2004.14923v2 )

ライセンス: Link先を確認
Arturo Oncevay, Barry Haddow, Alexandra Birch(参考訳) 言語型学データベースからの疎言語ベクトルと多言語機械翻訳のようなタスクからの埋め込みを分離して研究し、それらが互いに言語の特徴付けの恩恵を受けることができるかを分析した。 特異ベクトル正準相関解析を用いて両ビューを融合し,各ソースからどのような情報が誘導されるかを検討する。 類型的特徴と言語系統を推定することにより,我々の表現に類型学が組み込まれ,言語関係との相関が強まることが観察された。 次に、多言語機械翻訳のための多言語言語ベクトル空間を利用して、言語クラスタリングや多言語翻訳候補等の言語類似性に関する情報を必要とするタスクにおいて、競合する全体的な翻訳精度を達成する。 ツールとしてもリリースされている本手法では,大規模多言語モデルやランキングモデルの高価な再トレーニングを伴わずに,新たな言語を計画し,評価することができる。

Sparse language vectors from linguistic typology databases and learned embeddings from tasks like multilingual machine translation have been investigated in isolation, without analysing how they could benefit from each other's language characterisation. We propose to fuse both views using singular vector canonical correlation analysis and study what kind of information is induced from each source. By inferring typological features and language phylogenies, we observe that our representations embed typology and strengthen correlations with language relationships. We then take advantage of our multi-view language vector space for multilingual machine translation, where we achieve competitive overall translation accuracy in tasks that require information about language similarities, such as language clustering and ranking candidates for multilingual transfer. With our method, which is also released as a tool, we can easily project and assess new languages without expensive retraining of massive multilingual or ranking models, which are major disadvantages of related approaches.
翻訳日:2022-12-08 04:33:55 公開日:2020-10-25
# 境界型計画エージェントに対するオンラインベイズ目標推定

Online Bayesian Goal Inference for Boundedly-Rational Planning Agents ( http://arxiv.org/abs/2006.07532v2 )

ライセンス: Link先を確認
Tan Zhi-Xuan, Jordyn L. Mann, Tom Silver, Joshua B. Tenenbaum, Vikash K. Mansinghka(参考訳) 人々は時間とともに自分の行動を観察することで、他人の目標を常に推測します。 注目すべきなのは、これらのアクションが失敗に繋がったとしても、それが目標を達成できないことを検知した時に、他の人を助けることができることです。 同じような能力を持つマシンをどうやって養うのか? ここでは,行動の最適シーケンスと非最適シーケンスの両方からエージェントの目標をオンラインで推測できるアーキテクチャを提案する。 我々のアーキテクチャモデルは、リプランニングによって検索と実行をインターリーブする有界レーショナルプランナーとして機能する。 これらのモデルは確率的プログラムとして指定され、エージェントの目標や内部計画プロセスに対して効率的なベイズ推定を表現および実行することができる。 このような推論を行うために,オンライン再計画仮定を利用した逐次モンテカルロアルゴリズムであるシーケンシャル逆計画探索 (sips) を開発した。 本稿では,このモデリングと推論アーキテクチャがベイズ逆強化学習ベースラインを上回り,障害やバックトラッキングを含む最適および非最適トラジェクタの目標を正確に推定し,構成構造とスパース報酬を伴う領域をまたいで一般化することを示す実験を行う。

People routinely infer the goals of others by observing their actions over time. Remarkably, we can do so even when those actions lead to failure, enabling us to assist others when we detect that they might not achieve their goals. How might we endow machines with similar capabilities? Here we present an architecture capable of inferring an agent's goals online from both optimal and non-optimal sequences of actions. Our architecture models agents as boundedly-rational planners that interleave search with execution by replanning, thereby accounting for sub-optimal behavior. These models are specified as probabilistic programs, allowing us to represent and perform efficient Bayesian inference over an agent's goals and internal planning processes. To perform such inference, we develop Sequential Inverse Plan Search (SIPS), a sequential Monte Carlo algorithm that exploits the online replanning assumption of these models, limiting computation by incrementally extending inferred plans as new actions are observed. We present experiments showing that this modeling and inference architecture outperforms Bayesian inverse reinforcement learning baselines, accurately inferring goals from both optimal and non-optimal trajectories involving failure and back-tracking, while generalizing across domains with compositional structure and sparse rewards.
翻訳日:2022-11-21 21:11:05 公開日:2020-10-25
# ニューラルネットワークは周期関数の学習に失敗し、その修正方法

Neural Networks Fail to Learn Periodic Functions and How to Fix It ( http://arxiv.org/abs/2006.08195v2 )

ライセンス: Link先を確認
Liu Ziyin, Tilman Hartwig, Masahito Ueda(参考訳) 以前の文献では、現代のニューラルネットワークを用いた周期関数の学習方法に関する限られた手がかりを提供している。 まず、ニューラルネットワークの補間特性の研究から始め、relu、tanh、sgmoidなどの標準的な活性化関数とそれらの変種が、単純な周期関数を補間することを学ぶことができないことを実験的に証明し、実証する。 これは「周期的」帰納バイアスの欠如によるものであると仮定する。 この問題を解決するため,本研究では,reluベースのアクティベーションの最適化性を維持しつつ周期関数を学習するための周期的帰納的バイアスを達成するために,新たなアクティベーションである$x + \sin^2(x)$を提案する。 実験により,提案手法を温度・財務データ予測に適用した。

Previous literature offers limited clues on how to learn a periodic function using modern neural networks. We start with a study of the extrapolation properties of neural networks; we prove and demonstrate experimentally that the standard activations functions, such as ReLU, tanh, sigmoid, along with their variants, all fail to learn to extrapolate simple periodic functions. We hypothesize that this is due to their lack of a "periodic" inductive bias. As a fix of this problem, we propose a new activation, namely, $x + \sin^2(x)$, which achieves the desired periodic inductive bias to learn a periodic function while maintaining a favorable optimization property of the ReLU-based activations. Experimentally, we apply the proposed method to temperature and financial data prediction.
翻訳日:2022-11-21 02:58:05 公開日:2020-10-25
# 重み付き再訓練による深部生成モデルの潜在空間におけるサンプル効率の最適化

Sample-Efficient Optimization in the Latent Space of Deep Generative Models via Weighted Retraining ( http://arxiv.org/abs/2006.09191v2 )

ライセンス: Link先を確認
Austin Tripp, Erik Daxberger, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 薬物設計のような科学と工学の重要な問題の多くは、複雑で高次元で構造化された入力空間上で高価なブラックボックス目的関数を最適化することである。 機械学習技術はそのような問題を解決する上で有望であるが、既存のアプローチではサンプル効率がほとんどない。 深部生成モデルから学習した低次元連続潜伏多様体の最適化を行う,効率的なブラックボックス最適化のための改良手法を提案する。 従来のアプローチとは対照的に,目標を効率的に最適化するのに非常に有用な潜在多様体を維持するために,生成モデルを積極的に制御する。 最適化軌道に沿ってクエリされたデータポイントの生成モデルを定期的に再学習し、目的関数値に応じてこれらのデータポイントを重み付けすることでこれを実現できる。 この重み付き再訓練は、既存の手法上で容易に実装でき、合成および実世界の最適化問題における効率と性能を大幅に改善することが実証的に示されている。

Many important problems in science and engineering, such as drug design, involve optimizing an expensive black-box objective function over a complex, high-dimensional, and structured input space. Although machine learning techniques have shown promise in solving such problems, existing approaches substantially lack sample efficiency. We introduce an improved method for efficient black-box optimization, which performs the optimization in the low-dimensional, continuous latent manifold learned by a deep generative model. In contrast to previous approaches, we actively steer the generative model to maintain a latent manifold that is highly useful for efficiently optimizing the objective. We achieve this by periodically retraining the generative model on the data points queried along the optimization trajectory, as well as weighting those data points according to their objective function value. This weighted retraining can be easily implemented on top of existing methods, and is empirically shown to significantly improve their efficiency and performance on synthetic and real-world optimization problems.
翻訳日:2022-11-20 19:26:48 公開日:2020-10-25
# エンドツーエンド音声翻訳を改善する自己教師付き表現

Self-Supervised Representations Improve End-to-End Speech Translation ( http://arxiv.org/abs/2006.12124v2 )

ライセンス: Link先を確認
Anne Wu, Changhan Wang, Juan Pino, Jiatao Gu(参考訳) エンドツーエンドの音声テキスト翻訳は、よりシンプルで小さなシステムを提供するが、データ不足の課題に直面している。 事前学習手法はラベルのないデータを活用することができ、データスカース設定に有効であることが示されている。 本研究では,自己教師付き事前学習音声表現が,高域と低域の両方で音声翻訳作業に有効であるか,他言語への翻訳が良好であるか,事前学習した高域音声認識システムなどの低域のエンドツーエンド音声翻訳の改善に役立つ他の共通手法と効果的に組み合わせられるかを検討する。 自己教師付き事前学習機能により、翻訳性能が一貫して向上し、言語間変換により、チューニングをほとんど行わずに様々な言語に拡張できることを示す。

End-to-end speech-to-text translation can provide a simpler and smaller system but is facing the challenge of data scarcity. Pre-training methods can leverage unlabeled data and have been shown to be effective on data-scarce settings. In this work, we explore whether self-supervised pre-trained speech representations can benefit the speech translation task in both high- and low-resource settings, whether they can transfer well to other languages, and whether they can be effectively combined with other common methods that help improve low-resource end-to-end speech translation such as using a pre-trained high-resource speech recognition system. We demonstrate that self-supervised pre-trained features can consistently improve the translation performance, and cross-lingual transfer allows to extend to a variety of languages without or with little tuning.
翻訳日:2022-11-18 06:41:10 公開日:2020-10-25
# 対数的刈り取りは 必要なだけ

Logarithmic Pruning is All You Need ( http://arxiv.org/abs/2006.12156v2 )

ライセンス: Link先を確認
Laurent Orseau, Marcus Hutter, Omar Rivasplata(参考訳) 宝くじの仮説は、すべての大きなニューラルネットワークが、孤立して訓練されると、大きなネットワークに匹敵するパフォーマンスを達成するサブネットワークを含んでいるという予想である。 十分に過度にパラメータ化されたネットワークには、ランダム初期化時にトレーニングなしで訓練された大ネットワークに匹敵する精度を達成するサブネットワークが含まれている。 しかし、後者の結果はいくつかの強い仮定に依存し、対象関数と比較して大きなネットワークの大きさの多項式因子を保証する。 過パラメータネットワークは、対象のサブネットワークの重量当たりのニューロン数(すべての変数において、深さを除く)の対数係数のみを必要とする。

The Lottery Ticket Hypothesis is a conjecture that every large neural network contains a subnetwork that, when trained in isolation, achieves comparable performance to the large network. An even stronger conjecture has been proven recently: Every sufficiently overparameterized network contains a subnetwork that, at random initialization, but without training, achieves comparable accuracy to the trained large network. This latter result, however, relies on a number of strong assumptions and guarantees a polynomial factor on the size of the large network compared to the target function. In this work, we remove the most limiting assumptions of this previous work while providing significantly tighter bounds:the overparameterized network only needs a logarithmic factor (in all variables but depth) number of neurons per weight of the target subnetwork.
翻訳日:2022-11-18 04:53:21 公開日:2020-10-25
# 不完全POMDPのサンプル効率強化学習

Sample-Efficient Reinforcement Learning of Undercomplete POMDPs ( http://arxiv.org/abs/2006.12484v2 )

ライセンス: Link先を確認
Chi Jin, Sham M. Kakade, Akshay Krishnamurthy, Qinghua Liu(参考訳) 部分的可観測性は、多くの強化学習アプリケーションにおいて共通の課題であり、エージェントがメモリを維持し、潜在状態を推測し、過去の情報を探索に統合する必要がある。 この課題は、一般に部分的に観測可能なマルコフ決定過程(POMDP)を学習するための多くの計算的および統計的硬度結果をもたらす。 この研究は、これらの硬度障壁が、PMDPの豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示す。 特に,観測回数が潜伏状態の数よりも大きく,また探索が学習に欠かせないため,先行研究と区別できるような,エピソード有限不完全POMDPに対するサンプル効率のアルゴリズムOOM-UCBを提案する。 oom-ucb は $\varepsilon$-optimal policy を見つけるために$\tilde{\mathcal{o}}(1/\varepsilon^2)$ の最適なサンプル複雑性を達成する。 興味深い特別な場合として、決定論的状態遷移を持つpomdpに対する計算量および統計効率のよいアルゴリズムも提供する。

Partial observability is a common challenge in many reinforcement learning applications, which requires an agent to maintain memory, infer latent states, and integrate this past information into exploration. This challenge leads to a number of computational and statistical hardness results for learning general Partially Observable Markov Decision Processes (POMDPs). This work shows that these hardness barriers do not preclude efficient reinforcement learning for rich and interesting subclasses of POMDPs. In particular, we present a sample-efficient algorithm, OOM-UCB, for episodic finite undercomplete POMDPs, where the number of observations is larger than the number of latent states and where exploration is essential for learning, thus distinguishing our results from prior works. OOM-UCB achieves an optimal sample complexity of $\tilde{\mathcal{O}}(1/\varepsilon^2)$ for finding an $\varepsilon$-optimal policy, along with being polynomial in all other relevant quantities. As an interesting special case, we also provide a computationally and statistically efficient algorithm for POMDPs with deterministic state transitions.
翻訳日:2022-11-18 04:27:38 公開日:2020-10-25
# ハーフスペース・クエリによる凸多面体の平均複雑度

Average-case Complexity of Teaching Convex Polytopes via Halfspace Queries ( http://arxiv.org/abs/2006.14677v2 )

ライセンス: Link先を確認
Akash Kumar, Adish Singla, Yisong Yue, Yuxin Chen(参考訳) 我々は、$\mathbb{R}^d$における$n$半空間の交叉によって誘導される領域のうち、対象領域を探索するタスクについて検討する。 この一般的なタスクは、パーセプトロンのトレーニングや$\phi$-separable 2chotomyの学習など、基本的な機械学習問題と接続する。 本研究は,教師がランダムに選択した目標の特定を支援するのに必要なサンプル数(半空間問合せ)について,タスクの平均的な教示複雑性について検討する。 我々の主な結果として、平均的なケースの授業複雑性は$\Theta(d)$であり、最悪のケースの授業複雑性は$\Theta(n)$とは対照的である。 平均的な学習の複雑さを考えると、境界は$n$に対して$\Theta(n)$ for \tt{i.i.d.} クエリと$\Theta(d \log(n))$ for active selected query by the learnerとして依存する。 我々の証明手法は計算幾何学からの新たな洞察に基づいており、半空間の配置に依存するユークリッド空間内の凸多面体や面の数を数えることができる。 我々の洞察は、既知の$\mathcal{O}(d)$を古典的な計算幾何学の文献(Cover, 1965)における「極端なパターン」の平均数で一般化する$\phi$-separable dichotomiesに対する平均ケース複雑性の厳密な境界を確立することを可能にする。

We examine the task of locating a target region among those induced by intersections of $n$ halfspaces in $\mathbb{R}^d$. This generic task connects to fundamental machine learning problems, such as training a perceptron and learning a $\phi$-separable dichotomy. We investigate the average teaching complexity of the task, i.e., the minimal number of samples (halfspace queries) required by a teacher to help a version-space learner in locating a randomly selected target. As our main result, we show that the average-case teaching complexity is $\Theta(d)$, which is in sharp contrast to the worst-case teaching complexity of $\Theta(n)$. If instead, we consider the average-case learning complexity, the bounds have a dependency on $n$ as $\Theta(n)$ for \tt{i.i.d.} queries and $\Theta(d \log(n))$ for actively chosen queries by the learner. Our proof techniques are based on novel insights from computational geometry, which allow us to count the number of convex polytopes and faces in a Euclidean space depending on the arrangement of halfspaces. Our insights allow us to establish a tight bound on the average-case complexity for $\phi$-separable dichotomies, which generalizes the known $\mathcal{O}(d)$ bound on the average number of "extreme patterns" in the classical computational geometry literature (Cover, 1965).
翻訳日:2022-11-17 03:50:34 公開日:2020-10-25
# ニューラルネットワークを用いたセミマルコフ決定過程のモデルベース強化学習

Model-based Reinforcement Learning for Semi-Markov Decision Processes with Neural ODEs ( http://arxiv.org/abs/2006.16210v2 )

ライセンス: Link先を確認
Jianzhun Du, Joseph Futoma, Finale Doshi-Velez(参考訳) 本稿では,ニューラル常微分方程式(ODE)を用いた半マルコフ決定過程(SMDP)のためのモデルベース強化学習(RL)フレームワークにおいて,連続時間力学をモデル化するための2つのエレガントな解を提案する。 我々のモデルは、連続時間力学を正確に特徴付け、少量のデータを用いて高性能なポリシーを開発することができる。 また,モデルのない手法では不可能な準最適性能を維持しながら,時間スケジュールを最適化し,環境との相互作用率を低減するためのモデルベースアプローチも開発している。 各種連続時間領域における手法の有効性を実験的に実証した。

We present two elegant solutions for modeling continuous-time dynamics, in a novel model-based reinforcement learning (RL) framework for semi-Markov decision processes (SMDPs), using neural ordinary differential equations (ODEs). Our models accurately characterize continuous-time dynamics and enable us to develop high-performing policies using a small amount of data. We also develop a model-based approach for optimizing time schedules to reduce interaction rates with the environment while maintaining the near-optimal performance, which is not possible for model-free methods. We experimentally demonstrate the efficacy of our methods across various continuous-time domains.
翻訳日:2022-11-15 13:55:53 公開日:2020-10-25
# PIE-NET: ポイントクラウドエッジのパラメトリック推論

PIE-NET: Parametric Inference of Point Cloud Edges ( http://arxiv.org/abs/2007.04883v2 )

ライセンス: Link先を確認
Xiaogang Wang, Yuelang Xu, Kai Xu, Andrea Tagliasacchi, Bin Zhou, Ali Mahdavi-Amiri, Hao Zhang(参考訳) 3Dポイントクラウドデータの特徴エッジを堅牢に識別するエンドツーエンドの学習技術を導入する。 我々はこれらの辺をパラメトリック曲線(ライン、円、bスプライン)の集合として表現する。 したがって、私たちのディープニューラルネットワークであるPIE-NETは、エッジのパラメトリック推論のために訓練されている。 ネットワークは"リージョン提案"アーキテクチャに依存しており、第1のモジュールがエッジとコーナーポイントの過剰なコレクションを提案し、第2のモジュールが各提案をランク付けして検討すべきかどうかを決定する。 我々は,cadモデルの大規模データセットであるabcデータセット上で,この手法をトレーニングし,評価し,従来の(非学習)処理パイプラインや最近のディープラーニングベースのエッジ検出器(ec-net)による結果と比較した。 その結果,定量的,定性的な両面から,最先端技術よりも大幅に向上した。

We introduce an end-to-end learnable technique to robustly identify feature edges in 3D point cloud data. We represent these edges as a collection of parametric curves (i.e.,lines, circles, and B-splines). Accordingly, our deep neural network, coined PIE-NET, is trained for parametric inference of edges. The network relies on a "region proposal" architecture, where a first module proposes an over-complete collection of edge and corner points, and a second module ranks each proposal to decide whether it should be considered. We train and evaluate our method on the ABC dataset, a large dataset of CAD models, and compare our results to those produced by traditional (non-learning) processing pipelines, as well as a recent deep learning based edge detector (EC-NET). Our results significantly improve over the state-of-the-art from both a quantitative and qualitative standpoint.
翻訳日:2022-11-12 04:42:17 公開日:2020-10-25
# LMSCNet:軽量マルチスケール3Dセマンティックコンプリート

LMSCNet: Lightweight Multiscale 3D Semantic Completion ( http://arxiv.org/abs/2008.10559v2 )

ライセンス: Link先を確認
Luis Rold\~ao, Raoul de Charette, Anne Verroust-Blondet(参考訳) 本稿では,Voxelized sparse 3D LiDAR スキャンによるマルチスケール3次元シーン補完手法を提案する。 文献とは対照的に,包括的マルチスケールスキップ接続を備えた2次元UNetバックボーンを用いて特徴フローと3次元セグメンテーションヘッドを向上する。 semantickittiベンチマークでは、このメソッドはセマンティックコンプリートと同等に動作し、他のすべてのパブリッシュされたメソッドよりも高い占有率でコンプリートを実行します。 そのため、モバイルロボティクスアプリケーションにとって、優れたパフォーマンス/スピードトレードオフを提供する。 アブレーション研究は,低密度入力に対してロバストであり,最も粗いレベルでの高速セマンティクス補完を可能にすることを実証した。 私たちのコードはhttps://github.com/cv-rits/lmscnetで利用可能です。

We introduce a new approach for multiscale 3Dsemantic scene completion from voxelized sparse 3D LiDAR scans. As opposed to the literature, we use a 2D UNet backbone with comprehensive multiscale skip connections to enhance feature flow, along with 3D segmentation heads. On the SemanticKITTI benchmark, our method performs on par on semantic completion and better on occupancy completion than all other published methods -- while being significantly lighter and faster. As such it provides a great performance/speed trade-off for mobile-robotics applications. The ablation studies demonstrate our method is robust to lower density inputs, and that it enables very high speed semantic completion at the coarsest level. Our code is available at https://github.com/cv-rits/LMSCNet.
翻訳日:2022-10-25 12:07:08 公開日:2020-10-25
# 音声分類器のアドバイザリトレーニング

Adversarially Training for Audio Classifiers ( http://arxiv.org/abs/2008.11618v2 )

ライセンス: Link先を確認
Raymel Alfonso Sallo, Mohammad Esmaeilpour, Patrick Cardinal(参考訳) 本稿では,先進的な6つのニューラルネットワークの強靭性に対する対人訓練の効果について検討する。 まず,tnnetz chromagramを付加した離散ウェーブレット変換の2次元表現を訓練したresnet-56モデルは,認識精度において他のモデルよりも優れていることを示す。 そして,このモデルに対する敵意的トレーニングと,それに伴う6種類の攻撃アルゴリズム(ホワイトボックスとブラックボックス)に対する他のディープアーキテクチャの効果を実証し,認識精度の低減と敵意摂動の制限によるコストを検証した。 我々は,2つのベンチマーク環境音データを用いて実験を行い,敵の予算配分に制限を課すことなく,敵が訓練したモデルの騙し率を90%超えることを示した。 言い換えれば、敵の攻撃はどんなスケールでも存在するが、非敵が訓練したモデルよりも高い敵の摂動を必要とする可能性がある。

In this paper, we investigate the potential effect of the adversarially training on the robustness of six advanced deep neural networks against a variety of targeted and non-targeted adversarial attacks. We firstly show that, the ResNet-56 model trained on the 2D representation of the discrete wavelet transform appended with the tonnetz chromagram outperforms other models in terms of recognition accuracy. Then we demonstrate the positive impact of adversarially training on this model as well as other deep architectures against six types of attack algorithms (white and black-box) with the cost of the reduced recognition accuracy and limited adversarial perturbation. We run our experiments on two benchmarking environmental sound datasets and show that without any imposed limitations on the budget allocations for the adversary, the fooling rate of the adversarially trained models can exceed 90\%. In other words, adversarial attacks exist in any scales, but they might require higher adversarial perturbations compared to non-adversarially trained models.
翻訳日:2022-10-24 21:20:10 公開日:2020-10-25
# 連続正規化ワッサーシュタインバリセンター

Continuous Regularized Wasserstein Barycenters ( http://arxiv.org/abs/2008.12534v2 )

ライセンス: Link先を確認
Lingxiao Li, Aude Genevay, Mikhail Yurochkin, Justin Solomon(参考訳) wasserstein barycentersは、最適な輸送理論に基づいて構築された確率分布を集約する幾何学的に有意義な方法を提供する。 しかし、実際には計算が難しいため、以前の研究はサポートを有限個の点に制限した。 正規化waserstein barycenter問題に対する新しい双対定式化を用いて,barycenterの連続近似を構成する確率的アルゴリズムを提案する。 強双対性を確立し、対応する原始双対関係を用いて正規化輸送問題の双対ポテンシャルを暗黙的にバリセンタをパラメトリゼーションする。 結果として得られる問題は、サンプルアクセスを与えられた連続分布の重心を近似する効率的なオンラインアルゴリズムをもたらす確率的勾配降下によって解くことができる。 提案手法の有効性を実証し,従来の合成例や実世界の応用例と比較する。

Wasserstein barycenters provide a geometrically meaningful way to aggregate probability distributions, built on the theory of optimal transport. They are difficult to compute in practice, however, leading previous work to restrict their supports to finite sets of points. Leveraging a new dual formulation for the regularized Wasserstein barycenter problem, we introduce a stochastic algorithm that constructs a continuous approximation of the barycenter. We establish strong duality and use the corresponding primal-dual relationship to parametrize the barycenter implicitly using the dual potentials of regularized transport problems. The resulting problem can be solved with stochastic gradient descent, which yields an efficient online algorithm to approximate the barycenter of continuous distributions given sample access. We demonstrate the effectiveness of our approach and compare against previous work on synthetic examples and real-world applications.
翻訳日:2022-10-24 01:29:25 公開日:2020-10-25
# コンピレント・ムーブメント・プリミティブを用いたコンタクトリッチスキルの深層強化学習

Deep Reinforcement Learning for Contact-Rich Skills Using Compliant Movement Primitives ( http://arxiv.org/abs/2008.13223v2 )

ライセンス: Link先を確認
Oren Spector and Miriam Zacksenhouse(参考訳) 近年,工業用ロボットが様々な産業に導入され,製造の高度化や高精度化が進んでいる。 しかし、産業用ロボットのさらなる統合は、人間の操作者に比べて柔軟性、適応性、意思決定能力の制限によって妨げられている。 組み立て作業は、接触に富み、小さな不確実性にも敏感であるため、ロボットにとって特に困難である。 強化学習(RL)は、接触豊富な制御ポリシーをスクラッチから学習するための有望なフレームワークを提供するが、高次元連続状態空間への適用性は、高い脆性とサンプルの複雑さのために、かなり制限されている。 これらの問題に対処するため,我々は収束と一般化を容易にする異なるプルーニング手法を提案する。 特に,タスクを自由かつ接触に富んだサブタスクに分割し,関節空間ではなくカルテシアンで制御を行い,制御ポリシーをパラメータ化する。 これらは動的運動プリミティブ(DMP)の枠組みの中で自然に実装されている。 そこで我々は,人間の手首のように振る舞う結合項を導入し,環境との接触下でアクティブなコンプライアンスを実現することにより,DMPフレームワークを拡張した。 提案手法は,空間,サイズ,形状,および密接に関連するシナリオに不変な挿入スキルを学習し,大きな不確かさを処理できることを実証する。 最後に,学習方針をシミュレーションから実世界へ容易に移行し,ur5eロボットでも同様の性能を実現することを実証する。

In recent years, industrial robots have been installed in various industries to handle advanced manufacturing and high precision tasks. However, further integration of industrial robots is hampered by their limited flexibility, adaptability and decision making skills compared to human operators. Assembly tasks are especially challenging for robots since they are contact-rich and sensitive to even small uncertainties. While reinforcement learning (RL) offers a promising framework to learn contact-rich control policies from scratch, its applicability to high-dimensional continuous state-action spaces remains rather limited due to high brittleness and sample complexity. To address those issues, we propose different pruning methods that facilitate convergence and generalization. In particular, we divide the task into free and contact-rich sub-tasks, perform the control in Cartesian rather than joint space, and parameterize the control policy. Those pruning methods are naturally implemented within the framework of dynamic movement primitives (DMP). To handle contact-rich tasks, we extend the DMP framework by introducing a coupling term that acts like the human wrist and provides active compliance under contact with the environment. We demonstrate that the proposed method can learn insertion skills that are invariant to space, size, shape, and closely related scenarios, while handling large uncertainties. Finally we demonstrate that the learned policy can be easily transferred from simulations to real world and achieve similar performance on UR5e robot.
翻訳日:2022-10-23 12:36:40 公開日:2020-10-25
# GazeMAE:マイクロマクロオートエンコーダを用いた眼球運動の一般表現

GazeMAE: General Representations of Eye Movements using a Micro-Macro Autoencoder ( http://arxiv.org/abs/2009.02437v2 )

ライセンス: Link先を確認
Louise Gillian C. Bautista and Prospero C. Naval Jr(参考訳) 眼球運動は、対象と刺激に関する豊富な情報を含む複雑でダイナミックな出来事である。 視覚行動における重要なニュアンスを,刺激非依存に保ちながら保存する眼球運動の抽象表現を提案する。 我々は眼球運動を生の位置と速度の信号として考慮し,深い時間的畳み込みオートエンコーダを訓練する。 オートエンコーダは、眼球運動の高速で遅い特徴に対応する、マイクロスケールとマクロスケールの表現を学ぶ。 様々な分類課題に適応した線形分類器を用いて共同表現を評価する。 我々の研究は性別と年齢を正確に区別し、バイオメトリックスや刺激クラシフィケーションに関する過去の研究よりも優れています。 さらなる実験では、この方法の有効性と一般化性を強調し、アイトラッキング研究を現実世界のアプリケーションに近づけた。

Eye movements are intricate and dynamic events that contain a wealth of information about the subject and the stimuli. We propose an abstract representation of eye movements that preserve the important nuances in gaze behavior while being stimuli-agnostic. We consider eye movements as raw position and velocity signals and train separate deep temporal convolutional autoencoders. The autoencoders learn micro-scale and macro-scale representations that correspond to the fast and slow features of eye movements. We evaluate the joint representations with a linear classifier fitted on various classification tasks. Our work accurately discriminates between gender and age groups, and outperforms previous works on biometrics and stimuli clasification. Further experiments highlight the validity and generalizability of this method, bringing eye tracking research closer to real-world applications.
翻訳日:2022-10-21 20:44:26 公開日:2020-10-25
# Not-so-BigGAN: Wavelet-based Super-Resolution による小型コンピュータ上の高忠実画像の生成

not-so-BigGAN: Generating High-Fidelity Images on Small Compute with Wavelet-based Super-Resolution ( http://arxiv.org/abs/2009.04433v2 )

ライセンス: Link先を確認
Seungwook Han, Akash Srivastava, Cole Hurwitz, Prasanna Sattigeri and David D. Cox(参考訳) BigGANやVQVAE-2のような高解像度画像生成のための最先端のモデルは、トレーニングに膨大な量の計算リソースと時間(512 TPU-v3コア)を必要とするため、より大きな研究コミュニティには手に入らない。 一方、ESRGANのようなGANベースの画像超解像モデルでは、高次元へのスケールアップだけでなく、訓練の効率化も可能である。 本稿では,高次元自然画像の深部生成モデル(DGM)のための簡易かつ費用対効果の高い2段階トレーニングフレームワークであるNt-so-big-GAN(nsb-GAN)を提案する。 まず、ウェーブレット領域のサンプルをトレーニングすることで、低周波帯域の画像を生成する。 次に,提案するウェーブレット超解像デコーダネットワークを用いて,ウェーブレット領域から画素空間への超解像を行う。 ウェーブレットベースのダウンサンプリング法は、ピクセルベースの方法よりも構造情報を保存し、低解像度のサンプリング器(例えば64x64)の生成品質を著しく向上させる。 サンプルとデコーダは並列で訓練でき、エンドツーエンドモデルよりもはるかに低次元空間で動作するため、トレーニングコストは大幅に削減される。 ImageNet 512x512では、ベースラインのBigGANモデルを上回る10.59のFr\'echet Inception Distance(FID)を半分の計算(256 TPU-v3コア)で達成しています。

State-of-the-art models for high-resolution image generation, such as BigGAN and VQVAE-2, require an incredible amount of compute resources and/or time (512 TPU-v3 cores) to train, putting them out of reach for the larger research community. On the other hand, GAN-based image super-resolution models, such as ESRGAN, can not only upscale images to high dimensions, but also are efficient to train. In this paper, we present not-so-big-GAN (nsb-GAN), a simple yet cost-effective two-step training framework for deep generative models (DGMs) of high-dimensional natural images. First, we generate images in low-frequency bands by training a sampler in the wavelet domain. Then, we super-resolve these images from the wavelet domain back to the pixel-space with our novel wavelet super-resolution decoder network. Wavelet-based down-sampling method preserves more structural information than pixel-based methods, leading to significantly better generative quality of the low-resolution sampler (e.g., 64x64). Since the sampler and decoder can be trained in parallel and operate on much lower dimensional spaces than end-to-end models, the training cost is substantially reduced. On ImageNet 512x512, our model achieves a Fr\'echet Inception Distance (FID) of 10.59 -- beating the baseline BigGAN model -- at half the compute (256 TPU-v3 cores).
翻訳日:2022-10-20 09:05:44 公開日:2020-10-25
# AMRNet:空中画像オブジェクト検出におけるチップ拡張

AMRNet: Chips Augmentation in Aerial Images Object Detection ( http://arxiv.org/abs/2009.07168v2 )

ライセンス: Link先を確認
Zhiwei Wei, Chenzhen Duan, Xinghao Song, Ye Tian, Hongpeng Wang(参考訳) 空中画像における物体検出は,(1)物体が画像に対して小さく密度が高いこと,(2)物体スケールが広い範囲で変化すること,(3)異なるクラス内の物体数が不均衡であること,の2つの理由から難しい課題である。 高解像度画像をシリアルサブリージョン(chips)に分割し、それらを検出する。 しかしながら、ネットワークをチップでトレーニングする過程では、スケール変動、オブジェクトスパーシティ、クラス不均衡などの問題が存在する。 本研究では,これらの問題を解決するために3つの拡張手法を導入する。 具体的には,オブジェクトスケールのバランスをとるためにチップサイズを動的に調整し,トレーニングのスケール変動を狭めるスケール適応モジュールを提案する。 加法として,モザイクを導入し,オブジェクトのスパーリティ問題を緩和する。 キャタゴリーのバランスをとるために,パノラマセグメンテーションによるチップ内のペースト対象物のマスク再サンプリングを行う。 本モデルはvisdroneとuavdtの2つの人気のある航空画像データセットにおいて最先端のパフォーマンスを実現する。 驚くべきことに、3つの方法は独立して検出器に適用することができ、推論効率を犠牲にすることなく性能を着実に向上させる。

Object detection in aerial images is a challenging task due to the following reasons: (1) objects are small and dense relative to images; (2) the object scale varies in a wide range; (3) the number of object in different classes is imbalanced. Many current methods adopt cropping idea: splitting high resolution images into serials subregions (chips) and detecting on them. However, some problems such as scale variation, object sparsity, and class imbalance exist in the process of training network with chips. In this work, three augmentation methods are introduced to relieve these problems. Specifically, we propose a scale adaptive module, which dynamically adjusts chip size to balance object scale, narrowing scale variation in training. In addtion, we introduce mosaic to augment datasets, relieving object sparity problem. To balance catgory, we present mask resampling to paste object in chips with panoramic segmentation. Our model achieves state-of-the-art perfomance on two popular aerial image datasets of VisDrone and UAVDT. Remarkably, three methods can be independently applied to detectiors, increasing performance steady without the sacrifice of inference efficiency.
翻訳日:2022-10-18 06:24:24 公開日:2020-10-25
# エピソード・リワードを伴う文脈帯域におけるオンライン半教師付き学習

Online Semi-Supervised Learning in Contextual Bandits with Episodic Reward ( http://arxiv.org/abs/2009.08457v2 )

ライセンス: Link先を確認
Baihan Lin(参考訳) いくつかの実世界のアプリケーションによって動機づけられた,オンライン学習の新たな実践的問題として,異なるエピソードに対して文脈が不定常であり,報酬フィードバックが必ずしも意思決定エージェントに提供されるとは限らない。 このオンライン半教師あり学習環境では,自己スーパービジョンモジュールとしてクラスタリングを容易に組み込んだBerlinUCB(Backside Episodic Reward LinUCB)を導入し,報奨が得られない場合に有用なサイド情報を提供する。 6つの異なるシナリオの定常環境と非定常環境での様々なデータセットに関する実験は、標準的なコンテキストバンディットに対する提案手法の明確な利点を示しました。 最後に、この問題設定が特に有用である関連する実例を紹介した。

We considered a novel practical problem of online learning with episodically revealed rewards, motivated by several real-world applications, where the contexts are nonstationary over different episodes and the reward feedbacks are not always available to the decision making agents. For this online semi-supervised learning setting, we introduced Background Episodic Reward LinUCB (BerlinUCB), a solution that easily incorporates clustering as a self-supervision module to provide useful side information when rewards are not observed. Our experiments on a variety of datasets, both in stationary and nonstationary environments of six different scenarios, demonstrated clear advantages of the proposed approach over the standard contextual bandit. Lastly, we introduced a relevant real-life example where this problem setting is especially useful.
翻訳日:2022-10-17 08:08:42 公開日:2020-10-25
# 群衆カウントのための分布マッチング

Distribution Matching for Crowd Counting ( http://arxiv.org/abs/2009.13077v2 )

ライセンス: Link先を確認
Boyu Wang, Huidong Liu, Dimitris Samaras, Minh Hoai(参考訳) 群衆カウントでは、各トレーニングイメージには複数の人が含まれ、各人がドットでアノテートされる。 既存の群衆計数法は、各注釈点の滑らか化や、注釈点が与えられた各ピクセルの可能性を推定するためにガウス的を用いる必要がある。 本稿では,アノテーションにガウスを付与することは一般化性能を損なうことを示す。 代わりに、群衆COUNTing (DM-Count) に分布マッチングを適用することを提案する。 dm-countでは、正規化予測密度マップと正規化基底真理密度マップの類似性を測定するために最適輸送(ot)を用いる。 OT計算を安定させるために、我々のモデルにトータル変分損失を含める。 DM-Countの一般化誤差境界はガウス滑らか化法よりも厳密であることを示す。 平均絶対誤差(Mean Absolute Error)に関して、DM-Countは、UCF-QNRFとNWPUの2つの大規模カウントデータセットに対して、従来の最先端メソッドよりも大きなマージンで、上海技術とUCF-CC50データセットの最先端結果を達成する。 DM-Countは、最先端の公開結果のエラーを約16%削減した。 コードはhttps://github.com/cvlab-stonybrook/dm-countで入手できる。

In crowd counting, each training image contains multiple people, where each person is annotated by a dot. Existing crowd counting methods need to use a Gaussian to smooth each annotated dot or to estimate the likelihood of every pixel given the annotated point. In this paper, we show that imposing Gaussians to annotations hurts generalization performance. Instead, we propose to use Distribution Matching for crowd COUNTing (DM-Count). In DM-Count, we use Optimal Transport (OT) to measure the similarity between the normalized predicted density map and the normalized ground truth density map. To stabilize OT computation, we include a Total Variation loss in our model. We show that the generalization error bound of DM-Count is tighter than that of the Gaussian smoothed methods. In terms of Mean Absolute Error, DM-Count outperforms the previous state-of-the-art methods by a large margin on two large-scale counting datasets, UCF-QNRF and NWPU, and achieves the state-of-the-art results on the ShanghaiTech and UCF-CC50 datasets. DM-Count reduced the error of the state-of-the-art published result by approximately 16%. Code is available at https://github.com/cvlab-stonybrook/DM-Count.
翻訳日:2022-10-13 21:57:28 公開日:2020-10-25
# 不法労働者」は「違法外国人」と同じか? ベクトル空間における意味論と意味論

Are "Undocumented Workers" the Same as "Illegal Aliens"? Disentangling Denotation and Connotation in Vector Spaces ( http://arxiv.org/abs/2010.02976v2 )

ライセンス: Link先を確認
Albert Webson, Zhizhong Chen, Carsten Eickhoff, Ellie Pavlick(参考訳) 政治において、ネオロジズムはパルチザンの目的のためにしばしば考案される。 例えば、"undocumented workers" と "illegal aliens" は同一の集団(つまり同じ意味を持つ)を指すが、明らかに異なる意味を持つ。 このような例は伝統的に参照に基づく意味論に挑戦し、哲学者や認知科学者の間で代替理論(例えば2要素意味論)の受容を増加させた。 しかし、NLPでは、人気のある事前訓練されたモデルは1つの絡み合った表現として意味と意味の両方を符号化している。 本研究では,事前学習した表現を独立した意味表現と意味表現として分解する逆ニューラルネットワークを提案する。 内在的な解釈可能性については、同じ意味を持つ単語と異なる意味を持つ単語(例えば、「移民」対「アリエン」対「国家税」対「死税」)が、意味空間でさらに離れている間、相互に接近することを示す。 外部アプリケーションでは,不整合表現を用いた情報検索システムを訓練し,記述ベクトルが文書ランキングの視点の多様性を向上させることを示す。

In politics, neologisms are frequently invented for partisan objectives. For example, "undocumented workers" and "illegal aliens" refer to the same group of people (i.e., they have the same denotation), but they carry clearly different connotations. Examples like these have traditionally posed a challenge to reference-based semantic theories and led to increasing acceptance of alternative theories (e.g., Two-Factor Semantics) among philosophers and cognitive scientists. In NLP, however, popular pretrained models encode both denotation and connotation as one entangled representation. In this study, we propose an adversarial neural network that decomposes a pretrained representation as independent denotation and connotation representations. For intrinsic interpretability, we show that words with the same denotation but different connotations (e.g., "immigrants" vs. "aliens", "estate tax" vs. "death tax") move closer to each other in denotation space while moving further apart in connotation space. For extrinsic application, we train an information retrieval system with our disentangled representations and show that the denotation vectors improve the viewpoint diversity of document rankings.
翻訳日:2022-10-10 07:14:24 公開日:2020-10-25
# RANP:3次元CNNの初期化におけるリソース認識ニューロンプルーニング

RANP: Resource Aware Neuron Pruning at Initialization for 3D CNNs ( http://arxiv.org/abs/2010.02488v3 )

ライセンス: Link先を確認
Zhiwei Xu, Thalaiyasingam Ajanthan, Vibhav Vineet, Richard Hartley(参考訳) 3D畳み込みニューラルネットワーク(CNN)は、高密度な3Dデータを含むほとんどの学習ベースアプリケーションに必須であるが、その適用性は過剰なメモリと計算要求のために制限されている。 そのため, 刈り込みによる圧縮が望まれる。 しかし、pruning 3d cnnは、反復最適化パラダイムにpruningを組み込む典型的なpruningアルゴリズムの複雑な性質のためかもしれない。 本研究では,3次元CNNを初期化して高空間レベルにプルークするリソース・アウェア・ニューラルン・プルーニング(RANP)アルゴリズムを提案する。 具体的には、損失関数に対する感度に基づいて各ニューロンの重要性スコアを得ることが核となる。 このニューロンの重要性は、フロップやメモリに関連するニューロンリソースの消費に応じて再重み付けされる。 本研究では,ShapeNetおよびBraTS'18上で広く使用されている3D-UNetsを用いた3次元セマンティックセマンティックセグメンテーションと,UCF101データセット上でのMobileNetV2およびI3Dを用いたビデオ分類の有効性を示す。 これらの実験において、RANPはFLOPの約50-95の削減と35-80のメモリの削減を実現し、未処理のネットワークと比較して精度の低下は無視できる。 これにより、3D CNNのトレーニングに必要な計算リソースが大幅に削減される。 また,本アルゴリズムにより得られたプルーンドネットワークのスケールアップや,トレーニング用データセットへの転送も容易である。

Although 3D Convolutional Neural Networks (CNNs) are essential for most learning based applications involving dense 3D data, their applicability is limited due to excessive memory and computational requirements. Compressing such networks by pruning therefore becomes highly desirable. However, pruning 3D CNNs is largely unexplored possibly because of the complex nature of typical pruning algorithms that embeds pruning into an iterative optimization paradigm. In this work, we introduce a Resource Aware Neuron Pruning (RANP) algorithm that prunes 3D CNNs at initialization to high sparsity levels. Specifically, the core idea is to obtain an importance score for each neuron based on their sensitivity to the loss function. This neuron importance is then reweighted according to the neuron resource consumption related to FLOPs or memory. We demonstrate the effectiveness of our pruning method on 3D semantic segmentation with widely used 3D-UNets on ShapeNet and BraTS'18 as well as on video classification with MobileNetV2 and I3D on UCF101 dataset. In these experiments, our RANP leads to roughly 50-95 reduction in FLOPs and 35-80 reduction in memory with negligible loss in accuracy compared to the unpruned networks. This significantly reduces the computational resources required to train 3D CNNs. The pruned network obtained by our algorithm can also be easily scaled up and transferred to another dataset for training.
翻訳日:2022-10-10 05:10:54 公開日:2020-10-25
# VICTR:テキスト間マルチモーダルタスクのための視覚情報キャプチャテキスト表現

VICTR: Visual Information Captured Text Representation for Text-to-Image Multimodal Tasks ( http://arxiv.org/abs/2010.03182v3 )

ライセンス: Link先を確認
Soyeon Caren Han, Siqu Long, Siwen Luo, Kunze Wang, Josiah Poon(参考訳) テキスト・ツー・イメージのマルチモーダルなタスクは、与えられたテキスト記述から画像を生成し、取り出すという非常に難しいタスクである。 本稿では、テキスト入力からオブジェクトのリッチな視覚的意味情報をキャプチャする、テキストから画像へのマルチモーダルタスクのための新しいビジュアルコンテクストテキスト表現victrを提案する。 まず、テキスト記述を初期入力とし、依存関係解析を行い、構文構造を抽出し、オブジェクト量を含む意味的側面を分析してシーングラフを抽出する。 次に、グラフ畳み込みネットワークを用いて、シーングラフ内の抽出されたオブジェクト、属性、関係と対応する幾何学関係情報を訓練し、テキストおよび視覚的意味情報を統合したテキスト表現を生成する。 テキスト表現は、単語レベルと文レベルの埋め込みで集約され、視覚的文脈表現と文表現の両方を生成する。 評価のために,既存のモデルにVICTRを容易に付加し,量的・質的な側面の両面で改善する。

Text-to-image multimodal tasks, generating/retrieving an image from a given text description, are extremely challenging tasks since raw text descriptions cover quite limited information in order to fully describe visually realistic images. We propose a new visual contextual text representation for text-to-image multimodal tasks, VICTR, which captures rich visual semantic information of objects from the text input. First, we use the text description as initial input and conduct dependency parsing to extract the syntactic structure and analyse the semantic aspect, including object quantities, to extract the scene graph. Then, we train the extracted objects, attributes, and relations in the scene graph and the corresponding geometric relation information using Graph Convolutional Networks, and it generates text representation which integrates textual and visual semantic information. The text representation is aggregated with word-level and sentence-level embedding to generate both visual contextual word and sentence representation. For the evaluation, we attached VICTR to the state-of-the-art models in text-to-image generation.VICTR is easily added to existing models and improves across both quantitative and qualitative aspects.
翻訳日:2022-10-09 22:19:52 公開日:2020-10-25
# すべての負は対照的なインスタンス識別で等しいか?

Are all negatives created equal in contrastive instance discrimination? ( http://arxiv.org/abs/2010.06682v2 )

ライセンス: Link先を確認
Tiffany Tianhui Cai, Jonathan Frankle, David J. Schwab, and Ari S. Morcos(参考訳) 自己教師あり学習はコンピュータビジョンタスクにおける教師あり学習に匹敵し始めている。 最近のアプローチの多くは、コントラストインスタンス識別(cid)に基づいており、ネットワークは、他のインスタンスプール(ネガティブ)と区別しながら、同じインスタンスの2つの拡張バージョン(クエリとポジティブ)を認識するように訓練されている。 学習された表現は、画像分類などの下流タスクで使用される。 moco v2 (chen et al., 2020) の方法論を用いて,与えられたクエリの難易度で負を分割し,有用表現の学習においてどの難易度範囲が最重要かを検討した。 負の少数派(最も難しい5%)は、下流のタスクがほぼ完全な正確さに達するのに必要かつ十分なものであった。 逆に、最も簡単な負の95%は不要で不十分であった。 さらに、負の最も難しい0.1%は不必要であり、時には有害であった。 最後に,その硬さに影響を与える負の特性について検討し,硬い負はクエリと意味的によく似ており,いくつかの負は偶然に予想したよりもずっと簡単あるいは困難であることがわかった。 以上の結果から,CIDはよりインテリジェントな陰性治療の恩恵を受ける可能性が示唆された。

Self-supervised learning has recently begun to rival supervised learning on computer vision tasks. Many of the recent approaches have been based on contrastive instance discrimination (CID), in which the network is trained to recognize two augmented versions of the same instance (a query and positive) while discriminating against a pool of other instances (negatives). The learned representation is then used on downstream tasks such as image classification. Using methodology from MoCo v2 (Chen et al., 2020), we divided negatives by their difficulty for a given query and studied which difficulty ranges were most important for learning useful representations. We found a minority of negatives -- the hardest 5% -- were both necessary and sufficient for the downstream task to reach nearly full accuracy. Conversely, the easiest 95% of negatives were unnecessary and insufficient. Moreover, the very hardest 0.1% of negatives were unnecessary and sometimes detrimental. Finally, we studied the properties of negatives that affect their hardness, and found that hard negatives were more semantically similar to the query, and that some negatives were more consistently easy or hard than we would expect by chance. Together, our results indicate that negatives vary in importance and that CID may benefit from more intelligent negative treatment.
翻訳日:2022-10-07 23:19:41 公開日:2020-10-25
# トピックと可視化のための変分ベイの自動エンコード

Auto-Encoding Variational Bayes for Inferring Topics and Visualization ( http://arxiv.org/abs/2010.09233v2 )

ライセンス: Link先を確認
Dang Pham, Tuan M.V.Le(参考訳) ビジュアライゼーションとトピックモデリングはテキスト分析に広く利用されている。 従来の視覚化手法では、文書の低次元表現を可視化空間(典型的には2dまたは3d)で見つける。 対照的に、トピックモデリングはテキストからトピックを発見することを目的としているが、可視化のためには次元削減法を用いてポストホック埋め込みを行う必要がある。 近年のアプローチでは、生成モデルを用いてトピックと視覚化を共同で発見し、意味論的解釈のために可視化空間に意味論を注入する手法が提案されている。 これらのメソッドが実際に使用されるのを防ぐ大きな課題は、推論アルゴリズムのスケーラビリティである。 我々は,この知識を最大限に活用し,トピックの推測と可視化を共同で行う最初の自動エンコーディング変分ベイズに基づく推論手法を提案する。 本手法はブラックボックスであるため, モデル変更の処理を効率よく行うことができる。 実世界の大規模データセットに対して,本手法の有効性と有効性を実証し,既存のベースラインと比較する。

Visualization and topic modeling are widely used approaches for text analysis. Traditional visualization methods find low-dimensional representations of documents in the visualization space (typically 2D or 3D) that can be displayed using a scatterplot. In contrast, topic modeling aims to discover topics from text, but for visualization, one needs to perform a post-hoc embedding using dimensionality reduction methods. Recent approaches propose using a generative model to jointly find topics and visualization, allowing the semantics to be infused in the visualization space for a meaningful interpretation. A major challenge that prevents these methods from being used practically is the scalability of their inference algorithms. We present, to the best of our knowledge, the first fast Auto-Encoding Variational Bayes based inference method for jointly inferring topics and visualization. Since our method is black box, it can handle model changes efficiently with little mathematical rederivation effort. We demonstrate the efficiency and effectiveness of our method on real-world large datasets and compare it with existing baselines.
翻訳日:2022-10-05 21:39:17 公開日:2020-10-25
# ヒト読解時間を利用したマイクロブログからのキーワード抽出

Enhancing Keyphrase Extraction from Microblogs using Human Reading Time ( http://arxiv.org/abs/2010.09934v2 )

ライセンス: Link先を確認
Yingyi Zhang and Chengzhi Zhang(参考訳) 手動のキーフレーズアノテーションの前提は、アノテーション付きオブジェクトの対応するコンテンツを読むことである。 直感的には、私たちが読むとき、より重要な単語は長い読み時間を占める。 したがって、人間の読解時間を活用することで、対応するコンテンツに有能な単語を見つけることができる。 しかし、キーフレーズ抽出に関するこれまでの研究は、人間の読みの特徴を無視している。 本稿では,マイクロブログ投稿からヒト読解時間を利用してキーワードを抽出することを目的とする。 本研究には2つの主な課題がある。 1つは、人間が単語を読むのに費やす時間を測定する方法を決定することである。 我々は,オープンソース眼球追跡コーパス(osec)から抽出した眼球固定期間を用いる。 さらに,眼球固定期間をキーフレーズ抽出に有効にするための戦略を提案する。 もう一つの課題は、人間の読み時間をキーフレーズ抽出モデルに統合する方法を決定することである。 我々は2つの新しいニューラルネットワークモデルを提案する。 1つ目は、人間の読書時間が注意機構の基礎となる真理として使用されるモデルである。 第2のモデルでは、人間の読書時間を外部の特徴として使用します。 定量的および定性的な実験により,提案モデルが2つのマイクロブログデータセットのベースラインモデルよりも優れた性能を示した。

The premise of manual keyphrase annotation is to read the corresponding content of an annotated object. Intuitively, when we read, more important words will occupy a longer reading time. Hence, by leveraging human reading time, we can find the salient words in the corresponding content. However, previous studies on keyphrase extraction ignore human reading features. In this article, we aim to leverage human reading time to extract keyphrases from microblog posts. There are two main tasks in this study. One is to determine how to measure the time spent by a human on reading a word. We use eye fixation durations extracted from an open source eye-tracking corpus (OSEC). Moreover, we propose strategies to make eye fixation duration more effective on keyphrase extraction. The other task is to determine how to integrate human reading time into keyphrase extraction models. We propose two novel neural network models. The first is a model in which the human reading time is used as the ground truth of the attention mechanism. In the second model, we use human reading time as the external feature. Quantitative and qualitative experiments show that our proposed models yield better performance than the baseline models on two microblog datasets.
翻訳日:2022-10-05 07:41:27 公開日:2020-10-25
# TeX-Graph:COVID-19薬品精製のための複合テンソル・マトリクス知識グラフ

TeX-Graph: Coupled tensor-matrix knowledge-graph embedding for COVID-19 drug repurposing ( http://arxiv.org/abs/2010.11367v2 )

ライセンス: Link先を確認
Charilaos I. Kanatsoulis, and Nicholas D. Sidiropoulos(参考訳) 知識グラフ(kgs)は、知識ベースにおけるエンティティ間の関係的な振る舞いを体系化する強力なツールである。 KGは様々な種類の主観的対象と高次関係を同時にモデル化することができる。 そのため彼らは、生物学や薬理学など多くの分野に適用されている柔軟なモデリングフレームワークを提供している。 kgモデリングの柔軟性は、学習の観点からの祝福であり、挑戦でもある。 本稿では,kg埋め込みのための新しい結合テンソル行列フレームワークを提案する。 我々は、知識ベースにおける実体と関係の簡潔な表現を学ぶためにテンソル因子化ツールを利用し、これらの表現を用いてcovid-19の薬物再導入を行う。 提案する枠組みは原則的,エレガントで,最近開発された生物学的KGを用いて,新型コロナウイルス治療薬の回収作業における最良基準を100%改善する。

Knowledge graphs (KGs) are powerful tools that codify relational behaviour between entities in knowledge bases. KGs can simultaneously model many different types of subject-predicate-object and higher-order relations. As such, they offer a flexible modeling framework that has been applied to many areas, including biology and pharmacology -- most recently, in the fight against COVID-19. The flexibility of KG modeling is both a blessing and a challenge from the learning point of view. In this paper we propose a novel coupled tensor-matrix framework for KG embedding. We leverage tensor factorization tools to learn concise representations of entities and relations in knowledge bases and employ these representations to perform drug repurposing for COVID-19. Our proposed framework is principled, elegant, and achieves 100% improvement over the best baseline in the COVID-19 drug repurposing task using a recently developed biological KG.
翻訳日:2022-10-04 08:29:43 公開日:2020-10-25
# Ischemic Stroke Genome-Wideデータにおける欠失遺伝子型除去のためのオブジェクト属性ビクラスタリング

Object-Attribute Biclustering for Elimination of Missing Genotypes in Ischemic Stroke Genome-Wide Data ( http://arxiv.org/abs/2010.11641v2 )

ライセンス: Link先を確認
Dmitry I. Ignatov and Gennady V. Khvorykh and Andrey V. Khrunin and Stefan Nikoli\'c and Makhmud Shaban and Elizaveta A. Petrova and Evgeniya A. Koltsova and Fouzi Takelait and Dmitrii Egurnov(参考訳) 遺伝子型の欠如は、一般的な疾患や形質のリスク遺伝的変異を特定するための機械学習アプローチの有効性に影響を与える可能性がある。 この問題は、異なるDNAマイクロアレイで異なる実験から遺伝子型データを収集する際に起こり、それぞれが無名(欠失)遺伝子型のパターンによって特徴づけられる。 これにより、機械学習の分類器がクラスを正しく割り当てるのを防ぐことができる。 この問題に対処するために、我々は、オブジェクト属性ビクラスタの概念と、二項関係$\textit{ patients} \times \textit{SNPs}$の密接な部分関係に対応する形式概念をよく考案した。 本論文は,脳梗塞の遺伝的基盤を研究するために収集された大規模実世界データセットにバイクラスタ化アルゴリズムを適用する実験結果を含む。 このアルゴリズムは、さらに処理するために、ジェノタイプ行列の高密度な二クラスタを同定し、機械学習分類器の品質を大幅に向上させた。 提案手法は,in-close4アルゴリズムと比較して,サイズ制約を伴わずにデータセット全体のバイクラスタを生成することも可能であった。

Missing genotypes can affect the efficacy of machine learning approaches to identify the risk genetic variants of common diseases and traits. The problem occurs when genotypic data are collected from different experiments with different DNA microarrays, each being characterised by its pattern of uncalled (missing) genotypes. This can prevent the machine learning classifier from assigning the classes correctly. To tackle this issue, we used well-developed notions of object-attribute biclusters and formal concepts that correspond to dense subrelations in the binary relation $\textit{patients} \times \textit{SNPs}$. The paper contains experimental results on applying a biclustering algorithm to a large real-world dataset collected for studying the genetic bases of ischemic stroke. The algorithm could identify large dense biclusters in the genotypic matrix for further processing, which in return significantly improved the quality of machine learning classifiers. The proposed algorithm was also able to generate biclusters for the whole dataset without size constraints in comparison to the In-Close4 algorithm for generation of formal concepts.
翻訳日:2022-10-04 08:26:39 公開日:2020-10-25
# 機械学習に基づくネットワーク被覆誘導システム

Machine Learning Based Network Coverage Guidance System ( http://arxiv.org/abs/2010.13190v1 )

ライセンス: Link先を確認
Srikanth Chandar, Muvazima Mansoor, Mohina Ahmadi, Hrishikesh Badve, Deepesh Sahoo, Bharath Katragadda(参考訳) 4Gの出現に伴い、データ消費が大幅に増加し、モバイルネットワークの可用性が最重要になっている。 また、ユーザ消費に基づくネットワークトラフィックの爆発により、データ可用性とネットワーク異常が大幅に増加した。 本稿では,ネットワーク接続が貧弱な地域を識別する新たなアプローチを提案する。これにより,両サービス提供者に対して,カバー範囲の改善と,ユーザに対して,ネットワークを司法的に選択するためのフィードバックを提供する。 これに加えて、このソリューションにより、顧客は、モバイルアプリケーションとしてデプロイしながら、機械学習クラスタリングアルゴリズムを使用して、より強力な信号強度ロケーションを持つ、より優れたモバイルネットワークカバレッジエリアにナビゲートできる。 また、周囲の地理的領域にまたがる様々なネットワーク強度と範囲の動的視覚表現も提供する。

With the advent of 4G, there has been a huge consumption of data and the availability of mobile networks has become paramount. Also, with the burst of network traffic based on user consumption, data availability and network anomalies have increased substantially. In this paper, we introduce a novel approach, to identify the regions that have poor network connectivity thereby providing feedback to both the service providers to improve the coverage as well as to the customers to choose the network judiciously. In addition to this, the solution enables customers to navigate to a better mobile network coverage area with stronger signal strength location using Machine Learning Clustering Algorithms, whilst deploying it as a Mobile Application. It also provides a dynamic visual representation of varying network strength and range across nearby geographical areas.
翻訳日:2022-10-03 05:19:09 公開日:2020-10-25
# モデルバイアスのための統一勾配重み付けと音源分離への応用

Unified Gradient Reweighting for Model Biasing with Applications to Source Separation ( http://arxiv.org/abs/2010.13228v1 )

ライセンス: Link先を確認
Efthymios Tzinis, Dimitrios Bralios, Paris Smaragdis(参考訳) 最近のディープラーニングアプローチでは、音源分離タスクが大幅に改善されている。 しかし、これらの作業の大部分は平均的な分離性能の向上に焦点を合わせており、しばしば結果の分布を検査または制御することを無視している。 本稿では,モデルの学習過程に偏りを生じさせ,一定の結果の分布に導出するための軽量な修正を施した,単純で統一的な勾配重み付け手法を提案する。 より具体的には、ユーザ特定確率分布を用いて各バッチの勾配更新を重み付けする。 この手法を様々なソース分離タスクに適用し,モデルの動作ポイントを異なる目的にシフトさせる。 我々は,信頼できない分離推定のような実世界の問題に対処するために,統一的な重み付けスキームの異なるパラメータ化を示す。 我々のフレームワークは、ユーザーが最悪のパフォーマンスと平均パフォーマンスの間の堅牢性トレードオフを制御できるようにする。 さらに,モデルの焦点をユーザ指定の音響クラスに向けるか,あるいはより簡単な例に向けて,より高速な収束を実現するために,統一的な再重み付け方式を応用できることを実験的に示す。

Recent deep learning approaches have shown great improvement in audio source separation tasks. However, the vast majority of such work is focused on improving average separation performance, often neglecting to examine or control the distribution of the results. In this paper, we propose a simple, unified gradient reweighting scheme, with a lightweight modification to bias the learning process of a model and steer it towards a certain distribution of results. More specifically, we reweight the gradient updates of each batch, using a user-specified probability distribution. We apply this method to various source separation tasks, in order to shift the operating point of the models towards different objectives. We demonstrate different parameterizations of our unified reweighting scheme can be used towards addressing several real-world problems, such as unreliable separation estimates. Our framework enables the user to control a robustness trade-off between worst and average performance. Moreover, we experimentally show that our unified reweighting scheme can also be used in order to shift the focus of the model towards being more accurate for user-specified sound classes or even towards easier examples in order to enable faster convergence.
翻訳日:2022-10-03 05:18:54 公開日:2020-10-25
# ImitationFlow: フローの正規化による深部安定確率力学の学習

ImitationFlow: Learning Deep Stable Stochastic Dynamic Systems by Normalizing Flows ( http://arxiv.org/abs/2010.13129v1 )

ライセンス: Link先を確認
Julen Urain, Michelle Ginesi, Davide Tateo, Jan Peters(参考訳) 我々は,グローバルに安定で確率的,非線形な力学を学習できる新しい深層生成モデルであるimitationflowを紹介する。 我々の手法は正規化フローフレームワークを拡張して安定な確率微分方程式を学習する。 確率微分方程式のクラスに対するリアプノフの安定性を証明し、証明された軌道の集合から学習する学習アルゴリズムを提案する。 本モデルは,最先端の手法で表現できる安定な力学系の集合を拡張し,実演におけるガウス的仮定を取り除き,表現精度の面では従来のアルゴリズムを上回っている。 本手法は,標準データセットと実ロボット実験の両方を用いて有効性を示す。

We introduce ImitationFlow, a novel Deep generative model that allows learning complex globally stable, stochastic, nonlinear dynamics. Our approach extends the Normalizing Flows framework to learn stable Stochastic Differential Equations. We prove the Lyapunov stability for a class of Stochastic Differential Equations and we propose a learning algorithm to learn them from a set of demonstrated trajectories. Our model extends the set of stable dynamical systems that can be represented by state-of-the-art approaches, eliminates the Gaussian assumption on the demonstrations, and outperforms the previous algorithms in terms of representation accuracy. We show the effectiveness of our method with both standard datasets and a real robot experiment.
翻訳日:2022-10-03 05:16:44 公開日:2020-10-25
# 機械学習アルゴリズムによる短期太陽エネルギー予測

Short term solar energy prediction by machine learning algorithms ( http://arxiv.org/abs/2012.00688v1 )

ライセンス: Link先を確認
Farah Shahid, Aneela Zameer, Mudasser Afzal, Muhammad Hassan(参考訳) 太陽ステーションからのスムース発電は、需要を満たすために太陽エネルギーの正確で信頼性が高く効率的な予測を必要とするが、太陽エネルギー生産の暗黙の不安定さは、滑らかな発電に深刻な問題を引き起こす可能性がある。 機械学習の強みを利用して、膨大な特徴の複雑な挙動を効果的に捉え分析することにより、太陽エネルギーの日々の予測を報告する。 この目的のために、98の太陽ステーションからなるデータセットは、毎日の太陽エネルギーを予測するためのアメリカ気象学会(AMS)のエネルギーコンペから取られた。 線形,尾根,ラッソ,決定木,ランダム森林,人工ニューラルネットワークなどのベースライン回帰器の予測モデルは,AMS太陽データセット上に実装されている。 グリッドサイズは16x9と10x4の2つのセクションに変換され、グローバルアンサンブル予測システム (gefs) 上の密度の高い駅から発生した電力に寄与する属性を確認する。 モデルを評価するため,RMSE,MAE,R2_scoreの予測誤差の統計的測定を行い,既存の手法と比較した。 改良された精度は、他のすべての提案手法と対照的に、両方のグリッドサイズに対してランダム森林と尾根回帰器によって達成されている。 提案手法の安定性と信頼性は, 一つのソーラーステーションと複数の独立系ランで評価される。

Smooth power generation from solar stations demand accurate, reliable and efficient forecast of solar energy for optimal integration to cater market demand; however, the implicit instability of solar energy production may cause serious problems for the smooth power generation. We report daily prediction of solar energy by exploiting the strength of machine learning techniques to capture and analyze complicated behavior of enormous features effectively. For this purpose, dataset comprising of 98 solar stations has been taken from energy competition of American Meteorological Society (AMS) for predicting daily solar energy. Forecast models of base line regressors including linear, ridge, lasso, decision tree, random forest and artificial neural networks have been implemented on the AMS solar dataset. Grid size is converted into two sections: 16x9 and 10x4 to ascertain attributes contributing more towards the generated power from densely located stations on global ensemble forecast system (GEFS). To evaluate the models, statistical measures of prediction error in terms of RMSE, MAE and R2_score have been analyzed and compared with the existing techniques. It has been observed that improved accuracy is achieved through random forest and ridge regressor for both grid sizes in contrast to all other proposed methods. Stability and reliability of the proposed schemes are evaluated on a single solar station as well as on multiple independent runs.
翻訳日:2022-10-03 05:15:59 公開日:2020-10-25
# Speakerfilter-Pro: 時間領域と周波数領域を組み合わせた改良されたターゲット話者抽出器

Speakerfilter-Pro: an improved target speaker extractor combines the time domain and frequency domain ( http://arxiv.org/abs/2010.13053v1 )

ライセンス: Link先を確認
Shulin He, Hao Li, Xueliang Zhang(参考訳) 本稿では,従来の話者フィルタモデルに基づく改良された話者抽出器について紹介する。 スピーカフィルタは、双方向ゲートリカレントユニット(bgru)モジュールを使用して、ターゲットスピーカをアンカー音声から特徴付け、畳み込みリカレントネットワーク(crn)モジュールを使用して、ターゲット音声とノイズ信号とを分離する。 WaveUNetは、時間領域で音声分離を行う能力が優れていることが証明されている。 ターゲット話者情報をよりよく抽出するために、CRNモジュールの入力特徴として、大きさスペクトルの代わりに複素スペクトルを用いる。 話者抽出に広く用いられている2話者データセット(WSJ0-mix2)について実験を行った。 系統評価では、話者フィルタ-Proはスピーカフィルタや他のベースラインよりも優れており、14.95dBの信号対歪み比(SDR)を達成する。

This paper introduces an improved target speaker extractor, referred to as Speakerfilter-Pro, based on our previous Speakerfilter model. The Speakerfilter uses a bi-direction gated recurrent unit (BGRU) module to characterize the target speaker from anchor speech and use a convolutional recurrent network (CRN) module to separate the target speech from a noisy signal.Different from the Speakerfilter, the Speakerfilter-Pro sticks a WaveUNet module in the beginning and the ending, respectively. The WaveUNet has been proven to have a better ability to perform speech separation in the time domain. In order to extract the target speaker information better, the complex spectrum instead of the magnitude spectrum is utilized as the input feature for the CRN module. Experiments are conducted on the two-speaker dataset (WSJ0-mix2) which is widely used for speaker extraction. The systematic evaluation shows that the Speakerfilter-Pro outperforms the Speakerfilter and other baselines, and achieves a signal-to-distortion ratio (SDR) of 14.95 dB.
翻訳日:2022-10-03 05:15:38 公開日:2020-10-25
# ビデオ符号化におけるCNNに基づくフィルタのQP適応機構

A QP-adaptive Mechanism for CNN-based Filter in Video Coding ( http://arxiv.org/abs/2010.13059v1 )

ライセンス: Link先を確認
Chao Liu and Heming Sun and Jiro Katto and Xiaoyang Zeng and Yibo Fan(参考訳) 畳み込みニューラルネットワーク(cnn)ベースのフィルタは、ビデオ符号化で大きな成功を収めている。 しかしながら、以前のほとんどの作品では、各量子化パラメータ(qp)バンドに対して個々のモデルが必要である。 本稿では、任意のCNNフィルタが異なる量子化ノイズを処理するのに役立つ汎用手法を提案する。 量子化雑音問題をモデル化し,畳み込みに量子化ステップ(qstep)を導入するcnn上で実現可能な解を実装した。 量子化ノイズが増加すると、ノイズを抑制するcnnフィルタの能力が向上する。 この方法は、既存のCNNフィルタの(バニラ)畳み込み層を置き換えるために直接使用できる。 パラメータの25%しか使用せず、VTM-6.3アンカーを持つ複数のモデルよりも優れた性能を実現する。 また, クロマ成分のbdレートを0.2%に下げる手法も提案されている。

Convolutional neural network (CNN)-based filters have achieved great success in video coding. However, in most previous works, individual models are needed for each quantization parameter (QP) band. This paper presents a generic method to help an arbitrary CNN-filter handle different quantization noise. We model the quantization noise problem and implement a feasible solution on CNN, which introduces the quantization step (Qstep) into the convolution. When the quantization noise increases, the ability of the CNN-filter to suppress noise improves accordingly. This method can be used directly to replace the (vanilla) convolution layer in any existing CNN-filters. By using only 25% of the parameters, the proposed method achieves better performance than using multiple models with VTM-6.3 anchor. Besides, an additional BD-rate reduction of 0.2% is achieved by our proposed method for chroma components.
翻訳日:2022-10-03 05:15:20 公開日:2020-10-25
# 階層型グラフ信号処理による時空間信号からの推論

A Hierarchical Graph Signal Processing Approach to Inference from Spatiotemporal Signals ( http://arxiv.org/abs/2010.13164v1 )

ライセンス: Link先を確認
Nafiseh Ghoroghchian, Stark C. Draper, and Roman Genov(参考訳) グラフ信号処理(GSP)の出現する領域を動機として,時空間信号から推論を行う新しい手法を提案する。 センサネットワークでは、無線ネットワークにおける物体追跡から、脳波(EEG)信号処理などの医療用途まで、さまざまな用途でデータを取得することが一般的である。 本稿では,GSPの新たな手法を活用して,データの時系列グラフへのマッピングによる階層的特徴抽出手法を開発する。 このようなモデルは信号をグラフの頂点にマッピングし、信号間の時間空間依存性はエッジ重みによってモデル化される。 異なる場所と時間から取得したsignalコンポーネントは、しばしば複雑な機能依存を持つ。 したがって、対応するグラフ重みをデータから学び、2つの方法で使用する。 まず、それらは密度のようなグラフのトポロジーに関連する埋め込みの一部として使われる。 第2に、より高レベルなGSPベースの特徴を抽出するためのベースグラフの接続性を提供する。 後者は、異なる周波数帯域における信号のグラフフーリエ変換のエネルギーを含む。 われわれはKaggleてんかん発作検出コンテストの頭蓋内脳波(iEEG)データセットについて検討した。 勝者のコードと比較すると、被験者毎の分析ではわずかに改善され、最大6%の改善が見られたが、特徴の数は平均で75%減少している。

Motivated by the emerging area of graph signal processing (GSP), we introduce a novel method to draw inference from spatiotemporal signals. Data acquisition in different locations over time is common in sensor networks, for diverse applications ranging from object tracking in wireless networks to medical uses such as electroencephalography (EEG) signal processing. In this paper we leverage novel techniques of GSP to develop a hierarchical feature extraction approach by mapping the data onto a series of spatiotemporal graphs. Such a model maps signals onto vertices of a graph and the time-space dependencies among signals are modeled by the edge weights. Signal components acquired from different locations and time often have complicated functional dependencies. Accordingly, their corresponding graph weights are learned from data and used in two ways. First, they are used as a part of the embedding related to the topology of graph, such as density. Second, they provide the connectivities of the base graph for extracting higher level GSP-based features. The latter include the energies of the signal's graph Fourier transform in different frequency bands. We test our approach on the intracranial EEG (iEEG) data set of the Kaggle epileptic seizure detection contest. In comparison to the winning code, the results show a slight net improvement and up to 6 percent improvement in per subject analysis, while the number of features are decreased by 75 percent on average.
翻訳日:2022-10-03 05:14:41 公開日:2020-10-25
# 低分解能異方性例からの高分解能医用画像の作成

Unsupervised Super-Resolution: Creating High-Resolution Medical Images from Low-Resolution Anisotropic Examples ( http://arxiv.org/abs/2010.13172v1 )

ライセンス: Link先を確認
J\"org Sander, Bob D. de Vos and Ivana I\v{s}gum(参考訳) 高分解能等方性3次元医用画像は臨床で望ましいが,その取得は必ずしも可能とは限らない。 代わりに、従来の補間法を用いて低解像度画像を高解像度にアップサンプリングする。 高度学習に基づく超解像アプローチは、高分解能等方性例による訓練を必要とするため、臨床環境では利用できないことが多い。 そこで本研究では,高分解能地中データを用いずに,異方性画像のみを用いて学習可能な超解像手法を提案する。 この方法は、異方性画像で訓練されたオートエンコーダによって生成された潜在空間を利用して、低解像度画像の空間分解能を高める。 本法は,ACDC(Automated Cardiac Diagnosis Challenge)から得られた100個の心シンMRスキャンを用いて,訓練および評価を行った。 その結果,提案手法は従来の補間法よりも優れた性能を示した。 さらに,より微細な心臓構造は高品質で合成されることが示唆された。 この方法は、他の解剖学や形態に応用できる可能性があり、任意の3次元異方性医用画像データセットに容易に適用することができる。

Although high resolution isotropic 3D medical images are desired in clinical practice, their acquisition is not always feasible. Instead, lower resolution images are upsampled to higher resolution using conventional interpolation methods. Sophisticated learning-based super-resolution approaches are frequently unavailable in clinical setting, because such methods require training with high-resolution isotropic examples. To address this issue, we propose a learning-based super-resolution approach that can be trained using solely anisotropic images, i.e. without high-resolution ground truth data. The method exploits the latent space, generated by autoencoders trained on anisotropic images, to increase spatial resolution in low-resolution images. The method was trained and evaluated using 100 publicly available cardiac cine MR scans from the Automated Cardiac Diagnosis Challenge (ACDC). The quantitative results show that the proposed method performs better than conventional interpolation methods. Furthermore, the qualitative results indicate that especially finer cardiac structures are synthesized with high quality. The method has the potential to be applied to other anatomies and modalities and can be easily applied to any 3D anisotropic medical image dataset.
翻訳日:2022-10-03 05:08:03 公開日:2020-10-25
# Gestop : コンピュータシステムのカスタマイズ可能なジェスチャー制御

Gestop : Customizable Gesture Control of Computer Systems ( http://arxiv.org/abs/2010.13197v1 )

ライセンス: Link先を確認
Sriram Krishna, Nishant Sinha(参考訳) ほとんどのコンピュータシステムとのインタフェースの確立された方法は、マウスとキーボードである。 ハンドジェスチャは、コンピュータシステムと対話するための直感的で効果的なタッチレス方式である。 しかし, 手のジェスチャーに基づくシステムは, 空気中のジェスチャーを正確に検出する上で, 数多くの技術的ハードルにより, エンドユーザーの間では採用されていない。 本稿では,このギャップを埋めるために開発されたフレームワークであるgestopを提案する。 このフレームワークはデモからジェスチャーを検出することを学習し、エンドユーザーによってカスタマイズ可能で、ユーザはジェスチャーを使用して、RGBカメラのみを持つコンピュータとリアルタイムで対話することができる。

The established way of interfacing with most computer systems is a mouse and keyboard. Hand gestures are an intuitive and effective touchless way to interact with computer systems. However, hand gesture based systems have seen low adoption among end-users primarily due to numerous technical hurdles in detecting in-air gestures accurately. This paper presents Gestop, a framework developed to bridge this gap. The framework learns to detect gestures from demonstrations, is customizable by end-users and enables users to interact in real-time with computers having only RGB cameras, using gestures.
翻訳日:2022-10-03 05:07:44 公開日:2020-10-25
# クロスデータベース設定下での汎用iris提示攻撃検出アルゴリズム

Generalized Iris Presentation Attack Detection Algorithm under Cross-Database Settings ( http://arxiv.org/abs/2010.13244v1 )

ライセンス: Link先を確認
Mehak Gupta, Vishal Singh, Akshay Agarwal, Mayank Vatsa, and Richa Singh(参考訳) プレゼンテーション攻撃は、バイオメトリックなモダリティのほとんどに大きな課題をもたらしている。 人物識別の最も正確な生体認証の1つであるアイリス認識は、3dコンタクトレンズやテクスチャ付きレンズなどの高度なプレゼンテーション攻撃に対して脆弱であることが示されている。 文献では、いくつかのPADアルゴリズムが提示されているが、顕著な制限は、見えないデータベース、見えないセンサー、異なる撮像環境に対する一般化性である。 この課題に対処するために,複数の表現層を利用する一般化深層学習型PADネットワークMVANetを提案する。 これはハイブリッドアルゴリズムの単純さと成功、あるいは複数の検出ネットワークの融合にインスパイアされている。 したがって、複数の特徴表現層を学習しながら計算複雑性を低減するために、固定ベースモデルが用いられてきた。 提案手法の一般化性を評価するため,IIITD-WVU MUIPA や IIITD-CLI などのデータベース上で,クロスデータベース・トレーニング・テスト環境下での性能を示す。

Presentation attacks are posing major challenges to most of the biometric modalities. Iris recognition, which is considered as one of the most accurate biometric modality for person identification, has also been shown to be vulnerable to advanced presentation attacks such as 3D contact lenses and textured lens. While in the literature, several presentation attack detection (PAD) algorithms are presented; a significant limitation is the generalizability against an unseen database, unseen sensor, and different imaging environment. To address this challenge, we propose a generalized deep learning-based PAD network, MVANet, which utilizes multiple representation layers. It is inspired by the simplicity and success of hybrid algorithm or fusion of multiple detection networks. The computational complexity is an essential factor in training deep neural networks; therefore, to reduce the computational complexity while learning multiple feature representation layers, a fixed base model has been used. The performance of the proposed network is demonstrated on multiple databases such as IIITD-WVU MUIPA and IIITD-CLI databases under cross-database training-testing settings, to assess the generalizability of the proposed algorithm.
翻訳日:2022-10-03 05:07:03 公開日:2020-10-25
# 汎用顔提示検出のためのMixNet

MixNet for Generalized Face Presentation Attack Detection ( http://arxiv.org/abs/2010.13246v1 )

ライセンス: Link先を確認
Nilay Sanghvi, Sushant Kumar Singh, Akshay Agarwal, Mayank Vatsa, and Richa Singh(参考訳) 非侵襲的な性質と顔認識アルゴリズムの高精度さにより、国境アクセスからモバイルアンロック、デジタル支払いまで、複数のアプリケーションにまたがるデプロイに成功した。 しかし、高度で費用効果の高いプレゼンテーション攻撃媒体に対する脆弱性は、信頼性に関する重要な疑問を提起する。 文献では,いくつかの攻撃検出アルゴリズムが提示されているが,現実からは程遠い。 既存の作業の大きな問題は、目に見えるものも目に見えないものも、複数の攻撃に対する一般化性である。 ある種類の攻撃(印刷など)に有用なアルゴリズムは、別の種類の攻撃(シリコンマスクなど)に対して不満足に実行する。 本研究では,クロスデータベースおよびアンセエン攻撃設定におけるプレゼンテーション攻撃を検出するために, \textit{mixnet} と呼ばれるディープラーニングベースのネットワークを提案する。 提案アルゴリズムは最先端の畳み込みニューラルネットワークアーキテクチャを用いて,攻撃カテゴリーごとに特徴マッピングを学習する。 実験は、SMADやSpoof In the Wild (SiW-M)データベースのような複数の挑戦的な顔提示攻撃データベースを使用して実施される。 大規模実験と現状のアルゴリズムとの比較により,提案アルゴリズムの有効性が示された。

The non-intrusive nature and high accuracy of face recognition algorithms have led to their successful deployment across multiple applications ranging from border access to mobile unlocking and digital payments. However, their vulnerability against sophisticated and cost-effective presentation attack mediums raises essential questions regarding its reliability. In the literature, several presentation attack detection algorithms are presented; however, they are still far behind from reality. The major problem with existing work is the generalizability against multiple attacks both in the seen and unseen setting. The algorithms which are useful for one kind of attack (such as print) perform unsatisfactorily for another type of attack (such as silicone masks). In this research, we have proposed a deep learning-based network termed as \textit{MixNet} to detect presentation attacks in cross-database and unseen attack settings. The proposed algorithm utilizes state-of-the-art convolutional neural network architectures and learns the feature mapping for each attack category. Experiments are performed using multiple challenging face presentation attack databases such as SMAD and Spoof In the Wild (SiW-M) databases. Extensive experiments and comparison with existing state of the art algorithms show the effectiveness of the proposed algorithm.
翻訳日:2022-10-03 05:06:43 公開日:2020-10-25
# 視覚的非知覚境界による敵防衛攻撃

Attack Agnostic Adversarial Defense via Visual Imperceptible Bound ( http://arxiv.org/abs/2010.13247v1 )

ライセンス: Link先を確認
Saheb Chhabra, Akshay Agarwal, Richa Singh, and Mayank Vatsa(参考訳) 構造的および非構造的摂動に対するディープラーニングアルゴリズムの高感受性は、効率的な逆防御アルゴリズムの開発を動機付けた。 しかし,既存のディフェンスアルゴリズムの一般化性の欠如と,異なるデータベースに対する攻撃アルゴリズムの性能の変動により,ディフェンスアルゴリズムの有効性に関するいくつかの疑問が提起されている。 本研究では,対人攻撃と対人攻撃の両方に対して一定の範囲内で堅牢な防衛モデルを設計することを目的とする。 この境界は画像の視覚的外観に関係しており、我々はそれを「textit{Visual Imperceptible Bound (VIB)}」と呼んだ。 この境界を計算するために,データベース特性を用いた新しい手法を提案する。 VIBはさらに攻撃アルゴリズムの有効性を測定するために使われる。 MNIST、CIFAR-10、Tiny ImageNetデータベース上で、C\&W(l_2$)、DeepFoolを含む複数の攻撃に対して、提案した防御モデルの性能を評価する。 提案する防御モデルは,複数の攻撃に対するロバスト性を向上させるだけでなく,元のクリーンテストセットの分類精度を保ち,改善することができる。 提案アルゴリズムは攻撃非依存であり,攻撃アルゴリズムの知識を必要としない。

The high susceptibility of deep learning algorithms against structured and unstructured perturbations has motivated the development of efficient adversarial defense algorithms. However, the lack of generalizability of existing defense algorithms and the high variability in the performance of the attack algorithms for different databases raises several questions on the effectiveness of the defense algorithms. In this research, we aim to design a defense model that is robust within a certain bound against both seen and unseen adversarial attacks. This bound is related to the visual appearance of an image, and we termed it as \textit{Visual Imperceptible Bound (VIB)}. To compute this bound, we propose a novel method that uses the database characteristics. The VIB is further used to measure the effectiveness of attack algorithms. The performance of the proposed defense model is evaluated on the MNIST, CIFAR-10, and Tiny ImageNet databases on multiple attacks that include C\&W ($l_2$) and DeepFool. The proposed defense model is not only able to increase the robustness against several attacks but also retain or improve the classification accuracy on an original clean test set. The proposed algorithm is attack agnostic, i.e. it does not require any knowledge of the attack algorithm.
翻訳日:2022-10-03 05:06:26 公開日:2020-10-25
# ロジットモデルにおける接変換アルゴリズムの統計的最適性と安定性

Statistical optimality and stability of tangent transform algorithms in logit models ( http://arxiv.org/abs/2010.13039v1 )

ライセンス: Link先を確認
Indrajit Ghosh, Anirban Bhattacharya and Debdeep Pati(参考訳) その他の難解な非共役モデルにおける変分近似を見つけるための体系的なアプローチは、問題を抽出可能な限界確率を小さくすることで凸双対性の一般的な原理を利用することである。 そのようなアプローチは非共役ベイズモデルにおける変分推論の文脈で人気があるが、統計的最適性やアルゴリズム収束に関する理論的保証は欠如している。 また,ロジスティック回帰モデルに着目し,データ生成過程の緩やかな条件により,変分最適によって引き起こされるリスクに対して,漸近的でない上限を導出する。 これらの仮定は、その確率を分数パワーに上げることによって、アルゴリズムのわずかな変動を考えると完全に緩和できることを示す。 次に、力学系の理論を用いて、ロジスティックおよび多項ロジット回帰におけるそのようなアルゴリズムの収束保証を提供する。 特に,データ生成過程の仮定なしにアルゴリズムの局所的な漸近安定性を確立する。 我々は,大域収束が得られた半直交設計を含む特別な場合を考察する。 この理論はいくつかの数値的研究を用いてさらに説明されている。

A systematic approach to finding variational approximation in an otherwise intractable non-conjugate model is to exploit the general principle of convex duality by minorizing the marginal likelihood that renders the problem tractable. While such approaches are popular in the context of variational inference in non-conjugate Bayesian models, theoretical guarantees on statistical optimality and algorithmic convergence are lacking. Focusing on logistic regression models, we provide mild conditions on the data generating process to derive non-asymptotic upper bounds to the risk incurred by the variational optima. We demonstrate that these assumptions can be completely relaxed if one considers a slight variation of the algorithm by raising the likelihood to a fractional power. Next, we utilize the theory of dynamical systems to provide convergence guarantees for such algorithms in logistic and multinomial logit regression. In particular, we establish local asymptotic stability of the algorithm without any assumptions on the data-generating process. We explore a special case involving a semi-orthogonal design under which a global convergence is obtained. The theory is further illustrated using several numerical studies.
翻訳日:2022-10-03 05:06:08 公開日:2020-10-25
# Now You See Me (CME):概念に基づくモデル抽出

Now You See Me (CME): Concept-based Model Extraction ( http://arxiv.org/abs/2010.13233v1 )

ライセンス: Link先を確認
Dmitry Kazhdan, Botty Dimanov, Mateja Jamnik, Pietro Li\`o, Adrian Weller(参考訳) ディープニューラルネットワーク(DNN)は、さまざまなタスクにおいて顕著なパフォーマンスを実現している。 DNNベースのアプローチをさらに強化するための重要なステップは、その説明可能性を改善することだ。 本稿では,概念ベース抽出モデルを用いたDNNモデルの解析に使用される概念ベースモデル抽出フレームワークであるCMEを紹介する。 2つのケーススタディ(dSpritesとCaltech UCSD Birds)を用いて、CMEの使い方を実証する。 (i)dnnモデルで学習した概念情報の解析 (ii)dnnが出力ラベルの予測にこの概念情報をどのように利用するかを分析する (iii)dnn予測性能をさらに向上させる重要な概念情報を特定する(ケーススタディの1つとして、利用可能な概念の30%のみを使用して、モデルの精度を14%以上向上させる方法を示した)。

Deep Neural Networks (DNNs) have achieved remarkable performance on a range of tasks. A key step to further empowering DNN-based approaches is improving their explainability. In this work we present CME: a concept-based model extraction framework, used for analysing DNN models via concept-based extracted models. Using two case studies (dSprites, and Caltech UCSD Birds), we demonstrate how CME can be used to (i) analyse the concept information learned by a DNN model (ii) analyse how a DNN uses this concept information when predicting output labels (iii) identify key concept information that can further improve DNN predictive performance (for one of the case studies, we showed how model accuracy can be improved by over 14%, using only 30% of the available concepts).
翻訳日:2022-10-03 04:58:45 公開日:2020-10-25
# 指向性センサネットワークにおけるターゲットカバレッジ向上のためのマルチエージェントコーディネート学習

Learning Multi-Agent Coordination for Enhancing Target Coverage in Directional Sensor Networks ( http://arxiv.org/abs/2010.13110v1 )

ライセンス: Link先を確認
Jing Xu, Fangwei Zhong, Yizhou Wang(参考訳) 分散センサの方向調整による最大ターゲットカバレッジは、方向センサネットワーク(dsn)において重要な問題である。 ターゲットは通常ランダムに移動するが、センサーの範囲は角度と距離に制限されるため、この問題は難しい。 したがって、不足するターゲットや冗長なカバレッジの削減など、低消費電力で理想的なターゲットカバレッジを得るためには、センサの調整が必要となる。 そこで本研究では,対象範囲の問題を,コーディネータによる目標割り当てと実行者による割り当てられた目標の追跡という2段階のタスクに分解する階層的目標指向マルチエージェント協調(hit-mac)を提案する。 具体的には、コーディネータは定期的に環境をグローバルに監視し、各実行者にターゲットを割り当てる。 代わりに、実行者は割り当てられたターゲットを追跡するだけでよい。 強化学習によるhit-macを効果的に学習するために, セルフアテンションモジュール, コーディネータの限界貢献近似, 実行者のための目標条件観察フィルタなど, 実用的な手法を多数導入する。 実験結果から,HiT-MACのカバレッジ率,学習効率,スケーラビリティの利点をベースラインと比較した。 また,フレームワークで導入されたコンポーネントの有効性について,アブレーション分析を行った。

Maximum target coverage by adjusting the orientation of distributed sensors is an important problem in directional sensor networks (DSNs). This problem is challenging as the targets usually move randomly but the coverage range of sensors is limited in angle and distance. Thus, it is required to coordinate sensors to get ideal target coverage with low power consumption, e.g. no missing targets or reducing redundant coverage. To realize this, we propose a Hierarchical Target-oriented Multi-Agent Coordination (HiT-MAC), which decomposes the target coverage problem into two-level tasks: targets assignment by a coordinator and tracking assigned targets by executors. Specifically, the coordinator periodically monitors the environment globally and allocates targets to each executor. In turn, the executor only needs to track its assigned targets. To effectively learn the HiT-MAC by reinforcement learning, we further introduce a bunch of practical methods, including a self-attention module, marginal contribution approximation for the coordinator, goal-conditional observation filter for the executor, etc. Empirical results demonstrate the advantage of HiT-MAC in coverage rate, learning efficiency,and scalability, comparing to baselines. We also conduct an ablative analysis on the effectiveness of the introduced components in the framework.
翻訳日:2022-10-03 04:58:33 公開日:2020-10-25
# AutoSpeech 2020: 音声分類のための第2回自動機械学習チャレンジ

AutoSpeech 2020: The Second Automated Machine Learning Challenge for Speech Classification ( http://arxiv.org/abs/2010.13130v1 )

ライセンス: Link先を確認
Jingsong Wang, Tom Ko, Zhen Xu, Xiawei Guo, Souxiang Liu, Wei-Wei Tu, Lei Xie(参考訳) autospeech challengeでは、音声処理タスクに機械学習を適用するプロセスを自動化するための自動機械学習(automl)ソリューションが求められている。 さまざまなドメインをカバーするこれらのタスクは、ランダムな順序で自動化システムに表示されます。 タスクが切り替えられるたびに、新しいタスクに関する情報が対応するトレーニングセットでヒント付けされる。 したがって、全ての提案されたソリューションは、新しいタスクにシステムを適用する適応ルーチンを含むべきである。 第1版と比較して 2020年版には 1) より多くの音声タスク。 2)各タスクにおけるnoisierデータ 3) 評価基準の変更。 本稿では,競合プロトコル,データセット,評価指標,開始キット,ベースラインシステムについて概説する。

The AutoSpeech challenge calls for automated machine learning (AutoML) solutions to automate the process of applying machine learning to speech processing tasks. These tasks, which cover a large variety of domains, will be shown to the automated system in a random order. Each time when the tasks are switched, the information of the new task will be hinted with its corresponding training set. Thus, every submitted solution should contain an adaptation routine which adapts the system to the new task. Compared to the first edition, the 2020 edition includes advances of 1) more speech tasks, 2) noisier data in each task, 3) a modified evaluation metric. This paper outlines the challenge and describe the competition protocol, datasets, evaluation metric, starting kit, and baseline systems.
翻訳日:2022-10-03 04:50:28 公開日:2020-10-25
# APB2FaceV2: リアルタイムオーディオガイドマルチフェイス再現

APB2FaceV2: Real-Time Audio-Guided Multi-Face Reenactment ( http://arxiv.org/abs/2010.13017v1 )

ライセンス: Link先を確認
Jiangning Zhang, Xianfang Zeng, Chao Xu, Jun Chen, Yong Liu, Yunliang Jiang(参考訳) 音声誘導顔再現は、入力された音声と表情が一致したフォトリアリスティック顔を生成することを目的としている。 しかし、モデルがトレーニングされたり、3dレンダリングや画像のポストフュージョンといった余分な操作が必要な場合にのみ、現在のメソッドは特別な人物を再現することができる。 上記の課題を解決するために,複数人物の異なるターゲット面を対応する参照顔で再現し,音声信号を入力として駆動する,新規なemph{R}eal-time \emph{A}udio-guided \emph{M}ulti-face reenactment approach \emph{APB2FaceV2}を提案する。 モデルをエンドツーエンドでトレーニングし、より高速に実行できるように、我々はAdaptive Convolution(AdaConv)と呼ばれる新しいモジュールを設計し、ネットワークにオーディオ情報を注入し、バックボーンとして軽量ネットワークを採用して、ネットワークをCPUやGPU上でリアルタイムに実行できるようにします。 比較実験は、既存の最先端手法よりもアプローチの優位性を証明し、さらなる実験により、我々の手法が実用アプリケーションに対して効率的かつ柔軟であることを示す。

Audio-guided face reenactment aims to generate a photorealistic face that has matched facial expression with the input audio. However, current methods can only reenact a special person once the model is trained or need extra operations such as 3D rendering and image post-fusion on the premise of generating vivid faces. To solve the above challenge, we propose a novel \emph{R}eal-time \emph{A}udio-guided \emph{M}ulti-face reenactment approach named \emph{APB2FaceV2}, which can reenact different target faces among multiple persons with corresponding reference face and drive audio signal as inputs. Enabling the model to be trained end-to-end and have a faster speed, we design a novel module named Adaptive Convolution (AdaConv) to infuse audio information into the network, as well as adopt a lightweight network as our backbone so that the network can run in real time on CPU and GPU. Comparison experiments prove the superiority of our approach than existing state-of-the-art methods, and further experiments demonstrate that our method is efficient and flexible for practical applications https://github.com/zhangzjn/APB2FaceV2
翻訳日:2022-10-03 04:50:18 公開日:2020-10-25
# Coherent Loss: 安定したビデオセグメンテーションのためのジェネリックフレームワーク

Coherent Loss: A Generic Framework for Stable Video Segmentation ( http://arxiv.org/abs/2010.13085v1 )

ライセンス: Link先を確認
Mingyang Qian, Yi Fu, Xiao Tan, Yingying Li, Jinqing Qi, Huchuan Lu, Shilei Wen, Errui Ding(参考訳) ビデオセグメンテーションのアプローチは、多くの視覚課題、特にエンタテインメントのためのビデオ操作において非常に重要である。 高品質なフレーム単位のセグメンテーションアノテーションと、異なる環境の大規模ビデオデータセットを取得することに伴う課題から、学習アプローチは、テストデータセットの全体的な精度を示しているが、ほとんどの実用的なアプリケーションにおいて、自己修正されたジッターアーティファクトに対する厳格な時間的制約を欠いている。 このジッタリングアーチファクトが映像セグメンテーション結果の視覚品質を劣化させる方法について検討し,それを数値的に評価するための時間安定性の指標を提案した。 特に,高い精度と高い一貫性を兼ね備えた,ジッタリングアーティファクトに対するニューラルネットワークの性能向上を目的とした汎用フレームワークによるコヒーレント損失を提案する。 本手法を応用して,既存の映像オブジェクト/セマンティックセグメンテーション手法により,映像人間のデータセットの視覚的品質が向上し,DAVISやCityscapeのさらなる研究が期待できる。

Video segmentation approaches are of great importance for numerous vision tasks especially in video manipulation for entertainment. Due to the challenges associated with acquiring high-quality per-frame segmentation annotations and large video datasets with different environments at scale, learning approaches shows overall higher accuracy on test dataset but lack strict temporal constraints to self-correct jittering artifacts in most practical applications. We investigate how this jittering artifact degrades the visual quality of video segmentation results and proposed a metric of temporal stability to numerically evaluate it. In particular, we propose a Coherent Loss with a generic framework to enhance the performance of a neural network against jittering artifacts, which combines with high accuracy and high consistency. Equipped with our method, existing video object/semantic segmentation approaches achieve a significant improvement in term of more satisfactory visual quality on video human dataset, which we provide for further research in this field, and also on DAVIS and Cityscape.
翻訳日:2022-10-03 04:49:35 公開日:2020-10-25
# リモートセンシング画像からの路面抽出のためのscribble-based weakly supervised deep learning

Scribble-based Weakly Supervised Deep Learning for Road Surface Extraction from Remote Sensing Images ( http://arxiv.org/abs/2010.13106v1 )

ライセンス: Link先を確認
Yao Wei, Shunping Ji(参考訳) 深層学習法を用いたリモートセンシング画像からの道路面抽出は優れた性能を示し,既存の手法の多くは全教師付き学習に基づいている。 そこで本稿では,ScRoadExtractorというスクリブルベースの弱教師付き道路表面抽出手法を提案する。 スパーススクリブルから未ラベル画素への意味情報を伝達するために,道路ネットワークのバッファ特性とスーパーピクセルの色と空間情報の両方を考慮した道路ラベル伝搬アルゴリズムを提案する。 道路ラベル伝搬アルゴリズムから生成された提案マスクを用いて, セマンティックセグメンテーションブランチと補助境界検出ブランチからなる, 設計したデュアルブランチエンコーダデコーダネットワークを訓練する。 世界中の高解像度リモートセンシング衛星と空中画像からなる3つの道路データセットについて実験を行った。 その結果,scroadextractorは,iou(intersection over union)インジケータに対して,従来のscribble-supervised segmentation法を20%上回り,scrable-of-the-art scribble-based weakly supervisedメソッドを少なくとも4%上回った。

Road surface extraction from remote sensing images using deep learning methods has achieved good performance, while most of the existing methods are based on fully supervised learning, which requires a large amount of training data with laborious per-pixel annotation. In this paper, we propose a scribble-based weakly supervised road surface extraction method named ScRoadExtractor, which learns from easily accessible scribbles such as centerlines instead of densely annotated road surface ground-truths. To propagate semantic information from sparse scribbles to unlabeled pixels, we introduce a road label propagation algorithm which considers both the buffer-based properties of road networks and the color and spatial information of super-pixels. The proposal masks generated from the road label propagation algorithm are utilized to train a dual-branch encoder-decoder network we designed, which consists of a semantic segmentation branch and an auxiliary boundary detection branch. We perform experiments on three diverse road datasets that are comprised of highresolution remote sensing satellite and aerial images across the world. The results demonstrate that ScRoadExtractor exceed the classic scribble-supervised segmentation method by 20% for the intersection over union (IoU) indicator and outperform the state-of-the-art scribble-based weakly supervised methods at least 4%.
翻訳日:2022-10-03 04:49:16 公開日:2020-10-25
# ロバスト3次元点群分類のための開集合認識による知識蒸留

Empowering Knowledge Distillation via Open Set Recognition for Robust 3D Point Cloud Classification ( http://arxiv.org/abs/2010.13114v1 )

ライセンス: Link先を確認
Ayush Bhardwaj, Sakshee Pimpale, Saurabh Kumar, Biplab Banerjee(参考訳) 現実世界のシナリオは、非常に成功した研究にもかかわらず、ディープラーニングベースのコンピュータビジョン技術にいくつかの課題をもたらす。 より深いモデルはより良いパフォーマンスを提供するが、デプロイや知識の蒸留は困難であり、より小さなモデルを最小限のパフォーマンスで訓練することができる。 モデルはトレーニング対象外のクラスからのオープンセットのサンプルも扱う必要があり、既知のサンプルを正しく分類しながら、未知のサンプルとして識別することが可能になる。 最後に、既存の画像認識研究のほとんどは、現実世界の3次元オブジェクトの2次元スナップショットの使用のみに焦点を当てている。 本研究は,これら3つの研究分野を橋渡しすることを目的としている。 本稿では,3次元物体認識のための共同知識蒸留と開集合認識訓練手法を提案する。 提案手法は,3dポイントクラウドデータのオープンセット認識を可能としながら,より小さなモデルを実現するための様々な実験を通して,提案手法の有効性を実証する。

Real-world scenarios pose several challenges to deep learning based computer vision techniques despite their tremendous success in research. Deeper models provide better performance, but are challenging to deploy and knowledge distillation allows us to train smaller models with minimal loss in performance. The model also has to deal with open set samples from classes outside the ones it was trained on and should be able to identify them as unknown samples while classifying the known ones correctly. Finally, most existing image recognition research focuses only on using two-dimensional snapshots of the real world three-dimensional objects. In this work, we aim to bridge these three research fields, which have been developed independently until now, despite being deeply interrelated. We propose a joint Knowledge Distillation and Open Set recognition training methodology for three-dimensional object recognition. We demonstrate the effectiveness of the proposed method via various experiments on how it allows us to obtain a much smaller model, which takes a minimal hit in performance while being capable of open set recognition for 3D point cloud data.
翻訳日:2022-10-03 04:48:50 公開日:2020-10-25
# 人間かマシンか? 書くのではなく 書く方法です

Human or Machine? It Is Not What You Write, But How You Write It ( http://arxiv.org/abs/2010.13231v1 )

ライセンス: Link先を確認
Luis A. Leiva and Moises Diaz and Miguel A. Ferrer and R\'ejean Plamondon(参考訳) オンライン詐欺は、しばしば身元を盗む。 ほとんどのセキュリティ対策は弱いか、スプーフ化されているため、よりニュアンス的でより探究の少ない道筋である手書きによる行動バイオメトリックスを調査します。 この種のデータは、ユーザがデバイスまたはコンピュータアプリケーションを操作しているかどうかの検証に使用できるため、人間とマシンの動作を確実に区別することが重要である。 そこで本研究では,人や機械が生成する手書き記号(文字,数字,ジェスチャー,署名)について検討し,複数の深層学習モデルを比較し,対比する。 シンボルを静的な画像として提示すると、最先端の分類器(最高で75%近い精度)を騙すことができるが、時間的シーケンス(平均で95%の精度)として提示された場合、驚くべき精度で識別できる。 フェイク動作の正確な検出は、ユーザーが何を書いているかというよりも、ユーザーの書き方と関係がある、と結論づける。 我々の研究は、正当な人間のユーザーを認証または検証する必要があるコンピュータシステムに対して意味を持ち、攻撃者を困らせるための追加のセキュリティ層を提供します。

Online fraud often involves identity theft. Since most security measures are weak or can be spoofed, we investigate a more nuanced and less explored avenue: behavioral biometrics via handwriting movements. This kind of data can be used to verify whether a user is operating a device or a computer application, so it is important to distinguish between human and machine-generated movements reliably. For this purpose, we study handwritten symbols (isolated characters, digits, gestures, and signatures) produced by humans and machines, and compare and contrast several deep learning models. We find that if symbols are presented as static images, they can fool state-of-the-art classifiers (near 75% accuracy in the best case) but can be distinguished with remarkable accuracy if they are presented as temporal sequences (95% accuracy in the average case). We conclude that an accurate detection of fake movements has more to do with how users write, rather than what they write. Our work has implications for computerized systems that need to authenticate or verify legitimate human users, and provides an additional layer of security to keep attackers at bay.
翻訳日:2022-10-03 04:48:09 公開日:2020-10-25
# Fair Embedding Engine: 単語埋め込みにおける性バイアスの分析と緩和のためのライブラリ

Fair Embedding Engine: A Library for Analyzing and Mitigating Gender Bias in Word Embeddings ( http://arxiv.org/abs/2010.13168v1 )

ライセンス: Link先を確認
Vaibhav Kumar, Tenzin Singhay Bhotia, Vaibhav Kumar(参考訳) 非文脈単語埋め込みモデルは、トレーニングコーパスから性別、人種、宗教の人間のようなステレオタイプバイアスを継承することが示されている。 この問題に対処するために、埋め込みの構文的および意味的実用性を損なうことなく、これらのバイアスを軽減することを目的とした大規模な研究が登場した。 本稿では,単語埋め込みにおける性別バイアスの分析・緩和を行うFair Embedding Engine (FEE)について述べる。 料金は、標準抽象の下で単語埋め込みにおける性別バイアスを定量化し、視覚化し、緩和するための様々な芸術技法を組み合わせる。 FEEは、組み込みモデル上の既存のデバイアス法を高速トラック分析する実践者を支援する。 さらに、標準メトリクスのスイートでパフォーマンスを評価することで、新しいメソッドの迅速なプロトタイピングを可能にする。

Non-contextual word embedding models have been shown to inherit human-like stereotypical biases of gender, race and religion from the training corpora. To counter this issue, a large body of research has emerged which aims to mitigate these biases while keeping the syntactic and semantic utility of embeddings intact. This paper describes Fair Embedding Engine (FEE), a library for analysing and mitigating gender bias in word embeddings. FEE combines various state of the art techniques for quantifying, visualising and mitigating gender bias in word embeddings under a standard abstraction. FEE will aid practitioners in fast track analysis of existing debiasing methods on their embedding models. Further, it will allow rapid prototyping of new methods by evaluating their performance on a suite of standard metrics.
翻訳日:2022-10-03 04:47:47 公開日:2020-10-25
# エネルギーモデルによるドメインに依存しない半教師あり学習の実証的研究:共同学習と事前学習

An empirical study of domain-agnostic semi-supervised learning via energy-based models: joint-training and pre-training ( http://arxiv.org/abs/2010.13116v1 )

ライセンス: Link先を確認
Yunfu Song, Huahuan Zheng, Zhijian Ou(参考訳) 最近の半教師付き学習(SSL)メソッドのクラスは、ドメイン固有のデータ拡張に大きく依存している。 対照的に、生成的SSL法は、共同学習または事前学習による生成モデルに基づく教師なし学習を伴い、データ拡張を本質的に必要としないため、ドメインに依存しない観点からより魅力的である。 共同トレーニングは、観測とラベルの合同分布を推定する一方で、事前トレーニングは観測のみに対して行われる。 近年,エネルギーベースモデル (EBM) は生成モデルとして有望な成果を上げている。 SSL用のEMMによる共同トレーニングは、さまざまなデータモダリティにまたがる結果を奨励するために検討されている。 本稿では,二つの貢献を述べる。 まず、SSLのためのEMMによる事前トレーニングを検討し、共同トレーニングと比較する。 第2に、画像分類と自然言語ラベリングの領域上で一連の実験を行い、ESMベースのSSL方式の性能の現実的な全体像を提供する。 共同訓練型ESMは、前訓練型ESMよりもほぼ一貫した性能を示した。

A class of recent semi-supervised learning (SSL) methods heavily rely on domain-specific data augmentations. In contrast, generative SSL methods involve unsupervised learning based on generative models by either joint-training or pre-training, and are more appealing from the perspective of being domain-agnostic, since they do not inherently require data augmentations. Joint-training estimates the joint distribution of observations and labels, while pre-training is taken over observations only. Recently, energy-based models (EBMs) have achieved promising results for generative modeling. Joint-training via EBMs for SSL has been explored with encouraging results across different data modalities. In this paper, we make two contributions. First, we explore pre-training via EBMs for SSL and compare it to joint-training. Second, a suite of experiments are conducted over domains of image classification and natural language labeling to give a realistic whole picture of the performances of EBM based SSL methods. It is found that joint-training EBMs outperform pre-training EBMs marginally but nearly consistently.
翻訳日:2022-10-03 04:47:35 公開日:2020-10-25
# 糖尿病関連眼・心血管合併症の迅速・非侵襲・ポイントオブケアモニタリングのためのスマートフォンによる検査・予測モデル

Smartphone-Based Test and Predictive Models for Rapid, Non-Invasive, and Point-of-Care Monitoring of Ocular and Cardiovascular Complications Related to Diabetes ( http://arxiv.org/abs/2011.08068v1 )

ライセンス: Link先を確認
Kasyap Chakravadhanula(参考訳) 最も影響のある糖尿病の合併症は糖尿病網膜症であり、労働者階級の盲目の主な原因であり、心血管疾患であり、世界中で死因となっている。 本研究は、これらの条件の機械学習によるスクリーニングの改良について述べる。 まず,循環器リスクに対する各種危険因子(迅速かつ非侵襲的)の影響を振り返って解析し,ランダム森林モデルを開発した。 次に,InceptionV3画像分類モデルを用いて網膜基底画像から糖尿病網膜症を予測するための深層学習モデルを開発した。 入力は網膜画像内の血管を自動的に分割することで単純化された。 トランスファーラーニングのテクニックにより、ターゲットデバイス上の既存のインフラストラクチャを活用でき、特に低リソース環境では、より汎用的なデプロイメントが可能になる。 モデルはスマートフォンベースのデバイスに統合され、安価な3Dプリントの網膜イメージングアタッチメントが組み合わされた。 精度スコアと、受信者の特性曲線、学習曲線、その他のゲージは有望であった。 このテストはずっと安価で速く、糖尿病の2つの合併症に対する継続的なモニタリングを可能にします。 糖尿病網膜症と心血管リスクの両方を手動で診断する方法を置き換える可能性があり、糖尿病合併症の迅速で安価で安全なモニタリングを通じて、医療従事者が医療現場から離れて行うことしかできない時間とコストのかかるプロセスである。 また、糖尿病の心血管および眼合併症の追跡は、他の糖尿病合併症の検出の改善を可能にし、より早く、より効率的な治療を世界規模で行うことができる。

Among the most impactful diabetic complications are diabetic retinopathy, the leading cause of blindness among working class adults, and cardiovascular disease, the leading cause of death worldwide. This study describes the development of improved machine learning based screening of these conditions. First, a random forest model was developed by retrospectively analyzing the influence of various risk factors (obtained quickly and non-invasively) on cardiovascular risk. Next, a deep-learning model was developed for prediction of diabetic retinopathy from retinal fundus images by a modified and re-trained InceptionV3 image classification model. The input was simplified by automatically segmenting the blood vessels in the retinal image. The technique of transfer learning enables the model to capitalize on existing infrastructure on the target device, meaning more versatile deployment, especially helpful in low-resource settings. The models were integrated into a smartphone-based device, combined with an inexpensive 3D-printed retinal imaging attachment. Accuracy scores, as well as the receiver operating characteristic curve, the learning curve, and other gauges, were promising. This test is much cheaper and faster, enabling continuous monitoring for two damaging complications of diabetes. It has the potential to replace the manual methods of diagnosing both diabetic retinopathy and cardiovascular risk, which are time consuming and costly processes only done by medical professionals away from the point of care, and to prevent irreversible blindness and heart-related complications through faster, cheaper, and safer monitoring of diabetic complications. As well, tracking of cardiovascular and ocular complications of diabetes can enable improved detection of other diabetic complications, leading to earlier and more efficient treatment on a global scale.
翻訳日:2022-10-03 04:42:21 公開日:2020-10-25
# 知識単位としてのセマンティック述語を用いた医学知識の表現と計算 : 知識文脈としての不確実性

Towards Medical Knowmetrics: Representing and Computing Medical Knowledge using Semantic Predications as the Knowledge Unit and the Uncertainty as the Knowledge Context ( http://arxiv.org/abs/2010.13031v1 )

ライセンス: Link先を確認
Xiaoying Li, Suyuan Peng, Jian Du(参考訳) 中国では、中国における知識計測の「知識単位」と「知識計量」の概念の先駆者である。 しかし、「計算可能な知識対象」の定義は、様々な分野で議論を呼んでいる。 例えば、それは定義されている。 1)自然科学及び工学における定量的科学的概念 2教育研究分野における知識ポイント、及び 3) バイオメディカル分野における意味的述語,すなわち主観的述語(SPO)三重項 医学文献から抽出されたspoトリプルの高品質な公開リポジトリであるsemantic medline database(semmeddb)は、医学知識を測定するための基本的なデータ基盤を提供する。 一般に、非構造化科学文献から計算可能な知識単位としてspo三重項を抽出する研究は、科学的な知識に圧倒的に焦点をあてている。 SPO三重項は仮説的、投機的、矛盾的、矛盾する主張から抽出される可能性があり、科学知識の不可欠な部分として機能する知識状態(すなわち不確実性)は概ね見過ごされている。 本稿では、SPOトリプルを知識単位とし、不確実性を知識文脈とする医療ノウメトリックスのためのフレームワークを提案する。 肺がん出版データセットは、提案されたフレームワークを検証するために使用される。 医学知識の不確実性とその状態が時間とともにどのように進化するかは、競合する知識クレームの強さと、与えられたspoトリプルに対する確実性の確率を間接的に反映する。 本研究では,不確実性中心のアプローチを用いて研究の前線を検知し,知識に基づく意思決定支援の有効性を向上させるために,高い確実性レベルで知識クレームを特定することを目的とする。

In China, Prof. Hongzhou Zhao and Zeyuan Liu are the pioneers of the concept "knowledge unit" and "knowmetrics" for measuring knowledge. However, the definition of "computable knowledge object" remains controversial so far in different fields. For example, it is defined as 1) quantitative scientific concept in natural science and engineering, 2) knowledge point in the field of education research, and 3) semantic predications, i.e., Subject-Predicate-Object (SPO) triples in biomedical fields. The Semantic MEDLINE Database (SemMedDB), a high-quality public repository of SPO triples extracted from medical literature, provides a basic data infrastructure for measuring medical knowledge. In general, the study of extracting SPO triples as computable knowledge unit from unstructured scientific text has been overwhelmingly focusing on scientific knowledge per se. Since the SPO triples would be possibly extracted from hypothetical, speculative statements or even conflicting and contradictory assertions, the knowledge status (i.e., the uncertainty), which serves as an integral and critical part of scientific knowledge has been largely overlooked. This article aims to put forward a framework for Medical Knowmetrics using the SPO triples as the knowledge unit and the uncertainty as the knowledge context. The lung cancer publications dataset is used to validate the proposed framework. The uncertainty of medical knowledge and how its status evolves over time indirectly reflect the strength of competing knowledge claims, and the probability of certainty for a given SPO triple. We try to discuss the new insights using the uncertainty-centric approaches to detect research fronts, and identify knowledge claims with high certainty level, in order to improve the efficacy of knowledge-driven decision support.
翻訳日:2022-10-03 04:41:52 公開日:2020-10-25
# ELECTRAに挑戦するコモンセンス知識敵データセット

Commonsense knowledge adversarial dataset that challenges ELECTRA ( http://arxiv.org/abs/2010.13049v1 )

ライセンス: Link先を確認
Gongqi Lin, Yuan Miao, Xiaoyong Yang, Wenwu Ou, Lizhen Cui, Wei Guo, Chunyan Miao(参考訳) 常識知識は人間の読解において重要である。 近年,機械理解は大きな進歩を遂げているが,コモンセンス知識を扱う能力は依然として限られている。 同義語は最も広く使われているコモンセンスの知識の1つである。 敵対的データセットの構築は、マシン理解モデルの弱点を見つけ、ソリューションの設計を支援する重要なアプローチである。 共通知識を扱うための機械理解モデルの能力を調べるため,同義語(QADS)の共通知識を用いた質問・回答データセットを作成した。 QADSは、同義語の常識知識を適用してSQuAD 2.0に基づく質問である。 同義語はWordNetから抽出される。 単語はしばしば複数の意味と同義語を持つ。 拡張されたleskアルゴリズムを用いて単語認識の曖昧さを解消し,文脈の同義語を同定した。 ELECTRAは2019年のSQuAD 2.0データセットで最先端の結果を達成する。 スケールでは、ELECTRAはBERTと同様のパフォーマンスを達成できる。 しかし、QADSはELECTRAが同義語の常識知識を扱う能力がほとんどないことを示している。 実験では, ELECTRA-small は SQuAD 2.0 では70% の精度が得られたが, QADS では 20% しか得られなかった。 ELECTRA-largeは性能が良くなかった。 SQuAD 2.0の精度は88%だが、QADSでは26%に大幅に低下した。 初期の実験では、bertもqadで失敗していたが、electraほど悪くはなかった。 その結果、トップパフォーマンスのNLPモデルでさえ、理解を読む上で不可欠なコモンセンス知識を扱う能力がほとんどないことがわかった。

Commonsense knowledge is critical in human reading comprehension. While machine comprehension has made significant progress in recent years, the ability in handling commonsense knowledge remains limited. Synonyms are one of the most widely used commonsense knowledge. Constructing adversarial dataset is an important approach to find weak points of machine comprehension models and support the design of solutions. To investigate machine comprehension models' ability in handling the commonsense knowledge, we created a Question and Answer Dataset with common knowledge of Synonyms (QADS). QADS are questions generated based on SQuAD 2.0 by applying commonsense knowledge of synonyms. The synonyms are extracted from WordNet. Words often have multiple meanings and synonyms. We used an enhanced Lesk algorithm to perform word sense disambiguation to identify synonyms for the context. ELECTRA achieves the state-of-art result on the SQuAD 2.0 dataset in 2019. With scale, ELECTRA can achieve similar performance as BERT does. However, QADS shows that ELECTRA has little ability to handle commonsense knowledge of synonyms. In our experiment, ELECTRA-small can achieve 70% accuracy on SQuAD 2.0, but only 20% on QADS. ELECTRA-large did not perform much better. Its accuracy on SQuAD 2.0 is 88% but dropped significantly to 26% on QADS. In our earlier experiments, BERT, although also failed badly on QADS, was not as bad as ELECTRA. The result shows that even top-performing NLP models have little ability to handle commonsense knowledge which is essential in reading comprehension.
翻訳日:2022-10-03 04:40:42 公開日:2020-10-25
# ヒューマンライクな単語センス知識の側面をエンコードする文脈型単語埋め込み

Contextualized Word Embeddings Encode Aspects of Human-Like Word Sense Knowledge ( http://arxiv.org/abs/2010.13057v1 )

ライセンス: Link先を確認
Sathvik Nair, Mahesh Srinivasan, Stephan Meylan(参考訳) 単語の意味における文脈依存的な変化を理解することは、語彙が支持する人間の言語理解の重要な側面である。 語彙的資源(例えばWordNet)は、この文脈に依存した変化のいくつかのみを捉え、例えば、それらがいかに密接な感覚や識別された単語の意味が互いに関連しているかをコード化しないことが多い。 本研究は,近年のNLP,特に文脈的単語埋め込みの進歩が,多義語やホモニミーといった英単語感覚の人間的な区別を捉えているかどうかを考察する。 我々は,2次元空間配置タスクにおいて,参加者が単語の複数ワードネット感覚の関連性判定を行う行動Webベースの実験からデータを収集した。 BERT埋め込み空間における感覚間の距離と,感覚間の関連性に関する被験者の判断が相関していることがわかった。 共生感覚(例えば、哺乳動物としてのコウモリとスポーツ用品としてのコウモリ)は、多肉類(例えば、鶏は動物として、鶏は肉として、鶏は肉として)よりも、埋め込み空間において互いに確実に距離を置いている。 本研究は,感覚意味の連続空間表現の潜在的有用性を示す。

Understanding context-dependent variation in word meanings is a key aspect of human language comprehension supported by the lexicon. Lexicographic resources (e.g., WordNet) capture only some of this context-dependent variation; for example, they often do not encode how closely senses, or discretized word meanings, are related to one another. Our work investigates whether recent advances in NLP, specifically contextualized word embeddings, capture human-like distinctions between English word senses, such as polysemy and homonymy. We collect data from a behavioral, web-based experiment, in which participants provide judgments of the relatedness of multiple WordNet senses of a word in a two-dimensional spatial arrangement task. We find that participants' judgments of the relatedness between senses are correlated with distances between senses in the BERT embedding space. Homonymous senses (e.g., bat as mammal vs. bat as sports equipment) are reliably more distant from one another in the embedding space than polysemous ones (e.g., chicken as animal vs. chicken as meat). Our findings point towards the potential utility of continuous-space representations of sense meanings.
翻訳日:2022-10-03 04:40:17 公開日:2020-10-25
# WMT 2020無監督機械翻訳共有タスクのためのLMUミュンヘンシステム

The LMU Munich System for the WMT 2020 Unsupervised Machine Translation Shared Task ( http://arxiv.org/abs/2010.13192v1 )

ライセンス: Link先を確認
Alexandra Chronopoulou, Dario Stojanovski, Viktor Hangya, Alexander Fraser(参考訳) 本稿では,LMUミュンヘンのWMT 2020における教師なし共有タスクへの提出について,ドイツ語<->Upper Sorbianについて述べる。 我々のコアunsupervised neural machine translation (unmt) システムは、chronopoulou et al. (2020) の戦略に従い、単言語の事前学習された言語生成モデル(ドイツ語)を使用して、ドイツ語と上ソルビアンの両方で微調整し、unmtモデルを初期化する。 教師なし統計機械翻訳(USMT)システムから得られた擬似並列データを用いてUNMTモデルを微調整する。 また、BPE-Dropoutを低リソース(Upper Sorbian)データに適用し、より堅牢なシステムを得る。 さらに,残差アダプタを実験し,上ソルビアン→ドイツ方向において有用であることを確認した。 我々は,SMT翻訳をより原則的に活用するために,バックトランスレーションとカリキュラム学習中のサンプリングについて検討する。 最終的に、最高性能のシステムを集め、ドイツ語で32.4点、ドイツ語で35.2点に達した。

This paper describes the submission of LMU Munich to the WMT 2020 unsupervised shared task, in two language directions, German<->Upper Sorbian. Our core unsupervised neural machine translation (UNMT) system follows the strategy of Chronopoulou et al. (2020), using a monolingual pretrained language generation model (on German) and fine-tuning it on both German and Upper Sorbian, before initializing a UNMT model, which is trained with online backtranslation. Pseudo-parallel data obtained from an unsupervised statistical machine translation (USMT) system is used to fine-tune the UNMT model. We also apply BPE-Dropout to the low resource (Upper Sorbian) data to obtain a more robust system. We additionally experiment with residual adapters and find them useful in the Upper Sorbian->German direction. We explore sampling during backtranslation and curriculum learning to use SMT translations in a more principled way. Finally, we ensemble our best-performing systems and reach a BLEU score of 32.4 on German->Upper Sorbian and 35.2 on Upper Sorbian->German.
翻訳日:2022-10-03 04:39:32 公開日:2020-10-25
# 政策委譲によるロバストな階層計画

Robust Hierarchical Planning with Policy Delegation ( http://arxiv.org/abs/2010.13033v1 )

ライセンス: Link先を確認
Tin Lai, Philippe Morere(参考訳) 本稿では,デリゲーションの原理に基づく階層計画のための新しい枠組みとアルゴリズムを提案する。 このフレームワークであるMarkov Intent Processは、それぞれがひとつのタスクをうまく実行するように設計されたスキルの集合を特徴としている。 スキルは意図した効果を認識し、計画目標を分析して、最も適したスキルに計画を委譲する。 この原則は動的に計画の階層を形成し、各スキルが特殊化されたサブゴールの計画を作成する。 提案手法はオンデマンド実行を特徴とする-スキルポリシーは必要なときにのみ評価される。 計画は最高レベルでのみ生成され、最新の状態情報が利用可能になったときに拡張および最適化される。 ハイレベルな計画は、初期計画の意図と以前に計算されたスキルを保持し、環境の変化に対応するのに必要な計算を効果的に削減する。 このプランニング手法は,様々な領域における古典的プランニングと強化学習技術と,ソリューションの長さと計画時間の両方において,実験的に非常に競合することを示す。

We propose a novel framework and algorithm for hierarchical planning based on the principle of delegation. This framework, the Markov Intent Process, features a collection of skills which are each specialised to perform a single task well. Skills are aware of their intended effects and are able to analyse planning goals to delegate planning to the best-suited skill. This principle dynamically creates a hierarchy of plans, in which each skill plans for sub-goals for which it is specialised. The proposed planning method features on-demand execution---skill policies are only evaluated when needed. Plans are only generated at the highest level, then expanded and optimised when the latest state information is available. The high-level plan retains the initial planning intent and previously computed skills, effectively reducing the computation needed to adapt to environmental changes. We show this planning approach is experimentally very competitive to classic planning and reinforcement learning techniques on a variety of domains, both in terms of solution length and planning time.
翻訳日:2022-10-03 04:39:09 公開日:2020-10-25
# FAPE : 世代的・階層的時間計画のための制約に基づくプランナー

FAPE: a Constraint-based Planner for Generative and Hierarchical Temporal Planning ( http://arxiv.org/abs/2010.13121v1 )

ライセンス: Link先を確認
Arthur Bit-Monnot, Malik Ghallab, F\'elix Ingrand and David E. Smith(参考訳) 時間的計画は表現的表現に基づく場合、多くの利点をもたらす。 タイムラインは要求された表現性を提供するが、探索効率は犠牲である。 本稿では,ANMLモデリング言語の時間的特徴の多くを効率を損なうことなくサポートする,FAPEと呼ばれる時間的プランナを提案する。 FAPEの表現は、効率的な制御知識を提供する階層的な改善手法とフレキシブルなタイムラインをコヒーレントに統合する。 新たな到達可能性解析手法を提案し,探索空間を制約する因果ネットワークの開発に利用した。 情報ヒューリスティックス、推論方法、効率的な探索戦略の設計に使用される。 フィールドにおける共通ベンチマーク実験の結果、FAPEのコンポーネントと探索戦略を評価し、IPCプランナと比較することができる。 その結果,提案手法は,より表現力の少ないプランナーと競合し,階層的制御知識が提供された場合,しばしば優れていることがわかった。 無償で利用可能なシステムであるfapeは、計画と行動の統合、部分的に観察可能な環境でのセンシングアクションの処理など、ここではカバーされていない他の機能を提供する。

Temporal planning offers numerous advantages when based on an expressive representation. Timelines have been known to provide the required expressiveness but at the cost of search efficiency. We propose here a temporal planner, called FAPE, which supports many of the expressive temporal features of the ANML modeling language without loosing efficiency. FAPE's representation coherently integrates flexible timelines with hierarchical refinement methods that can provide efficient control knowledge. A novel reachability analysis technique is proposed and used to develop causal networks to constrain the search space. It is employed for the design of informed heuristics, inference methods and efficient search strategies. Experimental results on common benchmarks in the field permit to assess the components and search strategies of FAPE, and to compare it to IPC planners. The results show the proposed approach to be competitive with less expressive planners and often superior when hierarchical control knowledge is provided. FAPE, a freely available system, provides other features, not covered here, such as the integration of planning with acting, and the handling of sensing actions in partially observable environments.
翻訳日:2022-10-03 04:38:52 公開日:2020-10-25
# グラフニューラルネットワークによるノードとエッジの共埋め込み

Co-embedding of Nodes and Edges with Graph Neural Networks ( http://arxiv.org/abs/2010.13242v1 )

ライセンス: Link先を確認
Xiaodong Jiang, Ronghang Zhu, Pengsheng Ji, Sheng Li(参考訳) 重要なデータ表現としてグラフは、ソーシャルネットワーク分析から生物学まで、多くの現実世界のアプリケーションで広く使われている。 グラフから情報を正しく、効果的に学習し、抽出する方法は多くの機械学習タスクに不可欠である。 グラフ埋め込みは、データ構造を高次元および非ユークリッド特徴空間から低次元および構造空間に変換しエンコードする方法であり、他の機械学習アルゴリズムによって容易に活用される。 グラフ畳み込みネットワーク(GCN)のような最近の深層学習手法への統計的アプローチから,そのような埋め込み手法の急増を目撃した。 ディープラーニングのアプローチは通常、損失関数を直接最適化するエンドツーエンドの学習フレームワークを構築することで、ほとんどのグラフ学習ベンチマークで従来の方法よりも優れています。 しかし、既存のGCNメソッドのほとんどは、ノードの特徴を持つ畳み込み操作しか実行できないが、知識グラフの関連性のようなエッジ特徴の便利な情報は無視できる。 この問題に対処するために、ノードとエッジの両方の特徴を持つグラフ構造化データのタスクを学習するためのCensNet, Convolution with Edge-Node Switching graph Neural Networkを提案する。 censnetは一般的なグラフ埋め込みフレームワークで、ノードとエッジの両方を潜在的な機能空間に埋め込む。 元の非方向グラフの線グラフを用いてノードとエッジの役割を切り替え、特徴伝播のために2つの新しいグラフ畳み込み演算を提案する。 実世界の学術引用ネットワークと量子化学グラフの実験結果から, 半教師付きノード分類, マルチタスクグラフ分類, グラフ回帰, リンク予測を含む4つのグラフ学習タスクにおいて, 最先端の性能を達成または一致させることが示されている。

Graph, as an important data representation, is ubiquitous in many real world applications ranging from social network analysis to biology. How to correctly and effectively learn and extract information from graph is essential for a large number of machine learning tasks. Graph embedding is a way to transform and encode the data structure in high dimensional and non-Euclidean feature space to a low dimensional and structural space, which is easily exploited by other machine learning algorithms. We have witnessed a huge surge of such embedding methods, from statistical approaches to recent deep learning methods such as the graph convolutional networks (GCN). Deep learning approaches usually outperform the traditional methods in most graph learning benchmarks by building an end-to-end learning framework to optimize the loss function directly. However, most of the existing GCN methods can only perform convolution operations with node features, while ignoring the handy information in edge features, such as relations in knowledge graphs. To address this problem, we present CensNet, Convolution with Edge-Node Switching graph neural network, for learning tasks in graph-structured data with both node and edge features. CensNet is a general graph embedding framework, which embeds both nodes and edges to a latent feature space. By using line graph of the original undirected graph, the role of nodes and edges are switched, and two novel graph convolution operations are proposed for feature propagation. Experimental results on real-world academic citation networks and quantum chemistry graphs show that our approach achieves or matches the state-of-the-art performance in four graph learning tasks, including semi-supervised node classification, multi-task graph classification, graph regression, and link prediction.
翻訳日:2022-10-03 04:32:27 公開日:2020-10-25
# 物体検出モデル回避のための動的逆境パッチ

Dynamic Adversarial Patch for Evading Object Detection Models ( http://arxiv.org/abs/2010.13070v1 )

ライセンス: Link先を確認
Shahar Hoory and Tzvika Shapira and Asaf Shabtai and Yuval Elovici(参考訳) 最近の研究では、コンピュータビジョンに使用されるニューラルネットワークモデル(例えば、YOLOとFast R-CNN)が敵の回避攻撃に弱いことが示されている。 オブジェクト検出器に対する既存の現実世界の敵意攻撃のほとんどは、ターゲットオブジェクトにアタッチされた敵意パッチ(例えば、停止標識に注意深く作られたステッカー)を使用している。 この方法は、対象物に対してカメラの位置が変化しても堅牢ではないかもしれないし、車のような非平面オブジェクトに適用してもうまく機能しないかもしれない。 本研究では,既存の攻撃の限界に対処する,現実世界で適用された物体検出装置に対する革新的な攻撃手法を提案する。 本手法では,対象物体上の複数の所定位置に配置される動的対向パッチを用いる。 使用するパッチを生成するために、逆学習アルゴリズムを適用する。 動的攻撃は、カメラの位置(オブジェクト検出システムの位置)に応じて、最適化されたパッチを動的に切り替えることで実現される。 実際の設定で攻撃を示すために、ターゲットオブジェクトにフラットスクリーンをアタッチすることでパッチを実装しました。 したがって、攻撃は動的であり、最適な結果を得るために状況に適応する。 対象物として車を用いてyolov2物体検出器を攻撃し,広い視野範囲から撮影する場合,最大90%の映像フレームで誤解を生じさせることで,動的パッチアプローチを評価した。 対象オブジェクトと分類のセマンティック距離を考慮したパッチを生成することで攻撃を改善した。 また、異なる車両モデル間の攻撃の伝達性についても検討し、検知器を71%誤解させることができた。

Recent research shows that neural networks models used for computer vision (e.g., YOLO and Fast R-CNN) are vulnerable to adversarial evasion attacks. Most of the existing real-world adversarial attacks against object detectors use an adversarial patch which is attached to the target object (e.g., a carefully crafted sticker placed on a stop sign). This method may not be robust to changes in the camera's location relative to the target object; in addition, it may not work well when applied to nonplanar objects such as cars. In this study, we present an innovative attack method against object detectors applied in a real-world setup that addresses some of the limitations of existing attacks. Our method uses dynamic adversarial patches which are placed at multiple predetermined locations on a target object. An adversarial learning algorithm is applied in order to generate the patches used. The dynamic attack is implemented by switching between optimized patches dynamically, according to the camera's position (i.e., the object detection system's position). In order to demonstrate our attack in a real-world setup, we implemented the patches by attaching flat screens to the target object; the screens are used to present the patches and switch between them, depending on the current camera location. Thus, the attack is dynamic and adjusts itself to the situation to achieve optimal results. We evaluated our dynamic patch approach by attacking the YOLOv2 object detector with a car as the target object and succeeded in misleading it in up to 90% of the video frames when filming the car from a wide viewing angle range. We improved the attack by generating patches that consider the semantic distance between the target object and its classification. We also examined the attack's transferability among different car models and were able to mislead the detector 71% of the time.
翻訳日:2022-10-03 04:30:07 公開日:2020-10-25
# 線形不変埋め込みによる対応学習

Correspondence Learning via Linearly-invariant Embedding ( http://arxiv.org/abs/2010.13136v1 )

ライセンス: Link先を確認
Riccardo Marin, Marie-Julie Rakotosaona, Simone Melzi, Maks Ovsjanikov(参考訳) 本稿では,3次元点雲間の正確な密度対応を推定するための,完全微分可能なパイプラインを提案する。 提案されたパイプラインは、関数マップフレームワークの拡張と一般化である。 しかし、この領域のすべての過去の研究で実現されたLaplace-Beltrami固有関数の代わりに、データから基礎を学習することで堅牢性が向上し、挑戦的な設定において精度が向上することを示した。 基礎を高次元空間への学習的な埋め込みとして解釈する。 関数写像のパラダイムに従って、埋め込み空間における最適変換は線形でなければならず、最適な記述子関数を学習して変換を推定することを目的とした別のアーキテクチャを提案する。 これにより、ベースとディスクリプタの両方がデータから学習される、エンドツーエンドのトレーニング可能な機能マップベースの対応アプローチが生まれる。 興味深いことに、emph{canonical}埋め込みの学習はより悪い結果をもたらすので、さらに線形な自由度を埋め込みネットワークに残すことでより強固になり、それによって以前の方法の成功に光を当てることを示唆している。 最後に,本手法は,非剛性3Dポイントクラウド対応アプリケーションに挑戦する上で,最先端の成果をもたらすことを示す。

In this paper, we propose a fully differentiable pipeline for estimating accurate dense correspondences between 3D point clouds. The proposed pipeline is an extension and a generalization of the functional maps framework. However, instead of using the Laplace-Beltrami eigenfunctions as done in virtually all previous works in this domain, we demonstrate that learning the basis from data can both improve robustness and lead to better accuracy in challenging settings. We interpret the basis as a learned embedding into a higher dimensional space. Following the functional map paradigm the optimal transformation in this embedding space must be linear and we propose a separate architecture aimed at estimating the transformation by learning optimal descriptor functions. This leads to the first end-to-end trainable functional map-based correspondence approach in which both the basis and the descriptors are learned from data. Interestingly, we also observe that learning a \emph{canonical} embedding leads to worse results, suggesting that leaving an extra linear degree of freedom to the embedding network gives it more robustness, thereby also shedding light onto the success of previous methods. Finally, we demonstrate that our approach achieves state-of-the-art results in challenging non-rigid 3D point cloud correspondence applications.
翻訳日:2022-10-03 04:29:41 公開日:2020-10-25
# テンソルキャスティング:パーソナライズドレコメンデーショントレーニングのためのアルゴリズムアーキテクチャー

Tensor Casting: Co-Designing Algorithm-Architecture for Personalized Recommendation Training ( http://arxiv.org/abs/2010.13100v1 )

ライセンス: Link先を確認
Youngeun Kwon, Yunjae Lee, Minsoo Rhu(参考訳) パーソナライズドレコメンデーションは、クラウドデータセンタから提供される最も広くデプロイされた機械学習(ml)ワークロードの1つである。 そのため、近年、高性能レコメンデーション推論のためのアーキテクチャソリューションが、いくつかの先行する文献の標的となっている。 残念ながら、この新興MLワークロードのトレーニング側について、ほとんど調査され、理解されていない。 本稿では,まず,最も重要な性能ボトルネックの1つとして,根源を含まないスパース埋め込み層トレーニングのトレーニング勧告について,詳細なワークロード評価を行った。 そこで,我々はテンソルキャスティングと呼ばれるアルゴリズムアーキテクチャの共同設計を提案し,エンベッド層をトレーニングする上で重要なプリミティブを包含するテンソル集合散乱のための汎用的なアクセラレーションアーキテクチャの開発を可能にした。 実際のCPU-GPUシステムのプロトタイプでは、Tensor Castingは最先端のアプローチに比べてトレーニングスループットが1.9-21倍改善されている。

Personalized recommendations are one of the most widely deployed machine learning (ML) workload serviced from cloud datacenters. As such, architectural solutions for high-performance recommendation inference have recently been the target of several prior literatures. Unfortunately, little have been explored and understood regarding the training side of this emerging ML workload. In this paper, we first perform a detailed workload characterization study on training recommendations, root-causing sparse embedding layer training as one of the most significant performance bottlenecks. We then propose our algorithm-architecture co-design called Tensor Casting, which enables the development of a generic accelerator architecture for tensor gather-scatter that encompasses all the key primitives of training embedding layers. When prototyped on a real CPU-GPU system, Tensor Casting provides 1.9-21x improvements in training throughput compared to state-of-the-art approaches.
翻訳日:2022-10-03 04:23:20 公開日:2020-10-25
# 開発者調整によるハイパーパラメータ転送

Hyperparameter Transfer Across Developer Adjustments ( http://arxiv.org/abs/2010.13117v1 )

ライセンス: Link先を確認
Danny Stoll, J\"org K.H. Franke, Diane Wagner, Simon Selg, Frank Hutter(参考訳) 開発者が機械学習(ML)アルゴリズムを調整した後、新しいHPOを高速化するために、古いハイパーパラメータ最適化(HPO)の結果をどのように自動的に利用できるのか? 開発者の調整によって、ハイパーパラメータの設定がうまく機能するか、あるいはハイパーパラメータの検索スペース自体を変更することができるからだ。 これまでのタスクで得られた知識を活用するアプローチは数多く存在するが、これまでの開発手順からの知識は完全に未解決である。 本稿では,この状況を解決し,ht-aa(hyperparameter transfer across adjustments)という新たな研究枠組みを提案する。 本研究フレームワークの基盤となるために,MLアルゴリズムのさまざまな側面,ハイパーパラメータ検索空間,使用するニューラルネットワークの4つのシンプルなHT-AAベースラインアルゴリズムと8つのベンチマークを提供する。 最も優れたベースラインは、平均して古いHPOと新しいHPOの予算に依存し、転送不要の著名なHPOアルゴリズムよりも1.2--2.6倍高速である。 HPOはML開発において重要なステップであるが、広範な計算資源を必要とするため、このスピードアップは開発サイクルの高速化、コスト削減、環境への影響の低減につながる。 これらのメリットをML開発者がオフザシェルフで利用できるようにし、将来のHT-AAの研究を促進するために、ベースラインとベンチマーク用のpythonパッケージを提供しています。

After developer adjustments to a machine learning (ML) algorithm, how can the results of an old hyperparameter optimization (HPO) automatically be used to speedup a new HPO? This question poses a challenging problem, as developer adjustments can change which hyperparameter settings perform well, or even the hyperparameter search space itself. While many approaches exist that leverage knowledge obtained on previous tasks, so far, knowledge from previous development steps remains entirely untapped. In this work, we remedy this situation and propose a new research framework: hyperparameter transfer across adjustments (HT-AA). To lay a solid foundation for this research framework, we provide four simple HT-AA baseline algorithms and eight benchmarks changing various aspects of ML algorithms, their hyperparameter search spaces, and the neural architectures used. The best baseline, on average and depending on the budgets for the old and new HPO, reaches a given performance 1.2--2.6x faster than a prominent HPO algorithm without transfer. As HPO is a crucial step in ML development but requires extensive computational resources, this speedup would lead to faster development cycles, lower costs, and reduced environmental impacts. To make these benefits available to ML developers off-the-shelf and to facilitate future research on HT-AA, we provide python packages for our baselines and benchmarks.
翻訳日:2022-10-03 04:23:07 公開日:2020-10-25
# 有限報酬応答フィルタによる強化学習の強化 : 知的構造制御を事例として

Enhancing reinforcement learning by a finite reward response filter with a case study in intelligent structural control ( http://arxiv.org/abs/2010.15597v1 )

ライセンス: Link先を確認
Hamid Radmard Rahmani, Carsten Koenke, Marco A. Wiering(参考訳) 多くの強化学習(RL)問題では、エージェントによる取付動作が環境に最大効果に達するまでの時間を要するため、エージェントはアクション効果遅延と呼ばれる遅延によってそのアクションに対応する報酬を受け取る。 このような遅延により,学習アルゴリズムの性能が低下し,計算コストが増大する。 本稿では,学習段階の始めに1つのアクションをとり,そのアクションに対する環境応答を反映した関数を,反射的$\gamma$-関数という関数で構築する,適用可能な拡張q学習手法を導入することで,この問題に対処する。 トレーニングフェーズの間、エージェントは生成された反射的$\gamma$-関数を使用してq値を更新する。 本研究では, 地震応答を受ける建物の振動を所定遅延で低減することを目的とした構造制御問題に対して, 提案手法を適用した。 地震の確率的かつ予測不可能な性質と構造物の複雑な挙動から, 地震制御問題は構造工学における複雑な課題と見なされている。 ゼロ,媒体,長大な動作効果遅延の影響を3つのシナリオで検討し,拡張法の性能を標準q学習法と比較した。 どちらのRL法もニューラルネットワークを用いて、構造を制御するために使用される状態-作用値関数を推定する。 提案手法は,全てのケースにおいて元の手法の性能を著しく向上し,動作効果の遅延に対処するアルゴリズムの安定性も向上することを示した。

In many reinforcement learning (RL) problems, it takes some time until a taken action by the agent reaches its maximum effect on the environment and consequently the agent receives the reward corresponding to that action by a delay called action-effect delay. Such delays reduce the performance of the learning algorithm and increase the computational costs, as the reinforcement learning agent values the immediate rewards more than the future reward that is more related to the taken action. This paper addresses this issue by introducing an applicable enhanced Q-learning method in which at the beginning of the learning phase, the agent takes a single action and builds a function that reflects the environments response to that action, called the reflexive $\gamma$ - function. During the training phase, the agent utilizes the created reflexive $\gamma$- function to update the Q-values. We have applied the developed method to a structural control problem in which the goal of the agent is to reduce the vibrations of a building subjected to earthquake excitations with a specified delay. Seismic control problems are considered as a complex task in structural engineering because of the stochastic and unpredictable nature of earthquakes and the complex behavior of the structure. Three scenarios are presented to study the effects of zero, medium, and long action-effect delays and the performance of the Enhanced method is compared to the standard Q-learning method. Both RL methods use neural network to learn to estimate the state-action value function that is used to control the structure. The results show that the enhanced method significantly outperforms the performance of the original method in all cases, and also improves the stability of the algorithm in dealing with action-effect delays.
翻訳日:2022-10-03 04:22:25 公開日:2020-10-25
# 繰り返しモデルにおける置換不変性への正規化

Regularizing Towards Permutation Invariance in Recurrent Models ( http://arxiv.org/abs/2010.13055v1 )

ライセンス: Link先を確認
Edo Cohen-Karlik, Avichai Ben David and Amir Globerson(参考訳) 多くの機械学習問題では、出力は入力の順序に依存してはならない。 このような「置換不変」函数は近年広く研究されている。 本稿では,RNNの順序に固有の依存性があるにもかかわらず,RNNのような時間的アーキテクチャはそのような問題に非常に関係している,と論じる。 RNNは変分不変性に対して規則化可能であることを示し、非再帰アーキテクチャと比較してコンパクトなモデルが得られることを示す。 我々はこの概念を確率正規化という新しい形式によって実装する。 既存の解は、主に学習問題を設計によって不変な置換である仮説クラスに制限することを提案している。 正規化による置換不変性を強制する我々のアプローチは、(例えば、ある置換に不変で、他には不変ではない)textit{semi permutation invariant} であるモデルを生み出す。 本手法は合成および実世界のデータセットに対する他の置換不変なアプローチよりも優れることを示す。

In many machine learning problems the output should not depend on the order of the input. Such "permutation invariant" functions have been studied extensively recently. Here we argue that temporal architectures such as RNNs are highly relevant for such problems, despite the inherent dependence of RNNs on order. We show that RNNs can be regularized towards permutation invariance, and that this can result in compact models, as compared to non-recurrent architectures. We implement this idea via a novel form of stochastic regularization. Existing solutions mostly suggest restricting the learning problem to hypothesis classes which are permutation invariant by design. Our approach of enforcing permutation invariance via regularization gives rise to models which are \textit{semi permutation invariant} (e.g. invariant to some permutations and not to others). We show that our method outperforms other permutation invariant approaches on synthetic and real world datasets.
翻訳日:2022-10-03 04:21:08 公開日:2020-10-25
# 深部生成モデルを用いた異常検出のさらなる解析

Further Analysis of Outlier Detection with Deep Generative Models ( http://arxiv.org/abs/2010.13064v1 )

ライセンス: Link先を確認
Ziyu Wang, Bin Dai, David Wipf and Jun Zhu(参考訳) 近年, 深部生成モデル (DGM) が, 外乱検出への応用だけでなく, 生成モデルに対する全体的な理解にも影響を及ぼす可能性が高くなることが報告されている。 本稿では,この現象について,モデルの典型的集合と高密度領域が結合しないという観測から,可能な説明を提案する。 この点から,新しい異常値テストを提案する。その実証的成功は,既存の確率ベース異常値テストの失敗が必ずしも対応する生成モデルが不適合であることを意味するとは限らないことを示唆する。 また,低レベルのテクスチャと高レベルのセマンティクスの相違による影響を解消するための追加実験も行います。 総じて,文献に共通に適用される標準評価手法やベンチマークの変更が必要であることが示唆された。

The recent, counter-intuitive discovery that deep generative models (DGMs) can frequently assign a higher likelihood to outliers has implications for both outlier detection applications as well as our overall understanding of generative modeling. In this work, we present a possible explanation for this phenomenon, starting from the observation that a model's typical set and high-density region may not conincide. From this vantage point we propose a novel outlier test, the empirical success of which suggests that the failure of existing likelihood-based outlier tests does not necessarily imply that the corresponding generative model is uncalibrated. We also conduct additional experiments to help disentangle the impact of low-level texture versus high-level semantics in differentiating outliers. In aggregate, these results suggest that modifications to the standard evaluation practices and benchmarks commonly applied in the literature are needed.
翻訳日:2022-10-03 04:20:53 公開日:2020-10-25
# CRAB: ソーシャルメディアにおけるヘイトスピーチ識別のためのクラス表現アテンテートBERT

CRAB: Class Representation Attentive BERT for Hate Speech Identification in Social Media ( http://arxiv.org/abs/2010.13028v1 )

ライセンス: Link先を確認
Sayyed M. Zahiri and Ali Ahmadvand(参考訳) 近年、ソーシャルメディアプラットフォームはヘイトスピーチと不快なコンテンツが爆発的に増えている。 効果的なヘイトスピーチ検出モデルの必要性は、企業や研究者から目覚ましい投資を受けている。 ソーシャルメディアの投稿は概して短く、意味論は1つのトークンでも大幅に変更される可能性がある。 したがって、このタスクは文脈対応の入力表現を学習し、入力埋め込みとクラス表現の関連点を付加信号として考えることが重要である。 これらのニーズに対応するために,ソーシャルメディアにおけるヘイトスピーチ検出のためのニューラルモデルであるkani(class representation attentive bert)を提案する。 モデルは2つの意味表現から恩恵を受けます。 (i)調教可能なトークン・センテンス・クラス表現、及び (II)最先端のBERTエンコーダからのコンテキスト化された入力埋め込み。 CRABの有効性を調べるため,Twitterデータ上でモデルをトレーニングし,強力なベースラインと比較した。 以上の結果よりCRABは平均値F1を1.89%向上させた。 本研究の成果は,ソーシャルメディアにおける虐待行動の自動検出に関する今後の研究の機会となる。

In recent years, social media platforms have hosted an explosion of hate speech and objectionable content. The urgent need for effective automatic hate speech detection models have drawn remarkable investment from companies and researchers. Social media posts are generally short and their semantics could drastically be altered by even a single token. Thus, it is crucial for this task to learn context-aware input representations, and consider relevancy scores between input embeddings and class representations as an additional signal. To accommodate these needs, this paper introduces CRAB (Class Representation Attentive BERT), a neural model for detecting hate speech in social media. The model benefits from two semantic representations: (i) trainable token-wise and sentence-wise class representations, and (ii) contextualized input embeddings from state-of-the-art BERT encoder. To investigate effectiveness of CRAB, we train our model on Twitter data and compare it against strong baselines. Our results show that CRAB achieves 1.89% relative improved Macro-averaged F1 over state-of-the-art baseline. The results of this research open an opportunity for the future research on automated abusive behavior detection in social media
翻訳日:2022-10-03 04:14:13 公開日:2020-10-25
# マルチステージモデリングによるアンタングル表現学習者の再構築

Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modelling ( http://arxiv.org/abs/2010.13187v1 )

ライセンス: Link先を確認
Akash Srivastava, Yamini Bansal, Yukun Ding, Cole Hurwitz, Kai Xu, Bernhard Egger, Prasanna Sattigeri, Josh Tenenbaum, David D. Cox, Dan Gutfreund(参考訳) 現在の自己エンコーダに基づく非絡み合い表現学習法は、後部(アグリゲート)をペナル化することにより、潜伏因子の統計的独立を促進する。 このアプローチでは、ほとんどの画像データに存在する詳細情報をキャプチャする相関潜在変数を学習するのに十分な能力を持たないため、不連続表現学習と再構成品質とのトレードオフを導入する。 このトレードオフを克服するために,既存の不整合表現学習法(例えば$\beta$-TCVAE)を用いて,不整合因子を学習する新しい多段階モデリング手法を提案する。 多段階モデリングのアプローチを組み合わせると、d分離の原則によって理論的に正当化され、変分オートエンコーダのような帰納的モデル、生成的逆ネットワークのような暗黙的モデル、流れの正規化やガウスの混合のような扱いやすいモデルなど、様々なモデルクラスで実現できる単一のコヒーレントな確率モデルができあがります。 我々は,マルチステージモデルが現在の最先端手法よりもはるかに高いコンストラクション品質を有し,複数の標準ベンチマークで同等な異角性性能を示すことを実証する。

Current autoencoder-based disentangled representation learning methods achieve disentanglement by penalizing the (aggregate) posterior to encourage statistical independence of the latent factors. This approach introduces a trade-off between disentangled representation learning and reconstruction quality since the model does not have enough capacity to learn correlated latent variables that capture detail information present in most image data. To overcome this trade-off, we present a novel multi-stage modelling approach where the disentangled factors are first learned using a preexisting disentangled representation learning method (such as $\beta$-TCVAE); then, the low-quality reconstruction is improved with another deep generative model that is trained to model the missing correlated latent variables, adding detail information while maintaining conditioning on the previously learned disentangled factors. Taken together, our multi-stage modelling approach results in a single, coherent probabilistic model that is theoretically justified by the principal of D-separation and can be realized with a variety of model classes including likelihood-based models such as variational autoencoders, implicit models such as generative adversarial networks, and tractable models like normalizing flows or mixtures of Gaussians. We demonstrate that our multi-stage model has much higher reconstruction quality than current state-of-the-art methods with equivalent disentanglement performance across multiple standard benchmarks.
翻訳日:2022-10-03 04:13:36 公開日:2020-10-25
# 自然言語推論による近近近距離Few-Shot Intent検出

Discriminative Nearest Neighbor Few-Shot Intent Detection by Transferring Natural Language Inference ( http://arxiv.org/abs/2010.13009v1 )

ライセンス: Link先を確認
Jian-Guo Zhang, Kazuma Hashimoto, Wenhao Liu, Chien-Sheng Wu, Yao Wan, Philip S. Yu, Richard Socher, Caiming Xiong(参考訳) インテント検出はゴール指向ダイアログシステムの中核的な構成要素のひとつであり,スコープ外(OOS)インテントの検出も事実上重要なスキルである。 わずかながらの学習はデータの不足を軽減するために多くの注目を集めていますが、OOS検出はさらに難しいものになっています。 本稿では, 自己意識の深い識別的近傍分類を, 単純かつ効果的なアプローチとして提示する。 ソフトマックス分類器とは異なり、BERTスタイルのペアエンコーディングを利用して、ユーザ入力に最適なトレーニング例を推定するバイナリ分類器を訓練する。 自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。 大規模マルチドメインインテント検出タスクに関する広範な実験により,本手法はロベルタ型分類器や埋め込み型近接型アプローチよりも安定かつ高精度なドメイン内およびoos検出精度が得られた。 さらに、NLI転送により、50ショットまたはフルショットの分類器と競合して10ショットモデルを実行できますが、高速な埋め込み検索モデルを利用することで、推論時間を一定に保つことができます。

Intent detection is one of the core components of goal-oriented dialog systems, and detecting out-of-scope (OOS) intents is also a practically important skill. Few-shot learning is attracting much attention to mitigate data scarcity, but OOS detection becomes even more challenging. In this paper, we present a simple yet effective approach, discriminative nearest neighbor classification with deep self-attention. Unlike softmax classifiers, we leverage BERT-style pairwise encoding to train a binary classifier that estimates the best matched training example for a user input. We propose to boost the discriminative ability by transferring a natural language inference (NLI) model. Our extensive experiments on a large-scale multi-domain intent detection task show that our method achieves more stable and accurate in-domain and OOS detection accuracy than RoBERTa-based classifiers and embedding-based nearest neighbor approaches. More notably, the NLI transfer enables our 10-shot model to perform competitively with 50-shot or even full-shot classifiers, while we can keep the inference time constant by leveraging a faster embedding retrieval model.
翻訳日:2022-10-03 04:13:10 公開日:2020-10-25
# lazybatching:クラウド機械学習推論のためのsla対応バッチシステム

LazyBatching: An SLA-aware Batching System for Cloud Machine Learning Inference ( http://arxiv.org/abs/2010.13103v1 )

ライセンス: Link先を確認
Yujeong Choi, Yunseong Kim, Minsoo Rhu(参考訳) クラウドML推論システムでは、バッチ処理はスループットを向上させるための重要なテクニックであり、総コストの最適化に役立つ。 以前のグラフバッチ処理では、個々のDNNグラフを1つのグラフに組み合わせ、複数の入力を並列に実行できる。 粗いグラフのバッチ処理は動的推論要求のトラフィックを効果的に処理するのに最適であり、テーブル上での重要な性能を残している。 本稿では、フレキシブルなバッチ処理のためのグラフ全体ではなく、個々のグラフノードの粒度のスケジューリングとバッチ化を両立するSLA対応バッチ処理システムであるLazyBatchingを提案する。 平均応答時間,スループット,SLA満足度の観点から,LazyBatchingはグラフバッチよりも平均15x,1.5x,5.5xの改善を実現し,効率的にバッチ化できるノードの集合をインテリジェントに決定できることを示す。

In cloud ML inference systems, batching is an essential technique to increase throughput which helps optimize total-cost-of-ownership. Prior graph batching combines the individual DNN graphs into a single one, allowing multiple inputs to be concurrently executed in parallel. We observe that the coarse-grained graph batching becomes suboptimal in effectively handling the dynamic inference request traffic, leaving significant performance left on the table. This paper proposes LazyBatching, an SLA-aware batching system that considers both scheduling and batching in the granularity of individual graph nodes, rather than the entire graph for flexible batching. We show that LazyBatching can intelligently determine the set of nodes that can be efficiently batched together, achieving an average 15x, 1.5x, and 5.5x improvement than graph batching in terms of average response time, throughput, and SLA satisfaction, respectively.
翻訳日:2022-10-03 04:12:51 公開日:2020-10-25
# ボット・ヒューマンハイブリッドカスタマサービスシステムのための対話レベル弱信号を用いたターンレベルダイアログ評価

Turn-level Dialog Evaluation with Dialog-level Weak Signals for Bot-Human Hybrid Customer Service Systems ( http://arxiv.org/abs/2011.06395v1 )

ライセンス: Link先を確認
Ruofeng Wen(参考訳) インタラクションの間いつでも、顧客サービスコンタクトにおける成功や価値の複数の側面を定量化する機械学習アプローチを開発しました。 具体的には、ダイアログレベルの属性/状態の弱い信号のみを訓練したマルチタスクニューラルネットワークからのトークンレベルの予測に基づいて、人間のエージェント、チャットボット、その他のハイブリッドダイアログシステムにわたるターンレベルの振る舞いに関する値/リワード関数を文間のインクリメンタル情報と信頼獲得によって特徴付ける。 その結果得られたモデルであるValue Profilerは、目標指向のダイアログマネージャとして機能し、報酬と状態予測による自動決定の制御によって会話を強化する。 リアルタイムモニタリングとスケーラブルなオフラインユーザエクスペリエンス評価の両方をサポートし、ボットとヒューマンハンドドコンタクトの両方をサポートする。 いくつかのアプリケーションでamazonのカスタマーサービスの品質を改善する方法を示します。

We developed a machine learning approach that quantifies multiple aspects of the success or values in Customer Service contacts, at anytime during the interaction. Specifically, the value/reward function regarding to the turn-level behaviors across human agents, chatbots and other hybrid dialog systems is characterized by the incremental information and confidence gain between sentences, based on the token-level predictions from a multi-task neural network trained with only weak signals in dialog-level attributes/states. The resulting model, named Value Profiler, serves as a goal-oriented dialog manager that enhances conversations by regulating automated decisions with its reward and state predictions. It supports both real-time monitoring and scalable offline customer experience evaluation, for both bot- and human-handled contacts. We show how it improves Amazon customer service quality in several applications.
翻訳日:2022-10-03 04:12:33 公開日:2020-10-25
# 画像分割アプローチを用いた畳み込みニューラルネットワークの超スパース画像データセットへの適用

Applying convolutional neural networks to extremely sparse image datasets using an image subdivision approach ( http://arxiv.org/abs/2010.13054v1 )

ライセンス: Link先を確認
Johan P. Boetker(参考訳) 目的: 本研究の目的は, 畳み込みニューラルネットワーク(cnn)を, 画像データセットの下位分割により, 極めてスパースな画像ライブラリに適用できることを実証することである。 方法:従来のデジタルカメラの画像データセットを作成し,走査型電子顕微鏡(SEM)測定を行った。 画像データセットは分割され、CNNモデルは分割データセットの一部でトレーニングされた。 結果: CNNモデルでは, 画像分割手法を用いて, 極めてスパースな画像データセットを解析することができた。 さらに、所定のapiや外観が優勢なさまざまな地域を直接評価することも可能であった。

Purpose: The aim of this work is to demonstrate that convolutional neural networks (CNN) can be applied to extremely sparse image libraries by subdivision of the original image datasets. Methods: Image datasets from a conventional digital camera was created and scanning electron microscopy (SEM) measurements were obtained from the literature. The image datasets were subdivided and CNN models were trained on parts of the subdivided datasets. Results: The CNN models were capable of analyzing extremely sparse image datasets by utilizing the proposed method of image subdivision. It was furthermore possible to provide a direct assessment of the various regions where a given API or appearance was predominant.
翻訳日:2022-10-03 04:12:16 公開日:2020-10-25
# ニューロンの融合 : 切断ニューロンの補償

Neuron Merging: Compensating for Pruned Neurons ( http://arxiv.org/abs/2010.13160v1 )

ライセンス: Link先を確認
Woojeong Kim, Suhyun Kim, Mincheol Park, Geonseok Jeon(参考訳) ネットワークプルーニングは、ニューラルネットワークモデルの軽量化と高速化に広く使用されている。 構造化ネットワークの刈り取りはニューロン全体やフィルターを破棄し、精度を低下させる。 本研究では,完全結合層と畳み込み層の両方に適用可能なニューロン融合の新たな概念を提案する。 ニューロンの融合は、元の重みを2つのマトリックス/テンソルに分解することから始まる。 そのうちの1つは現在の層の新しい重みとなり、もう1つは私たちがスケーリングマトリックスと呼ぶもので、ニューロンの組み合わせを導くものです。 活性化関数がReLUであれば、特定の条件下でスケーリングマトリックスを次の層に吸収し、除去されたニューロンを補償することができる。 また、ニューロン間のコサイン類似性を利用して重量を分解するデータフリーで安価な方法を提案する。 同じトポロジを持つプルーニングモデルと比較して、マージしたモデルは元のモデルの出力特徴写像をよりよく保存し、微調整せずにプルーニング後の精度を維持できる。 様々なモデルアーキテクチャやデータセットに対するネットワークプルーニングに対するアプローチの有効性を示す。 例えば、CIFAR-10のVGG-16では、93.16%の精度を実現し、微調整なしで総パラメータの64%を削減した。 コードは以下のとおり。 https://github.com/friendshipkim/neuron-merging

Network pruning is widely used to lighten and accelerate neural network models. Structured network pruning discards the whole neuron or filter, leading to accuracy loss. In this work, we propose a novel concept of neuron merging applicable to both fully connected layers and convolution layers, which compensates for the information loss due to the pruned neurons/filters. Neuron merging starts with decomposing the original weights into two matrices/tensors. One of them becomes the new weights for the current layer, and the other is what we name a scaling matrix, guiding the combination of neurons. If the activation function is ReLU, the scaling matrix can be absorbed into the next layer under certain conditions, compensating for the removed neurons. We also propose a data-free and inexpensive method to decompose the weights by utilizing the cosine similarity between neurons. Compared to the pruned model with the same topology, our merged model better preserves the output feature map of the original model; thus, it maintains the accuracy after pruning without fine-tuning. We demonstrate the effectiveness of our approach over network pruning for various model architectures and datasets. As an example, for VGG-16 on CIFAR-10, we achieve an accuracy of 93.16% while reducing 64% of total parameters, without any fine-tuning. The code can be found here: https://github.com/friendshipkim/neuron-merging
翻訳日:2022-10-03 04:12:06 公開日:2020-10-25
# 解説LP:説明可能な科学質問に対する帰納的推論

ExplanationLP: Abductive Reasoning for Explainable Science Question Answering ( http://arxiv.org/abs/2010.13128v1 )

ライセンス: Link先を確認
Mokanarangan Thayaparan, Marco Valentino, Andr\'e Freitas(参考訳) 本稿では,接地と抽象的推論連鎖を推論し,多言語科学的な問いに答え,説明するための新しいアプローチを提案する。 本稿では,質問応答を帰納的推論問題として定式化し,各選択に対して妥当な説明を構築し,最善の説明を最終回答として候補を選択する。 提案システムであるExplanationLPは,各候補に対する関連事実の重み付きグラフを構築し,特定の構造的制約や意味的制約を満たす事実を抽出することによって,説明を導き出す。 説明を抽出するために、最適な部分グラフを選択するために設計された線形プログラミング形式を用いる。 グラフの重み付け関数はパラメータの集合で構成されており、答えの選択性能を最適化するために微調整する。 We carry out our experiments on the WorldTree and ARC-Challenge corpus to empirically demonstrate the following conclusions: (1) Grounding-Abstract inference chains provides the semantic control to perform explainable abductive reasoning (2) Efficiency and robustness in learning with a fewer number of parameters by outperforming contemporary explainable and transformer-based approaches in a similar setting (3) Generalisability by outperforming SOTA explainable approaches on general science question sets.

We propose a novel approach for answering and explaining multiple-choice science questions by reasoning on grounding and abstract inference chains. This paper frames question answering as an abductive reasoning problem, constructing plausible explanations for each choice and then selecting the candidate with the best explanation as the final answer. Our system, ExplanationLP, elicits explanations by constructing a weighted graph of relevant facts for each candidate answer and extracting the facts that satisfy certain structural and semantic constraints. To extract the explanations, we employ a linear programming formalism designed to select the optimal subgraph. The graphs' weighting function is composed of a set of parameters, which we fine-tune to optimize answer selection performance. We carry out our experiments on the WorldTree and ARC-Challenge corpus to empirically demonstrate the following conclusions: (1) Grounding-Abstract inference chains provides the semantic control to perform explainable abductive reasoning (2) Efficiency and robustness in learning with a fewer number of parameters by outperforming contemporary explainable and transformer-based approaches in a similar setting (3) Generalisability by outperforming SOTA explainable approaches on general science question sets.
翻訳日:2022-10-03 04:11:45 公開日:2020-10-25