このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211118となっている論文です。

PDF登録状況(公開日: 20211118)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ブランチ・アンド・カットにおける学習境界の改善 [全文訳有]

Improved Learning Bounds for Branch-and-Cut ( http://arxiv.org/abs/2111.11207v1 )

ライセンス: CC BY 4.0
Maria-Florina Balcan, Siddharth Prasad, Tuomas Sandholm, Ellen Vitercik(参考訳) ブランチ・アンド・カット(英: Branch-and-cut)は、CPLEX や Gurobi といった商用の解法を用いて、整数プログラムを解くアルゴリズムである。 ブランチ・アンド・カットは様々な変更可能なパラメータを持ち、それが構築する検索ツリーのサイズに大きな影響を与えるが、手動でチューニングすることは難しい。 マシンラーニングを使用してこれらのパラメータをチューニングするアプローチがますます普及している。アプリケーションドメインから手元にある整数プログラムのトレーニングセットを使用することで、将来予想されるパフォーマンスが、同じドメインから見当たらない整数プログラムの強い設定を見つけることが目標だ。 トレーニングセットが小さすぎる場合、構成はトレーニングセットよりも優れたパフォーマンスを持つが、将来の整数プログラムではパフォーマンスが劣る。 本稿では,任意の構成において,トレーニングセットに対する平均性能が将来期待される性能にほぼ近いことを保証するために,トレーニングセットがどの程度の大きさであるべきかを境界として,この手順のサンプル複雑性を保証する。 我々の保証は、ノードの選択、分岐制約の選択、平面の選択といった、分岐とカットの最も重要な側面を制御するパラメータに適用され、以前の研究よりも鋭く、より一般的なものである。

Branch-and-cut is the most widely used algorithm for solving integer programs, employed by commercial solvers like CPLEX and Gurobi. Branch-and-cut has a wide variety of tunable parameters that have a huge impact on the size of the search tree that it builds, but are challenging to tune by hand. An increasingly popular approach is to use machine learning to tune these parameters: using a training set of integer programs from the application domain at hand, the goal is to find a configuration with strong predicted performance on future, unseen integer programs from the same domain. If the training set is too small, a configuration may have good performance over the training set but poor performance on future integer programs. In this paper, we prove sample complexity guarantees for this procedure, which bound how large the training set should be to ensure that for any configuration, its average performance over the training set is close to its expected future performance. Our guarantees apply to parameters that control the most important aspects of branch-and-cut: node selection, branching constraint selection, and cutting plane selection, and are sharper and more general than those found in prior research.
翻訳日:2021-11-26 11:53:54 公開日:2021-11-18
# (参考訳) 意思決定を改善するためのメタ勾配降下による有用な予測を見つける [全文訳有]

Finding Useful Predictions by Meta-gradient Descent to Improve Decision-making ( http://arxiv.org/abs/2111.11212v1 )

ライセンス: CC BY 4.0
Alex Kearney, Anna Koop, Johannes G\"unther, Patrick M. Pilarski(参考訳) 計算強化学習において、成長する研究機関は、未来の感覚に関する予測を通じて、エージェントの世界のモデルを表現する。 この原稿では、一般的な値関数として表現される予測に焦点を当てている: 将来の信号の蓄積の時間的拡張推定。 1つの課題は、エージェントが決定を支援するかもしれない予測を無限に多くの予測から決定することである。 本研究では,設計者の指示によらず,エージェントが学習した予測を直接指定できるメタ勾配降下法を提案する。 そのために,本研究に適した部分観測可能な領域を導入する。 エージェントが環境とのインタラクションを通じて、部分観測可能性を解決する予測を独立に選択し、結果として、専門家が選択した値関数と同じようなパフォーマンスが得られることを実証する。 これらの予測を手動で指定するのではなく、エージェントが自己管理的な方法で有用な予測を特定できるようにし、真に自律的なシステムに向けた一歩を踏み出す。

In computational reinforcement learning, a growing body of work seeks to express an agent's model of the world through predictions about future sensations. In this manuscript we focus on predictions expressed as General Value Functions: temporally extended estimates of the accumulation of a future signal. One challenge is determining from the infinitely many predictions that the agent could possibly make which might support decision-making. In this work, we contribute a meta-gradient descent method by which an agent can directly specify what predictions it learns, independent of designer instruction. To that end, we introduce a partially observable domain suited to this investigation. We then demonstrate that through interaction with the environment an agent can independently select predictions that resolve the partial-observabilit y, resulting in performance similar to expertly chosen value functions. By learning, rather than manually specifying these predictions, we enable the agent to identify useful predictions in a self-supervised manner, taking a step towards truly autonomous systems.
翻訳日:2021-11-26 11:32:49 公開日:2021-11-18
# 全能率可変レートニューラルイメージ圧縮

Universal Efficient Variable-rate Neural Image Compression ( http://arxiv.org/abs/2111.11305v1 )

ライセンス: Link先を確認
Shanzhi Yin, Chao Li, Youneng Bao, Yongshang Liang(参考訳) 近年、学習ベースの画像圧縮は従来の画像コーデック(JPEG、BPG、WebPなど)と同等のパフォーマンスに達している。 しかし、計算複雑性とレートの柔軟性は、実用的展開において依然として2つの大きな課題である。 本稿では,既存の画像圧縮モデルに直接組み込むことができるEnergy-based Channel Gating(ECG)とBit-rate Modulator(BM)という2つのユニバーサルモジュールを提案する。 ECGは動的プルーニングを用いて、畳み込み層のFLOPを50%以上削減し、BMペアは遅延表現を変調し、チャネル的にビットレートを制御する。 これら2つのモジュールを実装することで、既存の学習ベースのイメージコーデックは、1つのモデルで任意のビットレートを出力でき、計算量を削減できる。

Recently, Learning-based image compression has reached comparable performance with traditional image codecs(such as JPEG, BPG, WebP). However, computational complexity and rate flexibility are still two major challenges for its practical deployment. To tackle these problems, this paper proposes two universal modules named Energy-based Channel Gating(ECG) and Bit-rate Modulator(BM), which can be directly embedded into existing end-to-end image compression models. ECG uses dynamic pruning to reduce FLOPs for more than 50\% in convolution layers, and a BM pair can modulate the latent representation to control the bit-rate in a channel-wise manner. By implementing these two modules, existing learning-based image codecs can obtain ability to output arbitrary bit-rate with a single model and reduced computation.
翻訳日:2021-11-23 17:15:53 公開日:2021-11-18
# 自己指導型インクリメンタルラーニング

Self-Supervised Class Incremental Learning ( http://arxiv.org/abs/2111.11208v1 )

ライセンス: Link先を確認
Zixuan Ni, Siliang Tang, Yueting Zhuang(参考訳) 既存のクラスインクリメンタル学習(cil)メソッドは、データラベルに敏感な教師付き分類フレームワークに基づいている。 新しいクラスデータに基づいてそれらを更新すると、それらは壊滅的な忘れに苦しむ: モデルは古いクラスデータを新しいものと明確に区別することはできない。 本稿では,データラベルとモデルの分類器を捨てるクラスインクリメンタル学習(sscil)において,自己教師付き表現学習(self-supervised representation learning)を初めて実施する。 cilにおける教師付きメソッドと自己教師付きメソッドのパフォーマンスの違いを包括的に議論するために、様々なクラスインクリメンタル学習シナリオをシミュレートするために、ランダムクラススキーム、セマンティッククラススキーム、クラスタスキームという3つの異なるクラスインクリメンタルスキームを設定した。 さらに,線形評価プロトコル (LEP) と一般化評価プロトコル (GEP) を提案し,CILにおけるモデルの表現分類能力と一般化を計測する。 我々の実験(ImageNet-100とImageNet)では、SSCILはCILの監視戦略よりも優れたアンチフォゲッティング能力と堅牢性を示している。 SSCILにおける破滅的な忘れを和らげる要因を理解するため、SSCILの主要なコンポーネントについて検討し、(1)異なるデータ拡張の合成によってモデルの表現の質が向上し、(2)textit{Grayscale}操作によりSSCILにおけるデータ拡張のシステムノイズが減少する、という結論に達した。 2) プロジェクタはバッファのように、SSCILにおけるモデルの不要なパラメータ更新を減らし、モデルの堅牢性を高める。 SSCIL の性能は CIL の教師あり手法よりも著しく高いが, 共同学習にはまだ明らかなギャップがある。 本稿では,大規模データセットを用いた自己教師型クラスインクリメンタル学習のベースラインを提供し,CILにおける破滅的な忘れを緩和するための前向き戦略に寄与する。

Existing Class Incremental Learning (CIL) methods are based on a supervised classification framework sensitive to data labels. When updating them based on the new class data, they suffer from catastrophic forgetting: the model cannot discern old class data clearly from the new. In this paper, we explore the performance of Self-Supervised representation learning in Class Incremental Learning (SSCIL) for the first time, which discards data labels and the model's classifiers. To comprehensively discuss the difference in performance between supervised and self-supervised methods in CIL, we set up three different class incremental schemes: Random Class Scheme, Semantic Class Scheme, and Cluster Scheme, to simulate various class incremental learning scenarios. Besides, we propose Linear Evaluation Protocol (LEP) and Generalization Evaluation Protocol (GEP) to metric the model's representation classification ability and generalization in CIL. Our experiments (on ImageNet-100 and ImageNet) show that SSCIL has better anti-forgetting ability and robustness than supervised strategies in CIL. To understand what alleviates the catastrophic forgetting in SSCIL, we study the major components of SSCIL and conclude that (1) the composition of different data augmentation improves the quality of the model's representation and the \textit{Grayscale} operation reduces the system noise of data augmentation in SSCIL. (2) the projector, like a buffer, reduces unnecessary parameter updates of the model in SSCIL and increases the robustness of the model. Although the performance of SSCIL is significantly higher than supervised methods in CIL, there is still an apparent gap with joint learning. Our exploration gives a baseline of self-supervised class incremental learning on large-scale datasets and contributes some forward strategies for mitigating the catastrophic forgetting in CIL.
翻訳日:2021-11-23 14:08:02 公開日:2021-11-18
# gcr:グラデーションコアセットに基づく連続学習のためのリプレイバッファ選択

GCR: Gradient Coreset Based Replay Buffer Selection For Continual Learning ( http://arxiv.org/abs/2111.11210v1 )

ライセンス: Link先を確認
Rishabh Tiwari, Krishnateja Killamsetty, Rishabh Iyer, Pradeep Shenoy(参考訳) 連続学習(CL)は、単一のモデルが連続的に遭遇するタスクの数の増加に適応し、リソース効率のよい方法でタスク間の学習を活用する技術を開発することを目的としている。 CLシステムの大きな課題は、新しいタスクを学習しながら、以前のタスクを忘れてしまう破滅的な忘れ事である。 これに対処するために、リプレイベースのclアプローチは、遭遇したタスク間で選択されたデータの小さなバッファをメンテナンスし、繰り返し再トレーニングする。 本稿では,注意深く設計した最適化基準を用いて,バッファ選択と更新を行う新しい戦略であるgradient coreset replay (gcr)を提案する。 具体的には、現在のモデルパラメータに関してこれまで見てきたすべてのデータの勾配を密接に近似する「コアセット」を選択して維持し、その有効利用に必要な重要な戦略について論じる。 我々は,オフライン連続学習環境において,最先端を上回って(2%~4%の絶対値)有意な向上を示した。 また、オンライン/ストリーミングのCL設定にも効果的に移行し、既存のアプローチよりも最大5%向上しました。 最後に,継続学習における教師付きコントラスト損失の価値を実証し,集合選択戦略と組み合わせることで,最大5%精度の累積利得が得られることを示した。

Continual learning (CL) aims to develop techniques by which a single model adapts to an increasing number of tasks encountered sequentially, thereby potentially leveraging learnings across tasks in a resource-efficient manner. A major challenge for CL systems is catastrophic forgetting, where earlier tasks are forgotten while learning a new task. To address this, replay-based CL approaches maintain and repeatedly retrain on a small buffer of data selected across encountered tasks. We propose Gradient Coreset Replay (GCR), a novel strategy for replay buffer selection and update using a carefully designed optimization criterion. Specifically, we select and maintain a "coreset" that closely approximates the gradient of all the data seen so far with respect to current model parameters, and discuss key strategies needed for its effective application to the continual learning setting. We show significant gains (2%-4% absolute) over the state-of-the-art in the well-studied offline continual learning setting. Our findings also effectively transfer to online / streaming CL settings, showing upto 5% gains over existing approaches. Finally, we demonstrate the value of supervised contrastive loss for continual learning, which yields a cumulative gain of up to 5% accuracy when combined with our subset selection strategy.
翻訳日:2021-11-23 14:07:26 公開日:2021-11-18
# (参考訳) 線形アレイ超音波データからの3次元物体追跡のためのニューラルネットワークカルマンフィルタリング [全文訳有]

Neural Network Kalman filtering for 3D object tracking from linear array ultrasound data ( http://arxiv.org/abs/2111.09631v1 )

ライセンス: CC BY 4.0
Arttu Arjas, Erwin J. Alles, Efthymios Maneas, Simon Arridge, Adrien Desjardins, Mikko J. Sillanp\"a\"a and Andreas Hauptmann(参考訳) 多くの介入手術は、機器の可視化と追跡のために医療画像に頼っている。 このようなイメージング手法は、リアルタイムに機能するだけでなく、正確で堅牢な位置情報も提供する。 超音波応用では、リニアアレイからの2次元データのみが利用可能であり、3次元での正確な位置推定を得ることは非自明である。 そこで本研究では,実際の合成学習データを用いてニューラルネットワークをまず訓練し,再構成した超音波画像における軸収差を伴う物体の面外オフセットを推定する。 得られた推定値は、従来の時間枠で得られた位置推定を利用して局所化ロバスト性を改善し、測定ノイズの影響を低減するカルマンフィルタ手法と組み合わせられる。 提案手法の精度をシミュレーションを用いて評価し,新しい光学超音波イメージング装置を用いて得られた実験データを用いて実用性を示す。 正確な位置情報がリアルタイムに提供される。 平面外物体の軸座標と横座標は、シミュレーションデータの平均誤差0.1mm、実験データの平均誤差0.2mmと推定される。 3次元の局所化は1mm以上の高架距離において最も正確であり、最大距離は25mmの開口部と考えられる5mmである。

Many interventional surgical procedures rely on medical imaging to visualise and track instruments. Such imaging methods not only need to be real-time capable, but also provide accurate and robust positional information. In ultrasound applications, typically only two-dimensional data from a linear array are available, and as such obtaining accurate positional estimation in three dimensions is non-trivial. In this work, we first train a neural network, using realistic synthetic training data, to estimate the out-of-plane offset of an object with the associated axial aberration in the reconstructed ultrasound image. The obtained estimate is then combined with a Kalman filtering approach that utilises positioning estimates obtained in previous time-frames to improve localisation robustness and reduce the impact of measurement noise. The accuracy of the proposed method is evaluated using simulations, and its practical applicability is demonstrated on experimental data obtained using a novel optical ultrasound imaging setup. Accurate and robust positional information is provided in real-time. Axial and lateral coordinates for out-of-plane objects are estimated with a mean error of 0.1mm for simulated data and a mean error of 0.2mm for experimental data. Three-dimensional localisation is most accurate for elevational distances larger than 1mm, with a maximum distance of 5mm considered for a 25mm aperture.
翻訳日:2021-11-23 05:49:34 公開日:2021-11-18
# (参考訳) サブスペースグラフ物理:実時間剛体駆動粒状流シミュレーション [全文訳有]

Subspace Graph Physics: Real-Time Rigid Body-Driven Granular Flow Simulation ( http://arxiv.org/abs/2111.10206v1 )

ライセンス: CC BY 4.0
Amin Haeri and Krzysztof Skonieczny(参考訳) ロボット工学における重要な課題は、粒状材料からなる変形可能な地形とロボットの相互作用を理解することである。 粒状流と剛体との相互作用は、まだいくつかのオープンな疑問を引き起こす。 正確で効率的なモデリングのための有望な方向は連続体法である。 また、リアルタイム物理モデリングの新しい方向性は、ディープラーニングの利用である。 この研究は、剛体駆動の粒状流れをモデリングするための機械学習手法を進歩させ、地上産業機械や宇宙ロボット(重力の影響が重要な要素である)に適用する。 特に,本研究では,サブスペース機械学習シミュレーション手法の開発について考察する。 トレーニングデータセットを生成するために,高忠実度連続法,物質点法(MPM)を用いる。 主成分分析(PCA)はデータの次元性を低減するために用いられる。 高い次元データの最初の数つの主成分が、データ全体のばらつきをほとんど保持していることを示す。 グラフネットワークシミュレータ(GNS)は、基礎となる部分空間力学を学ぶために訓練される。 学習したGNSは、正しい精度で粒子の位置と相互作用力を予測することができる。 さらに、PCAはトレーニングとロールアウトの両方において、GNSの時間とメモリ効率を大幅に向上させる。 これにより、GNSは、適度なVRAMを持つ単一のデスクトップGPUを使用してトレーニングすることができる。 これにより、GNSを大規模3次元物理構成(連続体法よりも700倍高速)でリアルタイム化する。

An important challenge in robotics is understanding the interactions between robots and deformable terrains that consist of granular material. Granular flows and their interactions with rigid bodies still pose several open questions. A promising direction for accurate, yet efficient, modeling is using continuum methods. Also, a new direction for real-time physics modeling is the use of deep learning. This research advances machine learning methods for modeling rigid body-driven granular flows, for application to terrestrial industrial machines as well as space robotics (where the effect of gravity is an important factor). In particular, this research considers the development of a subspace machine learning simulation approach. To generate training datasets, we utilize our high-fidelity continuum method, material point method (MPM). Principal component analysis (PCA) is used to reduce the dimensionality of data. We show that the first few principal components of our high-dimensional data keep almost the entire variance in data. A graph network simulator (GNS) is trained to learn the underlying subspace dynamics. The learned GNS is then able to predict particle positions and interaction forces with good accuracy. More importantly, PCA significantly enhances the time and memory efficiency of GNS in both training and rollout. This enables GNS to be trained using a single desktop GPU with moderate VRAM. This also makes the GNS real-time on large-scale 3D physics configurations (700x faster than our continuum method).
翻訳日:2021-11-23 05:28:33 公開日:2021-11-18
# (参考訳) コンテキスト計画ネットワークを用いた視覚目標指向メタラーニング [全文訳有]

Visual Goal-Directed Meta-Learning with Contextual Planning Networks ( http://arxiv.org/abs/2111.09908v1 )

ライセンス: CC BY 4.0
Corban G. Rivera, David A Handelman(参考訳) メタラーニングの目標は、新しいタスクと目標をできるだけ早く一般化することである。 理想的には、最初の試みで新しい目標とタスクに一般化したアプローチを望みます。 そこで我々は,文脈計画ネットワーク(CPN)を導入する。 タスクはゴールイメージとして表現され、アプローチの条件付けに使用される。 ゼロショット目標指向メタラーニングに適応した他の手法とともにcpnを評価した。 メタワールドベンチマークタスクを用いて、24個の異なる操作タスクにまたがるこれらのアプローチを評価する。 CPNは、あるタスクにおけるいくつかのアプローチやベースラインよりも優れており、他のタスクに対する既存のアプローチと競合していることがわかった。 我々は,Kinova Jacoロボットアームを用いたJengaタスクの物理プラットフォームへのアプローチを示す。

The goal of meta-learning is to generalize to new tasks and goals as quickly as possible. Ideally, we would like approaches that generalize to new goals and tasks on the first attempt. Toward that end, we introduce contextual planning networks (CPN). Tasks are represented as goal images and used to condition the approach. We evaluate CPN along with several other approaches adapted for zero-shot goal-directed meta-learning. We evaluate these approaches across 24 distinct manipulation tasks using Metaworld benchmark tasks. We found that CPN outperformed several approaches and baselines on one task and was competitive with existing approaches on others. We demonstrate the approach on a physical platform on Jenga tasks using a Kinova Jaco robotic arm.
翻訳日:2021-11-23 04:54:24 公開日:2021-11-18
# (参考訳) 物理形ニューラルネットワークを用いた自律力学系のアトラクション領域推定のための学習

Learning To Estimate Regions Of Attraction Of Autonomous Dynamical Systems Using Physics-Informed Neural Networks ( http://arxiv.org/abs/2111.09930v1 )

ライセンス: CC BY 4.0
Cody Scharzenberger, Joe Hays(参考訳) シミュレーション環境でモータータスクを実行することを学ぶとき、ニューラルネットワークは、新たな潜在的ソリューションを発見するために、そのアクション空間を探索することを許さなければならない。 しかし、物理ハードウェアを用いたオンライン学習シナリオでは、エージェントのハードウェアや環境の損傷を避けるために、この探索は関連する安全上の配慮によって制約されなければならない。 我々は、制御された自律力学系のアトラクション(ROA)領域を推定するために、「安全ネットワーク」と呼ぶニューラルネットワークをトレーニングすることで、この問題に対処することを目指している。 これにより、提案した制御行動の相対的安全性を定量化し、損傷行為の選択を防止することができる。 本稿では,複数の自律力学系ベンチマーク問題のroaを表現するために,ニューラルネットワーク(ann)を訓練することにより,安全性ネットワークの開発を行う。 このネットワークのトレーニングは、リアプノフ理論と偏微分方程式(PDE)に対するニューラル解の両方に基づいている。 関心システムの力学を含む特殊選択されたPDEに粘性解を近似することを学ぶことにより、安全ネットワークは、ROAの境界がゼロとなるリャプノフ関数と同様に、特定の関数を近似することを学ぶ。 物理学インフォームドニューラルネットワーク(pinn)アプローチの修正版に従って、pdeの初期条件と境界条件との不一致を罰する損失関数と、非ゼロの残差および変動項を利用して、これらのpdeを半教師付きで解くように安全ネットワークを訓練する。 今後の課題として,運動学習タスクにおける強化学習エージェントに適用する。

When learning to perform motor tasks in a simulated environment, neural networks must be allowed to explore their action space to discover new potentially viable solutions. However, in an online learning scenario with physical hardware, this exploration must be constrained by relevant safety considerations in order to avoid damage to the agent's hardware and environment. We aim to address this problem by training a neural network, which we will refer to as a "safety network", to estimate the region of attraction (ROA) of a controlled autonomous dynamical system. This safety network can thereby be used to quantify the relative safety of proposed control actions and prevent the selection of damaging actions. Here we present our development of the safety network by training an artificial neural network (ANN) to represent the ROA of several autonomous dynamical system benchmark problems. The training of this network is predicated upon both Lyapunov theory and neural solutions to partial differential equations (PDEs). By learning to approximate the viscosity solution to a specially chosen PDE that contains the dynamics of the system of interest, the safety network learns to approximate a particular function, similar to a Lyapunov function, whose zero level set is boundary of the ROA. We train our safety network to solve these PDEs in a semi-supervised manner following a modified version of the Physics Informed Neural Network (PINN) approach, utilizing a loss function that penalizes disagreement with the PDE's initial and boundary conditions, as well as non-zero residual and variational terms. In future work we intend to apply this technique to reinforcement learning agents during motor learning tasks.
翻訳日:2021-11-23 04:43:20 公開日:2021-11-18
# (参考訳) 早期糖尿病予測に用いる異なる機械学習アルゴリズムの弁別可能な予測 [全文訳有]

Explainable predictions of different machine learning algorithms used to predict Early Stage diabetes ( http://arxiv.org/abs/2111.09939v1 )

ライセンス: CC BY 4.0
V. Vakil, S. Pachchigar, C. Chavda, S. Soni(参考訳) 機械学習と人工知能は、慢性疾患の診断に広く使われ、必要な予防治療を臨界時間内に行うことができる。 主要な疾患の1つである糖尿病は、いくつかの機械学習アルゴリズムによって容易に診断することができる。 早期診断は危険な結果を防ぐために不可欠である。 本稿では,いくつかの機械学習アルゴリズムの比較分析を行った。 Random Forest, Decision Tree, Artificial Neural Networks, K Nearest Neighbor, Support Vector Machine, XGBoost, そしてSHAPを使ってSylhet病院から収集したデータセット上で糖尿病を予測する上で最も重要な特徴を特定する。 実験結果によると、ランダムフォレストアルゴリズムは、この特定のデータセットの99%の精度で他のアルゴリズムよりも優れています。

Machine Learning and Artificial Intelligence can be widely used to diagnose chronic diseases so that necessary precautionary treatment can be done in critical time. Diabetes Mellitus which is one of the major diseases can be easily diagnosed by several Machine Learning algorithms. Early stage diagnosis is crucial to prevent dangerous consequences. In this paper we have made a comparative analysis of several machine learning algorithms viz. Random Forest, Decision Tree, Artificial Neural Networks, K Nearest Neighbor, Support Vector Machine, and XGBoost along with feature attribution using SHAP to identify the most important feature in predicting the diabetes on a dataset collected from Sylhet Hospital. As per the experimental results obtained, the Random Forest algorithm has outperformed all the other algorithms with an accuracy of 99 percent on this particular dataset.
翻訳日:2021-11-23 04:42:08 公開日:2021-11-18
# (参考訳) 分類法における敵対的攻撃と防御の展望

A Review of Adversarial Attack and Defense for Classification Methods ( http://arxiv.org/abs/2111.09961v1 )

ライセンス: CC BY 4.0
Yao Li, Minhao Cheng, Cho-Jui Hsieh, Thomas C. M. Lee(参考訳) 機械学習システムの効率性とスケーラビリティにもかかわらず、最近の研究では、多くの分類方法、特にディープニューラルネットワーク(DNN)が敵の例に弱いことが示されている。 これにより、セキュリティクリティカルな領域でDNNや関連するメソッドを適用するのが安全でない可能性がある。 この問題が最初に発見されたのは、Biggio et al. (2013) と Szegedy et al である。 (2014年)、敵の事例を生成する攻撃方法の開発や、そのような事例に対する防御技術の構築など、この分野で多くの研究がなされている。 本稿では,この話題とその最新の展開を,主に敵の事例の生成と保護に焦点をあてて,統計的コミュニティに紹介することを目的とする。 数値実験で使用される計算符号 (python と R) は、読者が調査手法を探索するために公開されている。 この論文は、より多くの統計学者が、敵対的な事例を生成・防御するこの重要かつエキサイティングな分野に取り組むことを奨励することを期待している。

Despite the efficiency and scalability of machine learning systems, recent studies have demonstrated that many classification methods, especially deep neural networks (DNNs), are vulnerable to adversarial examples; i.e., examples that are carefully crafted to fool a well-trained classification model while being indistinguishable from natural data to human. This makes it potentially unsafe to apply DNNs or related methods in security-critical areas. Since this issue was first identified by Biggio et al. (2013) and Szegedy et al.(2014), much work has been done in this field, including the development of attack methods to generate adversarial examples and the construction of defense techniques to guard against such examples. This paper aims to introduce this topic and its latest developments to the statistical community, primarily focusing on the generation and guarding of adversarial examples. Computing codes (in python and R) used in the numerical experiments are publicly available for readers to explore the surveyed methods. It is the hope of the authors that this paper will encourage more statisticians to work on this important and exciting field of generating and defending against adversarial examples.
翻訳日:2021-11-23 04:34:55 公開日:2021-11-18
# (参考訳) NDCGを超えて: RecListによるレコメンデータシステムの振る舞いテスト [全文訳有]

Beyond NDCG: behavioral testing of recommender systems with RecList ( http://arxiv.org/abs/2111.09963v1 )

ライセンス: CC BY 4.0
Patrick John Chia, Jacopo Tagliabue, Federico Bianchi, Chloe He, Brian Ko(参考訳) ほとんどの機械学習システムと同様に、レコメンダシステムは通常、保持されたデータポイントで計算されたパフォーマンスメトリクスによって評価される。 アドホックなエラー分析とデプロイメント特有のテストは、実際のデプロイメントで望ましい品質を保証するために採用する必要があります。 本稿では,行動に基づくテスト手法であるreclistを提案する。 RecListはユースケースによってレコメンデータシステムを整理し、振る舞いテストのスケールアップのための一般的なプラグアンドプレイ手順を導入する。 我々は、既知のアルゴリズムとブラックボックスの商用システムを分析し、コミュニティ向けのオープンソースの拡張可能なパッケージとしてRecListをリリースした。

As with most Machine Learning systems, recommender systems are typically evaluated through performance metrics computed over held-out data points. However, real-world behavior is undoubtedly nuanced: ad hoc error analysis and deployment-specific tests must be employed to ensure the desired quality in actual deployments. In this paper, we propose RecList, a behavioral-based testing methodology. RecList organizes recommender systems by use case and introduces a general plug-and-play procedure to scale up behavioral testing. We demonstrate its capabilities by analyzing known algorithms and black-box commercial systems, and we release RecList as an open source, extensible package for the community.
翻訳日:2021-11-23 04:33:50 公開日:2021-11-18
# (参考訳) Deep IDA: 特徴ランク付きマルチビューデータの統合的識別分析のためのディープラーニング手法 - COVID-19重症度への適用 [全文訳有]

Deep IDA: A Deep Learning Method for Integrative Discriminant Analysis of Multi-View Data with Feature Ranking -- An Application to COVID-19 severity ( http://arxiv.org/abs/2111.09964v1 )

ライセンス: CC BY 4.0
Jiuzhou Wang, Sandra E. Safo(参考訳) 新型コロナウイルスの重症度はSARS-Cov-2の合併症によるものであるが、臨床経過は個人によって異なり、分子レベルでの疾患の理解を深める必要性を強調している。 我々は、集中治療室に入院した(または入院していない)新型コロナウイルス患者から得られた臨床および複数の分子データ(またはビュー)を用いて、重症度に光を当てた。 ビューを共同で関連付ける方法や、COVID-19グループ(すなわちワンステップメソッド)を分離する方法は、線形関係に重点を置いている。 しかし、ビューと新型コロナウイルスの患者グループとの関係は複雑すぎて、線形的な方法だけでは理解できない。 既存の非線形ワンステップ法は、疾患の複雑さを理解するのに役立つシグネチャを特定するために使用できません。 我々は、関心事問題における分析課題に対処するため、Deep IDA(Integrative Discriminant Analysis)を提案する。 Deep IDAは2つ以上のビューの非線形投影を学習し、ビューを最大限に関連付け、各ビューのクラスを分離し、解釈可能な結果のフィーチャーランキングを可能にする。 我々の応用は、Deep IDAが他の最先端手法と比較して競争力のある分類率を持ち、新型コロナウイルスの重症度を理解するための分子シグネチャを識別できることを示している。

COVID-19 severity is due to complications from SARS-Cov-2 but the clinical course of the infection varies for individuals, emphasizing the need to better understand the disease at the molecular level. We use clinical and multiple molecular data (or views) obtained from patients with and without COVID-19 who were (or not) admitted to the intensive care unit to shed light on COVID-19 severity. Methods for jointly associating the views and separating the COVID-19 groups (i.e., one-step methods) have focused on linear relationships. The relationships between the views and COVID-19 patient groups, however, are too complex to be understood solely by linear methods. Existing nonlinear one-step methods cannot be used to identify signatures to aid in our understanding of the complexity of the disease. We propose Deep IDA (Integrative Discriminant Analysis) to address analytical challenges in our problem of interest. Deep IDA learns nonlinear projections of two or more views that maximally associate the views and separate the classes in each view, and permits feature ranking for interpretable findings. Our applications demonstrate that Deep IDA has competitive classification rates compared to other state-of-the-art methods and is able to identify molecular signatures that facilitate an understanding of COVID-19 severity.
翻訳日:2021-11-23 04:23:29 公開日:2021-11-18
# (参考訳) M2A:正確な映像行動認識のための動き認識 [全文訳有]

M2A: Motion Aware Attention for Accurate Video Action Recognition ( http://arxiv.org/abs/2111.09976v1 )

ライセンス: CC BY 4.0
Brennan Gebotys, Alexander Wong, David A. Clausi(参考訳) 注意機構の進歩は、時間的シーケンスの動的モデリングを可能にするため、機械学習の様々な領域において、大幅なパフォーマンス向上をもたらした。 コンピュータビジョンの特定の領域は、ビデオアクション認識における注意機構の導入から大きな恩恵を受ける可能性が高い。 しかし、現在の注意メカニズムに焦点をあてた研究の多くは、ビデオで見られる固有の動きを活用できない空間的・時間的注意に焦点が当てられている。 そこで我々は,運動特性を明示的に組み込む運動認識注意(m2a)と呼ばれる新しい注意機構を開発した。 より具体的には、m2aは連続するフレーム間の動き情報を抽出し、フレーム間の動きパターンに注目し、ビデオ内の動作を正確に認識する。 提案するm2aメカニズムは実装が簡単であり、任意のニューラルネットワークバックボーンアーキテクチャに容易に組み込むことができる。 提案したM2A機構を用いて動作機構をアテンション機構に組み込むことで,様々なバックボーンアーキテクチャにおけるトップ1の精度が15%から26%向上し,計算量もわずかに向上することを示した。 さらに,M2Aと他の最先端モーションおよび注意機構を,Something V1ビデオアクション認識ベンチマークで比較した。 実験の結果、M2Aは他の時間的メカニズムと組み合わせることでさらなる改善が得られ、ベンチマークの特定のクラスにおいて、最大で60%の精度で、他の動きのみまたは注意のみのメカニズムよりも優れていることがわかった。

Advancements in attention mechanisms have led to significant performance improvements in a variety of areas in machine learning due to its ability to enable the dynamic modeling of temporal sequences. A particular area in computer vision that is likely to benefit greatly from the incorporation of attention mechanisms in video action recognition. However, much of the current research's focus on attention mechanisms have been on spatial and temporal attention, which are unable to take advantage of the inherent motion found in videos. Motivated by this, we develop a new attention mechanism called Motion Aware Attention (M2A) that explicitly incorporates motion characteristics. More specifically, M2A extracts motion information between consecutive frames and utilizes attention to focus on the motion patterns found across frames to accurately recognize actions in videos. The proposed M2A mechanism is simple to implement and can be easily incorporated into any neural network backbone architecture. We show that incorporating motion mechanisms with attention mechanisms using the proposed M2A mechanism can lead to a +15% to +26% improvement in top-1 accuracy across different backbone architectures, with only a small increase in computational complexity. We further compared the performance of M2A with other state-of-the-art motion and attention mechanisms on the Something-Something V1 video action recognition benchmark. Experimental results showed that M2A can lead to further improvements when combined with other temporal mechanisms and that it outperforms other motion-only or attention-only mechanisms by as much as +60% in top-1 accuracy for specific classes in the benchmark.
翻訳日:2021-11-23 04:05:18 公開日:2021-11-18
# (参考訳) 第2次ミラーダイス:ゲームにおける平均とカウント以上の収束性 [全文訳有]

Second-Order Mirror Descent: Convergence in Games Beyond Averaging and Discounting ( http://arxiv.org/abs/2111.09982v1 )

ライセンス: CC BY 4.0
Bolin Gao, Lacra Pavel(参考訳) 本稿では、平均化や割引といった一般的な補助技術を用いることなく、単に(必ずしも厳密ではない)変分安定状態(VSS)に収束する連続時間ゲーム理論ミラー降下(MD2)ダイナミクスの2次拡張を提案する。 MD2は, 若干の修正を加えて, 強いVSSへの収束率と指数的収束率を享受できることを示す。 さらに、md2は多くの新しい原始空間ダイナミクスを導出するために使うことができる。 最後に,確率近似法を用いた離散時間md2の収束保証と,内部vssに対するノイズ観測について述べる。 結果を説明するために選択されたシミュレーションが提供される。

In this paper, we propose a second-order extension of the continuous-time game-theoretic mirror descent (MD) dynamics, referred to as MD2, which converges to mere (but not necessarily strict) variationally stable states (VSS) without using common auxiliary techniques such as averaging or discounting. We show that MD2 enjoys no-regret as well as exponential rate of convergence towards a strong VSS upon a slight modification. Furthermore, MD2 can be used to derive many novel primal-space dynamics. Lastly, using stochastic approximation techniques, we provide a convergence guarantee of discrete-time MD2 with noisy observations towards interior mere VSS. Selected simulations are provided to illustrate our results.
翻訳日:2021-11-23 03:54:54 公開日:2021-11-18
# 中堅企業市場におけるデフォルト予測のための変圧器モデル

A transformer-based model for default prediction in mid-cap corporate markets ( http://arxiv.org/abs/2111.09902v1 )

ライセンス: Link先を確認
Kamesh Korangi, Christophe Mues, Cristi\'an Bravo(参考訳) 本稿では,市場資本が100億ドル未満の企業,すなわち上場企業について調査する。 30年以上にわたって観察された米国中規模企業の大規模なデータセットを用いて、中期にわたってデフォルトの確率項構造を予測し、どのデータソース(基本データ、市場データ、価格データ)がデフォルトのリスクに最も寄与するかを理解する。 既存の手法では、異なる時間周期のデータがまず集約されて断面的特徴に変換されることが要求されるが、この問題はマルチラベルの時系列分類問題である。 我々は,自然言語処理領域から発生する最先端のディープラーニングモデルであるtransformer modelを,信用リスクモデリング設定に適用する。 また,これらのモデルの予測を注意熱マップを用いて解釈する。 さらにモデルを最適化するために,マルチラベル分類のためのカスタムロス関数と,すべての入力データを効率的に使用できる差分トレーニングを備えた新しいマルチチャネルアーキテクチャを提案する。 その結果,従来のモデルよりもAUC(Area Under the receiver operating characteristic Curve)が13%向上した。 また、これらのモデルに特有のShapleyアプローチを用いて、異なるデータソースと時間的関係の重要ランキングを作成する方法を示す。

In this paper, we study mid-cap companies, i.e. publicly traded companies with less than US $10 billion in market capitalisation. Using a large dataset of US mid-cap companies observed over 30 years, we look to predict the default probability term structure over the medium term and understand which data sources (i.e. fundamental, market or pricing data) contribute most to the default risk. Whereas existing methods typically require that data from different time periods are first aggregated and turned into cross-sectional features, we frame the problem as a multi-label time-series classification problem. We adapt transformer models, a state-of-the-art deep learning model emanating from the natural language processing domain, to the credit risk modelling setting. We also interpret the predictions of these models using attention heat maps. To optimise the model further, we present a custom loss function for multi-label classification and a novel multi-channel architecture with differential training that gives the model the ability to use all input data efficiently. Our results show the proposed deep learning architecture's superior performance, resulting in a 13% improvement in AUC (Area Under the receiver operating characteristic Curve) over traditional models. We also demonstrate how to produce an importance ranking for the different data sources and the temporal relationships using a Shapley approach specific to these models.
翻訳日:2021-11-22 16:35:15 公開日:2021-11-18
# 安全専門家によるロバストな出力制御障壁関数の学習

Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations ( http://arxiv.org/abs/2111.09971v1 )

ライセンス: Link先を確認
Lars Lindemann, Alexander Robey, Lejun Jiang, Stephen Tu, and Nikolai Matni(参考訳) 本稿では,専門家による実証実験から安全な制御法を学習する。 システムダイナミクスと出力計測マップの適切なモデルが、対応する誤差境界とともに利用可能であると仮定する。 まず,安全な集合の制御前方不変性を通じて定義された安全を保証する手段として,ロバスト出力制御障壁関数(ROCBF)を提案する。 次に,人間の操作者から収集したデータなど,安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を提案する。 最適化問題とともに、得られたROCBFの妥当性を保証する検証条件を提供する。 これらの条件はデータの密度、リプシッツの値、学習関数の有界性定数、システムのダイナミクスと出力測定マップのモデルによって記述される。 ROCBFのパラメトリゼーションが線型であれば、軽微な仮定の下で最適化問題は凸である。 自律走行シミュレータCARLAで得られた知見を検証し,RGBカメラ画像から安全な制御法を学習する方法を示す。

This paper addresses learning safe control laws from expert demonstrations. We assume that appropriate models of the system dynamics and the output measurement map are available, along with corresponding error bounds. We first propose robust output control barrier functions (ROCBFs) as a means to guarantee safety, as defined through controlled forward invariance of a safe set. We then present an optimization problem to learn ROCBFs from expert demonstrations that exhibit safe system behavior, e.g., data collected from a human operator. Along with the optimization problem, we provide verifiable conditions that guarantee validity of the obtained ROCBF. These conditions are stated in terms of the density of the data and on Lipschitz and boundedness constants of the learned function and the models of the system dynamics and the output measurement map. When the parametrization of the ROCBF is linear, then, under mild assumptions, the optimization problem is convex. We validate our findings in the autonomous driving simulator CARLA and show how to learn safe control laws from RGB camera images.
翻訳日:2021-11-22 16:34:54 公開日:2021-11-18
# 観測データを用いた離散的文脈価格の損失関数

Loss Functions for Discrete Contextual Pricing with Observational Data ( http://arxiv.org/abs/2111.09933v1 )

ライセンス: Link先を確認
Max Biggs, Ruijiang Gao, Wei Sun(参考訳) 顧客の商品価値を予測できる顧客機能や製品機能に基づいて、各顧客がコンテキスト化された価格を提示される価格設定について検討する。 顧客の真の価値ではなく、各顧客が所定の価格で商品を購入しているかどうかを観察できるのは、歴史的販売記録のみであることが多い。 このように、データは、困難をもたらす歴史的販売政策の影響を受けている。 a) 実際の実験を行うことなく、価格政策の将来の損失/利益を見積もること b)収益管理などの下流タスクの新たなポリシーの最適化。 本研究では,中間需要推定段階を通過するのではなく,価格政策を直接最適化するために使用できる損失関数の定式化について検討する。 評価データが利用可能な場合,既存の手法が提案されているが,観測データ設定における損失関数を提案する。 これを実現するために、私たちは、顧客評価の(既知の)確率的変換として、観測された各顧客の結果(所定の価格で購入されるか否かに関わらず)を考慮可能なラベル付き機械学習からのアイデアを適応させる。 この変換から、適切な非バイアス損失関数のクラスを導出する。 このクラスで最小分散推定器を同定し,低需要関数推定に頑健であり,推定需要関数がいつ有用かのガイダンスを提供する。 さらに,我々の文脈的価格設定に適用すると,オフ・ポリティカル評価文献で人気のある推定者は,この損失関数のクラスに収まり,また,各推定者が実際にうまく機能する可能性を示す管理的洞察を提供する。

We study a pricing setting where each customer is offered a contextualized price based on customer and/or product features that are predictive of the customer's valuation for that product. Often only historical sales records are available, where we observe whether each customer purchased a product at the price prescribed rather than the customer's true valuation. As such, the data is influenced by the historical sales policy which introduces difficulties in a) estimating future loss/regret for pricing policies without the possibility of conducting real experiments and b) optimizing new policies for downstream tasks such as revenue management. We study how to formulate loss functions which can be used for optimizing pricing policies directly, rather than going through an intermediate demand estimation stage, which can be biased in practice due to model misspecification, regularization or poor calibration. While existing approaches have been proposed when valuation data is available, we propose loss functions for the observational data setting. To achieve this, we adapt ideas from machine learning with corrupted labels, where we can consider each observed customer's outcome (purchased or not for a prescribed price), as a (known) probabilistic transformation of the customer's valuation. From this transformation we derive a class of suitable unbiased loss functions. Within this class we identify minimum variance estimators, those which are robust to poor demand function estimation, and provide guidance on when the estimated demand function is useful. Furthermore, we also show that when applied to our contextual pricing setting, estimators popular in the off-policy evaluation literature fall within this class of loss functions, and also offer managerial insights on when each estimator is likely to perform well in practice.
翻訳日:2021-11-22 16:16:46 公開日:2021-11-18
# zig-zagサンプラーの逐次マルコフ連鎖モンテカルロへの応用

The Application of Zig-Zag Sampler in Sequential Markov Chain Monte Carlo ( http://arxiv.org/abs/2111.10210v1 )

ライセンス: Link先を確認
Yu Han, Kazuyuki Nakamura(参考訳) 粒子フィルタリング法は非線形非ガウス状態空間モデルにおける逐次状態推定に広く適用されている。 しかし、従来の粒子フィルタリング法は高次元状態空間モデルにおいて重縮退に苦しむ。 現在、高次元状態空間モデルにおける粒子フィルタリングの性能を向上させる方法は数多く存在する。 これらのうち、より進んだ方法は、複合メトロポリス・ハスティング(MH)カーネルを実装することで、シークエンシャル・マコフ・キアン・モンテカルロ(SMCMC)フレームワークを構築することである。 本稿では,Zig-Zagサンプラーを離散化し,Zig-ZagサンプラーをSMCMCフレームワーク内の複合MHカーネルの精製段階に適用することを提案する。 複雑な高次元フィルタリング例の数値実験により,提案手法の性能を評価する。 ネマラル実験により, 高次元状態推定例において, 提案手法は評価精度を向上し, 受け入れ率を増加させることを示した。

Particle filtering methods are widely applied in sequential state estimation within nonlinear non-Gaussian state space model. However, the traditional particle filtering methods suffer the weight degeneracy in the high-dimensional state space model. Currently, there are many methods to improve the performance of particle filtering in high-dimensional state space model. Among these, the more advanced method is to construct the Sequential Makov chian Monte Carlo (SMCMC) framework by implementing the Composite Metropolis-Hasting (MH) Kernel. In this paper, we proposed to discrete the Zig-Zag Sampler and apply the Zig-Zag Sampler in the refinement stage of the Composite MH Kernel within the SMCMC framework which is implemented the invertible particle flow in the joint draw stage. We evaluate the performance of proposed method through numerical experiments of the challenging complex high-dimensional filtering examples. Nemurical experiments show that in high-dimensional state estimation examples, the proposed method improves estimation accuracy and increases the acceptance ratio compared with state-of-the-art filtering methods.
翻訳日:2021-11-22 16:10:08 公開日:2021-11-18
# 受入れ業務における品質・コストトレードオフ

Quality and Cost Trade-offs in Passage Re-ranking Task ( http://arxiv.org/abs/2111.09927v1 )

ライセンス: Link先を確認
Pavel Podberezko, Vsevolod Mitskevich, Raman Makouski, Pavel Goncharov, Andrei Khobnia, Nikolay Bushkov, Marina Chernyshevich(参考訳) トランスフォーマーと呼ばれるディープラーニングモデルは最先端の成果を達成し、計算の複雑さと高メモリ消費のコストを犠牲にして、nlpタスクの大部分を実現した。 リアルタイム推論におけるトランスフォーマーモデルの使用は、高価な計算リソースを必要とするため、実運用環境での実装において大きな課題となる。 トランスの実行が多ければ多いほど、全体のスループットが低くなり、より小さなエンコーダに切り替えることで、精度が低下する。 本稿では,情報検索パイプラインのランク付けステップにおいて,必要なトランスフォーマーエンコーダの呼び出し数が最小限に抑えられるように,適切なアーキテクチャを選択するかという問題に焦点をあてる。 colbert や poly-encoder などの遅延相互作用モデルとその修正について検討した。 また,検索インデックスのメモリフットプリントに着目し,トランスコーダからの出力ベクトルのバイナリ化に learning-to-hash 法を適用した。 評価結果はTREC 2019-2021とMS Marco開発データセットを用いて行われる。

Deep learning models named transformers achieved state-of-the-art results in a vast majority of NLP tasks at the cost of increased computational complexity and high memory consumption. Using the transformer model in real-time inference becomes a major challenge when implemented in production, because it requires expensive computational resources. The more executions of a transformer are needed the lower the overall throughput is, and switching to the smaller encoders leads to the decrease of accuracy. Our paper is devoted to the problem of how to choose the right architecture for the ranking step of the information retrieval pipeline, so that the number of required calls of transformer encoder is minimal with the maximum achievable quality of ranking. We investigated several late-interaction models such as Colbert and Poly-encoder architectures along with their modifications. Also, we took care of the memory footprint of the search index and tried to apply the learning-to-hash method to binarize the output vectors from the transformer encoders. The results of the evaluation are provided using TREC 2019-2021 and MS Marco dev datasets.
翻訳日:2021-11-22 15:59:13 公開日:2021-11-18
# 制約に基づくJOPガジェットの多様化

Constraint-based Diversification of JOP Gadgets ( http://arxiv.org/abs/2111.09934v1 )

ライセンス: Link先を確認
Rodothea Myrsini Tsoupidi, Roberto Casta\~neda Lozano, Benoit Baudry(参考訳) 現代のソフトウェアデプロイメントプロセスは均一で、ジャンプ指向プログラミング(jop)攻撃のような大規模なコード再利用攻撃に対して脆弱なソフトウェアを生成する。 コンパイラベースの多様化は、あるプログラムの異なるアセンブリコードバージョンを自動的に生成することで、ソフトウェアシステムのレジリエンスを向上させる。 既存の技術は効率的だが、生成された派生品の品質を正確に制御できない。 本稿では,ソフトウェア多様化のための制約ベースアプローチであるdiversity by construction (divcon)を提案する。 従来のアプローチとは異なり、DivConでは、多様性とコード品質の相反する目標を制御および調整することができる。 重要なイネーブルは、Large Neighborhood Search (LNS)を使用して、高度に多様なコードを生成することである。 より大規模な問題に対して,LNSと構造的分解の組合せを提案する。 jop攻撃に対するdivconの多様化効率をさらに高めるため,jop攻撃の特徴に合わせたアプリケーション固有の距離測定法を提案する。 組込みシステムのベンチマークスイートから20関数のDivConを評価する。 これらの実験により、LNSとアプリケーション固有の距離測定の組み合わせは、JOP攻撃に対して高い耐性を持つバイナリプログラムを生成することがわかった。 結果から,各アセンブリコードバージョンの品質とバージョンプール全体の多様性との間にはトレードオフがあることが確認された。 特に実験の結果、DivConは少数のガジェットを共有できる準最適バイナリプログラムを生成することがわかった。 制約プログラミングの研究者や実践者にとって,LSNは多様な解を見つける上で貴重な手法であることを示す。 セキュリティ研究者やソフトウェアエンジニアにとって、DivConは、コンパイラベースの多様化の範囲をパフォーマンスクリティカルでリソース制約のあるアプリケーションにまで広げている。

Modern software deployment process produces software that is uniform and hence vulnerable to large-scale code-reuse attacks, such as Jump-Oriented Programming (JOP) attacks. Compiler-based diversification improves the resilience of software systems by automatically generating different assembly code versions of a given program. Existing techniques are efficient but do not have a precise control over the quality of the generated variants. This paper introduces Diversity by Construction (DivCon), a constraint-based approach to software diversification. Unlike previous approaches, DivCon allows users to control and adjust the conflicting goals of diversity and code quality. A key enabler is the use of Large Neighborhood Search (LNS) to generate highly diverse code efficiently. For larger problems, we propose a combination of LNS with a structural decomposition of the problem. To further improve the diversification efficiency of DivCon against JOP attacks, we propose an application-specific distance measure tailored to the characteristics of JOP attacks. We evaluate DivCon with 20 functions from a popular benchmark suite for embedded systems. These experiments show that the combination of LNS and our application-specific distance measure generates binary programs that are highly resilient against JOP attacks. Our results confirm that there is a trade-off between the quality of each assembly code version and the diversity of the entire pool of versions. In particular, the experiments show that DivCon generates near-optimal binary programs that share a small number of gadgets. For constraint programming researchers and practitioners, this paper demonstrates that LNS is a valuable technique for finding diverse solutions. For security researchers and software engineers, DivCon extends the scope of compiler-based diversification to performance-critical and resource-constrained applications.
翻訳日:2021-11-22 15:55:31 公開日:2021-11-18
# 広角映像における顔の歪み補正

Correcting Face Distortion in Wide-Angle Videos ( http://arxiv.org/abs/2111.09950v1 )

ライセンス: Link先を確認
Wei-Sheng Lai, YiChang Shih, Chia-Kai Liang, Ming-Hsuan Yang(参考訳) ビデオブログや自撮りはソーシャルメディアのフォーマットとして人気があり、広角カメラが人の対象と背景を映し出す。 残念なことに、視点の投影により、角や縁付近に明らかな歪みがあり、顔の特徴を伸縮させ、ビデオ品質を損なう。 本研究では,これらの歪みを補正するビデオワーピングアルゴリズムを提案する。 私たちのキーとなるアイデアは、顔領域に局所的に立体投影を適用することです。 本研究では,空間的時間的エネルギー最小化を用いてメッシュワープ問題を定式化し,線形保存項を用いて背景変形を最小限に抑える。 時間的コヒーレンシに対処するために,反りメッシュの時間的滑らかさと潜在変数による顔の軌跡を制約する。 性能評価のために,焦点距離の広い広角ビデオデータセットを開発した。 ユーザ調査によると、83.9%のユーザが、視点予測に基づく他の選択肢よりもアルゴリズムを好んでいる。

Video blogs and selfies are popular social media formats, which are often captured by wide-angle cameras to show human subjects and expanded background. Unfortunately, due to perspective projection, faces near corners and edges exhibit apparent distortions that stretch and squish the facial features, resulting in poor video quality. In this work, we present a video warping algorithm to correct these distortions. Our key idea is to apply stereographic projection locally on the facial regions. We formulate a mesh warp problem using spatial-temporal energy minimization and minimize background deformation using a line-preservation term to maintain the straight edges in the background. To address temporal coherency, we constrain the temporal smoothness on the warping meshes and facial trajectories through the latent variables. For performance evaluation, we develop a wide-angle video dataset with a wide range of focal lengths. The user study shows that 83.9% of users prefer our algorithm over other alternatives based on perspective projection.
翻訳日:2021-11-22 15:53:10 公開日:2021-11-18
# リアルタイム意味セグメンテーションのための拡張畳み込みの再考

Rethink Dilated Convolution for Real-time Semantic Segmentation ( http://arxiv.org/abs/2111.09957v1 )

ライセンス: Link先を確認
Roland Gao(参考訳) セマンティクスセグメンテーションの最近の進歩は、一般的にimagenetプリトレーニングされたバックボーンを特別なコンテキストモジュールに適応させ、視野を素早く拡大する。 成功したが、計算のほとんどが存在しているバックボーンは、最善の決定を下すのに十分な視野を持っていない。 最近の進歩では、バックボーンの解像度を迅速にダウンサンプリングし、さらに1つ以上の並列ブランチを高い解像度で持つことで、この問題に対処している。 異なる拡張率を持つ2つの並列3x3畳み込み層を用いて,局所的な詳細を保ちながら視野を拡大する,再帰的インスパイアされたブロック構造を設計することにより,異なるアプローチをとる。 このブロック構造をバックボーンに繰り返すことで、その後に特別なコンテキストモジュールを追加する必要はない。 さらに、ローカル情報を一般的な代替手段よりもよく復元する軽量デコーダを提案する。 提案手法の有効性を示すため,我々のモデルであるRegSegは,リアルタイムCityscapesとCamVidデータセットの最先端結果を実現する。 混合精度のT4 GPUを用いて、RegSegは30FPSのCityscapesテストセットで78.3mIOU、70FPSのCamVidテストセットで80.9mIOUを達成した。

Recent advances in semantic segmentation generally adapt an ImageNet pretrained backbone with a special context module after it to quickly increase the field-of-view. Although successful, the backbone, in which most of the computation lies, does not have a large enough field-of-view to make the best decisions. Some recent advances tackle this problem by rapidly downsampling the resolution in the backbone while also having one or more parallel branches with higher resolutions. We take a different approach by designing a ResNeXt inspired block structure that uses two parallel 3x3 convolutional layers with different dilation rates to increase the field-of-view while also preserving the local details. By repeating this block structure in the backbone, we do not need to append any special context module after it. In addition, we propose a lightweight decoder that restores local information better than common alternatives. To demonstrate the effectiveness of our approach, our model RegSeg achieves state-of-the-art results on real-time Cityscapes and CamVid datasets. Using a T4 GPU with mixed precision, RegSeg achieves 78.3 mIOU on Cityscapes test set at 30 FPS, and 80.9 mIOU on CamVid test set at 70 FPS, both without ImageNet pretraining.
翻訳日:2021-11-22 15:52:52 公開日:2021-11-18
# 胸部X線画像におけるCOVID-19検出:CNNアーキテクチャとアンサンブルの比較

COVID-19 Detection on Chest X-Ray Images: A comparison of CNN architectures and ensembles ( http://arxiv.org/abs/2111.09972v1 )

ライセンス: Link先を確認
Fabricio Breve(参考訳) 新型コロナウイルス(covid-19)は、最初の検出からわずか4ヶ月で急速に世界的なパンデミックとなった。 この病気をできるだけ早く検出し、拡散を減少させることが重要である。 胸部X線画像(CXR)は, 逆転写-ポリメラーゼ鎖反応(RT-PCR)と相補的に, 効果的なスクリーニング戦略となった。 畳み込みニューラルネットワーク(cnns)は、画像の自動分類によく用いられ、cxr診断において非常に有用である。 本稿では、CXR画像中のCOVID-19を識別するタスクにおいて、21の異なるCNNアーキテクチャをテストする。 それらは、最も大きく、より多様なCOVID-19データセットであるCOVIDx8Bデータセットに適用された。 CNNのアンサンブルも採用され、個々のインスタンスよりも効果が高かった。 最も優れたCNNのインスタンス結果はDenseNet169で達成され、精度は98.15%、F1スコアは98.12%だった。 さらに99.25%と99.24%に増加し、5つのDenseNet169がアンサンブルされた。 これらの結果は、同じデータセットを用いた最近の研究で得られたものよりも高い。

COVID-19 quickly became a global pandemic after only four months of its first detection. It is crucial to detect this disease as soon as possible to decrease its spread. The use of chest X-ray (CXR) images became an effective screening strategy, complementary to the reverse transcription-polyme rase chain reaction (RT-PCR). Convolutional neural networks (CNNs) are often used for automatic image classification and they can be very useful in CXR diagnostics. In this paper, 21 different CNN architectures are tested and compared in the task of identifying COVID-19 in CXR images. They were applied to the COVIDx8B dataset, which is the largest and more diverse COVID-19 dataset available. Ensembles of CNNs were also employed and they showed better efficacy than individual instances. The best individual CNN instance results were achieved by DenseNet169, with an accuracy of 98.15% and an F1 score of 98.12%. These were further increased to 99.25% and 99.24%, respectively, through an ensemble with five instances of DenseNet169. These results are higher than those obtained in recent works using the same dataset.
翻訳日:2021-11-22 15:52:29 公開日:2021-11-18
# グラフェン上の勾配流:存在、収束、連続性方程式

Gradient flows on graphons: existence, convergence, continuity equations ( http://arxiv.org/abs/2111.09459v1 )

ライセンス: Link先を確認
Sewoong Oh, Soumik Pal, Raghav Somani, Raghav Tripathi(参考訳) 確率測度上のワッサーシュタイン勾配流は、様々な最適化問題に多くの応用を見出した。 通常は、勾配型ポテンシャルを含む平均場相互作用によって進化する交換可能な粒子系の連続極限として生じる。 しかし、多層ニューラルネットワークのような多くの問題において、いわゆる粒子はノードが交換可能な大きなグラフ上のエッジ重みである。 このような大きなグラフは、その大きさが無限大になるにつれて、グラトンと呼ばれる連続体極限に収束することが知られている。 辺重みの適当な関数のユークリッド勾配流は、グラノンの空間上の曲線によって与えられる新しい連続極限に収束し、勾配流あるいはより技術的には最大勾配の曲線として適切に記述できることを示す。 準同型函数やスカラーエントロピーのようなグラトン上のいくつかの自然関数は、この集合によってカバーされ、その例が詳細に研究されている。

Wasserstein gradient flows on probability measures have found a host of applications in various optimization problems. They typically arise as the continuum limit of exchangeable particle systems evolving by some mean-field interaction involving a gradient-type potential. However, in many problems, such as in multi-layer neural networks, the so-called particles are edge weights on large graphs whose nodes are exchangeable. Such large graphs are known to converge to continuum limits called graphons as their size grow to infinity. We show that the Euclidean gradient flow of a suitable function of the edge-weights converges to a novel continuum limit given by a curve on the space of graphons that can be appropriately described as a gradient flow or, more technically, a curve of maximal slope. Several natural functions on graphons, such as homomorphism functions and the scalar entropy, are covered by our set-up, and the examples have been worked out in detail.
翻訳日:2021-11-22 15:51:24 公開日:2021-11-18
# MS-nowcasting: Microsoft Weatherにおける畳み込みLSTMによる運用上の沈降

MS-nowcasting: Operational Precipitation Nowcasting with Convolutional LSTMs at Microsoft Weather ( http://arxiv.org/abs/2111.09954v1 )

ライセンス: Link先を確認
Sylwester Klocek, Haiyu Dong, Matthew Dixon, Panashe Kanengoni, Najeeb Kazmi, Pete Luferenko, Zhongjian Lv, Shikhar Sharma, Jonathan Weyn, Siqi Xiang(参考訳) 本稿では,microsoft weatherの運転時降雨nowcasting製品を支えるエンコーダ・フォアキャスター畳み込み型long short-term memory(lstm)ディープラーニングモデルを提案する。 このモデルは、気象レーダーモザイクのシーケンスを入力とし、リードタイムを最大6時間で将来のレーダー反射率を決定論的に予測する。 物理に基づく高分解能ラピッドリフレッシュ(HRRR)モデルを用いて,特徴次元に沿って大きな入力受容場を積み重ね,モデルの予測器を条件付けることで,すべてのリードタイムの平均値に対して,光学的フローとHRRRベースラインを20~25%上回ることができる。

We present the encoder-forecaster convolutional long short-term memory (LSTM) deep-learning model that powers Microsoft Weather's operational precipitation nowcasting product. This model takes as input a sequence of weather radar mosaics and deterministically predicts future radar reflectivity at lead times up to 6 hours. By stacking a large input receptive field along the feature dimension and conditioning the model's forecaster with predictions from the physics-based High Resolution Rapid Refresh (HRRR) model, we are able to outperform optical flow and HRRR baselines by 20-25% on multiple metrics averaged over all lead times.
翻訳日:2021-11-22 15:50:33 公開日:2021-11-18
# (参考訳) 土地被覆画像分類のための効率的な深層学習モデル [全文訳有]

Efficient deep learning models for land cover image classification ( http://arxiv.org/abs/2111.09451v1 )

ライセンス: CC BY-SA 4.0
Ioannis Papoutsis, Nikolaos-Ioannis Bountos, Angelos Zavras, Dimitrios Michail, Christos Tryfonopoulos(参考訳) Copernicus Sentinel 画像の高容量化により、土地利用土地被覆(LULC)を大規模に深層学習でマッピングする新たな機会が生まれた。 しかし、このような大きなデータセットでのトレーニングは簡単な作業ではない。 本研究では,畳み込みニューラルネットワーク,多層パーセプトロン,視覚トランスフォーマ,効率ネット,広帯域残留ネットワーク(wrn)アーキテクチャなど,lulc画像分類とベンチマークのためのbigearthnetデータセットを実験した。 本研究の目的は,分類精度,訓練時間,推論率の活用である。 本稿では,ネットワークの奥行き,幅,入力データの解像度という観点から,wrnの複合スケーリングのための効率性に基づくフレームワークを提案し,異なるモデルのセットアップを効率的にトレーニングし,テストする。 本稿では,効率的なチャネルアテンション機構を備えたWRNアーキテクチャを設計する。 提案する軽量モデルは、訓練可能なパラメータが桁違いに小さく、平均的なFスコア分類精度が19のLULCクラスすべてに対して4.5%向上し、ベースラインとして使用するResNet50の2倍高速に訓練される。 トレーニングされた50以上のモデルへのアクセスと、複数のGPUノード上での分散トレーニングのためのコードを提供しています。

The availability of the sheer volume of Copernicus Sentinel imagery has created new opportunities for land use land cover (LULC) mapping at large scales using deep learning. Training on such large datasets though is a non-trivial task. In this work we experiment with the BigEarthNet dataset for LULC image classification and benchmark different state-of-the-art models, including Convolution Neural Networks, Multi-Layer Perceptrons, Visual Transformers, EfficientNets and Wide Residual Networks (WRN) architectures. Our aim is to leverage classification accuracy, training time and inference rate. We propose a framework based on EfficientNets for compound scaling of WRNs in terms of network depth, width and input data resolution, for efficiently training and testing different model setups. We design a novel scaled WRN architecture enhanced with an Efficient Channel Attention mechanism. Our proposed lightweight model has an order of magnitude less trainable parameters, achieves 4.5% higher averaged f-score classification accuracy for all 19 LULC classes and is trained two times faster with respect to a ResNet50 state-of-the-art model that we use as a baseline. We provide access to more than 50 trained models, along with our code for distributed training on multiple GPU nodes.
翻訳日:2021-11-19 23:59:56 公開日:2021-11-18
# (参考訳) 有人境界ボックスのないオープンボキャブラリ物体検出に向けて [全文訳有]

Towards Open Vocabulary Object Detection without Human-provided Bounding Boxes ( http://arxiv.org/abs/2111.09452v1 )

ライセンス: CC BY 4.0
Mingfei Gao, Chen Xing, Juan Carlos Niebles, Junnan Li, Ran Xu, Wenhao Liu, Caiming Xiong(参考訳) オブジェクト検出の進歩にもかかわらず、ほとんどの既存のメソッドは、インスタンスレベルのバウンディングボックスアノテーションに必要な膨大な人的労力のために、小さなオブジェクトカテゴリに限られています。 この問題を軽減するために、最近のオープン語彙とゼロショット検出法は、トレーニング中に見えない対象カテゴリを検出する。 しかし、これらのアプローチは、ベースクラスのセットに手動で境界ボックスアノテーションを提供している。 手動でバウンディングボックスアノテーションを指定せずにトレーニングできるオープン語彙検出フレームワークを提案する。 本手法は,事前学習した視覚言語モデルのローカライズ機能を活用し,直接対象検出器の訓練に使用できる擬似境界ボックスラベルを生成する。 COCO,PASCAL VOC,Objects365,LVISの実験結果から,本手法の有効性が示された。 具体的には、トレーニングソースに手動バウンディングボックスラベルが備わっていないにもかかわらず、COCOの新規カテゴリにおいて、人間のアノテーション付きバウンディングボックスを用いてトレーニングされた最先端技術(SOTA)を3%APで上回ります。 本手法は,手動バウンディングボックスラベルをベースラインとして利用する場合,ほぼ8%の精度でSOTAを超える。

Despite great progress in object detection, most existing methods are limited to a small set of object categories, due to the tremendous human effort needed for instance-level bounding-box annotation. To alleviate the problem, recent open vocabulary and zero-shot detection methods attempt to detect object categories not seen during training. However, these approaches still rely on manually provided bounding-box annotations on a set of base classes. We propose an open vocabulary detection framework that can be trained without manually provided bounding-box annotations. Our method achieves this by leveraging the localization ability of pre-trained vision-language models and generating pseudo bounding-box labels that can be used directly for training object detectors. Experimental results on COCO, PASCAL VOC, Objects365 and LVIS demonstrate the effectiveness of our method. Specifically, our method outperforms the state-of-the-arts (SOTA) that are trained using human annotated bounding-boxes by 3% AP on COCO novel categories even though our training source is not equipped with manual bounding-box labels. When utilizing the manual bounding-box labels as our baselines do, our method surpasses the SOTA largely by 8% AP.
翻訳日:2021-11-19 23:27:38 公開日:2021-11-18
# (参考訳) RoBERTuito: スペイン語のソーシャルメディアテキストのための事前訓練言語モデル [全文訳有]

RoBERTuito: a pre-trained language model for social media text in Spanish ( http://arxiv.org/abs/2111.09453v1 )

ライセンス: CC BY 4.0
Juan Manuel P\'erez, Dami\'an A. Furman, Laura Alonso Alemany, Franco Luque(参考訳) BERTが登場して以来、トランスフォーマー言語モデルとトランスファーラーニングは自然言語理解タスクの最先端技術となっている。 近年では、科学論文や医学文書など、特定の分野の事前訓練、特製モデルに向けられた作品もある。 本稿では,スペイン語のユーザ生成コンテンツのための事前学習型言語モデルRoBERTuitoを紹介する。 スペイン語の5億ツイートでRoBERTuitoを訓練しました。 ユーザ生成テキストを含む4つのタスクのベンチマーク実験では、RoBERTuitoがスペイン語の事前学習言語モデルよりも優れていた。 さらなる研究を支援するため、RoBERTuitoをHuggingFaceモデルハブで公開しています。

Since BERT appeared, Transformer language models and transfer learning have become state-of-the-art for Natural Language Understanding tasks. Recently, some works geared towards pre-training, specially-crafted models for particular domains, such as scientific papers, medical documents, and others. In this work, we present RoBERTuito, a pre-trained language model for user-generated content in Spanish. We trained RoBERTuito on 500 million tweets in Spanish. Experiments on a benchmark of 4 tasks involving user-generated text showed that RoBERTuito outperformed other pre-trained language models for Spanish. In order to help further research, we make RoBERTuito publicly available at the HuggingFace model hub.
翻訳日:2021-11-19 23:12:53 公開日:2021-11-18
# (参考訳) 実写衛星画像作成のための自己獲得タスク生成支援ネットワーク [全文訳有]

Self-Attending Task Generative Adversarial Network for Realistic Satellite Image Creation ( http://arxiv.org/abs/2111.09463v1 )

ライセンス: CC BY 4.0
Nathan Toner and Justin Fletcher(参考訳) 本稿では,satgan(self-attendi ng task generative adversarial network)を紹介し,現実的ノイズパターンとセンサ特性を有する居住空間オブジェクトの合成ハイコントラスト科学画像の拡張問題に適用する。 これらの合成データの強化は、保存しなければならないデータにおけるセマンティックコンテンツの高度にローカライズされた性質のために難しい。 実際の収集画像は、特定のセンサーのイメージがどのようなものになるかをネットワークにトレーニングするために使用される。 トレーニングされたネットワークは、ノイズのないコンテキストイメージのフィルタとして機能し、セマンティックコンテンツを変更せずに現実的な偽物を出力する。 アーキテクチャは条件付きGANにインスパイアされているが、拡張を通じて意味情報を保存するタスクネットワークを含むように修正されている。 さらに、このアーキテクチャは、空間観察シーンを表す文脈画像における幻覚的対象の例や意味的内容の難読化を減少させる。

We introduce a self-attending task generative adversarial network (SATGAN) and apply it to the problem of augmenting synthetic high contrast scientific imagery of resident space objects with realistic noise patterns and sensor characteristics learned from collected data. Augmenting these synthetic data is challenging due to the highly localized nature of semantic content in the data that must be preserved. Real collected images are used to train a network what a given class of sensor's images should look like. The trained network then acts as a filter on noiseless context images and outputs realistic-looking fakes with semantic content unaltered. The architecture is inspired by conditional GANs but is modified to include a task network that preserves semantic information through augmentation. Additionally, the architecture is shown to reduce instances of hallucinatory objects or obfuscation of semantic content in context images representing space observation scenes.
翻訳日:2021-11-19 23:01:21 公開日:2021-11-18
# (参考訳) 複数の時間分解能におけるフレーム間動き分断による3次元リップイベント検出 [全文訳有]

3D Lip Event Detection via Interframe Motion Divergence at Multiple Temporal Resolutions ( http://arxiv.org/abs/2111.09485v1 )

ライセンス: CC BY 4.0
Jie Zhang and Robert B. Fisher(参考訳) 唇は、人が話しているときに支配的な動的顔ユニットである。 唇イベントの検出は音声分析や聴覚障害に対するサポートに有用である。 本稿では,3次元音声リップシーケンスから自動的に唇イベントを検出する3Dリップイベント検出パイプラインを提案する。 本研究では3次元唇ランドマークを用いて3次元唇のフレーム間ダイナミクスの定量化を行う。 次に,フレーム間動作検出をマルチタイムレゾリューション・フレームワークにキャストし,異なる発話速度に適用可能とした。 s3dfmデータセットにおける実験は,提案する動きの発散に基づく3次元リップダイナミクス全体の検討を行った。 提案する3dパイプラインは,100シーケンスにわたるリップイベントの開閉を検知し,最先端のパフォーマンスを実現する。

The lip is a dominant dynamic facial unit when a person is speaking. Detecting lip events is beneficial to speech analysis and support for the hearing impaired. This paper proposes a 3D lip event detection pipeline that automatically determines the lip events from a 3D speaking lip sequence. We define a motion divergence measure using 3D lip landmarks to quantify the interframe dynamics of a 3D speaking lip. Then, we cast the interframe motion detection in a multi-temporal-resol ution framework that allows the detection to be applicable to different speaking speeds. The experiments on the S3DFM Dataset investigate the overall 3D lip dynamics based on the proposed motion divergence. The proposed 3D pipeline is able to detect opening and closing lip events across 100 sequences, achieving a state-of-the-art performance.
翻訳日:2021-11-19 22:51:59 公開日:2021-11-18
# (参考訳) 機械学習モデルにおける社会的要因関連性能バイアスの評価:ICU集団における高塩素血症予測の事例 [全文訳有]

Assessing Social Determinants-Related Performance Bias of Machine Learning Models: A case of Hyperchloremia Prediction in ICU Population ( http://arxiv.org/abs/2111.09507v1 )

ライセンス: CC BY 4.0
Songzi Liu, Yuan Luo(参考訳) 医学における機械学習は、豊富な医療データを活用して知識を抽出し、臨床的意思決定を促進し、最終的にはケアデリバリーを改善する。 しかし、人口の多様性に欠けるデータセットに基づいて訓練されたMLモデルは、少数民族(例えば少数民族、社会的経済的地位の低下)に適用された場合、最適以下のパフォーマンスをもたらす可能性がある。 本研究は,ICU集団におけるアグレッシブ流体投与による高塩素血症を予測するために構築された4つの分類器について評価し,人種,性別,保険サブグループの成績を比較した。 実験結果から,すべての患者に社会的決定要因を加えることで,モデル性能が向上した。 サブグループテストでは、44のモデルサブグループのうち40のAUCスコアが有意に異なっており、MLモデルを社会決定群に適用する場合の相違が示唆された。 将来の研究者は、潜在的なバイアスを積極的に調整し、研究にサブグループレポートを含めるモデルを設計するよう促す。

Machine learning in medicine leverages the wealth of healthcare data to extract knowledge, facilitate clinical decision-making, and ultimately improve care delivery. However, ML models trained on datasets that lack demographic diversity could yield suboptimal performance when applied to the underrepresented populations (e.g. ethnic minorities, lower social-economic status), thus perpetuating health disparity. In this study, we evaluated four classifiers built to predict Hyperchloremia - a condition that often results from aggressive fluids administration in the ICU population - and compared their performance in racial, gender, and insurance subgroups. We observed that adding social determinants features in addition to the lab-based ones improved model performance on all patients. The subgroup testing yielded significantly different AUC scores in 40 out of the 44 model-subgroup, suggesting disparities when applying ML models to social determinants subgroups. We urge future researchers to design models that proactively adjust for potential biases and include subgroup reporting in their studies.
翻訳日:2021-11-19 22:40:46 公開日:2021-11-18
# (参考訳) DeepGuard: 一貫性のない振る舞いから自律運転システムを保護するフレームワーク [全文訳有]

DeepGuard: A Framework for Safeguarding Autonomous Driving Systems from Inconsistent Behavior ( http://arxiv.org/abs/2111.09533v1 )

ライセンス: CC BY 4.0
Manzoor Hussain, Nazakat Ali, and Jang-Eui Hong(参考訳) ディープニューラルネットワーク(DNN)ベースの自律運転システム(ADS)は、運転タスクからヒューマンエラーの要因を取り除くため、道路事故を減らし、交通領域の安全性を向上させることが期待されている。 dnnベースの広告は、事故を引き起こす可能性のある予期せぬ運転条件による誤った行動または予期しない行動を示すことがある。 全ての運転条件に対してDNNモデルの性能を一般化することは不可能である。 したがって、ADSの訓練中に考慮されなかった運転条件は、自動運転車の安全性に予測不可能な結果をもたらす可能性がある。 本研究では,自動エンコーダと時系列解析に基づく異常検出システムを提案する。 DeepGuardと呼ばれるアプローチは2つのコンポーネントで構成されています。 最初のコンポーネントである一貫性のない動作予測器は、自動エンコーダと時系列解析に基づいて駆動シナリオを再構築する。 復元誤差としきい値に基づいて、通常の運転シナリオと予期せぬ運転シナリオを決定し、潜在的な矛盾した振る舞いを予測する。 第2のコンポーネントは、ハエの安全ガード、すなわち、自動的に治癒戦略を活性化し、行動の不一致を防止する。 Udacityシミュレータで既に利用可能なDNNベースのADSを用いて、注入された異常運転シナリオの予測におけるDeepGuardの性能を評価した。 シミュレーションの結果、deepguardの最良のバージョンは、chauffeur広告の最大93%、dave2広告の83%、epoch広告モデルにおける一貫性のない行動の80%、そしてselforacleとdeeproadを上回っていることがわかった。 全体として、DeepGuardは事前に定義された安全ガードを実行することで、予測されたADSの不整合行動の最大99%を防止できる。

The deep neural networks (DNNs)based autonomous driving systems (ADSs) are expected to reduce road accidents and improve safety in the transportation domain as it removes the factor of human error from driving tasks. The DNN based ADS sometimes may exhibit erroneous or unexpected behaviors due to unexpected driving conditions which may cause accidents. It is not possible to generalize the DNN model performance for all driving conditions. Therefore, the driving conditions that were not considered during the training of the ADS may lead to unpredictable consequences for the safety of autonomous vehicles. This study proposes an autoencoder and time series analysis based anomaly detection system to prevent the safety critical inconsistent behavior of autonomous vehicles at runtime. Our approach called DeepGuard consists of two components. The first component, the inconsistent behavior predictor, is based on an autoencoder and time series analysis to reconstruct the driving scenarios. Based on reconstruction error and threshold it determines the normal and unexpected driving scenarios and predicts potential inconsistent behavior. The second component provides on the fly safety guards, that is, it automatically activates healing strategies to prevent inconsistencies in the behavior. We evaluated the performance of DeepGuard in predicting the injected anomalous driving scenarios using already available open sourced DNN based ADSs in the Udacity simulator. Our simulation results show that the best variant of DeepGuard can predict up to 93 percent on the CHAUFFEUR ADS, 83 percent on DAVE2 ADS, and 80 percent of inconsistent behavior on the EPOCH ADS model, outperforming SELFORACLE and DeepRoad. Overall, DeepGuard can prevent up to 89 percent of all predicted inconsistent behaviors of ADS by executing predefined safety guards.
翻訳日:2021-11-19 22:30:41 公開日:2021-11-18
# (参考訳) 新型コロナウイルスにおける人工知能の優位性

The Prominence of Artificial Intelligence in COVID-19 ( http://arxiv.org/abs/2111.09537v1 )

ライセンス: CC0 1.0
MD Abdullah Al Nasim, Aditi Dhali, Faria Afrin, Noshin Tasnim Zaman, Nazmul Karim(参考訳) 2019年12月、新型コロナウイルス(COVID-19)と呼ばれる新型ウイルスが大量の原因となった。 新型ウイルス「コロナウイルス」との闘いは、スペイン・インフルエンザの影響で激化している。 最前線の医師や医学研究者は、高度に連続したウイルスの拡散を抑えるために大きな進歩を遂げてきたが、技術も戦闘においてその重要性を証明している。 さらに、人工知能は多くの医学的応用で多くの病気の診断に採用されている。 そこで本研究では,早期・安価な診断方法として,医師や研究者を支援する手法について検討した。 ほとんどの途上国では、従来の方法でのテストが難しいが、機械学習やディープラーニングでは重要な方法が採用できる。 一方で、さまざまな種類の医療画像へのアクセスが研究者の動機となっている。 その結果,マンモス数が多い技術が提案されている。 本稿では,人工知能分野における従来の手法の背景知識について述べる。 その後、一般的に使用されるデータセットとそのユースケースを現在まで収集します。 さらに,深層学習よりも機械学習を採用する研究者の割合も示す。 したがって、我々はこのシナリオを徹底的に分析する。 最後に、研究課題として、covid-19研究で直面する課題を詳述し、明るく健全な環境を構築するための理解の問題点について論じる。

In December 2019, a novel virus called COVID-19 had caused an enormous number of causalities to date. The battle with the novel Coronavirus is baffling and horrifying after the Spanish Flu 2019. While the front-line doctors and medical researchers have made significant progress in controlling the spread of the highly contiguous virus, technology has also proved its significance in the battle. Moreover, Artificial Intelligence has been adopted in many medical applications to diagnose many diseases, even baffling experienced doctors. Therefore, this survey paper explores the methodologies proposed that can aid doctors and researchers in early and inexpensive methods of diagnosis of the disease. Most developing countries have difficulties carrying out tests using the conventional manner, but a significant way can be adopted with Machine and Deep Learning. On the other hand, the access to different types of medical images has motivated the researchers. As a result, a mammoth number of techniques are proposed. This paper first details the background knowledge of the conventional methods in the Artificial Intelligence domain. Following that, we gather the commonly used datasets and their use cases to date. In addition, we also show the percentage of researchers adopting Machine Learning over Deep Learning. Thus we provide a thorough analysis of this scenario. Lastly, in the research challenges, we elaborate on the problems faced in COVID-19 research, and we address the issues with our understanding to build a bright and healthy environment.
翻訳日:2021-11-19 22:11:30 公開日:2021-11-18
# (参考訳) 深層ニューラルネットワークを用いたct画像化モデルとその有効性 [全文訳有]

Deep neural networks-based denoising models for CT imaging and their efficacy ( http://arxiv.org/abs/2111.09539v1 )

ライセンス: CC0 1.0
Prabhat KC, Rongping Zeng, M. Mehdi Farhangi, Kyle J. Myers(参考訳) ディープニューラルネットワーク(DNN)をベースとしたCT画像のほとんどが、DNNがRMSE、PSNR、SSIMなどのメトリクスで従来の反復法よりも優れていることを示している。 多くの場合、同じメトリクスを使用して、低用量入力によるDNNの結果は、高用量入力と同等であることが示される。 しかし、これらの指標は、DNN結果が微妙な病変の視認性を維持するか、ノイズテクスチャなどのCT画像特性を変更するかは明らかにしない。 そこで本研究では,低線量ct画像に対する総合的な視点から,dnn結果の画質について検討する。 まず,先進的なDNN記述型アーキテクチャのライブラリを構築する。 このライブラリは、DnCNN、U-Net、Red-Net、GANなどのアーキテクチャを記述している。 次に、各ネットワークはトレーニングと同時にモデル化され、PSNRとSSIMの点で最高の性能が得られる。 これにより、データ入力(例えば、パッチサイズ、再構成カーネル)と数値最適化入力(例えば、ミニバッチサイズ、学習率、損失関数)が調整される。 最後に、トレーニングされたネットワークからの出力は、コントラスト依存MTF、NPS、HU精度などの一連のCTベンチテストメトリクスにさらに従属する。 これらのメトリクスは、DNN出力の低コントラスト特性、ノイズテクスチャ、CT番号の精度をより微妙に調べて、各DNNアルゴリズムが画像品質の基本的な特性に与える影響をよりよく理解するために使用される。

Most of the Deep Neural Networks (DNNs) based CT image denoising literature shows that DNNs outperform traditional iterative methods in terms of metrics such as the RMSE, the PSNR and the SSIM. In many instances, using the same metrics, the DNN results from low-dose inputs are also shown to be comparable to their high-dose counterparts. However, these metrics do not reveal if the DNN results preserve the visibility of subtle lesions or if they alter the CT image properties such as the noise texture. Accordingly, in this work, we seek to examine the image quality of the DNN results from a holistic viewpoint for low-dose CT image denoising. First, we build a library of advanced DNN denoising architectures. This library is comprised of denoising architectures such as the DnCNN, U-Net, Red-Net, GAN, etc. Next, each network is modeled, as well as trained, such that it yields its best performance in terms of the PSNR and SSIM. As such, data inputs (e.g. training patch-size, reconstruction kernel) and numeric-optimizer inputs (e.g. minibatch size, learning rate, loss function) are accordingly tuned. Finally, outputs from thus trained networks are further subjected to a series of CT bench testing metrics such as the contrast-dependent MTF, the NPS and the HU accuracy. These metrics are employed to perform a more nuanced study of the resolution of the DNN outputs' low-contrast features, their noise textures, and their CT number accuracy to better understand the impact each DNN algorithm has on these underlying attributes of image quality.
翻訳日:2021-11-19 22:10:26 公開日:2021-11-18
# (参考訳) DeBERTaV3: ELECTRA-Style Pre-TrainingによるDeBERTaの改善 [全文訳有]

DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangle d Embedding Sharing ( http://arxiv.org/abs/2111.09543v1 )

ライセンス: CC BY 4.0
Pengcheng He, Jianfeng Gao and Weizhu Chen(参考訳) 本稿では,マスク言語モデリング(MLM)を,よりサンプル効率の高い事前学習タスクであるRTDに置き換えることで,従来のDeBERTaモデルを改善する新しい事前学習言語モデルであるDeBERTaV3を提案する。 ELECTRAにおけるバニラ埋め込み共有は,訓練効率とモデル性能を損なうことが示された。 これは、ディスクリミネータとジェネレータのプルトークンのトレーニング損失が異なる方向に埋め込み、"綱引き"のダイナミクスを生成するためである。 そこで本研究では,タッグ・オブ・ウォーのダイナミクスを回避し,トレーニング効率と事前学習モデルの質を両立させる,新しい勾配偏角埋め込み共有法を提案する。 我々はDeBERTaV3をDeBERTaと同じ設定で事前訓練し、広範囲の下流自然言語理解(NLU)タスクにおいて例外的な性能を示す。 GLUEベンチマークを例に挙げると、DeBERTaV3 Largeモデルは平均スコア91.37%で、DeBERTaは1.37%、ELECTRAは1.91%で、同様の構造を持つモデルに新しい最先端(SOTA)が設定されている。 さらに,多言語モデルmdebertaを事前学習し,英語モデルに比べて強いベースラインよりも大きな改善が見られた。 例えば、mDeBERTa Baseは、XNLIで79.8%のゼロショットのクロスランガル精度を達成し、XLM-R Baseで3.6%改善した。 トレーニング済みのモデルと推論コードをhttps://github.com/m icrosoft/DeBERTaで公開しました。

This paper presents a new pre-trained language model, DeBERTaV3, which improves the original DeBERTa model by replacing mask language modeling (MLM) with replaced token detection (RTD), a more sample-efficient pre-training task. Our analysis shows that vanilla embedding sharing in ELECTRA hurts training efficiency and model performance. This is because the training losses of the discriminator and the generator pull token embeddings in different directions, creating the "tug-of-war" dynamics. We thus propose a new gradient-disentangle d embedding sharing method that avoids the tug-of-war dynamics, improving both training efficiency and the quality of the pre-trained model. We have pre-trained DeBERTaV3 using the same settings as DeBERTa to demonstrate its exceptional performance on a wide range of downstream natural language understanding (NLU) tasks. Taking the GLUE benchmark with eight tasks as an example, the DeBERTaV3 Large model achieves a 91.37% average score, which is 1.37% over DeBERTa and 1.91% over ELECTRA, setting a new state-of-the-art (SOTA) among the models with a similar structure. Furthermore, we have pre-trained a multi-lingual model mDeBERTa and observed a larger improvement over strong baselines compared to English models. For example, the mDeBERTa Base achieves a 79.8% zero-shot cross-lingual accuracy on XNLI and a 3.6% improvement over XLM-R Base, creating a new SOTA on this benchmark. We have made our pre-trained models and inference code publicly available at https://github.com/m icrosoft/DeBERTa.
翻訳日:2021-11-19 21:53:32 公開日:2021-11-18
# (参考訳) c-oph:循環置換によるone permutation hashing (oph)の精度向上 [全文訳有]

C-OPH: Improving the Accuracy of One Permutation Hashing (OPH) with Circulant Permutations ( http://arxiv.org/abs/2111.09544v1 )

ライセンス: CC BY 4.0
Xiaoyun Li and Ping Li(参考訳) Minwise hashing(MinHash)は、大規模バイナリ(0/1)データのJaccrad類似性を効率的に推定する古典的な手法である。 データベクトルごとに$K$ハッシュ値を生成するには、MinHashの標準理論は$K$独立置換を必要とする。 興味深いことに、"circulant MinHash"(C-MinHash)に関する最近の研究は、2つの置換しか必要ないことを示している。 第1の置換はデータの構造を破り、第2の置換は循環的に$K$時間に再使用される。 驚いたことに、C-MinHashの推定精度はオリジナルのMinHashよりも厳密に小さいことが証明された。 より最近の研究は、事実上1つの置換しか必要ないことを証明している。 なお、C-MinHash は NIPS'12 で発表された "One Permutation Hashing (OPH)" の有名な作品とは異なる。 OPHとその変種は、標準のMinHashの代替として人気がある。 One Permutation Hashingに存在する空のビンを扱うには、デンシフィケーションステップが必要である。 本稿では,C-MinHashの基本的な考え方を取り入れ,一置換ハッシュの精度を向上させることを提案する。 基本的に,既存のOPHの密度化手法と比較して最小の推定分散を実現する新しいOPHの密度化法を開発した。 提案手法はC-OPH (Circulant OPH) と呼ばれる。 最初の置換(データの既存の構造を壊す)の後、C-OPHは長さ$D/K$($D$の代わりに)の"shorter"の置換しか必要とせず、$D$は元のデータ次元であり、$K$はOPHのビンの総数である。 この短い置換は、循環シフト方式で$K$ビンで再使用される。 ジャカード類似度の推定分散は、既存の(同定された) OPH 法よりも厳密に小さいことを示すことができる。

Minwise hashing (MinHash) is a classical method for efficiently estimating the Jaccrad similarity in massive binary (0/1) data. To generate $K$ hash values for each data vector, the standard theory of MinHash requires $K$ independent permutations. Interestingly, the recent work on "circulant MinHash" (C-MinHash) has shown that merely two permutations are needed. The first permutation breaks the structure of the data and the second permutation is re-used $K$ time in a circulant manner. Surprisingly, the estimation accuracy of C-MinHash is proved to be strictly smaller than that of the original MinHash. The more recent work further demonstrates that practically only one permutation is needed. Note that C-MinHash is different from the well-known work on "One Permutation Hashing (OPH)" published in NIPS'12. OPH and its variants using different "densification" schemes are popular alternatives to the standard MinHash. The densification step is necessary in order to deal with empty bins which exist in One Permutation Hashing. In this paper, we propose to incorporate the essential ideas of C-MinHash to improve the accuracy of One Permutation Hashing. Basically, we develop a new densification method for OPH, which achieves the smallest estimation variance compared to all existing densification schemes for OPH. Our proposed method is named C-OPH (Circulant OPH). After the initial permutation (which breaks the existing structure of the data), C-OPH only needs a "shorter" permutation of length $D/K$ (instead of $D$), where $D$ is the original data dimension and $K$ is the total number of bins in OPH. This short permutation is re-used in $K$ bins in a circulant shifting manner. It can be shown that the estimation variance of the Jaccard similarity is strictly smaller than that of the existing (densified) OPH methods.
翻訳日:2021-11-19 21:30:59 公開日:2021-11-18
# (参考訳) comet: エラーバウンド損失圧縮を用いた新しいメモリ効率の高いディープラーニングトレーニングフレームワーク [全文訳有]

COMET: A Novel Memory-Efficient Deep Learning Training Framework by Using Error-Bounded Lossy Compression ( http://arxiv.org/abs/2111.09562v1 )

ライセンス: CC BY 4.0
Sian Jin, Chengming Zhang, Xintong Jiang, Yunhe Feng, Hui Guan, Guanpeng Li, Shuaiwen Leon Song, Dingwen Tao(参考訳) 広い深層ニューラルネットワーク(DNN)のトレーニングには、前方伝播中に中間活性化データをメモリに保存し、後方伝播のために復元する必要があるため、メモリなどの大量のストレージリソースが必要になる。 しかし、GPUのような最先端のアクセラレータは、ハードウェア設計の制約によりメモリ容量が非常に限られており、大規模なDNNをトレーニングする際の最大バッチサイズを著しく制限している。 従来のメモリセーブ技術は性能上のオーバーヘッドに悩まされるか、限られた帯域幅または特定の相互接続技術によって制約される。 本稿では,エラーバウンドの損失圧縮を利用したメモリ効率の高いCNNトレーニングフレームワーク(COMET)を提案し,トレーニングのメモリ要求を大幅に低減し,より大きなモデルをトレーニングしたり,トレーニングを高速化する。 画像ベースの損失圧縮機(JPEGなど)を用いてアクティベーションデータを圧縮する最先端のソリューションとは違って,我々のフレームワークは,厳密なエラー制御機構を備えたエラーバウンド損失圧縮を意図的に採用している。 具体的には,変化したアクティベーションデータから勾配への圧縮誤差伝播に関する理論的解析を行い,学習過程における変化勾配の影響を実験的に検討する。 これらの解析に基づいて,エラーバウンド損失圧縮を最適化し,アクティベーションデータ圧縮のための適応型エラーバウンド制御方式を提案する。 我々は5つの広く登録されたCNNとImageNetデータセットによる最先端のソリューションに対する設計を評価する。 実験により,提案フレームワークは,ベースライントレーニングよりも最大13.5倍,他の最先端圧縮ベースフレームワークよりも1.8倍のトレーニングメモリ使用量を大幅に削減できることを示した。

Training wide and deep neural networks (DNNs) require large amounts of storage resources such as memory because the intermediate activation data must be saved in the memory during forward propagation and then restored for backward propagation. However, state-of-the-art accelerators such as GPUs are only equipped with very limited memory capacities due to hardware design constraints, which significantly limits the maximum batch size and hence performance speedup when training large-scale DNNs. Traditional memory saving techniques either suffer from performance overhead or are constrained by limited interconnect bandwidth or specific interconnect technology. In this paper, we propose a novel memory-efficient CNN training framework (called COMET) that leverages error-bounded lossy compression to significantly reduce the memory requirement for training, to allow training larger models or to accelerate training. Different from the state-of-the-art solutions that adopt image-based lossy compressors (such as JPEG) to compress the activation data, our framework purposely adopts error-bounded lossy compression with a strict error-controlling mechanism. Specifically, we perform a theoretical analysis on the compression error propagation from the altered activation data to the gradients, and empirically investigate the impact of altered gradients over the training process. Based on these analyses, we optimize the error-bounded lossy compression and propose an adaptive error-bound control scheme for activation data compression. We evaluate our design against state-of-the-art solutions with five widely-adopted CNNs and ImageNet dataset. Experiments demonstrate that our proposed framework can significantly reduce the training memory consumption by up to 13.5X over the baseline training and 1.8X over another state-of-the-art compression-based framework, respectively, with little or no accuracy loss.
翻訳日:2021-11-19 21:11:06 公開日:2021-11-18
# (参考訳) LAnoBERT : BERT Masked Language Modelに基づくシステムログ異常検出 [全文訳有]

LAnoBERT : System Log Anomaly Detection based on BERT Masked Language Model ( http://arxiv.org/abs/2111.09564v1 )

ライセンス: CC BY 4.0
Yukyung Lee, Jina Kim and Pilsung Kang(参考訳) コンピュータシステムで生成されたシステムログは、同時に収集され、単純なエラーを判定し、外部の逆侵入やインサイダーの異常行動を検出するための基本データとして使用される大規模データを指す。 システムログ異常検出の目的は、人間の介入を最小限に抑えながら異常を迅速に特定することである。 従来の研究では,様々なログデータを解析器を用いて標準化テンプレートに変換し,アルゴリズムによる異常検出を行った。 これらのメソッドは、ログキーを書き換えるためのテンプレートを生成する。 特に,ログキー内の情報が失われる可能性のあるすべてのログデータに対して,特定のイベントに対応するテンプレートを事前に定義する必要がある。本研究では,BERTモデルを用いたパーサフリーシステムログ異常検出手法であるLAnoBERTを提案する。 提案手法であるLAnoBERTは,BERTに基づく事前学習手法であるマスク付き言語モデリングを用いてモデルを学習し,推論処理中にログキーワードあたりのマスク付き言語モデリング損失関数を用いて教師なし学習に基づく異常検出を行う。 LAnoBERTは、ベンチマークログデータセット、HDFS、BGLを使用して実施された実験において、従来の方法論よりも優れたパフォーマンスを実現し、また、教師付き学習ベースモデルと比較した。

The system log generated in a computer system refers to large-scale data that are collected simultaneously and used as the basic data for determining simple errors and detecting external adversarial intrusion or the abnormal behaviors of insiders. The aim of system log anomaly detection is to promptly identify anomalies while minimizing human intervention, which is a critical problem in the industry. Previous studies performed anomaly detection through algorithms after converting various forms of log data into a standardized template using a parser. These methods involved generating a template for refining the log key. Particularly, a template corresponding to a specific event should be defined in advance for all the log data using which the information within the log key may get lost.In this study, we propose LAnoBERT, a parser free system log anomaly detection method that uses the BERT model, exhibiting excellent natural language processing performance. The proposed method, LAnoBERT, learns the model through masked language modeling, which is a BERT-based pre-training method, and proceeds with unsupervised learning-based anomaly detection using the masked language modeling loss function per log key word during the inference process. LAnoBERT achieved better performance compared to previous methodology in an experiment conducted using benchmark log datasets, HDFS, and BGL, and also compared to certain supervised learning-based models.
翻訳日:2021-11-19 20:47:15 公開日:2021-11-18
# (参考訳) マルチモーダル関節防御によるロバストな人物再同定 [全文訳有]

Robust Person Re-identification with Multi-Modal Joint Defence ( http://arxiv.org/abs/2111.09571v1 )

ライセンス: CC BY 4.0
Yunpeng Gong and Lifei Chen(参考訳) メトリック学習に基づくperson re-identification(re id)システムは、adversarailメトリックアタックによって簡単に騙されるディープニューラルネットワーク(dnn)の脆弱性を継承することが証明されている。 既存の研究は主にメートル法防衛のための敵の訓練に依存しており、多くの手法が研究されていない。 本研究は,攻撃が基礎となる特徴に与える影響を探索し,メトリック攻撃と防御手法のターゲット手法を提案する。 メトリックアタックの観点からは、入力のクラス内変動を構築して色特徴を攻撃するために、局所的な色偏差を用いる。 メートル法防衛の観点からは,プロアクティブ防御とパッシブ防御の2つの部分を含む共同防衛手法を提案する。 積極的防御は、マルチモーダル画像からの異なる入力を構築することで、モデルの色変化に対する堅牢性や構造関係の学習を促進するのに役立ち、受動的防御は、回路的スケーリングによって変化する画素空間における構造的特徴の不変性を利用して、いくつかの対向ノイズを排除し、構造的特徴の保存を行う。 広範な実験により,提案手法は,複数の攻撃に対して同時に行うだけでなく,モデルの一般化能力を大幅に低下させることなく,既存の敵対的距離防衛手法と比較できることを示した。 コードはhttps://github.com/f inger-monkey/multi-m odal_joint_defenceで入手できる。

The Person Re-identification (ReID) system based on metric learning has been proved to inherit the vulnerability of deep neural networks (DNNs), which are easy to be fooled by adversarail metric attacks. Existing work mainly relies on adversarial training for metric defense, and more methods have not been fully studied. By exploring the impact of attacks on the underlying features, we propose targeted methods for metric attacks and defence methods. In terms of metric attack, we use the local color deviation to construct the intra-class variation of the input to attack color features. In terms of metric defenses, we propose a joint defense method which includes two parts of proactive defense and passive defense. Proactive defense helps to enhance the robustness of the model to color variations and the learning of structure relations across multiple modalities by constructing different inputs from multimodal images, and passive defense exploits the invariance of structural features in a changing pixel space by circuitous scaling to preserve structural features while eliminating some of the adversarial noise. Extensive experiments demonstrate that the proposed joint defense compared with the existing adversarial metric defense methods which not only against multiple attacks at the same time but also has not significantly reduced the generalization capacity of the model. The code is available at https://github.com/f inger-monkey/multi-m odal_joint_defence.
翻訳日:2021-11-19 20:26:39 公開日:2021-11-18
# (参考訳) ALBERTはどんな感情的安定か? 感性分析課題における確率重み平均化によるロバストネスの検証 [全文訳有]

How Emotionally Stable is ALBERT? Testing Robustness with Stochastic Weight Averaging on a Sentiment Analysis Task ( http://arxiv.org/abs/2111.09612v1 )

ライセンス: CC BY 4.0
Urja Khurana, Eric Nalisnick, Antske Fokkens(参考訳) 彼らの成功にもかかわらず、現代の言語モデルは脆弱です。 トレーニングパイプラインの小さな変更でも、予期しない結果につながる可能性がある。 感情分析タスク(sst-2)におけるalbert(arxiv:1909.11 942)と確率的重量平均化(swa)(arxiv:1803.054 07)のロバスト性について検討した。 特に,swaの安定性をチェックリストの基準(arxiv:2005.04118)で分析し,ランダムシードでのみ異なるモデルによる誤差の一致について検討した。 SWAは勾配降下軌道に沿って撮影されるモデルスナップショットをアンサンブルするため、より安定していると仮定する。 モデルの誤りをfleiss' kappa(fleiss, 1971)とオーバーラップ比スコアと比較することで安定性を定量化する。 SWAは一般的にエラー率を低下させるが、モデルはそれぞれ独自のバイアスを被っている(CheckListによると)。

Despite their success, modern language models are fragile. Even small changes in their training pipeline can lead to unexpected results. We study this phenomenon by examining the robustness of ALBERT (arXiv:1909.11942) in combination with Stochastic Weight Averaging (SWA) (arXiv:1803.05407) -- a cheap way of ensembling -- on a sentiment analysis task (SST-2). In particular, we analyze SWA's stability via CheckList criteria (arXiv:2005.04118), examining the agreement on errors made by models differing only in their random seed. We hypothesize that SWA is more stable because it ensembles model snapshots taken along the gradient descent trajectory. We quantify stability by comparing the models' mistakes with Fleiss' Kappa (Fleiss, 1971) and overlap ratio scores. We find that SWA reduces error rates in general; yet the models still suffer from their own distinct biases (according to CheckList).
翻訳日:2021-11-19 20:13:46 公開日:2021-11-18
# (参考訳) 共用アスペクトに基づく感情分析モデルにおける共通だが識別可能な差異を求める [全文訳有]

Seeking Common but Distinguishing Difference, A Joint Aspect-based Sentiment Analysis Model ( http://arxiv.org/abs/2111.09634v1 )

ライセンス: CC BY 4.0
Hongjiang Jing, Zuchao Li, Hai Zhao and Shu Jiang(参考訳) アスペクトベース感情分析(ABSA)タスクは、アスペクト項抽出、意見項抽出、感情極性分類の3つの典型的なサブタスクから構成される。 これら3つのサブタスクは通常、リソースの節約とパイプライン内のエラー伝搬の低減のために共同で実行される。 しかし、既存のジョイントモデルのほとんどは、サブタスク間のエンコーダ共有の利点のみに焦点を当てているが、違いは無視されている。 そこで本研究では,エンコーダ共有のメリットを享受するだけでなく,モデルの有効性向上のための差分に着目した共同ABSAモデルを提案する。 具体的には,ペアエンコーダが候補アスペクト-オピニオンペアの分類に特に注目し,元のエンコーダがシーケンスラベリングに注目しているデュアルエンコーダ設計を提案する。 実験の結果,提案モデルが頑健性を示し,従来の4つのベンチマークデータセットよりも大幅に優れていた。

Aspect-based sentiment analysis (ABSA) task consists of three typical subtasks: aspect term extraction, opinion term extraction, and sentiment polarity classification. These three subtasks are usually performed jointly to save resources and reduce the error propagation in the pipeline. However, most of the existing joint models only focus on the benefits of encoder sharing between subtasks but ignore the difference. Therefore, we propose a joint ABSA model, which not only enjoys the benefits of encoder sharing but also focuses on the difference to improve the effectiveness of the model. In detail, we introduce a dual-encoder design, in which a pair encoder especially focuses on candidate aspect-opinion pair classification, and the original encoder keeps attention on sequence labeling. Empirical results show that our proposed model shows robustness and significantly outperforms the previous state-of-the-art on four benchmark datasets.
翻訳日:2021-11-19 19:56:22 公開日:2021-11-18
# (参考訳) 画像のデハージングに必要な密度の認識とモデリング [全文訳有]

Perceiving and Modeling Density is All You Need for Image Dehazing ( http://arxiv.org/abs/2111.09733v1 )

ライセンス: CC0 1.0
Tian Ye, Mingchao Jiang, Yunchen Zhang, Liang Chen, Erkang Chen, Pen Chen, Zhiyong Lu(参考訳) 実世界では、ヘイズの下で撮影された画像の劣化は非常に複雑であり、ヘイズの空間分布は画像によって異なる。 近年の手法では、深層ニューラルネットワークを用いて、ぼんやりとした画像から直接クリーンなシーンを復元している。 しかし, 実写ヘイズ画像における実写ヘイズ分布の変動によるパラドックスや, 現在のネットワークの固定劣化パラメータによるパラドックスにより, 実写ヘイズ画像に対する最近のデヘイズ手法の一般化能力は理想的ではなく, 実写ヘイズ劣化をモデル化する問題に対処するために, 不均一ヘイズ分布の密度を知覚し, モデル化することでこの問題を解決することを提案する。 本稿では,この目的を達成するために,直交方向の特徴を捉えることで,ヘイズ密度を符号化する新たなSHAモジュールを提案する。 さらに,Hazeの不均一分布を明示的にモデル化する密度写像を提案する。 密度マップは半教師あり方式で位置符号化を生成する。 このようなヘイズ密度の知覚とモデリングは、不均等に分散したデジェネレーションを効果的に特徴レベルで捉える。 SHAと密度マップの適切な組み合わせにより、我々は、高い複雑性と性能のトレードオフを実現する新しいデハージングネットワークアーキテクチャを設計する。 2つの大規模データセットに関する広範な実験により、我々の手法は、定量的にも定性的にも、すべての最先端アプローチを定量的に上回り、最高のPSNRメトリックをHaze4kテストデータセットで28.53dBから33.49dB、SOTS屋内テストデータセットで37.17dBから38.41dBに引き上げることを示した。

In the real world, the degradation of images taken under haze can be quite complex, where the spatial distribution of haze is varied from image to image. Recent methods adopt deep neural networks to recover clean scenes from hazy images directly. However, due to the paradox caused by the variation of real captured haze and the fixed degradation parameters of the current networks, the generalization ability of recent dehazing methods on real-world hazy images is not ideal.To address the problem of modeling real-world haze degradation, we propose to solve this problem by perceiving and modeling density for uneven haze distribution. We propose a novel Separable Hybrid Attention (SHA) module to encode haze density by capturing features in the orthogonal directions to achieve this goal. Moreover, a density map is proposed to model the uneven distribution of the haze explicitly. The density map generates positional encoding in a semi-supervised way. Such a haze density perceiving and modeling capture the unevenly distributed degeneration at the feature level effectively. Through a suitable combination of SHA and density map, we design a novel dehazing network architecture, which achieves a good complexity-performan ce trade-off. The extensive experiments on two large-scale datasets demonstrate that our method surpasses all state-of-the-art approaches by a large margin both quantitatively and qualitatively, boosting the best published PSNR metric from 28.53 dB to 33.49 dB on the Haze4k test dataset and from 37.17 dB to 38.41 dB on the SOTS indoor test dataset.
翻訳日:2021-11-19 19:37:09 公開日:2021-11-18
# (参考訳) ClipCap: イメージキャプションのためのCLIPプリフィックス [全文訳有]

ClipCap: CLIP Prefix for Image Captioning ( http://arxiv.org/abs/2111.09734v1 )

ライセンス: CC BY 4.0
Ron Mokady, Amir Hertz, and Amit H. Bermano(参考訳) 画像キャプションは、与えられた入力画像に対するテキスト情報キャプションを予測する視覚言語理解の基本的なタスクである。 本稿では,この課題に対処するための簡単なアプローチを提案する。 簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。 最近提案されたCLIPモデルには、テキストコンテキストでトレーニングされたリッチなセマンティック機能が含まれており、視覚言語知覚に最適である。 我々のキーとなる考え方は、事前学習された言語モデル(GPT2)とともに、視覚データとテキストデータの両方を広く理解することである。 したがって、我々のアプローチは、有能なキャプションモデルを作成するために、かなり速い訓練しか必要としない。 追加のアノテーションや事前トレーニングなしで、大規模で多様なデータセットに対して意味のあるキャプションを効率的に生成する。 驚いたことに、我々の手法はマッピングネットワークのみをトレーニングしてもうまく機能するが、CLIPと言語モデルの両方は凍結され、トレーニング可能なパラメータの少ない軽量アーキテクチャを実現している。 定量的評価により,本モデルはよりシンプルで高速で軽量な概念キャプションとnocapsデータセットにおいて,最先端の手法に匹敵する結果が得られることを示した。 私たちのコードはhttps://github.com/r mokady/CLIP_prefix_c aptionで利用可能です。

Image captioning is a fundamental task in vision-language understanding, where the model predicts a textual informative caption to a given input image. In this paper, we present a simple approach to address this task. We use CLIP encoding as a prefix to the caption, by employing a simple mapping network, and then fine-tunes a language model to generate the image captions. The recently proposed CLIP model contains rich semantic features which were trained with textual context, making it best for vision-language perception. Our key idea is that together with a pre-trained language model (GPT2), we obtain a wide understanding of both visual and textual data. Hence, our approach only requires rather quick training to produce a competent captioning model. Without additional annotations or pre-training, it efficiently generates meaningful captions for large-scale and diverse datasets. Surprisingly, our method works well even when only the mapping network is trained, while both CLIP and the language model remain frozen, allowing a lighter architecture with less trainable parameters. Through quantitative evaluation, we demonstrate our model achieves comparable results to state-of-the-art methods on the challenging Conceptual Captions and nocaps datasets, while it is simpler, faster, and lighter. Our code is available in https://github.com/r mokady/CLIP_prefix_c aption.
翻訳日:2021-11-19 19:24:34 公開日:2021-11-18
# (参考訳) 重みマップと動的ユーザインタラクションを用いたu-netを用いたインタラクティブセグメンテーション [全文訳有]

Interactive segmentation using U-Net with weight map and dynamic user interactions ( http://arxiv.org/abs/2111.09740v1 )

ライセンス: CC BY 4.0
Ragavie Pirabaharan and Naimul Khan(参考訳) 対話型セグメンテーションは、セグメンテーション性能をさらに向上させるためにエキスパートインプットを必要とする特殊なタスクに注目されている。 本研究では,ユーザクリックを現在のセグメンテーションマスクに基づいて動的にサイズに適応させる対話型セグメンテーションフレームワークを提案する。 クリックされた領域は重みマップを形成し、新しい重み付き損失関数としてディープニューラルネットワークに供給される。 損失関数を評価するために,前景と背景クリックの両方を主操作として適用する対話型u-net(iu-net)モデルを採用する。 重み付き損失関数を用いた標準U-Netと比較して,MSDデータセットからの脾・結腸癌CT画像を用いて,BCVデータセットのトレーニングと検証を行い,全体のセグメンテーション精度を向上させる。 動的なユーザクリックサイズを適用すると、それぞれ5.60%と10.39%の精度が向上する。

Interactive segmentation has recently attracted attention for specialized tasks where expert input is required to further enhance the segmentation performance. In this work, we propose a novel interactive segmentation framework, where user clicks are dynamically adapted in size based on the current segmentation mask. The clicked regions form a weight map and are fed to a deep neural network as a novel weighted loss function. To evaluate our loss function, an interactive U-Net (IU-Net) model which applies both foreground and background user clicks as the main method of interaction is employed. We train and validate on the BCV dataset, while testing on spleen and colon cancer CT images from the MSD dataset to improve the overall segmentation accuracy in comparison to the standard U-Net using our weighted loss function. Applying dynamic user click sizes increases the overall accuracy by 5.60% and 10.39% respectively by utilizing only a single user interaction.
翻訳日:2021-11-19 19:09:23 公開日:2021-11-18
# (参考訳) cover information disentanglement: unbiased permutation importanceによるモデルの透明性 [全文訳有]

Covered Information Disentanglement: Model Transparency via Unbiased Permutation Importance ( http://arxiv.org/abs/2111.09744v1 )

ライセンス: CC BY-SA 4.0
Jo\~ao Pereira and Erik S.G. Stroes and Aeilko H. Zwinderman and Evgeni Levin(参考訳) モデルの透明性は、多くのドメインにおいて必須条件であり、機械学習研究でますます人気が高まっている分野である。 例えば、医学領域では、疾患の背後にあるメカニズムを明らかにすることは、治療や研究の方向性を指示する可能性があるため、診断自体よりも優先度が高いことが多い。 モデルグローバル予測を説明する最も一般的なアプローチの1つは、順列データのパフォーマンスがベースラインに対してベンチマークされる順列の重要性である。 しかし,本手法や他の関連手法は,提供情報の一部をカバーしているため,共変量の存在下での特徴の重要性を過小評価する。 そこで本研究では,すべての特徴情報を重ね合わせて置換重要度によって提供された値を補正する手法であるcovered information disentanglement (cid)を提案する。 さらに,マルコフ確率場と組み合わせてCIDを効率的に計算する方法を示す。 まず,コントロールトイデータセット上での順応重要度調整の効果を実証し,実世界医療データへの影響について考察する。

Model transparency is a prerequisite in many domains and an increasingly popular area in machine learning research. In the medical domain, for instance, unveiling the mechanisms behind a disease often has higher priority than the diagnostic itself since it might dictate or guide potential treatments and research directions. One of the most popular approaches to explain model global predictions is the permutation importance where the performance on permuted data is benchmarked against the baseline. However, this method and other related approaches will undervalue the importance of a feature in the presence of covariates since these cover part of its provided information. To address this issue, we propose Covered Information Disentanglement (CID), a method that considers all feature information overlap to correct the values provided by permutation importance. We further show how to compute CID efficiently when coupled with Markov random fields. We demonstrate its efficacy in adjusting permutation importance first on a controlled toy dataset and discuss its effect on real-world medical data.
翻訳日:2021-11-19 19:02:02 公開日:2021-11-18
# (参考訳) オープン知識グラフを用いた言語横断プラジャリズムの検出 [全文訳有]

Detecting Cross-Language Plagiarism using Open Knowledge Graphs ( http://arxiv.org/abs/2111.09749v1 )

ライセンス: CC BY 4.0
Johannes Stegm\"uller, Fabian Bauer-Marquart, Norman Meuschke, Terry Ruas, Moritz Schubotz, Bela Gipp(参考訳) 言語横断プラジャリズムの特定は、特に遠方の言語対や意味のある翻訳において困難である。 本稿では,多言語検索モデルであるCL-Language Ontology-Based similarity Analysis (CL\nobreakdash-OSA) を提案する。 CL-OSAはオープン知識グラフWikidataから得られたエンティティベクトルとして文書を表す。 他の方法とは異なり、cl\nobreakdash-osaは計算コストの高い機械翻訳を必要としない。 ホモニムとスケールを確実に曖昧にし、Webスケールのドキュメントコレクションに適用できるようにします。 CL-OSAは,日本語のような遠い言語対を含む5つの大規模かつ多種多様なテストコーパスから,候補文書を検索するための最先端手法よりも優れていることを示す。 言語横断プラジャリズムを文字レベルで識別するために、CL-OSAは主にセンス・フォー・センス翻訳の検出を改善している。 これらの困難なケースでは、CL-OSAが確立したPagDetスコアは、第2因子以上で最高の競合相手のスコアを上回っている。 私たちの研究のコードとデータは公開されています。

Identifying cross-language plagiarism is challenging, especially for distant language pairs and sense-for-sense translations. We introduce the new multilingual retrieval model Cross-Language Ontology-Based Similarity Analysis (CL\nobreakdash-OSA) for this task. CL-OSA represents documents as entity vectors obtained from the open knowledge graph Wikidata. Opposed to other methods, CL\nobreakdash-OSA does not require computationally expensive machine translation, nor pre-training using comparable or parallel corpora. It reliably disambiguates homonyms and scales to allow its application to Web-scale document collections. We show that CL-OSA outperforms state-of-the-art methods for retrieving candidate documents from five large, topically diverse test corpora that include distant language pairs like Japanese-English. For identifying cross-language plagiarism at the character level, CL-OSA primarily improves the detection of sense-for-sense translations. For these challenging cases, CL-OSA's performance in terms of the well-established PlagDet score exceeds that of the best competitor by more than factor two. The code and data of our study are openly available.
翻訳日:2021-11-19 18:42:38 公開日:2021-11-18
# (参考訳) 変分オートエンコーディングによるcsiクラスタリング [全文訳有]

CSI Clustering with Variational Autoencoding ( http://arxiv.org/abs/2111.09758v1 )

ライセンス: CC BY 4.0
Michael Baur, Michael W\"urth, Vlad-Costin Andrei, Michael Koller, Wolfgang Utschick(参考訳) 無線チャネルのモデル順序は、通信工学における様々な応用において重要な役割を果たし、例えば、送信機から受信機への非無視的な電力入射を伴う解決可能なインシデント・ウェーブフロントの数を表す。 到着方向推定のような領域は、チャネル状態情報のマルチパス成分を分析するためにモデル順序を利用する。 本研究では,変分オートエンコーダの潜在空間におけるモデル順序に関するラベルなしチャネル状態情報を教師なしでグループ化する変分オートエンコーダを提案する。 シミュレーションによる3gppチャネルデータによる検証を行った。 この結果から, 適切なクラスタリングを学習するためには, 標準アプリケーションの場合よりも, 可変オートエンコーダデコーダに柔軟な確率モデルを用いることが重要であることが示唆された。

The model order of a wireless channel plays an important role for a variety of applications in communications engineering, e.g., it represents the number of resolvable incident wavefronts with non-negligible power incident from a transmitter to a receiver. Areas such as direction of arrival estimation leverage the model order to analyze the multipath components of channel state information. In this work, we propose to use a variational autoencoder to group unlabeled channel state information with respect to the model order in the variational autoencoder latent space in an unsupervised manner. We validate our approach with simulated 3GPP channel data. Our results suggest that, in order to learn an appropriate clustering, it is crucial to use a more flexible likelihood model for the variational autoencoder decoder than it is usually the case in standard applications.
翻訳日:2021-11-19 18:22:12 公開日:2021-11-18
# (参考訳) ハイブリッドスーパーインテリジェンスとポリメトリック解析 [全文訳有]

Hybrid Super Intelligence and Polymetric Analysis ( http://arxiv.org/abs/2111.09762v1 )

ライセンス: CC BY 4.0
Vladislav Dorofeev, Petro Trokhimchuk(参考訳) 人工知能の解決問題に対する多量解析の応用の可能性について論じる。 例えば、N. Moiseev型によるハイブリッドスーパーインテリジェンスシステムが選択された。 ポリメトリック分析とハイブリッドスーパーインテリジェンスシステムとの結合性を示した。 運用意味では、多元分析はより一般的なシステムである。 したがって、モイゼフの概念の主な原理は、多計量解析の助けを借りて統一することができる。 この統一の主な特徴は分析される。

The problem of possible applications Polymetric Analysis for the resolution problems of artificial Intelligence is discussed. As example the hybrid super intelligence system by N. Moiseev type was selected. The bond between polymetric analysis and hybrid super intelligence system was shown. In operational sense polymetric analysis is more general system. Therefore main principles of Moiseev concept may be unify with the help of polymetric analysis. Main peculiarities of this unification are analyzed.
翻訳日:2021-11-19 18:13:33 公開日:2021-11-18
# (参考訳) 事前学習言語モデルによる未学習アラビア語のサポート [全文訳有]

Supporting Undotted Arabic with Pre-trained Language Models ( http://arxiv.org/abs/2111.09791v1 )

ライセンス: CC BY 4.0
Aviad Rom and Kfir Bar(参考訳) 我々は,コンテンツ分類アルゴリズムをバイパスするために,アラビア語文字から意図的に子音点を取り除いたソーシャルメディア上での最近の行動を観察した。 コンテンツの分類は通常、事前学習された言語モデルによって行われ、近年多くの自然言語処理アプリケーションで採用されている。 本研究では,事前学習されたアラビア語モデルが「未熟な」アラビア語テキストに与える影響について検討する。 我々は,事前学習されたモデルで未学習のテキストをサポートするいくつかの方法を提案し,その性能をアラビア語自然言語処理のダウンストリームタスクで測定する。 私たちのメソッドのタスクの1つは、ほぼ完璧なパフォーマンスを示しています。

We observe a recent behaviour on social media, in which users intentionally remove consonantal dots from Arabic letters, in order to bypass content-classificati on algorithms. Content classification is typically done by fine-tuning pre-trained language models, which have been recently employed by many natural-language-pro cessing applications. In this work we study the effect of applying pre-trained Arabic language models on "undotted" Arabic texts. We suggest several ways of supporting undotted texts with pre-trained models, without additional training, and measure their performance on two Arabic natural-language-pro cessing downstream tasks. The results are encouraging; in one of the tasks our method shows nearly perfect performance.
翻訳日:2021-11-19 18:04:37 公開日:2021-11-18
# (参考訳) 視覚記憶を用いた非教師なしオンライン学習 [全文訳有]

Unsupervised Online Learning for Robotic Interestingness with Visual Memory ( http://arxiv.org/abs/2111.09793v1 )

ライセンス: CC0 1.0
Chen Wang, Yuheng Qiu, Wenshan Wang, Yafei Hu, Seungchan Kim, Sebastian Scherer(参考訳) 自律ロボットは、さらなる探索を決定するために「興味深い」シーンを検出したり、協力のために共有するデータを決定する必要がある。 これらのシナリオは、ほとんど、あるいはまったくトレーニングデータを持たない高速なデプロイメントを必要とすることが多い。 先行研究では、同じ分布のデータに基づいて「興味」を考える。 代わりに,オンライン環境に自動的に適応して興味ある場面を素早く報告する手法を開発することを提案する。 この問題に対処するため,我々は,新しい翻訳不変ビジュアルメモリを開発し,長期・短期・オンライン学習のための3段階アーキテクチャを設計した。 このシステムにより,地下トンネル環境における最先端の非監視手法よりも平均20%高い精度が得られる。 提案手法の有効性を示すロボット探索シナリオにおける教師付き手法と同等の性能を示す。 提案手法は,ロボットの興味をそそる探索作業において重要な役割を果たすことを期待する。

Autonomous robots frequently need to detect "interesting" scenes to decide on further exploration, or to decide which data to share for cooperation. These scenarios often require fast deployment with little or no training data. Prior work considers "interestingness" ; based on data from the same distribution. Instead, we propose to develop a method that automatically adapts online to the environment to report interesting scenes quickly. To address this problem, we develop a novel translation-invarian t visual memory and design a three-stage architecture for long-term, short-term, and online learning, which enables the system to learn human-like experience, environmental knowledge, and online adaption, respectively. With this system, we achieve an average of 20% higher accuracy than the state-of-the-art unsupervised methods in a subterranean tunnel environment. We show comparable performance to supervised methods for robot exploration scenarios showing the efficacy of our approach. We expect that the presented method will play an important role in the robotic interestingness recognition exploration tasks.
翻訳日:2021-11-19 17:55:50 公開日:2021-11-18
# (参考訳) 協調学習による教師付き学習パフォーマンスの向上 [全文訳有]

Boosting Supervised Learning Performance with Co-training ( http://arxiv.org/abs/2111.09797v1 )

ライセンス: CC BY 4.0
Xinnan Du, William Zhang, Jose M. Alvarez(参考訳) ディープラーニングの知覚モデルは、優れたパフォーマンスを達成するために大量のラベル付きトレーニングデータを必要とする。 ラベルのないデータは簡単に取得できるが、ラベリングのコストは禁じられ、企業や個人にとって大きな負担になる可能性がある。 近年,ラベルのないデータを活用する代替手段として自己スーパービジョンが登場している。 本稿では,教師付き学習性能を最小限の計算コストで向上させることができる,軽量な自己教師付き学習フレームワークを提案する。 本稿では,任意の教師付きタスクに自己教師付きタスクを統合する,単純で柔軟なマルチタスク協調学習フレームワークを提案する。 提案手法では,プリテキストタスクを利用して最小計算量とパラメータのオーバーヘッドを発生させ,既存のトレーニングパイプラインに最小限のディスラプションを与える。 本研究では,2つの自己教師型タスク,物体検出と汎視的セグメンテーションを用いて,異なる知覚モデル上でのフレームワークの有効性を示す。 以上の結果から,両タスクとも教師付きタスクの精度が向上すると同時に,追加のラベル付きデータを用いた場合のドメイン適応能力も向上することが示唆された。

Deep learning perception models require a massive amount of labeled training data to achieve good performance. While unlabeled data is easy to acquire, the cost of labeling is prohibitive and could create a tremendous burden on companies or individuals. Recently, self-supervision has emerged as an alternative to leveraging unlabeled data. In this paper, we propose a new light-weight self-supervised learning framework that could boost supervised learning performance with minimum additional computation cost. Here, we introduce a simple and flexible multi-task co-training framework that integrates a self-supervised task into any supervised task. Our approach exploits pretext tasks to incur minimum compute and parameter overheads and minimal disruption to existing training pipelines. We demonstrate the effectiveness of our framework by using two self-supervised tasks, object detection and panoptic segmentation, on different perception models. Our results show that both self-supervised tasks can improve the accuracy of the supervised task and, at the same time, demonstrates strong domain adaption capability when used with additional unlabeled data.
翻訳日:2021-11-19 17:26:30 公開日:2021-11-18
# (参考訳) コードミキシングテキストにおけるドラビディアン言語の感性分析の発見 [全文訳有]

Findings of the Sentiment Analysis of Dravidian Languages in Code-Mixed Text ( http://arxiv.org/abs/2111.09811v1 )

ライセンス: CC BY 4.0
Bharathi Raja Chakravarthi and Ruba Priyadharshini and Sajeetha Thavareesan and Dhivya Chinnappa and Durairaj Thenmozhi and Elizabeth Sherly and John P. McCrae and Adeep Hande and Rahul Ponnusamy and Shubhanker Banerjee and Charangan Vasantharajan(参考訳) FIRE 2021で実施したDravidian-CodeMix共有タスクの結果を,Code-Mixed TextにおけるDravidian言語に対する感情分析のトラックとして提示する。 タスク、その組織、および提出されたシステムについて説明する。 この共有タスクは、FIRE 2020で開催されている昨年のDravidian-CodeMix共有タスクの継続である。 今年のタスクは、トケン内とトケン間のレベルのコード混合だった。 さらに、タミル語とマラヤラム語を除いて、カンナダ語も導入された。 タミル語では22のシステム、マラヤラム語では15のシステム、カンナダ語では15のシステムを受け取りました。 タミル・イングリッシュ、マラヤラム・イングリッシュ、カナダ・イングリッシュの上位システムは、それぞれ0.711、0.804、0.630である。 要約すると、提出内容の品質と量は、コード混合設定におけるドラビダ言語に対する大きな関心と、このドメインにおける最先端技術にはまだ改善が必要であることを示している。

We present the results of the Dravidian-CodeMix shared task held at FIRE 2021, a track on sentiment analysis for Dravidian Languages in Code-Mixed Text. We describe the task, its organization, and the submitted systems. This shared task is the continuation of last year's Dravidian-CodeMix shared task held at FIRE 2020. This year's tasks included code-mixing at the intra-token and inter-token levels. Additionally, apart from Tamil and Malayalam, Kannada was also introduced. We received 22 systems for Tamil-English, 15 systems for Malayalam-English, and 15 for Kannada-English. The top system for Tamil-English, Malayalam-English and Kannada-English scored weighted average F1-score of 0.711, 0.804, and 0.630, respectively. In summary, the quality and quantity of the submission show that there is great interest in Dravidian languages in code-mixed setting and state of the art in this domain still needs more improvement.
翻訳日:2021-11-19 17:15:11 公開日:2021-11-18
# (参考訳) 漁獲量平均化によるマージングモデル [全文訳有]

Merging Models with Fisher-Weighted Averaging ( http://arxiv.org/abs/2111.09832v1 )

ライセンス: CC BY 4.0
Michael Matena and Colin Raffel(参考訳) 転送学習は、あるタスクから別のタスクを学ぶときに知識を活用する方法を提供する。 転送学習は通常、トレーニングデータセットの勾配降下を通じてモデルのパラメータを反復的に更新する。 本稿では,複数のモデルを1つのモデルに"マージ"するモデル間で知識を伝達する,根本的に異なる手法を提案する。 提案手法は,モデルのパラメータの重み付け平均を効果的に計算する。 この平均化はモデル重みの後部からのおよそのサンプリングと等価であることを示す。 等方性ガウス近似を用いるとうまく機能する場合もあるが、フィッシャー情報を介して精度行列を近似する利点も示している。 まとめると、我々の手法は、標準的な勾配に基づく訓練に比べて計算コストが極端に低い複数のモデルで「知識」を組み合わせることができる。 モデルマージは,中間タスクトレーニングとドメイン適応問題において,勾配降下に基づく伝達学習と同等の性能を発揮することを実証する。 また、マージ手順により、これまで探索されていなかった方法でモデルを組み合わせることが可能であることを示す。 提案手法のロバスト性を評価するため,アルゴリズムの設計について広範囲にわたるアブレーションを行う。

Transfer learning provides a way of leveraging knowledge from one task when learning another task. Performing transfer learning typically involves iteratively updating a model's parameters through gradient descent on a training dataset. In this paper, we introduce a fundamentally different method for transferring knowledge across models that amounts to "merging" multiple models into one. Our approach effectively involves computing a weighted average of the models' parameters. We show that this averaging is equivalent to approximately sampling from the posteriors of the model weights. While using an isotropic Gaussian approximation works well in some cases, we also demonstrate benefits by approximating the precision matrix via the Fisher information. In sum, our approach makes it possible to combine the "knowledge" in multiple models at an extremely low computational cost compared to standard gradient-based training. We demonstrate that model merging achieves comparable performance to gradient descent-based transfer learning on intermediate-task training and domain adaptation problems. We also show that our merging procedure makes it possible to combine models in previously unexplored ways. To measure the robustness of our approach, we perform an extensive ablation on the design of our algorithm.
翻訳日:2021-11-19 16:51:33 公開日:2021-11-18
# (参考訳) 固定スパースマスクを用いたニューラルネットワークのトレーニング [全文訳有]

Training Neural Networks with Fixed Sparse Masks ( http://arxiv.org/abs/2111.09839v1 )

ライセンス: CC BY 4.0
Yi-Lin Sung, Varun Nair, and Colin Raffel(参考訳) ディープニューラルネットワークの典型的な勾配に基づくトレーニングでは、モデルのパラメータは各イテレーションで更新される。 最近の研究は、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることを示しており、ストレージと通信の要求を緩和することができる。 本稿では,モデルのパラメータに固定されたスパースマスクを誘導することで,多数のイテレーションで更新する部分集合を選択できることを示す。 提案手法では,最大のフィッシャー情報を持つ$k$パラメータのマスクを,目の前のタスクにとって最も重要なパラメータの近似として構成する。 パラメータ効率の高い転送学習と分散トレーニングの実験では、メモリ使用量や通信コストの面では効率が向上しつつも、スパース更新による他のトレーニング方法のパフォーマンスに匹敵する、あるいは超えていることを示す。 このアプローチのさらなる応用を促進するために、コードを公開しています。

During typical gradient-based training of deep neural networks, all of the model's parameters are updated at each iteration. Recent work has shown that it is possible to update only a small subset of the model's parameters during training, which can alleviate storage and communication requirements. In this paper, we show that it is possible to induce a fixed sparse mask on the model's parameters that selects a subset to update over many iterations. Our method constructs the mask out of the $k$ parameters with the largest Fisher information as a simple approximation as to which parameters are most important for the task at hand. In experiments on parameter-efficient transfer learning and distributed training, we show that our approach matches or exceeds the performance of other methods for training with sparse updates while being more efficient in terms of memory usage and communication costs. We release our code publicly to promote further applications of our approach.
翻訳日:2021-11-19 16:31:28 公開日:2021-11-18
# (参考訳) 形態変化するロボットシステムにおける学習の効果 [全文訳有]

The Effects of Learning in Morphologically Evolving Robot Systems ( http://arxiv.org/abs/2111.09851v1 )

ライセンス: CC BY 4.0
Jie Luo, Aart Stuurman, Jakub M. Tomczak, Jacintha Ellers, Agoston E. Eiben(参考訳) 同時に進化する形態学(身体)とロボットの制御器(脳)は、子孫の遺伝体と脳のミスマッチを引き起こす可能性がある。 この問題を緩和するために、いわゆる三角式生活フレームワークによる幼児の学習期間の追加が、比較的以前から提案されてきた。 しかし、まだ実証的な評価が不足している。 本稿では,このような学習メカニズムの効果について,異なる視点から検討する。 広範囲なシミュレーションを用いて、学習はタスクのパフォーマンスを大幅に向上させ、特定のフィットネスレベルに達するために必要な世代数を純粋に進化的なアプローチと比較して減少させることができることを示す。 さらに,学習はコントローラにのみ直接影響を与えるが,進化した形態も異なることを示す。 これは、脳の変化が身体の変化を誘発できる定量的なデモンストレーションを提供する。 最後に,ある身体が学習する能力によって定量化される形態的知性の概念を検討する。 進化過程を通じて、遺伝と学習した脳のパフォーマンス差である学習デルタが成長しているのを観察する。 これは、進化が可塑性を増すロボットを生産していることを示している。つまり、連続する世代がより良くなり、学習者が増え、それによって与えられたタスクがより良くなる。 全体として、我々の結果は、生命の三角形は理論的な関心のコンセプトであるだけでなく、実際的な利益を持つシステムアーキテクチャであることを示している。

Simultaneously evolving morphologies (bodies) and controllers (brains) of robots can cause a mismatch between the inherited body and brain in the offspring. To mitigate this problem, the addition of an infant learning period by the so-called Triangle of Life framework has been proposed relatively long ago. However, an empirical assessment is still lacking to-date. In this paper we investigate the effects of such a learning mechanism from different perspectives. Using extensive simulations we show that learning can greatly increase task performance and reduce the number of generations required to reach a certain fitness level compared to the purely evolutionary approach. Furthermore, although learning only directly affects the controllers, we demonstrate that the evolved morphologies will be also different. This provides a quantitative demonstration that changes in the brain can induce changes in the body. Finally, we examine the concept of morphological intelligence quantified by the ability of a given body to learn. We observe that the learning delta, the performance difference between the inherited and the learned brain, is growing throughout the evolutionary process. This shows that evolution is producing robots with an increasing plasticity, that is, consecutive generations are becoming better and better learners which in turn makes them better and better at the given task. All in all, our results demonstrate that the Triangle of Life is not only a concept of theoretical interest, but a system architecture with practical benefits.
翻訳日:2021-11-19 16:12:52 公開日:2021-11-18
# (参考訳) ワンショット生成ドメイン適応 [全文訳有]

One-Shot Generative Domain Adaptation ( http://arxiv.org/abs/2111.09876v1 )

ライセンス: CC BY 4.0
Ceyuan Yang, Yujun Shen, Zhiyi Zhang, Yinghao Xu, Jiapeng Zhu, Zhirong Wu, Bolei Zhou(参考訳) 本研究の目的は,GAN (Generative Adversarial Network) を1つの画像領域に事前トレーニングし,対象とする画像がわずかに少ない新しい領域に転送することである。 主な課題は、限られた監督下では、対象の代表的な文字を取得しながら、写実的で非常に多様な画像を合成することが極めて困難であることである。 バニラファインチューニング戦略を採用する既存のアプローチとは異なり、我々は2つの軽量モジュールをジェネレータと識別器にそれぞれインポートする。 具体的には, ジェネレータに属性適応器を導入し, 元のパラメータを凍結し, 従来の知識を最大限に再利用し, 合成品質と多様性を維持する。 次に、よく学習した識別器のバックボーンに属性分類器を装備し、ジェネレータが参照から適切な文字をキャプチャすることを保証する。 さらに,訓練データの多様性の低さ(すなわち1枚の画像に限らず)を考慮して,学習過程における生成領域の多様性を制約し,最適化の困難さを緩和することを提案する。 提案手法は様々な条件下で魅力的な結果をもたらし、特に合成の多様性において最先端の代替品をはるかに上回っている。 特に、我々の手法は大きな領域ギャップでもうまく機能し、実験毎に数分以内にしっかりと収束する。

This work aims at transferring a Generative Adversarial Network (GAN) pre-trained on one image domain to a new domain referring to as few as just one target image. The main challenge is that, under limited supervision, it is extremely difficult to synthesize photo-realistic and highly diverse images, while acquiring representative characters of the target. Different from existing approaches that adopt the vanilla fine-tuning strategy, we import two lightweight modules to the generator and the discriminator respectively. Concretely, we introduce an attribute adaptor into the generator yet freeze its original parameters, through which it can reuse the prior knowledge to the most extent and hence maintain the synthesis quality and diversity. We then equip the well-learned discriminator backbone with an attribute classifier to ensure that the generator captures the appropriate characters from the reference. Furthermore, considering the poor diversity of the training data (i.e., as few as only one image), we propose to also constrain the diversity of the generative domain in the training process, alleviating the optimization difficulty. Our approach brings appealing results under various settings, substantially surpassing state-of-the-art alternatives, especially in terms of synthesis diversity. Noticeably, our method works well even with large domain gaps, and robustly converges within a few minutes for each experiment.
翻訳日:2021-11-19 15:52:08 公開日:2021-11-18
# (参考訳) Swin Transformer V2: 容量と解像度のスケールアップ [全文訳有]

Swin Transformer V2: Scaling Up Capacity and Resolution ( http://arxiv.org/abs/2111.09883v1 )

ライセンス: CC BY 4.0
Ze Liu and Han Hu and Yutong Lin and Zhuliang Yao and Zhenda Xie and Yixuan Wei and Jia Ning and Yue Cao and Zheng Zhang and Li Dong and Furu Wei and Baining Guo(参考訳) 我々はSwin Transformerを最大30億のパラメータにスケーリングし、最大1,536$\times$1,536解像度の画像でトレーニングできるようにする。 キャパシティと解像度のスケールアップにより、Swin Transformerは4つの代表的なビジョンベンチマークに新しいレコードを設定した: ImageNet-V2イメージ分類の84.0%、COCOオブジェクト検出の63.1/54.4ボックス/マスクmAP、ADE20Kセマンティックセグメンテーションの59.9 mIoU、Kinetics-400ビデオアクション分類の86.8%。 私たちの技術は一般的に,nlp言語モデルとして広く研究されていないビジョンモデルのスケールアップに適用できる。 1)ビジョンモデルは、しばしば大規模で不安定な問題に直面する。 2) 多くのダウンストリームビジョンタスクでは高解像度画像やウィンドウが必要であり、低解像度で事前トレーニングされたモデルを高解像度に効果的に転送する方法は明確ではない。 gpuメモリ消費もまた、画像解像度が高い場合に問題となる。 これらの課題に対処するために,Swin Transformer を事例として,いくつかの手法を提案する。 1) 大型視覚モデルの安定性を向上させるためのポスト正規化技術とスケールドコサイン注意アプローチ 2) 低解像度画像や窓で事前学習したモデルを高解像度画像に効果的に転送する対数空間連続位置バイアス技術。 さらに、GPUメモリ消費の大幅な削減につながる重要な実装の詳細を共有し、通常のGPUで大きなビジョンモデルをトレーニングできるようにする。 これらの手法と自己教師付き事前学習を用いて,強力な3b swinトランスフォーマーモデルをトレーニングし,高分解能画像やウィンドウを含む様々な視覚タスクに効果的に転送し,様々なベンチマークで最先端の精度を実現する。

We present techniques for scaling Swin Transformer up to 3 billion parameters and making it capable of training with images of up to 1,536$\times$1,536 resolution. By scaling up capacity and resolution, Swin Transformer sets new records on four representative vision benchmarks: 84.0% top-1 accuracy on ImageNet-V2 image classification, 63.1/54.4 box/mask mAP on COCO object detection, 59.9 mIoU on ADE20K semantic segmentation, and 86.8% top-1 accuracy on Kinetics-400 video action classification. Our techniques are generally applicable for scaling up vision models, which has not been widely explored as that of NLP language models, partly due to the following difficulties in training and applications: 1) vision models often face instability issues at scale and 2) many downstream vision tasks require high resolution images or windows and it is not clear how to effectively transfer models pre-trained at low resolutions to higher resolution ones. The GPU memory consumption is also a problem when the image resolution is high. To address these issues, we present several techniques, which are illustrated by using Swin Transformer as a case study: 1) a post normalization technique and a scaled cosine attention approach to improve the stability of large vision models; 2) a log-spaced continuous position bias technique to effectively transfer models pre-trained at low-resolution images and windows to their higher-resolution counterparts. In addition, we share our crucial implementation details that lead to significant savings of GPU memory consumption and thus make it feasible to train large vision models with regular GPUs. Using these techniques and self-supervised pre-training, we successfully train a strong 3B Swin Transformer model and effectively transfer it to various vision tasks involving high-resolution images or windows, achieving the state-of-the-art accuracy on a variety of benchmarks.
翻訳日:2021-11-19 15:35:18 公開日:2021-11-18
# 新しい最適化非同期フェデレーション学習フレームワーク

A Novel Optimized Asynchronous Federated Learning Framework ( http://arxiv.org/abs/2111.09487v1 )

ライセンス: Link先を確認
Zhicheng Zhou, Hailong Chen, Kunhua Li, Fei Hu, Bingjie Yan, Jieren Cheng, Xuyan Wei, Bernie Liu, Xiulai Li, Fuwen Chen, Yongji Sui(参考訳) 連合学習(federated learning、fl)は、クレジットアセスメントや医療など、多くの分野に適用されてきた。 ネットワークやコンピューティングリソースの違いのため、クライアントは勾配を同時に更新せず、待機やアイドルに多くの時間を要する可能性がある。 そのため、非同期フェデレートラーニング(AFL)メソッドが必要になります。 AFLの主なボトルネックは通信です。 AFLでは、モデルパフォーマンスと通信コストのバランスを見つける方法が課題です。 本稿では,新しいAFLフレームワークVAFLを提案する。 そして,十分な実験によりアルゴリズムの性能を検証した。 実験の結果,VAFL は平均通信圧縮率 48.23 % で約 51.02 % の通信時間を短縮し,モデルをより早く収束させることができることがわかった。 コードは \url{https://github.com/R obAI-Lab/VAFL} で入手できる。

Federated Learning (FL) since proposed has been applied in many fields, such as credit assessment, medical, etc. Because of the difference in the network or computing resource, the clients may not update their gradients at the same time that may take a lot of time to wait or idle. That's why Asynchronous Federated Learning (AFL) method is needed. The main bottleneck in AFL is communication. How to find a balance between the model performance and the communication cost is a challenge in AFL. This paper proposed a novel AFL framework VAFL. And we verified the performance of the algorithm through sufficient experiments. The experiments show that VAFL can reduce the communication times about 51.02\% with 48.23\% average communication compression rate and allow the model to be converged faster. The code is available at \url{https://github.com/R obAI-Lab/VAFL}
翻訳日:2021-11-19 15:14:45 公開日:2021-11-18
# 普遍的対向摂動によるディープラーニングAIハードウェアの攻撃

Attacking Deep Learning AI Hardware with Universal Adversarial Perturbation ( http://arxiv.org/abs/2111.09488v1 )

ライセンス: Link先を確認
Mehdi Sadi, B. M. S. Bahar Talukder, Kaniz Mishty, and Md Tauhidur Rahman(参考訳) Universal Adversarial Perturbationsは、画像に依存しないモデルに依存しないノイズであり、任意の画像を追加すると、訓練されたDeep Convolutional Neural Networksを誤った予測に導くことができる。 これらのユニバーサル・アドバイサル・パーバベーションは、実用的なディープラーニングアプリケーションのセキュリティと整合性を著しく損なう可能性があるため、既存の手法では、入力画像ソースにおけるこれらのノイズの存在を検出するために、追加のニューラルネットワークを使用している。 本稿では,不正な手段(マルウェア,トロイの木馬など)によって起動された場合,aiハードウェアアクセラレーションの段階での敵対的ノイズを増大させることで,既存の対策を回避できる攻撃戦略を示す。 本稿では,conv2d関数のソフトウェアカーネルとハードウェアのverilog rtlモデルとの共シミュレーションを用いて,複数の深層学習モデルにおけるアクセラレーションレベルユニバーサル・コンバーサリーノイズ攻撃を実証する。

Universal Adversarial Perturbations are image-agnostic and model-independent noise that when added with any image can mislead the trained Deep Convolutional Neural Networks into the wrong prediction. Since these Universal Adversarial Perturbations can seriously jeopardize the security and integrity of practical Deep Learning applications, existing techniques use additional neural networks to detect the existence of these noises at the input image source. In this paper, we demonstrate an attack strategy that when activated by rogue means (e.g., malware, trojan) can bypass these existing countermeasures by augmenting the adversarial noise at the AI hardware accelerator stage. We demonstrate the accelerator-level universal adversarial noise attack on several deep Learning models using co-simulation of the software kernel of Conv2D function and the Verilog RTL model of the hardware under the FuseSoC environment.
翻訳日:2021-11-19 15:14:31 公開日:2021-11-18
# リアルタイムディジタルプリディストリクトのためのモジュラー1d-cnnアーキテクチャ

A Modular 1D-CNN Architecture for Real-time Digital Pre-distortion ( http://arxiv.org/abs/2111.09637v1 )

ライセンス: Link先を確認
Udara De Silva (1), Toshiaki Koike-Akino (1), Rui Ma (1), Ao Yamashita (2), Hideyuki Nakamizo (2) ((1) Mitsubishi Electric Research Labs, Cambridge, MA, USA, (2) Mitsubishi Electric Corporation, Information Tech. R&D Center, Kanagawa, Japan)(参考訳) This study reports a novel hardware-friendly modular architecture for implementing one dimensional convolutional neural network (1D-CNN) digital predistortion (DPD) technique to linearize RF power amplifier (PA) real-time.The modular nature of our design enables DPD system adaptation for variable resource and timing constraints.Our work also presents a co-simulation architecture to verify the DPD performance with an actual power amplifier hardware-in-the-loop .The experimental results with 100 MHz signals show that the proposed 1D-CNN obtains superior performance compared with other neural network architectures for real-time DPD application.

This study reports a novel hardware-friendly modular architecture for implementing one dimensional convolutional neural network (1D-CNN) digital predistortion (DPD) technique to linearize RF power amplifier (PA) real-time.The modular nature of our design enables DPD system adaptation for variable resource and timing constraints.Our work also presents a co-simulation architecture to verify the DPD performance with an actual power amplifier hardware-in-the-loop .The experimental results with 100 MHz signals show that the proposed 1D-CNN obtains superior performance compared with other neural network architectures for real-time DPD application.
翻訳日:2021-11-19 15:14:11 公開日:2021-11-18
# モデル誤差予測による複雑な地形ナビゲーション

Complex Terrain Navigation via Model Error Prediction ( http://arxiv.org/abs/2111.09768v1 )

ライセンス: Link先を確認
Adam Polevoy, Craig Knuth, Katie M. Popek, Kapil D. Katyal(参考訳) ロボットナビゲーションは従来、衝突のない軌道を望ましい目標に計画するために使われる明示的な地図を構築することに依存している。 変形可能で複雑な地形では、幾何学的アプローチを用いることで、変形可能な物体を剛性かつ不可避と誤認するため、経路を見つけることができない。 代わりに、地形領域の移動可能性の推定を予測し、移動しやすい地域(例えば、小さな低木よりも短い草)を優先することを学ぶ。 衝突を予測する代わりに、正準力学モデルと比較して現実の誤差を抑える。 私たちは、オンラインのアプローチでトレーニングを行い、その結果、シミュレーションと現実世界にまたがる、50分間のトレーニングデータを使用して、ナビゲーションポリシーを成功させました。 私たちの学習に基づくナビゲーションシステムは,草原や森林など,様々な地形を横断するクリアパス・ハスキーを実演する,効率的な短期プランナーのサンプルである。

Robot navigation traditionally relies on building an explicit map that is used to plan collision-free trajectories to a desired target. In deformable, complex terrain, using geometric-based approaches can fail to find a path due to mischaracterizing deformable objects as rigid and impassable. Instead, we learn to predict an estimate of traversability of terrain regions and to prefer regions that are easier to navigate (e.g., short grass over small shrubs). Rather than predicting collisions, we instead regress on realized error compared to a canonical dynamics model. We train with an on-policy approach, resulting in successful navigation policies using as little as 50 minutes of training data split across simulation and real world. Our learning-based navigation system is a sample efficient short-term planner that we demonstrate on a Clearpath Husky navigating through a variety of terrain including grassland and forest
翻訳日:2021-11-19 15:13:47 公開日:2021-11-18
# リカレント変分ネットワーク: 高速化MRI再構成作業に応用したディープラーニング逆問題解法

Recurrent Variational Network: A Deep Learning Inverse Problem Solver applied to the task of Accelerated MRI Reconstruction ( http://arxiv.org/abs/2111.09639v1 )

ライセンス: Link先を確認
George Yiasemis, Clara I. S\'anchez, Jan-Jakob Sonke, Jonas Teuwen(参考訳) 磁気共鳴イメージングは、腫瘍などの病理の診断と治療を支援する人体の解剖学と生理学の詳細な画像を生成することができる。 しかし、MRIは、患者の運動アーティファクトに影響を受けやすく、ダイナミックな治療を提供する可能性を制限する、非常に長い取得時間に悩まされている。 並列イメージングや圧縮センシングのような従来のアプローチでは、複数の受信コイルを用いてMRIデータを少ない精度で取得することで、MRI画像の再構成によりMRIの取得速度が向上する。 近年のDeep LearningとParallel ImagingとCompressed Sensingの併用により、高速度MRIデータから高忠実度再構成が実現されている。 本稿では,Recurrent Variational Network (RecurrentVarNet) と呼ばれる,畳み込みリカレントネットワークの特性と,逆問題解決のためのアンロールアルゴリズムを利用して,MRIの高速化作業に適用した新しい逆問題解法を提案する。 recurrentvarnetは複数のブロックで構成され、それぞれが逆問題を解くための勾配降下最適化アルゴリズムの1つの未ロールイテレーションを担当している。 従来のアプローチとは対照的に、最適化手順は画像領域ではなく観察領域($k$-space)で行われる。 RecurrentVarNetの各リカレントブロックは、観測された$k$-スペースを洗練し、データ一貫性項と、学習された隠れ状態と前のブロックの予測を入力とするリカレントユニットから構成される。 提案手法は,一般のマルチチャネル脳データセットから5倍および10倍の加速度データに対して,従来型および深層学習に基づくアプローチを上回って,新しい質的,定量的な再構築結果を得る。 すべてのモデルコードとベースラインをパブリックリポジトリにリリースします。

Magnetic Resonance Imaging can produce detailed images of the anatomy and physiology of the human body that can assist doctors in diagnosing and treating pathologies such as tumours. However, MRI suffers from very long acquisition times that make it susceptible to patient motion artifacts and limit its potential to deliver dynamic treatments. Conventional approaches such as Parallel Imaging and Compressed Sensing allow for an increase in MRI acquisition speed by reconstructing MR images by acquiring less MRI data using multiple receiver coils. Recent advancements in Deep Learning combined with Parallel Imaging and Compressed Sensing techniques have the potential to produce high-fidelity reconstructions from highly accelerated MRI data. In this work we present a novel Deep Learning-based Inverse Problem solver applied to the task of accelerated MRI reconstruction, called Recurrent Variational Network (RecurrentVarNet) by exploiting the properties of Convolution Recurrent Networks and unrolled algorithms for solving Inverse Problems. The RecurrentVarNet consists of multiple blocks, each responsible for one unrolled iteration of the gradient descent optimization algorithm for solving inverse problems. Contrary to traditional approaches, the optimization steps are performed in the observation domain ($k$-space) instead of the image domain. Each recurrent block of RecurrentVarNet refines the observed $k$-space and is comprised of a data consistency term and a recurrent unit which takes as input a learned hidden state and the prediction of the previous block. Our proposed method achieves new state of the art qualitative and quantitative reconstruction results on 5-fold and 10-fold accelerated data from a public multi-channel brain dataset, outperforming previous conventional and deep learning-based approaches. We will release all models code and baselines on our public repository.
翻訳日:2021-11-19 15:13:05 公開日:2021-11-18
# 酵素-基質相互作用予測のためのコントラストマルチビュー符号化

Contrastive Multiview Coding for Enzyme-Substrate Interaction Prediction ( http://arxiv.org/abs/2111.09467v1 )

ライセンス: Link先を確認
Apurva Kalia (1), Dilip Krishnan (2), Soha Hassoun (1) ((1) Tufts University, (2) Google Research)(参考訳) 酵素機能の特徴付けは、酵素-基質相互作用を予測する上で重要な要件である。 本稿では,この問題にContrastive Multiview Codingを適用し,予測性能を向上させるための新しい手法を提案する。 KEGGのような酵素データベースからの補助的データを利用して、酵素-基質反応の複数ビューに存在する相互情報を学習する手法を提案する。 反応データの複数ビューの一致性は予測性能の向上に有効であることを示す。

Characterizing Enzyme function is an important requirement for predicting Enzyme-Substrate interactions. In this paper, we present a novel approach of applying Contrastive Multiview Coding to this problem to improve the performance of prediction. We present a method to leverage auxiliary data from an Enzymatic database like KEGG to learn the mutual information present in multiple views of enzyme-substrate reactions. We show that congruency in the multiple views of the reaction data can be used to improve prediction performance.
翻訳日:2021-11-19 15:12:15 公開日:2021-11-18
# 深層ニューラルネットワーク学習スキームによるB\'acklund変換とソリトン進化方程式のデータ駆動的発見

Data-driven discovery of B\"acklund transforms and soliton evolution equations via deep neural network learning schemes ( http://arxiv.org/abs/2111.09489v1 )

ライセンス: Link先を確認
Zijian Zhou, Li Wang, Zhenya Yan(参考訳) 本稿では、ソリトン進化方程式のB\'acklund変換(BT)を学習するためのディープニューラルネットワーク学習方式と、既知のBTに基づくデータ駆動ソリトン方程式探索のための拡張ディープラーニング方式を導入する。 最初のスキームは、シネ・ゴルドン方程式のデータ駆動BTを研究するための解(またはソリトン方程式)情報と、ミウラ変換によるデータ駆動mKdV方程式の発見と同様に、デフォーカス(焦点)mKdV方程式とKdV方程式の間の複素および実ミウラ変換を利用する。 第2のディープラーニング方式では、高階ソリトンを生成する明示的/単純BTを用いて、mKdVとsine-Gordon方程式のデータ駆動的な発見を訓練する。

We introduce a deep neural network learning scheme to learn the B\"acklund transforms (BTs) of soliton evolution equations and an enhanced deep learning scheme for data-driven soliton equation discovery based on the known BTs, respectively. The first scheme takes advantage of some solution (or soliton equation) information to study the data-driven BT of sine-Gordon equation, and complex and real Miura transforms between the defocusing (focusing) mKdV equation and KdV equation, as well as the data-driven mKdV equation discovery via the Miura transforms. The second deep learning scheme uses the explicit/implicit BTs generating the higher-order solitons to train the data-driven discovery of mKdV and sine-Gordon equations, in which the high-order solution informations are more powerful for the enhanced leaning soliton equations with higher accurates.
翻訳日:2021-11-19 15:12:08 公開日:2021-11-18
# 多変量平均推定のための近似量子アルゴリズム

Near-Optimal Quantum Algorithms for Multivariate Mean Estimation ( http://arxiv.org/abs/2111.09787v1 )

ライセンス: Link先を確認
Arjan Cornelissen, Yassine Hamoudi, Sofiene Jerbi(参考訳) 有限平均と共分散を持つベクトル値の確率変数の平均をユークリッドノルムで推定するための最初の近似量子アルゴリズムを提案する。 この結果は、多変量準ゲージ推定子の理論を量子集合に拡張することを目的としている。 古典的には、任意の単変量推定器を少なくとも次元の対数的オーバーヘッドを持つ多変量推定器にすることができるのとは異なり、量子設定では同様の結果が証明できない。 実際、ハインリヒはサンプルの複雑さが次元よりも小さい場合、平均推定問題に対する量子的優位性の存在を指摘した。 我々の主な成果は、この低精度な状態以外では、古典的推定器よりも優れた量子推定器が存在することを示すことである。 我々のアプローチは、ほとんどの量子推定器が位相推定にのみ依存する単変量設定よりもはるかに複雑である。 振幅増幅法, ベルンシュタイン・ヴァジラニ法, 量子特異値変換法などの様々なアルゴリズム手法を応用した。 また,多変量切断統計には濃度不等式を用いる。 文献に現れる2つの異なる入力モデルを用いて量子推定器を開発する。 第一に、ランダム変数のバイナリ表現へのコヒーレントなアクセスを提供し、古典的な設定を包含する。 2つ目のモデルでは、ランダム変数は直接量子レジスタの位相に符号化される。 このモデルは、多くの量子アルゴリズムにおいて自然に現れるが、しばしば古典的サンプルを持つのと相容れない。 提案手法を2つの設定に適用し, 平均推定問題の解法として2番目のモデルの方が厳格に弱いことを示す。 最後に,提案アルゴリズムのいくつかの応用,特に通勤可観測物の期待値や機械学習分野における期待値の測定について述べる。

We propose the first near-optimal quantum algorithm for estimating in Euclidean norm the mean of a vector-valued random variable with finite mean and covariance. Our result aims at extending the theory of multivariate sub-Gaussian estimators to the quantum setting. Unlike classically, where any univariate estimator can be turned into a multivariate estimator with at most a logarithmic overhead in the dimension, no similar result can be proved in the quantum setting. Indeed, Heinrich ruled out the existence of a quantum advantage for the mean estimation problem when the sample complexity is smaller than the dimension. Our main result is to show that, outside this low-precision regime, there is a quantum estimator that outperforms any classical estimator. Our approach is substantially more involved than in the univariate setting, where most quantum estimators rely only on phase estimation. We exploit a variety of additional algorithmic techniques such as amplitude amplification, the Bernstein-Vazirani algorithm, and quantum singular value transformation. Our analysis also uses concentration inequalities for multivariate truncated statistics. We develop our quantum estimators in two different input models that showed up in the literature before. The first one provides coherent access to the binary representation of the random variable and it encompasses the classical setting. In the second model, the random variable is directly encoded into the phases of quantum registers. This model arises naturally in many quantum algorithms but it is often incomparable to having classical samples. We adapt our techniques to these two settings and we show that the second model is strictly weaker for solving the mean estimation problem. Finally, we describe several applications of our algorithms, notably in measuring the expectation values of commuting observables and in the field of machine learning.
翻訳日:2021-11-19 15:11:32 公開日:2021-11-18
# (参考訳) SimMIM: マスク画像モデリングのためのシンプルなフレームワーク [全文訳有]

SimMIM: A Simple Framework for Masked Image Modeling ( http://arxiv.org/abs/2111.09886v1 )

ライセンス: CC BY 4.0
Zhenda Xie and Zheng Zhang and Yue Cao and Yutong Lin and Jianmin Bao and Zhuliang Yao and Qi Dai and Han Hu(参考訳) 本稿では,マスク画像モデリングのためのシンプルなフレームワークであるSimMIMを提案する。 ブロックワイドマスキングや,個別のVAEやクラスタリングによるトークン化といった特別な設計を伴わない,最近提案された関連するアプローチを単純化する。 マスク画像モデリングタスクが優れた表現を学習させる方法を検討するため,我々は,フレームワークの主要コンポーネントを体系的に研究し,各コンポーネントのシンプルな設計により,非常に強力な表現学習性能が明らかにされていることを見出した。 2)直接回帰によるrgb値の生画素の予測は,複雑な設計によるパッチ分類アプローチに劣らない。 3) 予測ヘッドは線形層と同じくらい軽量であり, 重いものほど性能が悪くない。 ViT-Bを用いて、このデータセット上でも事前トレーニングを行うことで、ImageNet-1Kの83.8%の微調整精度を達成し、以前のベストアプローチを+0.6%上回る結果となった。 約6億5000万のパラメータであるSwinV2-Hのより大きなモデルに適用すると、ImageNet-1Kのデータのみを使用して、ImageNet-1K上で87.1%のトップ1精度を達成する。 また、この手法を利用して3Bモデル(SwinV2-G)のトレーニングをしやすくし、40\times$それよりも少ないデータで、4つの代表的なビジョンベンチマークの最先端を実現する。 コードとモデルはhttps://github.com/m icrosoft/SimMIM.comで公開される。

This paper presents SimMIM, a simple framework for masked image modeling. We simplify recently proposed related approaches without special designs such as block-wise masking and tokenization via discrete VAE or clustering. To study what let the masked image modeling task learn good representations, we systematically study the major components in our framework, and find that simple designs of each component have revealed very strong representation learning performance: 1) random masking of the input image with a moderately large masked patch size (e.g., 32) makes a strong pre-text task; 2) predicting raw pixels of RGB values by direct regression performs no worse than the patch classification approaches with complex designs; 3) the prediction head can be as light as a linear layer, with no worse performance than heavier ones. Using ViT-B, our approach achieves 83.8% top-1 fine-tuning accuracy on ImageNet-1K by pre-training also on this dataset, surpassing previous best approach by +0.6%. When applied on a larger model of about 650 million parameters, SwinV2-H, it achieves 87.1% top-1 accuracy on ImageNet-1K using only ImageNet-1K data. We also leverage this approach to facilitate the training of a 3B model (SwinV2-G), that by $40\times$ less data than that in previous practice, we achieve the state-of-the-art on four representative vision benchmarks. The code and models will be publicly available at https://github.com/m icrosoft/SimMIM.
翻訳日:2021-11-19 15:09:20 公開日:2021-11-18
# LiDARクラスタファーストとカメラ推論:自動運転への新たな展望

LiDAR Cluster First and Camera Inference Later: A New Perspective Towards Autonomous Driving ( http://arxiv.org/abs/2111.09799v1 )

ライセンス: Link先を確認
Jiyang Chen, Simon Yu, Rohan Tabish, Ayoosh Bansal, Shengzhong Liu, Tarek Abdelzaher, and Lui Sha(参考訳) 最先端自動運転車(av)フレームワークにおけるオブジェクト検出は、ディープニューラルネットワークに大きく依存する。 通常、これらのネットワークはカメラのLiDARフレーム全体に一様にオブジェクト検出を行う。 しかし、この均一性は、AVに衝突するリスクに関係なく、シーン内のすべてのオブジェクトに同じ優先度を与えることで、AVの安全性を損なう。 本稿では、まずLiDARクラスタの概念を導入し、次にカメラ推論を行い、オブジェクトを検出して分類するAVのための新しいエンドツーエンドパイプラインを提案する。 提案するフレームワークの利点は2つあります。 まず、当社のパイプラインでは、avに衝突するリスクが高いオブジェクトの検出を優先し、安全でない条件にavが反応する時間を増やします。 第2に、一般的なディープニューラルネットワークパイプラインと比較して、平均的な推論速度も速い。 実世界のデータセットであるWaymo Open Datasetを使用して,LiDARセンサとオブジェクト検出アルゴリズムの限界から生じる課題を解決するフレームワークを設計する。 提案する新たなオブジェクト検出パイプラインは,カメラ推論のみと比較して,高いリスクオブジェクトの検出を優先すると同時に,同等の精度と平均速度を25%向上することを示す。

Object detection in state-of-the-art Autonomous Vehicles (AV) framework relies heavily on deep neural networks. Typically, these networks perform object detection uniformly on the entire camera LiDAR frames. However, this uniformity jeopardizes the safety of the AV by giving the same priority to all objects in the scenes regardless of their risk of collision to the AV. In this paper, we present a new end-to-end pipeline for AV that introduces the concept of LiDAR cluster first and camera inference later to detect and classify objects. The benefits of our proposed framework are twofold. First, our pipeline prioritizes detecting objects that pose a higher risk of collision to the AV, giving more time for the AV to react to unsafe conditions. Second, it also provides, on average, faster inference speeds compared to popular deep neural network pipelines. We design our framework using the real-world datasets, the Waymo Open Dataset, solving challenges arising from the limitations of LiDAR sensors and object detection algorithms. We show that our novel object detection pipeline prioritizes the detection of higher risk objects while simultaneously achieving comparable accuracy and a 25% higher average speed compared to camera inference only.
翻訳日:2021-11-19 14:50:47 公開日:2021-11-18
# transmix: 視覚トランスフォーマーのためのミックスに参加

TransMix: Attend to Mix for Vision Transformers ( http://arxiv.org/abs/2111.09833v1 )

ライセンス: Link先を確認
Jie-Neng Chen, Shuyang Sun, Ju He, Philip Torr, Alan Yuille, Song Bai(参考訳) ミックスアップベースの拡張はトレーニング中のモデルの一般化、特に視覚変換器(ViT)のオーバーフィットに有効であることが判明した。 しかし、これまでのミックスアップに基づく手法では、対象の線形補間比は入力補間で提案された比と同一に保つべきであるという事前の知識を持っている。 これは、時折増大中のランダムな過程のために混合画像に有効な対象が存在しないという奇妙な現象を引き起こすかもしれないが、ラベル空間にはまだ応答がある。 入力空間とラベル空間のギャップを埋めるために,視覚変換器のアテンションマップに基づいてラベルを混合するTransMixを提案する。 対応する入力画像が注意マップによって重み付けされた場合、ラベルの信頼度は大きくなる。 TransMixは恥ずかしいほどシンプルで、ViTベースのモデルに追加のパラメータやFLOPを導入することなく、ほんの数行のコードで実装できる。 実験結果から,ImageNet分類による様々なViTモデルの改良が一貫して可能であることがわかった。 imagenetでtransmixを事前トレーニングした後、vitベースのモデルは、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションへの転送性も向上している。 TransMixはまた、4つの異なるベンチマークで評価する場合、より堅牢であることを示している。 コードはhttps://github.com/B eckschen/TransMix.co mで公開される。

Mixup-based augmentation has been found to be effective for generalizing models during training, especially for Vision Transformers (ViTs) since they can easily overfit. However, previous mixup-based methods have an underlying prior knowledge that the linearly interpolated ratio of targets should be kept the same as the ratio proposed in input interpolation. This may lead to a strange phenomenon that sometimes there is no valid object in the mixed image due to the random process in augmentation but there is still response in the label space. To bridge such gap between the input and label spaces, we propose TransMix, which mixes labels based on the attention maps of Vision Transformers. The confidence of the label will be larger if the corresponding input image is weighted higher by the attention map. TransMix is embarrassingly simple and can be implemented in just a few lines of code without introducing any extra parameters and FLOPs to ViT-based models. Experimental results show that our method can consistently improve various ViT-based models at scales on ImageNet classification. After pre-trained with TransMix on ImageNet, the ViT-based models also demonstrate better transferability to semantic segmentation, object detection and instance segmentation. TransMix also exhibits to be more robust when evaluating on 4 different benchmarks. Code will be made publicly available at https://github.com/B eckschen/TransMix.
翻訳日:2021-11-19 14:50:29 公開日:2021-11-18
# Restormer:高分解能画像復元のための効率的なトランス

Restormer: Efficient Transformer for High-Resolution Image Restoration ( http://arxiv.org/abs/2111.09881v1 )

ライセンス: Link先を確認
Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang(参考訳) 畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習に優れており、これらのモデルは画像復元や関連するタスクに広く適用されている。 近年,ニューラルアーキテクチャの別のクラスであるTransformersは,自然言語や高レベルの視覚タスクにおいて,大幅なパフォーマンス向上を示している。 トランスフォーマーモデルはCNNの欠点を緩和するが、その計算複雑性は空間分解能と2次的に増大し、高解像度画像を含むほとんどの画像復元タスクに適用することは不可能である。 本研究では,ビルディングブロック (マルチヘッドアテンション, フィードフォワードネットワーク) における複数のキー設計を, 大規模画像に適用しながら, 長距離画素間相互作用を捉えることで, 効率的なトランスフォーマーモデルを提案する。 このモデルでは,画像のデアライニング,シングルイメージ動作のデブロアリング,デフォーカスデブロアリング(シングルイメージとデュアルピクセルのデータ),イメージデノナイジング(ガウスのグレースケール/カラーデノナイジング,実画像デノナイジング)など,画像修復作業における最先端の成果が得られた。 ソースコードと事前トレーニングされたモデルはhttps://github.com/s wz30/Restormer.comで入手できる。

Since convolutional neural networks (CNNs) perform well at learning generalizable image priors from large-scale data, these models have been extensively applied to image restoration and related tasks. Recently, another class of neural architectures, Transformers, have shown significant performance gains on natural language and high-level vision tasks. While the Transformer model mitigates the shortcomings of CNNs (i.e., limited receptive field and inadaptability to input content), its computational complexity grows quadratically with the spatial resolution, therefore making it infeasible to apply to most image restoration tasks involving high-resolution images. In this work, we propose an efficient Transformer model by making several key designs in the building blocks (multi-head attention and feed-forward network) such that it can capture long-range pixel interactions, while still remaining applicable to large images. Our model, named Restoration Transformer (Restormer), achieves state-of-the-art results on several image restoration tasks, including image deraining, single-image motion deblurring, defocus deblurring (single-image and dual-pixel data), and image denoising (Gaussian grayscale/color denoising, and real image denoising). The source code and pre-trained models are available at https://github.com/s wz30/Restormer.
翻訳日:2021-11-19 14:50:05 公開日:2021-11-18
# 単純だが効果的なCLIP埋め込み

Simple but Effective: CLIP Embeddings for Embodied AI ( http://arxiv.org/abs/2111.09888v1 )

ライセンス: Link先を確認
Apoorv Khandelwal, Luca Weihs, Roozbeh Mottaghi, Aniruddha Kembhavi(参考訳) コントラスト言語イメージプリトレーニング(clip)エンコーダは、分類や検出からキャプションや画像操作に至るまで、さまざまな視覚タスクに有効であることが示されている。 具体的AIタスクにおけるCLIP視覚バックボーンの有効性を検討する。 embclipと名付けられた信じられないくらいシンプルなベースラインを構築しており、タスク固有のアーキテクチャや(セマンティックマップの使用のような)帰納的バイアス、トレーニング中の補助タスク、奥行きマップといったものはありません。 EmbCLIPはRoboTHOR ObjectNavのリーダーボードを20pts(Success Rate)で上回っている。 iTHOR 1-Phase Rearrangementのリーダーボードを上回り、アクティブニューラルマッピングを採用し、%固定ストリットメトリック(0.08から0.17)の倍増以上の、次の最高の応募を上回ります。 また、2021年のhabitat objectnav challengeでは、補助的なタスク、深度マップ、人間によるデモンストレーション、そして2019年のhabitat pointnav challengeの勝者にも勝っている。 私たちは,CLIPの視覚的表現が入力観測のセマンティック情報をキャプチャする能力(ナビゲーションが重いエンボディされたタスクに有用なプリミティブ)を評価し,これらのプリミティブをImageNetが推奨するバックボーンよりも効率的にエンコードしていることを確認した。 最後に、ベースラインの1つを拡張し、ゼロショットオブジェクトナビゲーションが可能なエージェントを生成し、トレーニング中にターゲットとして使用されなかったオブジェクトにナビゲートする。

Contrastive language image pretraining (CLIP) encoders have been shown to be beneficial for a range of visual tasks from classification and detection to captioning and image manipulation. We investigate the effectiveness of CLIP visual backbones for embodied AI tasks. We build incredibly simple baselines, named EmbCLIP, with no task specific architectures, inductive biases (such as the use of semantic maps), auxiliary tasks during training, or depth maps -- yet we find that our improved baselines perform very well across a range of tasks and simulators. EmbCLIP tops the RoboTHOR ObjectNav leaderboard by a huge margin of 20 pts (Success Rate). It tops the iTHOR 1-Phase Rearrangement leaderboard, beating the next best submission, which employs Active Neural Mapping, and more than doubling the % Fixed Strict metric (0.08 to 0.17). It also beats the winners of the 2021 Habitat ObjectNav Challenge, which employ auxiliary tasks, depth maps, and human demonstrations, and those of the 2019 Habitat PointNav Challenge. We evaluate the ability of CLIP's visual representations at capturing semantic information about input observations -- primitives that are useful for navigation-heavy embodied tasks -- and find that CLIP's representations encode these primitives more effectively than ImageNet-pretrained backbones. Finally, we extend one of our baselines, producing an agent capable of zero-shot object navigation that can navigate to objects that were not used as targets during training.
翻訳日:2021-11-19 14:49:39 公開日:2021-11-18
# CCSL:複数の未知環境からの因果構造学習手法

CCSL: A Causal Structure Learning Method from Multiple Unknown Environments ( http://arxiv.org/abs/2111.09666v1 )

ライセンス: Link先を確認
Wei Chen, Yunjin Wu, Ruichu Cai, Yueguo Chen, Zhifeng Hao(参考訳) 既存の因果構造学習法の多くは、データが独立して同一の分散(すなわち、異なる環境から来るときに保証されない)を必要とする。 以前の試みでは、この問題を2つの独立した段階、すなわち、まず非i.d.サンプルからi.d.クラスタを発見し、次に異なるグループから因果構造を学習しようとした。 この簡単な解は、クラスタリング段階と学習段階の両方が同じ因果メカニズムでガイドされるべきである2つのステージ間の固有の接続を無視します。 この目的のために、非i.d.データからの因果発見のための統一因果クラスタ構造学習法(CCSL)を提案する。 この方法は以下の2つのタスクを同時に統合する。 1) 同一因果機構を有する被験者のクラスタリング 2)被験者のサンプルから因果構造を学習する。 特に, 前者に対しては, 因果構造の類似性に基づいてサンプルをクラスタリングする因果関係の中華レストランプロセスを提供し, 後者では因果構造を学習するための変分推論に基づくアプローチを提案する。 理論的結果は、線形非ガウス的仮定の下で因果モデルとクラスタリングモデルを同定する。 シミュレーションおよび実世界のデータを用いた実験結果により,提案手法の有効性と妥当性が検証された。

Most existing causal structure learning methods require data to be independent and identically distributed (i.i.d.), which often cannot be guaranteed when the data come from different environments. Some previous efforts try to tackle this problem in two independent stages, i.e., first discovering i.i.d. clusters from non-i.i.d. samples, then learning the causal structures from different groups. This straightforward solution ignores the intrinsic connections between the two stages, that is both the clustering stage and the learning stage should be guided by the same causal mechanism. Towards this end, we propose a unified Causal Cluster Structures Learning (named CCSL) method for causal discovery from non-i.i.d. data. This method simultaneously integrates the following two tasks: 1) clustering subjects with the same causal mechanism; 2) learning causal structures from the samples of subjects. Specifically, for the former, we provide a Causality-related Chinese Restaurant Process to cluster samples based on the similarity of the causal structure; for the latter, we introduce a variational-inferenc e-based approach to learn the causal structures. Theoretical results provide identification of the causal model and the clustering model under the linear non-Gaussian assumption. Experimental results on both simulated and real-world data further validate the correctness and effectiveness of the proposed method.
翻訳日:2021-11-19 14:46:52 公開日:2021-11-18
# DIVA: 学習課題から派生したデータセット

DIVA: Dataset Derivative of a Learning Task ( http://arxiv.org/abs/2111.09785v1 )

ライセンス: Link先を確認
Yonatan Dukler, Alessandro Achille, Giovanni Paolini, Avinash Ravichandran, Marzia Polito, Stefano Soatto(参考訳) 本稿では,データセットに対する学習タスクの導出を計算する手法を提案する。 学習タスクは、トレーニングセットから検証エラーまでの関数であり、トレーニングされたディープニューラルネットワーク(DNN)で表現することができる。 データセット微分(dataset derivative)は、トレーニングされたモデル周りで計算された線形作用素であり、各トレーニングサンプルの重みの摂動が検証エラーにどのように影響するかを知らせる。 本手法は, 事前学習したDNNの周囲の残余のクロスバリデーション誤差を, クローズドフォームで微分可能な表現に基づいて評価する。 このような表現はデータセットデリバティブを構成する。 例えば、欠陥のあるアノテーション付きのサンプルの削除、関連するサンプルの追加によるデータセットの強化、再バランスなどだ。 より一般的には、divaはトレーニングプロセスの一部としてモデルのパラメータとともにデータセットの最適化に使用できるが、automlでカスタム化されたbiレベル最適化メソッドとは異なり、個別の検証データセットは必要ない。 divaの柔軟性を説明するために,outlier reject,dataset extension,およびmulti-modal dataの自動集約など,自動調達タスクのサンプルについて実験を行った。

We present a method to compute the derivative of a learning task with respect to a dataset. A learning task is a function from a training set to the validation error, which can be represented by a trained deep neural network (DNN). The "dataset derivative" is a linear operator, computed around the trained model, that informs how perturbations of the weight of each training sample affect the validation error, usually computed on a separate validation dataset. Our method, DIVA (Differentiable Validation) hinges on a closed-form differentiable expression of the leave-one-out cross-validation error around a pre-trained DNN. Such expression constitutes the dataset derivative. DIVA could be used for dataset auto-curation, for example removing samples with faulty annotations, augmenting a dataset with additional relevant samples, or rebalancing. More generally, DIVA can be used to optimize the dataset, along with the parameters of the model, as part of the training process without the need for a separate validation dataset, unlike bi-level optimization methods customary in AutoML. To illustrate the flexibility of DIVA, we report experiments on sample auto-curation tasks such as outlier rejection, dataset extension, and automatic aggregation of multi-modal data.
翻訳日:2021-11-19 14:46:23 公開日:2021-11-18
# 深部未知物検出におけるスパーシフィケーションの有効性について

On the Effectiveness of Sparsification for Detecting the Deep Unknowns ( http://arxiv.org/abs/2111.09805v1 )

ライセンス: Link先を確認
Yiyou Sun and Yixuan Li(参考訳) out-of-distribution (ood)インプットの検出は、現実世界に機械学習モデルを安全にデプロイするための中心的な課題である。 従来の方法では、過度にパラメータ化された重量空間から得られるOODスコアに依存していたが、大部分はスパシフィケーションの役割を見落としていた。 本稿では,OOD検出の脆さに直接起因して,重要でない重量や単位に依存しているという重要な知見を明らかにする。 この問題を軽減するため,DICEと呼ばれるスペーシフィケーションに基づくOOD検出フレームワークを提案する。 私たちのキーとなるアイデアは、コントリビューションの尺度に基づいてウェイトをランク付けし、最も健全なウェイトを選択的に使用してOOD検出の出力を導出することです。 我々は、DICEがOOD検出を改善するメカニズムを特徴づけ、説明し、経験的および理論的知見を提供する。 ノイズ信号を除去することにより、DICEはOODデータの出力分散を確実に低減し、よりシャープな出力分布とIDデータからの分離性を高める。 DICEは優れた性能を確立し、FPR95を以前のベストメソッドに比べて最大24.69%削減した。

Detecting out-of-distribution (OOD) inputs is a central challenge for safely deploying machine learning models in the real world. Previous methods commonly rely on an OOD score derived from the overparameterized weight space, while largely overlooking the role of sparsification. In this paper, we reveal important insights that reliance on unimportant weights and units can directly attribute to the brittleness of OOD detection. To mitigate the issue, we propose a sparsification-based OOD detection framework termed DICE. Our key idea is to rank weights based on a measure of contribution, and selectively use the most salient weights to derive the output for OOD detection. We provide both empirical and theoretical insights, characterizing and explaining the mechanism by which DICE improves OOD detection. By pruning away noisy signals, DICE provably reduces the output variance for OOD data, resulting in a sharper output distribution and stronger separability from ID data. DICE establishes superior performance, reducing the FPR95 by up to 24.69% compared to the previous best method.
翻訳日:2021-11-19 14:46:02 公開日:2021-11-18
# 人工知能におけるプライバシー保護コラボレーションによる新型コロナウイルスの診断の改善

Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in Artificial Intelligence ( http://arxiv.org/abs/2111.09461v1 )

ライセンス: Link先を確認
Xiang Bai, Hanchen Wang, Liya Ma, Yongchao Xu, Jiefeng Gan, Ziwei Fan, Fan Yang, Ke Ma, Jiehua Yang, Song Bai, Chang Shu, Xinyu Zou, Renhao Huang, Changzheng Zhang, Xiaowu Liu, Dandan Tu, Chuou Xu, Wenqing Zhang, Xi Wang, Anguo Chen, Yu Zeng, Dehua Yang, Ming-Wei Wang, Nagaraj Holalkere, Neil J. Halin, Ihab R. Kamel, Jia Wu, Xuehua Peng, Xiang Wang, Jianbo Shao, Pattanasak Mongkolwat, Jianjun Zhang, Weiyang Liu, Michael Roberts, Zhongzhao Teng, Lucian Beer, Lorena Escudero Sanchez, Evis Sala, Daniel Rubin, Adrian Weller, Joan Lasenby, Chuangsheng Zheng, Jianming Wang, Zhen Li, Carola-Bibiane Sch\"onlieb, Tian Xia(参考訳) 人工知能(AI)は、新型コロナウイルスの診断を合理化するための有望な代替手段を提供する。 しかし、安全と信頼性に関する懸念は、大規模な代表的医療データの収集を妨げ、臨床実践において一般化されたモデルを訓練する上で大きな課題となる。 この問題を解決するために、我々はUnified CT-COVID AI Diagnostic Initiative (UCADI)を立ち上げ、AIモデルをデータ共有なしで各ホスト機関で分散訓練および独立して実行することができる。 ここでは,我々のFLモデルがすべての局所モデルを大きな収率(中国の感度/特異性:0.973/0.951,イギリス:0.730/0.942)で上回り,プロの放射線技師のパネルで同等のパフォーマンスを達成したことを示す。 さらに,モデルによる意思決定の視覚的な説明を提供し,モデル性能と連合訓練プロセスにおけるコミュニケーションコストのトレードオフを解析し,ホールドアウトモデル(flを除外した2つの病院から収集)と異種データ(コントラスト材料で取得)について評価した。 本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。 私たちの研究は、デジタルヘルスにおけるプライバシー保護AIのためのフェデレーション学習の活用の見通しを総合的に進めました。

Artificial intelligence (AI) provides a promising substitution for streamlining COVID-19 diagnoses. However, concerns surrounding security and trustworthiness impede the collection of large-scale representative medical data, posing a considerable challenge for training a well-generalised model in clinical practices. To address this, we launch the Unified CT-COVID AI Diagnostic Initiative (UCADI), where the AI model can be distributedly trained and independently executed at each host institution under a federated learning framework (FL) without data sharing. Here we show that our FL model outperformed all the local models by a large yield (test sensitivity /specificity in China: 0.973/0.951, in the UK: 0.730/0.942), achieving comparable performance with a panel of professional radiologists. We further evaluated the model on the hold-out (collected from another two hospitals leaving out the FL) and heterogeneous (acquired with contrast materials) data, provided visual explanations for decisions made by the model, and analysed the trade-offs between the model performance and the communication costs in the federated training process. Our study is based on 9,573 chest computed tomography scans (CTs) from 3,336 patients collected from 23 hospitals located in China and the UK. Collectively, our work advanced the prospects of utilising federated learning for privacy-preserving AI in digital health.
翻訳日:2021-11-19 14:45:42 公開日:2021-11-18
# 責任あるAIのためのソフトウェアエンジニアリング:実証的研究と運用パターン

Software Engineering for Responsible AI: An Empirical Study and Operationalised Patterns ( http://arxiv.org/abs/2111.09478v1 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Jon Whittle, David Douglas, Conrad Sanderson(参考訳) 人工知能(AI)は現実世界の課題を解決し、産業を変革しているが、その行動と決定を責任ある方法で行う能力には深刻な懸念がある。 責任あるAIのための多くのAI倫理原則とガイドラインは、最近政府、組織、企業によって発行されている。 しかしながら、これらのAI倫理原則とガイドラインは一般的にハイレベルであり、責任あるAIシステムの設計と開発に関する具体的なガイダンスを提供していない。 この欠点に対処するために、まず21人の科学者とエンジニアにインタビューを行い、ai倫理の原則とその実施に関する実践者の認識を理解する。 次に,ai倫理原則を具体的パターンとして運用可能にするテンプレートを提案し,新たに作成されたテンプレートを用いたパターンリストを提案する。 これらのパターンは、責任あるAIシステムの開発を容易にする具体的な、運用されたガイダンスを提供する。

Although artificial intelligence (AI) is solving real-world challenges and transforming industries, there are serious concerns about its ability to behave and make decisions in a responsible way. Many AI ethics principles and guidelines for responsible AI have been recently issued by governments, organisations, and enterprises. However, these AI ethics principles and guidelines are typically high-level and do not provide concrete guidance on how to design and develop responsible AI systems. To address this shortcoming, we first present an empirical study where we interviewed 21 scientists and engineers to understand the practitioners' perceptions on AI ethics principles and their implementation. We then propose a template that enables AI ethics principles to be operationalised in the form of concrete patterns and suggest a list of patterns using the newly created template. These patterns provide concrete, operationalised guidance that facilitate the development of responsible AI systems.
翻訳日:2021-11-19 14:45:17 公開日:2021-11-18
# 完全ベイズ推論のための局所学習シナプスドロップアウト

Locally Learned Synaptic Dropout for Complete Bayesian Inference ( http://arxiv.org/abs/2111.09780v1 )

ライセンス: Link先を確認
Kevin L. McKee, Ian C. Crandell, Rishidev Chaudhuri, Randall C. O'Reilly(参考訳) ベイズ脳仮説は、脳がベイズの定理に従って統計的分布に基づいて正確に動作していると仮定している。 シナプス前小胞の神経伝達物質放出のランダムな失敗は、脳がネットワークパラメータの後方分布からサンプルを採取することを可能にする。 以前にも、ランダムな故障が観測された分布からネットワークをサンプリングする方法は示されていない。 両方の分布からサンプリングすることで確率的推論、効率的な探索、創造的あるいは生成的問題解決が可能になる。 個体群コードに基づく神経活動の解釈により,両種類の分布を相乗的障害のみで表現し,サンプル化できることを実証する。 まず,シナプス障害と側方抑制に基づく生物学的拘束型ニューラルネットワークとサンプリングスキームを定義する。 このフレームワークの中で、ドロップアウトに基づく認識の不確かさを導出し、シナプス効果から解放確率への解析的マッピングを証明し、ネットワークが受信層で表される任意の学習された分布からサンプル化できるようにする。 第2に,この結果は,シナプスがリリース確率に適応する局所学習ルールをもたらす。 その結果,局所学習されたシナプス障害率のみを用いた生物学的制約付きネットワークにおいて,ドロップアウトの変分学習法に関連する完全なベイズ推定が得られた。

The Bayesian brain hypothesis postulates that the brain accurately operates on statistical distributions according to Bayes' theorem. The random failure of presynaptic vesicles to release neurotransmitters may allow the brain to sample from posterior distributions of network parameters, interpreted as epistemic uncertainty. It has not been shown previously how random failures might allow networks to sample from observed distributions, also known as aleatoric or residual uncertainty. Sampling from both distributions enables probabilistic inference, efficient search, and creative or generative problem solving. We demonstrate that under a population-code based interpretation of neural activity, both types of distribution can be represented and sampled with synaptic failure alone. We first define a biologically constrained neural network and sampling scheme based on synaptic failure and lateral inhibition. Within this framework, we derive drop-out based epistemic uncertainty, then prove an analytic mapping from synaptic efficacy to release probability that allows networks to sample from arbitrary, learned distributions represented by a receiving layer. Second, our result leads to a local learning rule by which synapses adapt their release probabilities. Our result demonstrates complete Bayesian inference, related to the variational learning method of dropout, in a biologically constrained network using only locally-learned synaptic failure rates.
翻訳日:2021-11-19 14:43:56 公開日:2021-11-18
# ボックス回帰ネットワークに基づく単一SAR画像からの大規模建物の高さ検索

Large-scale Building Height Retrieval from Single SAR Imagery based on Bounding Box Regression Networks ( http://arxiv.org/abs/2111.09460v1 )

ライセンス: Link先を確認
Yao Sun, Lichao Mou, Yuanyuan Wang, Sina Montazeri, Xiao Xiang Zhu(参考訳) 合成開口レーダ(SAR)画像からの高層化は,都市部において非常に重要であるが,SARデータの複雑さのため非常に困難である。 本稿では,1つのTerraSAR-Xスポットライトやストリップマップ画像から大規模都市部におけるビルの高さ検索の問題に対処する。 レーダの視線幾何学に基づいて,この問題を境界ボックス回帰問題として定式化することにより,複数のデータソースからの高さデータを統合し,より大規模な地上真実を生成することが可能になる。 地理情報システム(gis)のデータからビルの足跡を補足情報として紹介し,ビルの足跡とそのバウンディングボックスの位置関係を利用して高速な計算を可能にするバウンディングボックス回帰ネットワークを提案する。 これは大規模アプリケーションにとって重要である。 高解像度スポットライトとストリップマップモードの両方でTerraSAR-X画像を用いて4つの都市データセット上で検証を行った。 実験の結果,提案ネットワークは,r-cnn方式の高速化に比較して,個々の建物の高さ精度を保ちつつ,計算コストを大幅に削減できることがわかった。 さらに,提案ネットワークにおける不正確なGISデータの影響について検討し,提案ネットワークはGISデータの位置決め誤差に対して堅牢であることを示す。 提案手法は,地域規模やグローバルスケールにも適用できる可能性が非常に高い。

Building height retrieval from synthetic aperture radar (SAR) imagery is of great importance for urban applications, yet highly challenging owing to the complexity of SAR data. This paper addresses the issue of building height retrieval in large-scale urban areas from a single TerraSAR-X spotlight or stripmap image. Based on the radar viewing geometry, we propose that this problem can be formulated as a bounding box regression problem and therefore allows for integrating height data from multiple data sources in generating ground truth on a larger scale. We introduce building footprints from geographic information system (GIS) data as complementary information and propose a bounding box regression network that exploits the location relationship between a building's footprint and its bounding box, allowing for fast computation. This is important for large-scale applications. The method is validated on four urban data sets using TerraSAR-X images in both high-resolution spotlight and stripmap modes. Experimental results show that the proposed network can reduce the computation cost significantly while keeping the height accuracy of individual buildings compared to a Faster R-CNN based method. Moreover, we investigate the impact of inaccurate GIS data on our proposed network, and this study shows that the bounding box regression network is robust against positioning errors in GIS data. The proposed method has great potential to be applied to regional or even global scales.
翻訳日:2021-11-19 14:43:20 公開日:2021-11-18
# 速度を有するライダー:振動走査ライダーからの点雲の運動歪み補正

Lidar with Velocity: Motion Distortion Correction of Point Clouds from Oscillating Scanning Lidars ( http://arxiv.org/abs/2111.09497v1 )

ライセンス: Link先を確認
Wen Yang, Zheng Gong, Baifu Huang and Xiaoping Hong(参考訳) 移動物体からのlidar点雲の歪みは、自動運転において重要な問題であり、最近は、バック・アンド・フォア・フォア・スキャンパターンを備えた新しいlidarの登場により、さらに需要が高まっている。 移動物体の速度を正確に推定することは、追跡能力を提供するだけでなく、移動物体のより正確な記述で点雲の歪みを補正する。 lidarは飛行時間を測定するが、偏角分解能を持つため、ラジアル測定では正確な測定を行うが、角度に欠ける。 一方、カメラは密集した角分解能を提供する。 本稿では,全速度を推定し,ライダー歪みを補正するために,ガウス系lidarとカメラ融合を提案する。 移動物体を追跡し、速度を推定し、点雲の歪みを同時に補正する確率的カルマンフィルタフレームワークが提供される。 このフレームワークは実際の道路データに基づいて評価され、融合法は従来のICP法やポイントクラウド法よりも優れている。 完全動作するフレームワークはオープンソースである(https://github.com/ isee-technology/lida r-with-velocity)。

Lidar point cloud distortion from moving object is an important problem in autonomous driving, and recently becomes even more demanding with the emerging of newer lidars, which feature back-and-forth scanning patterns. Accurately estimating moving object velocity would not only provide a tracking capability but also correct the point cloud distortion with more accurate description of the moving object. Since lidar measures the time-of-flight distance but with a sparse angular resolution, the measurement is precise in the radial measurement but lacks angularly. Camera on the other hand provides a dense angular resolution. In this paper, Gaussian-based lidar and camera fusion is proposed to estimate the full velocity and correct the lidar distortion. A probabilistic Kalman-filter framework is provided to track the moving objects, estimate their velocities and simultaneously correct the point clouds distortions. The framework is evaluated on real road data and the fusion method outperforms the traditional ICP-based and point-cloud only method. The complete working framework is open-sourced (https://github.com/ ISEE-Technology/lida r-with-velocity) to accelerate the adoption of the emerging lidars.
翻訳日:2021-11-19 14:42:56 公開日:2021-11-18
# 表面再構成のための学習修飾指標関数

Learning Modified Indicator Functions for Surface Reconstruction ( http://arxiv.org/abs/2111.09526v1 )

ライセンス: Link先を確認
Dong Xiao, Siyou Lin, Zuoqiang Shi, Bin Wang(参考訳) 表面再構成は3Dグラフィックスの基本的な問題である。 本稿では,正規化のない原点雲からの暗黙的表面再構成のための学習に基づくアプローチを提案する。 この方法はポテンシャルエネルギー理論におけるガウス・補題に触発され、指標関数に対する明示的な積分公式を与える。 本研究では,表面積分を行う新しい深層ニューラルネットワークを設計し,無指向・無騒音点群から修正インジケータ関数を学習する。 積分への正確なポイントワイズ貢献のために、異なるスケールで特徴を結合する。 さらに,局所形状特性を学習する新しい表面要素特徴抽出器を提案する。 提案手法は,ノイズスケールの異なる点群から高い正規性を持つ平滑な表面を生成し,現在のデータ駆動型および非データ駆動型アプローチと比較して,最先端の再構築性能を実現する。

Surface reconstruction is a fundamental problem in 3D graphics. In this paper, we propose a learning-based approach for implicit surface reconstruction from raw point clouds without normals. Our method is inspired by Gauss Lemma in potential energy theory, which gives an explicit integral formula for the indicator functions. We design a novel deep neural network to perform surface integral and learn the modified indicator functions from un-oriented and noisy point clouds. We concatenate features with different scales for accurate point-wise contributions to the integral. Moreover, we propose a novel Surface Element Feature Extractor to learn local shape properties. Experiments show that our method generates smooth surfaces with high normal consistency from point clouds with different noise scales and achieves state-of-the-art reconstruction performance compared with current data-driven and non-data-driven approaches.
翻訳日:2021-11-19 14:42:34 公開日:2021-11-18
# SimpleTrack: 3Dマルチオブジェクト追跡の理解と再考

SimpleTrack: Understanding and Rethinking 3D Multi-object Tracking ( http://arxiv.org/abs/2111.09621v1 )

ライセンス: Link先を確認
Ziqi Pang, Zhichao Li, Naiyan Wang(参考訳) 3Dマルチオブジェクトトラッキング(MOT)は、特に「トラッキング・バイ・検出」パラダイムの下で、近年多くの新しいベンチマークやアプローチを目撃している。 その進歩と有用性にもかかわらず、その強さと弱点の詳細な分析はまだ得られていない。 本稿では,現在の3D MOT手法を,検出前処理,関連付け,動作モデル,ライフサイクル管理の4つの構成要素に分解することで,統一されたフレームワークにまとめる。 次に、既存のアルゴリズムの障害事例を各コンポーネントに記述し、それらを詳細に調査します。 分析に基づいて、より強力で単純なベースラインであるsimpletrackに繋がる対応する改善を提案する。 Waymo Open Dataset と nuScenes の総合的な実験結果から、我々の最終的な手法は、小さな修正を加えて新しい最先端の成果を得られることを示した。 さらに,現在のベンチマークが実世界の課題に対するアルゴリズムの能力を反映しているかどうかを再考する。 既存のベンチマークの詳細を調べ、興味深い事実を見つけます。 最後に, \name\における障害の分布と原因を分析し, 3次元MOTの今後の方向性を提案する。 私たちのコードはhttps://github.com/t usimple/simpletrackで利用可能です。

3D multi-object tracking (MOT) has witnessed numerous novel benchmarks and approaches in recent years, especially those under the "tracking-by-detectio n" paradigm. Despite their progress and usefulness, an in-depth analysis of their strengths and weaknesses is not yet available. In this paper, we summarize current 3D MOT methods into a unified framework by decomposing them into four constituent parts: pre-processing of detection, association, motion model, and life cycle management. We then ascribe the failure cases of existing algorithms to each component and investigate them in detail. Based on the analyses, we propose corresponding improvements which lead to a strong yet simple baseline: SimpleTrack. Comprehensive experimental results on Waymo Open Dataset and nuScenes demonstrate that our final method could achieve new state-of-the-art results with minor modifications. Furthermore, we take additional steps and rethink whether current benchmarks authentically reflect the ability of algorithms for real-world challenges. We delve into the details of existing benchmarks and find some intriguing facts. Finally, we analyze the distribution and causes of remaining failures in \name\ and propose future directions for 3D MOT. Our code is available at https://github.com/T uSimple/SimpleTrack.
翻訳日:2021-11-19 14:42:19 公開日:2021-11-18
# 心への道は、コントラスト学習を通す:非ラベリングビデオからのリモート光胸腺撮影

The Way to my Heart is through Contrastive Learning: Remote Photoplethysmography from Unlabelled Video ( http://arxiv.org/abs/2111.09748v1 )

ライセンス: Link先を確認
John Gideon and Simon Stent(参考訳) ビデオから生理的信号を確実に推定する能力は、低コストで臨床前の健康モニタリングにおいて強力なツールである。 本研究では,人の顔や皮膚の観察から血液量の変化を計測するリモート光胸腺造影法(rPPG)の新たなアプローチを提案する。 rPPGの現在の最先端手法と同様に、ニューラルネットを用いてニュアンス画像の変化に相違のある深部表現を学習する。 このような方法とは対照的に、我々は、高価な地上真理生理訓練データに依存しない、完全な自己監督訓練アプローチを採用している。 提案手法では,対象信号の周波数および時間的平滑性よりも先行する弱みを持つコントラスト学習を用いる。 我々は4つのrppgデータセットに対するアプローチを評価し,最近の教師付き深層学習法と比較して,アノテーションを使わずに,同等あるいは優れた結果が得られることを示した。 さらに,教師なしアプローチと教師なしベースラインの両方に,学習された塩分再サンプリングモジュールを組み込んだ。 モデルが入力イメージのサンプルの場所を学習できるようにすることで、ハンドエンジニアリング機能の必要性を低減し、モデルの振る舞いや起こりうる障害モードに対する解釈性を提供することができる。 私たちは、このエキサイティングな新しい方向における再現可能な進歩を促すために、完全なトレーニングと評価パイプラインのためのコードをリリースします。

The ability to reliably estimate physiological signals from video is a powerful tool in low-cost, pre-clinical health monitoring. In this work we propose a new approach to remote photoplethysmography (rPPG) - the measurement of blood volume changes from observations of a person's face or skin. Similar to current state-of-the-art methods for rPPG, we apply neural networks to learn deep representations with invariance to nuisance image variation. In contrast to such methods, we employ a fully self-supervised training approach, which has no reliance on expensive ground truth physiological training data. Our proposed method uses contrastive learning with a weak prior over the frequency and temporal smoothness of the target signal of interest. We evaluate our approach on four rPPG datasets, showing that comparable or better results can be achieved compared to recent supervised deep learning methods but without using any annotation. In addition, we incorporate a learned saliency resampling module into both our unsupervised approach and supervised baseline. We show that by allowing the model to learn where to sample the input image, we can reduce the need for hand-engineered features while providing some interpretability into the model's behavior and possible failure modes. We release code for our complete training and evaluation pipeline to encourage reproducible progress in this exciting new direction.
翻訳日:2021-11-19 14:41:42 公開日:2021-11-18
# (参考訳) Pegasus@Dravidian-Co deMix-HASOC2021: 攻撃テキスト検出のためのソーシャルメディアコンテンツの解析 [全文訳有]

Pegasus@Dravidian-Co deMix-HASOC2021: Analyzing Social Media Content for Detection of Offensive Text ( http://arxiv.org/abs/2111.09836v1 )

ライセンス: CC BY 4.0
Pawan Kalyan Jada, Konthala Yasaswini, Karthik Puranik, Anbukkarasi Sampath, Sathiyaraj Thangasamy, Kingston Pal Thamburaj(参考訳) 本研究は,非構造的,非構造的,誤記述的,コード混合的,不快なコメント・ポストを検知するための2つの手法を提案する。 ソーシャルメディアプラットフォーム上の不快なコメントや投稿は、個人やグループ、未成年者にも影響を与えうる。 タミル語とマラヤラム語という2つの人気言語でコメント/ポストを分類するために、hasoc - dravidiancodemix fire 2021共有タスクの一部として、2つのトランスフォーマーベースのプロトタイプを使用して、すべてのタスクでトップ8に立った。 私たちのアプローチのコードは閲覧して利用できます。

To tackle the conundrum of detecting offensive comments/posts which are considerably informal, unstructured, miswritten and code-mixed, we introduce two inventive methods in this research paper. Offensive comments/posts on the social media platforms, can affect an individual, a group or underage alike. In order to classify comments/posts in two popular Dravidian languages, Tamil and Malayalam, as a part of the HASOC - DravidianCodeMix FIRE 2021 shared task, we employ two Transformer-based prototypes which successfully stood in the top 8 for all the tasks. The codes for our approach can be viewed and utilized.
翻訳日:2021-11-19 14:40:01 公開日:2021-11-18
# テクスチャ変換を用いた参照型磁気共鳴画像再構成

Reference-based Magnetic Resonance Image Reconstruction Using Texture Transforme ( http://arxiv.org/abs/2111.09492v1 )

ライセンス: Link先を確認
Pengfei Guo, Vishal M. Patel(参考訳) 近年,磁気共鳴(MR)画像再構成のためのディープラーニング(DL)に基づく手法が,優れた性能を発揮することが示されている。 しかし、これらの手法はアンダーサンプリングデータのみを活用するか、あるいはマルチモーダル再構成を行うためにペアの完全サンプリング補助モダリティを必要とする。 その結果、既存のアプローチでは、参照された全サンプルデータから単一のモダリティ内でアンダーサンプルデータにテクスチャを転送できる注意機構の探索は行わない。 本稿では,MRI再構成を高速化する新しいテクスチャトランスフォーマーモジュール(TTM)を提案する。 TTMは、アンダーサンプルと参照データ間の共同特徴学習を容易にするので、注意によって特徴対応を発見でき、再構築時に正確なテクスチャ特徴を活用できる。 特に、提案したTTMは、MRIの事前再構成アプローチに基づいて、パフォーマンスをさらに向上することができる。 広汎な実験により、TTMはいくつかのDLベースのMRI再構成法の性能を大幅に改善できることが示された。

Deep Learning (DL) based methods for magnetic resonance (MR) image reconstruction have been shown to produce superior performance in recent years. However, these methods either only leverage under-sampled data or require a paired fully-sampled auxiliary modality to perform multi-modal reconstruction. Consequently, existing approaches neglect to explore attention mechanisms that can transfer textures from reference fully-sampled data to under-sampled data within a single modality, which limits these approaches in challenging cases. In this paper, we propose a novel Texture Transformer Module (TTM) for accelerated MRI reconstruction, in which we formulate the under-sampled data and reference data as queries and keys in a transformer. The TTM facilitates joint feature learning across under-sampled and reference data, so the feature correspondences can be discovered by attention and accurate texture features can be leveraged during reconstruction. Notably, the proposed TTM can be stacked on prior MRI reconstruction approaches to further improve their performance. Extensive experiments show that TTM can significantly improve the performance of several popular DL-based MRI reconstruction methods.
翻訳日:2021-11-19 14:20:01 公開日:2021-11-18
# 高エネルギーガンマ粒子検出のための機械学習アルゴリズムに基づく分類モデルの開発

Developing a Machine Learning Algorithm-Based Classification Models for the Detection of High-Energy Gamma Particles ( http://arxiv.org/abs/2111.09496v1 )

ライセンス: Link先を確認
Emmanuel Dadzie, Kelvin Kwakye(参考訳) チェレンコフガンマ望遠鏡は高エネルギーガンマ線を観測し、ガンマ線が発する電磁シャワーの中で発生する荷電粒子から放出される放射を利用して大気中に発達する。 検出器はシャワーパラメータの記録と再構成を可能にする。 パラメータ値の再構成は、CORSIKAと呼ばれるモンテカルロシミュレーションアルゴリズムを用いて達成された。 本研究では,複数の機械学習に基づく分類モデルを開発し,その性能評価を行った。 異なるデータ変換と特徴抽出技術がデータセットに適用され、2つの別々のパフォーマンスメトリクスへの影響を評価した。 提案手法の結果,異なるデータ変換はモデルの性能に大きな影響を与えなかった(p = 0.3165)。 対比較の結果,各変換データの性能は生データの性能と大きく異なるものではないことがわかった。 さらに、SVMアルゴリズムは標準化データセット上で最高のパフォーマンススコアを生成した。 本研究は,様々なデータ変換を行う他のアルゴリズムと比較して,標準データセット上でsvmを用いて十分な精度で高エネルギーガンマ粒子を予測可能であることを示唆する。

Cherenkov gamma telescope observes high energy gamma rays, taking advantage of the radiation emitted by charged particles produced inside the electromagnetic showers initiated by the gammas, and developing in the atmosphere. The detector records and allows for the reconstruction of the shower parameters. The reconstruction of the parameter values was achieved using a Monte Carlo simulation algorithm called CORSIKA. The present study developed multiple machine-learning-bas ed classification models and evaluated their performance. Different data transformation and feature extraction techniques were applied to the dataset to assess the impact on two separate performance metrics. The results of the proposed application reveal that the different data transformations did not significantly impact (p = 0.3165) the performance of the models. A pairwise comparison indicates that the performance from each transformed data was not significantly different from the performance of the raw data. Additionally, the SVM algorithm produced the highest performance score on the standardized dataset. In conclusion, this study suggests that high-energy gamma particles can be predicted with sufficient accuracy using SVM on a standardized dataset than the other algorithms with the various data transformations.
翻訳日:2021-11-19 14:19:40 公開日:2021-11-18
# ピクセル、フレーム、ビデオから徐々に学習する360{\deg}ビデオのブラインドvqa

Blind VQA on 360{\deg} Video via Progressively Learning from Pixels, Frames and Video ( http://arxiv.org/abs/2111.09503v1 )

ライセンス: Link先を確認
Li Yang, Mai Xu, Shengxi Li, Yichen Guo, Zulin Wang(参考訳) 360{\textdegree}ビデオのblind visual quality assessment (bvqa)は没入型マルチメディアシステムの最適化において重要な役割を果たす。 360{\textdegree}ビデオの品質を評価するとき、人間は、各球面フレームのビューポートに基づく空間的歪みから、隣接するフレーム間のモーションアーティファクトまでの品質劣化を知覚し、ビデオレベルの品質スコア、すなわち進歩的品質評価パラダイムで終わる傾向がある。 しかし、既存のBVQAによる360度ビデオのアプローチはこのパラダイムを無視している。 本稿では, 球面映像品質に対する人間の知覚の進歩的パラダイムを考慮し, 画素, フレーム, ビデオから段階的に学習する360度ビデオのための新しいBVQAアプローチ(別名ProVQA)を提案する。 ProVQAアプローチでは,画素,フレーム,ビデオの進行学習に対応して,球面認識品質予測(SPAQ),運動認識品質予測(MPAQ),マルチフレーム時間非局所(MFTN)サブネット(MFTN)という3つのサブネットが設計されている。 SPAQサブネットは、まず人間の球面知覚機構に基づいて空間的品質劣化をモデル化する。 そして、隣接フレーム間のモーションキューを活用して、mpaqサブネットは360{\textdegree}ビデオの品質評価のためにモーションコンテキスト情報を適切に組み込む。 最後に、MFTNサブネットは、複数のフレームから長期的な品質相関を探索することにより、マルチフレームの品質劣化を集約し、最終的な品質スコアを得る。 実験により,360{\textdegree}ビデオ上での最先端のBVQA性能は2つのデータセットで著しく向上し,そのコードは \url{https://github.com/y anglixiaoshen/ProVQA で公開されている。 }

Blind visual quality assessment (BVQA) on 360{\textdegree} video plays a key role in optimizing immersive multimedia systems. When assessing the quality of 360{\textdegree} video, human tends to perceive its quality degradation from the viewport-based spatial distortion of each spherical frame to motion artifact across adjacent frames, ending with the video-level quality score, i.e., a progressive quality assessment paradigm. However, the existing BVQA approaches for 360{\textdegree} video neglect this paradigm. In this paper, we take into account the progressive paradigm of human perception towards spherical video quality, and thus propose a novel BVQA approach (namely ProVQA) for 360{\textdegree} video via progressively learning from pixels, frames and video. Corresponding to the progressive learning of pixels, frames and video, three sub-nets are designed in our ProVQA approach, i.e., the spherical perception aware quality prediction (SPAQ), motion perception aware quality prediction (MPAQ) and multi-frame temporal non-local (MFTN) sub-nets. The SPAQ sub-net first models the spatial quality degradation based on spherical perception mechanism of human. Then, by exploiting motion cues across adjacent frames, the MPAQ sub-net properly incorporates motion contextual information for quality assessment on 360{\textdegree} video. Finally, the MFTN sub-net aggregates multi-frame quality degradation to yield the final quality score, via exploring long-term quality correlation from multiple frames. The experiments validate that our approach significantly advances the state-of-the-art BVQA performance on 360{\textdegree} video over two datasets, the code of which has been public in \url{https://github.com/y anglixiaoshen/ProVQA .}
翻訳日:2021-11-19 14:19:24 公開日:2021-11-18
# RAANet:補助密度レベル推定によるLiDARに基づく3次元物体検出のためのレンジアウェアアテンションネットワーク

RAANet: Range-Aware Attention Network for LiDAR-based 3D Object Detection with Auxiliary Density Level Estimation ( http://arxiv.org/abs/2111.09515v1 )

ライセンス: Link先を確認
Yantao Lu, Xuetao Hao, Shiqi Sun, Weiheng Chai, Muchenxuan Tong, Senem Velipasalar(参考訳) 自動運転のためのLiDARデータからの3Dオブジェクト検出は、近年顕著な進歩を遂げている。 最先端の手法では、鳥眼ビュー(BEV)に点雲を符号化することが効果的かつ効果的であることが示されている。 ビュービューと異なり、BEVはオブジェクト間の豊富な空間情報と距離情報を保存し、同じタイプのオブジェクトはBEVでは小さく見えないが、スペーサー点雲の特徴を含んでいる。 この事実は、共有重畳み込みニューラルネットワークを用いたBEV特徴抽出を弱める。 この課題に対処するために,より強力なbev特徴を抽出し,優れた3dオブジェクト検出を生成する範囲認識アテンションネットワーク(raanet)を提案する。 RAA(Range-Aware attention)畳み込みは、近距離および遠距離物体の特徴抽出を著しく改善する。 さらに, 隠蔽対象に対するRAANetの検出精度を高めるために, 密度推定のための新たな補助損失を提案する。 提案したRAA畳み込みは軽量で互換性があり,BEV検出に使用されるCNNアーキテクチャに統合可能である点に注意が必要だ。 nuScenesデータセットの大規模な実験により,提案手法はLiDARを用いた3Dオブジェクト検出の最先端手法よりも優れており,実時間での推測速度はフルバージョンで16Hz,ライトバージョンで22Hzであることがわかった。 コードは匿名のGithubリポジトリhttps://github.com/a nonymous0522/RAANで公開されている。

3D object detection from LiDAR data for autonomous driving has been making remarkable strides in recent years. Among the state-of-the-art methodologies, encoding point clouds into a bird's-eye view (BEV) has been demonstrated to be both effective and efficient. Different from perspective views, BEV preserves rich spatial and distance information between objects; and while farther objects of the same type do not appear smaller in the BEV, they contain sparser point cloud features. This fact weakens BEV feature extraction using shared-weight convolutional neural networks. In order to address this challenge, we propose Range-Aware Attention Network (RAANet), which extracts more powerful BEV features and generates superior 3D object detections. The range-aware attention (RAA) convolutions significantly improve feature extraction for near as well as far objects. Moreover, we propose a novel auxiliary loss for density estimation to further enhance the detection accuracy of RAANet for occluded objects. It is worth to note that our proposed RAA convolution is lightweight and compatible to be integrated into any CNN architecture used for the BEV detection. Extensive experiments on the nuScenes dataset demonstrate that our proposed approach outperforms the state-of-the-art methods for LiDAR-based 3D object detection, with real-time inference speed of 16 Hz for the full version and 22 Hz for the lite version. The code is publicly available at an anonymous Github repository https://github.com/a nonymous0522/RAAN.
翻訳日:2021-11-19 14:17:32 公開日:2021-11-18
# テキスト検出のための適応縮小マスク

Adaptive Shrink-Mask for Text Detection ( http://arxiv.org/abs/2111.09560v1 )

ライセンス: Link先を確認
Chuang Yang, Mulin Chen, Yuan Yuan, Qi Wang, Xuelong Li(参考訳) 既存のリアルタイムテキスト検出器は、テキストの輪郭を縮小マスクで直接再構築し、フレームワークを単純化し、モデルの実行を高速化する。 しかしながら、予測された収縮マスクへの強い依存は不安定な検出結果をもたらす。 さらに,縮小マスクの識別は画素単位の予測課題である。 縮小マスクによるネットワークの監視は、多くの意味的コンテキストを失うため、縮小マスクの誤検出につながる。 これらの問題に対処するため, テキスト検出のための適応スリンクマスク (ASMTD) という効率的なテキスト検出ネットワークを構築し, トレーニング中の精度を向上し, 推論過程の複雑さを低減する。 まず,asm(adaptive shrink-mask)を用いて,縮小マスクと独立適応オフセットを用いてテキストを表現する。 テキストの結合を縮小マスクに弱め、検出結果の堅牢性を向上させる。 次に、スーパーピクセルウィンドウ(SPW)がネットワークを監督するように設計されている。 それぞれのピクセルの周囲を利用して予測される縮小マスクの信頼性を改善し、テスト中に現れない。 最後に,計算コストを削減するために,軽量な機能統合ブランチを構築した。 実験で示されたように,本手法は複数のベンチマークにおける検出精度と速度の両面で既存のSOTA法よりも優れている。

Existing real-time text detectors reconstruct text contours by shrink-masks directly, which simplifies the framework and can make the model run fast. However, the strong dependence on predicted shrink-masks leads to unstable detection results. Moreover, the discrimination of shrink-masks is a pixelwise prediction task. Supervising the network by shrink-masks only will lose much semantic context, which leads to the false detection of shrink-masks. To address these problems, we construct an efficient text detection network, Adaptive Shrink-Mask for Text Detection (ASMTD), which improves the accuracy during training and reduces the complexity of the inference process. At first, the Adaptive Shrink-Mask (ASM) is proposed to represent texts by shrink-masks and independent adaptive offsets. It weakens the coupling of texts to shrink-masks, which improves the robustness of detection results. Then, the Super-pixel Window (SPW) is designed to supervise the network. It utilizes the surroundings of each pixel to improve the reliability of predicted shrink-masks and does not appear during testing. In the end, a lightweight feature merging branch is constructed to reduce the computational cost. As demonstrated in the experiments, our method is superior to existing state-of-the-art (SOTA) methods in both detection accuracy and speed on multiple benchmarks.
翻訳日:2021-11-19 14:17:07 公開日:2021-11-18
# IMFNet: ポイントクラウド登録のための解釈可能なマルチモーダルフュージョン

IMFNet: Interpretable Multimodal Fusion for Point Cloud Registration ( http://arxiv.org/abs/2111.09624v1 )

ライセンス: Link先を確認
Xiaoshui Huang, Wentao Qu, Yifan Zuo, Yuming Fang, Xiaowei Zhao(参考訳) 既存の最先端のディスクリプタは、テクスチャ情報を省略する構造情報のみに依存している。 しかし, テクスチャ情報は人間にとって, シーン部分の識別に不可欠である。 さらに、現在の学習ベースのポイントディスクリプタはすべてブラックボックスであり、元のポイントが最終的なディスクリプタにどのように寄与するかは不明だ。 本稿では,構造情報とテクスチャ情報の両方を考慮して,ポイントクラウド登録記述子を生成するマルチモーダル融合手法を提案する。 具体的には、ディスクリプタ抽出のための重み付けテクスチャ情報を抽出する新しい注意融合モジュールを設計する。 さらに,最終的な記述子への寄与点を説明するための解釈可能なモジュールを提案する。 我々は、デクリプタ要素を損失としてターゲット層にバックプロパゲートし、その勾配を最終記述子に対するこの点の意義とみなす。 本稿では,登録タスクにおける説明可能な深層学習に一歩前進する。 3DMatch, 3DLoMatch, KITTIの総合的な実験により、マルチモーダル融合記述子は最先端の精度を達成し、記述子の特異性を向上することを示した。 また、登録記述子抽出を説明する際の解釈可能なモジュールについても示す。

The existing state-of-the-art point descriptor relies on structure information only, which omit the texture information. However, texture information is crucial for our humans to distinguish a scene part. Moreover, the current learning-based point descriptors are all black boxes which are unclear how the original points contribute to the final descriptor. In this paper, we propose a new multimodal fusion method to generate a point cloud registration descriptor by considering both structure and texture information. Specifically, a novel attention-fusion module is designed to extract the weighted texture information for the descriptor extraction. In addition, we propose an interpretable module to explain the original points in contributing to the final descriptor. We use the descriptor element as the loss to backpropagate to the target layer and consider the gradient as the significance of this point to the final descriptor. This paper moves one step further to explainable deep learning in the registration task. Comprehensive experiments on 3DMatch, 3DLoMatch and KITTI demonstrate that the multimodal fusion descriptor achieves state-of-the-art accuracy and improve the descriptor's distinctiveness. We also demonstrate that our interpretable module in explaining the registration descriptor extraction.
翻訳日:2021-11-19 14:16:48 公開日:2021-11-18
# モデル精度を効率的に保存する自動ニューラルネットワークプルーニング

Automatic Neural Network Pruning that Efficiently Preserves the Model Accuracy ( http://arxiv.org/abs/2111.09635v1 )

ライセンス: Link先を確認
Thibault Castells and Seul-Ki Yeom(参考訳) ニューラルネットワークの性能はここ数年で大幅に改善され、毎秒の浮動小数点演算(FLOP)が増加している。 しかし、計算資源が限られている場合、より多くのFLOPが問題となる。 この問題を解決する試みとして、プルーニングフィルタは一般的な解決策であるが、既存のプルーニング法はモデルの精度を効率的に保たず、多くの微調整エポックを必要とする。 本稿では,FLOPを予め定義された目標に還元しつつ,モデル精度を維持するため,どのニューロンを保存すべきかを学習する自動プルーニング手法を提案する。 この課題を達成するために、データセットの25.6%(CIFAR-10)と7.49%(ILSVRC2012)の1つのエポックしか必要としないトレーニング可能なボトルネックを導入する。 各種アーキテクチャとデータセットを用いた実験により,提案手法はプルーニング後の精度を維持できるだけでなく,微調整後の既存手法よりも優れることが示された。 我々は,ResNet-50上で52.00%のFLOPs削減を実現し,プルーニング後のTop-1精度は47.51%,ILSVRC2012の微調整後の最先端(SOTA)精度は76.63%であった。 コードは (link anonymized for review) で入手できる。

Neural networks performance has been significantly improved in the last few years, at the cost of an increasing number of floating point operations per second (FLOPs). However, more FLOPs can be an issue when computational resources are limited. As an attempt to solve this problem, pruning filters is a common solution, but most existing pruning methods do not preserve the model accuracy efficiently and therefore require a large number of finetuning epochs. In this paper, we propose an automatic pruning method that learns which neurons to preserve in order to maintain the model accuracy while reducing the FLOPs to a predefined target. To accomplish this task, we introduce a trainable bottleneck that only requires one single epoch with 25.6% (CIFAR-10) or 7.49% (ILSVRC2012) of the dataset to learn which filters to prune. Experiments on various architectures and datasets show that the proposed method can not only preserve the accuracy after pruning but also outperform existing methods after finetuning. We achieve a 52.00% FLOPs reduction on ResNet-50, with a Top-1 accuracy of 47.51% after pruning and a state-of-the-art (SOTA) accuracy of 76.63% after finetuning on ILSVRC2012. Code is available at (link anonymized for review).
翻訳日:2021-11-19 14:16:28 公開日:2021-11-18
# 軽量動作認識のための変圧器の評価

Evaluating Transformers for Lightweight Action Recognition ( http://arxiv.org/abs/2111.09641v1 )

ライセンス: Link先を確認
Raivo Koot, Markus Hennerbichler, Haiping Lu(参考訳) ビデオアクション認識では、トランスフォーマーは常に最先端の精度に達する。 しかし、多くのモデルはハードウェアリソースが限られている平均的な研究者には重すぎる。 本研究では,軽量動作認識のためのビデオトランスフォーマーの限界について検討する。 13の動画トランスフォーマーとベースラインを3つの大規模データセットと10のハードウェアデバイスでベンチマークします。 本研究は,複数のデバイスにまたがる動作認識モデルの効率性を評価し,同じ条件下で広範囲のビデオトランスフォーマーを訓練する最初の試みである。 提案手法を3つのクラスに分類し, コンボリューションバックボーンを増強する複合トランスフォーマーは, 精度に欠けるにもかかわらず, 軽量な動作認識に最適であることを示す。 一方、注目のみのモデルには、より多くのモーションモデリング機能と、現在過度の遅延を発生させているスタンドアロンのアテンションブロックモデルが必要である。 我々の実験では、現在のビデオトランスフォーマーは従来の畳み込みベースラインと同等の軽量な動作認識能力を持っておらず、上記の欠点は、このギャップを埋めるために対処する必要があると結論付けている。 私たちの実験を再現するコードは公開されます。

In video action recognition, transformers consistently reach state-of-the-art accuracy. However, many models are too heavyweight for the average researcher with limited hardware resources. In this work, we explore the limitations of video transformers for lightweight action recognition. We benchmark 13 video transformers and baselines across 3 large-scale datasets and 10 hardware devices. Our study is the first to evaluate the efficiency of action recognition models in depth across multiple devices and train a wide range of video transformers under the same conditions. We categorize current methods into three classes and show that composite transformers that augment convolutional backbones are best at lightweight action recognition, despite lacking accuracy. Meanwhile, attention-only models need more motion modeling capabilities and stand-alone attention block models currently incur too much latency overhead. Our experiments conclude that current video transformers are not yet capable of lightweight action recognition on par with traditional convolutional baselines, and that the previously mentioned shortcomings need to be addressed to bridge this gap. Code to reproduce our experiments will be made publicly available.
翻訳日:2021-11-19 14:16:01 公開日:2021-11-18
# 亜深度:自己蒸留と不確かさ向上による自己監督単眼深度推定

SUB-Depth: Self-distillation and Uncertainty Boosting Self-supervised Monocular Depth Estimation ( http://arxiv.org/abs/2111.09692v1 )

ライセンス: Link先を確認
Hang Zhou, Sarah Taylor, David Greenwood(参考訳) 本稿では,自己教師付き単眼深度推定(SDE)のための汎用マルチタスクトレーニングフレームワークである‘textbf{SUB-Depth} を提案する。 SUB-Depthでトレーニングされた深度モデルは、標準のシングルタスクSDEフレームワークでトレーニングされた同じモデルより優れている。 新たな自己蒸留タスクを標準のSDEトレーニングフレームワークに導入することにより、Sub-Depthは、画像再構成タスクの深度マップを予測するだけでなく、学習した教師ネットワークから学習データを用いて知識を抽出する深度ネットワークを訓練する。 このマルチタスク設定を活用するために,教師ネットワークノイズの影響を受けやすい領域やSDEの仮定に反する領域を罰する,各タスクに対する相似不確実性定式化を提案する。 提案するフレームワークを用いて,既存のネットワークをトレーニングすることで達成された改善を実証するために,KITTIの広範な評価を行い,その課題に対して最先端の性能を実現する。 さらに、SUB-Depthは深度出力の不確かさを推定できる。

We propose \textbf{SUB-Depth}, a universal multi-task training framework for self-supervised monocular depth estimation (SDE). Depth models trained with SUB-Depth outperform the same models trained in a standard single-task SDE framework. By introducing an additional self-distillation task into a standard SDE training framework, SUB-Depth trains a depth network, not only to predict the depth map for an image reconstruction task, but also to distill knowledge from a trained teacher network with unlabelled data. To take advantage of this multi-task setting, we propose homoscedastic uncertainty formulations for each task to penalize areas likely to be affected by teacher network noise, or violate SDE assumptions. We present extensive evaluations on KITTI to demonstrate the improvements achieved by training a range of existing networks using the proposed framework, and we achieve state-of-the-art performance on this task. Additionally, SUB-Depth enables models to estimate uncertainty on depth output.
翻訳日:2021-11-19 14:15:44 公開日:2021-11-18
# (参考訳) 共同作業型AIチームメイトのための人間決定モデルの強化学習 [全文訳有]

Reinforcement Learning on Human Decision Models for Uniquely Collaborative AI Teammates ( http://arxiv.org/abs/2111.09800v1 )

ライセンス: CC BY 4.0
Nicholas Kantack(参考訳) 2021年、ジョンズ・ホプキンス大学応用物理学研究所は、共同カードゲーム「ハナビ」に匹敵する人工知能(ai)エージェントを開発する社内チャレンジを行った。 エージェントは、エージェントがこれまで遭遇したことのない人間のプレーヤーと遊ぶ能力について評価された。 本研究は,人間の演奏平均得点16.5を達成し,人間ロボットハナビスコアの現況を上回り,挑戦に勝ったエージェントの開発を詳述する。 優勝エージェントの開発は、ハナビにおける著者の意思決定を観察し、正確にモデル化し、その後、著者の行動クローンでトレーニングすることであった。 エージェントは、まず人間の意思決定を模倣し、次にシミュレーションされた人間のボットスコアに繋がる人間のような戦略のバリエーションを探索することで、人間の補完的なプレイスタイルを発見した。 この研究は、人間互換のハナビチームメイトの設計と実装、および人間の補完戦略の存在と意味、そして、人間のマシンチームにおけるAIのより成功した応用のためにそれらがどのように探索されるのかを詳細に調べる。

In 2021 the Johns Hopkins University Applied Physics Laboratory held an internal challenge to develop artificially intelligent (AI) agents that could excel at the collaborative card game Hanabi. Agents were evaluated on their ability to play with human players whom the agents had never previously encountered. This study details the development of the agent that won the challenge by achieving a human-play average score of 16.5, outperforming the current state-of-the-art for human-bot Hanabi scores. The winning agent's development consisted of observing and accurately modeling the author's decision making in Hanabi, then training with a behavioral clone of the author. Notably, the agent discovered a human-complementary play style by first mimicking human decision making, then exploring variations to the human-like strategy that led to higher simulated human-bot scores. This work examines in detail the design and implementation of this human compatible Hanabi teammate, as well as the existence and implications of human-complementary strategies and how they may be explored for more successful applications of AI in human machine teams.
翻訳日:2021-11-19 14:13:22 公開日:2021-11-18
# 深層強化学習の一般化に関する調査研究

A Survey of Generalisation in Deep Reinforcement Learning ( http://arxiv.org/abs/2111.09794v1 )

ライセンス: Link先を確認
Robert Kirk, Amy Zhang, Edward Grefenstette, Tim Rockt\"aschel(参考訳) 深層強化学習(rl)における一般化の研究は、展開時の新たな未熟な状況によく一般化し、トレーニング環境への過度な適合を避けるための、rlアルゴリズムの開発を目標としている。 環境が多様で動的で予測不能な現実のシナリオに強化学習アルゴリズムを展開するには、これに取り組むことが不可欠です。 この調査は、この初期段階の分野の概要である。 我々は、様々な一般化問題について議論するための統一形式主義と用語を提供する。 一般化のための既存のベンチマークと、一般化問題に取り組む現在の手法を分類します。 最後に,今後の作業の推奨など,この分野の現状に関する批判的な議論を行う。 その他の結論として, ベンチマーク設計に純粋に手続き的コンテンツ生成アプローチを採用することは, 一般化の進展に寄与しない, オンライン適応とRL固有の問題への対処を, 一般化手法の今後の研究分野として提案し, オフラインRLの一般化や報酬関数の変動といった未解決の問題設定において, ベンチマークを構築することを推奨する。

The study of generalisation in deep Reinforcement Learning (RL) aims to produce RL algorithms whose policies generalise well to novel unseen situations at deployment time, avoiding overfitting to their training environments. Tackling this is vital if we are to deploy reinforcement learning algorithms in real world scenarios, where the environment will be diverse, dynamic and unpredictable. This survey is an overview of this nascent field. We provide a unifying formalism and terminology for discussing different generalisation problems, building upon previous works. We go on to categorise existing benchmarks for generalisation, as well as current methods for tackling the generalisation problem. Finally, we provide a critical discussion of the current state of the field, including recommendations for future work. Among other conclusions, we argue that taking a purely procedural content generation approach to benchmark design is not conducive to progress in generalisation, we suggest fast online adaptation and tackling RL-specific problems as some areas for future work on methods for generalisation, and we recommend building benchmarks in underexplored problem settings such as offline RL generalisation and reward-function variation.
翻訳日:2021-11-19 14:00:46 公開日:2021-11-18
# 最適性からロバスト性:確率帯域におけるディリクレサンプリング戦略

From Optimality to Robustness: Dirichlet Sampling Strategies in Stochastic Bandits ( http://arxiv.org/abs/2111.09724v1 )

ライセンス: Link先を確認
Dorian Baudry (CRIStAL, Scool, CNRS), Patrick Saux (CRIStAL, Scool), Odalric-Ambrym Maillard (CRIStAL, Scool)(参考訳) 確率的マルチアームバンドイット問題は、腕の分布に関する標準的な仮定(例えば、既知の支持、指数族など)の下で広く研究されている。 これらの仮定は多くの実世界の問題に適しているが、実践者が正確にアクセスできない知識(例えばテール)を必要とすることがあるため、誤った特定をモデル化するためにバンディットアルゴリズムの頑健さが問題となる。 本稿では,両腕の観測値の再サンプリングとデータ依存探索ボーナスで計算された経験指標のペアワイズ比較に基づいて,汎用ディリクレサンプリング(ds)アルゴリズムについて検討する。 この戦略の異なる変種は、分布が有界であるときに最適の後悔を保証し、穏やかな質的条件を持つ半有界分布に対して対数的後悔を与える。 また、単純なチューニングは、対数的漸近的後悔よりもわずかに悪いコストで、大きな非有界分布のクラスに対してロバスト性を達成することを示す。 合成農業データにおける決定問題におけるDSのメリットを示す数値実験を行った。

The stochastic multi-arm bandit problem has been extensively studied under standard assumptions on the arm's distribution (e.g bounded with known support, exponential family, etc). These assumptions are suitable for many real-world problems but sometimes they require knowledge (on tails for instance) that may not be precisely accessible to the practitioner, raising the question of the robustness of bandit algorithms to model misspecification. In this paper we study a generic Dirichlet Sampling (DS) algorithm, based on pairwise comparisons of empirical indices computed with re-sampling of the arms' observations and a data-dependent exploration bonus. We show that different variants of this strategy achieve provably optimal regret guarantees when the distributions are bounded and logarithmic regret for semi-bounded distributions with a mild quantile condition. We also show that a simple tuning achieve robustness with respect to a large class of unbounded distributions, at the cost of slightly worse than logarithmic asymptotic regret. We finally provide numerical experiments showing the merits of DS in a decision-making problem on synthetic agriculture data.
翻訳日:2021-11-19 13:57:43 公開日:2021-11-18
# MCCE:モンテカルロによる現実的対実的説明のサンプリング

MCCE: Monte Carlo sampling of realistic counterfactual explanations ( http://arxiv.org/abs/2111.09790v1 )

ライセンス: Link先を確認
Annabelle Redelmeier, Martin Jullum, Kjersti Aas, Anders L{\o}land(参考訳) 本稿では,条件付き推論木を用いて実現可能な一組の例を生成することで,反事実的説明を生成するモデルベース手法である,現実的反事実的説明のモンテカルロサンプリングを提案する。 複雑な最適化問題を解くアルゴリズムベースのカウンターファクト法や、重機械学習モデルを用いてデータ分散をモデル化する他のモデルベースの方法とは異なり、MCCEは2つの軽量ステップ(生成と後処理)のみで構成されている。 MCCEはまた、エンドユーザーが理解し実装し、どんな種類の予測モデルや機能にも対処し、反現実的な説明を生成する際にアクション可能性の制約を考慮に入れ、必要に応じて多くの反現実的な説明を生成する。 本稿では,MCCEについて紹介し,反実的説明の比較に使用できるパフォーマンス指標の包括的リストを提供する。 また,mceと最先端手法とベンチマークデータセットにおける新しいベースライン法を比較した。 MCCEは、妥当性(正確に変化する予測)と動作可能性の制約を考慮した場合、すべてのモデルベースの手法やアルゴリズムベースの手法よりも優れている。 最後に、MCCEはトレーニングデータの小さなサブセットを与えられると、ほぼ同等の性能を発揮することを示す。

In this paper we introduce MCCE: Monte Carlo sampling of realistic Counterfactual Explanations, a model-based method that generates counterfactual explanations by producing a set of feasible examples using conditional inference trees. Unlike algorithmic-based counterfactual methods that have to solve complex optimization problems or other model based methods that model the data distribution using heavy machine learning models, MCCE is made up of only two light-weight steps (generation and post-processing). MCCE is also straightforward for the end user to understand and implement, handles any type of predictive model and type of feature, takes into account actionability constraints when generating the counterfactual explanations, and generates as many counterfactual explanations as needed. In this paper we introduce MCCE and give a comprehensive list of performance metrics that can be used to compare counterfactual explanations. We also compare MCCE with a range of state-of-the-art methods and a new baseline method on benchmark data sets. MCCE outperforms all model-based methods and most algorithmic-based methods when also taking into account validity (i.e., a correctly changed prediction) and actionability constraints. Finally, we show that MCCE has the strength of performing almost as well when given just a small subset of the training data.
翻訳日:2021-11-19 13:57:26 公開日:2021-11-18
# 因果予測:自己回帰モデルに対する一般化境界

Causal Forecasting:Generali zation Bounds for Autoregressive Models ( http://arxiv.org/abs/2111.09831v1 )

ライセンス: Link先を確認
Leena Chennuru Vankadara, Philipp Michael Faller, Lenon Minorics, Debarghya Ghoshdastidar, Dominik Janzing(参考訳) 予測手法の関連性は高まっているが、これらのアルゴリズムの因果関係はほとんど解明されていない。 これは、因果正当性のような仮定を単純化しても、モデルの統計的リスクは、その \textit{causal risk} と大きく異なる可能性があることを考慮している。 本稿では,観測分布から介入分布へ一般化する*因果一般化*の予測問題について検討する。 我々の目標は、統計的関連性を予測するための自己回帰モデル(VAR)の有効性は、介入下での予測能力とどのように比較できるのか? この目的のために、予測のための *causal learning theory* の枠組みを紹介する。 この枠組みを用いて,統計的リスクと因果リスクの差異を解析し,それらの相違点の同定を支援する。 因果的充足の下では、因果的一般化の問題は、追加構造(介入分布の制限)があるにもかかわらず、共変量シフトの下での学習に比例する。 この構造により、VARモデルのクラスに対する因果一般化性に関する一様収束境界が得られる。 我々の知る限りでは、時系列設定における因果一般化の理論的保証を提供する最初の研究である。

Despite the increasing relevance of forecasting methods, the causal implications of these algorithms remain largely unexplored. This is concerning considering that, even under simplifying assumptions such as causal sufficiency, the statistical risk of a model can differ significantly from its \textit{causal risk}. Here, we study the problem of *causal generalization* -- generalizing from the observational to interventional distributions -- in forecasting. Our goal is to find answers to the question: How does the efficacy of an autoregressive (VAR) model in predicting statistical associations compare with its ability to predict under interventions? To this end, we introduce the framework of *causal learning theory* for forecasting. Using this framework, we obtain a characterization of the difference between statistical and causal risks, which helps identify sources of divergence between them. Under causal sufficiency, the problem of causal generalization amounts to learning under covariate shifts albeit with additional structure (restriction to interventional distributions). This structure allows us to obtain uniform convergence bounds on causal generalizability for the class of VAR models. To the best of our knowledge, this is the first work that provides theoretical guarantees for causal generalization in the time-series setting.
翻訳日:2021-11-19 13:57:03 公開日:2021-11-18
# ベイジアンベストアーム識別における最適簡易レグレット

Optimal Simple Regret in Bayesian Best Arm Identification ( http://arxiv.org/abs/2111.09885v1 )

ライセンス: Link先を確認
Junpei Komiyama, Kaito Ariu, Masahiro Kato and Chao Qin(参考訳) 我々は多腕バンディット問題においてベイズ最高の腕の識別を考える。 前者の一定の連続性条件を仮定すると、ベイズ的単純後悔の速度を特徴づける。 ベイズ人の後悔の最小化 (lai, 1987) とは異なり、ベイズ人の単純な後悔の主要な要因は、最適腕と準最適腕の差が$\sqrt{\frac{\log t}{t}}$よりも小さい領域に由来する。 我々は,その主因子が定数まで下限と一致するような,単純で容易に計算可能なアルゴリズムを提案する。

We consider Bayesian best arm identification in the multi-armed bandit problem. Assuming certain continuity conditions of the prior, we characterize the rate of the Bayesian simple regret. Differing from Bayesian regret minimization (Lai, 1987), the leading factor in Bayesian simple regret derives from the region where the gap between optimal and sub-optimal arms is smaller than $\sqrt{\frac{\log T}{T}}$. We propose a simple and easy-to-compute algorithm with its leading factor matches with the lower bound up to a constant factor; simulation results support our theoretical findings.
翻訳日:2021-11-19 13:56:45 公開日:2021-11-18
# 効率的な意味セグメンテーションのための動的pruning segformer

Dynamically pruning segformer for efficient semantic segmentation ( http://arxiv.org/abs/2111.09499v1 )

ライセンス: Link先を確認
Haoli Bai, Hongda Mao, Dinesh Nair(参考訳) コンピュータビジョンタスクにおけるトランスフォーマティブベースモデルの成功例として、segformerはセマンティックセグメンテーションにおいて優れた性能を示している。 それでも、高い計算コストは、エッジデバイスへのSegFormerのデプロイに大きく挑戦する。 本稿では,効率的なセマンティクスセグメンテーションのための軽量セグフォーマの設計を試みる。 segformer層のニューロンが、異なる画像にまたがって大きなばらつきを示すという観測に基づいて、入力インスタンスに基づいて最も不規則なニューロンの集合をプルーピングする動的ゲート線形層を提案する。 動的に刈り取ったsegformerを改善するために,原教師の知識を刈り取った学生ネットワークに移すために,二段階の知識蒸留を導入する。 実験の結果,本手法はsegformerの性能低下を伴わずに計算オーバーヘッドを大幅に削減できることがわかった。 例えば、ADE20K上では3.3GのFLOPで36.9%のmIoUを達成でき、mIoUの0.5%の低下で60%以上の計算を節約できる。

As one of the successful Transformer-based models in computer vision tasks, SegFormer demonstrates superior performance in semantic segmentation. Nevertheless, the high computational cost greatly challenges the deployment of SegFormer on edge devices. In this paper, we seek to design a lightweight SegFormer for efficient semantic segmentation. Based on the observation that neurons in SegFormer layers exhibit large variances across different images, we propose a dynamic gated linear layer, which prunes the most uninformative set of neurons based on the input instance. To improve the dynamically pruned SegFormer, we also introduce two-stage knowledge distillation to transfer the knowledge within the original teacher to the pruned student network. Experimental results show that our method can significantly reduce the computation overhead of SegFormer without an apparent performance drop. For instance, we can achieve 36.9% mIoU with only 3.3G FLOPs on ADE20K, saving more than 60% computation with the drop of only 0.5% in mIoU
翻訳日:2021-11-19 13:56:16 公開日:2021-11-18
# 低温環境におけるてんかん不確実性の定量化限界の探索

Exploring the Limits of Epistemic Uncertainty Quantification in Low-Shot Settings ( http://arxiv.org/abs/2111.09808v1 )

ライセンス: Link先を確認
Matias Valdenegro-Toro(参考訳) ニューラルネットワークの不確実性定量化は、AIシステムの安全性を高めることを約束するが、トレーニングセットのサイズによってパフォーマンスがどう変わるかは明らかではない。 本稿では,ファッションmnistとcifar10の7つの不確実性評価手法について,サブサンプルとして評価し,様々なトレーニングセットサイズを生成する。 キャリブレーション誤差と分布検出性能はトレーニングセットのサイズに強く依存しており、ほとんどのメソッドは小さなトレーニングセットでテストセット上で誤校正されている。 グラディエントに基づく手法は, てんかん不確実性の推定に乏しく, トレーニングセットサイズに最も影響を受けやすい。 我々は,不確実性定量化に関する今後の研究を指導し,特定のデータに基づく方法の選択を支援することを期待する。

Uncertainty quantification in neural network promises to increase safety of AI systems, but it is not clear how performance might vary with the training set size. In this paper we evaluate seven uncertainty methods on Fashion MNIST and CIFAR10, as we sub-sample and produce varied training set sizes. We find that calibration error and out of distribution detection performance strongly depend on the training set size, with most methods being miscalibrated on the test set with small training sets. Gradient-based methods seem to poorly estimate epistemic uncertainty and are the most affected by training set size. We expect our results can guide future research into uncertainty quantification and help practitioners select methods based on their particular available data.
翻訳日:2021-11-19 13:55:55 公開日:2021-11-18
# 医用画像の意味セグメンテーションのためのエッジ保存領域適応

Edge-preserving Domain Adaptation for semantic segmentation of Medical Images ( http://arxiv.org/abs/2111.09847v1 )

ライセンス: Link先を確認
Thong Vo, Naimul Khan(参考訳) ドメイン適応(domain adaptation)は、未知の環境で大量のラベル付きデータの欠如に対処するテクニックである。 非教師付きドメイン適応は、ラベル付きソースデータとラベルなしターゲットドメインデータを用いて、新しいモダリティにモデルを適用するために提案される。 多くの画像空間領域適応法がピクセルレベルの領域シフトを捉えるために提案されているが、そのような手法はセグメンテーションタスクの高レベルな意味情報を維持できない可能性がある。 バイオメディカル画像の場合、ドメイン間の画像変換操作中に血管などの細部が失われることがある。 本研究では,適応プロセス中にエッジベース損失を強制することにより,元の画像のエッジ詳細を維持しながら,サイクル一貫性損失を用いたドメイン間適応モデルを提案する。 2つの眼底血管セグメンテーションデータセット上の他のアプローチと比較し,本アルゴリズムの有効性を示す。 我々はDICEスコアの1.1から9.2インクリメントをSOTAおよび5.2インクリメントと比較し、バニラのCycleGAN実装と比較した。

Domain Adaptation is a technique to address the lack of massive amounts of labeled data in unseen environments. Unsupervised domain adaptation is proposed to adapt a model to new modalities using solely labeled source data and unlabeled target domain data. Though many image-spaces domain adaptation methods have been proposed to capture pixel-level domain-shift, such techniques may fail to maintain high-level semantic information for the segmentation task. For the case of biomedical images, fine details such as blood vessels can be lost during the image transformation operations between domains. In this work, we propose a model that adapts between domains using cycle-consistent loss while maintaining edge details of the original images by enforcing an edge-based loss during the adaptation process. We demonstrate the effectiveness of our algorithm by comparing it to other approaches on two eye fundus vessels segmentation datasets. We achieve 1.1 to 9.2 increment in DICE score compared to the SOTA and ~5.2 increments compared to a vanilla CycleGAN implementation.
翻訳日:2021-11-19 13:55:41 公開日:2021-11-18
# PyTorchVideo: ビデオ理解のためのディープラーニングライブラリ

PyTorchVideo: A Deep Learning Library for Video Understanding ( http://arxiv.org/abs/2111.09887v1 )

ライセンス: Link先を確認
Haoqi Fan, Tullie Murrell, Heng Wang, Kalyan Vasudev Alwala, Yanghao Li, Yilei Li, Bo Xiong, Nikhila Ravi, Meng Li, Haichuan Yang, Jitendra Malik, Ross Girshick, Matt Feiszli, Aaron Adcock, Wan-Yen Lo, Christoph Feichtenhofer(参考訳) 我々はPyTorchVideoを紹介した。PyTorchVideoはオープンソースのディープラーニングライブラリで,分類,検出,自己教師型学習,低レベル処理など,さまざまなビデオ理解タスクに対して,モジュール化,効率的,再現可能な豊富なコンポーネントセットを提供する。 このライブラリには、マルチモーダルデータ読み込み、変換、最先端のパフォーマンスを再現するモデルを含む、ビデオ理解ツールのフルスタックが含まれている。 PyTorchVideoはさらに、モバイルデバイス上でリアルタイムの推論を可能にするハードウェアアクセラレーションをサポートしている。 ライブラリはPyTorchをベースにしており、PyTorchLightning、PySlowFast、Classy Visionなど、任意のトレーニングフレームワークで使用することができる。 pytorchvideoはhttps://pytorchvideo .org/で入手できる。

We introduce PyTorchVideo, an open-source deep-learning library that provides a rich set of modular, efficient, and reproducible components for a variety of video understanding tasks, including classification, detection, self-supervised learning, and low-level processing. The library covers a full stack of video understanding tools including multimodal data loading, transformations, and models that reproduce state-of-the-art performance. PyTorchVideo further supports hardware acceleration that enables real-time inference on mobile devices. The library is based on PyTorch and can be used by any training framework; for example, PyTorchLightning, PySlowFast, or Classy Vision. PyTorchVideo is available at https://pytorchvideo .org/
翻訳日:2021-11-19 13:55:22 公開日:2021-11-18
# マルチタスク学習によるドッキング型仮想スクリーニング

Docking-based Virtual Screening with Multi-Task Learning ( http://arxiv.org/abs/2111.09502v1 )

ライセンス: Link先を確認
Zijing Liu, Xianbin Ye, Xiaoming Fang, Fan Wang, Hua Wu, Haifeng Wang(参考訳) 機械学習は、薬物発見のための仮想スクリーニングに大きな可能性を示している。 ドッキングベースの仮想スクリーニングを加速する現在の取り組みは、既に開発された他のターゲットの既存のデータを使用しない。 本研究では,他のターゲットの知識を活用し,既存のデータを活用するために,ドッキングベースの仮想スクリーニング問題にマルチタスク学習を適用する。 2つの大きなドッキングデータセットで、広範囲な実験の結果、マルチタスク学習はドッキングスコア予測においてより良いパフォーマンスを達成できることが示されている。 複数のターゲットの知識を学習することで、マルチタスク学習によってトレーニングされたモデルは、新しいターゲットに適応するより良い能力を示す。 実験的な研究により、薬物発見における他の問題、例えば実験的な薬物標的親和性予測はマルチタスク学習の恩恵を受ける可能性が示されている。 以上の結果から,マルチタスク学習はドッキングベースの仮想スクリーニングと薬物発見プロセスの促進に有望な機械学習手法であることが示された。

Machine learning shows great potential in virtual screening for drug discovery. Current efforts on accelerating docking-based virtual screening do not consider using existing data of other previously developed targets. To make use of the knowledge of the other targets and take advantage of the existing data, in this work, we apply multi-task learning to the problem of docking-based virtual screening. With two large docking datasets, the results of extensive experiments show that multi-task learning can achieve better performances on docking score prediction. By learning knowledge across multiple targets, the model trained by multi-task learning shows a better ability to adapt to a new target. Additional empirical study shows that other problems in drug discovery, such as the experimental drug-target affinity prediction, may also benefit from multi-task learning. Our results demonstrate that multi-task learning is a promising machine learning approach for docking-based virtual screening and accelerating the process of drug discovery.
翻訳日:2021-11-19 13:54:48 公開日:2021-11-18
# CLMB : 強靭なメダゲノミクスビンニングのための深層的コントラスト学習

CLMB: deep contrastive learning for robust metagenomic binning ( http://arxiv.org/abs/2111.09656v1 )

ライセンス: Link先を確認
Pengfei Zhang, Zhengyuan Jiang, Yixuan Wang and Yu Li(参考訳) 大きなメダゲノミクスデータセットからの微生物ゲノムの再構成は、未培養の微生物集団を発見し、それらの微生物の機能的役割を定義するための重要な手順である。 これを実現するために、我々はメダゲノミクス・ビニングを行い、組立てられたコンティグをドラフトゲノムにまとめる必要がある。 既存の計算ツールにもかかわらず、そのほとんどはメダゲノミクスデータの重要な特性、すなわちノイズを無視している。 メタジェノミーバイナリ化の段階をさらに改善し、より優れたメタジェノミーを再構築するために、ノイズの乱れを効率的に除去し、より安定かつ堅牢な結果を生み出すメタジェノミーバイナリ化(clmb)のための深層コントラスト学習フレームワークを提案する。 本質的には、データを明示的に飾る代わりに、トレーニングデータにシミュレートされたノイズを加え、ディープラーニングモデルにノイズのないデータと歪んだデータの両方に対して、同様の安定した表現を強制する。 したがって、トレーニングされたモデルはノイズに対して堅牢であり、使用中に暗黙的に処理される。 clmbは以前の最先端のバイナリ法を大幅に上回り、ほぼすべてのベンチマークデータセットでほぼ完成に近いゲノムを回収している(第2の方法と比較して最大で17\%の再構成ゲノム)。 また、ビンリファインメントの性能も向上し、8-22の高品質ゲノムと15-32の中間品質ゲノムを2番目の結果よりも再構成する。 驚くべきことに、binning refinerとの互換性に加えて、シングルclmbはベンチマークデータセットのvambとmaxbinの精製機よりも平均15個のhqゲノムで回復する。 CLMBはオープンソースであり、https://github.com/z pf0117b/CLMB/で入手できる。

The reconstruction of microbial genomes from large metagenomic datasets is a critical procedure for finding uncultivated microbial populations and defining their microbial functional roles. To achieve that, we need to perform metagenomic binning, clustering the assembled contigs into draft genomes. Despite the existing computational tools, most of them neglect one important property of the metagenomic data, that is, the noise. To further improve the metagenomic binning step and reconstruct better metagenomes, we propose a deep Contrastive Learning framework for Metagenome Binning (CLMB), which can efficiently eliminate the disturbance of noise and produce more stable and robust results. Essentially, instead of denoising the data explicitly, we add simulated noise to the training data and force the deep learning model to produce similar and stable representations for both the noise-free data and the distorted data. Consequently, the trained model will be robust to noise and handle it implicitly during usage. CLMB outperforms the previous state-of-the-art binning methods significantly, recovering the most near-complete genomes on almost all the benchmarking datasets (up to 17\% more reconstructed genomes compared to the second-best method). It also improves the performance of bin refinement, reconstructing 8-22 more high-quality genomes and 15-32 more middle-quality genomes than the second-best result. Impressively, in addition to being compatible with the binning refiner, single CLMB even recovers on average 15 more HQ genomes than the refiner of VAMB and Maxbin on the benchmarking datasets. CLMB is open-source and available at https://github.com/z pf0117b/CLMB/.
翻訳日:2021-11-19 13:54:34 公開日:2021-11-18
# 航空分野における信頼性・安全分析の設計・実行のための安全な実験サンドボックス

A Secure Experimentation Sandbox for the design and execution of trusted and secure analytics in the aviation domain ( http://arxiv.org/abs/2111.09863v1 )

ライセンス: Link先を確認
Dimitrios Miltiadou (1), Stamatis Pitsios (1), Dimitrios Spyropoulos (1), Dimitrios Alexandrou (1), Fenareti Lampathaki (2), Domenico Messina (3), Konstantinos Perakis (1) ((1) UBITECH, (2) Suite5, (3) ENGINEERING Ingegneria Informatica S.p.A.)(参考訳) 航空産業も、それに結びついている産業も、ビッグデータ分析という形でのイノベーションのために熟している。 利用可能なビッグデータテクノロジの数は常に増加していますが、同時に既存のテクノロジも急速に進化し、新機能によって権限が与えられています。 しかし、ビッグデータ時代は、異種データソースからの大規模で急速に進化するデータを管理しながら、情報セキュリティを効果的に扱うための重要な課題を課している。 複数の技術が登場したが、複数のセキュリティ要件、プライバシ義務、システムパフォーマンス、大規模データセットの高速な動的解析のバランスを見つける必要がある。 本稿では,ICARUSプラットフォームのセキュア実験サンドボックスについて紹介する。 ICARUSプラットフォームは、航空データとインテリジェンス市場のための"ワンストップショップ"になることを目標とするビッグデータ対応プラットフォームを提供することを目的としており、信頼され、セキュアな「サンドボックス」分析ワークスペースを提供し、信頼され、公正な方法でオリジナルデータとデリバティブデータの探索、統合、分析を可能にする。 この目的のために、セキュア実験サンドボックスがICARUSプラットフォームに設計および統合され、データの安全性と機密性を完全に保証できる洗練された環境のプロビジョニングを可能にし、関係者がプラットフォームを使用してクローズドラブ環境で分析実験を行うことが可能になる。

The aviation industry as well as the industries that benefit and are linked to it are ripe for innovation in the form of Big Data analytics. The number of available big data technologies is constantly growing, while at the same time the existing ones are rapidly evolving and empowered with new features. However, the Big Data era imposes the crucial challenge of how to effectively handle information security while managing massive and rapidly evolving data from heterogeneous data sources. While multiple technologies have emerged, there is a need to find a balance between multiple security requirements, privacy obligations, system performance and rapid dynamic analysis on large datasets. The current paper aims to introduce the ICARUS Secure Experimentation Sandbox of the ICARUS platform. The ICARUS platform aims to provide a big data-enabled platform that aspires to become an 'one-stop shop' for aviation data and intelligence marketplace that provides a trusted and secure 'sandboxed' analytics workspace, allowing the exploration, integration and deep analysis of original and derivative data in a trusted and fair manner. Towards this end, a Secure Experimentation Sandbox has been designed and integrated in the ICARUS platform offering, that enables the provisioning of a sophisticated environment that can completely guarantee the safety and confidentiality of data, allowing to any interested party to utilise the platform to conduct analytical experiments in closed-lab conditions.
翻訳日:2021-11-19 13:53:51 公開日:2021-11-18
# 航空産業のためのビッグデータインテリジェンス市場とセキュアな分析実験プラットフォーム

A big data intelligence marketplace and secure analytics experimentation platform for the aviation industry ( http://arxiv.org/abs/2111.09872v1 )

ライセンス: Link先を確認
Dimitrios Miltiadou (1), Stamatis Pitsios (1), Dimitrios Spyropoulos (1), Dimitrios Alexandrou (1), Fenareti Lampathaki (2), Domenico Messina (3), Konstantinos Perakis (1) ((1) UBITECH, (2) Suite5, (3) ENGINEERING Ingegneria Informatica S.p.A.)(参考訳) 取得、生成、保存、管理が可能な航空データの前例のない量、多様性、豊かさは、航空関連産業に特有の機能を提供し、革新的なビッグデータ分析技術の採用によってまだ解き放たれている価値に関するものである。 研究とイノベーションに対する大きな取り組みと投資にもかかわらず、ビッグデータ技術は採用者に多くの課題をもたらしている。 効果的なストレージと基盤となるビッグデータへのアクセスに加えて、効率的なデータ統合とデータ相互運用性も考慮すべきであり、同時に異なる利害関係者間でのデータ交換とデータ共有を行うことによって、複数のデータソースを効果的に組み合わせるべきである。 しかし、これは収集したデータの情報セキュリティ、信頼されセキュアなデータ交換とデータ共有、そして堅牢なデータアクセス制御を維持するための追加の課題を明らかにしている。 本論文は,新しい航空データおよびインテリジェンス市場を提供する多面的なプラットフォームと,信頼性とセキュアな分析作業空間を提供するICARUSビッグデータ対応プラットフォームの導入を目的とする。 データ収集、データキュレーション、データ探索から、ベロシティ、バラエティ、ボリュームの異なる異質なデータソースから生まれたデータのデータ統合とデータ分析まで、完全にビッグデータライフサイクルを信頼できる方法で処理します。

The unprecedented volume, diversity and richness of aviation data that can be acquired, generated, stored, and managed provides unique capabilities for the aviation-related industries and pertains value that remains to be unlocked with the adoption of the innovative Big Data Analytics technologies. Despite the large efforts and investments on research and innovation, the Big Data technologies introduce a number of challenges to its adopters. Besides the effective storage and access to the underlying big data, efficient data integration and data interoperability should be considered, while at the same time multiple data sources should be effectively combined by performing data exchange and data sharing between the different stakeholders. However, this reveals additional challenges for the crucial preservation of the information security of the collected data, the trusted and secure data exchange and data sharing, as well as the robust data access control. The current paper aims to introduce the ICARUS big data-enabled platform that aims provide a multi-sided platform that offers a novel aviation data and intelligence marketplace accompanied by a trusted and secure analytics workspace. It holistically handles the complete big data lifecycle from the data collection, data curation and data exploration to the data integration and data analysis of data originating from heterogeneous data sources with different velocity, variety and volume in a trusted and secure manner.
翻訳日:2021-11-19 13:53:26 公開日:2021-11-18
# ロバスト報酬設計を支援する

Assisted Robust Reward Design ( http://arxiv.org/abs/2111.09884v1 )

ライセンス: Link先を確認
Jerry Zhi-Yang He, Anca D. Dragan(参考訳) 現実世界のロボットは複雑な報酬関数を必要とする。 ロボットが解決すべき問題を定義するとき、設計者がこの複雑な報酬を正確に指定したふりをして、その後は石にセットする。 しかし、実際には報酬設計は反復的なプロセスであり、デザイナーは報酬を選択し、最終的には報酬が間違った行動にインセンティブを与え、報酬を改訂し、繰り返し繰り返す「エッジケース」環境に遭遇する。 ロボット工学の問題を再考して、報酬デザインの反復的な性質を正式に説明することは何を意味するのだろうか? 我々は,ロボットが与えられた報酬を当然受け取らず,その不確実性を有し,将来の設計イテレーションを将来の証拠として考慮することを提案する。 我々は,設計者が最終的に失敗事例に遭遇し,その報酬を修正させる代わりに,開発段階で積極的に設計者をそのような環境に露出させることによって,設計プロセスを高速化する補助的報酬設計手法を提案する。 本研究では,この手法を簡易な自律運転タスクでテストし,現在の報酬に対して「エッジケース」である環境を提案することにより,保留環境における自動車の挙動をより迅速に改善することを確認する。

Real-world robotic tasks require complex reward functions. When we define the problem the robot needs to solve, we pretend that a designer specifies this complex reward exactly, and it is set in stone from then on. In practice, however, reward design is an iterative process: the designer chooses a reward, eventually encounters an "edge-case" environment where the reward incentivizes the wrong behavior, revises the reward, and repeats. What would it mean to rethink robotics problems to formally account for this iterative nature of reward design? We propose that the robot not take the specified reward for granted, but rather have uncertainty about it, and account for the future design iterations as future evidence. We contribute an Assisted Reward Design method that speeds up the design process by anticipating and influencing this future evidence: rather than letting the designer eventually encounter failure cases and revise the reward then, the method actively exposes the designer to such environments during the development phase. We test this method in a simplified autonomous driving task and find that it more quickly improves the car's behavior in held-out environments by proposing environments that are "edge cases" for the current reward.
翻訳日:2021-11-19 13:53:06 公開日:2021-11-18
# 機械学習モデルに対するメンバーシップ推論攻撃の強化

Enhanced Membership Inference Attacks against Machine Learning Models ( http://arxiv.org/abs/2111.09679v1 )

ライセンス: Link先を確認
Jiayuan Ye, Aadyaa Maddi, Sasi Kumar Murakonda, Reza Shokri(参考訳) トレーニングセット内の個々のデータレコードについて、トレーニングされたモデルがどの程度リークしているか? メンバーシップ推論攻撃は、モデルがトレーニングセット内の個々のデータポイントについてリークするプライベート情報を定量化する監査ツールとして使用される。 メンバーシップ推論攻撃は、攻撃者がトレーニングデータ、トレーニングアルゴリズム、基礎となるデータ分布について解決しなければならないさまざまな不確実性に影響される。 したがって、攻撃の成功率(文献における多くの攻撃)は、攻撃アルゴリズムが持つ他の不確実性も反映しているため、そのデータに関するモデルの情報漏洩を正確に捉えていない。 本稿では,仮説テストの枠組みを用いて,先行研究における暗黙的な仮定と単純化について述べる。 また,高いaucスコアを達成可能なフレームワークから新たな攻撃アルゴリズムを導出するとともに,その性能に影響するさまざまな要因を強調する。 我々のアルゴリズムは、モデルにおけるプライバシ損失の極めて正確な近似を捉え、機械学習モデルにおけるプライバシリスクの正確かつ詳細な推定を行うためのツールとして使用できる。 我々は、さまざまな機械学習タスクやベンチマークデータセットに対する攻撃戦略を徹底的に評価する。

How much does a given trained model leak about each individual data record in its training set? Membership inference attacks are used as an auditing tool to quantify the private information that a model leaks about the individual data points in its training set. Membership inference attacks are influenced by different uncertainties that an attacker has to resolve about training data, the training algorithm, and the underlying data distribution. Thus attack success rates, of many attacks in the literature, do not precisely capture the information leakage of models about their data, as they also reflect other uncertainties that the attack algorithm has. In this paper, we explain the implicit assumptions and also the simplifications made in prior work using the framework of hypothesis testing. We also derive new attack algorithms from the framework that can achieve a high AUC score while also highlighting the different factors that affect their performance. Our algorithms capture a very precise approximation of privacy loss in models, and can be used as a tool to perform an accurate and informed estimation of privacy risk in machine learning models. We provide a thorough empirical evaluation of our attack strategies on various machine learning tasks and benchmark datasets.
翻訳日:2021-11-19 13:52:44 公開日:2021-11-18
# 知能指向型音声音声強調に向けて

Towards Intelligibility-Orie nted Audio-Visual Speech Enhancement ( http://arxiv.org/abs/2111.09642v1 )

ライセンス: Link先を確認
Tassadaq Hussain, Mandar Gogate, Kia Dashtipour, Amir Hussain(参考訳) 既存のディープラーニング(DL)に基づく音声強調手法は、クリーンな音声特徴と強化された音声特徴との距離を最小化するために一般的に最適化されている。 これらはしばしば音声品質の向上をもたらすが、一般化の欠如に苦しめられ、本当に騒がしい状況では必要な音声知性を提供できない。 これらの課題に対処するため、研究者はi-o(intelligibility- oriented)損失関数と、より頑健な音声強調(se)のためのav情報の統合を検討してきた。 本稿では,新しい研究方向であるAV情報を利用したDLベースのI-O SEアルゴリズムを提案する。 具体的には,完全畳み込み型av seモデルを提案し,学習コスト関数としてstoi(short-time objective intelligibility)メトリックを用いた。 我々の知る限りでは、これはSEのためのI-Oベースの損失関数とAVモダリティの統合を利用する最初の研究である。 比較実験の結果,提案したI-O AV SEフレームワークは,従来の距離に基づく損失関数で訓練されたAOモデルとAVモデルよりも優れており,不明瞭な話者や雑音に対処する際の客観的評価の基準となる。

Existing deep learning (DL) based speech enhancement approaches are generally optimised to minimise the distance between clean and enhanced speech features. These often result in improved speech quality however they suffer from a lack of generalisation and may not deliver the required speech intelligibility in real noisy situations. In an attempt to address these challenges, researchers have explored intelligibility-orie nted (I-O) loss functions and integration of audio-visual (AV) information for more robust speech enhancement (SE). In this paper, we introduce DL based I-O SE algorithms exploiting AV information, which is a novel and previously unexplored research direction. Specifically, we present a fully convolutional AV SE model that uses a modified short-time objective intelligibility (STOI) metric as a training cost function. To the best of our knowledge, this is the first work that exploits the integration of AV modalities with an I-O based loss function for SE. Comparative experimental results demonstrate that our proposed I-O AV SE framework outperforms audio-only (AO) and AV models trained with conventional distance-based loss functions, in terms of standard objective evaluation measures when dealing with unseen speakers and noises.
翻訳日:2021-11-19 13:51:55 公開日:2021-11-18
# 超スペクトル画像復元のための訓練可能なスペクトル空間スパース符号化モデル

A Trainable Spectral-Spatial Sparse Coding Model for Hyperspectral Image Restoration ( http://arxiv.org/abs/2111.09708v1 )

ライセンス: Link先を確認
Th\'eo Bodrito (Thoth, Inria, UGA, CNRS, Grenoble INP, LJK), Alexandre Zouaoui (Thoth, Inria, UGA, CNRS, Grenoble INP, LJK), Jocelyn Chanussot (Thoth, Inria, UGA, CNRS, Grenoble INP, LJK), Julien Mairal (Thoth, Inria, UGA, CNRS, Grenoble INP, LJK)(参考訳) ハイパースペクトルイメージングは、航空機や衛星のリモートセンシングによる環境のモニタリング、精密農業、食品の安全性、惑星探査、天体物理学など、様々な用途に新しい視点を提供する。 残念なことに、情報のスペクトルの多様性は様々な劣化源を犠牲にしており、現場で取得した正確な「クリーン」ハイパースペクトル信号の欠如は復元作業に困難をもたらす。 特に、ディープモデルが輝きやすい従来のRGBイメージング問題とは対照的に、修復のためのディープニューラルネットワークのトレーニングは困難である。 本稿では,手作り画像に先立ってドメイン知識をエンコードする古典的な手法の解釈性を保ちながら,膨大なデータなしでエンドツーエンドでモデルパラメータをトレーニングできる疎結合なコーディング原則に基づくハイブリッドアプローチを提唱する。 本稿では,提案手法が計算効率が高く,その性能が著しく向上していることを示す。

Hyperspectral imaging offers new perspectives for diverse applications, ranging from the monitoring of the environment using airborne or satellite remote sensing, precision farming, food safety, planetary exploration, or astrophysics. Unfortunately, the spectral diversity of information comes at the expense of various sources of degradation, and the lack of accurate ground-truth "clean" hyperspectral signals acquired on the spot makes restoration tasks challenging. In particular, training deep neural networks for restoration is difficult, in contrast to traditional RGB imaging problems where deep models tend to shine. In this paper, we advocate instead for a hybrid approach based on sparse coding principles that retains the interpretability of classical techniques encoding domain knowledge with handcrafted image priors, while allowing to train model parameters end-to-end without massive amounts of data. We show on various denoising benchmarks that our method is computationally efficient and significantly outperforms the state of the art.
翻訳日:2021-11-19 13:51:31 公開日:2021-11-18
# 分類器のロバスト性を改善するための重み付け

Wiggling Weights to Improve the Robustness of Classifiers ( http://arxiv.org/abs/2111.09779v1 )

ライセンス: Link先を確認
Sadaf Gulshad, Ivan Sosnovik, Arnold Smeulders(参考訳) 不要な摂動に対するロバスト性は、現実世界にニューラルネットワーク分類器を配置する上で重要な側面である。 一般的な自然摂動はノイズ、飽和、咬合、視点変化、ぼやけ変形である。 これら全ては、新しく提案された変換拡張畳み込みネットワークによってモデル化することができる。 ネットワークに拡張データを提供することで、堅牢性に関する多くのアプローチがネットワークをトレーニングする一方で、ネットワークアーキテクチャの摂動を統合して、より良く、より一般的な堅牢性を達成することを目指している。 重み付けが一貫した分類を改善することを示すために、標準ネットワークを選択し、それを変換拡張ネットワークに修正する。 摂動型CIFAR-10画像では、修正されたネットワークは元のネットワークよりも優れたパフォーマンスを提供する。 はるかに小さなstl-10データセットでは、より汎用的なロバスト性の提供に加えて、wigglingは、不安定でクリーンな画像の分類を大幅に改善する。 我々は、トレーニング中に見えない摂動であっても、スイッチング変換強化ネットワークは良好な堅牢性が得られると結論付けた。

Robustness against unwanted perturbations is an important aspect of deploying neural network classifiers in the real world. Common natural perturbations include noise, saturation, occlusion, viewpoint changes, and blur deformations. All of them can be modelled by the newly proposed transform-augmented convolutional networks. While many approaches for robustness train the network by providing augmented data to the network, we aim to integrate perturbations in the network architecture to achieve improved and more general robustness. To demonstrate that wiggling the weights consistently improves classification, we choose a standard network and modify it to a transform-augmented network. On perturbed CIFAR-10 images, the modified network delivers a better performance than the original network. For the much smaller STL-10 dataset, in addition to delivering better general robustness, wiggling even improves the classification of unperturbed, clean images substantially. We conclude that wiggled transform-augmented networks acquire good robustness even for perturbations not seen during training.
翻訳日:2021-11-19 13:50:51 公開日:2021-11-18
# SDCUP: 表セマンティック解析のためのスキーマ依存強化カリキュラム事前学習

SDCUP: Schema Dependency-Enhanced Curriculum Pre-Training for Table Semantic Parsing ( http://arxiv.org/abs/2111.09486v1 )

ライセンス: Link先を確認
Bowen Qin, Lihan Wang, Binyuan Hui, Ruiying Geng, Zheng Cao, Min Yang, Jian Sun, Yongbin Li(参考訳) 近年,ニューラルネットワークの文脈表現能力を向上させるために大規模テキストコーパスを活用することにより,各種NLPタスクの性能が大幅に向上した。 大規模な事前学習言語モデルは、テーブルセマンティックパーシングの領域にも適用されている。 しかしながら、既存の事前学習アプローチでは、質問とそれに対応するデータベーススキーマの間の明示的なインタラクション関係を慎重に検討していない。 さらに,これらの課題を軽減するために,テーブル事前学習のための学習表現に所望の帰納バイアスを課すための2つの新しい事前学習目標を設計する。 さらに,ノイズの影響を緩和し,事前学習データから容易にハードな方法で効果的に学習する,スキーマ対応のカリキュラム学習手法を提案する。 我々は、SpiderとSQUALLの2つのベンチマークでそれを微調整することで、事前学習したフレームワークを評価する。 その結果, 各種ベースラインと比較して, 事前学習目標とカリキュラムの有効性が示された。

Recently pre-training models have significantly improved the performance of various NLP tasks by leveraging large-scale text corpora to improve the contextual representation ability of the neural network. The large pre-training language model has also been applied in the area of table semantic parsing. However, existing pre-training approaches have not carefully explored explicit interaction relationships between a question and the corresponding database schema, which is a key ingredient for uncovering their semantic and structural correspondence. Furthermore, the question-aware representation learning in the schema grounding context has received less attention in pre-training objective.To alleviate these issues, this paper designs two novel pre-training objectives to impose the desired inductive bias into the learned representations for table pre-training. We further propose a schema-aware curriculum learning approach to mitigate the impact of noise and learn effectively from the pre-training data in an easy-to-hard manner. We evaluate our pre-trained framework by fine-tuning it on two benchmarks, Spider and SQUALL. The results demonstrate the effectiveness of our pre-training objective and curriculum compared to a variety of baselines.
翻訳日:2021-11-19 13:50:35 公開日:2021-11-18
# 言語モデルはトレーニングデータからどれくらいコピーしますか? RAVENを用いたテキスト生成における言語的ノベルティの評価

How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN ( http://arxiv.org/abs/2111.09509v1 )

ライセンス: Link先を確認
R. Thomas McCoy, Paul Smolensky, Tal Linzen, Jianfeng Gao, Asli Celikyilmaz(参考訳) 現在の言語モデルは高品質なテキストを生成することができる。 彼らは単に以前見たテキストをコピーしただけなのか、それとも一般化可能な言語抽象化を学んだのか? そこで本研究では,生成テキストの新規性評価のための分析スイートであるravenを,逐次構造(n-grams)と構文構造に着目して紹介する。 これらの分析を4つのニューラルネットワークモデル(LSTM, Transformer, Transformer-XL, GPT-2)に適用する。 ローカルな構造 - 例えば、個々の依存関係 - モデル生成テキストは、各モデルのテストセットから生成された人間の生成テキストのベースラインよりも、かなり新しくありません。 大規模構造の場合。 全体的な文構造 - モデル生成テキストは、人間の生成したベースラインと同じくらい、あるいはさらに新しいものであるが、モデルはまだかなりコピーされる場合があり、訓練セットから1000語以上の節を重複させる場合もある。 また, gpt-2 の新規テキストは, 形態学的, 統語論的によく形成されているが, 意味的問題(例えば, 自己矛盾)が多様であることを示す手作業解析を行った。

Current language models can generate high-quality text. Are they simply copying text they have seen before, or have they learned generalizable linguistic abstractions? To tease apart these possibilities, we introduce RAVEN, a suite of analyses for assessing the novelty of generated text, focusing on sequential structure (n-grams) and syntactic structure. We apply these analyses to four neural language models (an LSTM, a Transformer, Transformer-XL, and GPT-2). For local structure - e.g., individual dependencies - model-generated text is substantially less novel than our baseline of human-generated text from each model's test set. For larger-scale structure - e.g., overall sentence structure - model-generated text is as novel or even more novel than the human-generated baseline, but models still sometimes copy substantially, in some cases duplicating passages over 1,000 words long from the training set. We also perform extensive manual analysis showing that GPT-2's novel text is usually well-formed morphologically and syntactically but has reasonably frequent semantic issues (e.g., being self-contradictory).
翻訳日:2021-11-19 13:50:18 公開日:2021-11-18
# SummaC: 要約における矛盾検出のためのNLIモデルの再視覚化

SummaC: Re-Visiting NLI-based Models for Inconsistency Detection in Summarization ( http://arxiv.org/abs/2111.09525v1 )

ライセンス: Link先を確認
Philippe Laban and Tobias Schnabel and Paul N. Bennett and Marti A. Hearst(参考訳) 要約領域では、要約の鍵となる要件は、実際に入力文書と整合することである。 これまでの研究では、自然言語推論(NLI)モデルが不整合検出に適用しても競合しないことがわかった。 本研究では,NLIデータセット(文レベル)と不整合検出(文書レベル)の入力粒度のミスマッチに悩まされていることから,非整合検出におけるNLIの使用を再考する。 我々は,文書を文単位に分割し,一対の文間のスコアを集約することにより,NLIモデルをこのタスクにうまく利用することができるSummaCConvという,高効率で軽量な手法を提案する。 6つの大きな不整合検出データセットからなるSummaC(Summary Consistency)と呼ばれる新しいベンチマークで、SummaCConvは、バランスの取れた精度74.4%の最先端結果を得る。 モデルとデータセットを利用可能にする。 https://github.com/t ingofurro/summac

In the summarization domain, a key requirement for summaries is to be factually consistent with the input document. Previous work has found that natural language inference (NLI) models do not perform competitively when applied to inconsistency detection. In this work, we revisit the use of NLI for inconsistency detection, finding that past work suffered from a mismatch in input granularity between NLI datasets (sentence-level), and inconsistency detection (document level). We provide a highly effective and light-weight method called SummaCConv that enables NLI models to be successfully used for this task by segmenting documents into sentence units and aggregating scores between pairs of sentences. On our newly introduced benchmark called SummaC (Summary Consistency) consisting of six large inconsistency detection datasets, SummaCConv obtains state-of-the-art results with a balanced accuracy of 74.4%, a 5% point improvement compared to prior work. We make the models and datasets available: https://github.com/t ingofurro/summac
翻訳日:2021-11-19 13:49:58 公開日:2021-11-18
# アラビア語攻撃言語訓練の自動拡張と再ターゲティング

Automatic Expansion and Retargeting of Arabic Offensive Language Training ( http://arxiv.org/abs/2111.09574v1 )

ライセンス: Link先を確認
Hamdy Mubarak, Ahmed Abdelali, Kareem Darwish and Younes Samih(参考訳) ソーシャルメディアでの攻撃的言語の使用は、こうした言語の自動識別への最近の取り組みに繋がった。 攻撃的言語は一般的な特徴を持つが、特定の実体に対する攻撃は、名前の綴りの悪質な変更のような異なる現象を示すことがある。 本稿では,エンティティ固有の攻撃言語を識別する手法を提案する。 私たちは、2つの重要な洞察を生かしています。すなわち、twitterでの返信は、しばしば反対を示し、一部のアカウントは特定のターゲットに対する攻撃性に固執しています。 我々の手法により、攻撃的なツイートを数千件集めることができる。 深層学習ベースとベクターマシンベース分類器を用いた場合, エンティティ固有攻撃言語検出における13%と79%の相対的なF1尺度の改善によるアプローチの有効性を示す。 さらに、複数のエンティティに向けられた攻撃的ツイートを自動的に認識してトレーニングセットを拡張することで、f1測定を48%改善できる。

Rampant use of offensive language on social media led to recent efforts on automatic identification of such language. Though offensive language has general characteristics, attacks on specific entities may exhibit distinct phenomena such as malicious alterations in the spelling of names. In this paper, we present a method for identifying entity specific offensive language. We employ two key insights, namely that replies on Twitter often imply opposition and some accounts are persistent in their offensiveness towards specific targets. Using our methodology, we are able to collect thousands of targeted offensive tweets. We show the efficacy of the approach on Arabic tweets with 13% and 79% relative F1-measure improvement in entity specific offensive language detection when using deep-learning based and support vector machine based classifiers respectively. Further, expanding the training set with automatically identified offensive tweets directed at multiple entities can improve F1-measure by 48%.
翻訳日:2021-11-19 13:49:39 公開日:2021-11-18
# 時間論理式とリワードマシンを用いた生涯強化学習

Lifelong Reinforcement Learning with Temporal Logic Formulas and Reward Machines ( http://arxiv.org/abs/2111.09475v1 )

ライセンス: Link先を確認
Xuejing Zheng, Chao Yu, Chen Chen, Jianye Hao, Hankz Hankui Zhuo(参考訳) 高レベルのアイデアや知識を使って新しいタスクを継続的に学習することは、人間の重要な能力である。 本稿では,事前学習された知識を活用し,論理的に指定されたタスクの学習を高速化できる逐次線形時相論理式と報酬機械(lsrm)を用いた生涯強化学習を提案する。 タスクのより柔軟な仕様化のために、まず、既存のLTL(Linear Temporal Logic)形式言語を補完するSequential Linear Temporal Logic (SLTL)を導入する。 次に,高レベルイベントにエンコードされたタスクの構造的報酬関数を利用するための報酬機械(rm)を利用し,rmの自動拡張と生涯学習のためのタスクの効率的な知識伝達を提案する。 実験の結果,lsrmは,stlを用いたタスク分解とrm上での知識伝達を生かして,目標タスクをスクラッチから学習する手法よりも優れていることがわかった。

Continuously learning new tasks using high-level ideas or knowledge is a key capability of humans. In this paper, we propose Lifelong reinforcement learning with Sequential linear temporal logic formulas and Reward Machines (LSRM), which enables an agent to leverage previously learned knowledge to fasten learning of logically specified tasks. For the sake of more flexible specification of tasks, we first introduce Sequential Linear Temporal Logic (SLTL), which is a supplement to the existing Linear Temporal Logic (LTL) formal language. We then utilize Reward Machines (RM) to exploit structural reward functions for tasks encoded with high-level events, and propose automatic extension of RM and efficient knowledge transfer over tasks for continuous learning in lifetime. Experimental results show that LSRM outperforms the methods that learn the target tasks from scratch by taking advantage of the task decomposition using SLTL and knowledge transfer over RM during the lifelong learning process.
翻訳日:2021-11-19 13:49:25 公開日:2021-11-18
# (参考訳) 長期ホライゾン目標条件強化学習のための後継特徴ランドマーク [全文訳有]

Successor Feature Landmarks for Long-Horizon Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2111.09858v1 )

ライセンス: CC BY 4.0
Christopher Hoang, Sungryull Sohn, Jongwook Choi, Wilka Carvalho, Honglak Lee(参考訳) 現実世界で運用するには、エージェントが複雑な環境について学び、この理解を適用して幅広い目標を達成する必要がある。 ゴール条件強化学習(GCRL)と呼ばれるこの問題は、特に長期的目標において困難となる。 現在の手法では、ゴール条件付きポリシーをグラフベースの計画アルゴリズムで強化することでこの問題に対処している。 しかし、大規模で高次元な状態空間への拡張に苦労し、効率的にトレーニングデータを収集するための探索機構へのアクセスを想定している。 そこで本研究では,大規模かつ高次元な環境を探索する枠組みであるsflを導入し,任意の目標に熟達した方針を得る。 SFLは、遷移ダイナミクスを捉えるための後継機能(SF)の能力を生かし、ステートノベルティを推定して探索を推進し、ステート空間を非パラメトリックなランドマークベースのグラフとして抽象化することで高レベルの計画を可能にする。 さらに、我々はSFを利用してランドマーク間トラバーサルのゴール条件付きポリシーを直接計算し、探索された状態空間の端でランドマークを「フロンティア」する計画を実行する。 我々はMiniGridとViZDoomの実験において、SFLは大規模かつ高次元の状態空間の効率的な探索を可能にし、長距離GCRLタスクにおける最先端のベースラインより優れていることを示す。

Operating in the real-world often requires agents to learn about a complex environment and apply this understanding to achieve a breadth of goals. This problem, known as goal-conditioned reinforcement learning (GCRL), becomes especially challenging for long-horizon goals. Current methods have tackled this problem by augmenting goal-conditioned policies with graph-based planning algorithms. However, they struggle to scale to large, high-dimensional state spaces and assume access to exploration mechanisms for efficiently collecting training data. In this work, we introduce Successor Feature Landmarks (SFL), a framework for exploring large, high-dimensional environments so as to obtain a policy that is proficient for any goal. SFL leverages the ability of successor features (SF) to capture transition dynamics, using it to drive exploration by estimating state-novelty and to enable high-level planning by abstracting the state-space as a non-parametric landmark-based graph. We further exploit SF to directly compute a goal-conditioned policy for inter-landmark traversal, which we use to execute plans to "frontier" landmarks at the edge of the explored state space. We show in our experiments on MiniGrid and ViZDoom that SFL enables efficient exploration of large, high-dimensional state spaces and outperforms state-of-the-art baselines on long-horizon GCRL tasks.
翻訳日:2021-11-19 13:48:38 公開日:2021-11-18
# 拡張型自己スーパービジョンによる表現の伝達性の向上

Improving Transferability of Representations via Augmentation-Aware Self-Supervision ( http://arxiv.org/abs/2111.09613v1 )

ライセンス: Link先を確認
Hankook Lee, Kibok Lee, Kimin Lee, Honglak Lee, Jinwoo Shin(参考訳) 近年の非教師なし表現学習法は、ランダムトリミングやカラージッタリングといったデータ拡張に不変な表現を学習することで、視覚タスクに有効であることが示されている。 しかし、そのような不変性は、例えば位置や色に敏感なデータ拡張の特性に依存する場合、下流タスクに有害である可能性がある。 これは教師なし学習のための問題ではなく、教師なし学習でも発生することが分かりました。 このような障害を回避し、より一般化可能な表現を得るため、ランダムに強化された2つのサンプル間の拡張パラメータ(例えば、収穫位置、色調整強度)の違いを学習する補助的な自己監督的損失であるAugSelfを最適化することを提案する。 私たちの直感は、AugSelfが学習表現における拡張認識情報の保存を奨励していることです。 さらに、AugSelfは、最新の最先端表現学習手法に、無視できる追加トレーニングコストで簡単に組み込むことができる。 広範な実験により,様々なトランスファー学習シナリオにおいて,教師なしおよび教師なしの手法によって学習される表現の転送性を一貫して改善できることを示した。 コードはhttps://github.com/h ankook/augselfで入手できる。

Recent unsupervised representation learning methods have shown to be effective in a range of vision tasks by learning representations invariant to data augmentations such as random cropping and color jittering. However, such invariance could be harmful to downstream tasks if they rely on the characteristics of the data augmentations, e.g., location- or color-sensitive. This is not an issue just for unsupervised learning; we found that this occurs even in supervised learning because it also learns to predict the same label for all augmented samples of an instance. To avoid such failures and obtain more generalizable representations, we suggest to optimize an auxiliary self-supervised loss, coined AugSelf, that learns the difference of augmentation parameters (e.g., cropping positions, color adjustment intensities) between two randomly augmented samples. Our intuition is that AugSelf encourages to preserve augmentation-aware information in learned representations, which could be beneficial for their transferability. Furthermore, AugSelf can easily be incorporated into recent state-of-the-art representation learning methods with a negligible additional training cost. Extensive experiments demonstrate that our simple idea consistently improves the transferability of representations learned by supervised and unsupervised methods in various transfer learning scenarios. The code is available at https://github.com/h ankook/AugSelf.
翻訳日:2021-11-19 13:20:09 公開日:2021-11-18
# 増やすか、増やさないか? 低リソースNLPのためのテキスト拡張手法の比較検討

To Augment or Not to Augment? A Comparative Study on Text Augmentation Techniques for Low-Resource NLP ( http://arxiv.org/abs/2111.09618v1 )

ライセンス: Link先を確認
G\"ozde G\"ul \c{S}ahin(参考訳) データ格納型ディープニューラルネットワークは、従来のシーケンスタグ付け機能を含む多くのnlpタスクの標準として確立されている。 ハイリソース言語における最先端のパフォーマンスにもかかわらず、低リソースのシナリオでは統計上のカウンターパートに置き換わっている。 この問題に対処するための方法の1つは、既存のデータから新しい合成トレーニングデータポイントを生成するテキスト拡張である。 NLPは最近、多くのテキスト拡張テクニックを目撃しているが、多種多様な言語やシーケンスタグタスクに関する体系的なパフォーマンス分析はいまだに欠けている。 このギャップを埋めるために,テキスト拡張手法の3つのカテゴリについて検討し,構文(例えば,サブセンスの切り抜き),トークン(例えば,ランダムな単語挿入),文字(例えば,文字の入れ替え)の変化について検討した。 mBERTのような事前学習された多言語言語モデルに依存するアーキテクチャを含む様々なモデルを用いて、音声タグ付け、依存性解析、意味的役割ラベル付けを体系的に比較する。 拡張は依存性のパースを最も大幅に改善し、続いてpart-of-speech taggingとsemantic role labelingが続く。 ベトナム語のような分析言語ではなく,形態学的にリッチな言語全般に有効な実験手法を見出した。 以上の結果から,拡張手法はmbertに基づく強固なベースラインよりもさらに改善できることが示唆された。 キャラクタレベルの手法を最も一貫性のあるパフォーマーとみなし,同義語置換と構文拡張が矛盾する改善を提供する。 最後に、結果がタスク、言語ペア、モデルタイプに最も大きく依存していることについて議論する。

Data-hungry deep neural networks have established themselves as the standard for many NLP tasks including the traditional sequence tagging ones. Despite their state-of-the-art performance on high-resource languages, they still fall behind of their statistical counter-parts in low-resource scenarios. One methodology to counter attack this problem is text augmentation, i.e., generating new synthetic training data points from existing data. Although NLP has recently witnessed a load of textual augmentation techniques, the field still lacks a systematic performance analysis on a diverse set of languages and sequence tagging tasks. To fill this gap, we investigate three categories of text augmentation methodologies which perform changes on the syntax (e.g., cropping sub-sentences), token (e.g., random word insertion) and character (e.g., character swapping) levels. We systematically compare them on part-of-speech tagging, dependency parsing and semantic role labeling for a diverse set of language families using various models including the architectures that rely on pretrained multilingual contextualized language models such as mBERT. Augmentation most significantly improves dependency parsing, followed by part-of-speech tagging and semantic role labeling. We find the experimented techniques to be effective on morphologically rich languages in general rather than analytic languages such as Vietnamese. Our results suggest that the augmentation techniques can further improve over strong baselines based on mBERT. We identify the character-level methods as the most consistent performers, while synonym replacement and syntactic augmenters provide inconsistent improvements. Finally, we discuss that the results most heavily depend on the task, language pair, and the model type.
翻訳日:2021-11-19 13:19:48 公開日:2021-11-18
# 動的TinyBERT:動的シーケンス長によるTinyBERTの推論効率の向上

Dynamic-TinyBERT: Boost TinyBERT's Inference Efficiency by Dynamic Sequence Length ( http://arxiv.org/abs/2111.09645v1 )

ライセンス: Link先を確認
Shira Guskin, Moshe Wasserblat, Ke Ding, Gyuwan Kim(参考訳) 限られた計算予算は、しばしば変圧器が生産に使用され、高い精度で使用されることを妨げている。 TinyBERTは、BERTを自己蒸留することで計算効率を、より少ない層と少ない内部埋め込みを持つより小さな変換器表現に変換する。 しかし、TinyBERTの性能は、レイヤ数を50%減らせば低下し、スパン質問応答のような高度なNLPタスクでは、レイヤ数を75%減らせば、さらに突然低下する。 さらに、異なる計算予算を持つ推論シナリオごとに、別のモデルを訓練する必要がある。 本稿では,任意の計算予算における推論効率の向上のために,シーケンス長削減とハイパーパラメータ最適化を利用するTinyBERTモデルであるDynamic-TinyBERTを提案する。 Dynamic-TinyBERTは1回だけ訓練され、BERTでオンパーを行い、他の効率的なアプローチ(最大3.3倍のロスドロップ)よりも精度の高いスピードアップトレードオフを達成する。 公開後、我々の作品を再現するコードはオープンソース化される。

Limited computational budgets often prevent transformers from being used in production and from having their high accuracy utilized. TinyBERT addresses the computational efficiency by self-distilling BERT into a smaller transformer representation having fewer layers and smaller internal embedding. However, TinyBERT's performance drops when we reduce the number of layers by 50%, and drops even more abruptly when we reduce the number of layers by 75% for advanced NLP tasks such as span question answering. Additionally, a separate model must be trained for each inference scenario with its distinct computational budget. In this work we present Dynamic-TinyBERT, a TinyBERT model that utilizes sequence-length reduction and Hyperparameter Optimization for enhanced inference efficiency per any computational budget. Dynamic-TinyBERT is trained only once, performing on-par with BERT and achieving an accuracy-speedup trade-off superior to any other efficient approaches (up to 3.3x with <1% loss-drop). Upon publication, the code to reproduce our work will be open-sourced.
翻訳日:2021-11-19 13:19:21 公開日:2021-11-18
# 一度だけ(ほぼ)サンプル:リニアコスト自撮り(Bernoulli Smpling)

You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling ( http://arxiv.org/abs/2111.09714v1 )

ライセンス: Link先を確認
Zhanpeng Zeng, Yunyang Xiong, Sathya N. Ravi, Shailesh Acharya, Glenn Fung, Vikas Singh(参考訳) トランスフォーマーベースのモデルは自然言語処理(NLP)で広く使われている。 トランスモデルの中心は自己保持機構であり、入力シーケンスにおけるトークンペアの相互作用を捉え、シーケンスの長さに2次に依存する。 長いシーケンスでそのようなモデルをトレーニングするのはコストがかかる。 本稿では,LSH(Locality Sensitive Hashing)に基づくBernoulliサンプリングアテンション機構が,そのようなモデルの二次的複雑性を線形に減少させることを示す。 我々は、ベルヌーイ確率変数に関連する個々のトークンの和として自己注意を考えることで二次コストを回避し、原則として1つのハッシュで一度にサンプリングできる(実際にはこの数は小さい定数かもしれない)。 これにより、LSHの特定の変更(GPUアーキテクチャへのデプロイを可能にする)に依存する自己注意を推定する効率的なサンプリングスキームが実現される。 提案アルゴリズムは,標準512列長のGLUEベンチマークで評価し,標準事前学習トランスに比べて良好な性能を示した。 ロングレンジ・アリーナ (lra) ベンチマークでは, 長いシーケンスでの性能を評価するために, ソフトマックスの自己着脱と一貫性のある結果が得られるが, ある程度のスピードアップとメモリ節約が可能であり, 他の効率的な自己着脱法よりも優れることが多い。 私たちのコードはhttps://github.com/m lpen/YOSOで利用可能です。

Transformer-based models are widely used in natural language processing (NLP). Central to the transformer model is the self-attention mechanism, which captures the interactions of token pairs in the input sequences and depends quadratically on the sequence length. Training such models on longer sequences is expensive. In this paper, we show that a Bernoulli sampling attention mechanism based on Locality Sensitive Hashing (LSH), decreases the quadratic complexity of such models to linear. We bypass the quadratic cost by considering self-attention as a sum of individual tokens associated with Bernoulli random variables that can, in principle, be sampled at once by a single hash (although in practice, this number may be a small constant). This leads to an efficient sampling scheme to estimate self-attention which relies on specific modifications of LSH (to enable deployment on GPU architectures). We evaluate our algorithm on the GLUE benchmark with standard 512 sequence length where we see favorable performance relative to a standard pretrained Transformer. On the Long Range Arena (LRA) benchmark, for evaluating performance on long sequences, our method achieves results consistent with softmax self-attention but with sizable speed-ups and memory savings and often outperforms other efficient self-attention methods. Our code is available at https://github.com/m lpen/YOSO
翻訳日:2021-11-19 13:19:01 公開日:2021-11-18
# (参考訳) 表情認識のための局所的マルチヘッドチャネル自己認識 [全文訳有]

Local Multi-Head Channel Self-Attention for Facial Expression Recognition ( http://arxiv.org/abs/2111.07224v2 )

ライセンス: CC BY 4.0
Roberto Pecoraro, Valerio Basile, Viviana Bono, Sara Gallo(参考訳) 2017年にTransformerアーキテクチャが導入されて以来、コンピュータビジョンの分野で自己注意パラダイムを導入する試みが数多く行われている。 本稿では,事実上すべての畳み込みニューラルネットワークに容易に統合でき,コンピュータビジョンのために特別に設計された新しい自己注意モジュール LHC: Local (multi) Head Channel (self-attention)を提案する。 第一に、コンピュータビジョンにおいて、自己注意パラダイムを利用する最善の方法は、より探究された空間的注意ではなくチャネル回りのアプリケーションであり、畳み込みは、再帰的ネットワークがnlpにあるような注意モジュールに置き換えられず、第二に、局所的なアプローチは、グローバルな注意よりも畳み込みの限界を克服する可能性を秘めている。 lhc-net では,これまでの sota と比較した場合の計算コストの観点から,複雑性と "ホスト" アーキテクチャへの影響を大幅に低減した,有名な fer2013 データセット の新たな最先端を実現することができました。

Since the Transformer architecture was introduced in 2017 there has been many attempts to bring the self-attention paradigm in the field of computer vision. In this paper we propose a novel self-attention module that can be easily integrated in virtually every convolutional neural network and that is specifically designed for computer vision, the LHC: Local (multi) Head Channel (self-attention). LHC is based on two main ideas: first, we think that in computer vision the best way to leverage the self-attention paradigm is the channel-wise application instead of the more explored spatial attention and that convolution will not be replaced by attention modules like recurrent networks were in NLP; second, a local approach has the potential to better overcome the limitations of convolution than global attention. With LHC-Net we managed to achieve a new state of the art in the famous FER2013 dataset with a significantly lower complexity and impact on the "host" architecture in terms of computational cost when compared with the previous SOTA.
翻訳日:2021-11-19 13:17:00 公開日:2021-11-18
# (参考訳) 神経クラス発現合成 [全文訳有]

Neural Class Expression Synthesis ( http://arxiv.org/abs/2111.08486v2 )

ライセンス: CC BY 4.0
N'Dah Jean Kouagou, Stefan Heindorf, Caglar Demir, Axel-Cyrille Ngonga Ngomo(参考訳) クラス表現学習は、重要性を増すための説明可能な教師付き機械学習の分野である。 記述論理におけるクラス表現学習の既存のアプローチは、探索アルゴリズムやハードルールベースである。 特に、洗練演算子に基づくアプローチは、各学習問題に対する大きな探索空間を探索するためにヒューリスティック関数に依存するため、スケーラビリティの問題に悩まされる。 そこで我々は,合成手法を考案した新しいアプローチのファミリーを提案する。 このファミリーのインスタンスは、提供される例から直接クラス式を計算します。 したがって、検索ベースのアプローチのランタイム制限や、ハードルールベースのアプローチの柔軟性の欠如には従わない。 本研究では,軽量ニューラルネットワークアーキテクチャを用いて,ポジティブな例の集合からクラス表現を合成する手法の3つの例について検討した。 4つのベンチマークデータセットで評価した結果, 平均1秒以内の入力例に対して, 高品質なクラス表現を効果的に合成できることが示唆された。 さらに, CELOE と ELTL との比較により, 大規模オントロジーにおけるF測定精度が有意に向上していることが示唆された。 再現性のために、私たちは実装と事前トレーニングされたモデルをhttps://github.com/c onceptlengthlearner/ ncesのgithubリポジトリで提供します。

Class expression learning is a branch of explainable supervised machine learning of increasing importance. Most existing approaches for class expression learning in description logics are search algorithms or hard-rule-based. In particular, approaches based on refinement operators suffer from scalability issues as they rely on heuristic functions to explore a large search space for each learning problem. We propose a new family of approaches, which we dub synthesis approaches. Instances of this family compute class expressions directly from the examples provided. Consequently, they are not subject to the runtime limitations of search-based approaches nor the lack of flexibility of hard-rule-based approaches. We study three instances of this novel family of approaches that use lightweight neural network architectures to synthesize class expressions from sets of positive examples. The results of their evaluation on four benchmark datasets suggest that they can effectively synthesize high-quality class expressions with respect to the input examples in under a second on average. Moreover, a comparison with the state-of-the-art approaches CELOE and ELTL suggests that we achieve significantly better F-measures on large ontologies. For reproducibility purposes, we provide our implementation as well as pre-trained models in the public GitHub repository at https://github.com/C onceptLengthLearner/ NCES
翻訳日:2021-11-19 12:59:47 公開日:2021-11-18
# (参考訳) 自動生成会話メトリクスと再生ビデオによるテレタンデム反射のファシリテート [全文訳有]

Facilitating reflection in teletandem through automatically generated conversation metrics and playback video ( http://arxiv.org/abs/2111.08788v2 )

ライセンス: CC BY 4.0
Aparajita Dey-Plissonneau, Hyowon Lee, Michael Scriney, Alan F. Smeaton, Vincent Pradier, Hamza Riaz(参考訳) このパイロット研究は、L2Lと呼ばれるツールに焦点を当てており、第二言語(L2)学習者は、ネイティブスピーカーとのZoomインタラクションを視覚化し分析することができる。 L2LはZoom transcriptを使用して会話メトリクスを自動生成し、タイムスタンプによる再生機能により、学生は会話の選択した部分を再生して、セッション後のリフレクションと自己レビューを行うことができる。 本研究は,アイルランド大学でフランス語を学ぶ大学生(b2)がzoomで英語を学ぶフランスの大学(b2+)の仲間と交流する,7週間のテレタンデムプロジェクトを調査した。 質問紙調査(N=43)と半構造化インタビュー(N=35)から収集したデータから,会話の量的指標と同期コンテンツの質的評価が,母語話者と対話しながら学生の信頼度を高めることを示唆した。 さらに、参加を改善するために具体的な目標を設定し、何、なぜ、どのように学習しているかをより認識できるようになった。

This pilot study focuses on a tool called L2L that allows second language (L2) learners to visualise and analyse their Zoom interactions with native speakers. L2L uses the Zoom transcript to automatically generate conversation metrics and its playback feature with timestamps allows students to replay any chosen portion of the conversation for post-session reflection and self-review. This exploratory study investigates a seven-week teletandem project, where undergraduate students from an Irish University learning French (B2) interacted with their peers from a French University learning English (B2+) via Zoom. The data collected from a survey (N=43) and semi-structured interviews (N=35) show that the quantitative conversation metrics and qualitative review of the synchronous content helped raise students' confidence levels while engaging with native speakers. Furthermore, it allowed them to set tangible goals to improve their participation, and be more aware of what, why and how they are learning.
翻訳日:2021-11-19 12:40:51 公開日:2021-11-18
# (参考訳) DeltaConv: 外部計算による異方性ポイントクラウド学習 [全文訳有]

DeltaConv: Anisotropic Point Cloud Learning with Exterior Calculus ( http://arxiv.org/abs/2111.08799v2 )

ライセンス: CC BY 4.0
Ruben Wiersma, Ahmad Nasikun, Elmar Eisemann, Klaus Hildebrandt(参考訳) 3Dポイントクラウドデータからの学習は、画像の深層学習の成功と3Dデータの可用性の向上によって、急速に勢いづきつつある。 本稿では,点雲から導出される表面に直接作用する異方性畳み込みを構築することを目的とする。 これは、表面上の接角方向のグローバル座標系が欠如しているため、難しい。 デルタコンブと呼ばれる新しい畳み込み演算子を導入し、外部計算から幾何演算子を組み合わせて点雲上に異方性フィルタを構築する。 これらの作用素はスカラーフィールドとベクトルフィールドで定義されるので、ネットワークをスカラーストリームとベクトルストリームに分離し、オペレータが接続する。 ベクトルストリームにより、ネットワークは方向情報を明示的に表現し、評価し、処理することができる。 私たちの畳み込みは堅牢で実装が簡単で、いくつかのベンチマークで最先端のアプローチと比較して精度が向上しています。

Learning from 3D point-cloud data has rapidly gained momentum, motivated by the success of deep learning on images and the increased availability of 3D data. In this paper, we aim to construct anisotropic convolutions that work directly on the surface derived from a point cloud. This is challenging because of the lack of a global coordinate system for tangential directions on surfaces. We introduce a new convolution operator called DeltaConv, which combines geometric operators from exterior calculus to enable the construction of anisotropic filters on point clouds. Because these operators are defined on scalar- and vector-fields, we separate the network into a scalar- and a vector-stream, which are connected by the operators. The vector stream enables the network to explicitly represent, evaluate, and process directional information. Our convolutions are robust and simple to implement and show improved accuracy compared to state-of-the-art approaches on several benchmarks, while also speeding up training and inference.
翻訳日:2021-11-19 12:36:11 公開日:2021-11-18
# (参考訳) シリコン後検証のための自己学習チューニング [全文訳有]

Self-Learning Tuning for Post-Silicon Validation ( http://arxiv.org/abs/2111.08995v2 )

ライセンス: CC BY 4.0
Peter Domanski, Dirk Pfl\"uger, Jochen Rivoir, Rapha\"el Latty(参考訳) 現代のチップの複雑さが増すと、設計検証が難しくなる。 既存のアプローチは、ポストシリコン検証における堅牢なパフォーマンスチューニングのようなタスクの複雑さにもはや対処できない。 そこで本稿では,複雑な混合型チューニングタスクを効率的かつ堅牢な方法で解くために,学習の最適化と強化学習に基づく新しいアプローチを提案する。

Increasing complexity of modern chips makes design validation more difficult. Existing approaches are not able anymore to cope with the complexity of tasks such as robust performance tuning in post-silicon validation. Therefore, we propose a novel approach based on learn-to-optimize and reinforcement learning in order to solve complex and mixed-type tuning tasks in a efficient and robust way.
翻訳日:2021-11-19 12:20:40 公開日:2021-11-18
# (参考訳) 不均衡データにおける不規則な観測の予測を改善するサンプリング [全文訳有]

Sampling To Improve Predictions For Underrepresented Observations In Imbalanced Data ( http://arxiv.org/abs/2111.09065v2 )

ライセンス: CC BY 4.0
Rune D. Kj{\ae}rsgaard, Manja G. Gr{\o}nberg, Line K. H. Clemmensen(参考訳) データの不均衡はプロダクションデータにおいて一般的であり、管理されたプロダクション設定では、データ分析の洞察ではなく品質評価を念頭に置いたデータ収集が必要となる。 この不均衡は、表現不足な観測におけるモデルの予測性能に悪影響を及ぼす。 そこで本研究では,過去の生産データに基づくモデルの性能向上を目標として,この不均衡を解消するためのサンプリングを提案する。 不均衡に適応するための3つのサンプリング手法について検討する。 目標はトレーニングデータのコ変数をダウンサンプルし、その後回帰モデルに適合させることだ。 本研究は,サンプルデータとオリジナルデータを用いて,モデルの予測能力がどのように変化するかを検討する。 本手法は,ペニシリン生産の高度シミュレーションから得られた大規模バイオ医薬品製造データに適用し,サンプルデータを用いてモデルに適合させることで予測性能が小さくなるが,低表示の観察で体系的に優れた性能が得られることを見出した。 さらに、結果は、代替、公正、バランスの取れたモデル評価の必要性を強調している。

Data imbalance is common in production data, where controlled production settings require data to fall within a narrow range of variation and data are collected with quality assessment in mind, rather than data analytic insights. This imbalance negatively impacts the predictive performance of models on underrepresented observations. We propose sampling to adjust for this imbalance with the goal of improving the performance of models trained on historical production data. We investigate the use of three sampling approaches to adjust for imbalance. The goal is to downsample the covariates in the training data and subsequently fit a regression model. We investigate how the predictive power of the model changes when using either the sampled or the original data for training. We apply our methods on a large biopharmaceutical manufacturing data set from an advanced simulation of penicillin production and find that fitting a model using the sampled data gives a small reduction in the overall predictive performance, but yields a systematically better performance on underrepresented observations. In addition, the results emphasize the need for alternative, fair, and balanced model evaluations.
翻訳日:2021-11-19 12:17:19 公開日:2021-11-18
# TimeVAE:多変量時系列生成のための変分自動エンコーダ

TimeVAE: A Variational Auto-Encoder for Multivariate Time Series Generation ( http://arxiv.org/abs/2111.08095v2 )

ライセンス: Link先を確認
Abhyuday Desai, Cynthia Freeman, Zuhui Wang, Ian Beaver(参考訳) 時系列領域における合成データ生成の最近の研究は、ジェネレーティブ・アドバイサル・ネットワークの利用に焦点を当てている。 本稿では,変分自動エンコーダ(VAE)を用いて時系列データを合成生成する新しいアーキテクチャを提案する。 提案されたアーキテクチャには、解釈可能性、ドメイン知識をエンコードする能力、トレーニング時間の短縮など、いくつかの異なる特性がある。 4つの多変量データセットに対する類似性と予測可能性によってデータ生成品質を評価する。 我々は,vae法および最先端データ生成法において,データ可用性が生成品質に与える影響を測定するために,トレーニングデータのサイズを変化させる実験を行った。 類似性試験の結果から,VAE手法が元のデータの時間特性を正確に表現できることが示唆された。 生成データを用いた次のステップ予測タスクでは,提案するvaeアーキテクチャが最先端データ生成手法の性能を一貫して満たしているか,あるいは超えている。 ノイズ低減は、生成したデータを元のデータから逸脱させる可能性があるが、生成したデータを用いた次のステップ予測の性能を著しく向上させることができることを示す。 最後に、提案アーキテクチャは、多項式トレンドや季節性などのドメイン固有の時間パターンを組み込んで解釈可能な出力を提供する。 このような解釈性は、モデル出力の透明性を必要とするアプリケーションや、ユーザが時系列パターンの事前知識を生成モデルに注入したい場合に非常に有利である。

Recent work in synthetic data generation in the time-series domain has focused on the use of Generative Adversarial Networks. We propose a novel architecture for synthetically generating time-series data with the use of Variational Auto-Encoders (VAEs). The proposed architecture has several distinct properties: interpretability, ability to encode domain knowledge, and reduced training times. We evaluate data generation quality by similarity and predictability against four multivariate datasets. We experiment with varying sizes of training data to measure the impact of data availability on generation quality for our VAE method as well as several state-of-the-art data generation methods. Our results on similarity tests show that the VAE approach is able to accurately represent the temporal attributes of the original data. On next-step prediction tasks using generated data, the proposed VAE architecture consistently meets or exceeds performance of state-of-the-art data generation methods. While noise reduction may cause the generated data to deviate from original data, we demonstrate the resulting de-noised data can significantly improve performance for next-step prediction using generated data. Finally, the proposed architecture can incorporate domain-specific time-patterns such as polynomial trends and seasonalities to provide interpretable outputs. Such interpretability can be highly advantageous in applications requiring transparency of model outputs or where users desire to inject prior knowledge of time-series patterns into the generative model.
翻訳日:2021-11-19 12:10:12 公開日:2021-11-18
# HiRID-ICU-Benchmark - 高解像度ICUデータの総合的機械学習ベンチマーク

HiRID-ICU-Benchmark -- A Comprehensive Machine Learning Benchmark on High-resolution ICU Data ( http://arxiv.org/abs/2111.08536v3 )

ライセンス: Link先を確認
Hugo Y\`eche, Rita Kuznetsova, Marc Zimmermann, Matthias H\"user, Xinrui Lyu, Martin Faltys, Gunnar R\"atsch(参考訳) Intensive Care Units (ICU) から収集した時系列に適用される機械学習手法の最近の成功は、そのような手法の開発と比較のための標準化された機械学習ベンチマークの欠如を露呈している。 mimic-iv や eicu といった生のデータセットは physionet 上で自由にアクセスすることができるが、タスクの選択や前処理は各出版物に対して副次的に選択され、出版物間の互換性が制限される。 本研究では,ICU関連タスクの幅広い範囲をカバーするベンチマークを提供することで,この状況を改善することを目的とする。 HiRIDデータセットを用いて,臨床医とのコラボレーションによって開発された複数の臨床関連タスクを定義した。 さらに、再現可能なエンドツーエンドパイプラインを提供し、データとラベルの両方を構築する。 最後に,最先端のシーケンスモデリング手法の詳細な分析を行い,この種のデータに対するディープラーニングアプローチの限界を浮き彫りにする。 このベンチマークでは、研究コミュニティに彼らの成果を公正に比較できる可能性を与えたいと思っています。

The recent success of machine learning methods applied to time series collected from Intensive Care Units (ICU) exposes the lack of standardized machine learning benchmarks for developing and comparing such methods. While raw datasets, such as MIMIC-IV or eICU, can be freely accessed on Physionet, the choice of tasks and pre-processing is often chosen ad-hoc for each publication, limiting comparability across publications. In this work, we aim to improve this situation by providing a benchmark covering a large spectrum of ICU-related tasks. Using the HiRID dataset, we define multiple clinically relevant tasks developed in collaboration with clinicians. In addition, we provide a reproducible end-to-end pipeline to construct both data and labels. Finally, we provide an in-depth analysis of current state-of-the-art sequence modeling methods, highlighting some limitations of deep learning approaches for this type of data. With this benchmark, we hope to give the research community the possibility of a fair comparison of their work.
翻訳日:2021-11-19 12:09:51 公開日:2021-11-18
# ディープヘッジ:最小等価近傍マーチンゲール対策によるトレーディング摩擦下でのドリフト除去学習

Deep Hedging: Learning to Remove the Drift under Trading Frictions with Minimal Equivalent Near-Martingale Measures ( http://arxiv.org/abs/2111.07844v2 )

ライセンス: Link先を確認
Hans Buehler, Phillip Murray, Mikko S. Pakkanen, Ben Wood(参考訳) 取引可能な機器の市場シミュレーター(スポット価格やオプションなど)について,最小限の等価なマーチンゲール尺度を学習するための数値的に効率的な手法を提案する。 取引コストと取引制限の存在下では、予測されたリターンが既定の入札/リスク拡散内にとどまる最小の等価な「近辺マーチンゲール措置」を学習する結果を緩和する。 したがって、高次元複素空間における「ドリフトの除去」に対する我々のアプローチは完全にモデルフリーであり、古典的な仲裁を示さない任意の市場シミュレータに適用できる。 結果として得られるモデルは、リスク中立的な価格、あるいは“ディープヘッジ”のトランザクションコストやトレーディング制約に使用することができる。 本稿では,2つの市場シミュレータ,自動回帰的離散時間確率的暗黙的変動モデル,GAN(Generative Adversarial Network)ベースのシミュレータに適用し,統計量に基づくオプション価格の履歴データに基づいて,スポットとオプション価格の現実的なサンプルを生成する手法を提案する。 当初の市場シミュレータの推定誤差に関して,ロバスト性についてコメントする。

We present a numerically efficient approach for learning minimal equivalent martingale measures for market simulators of tradable instruments, e.g. for a spot price and options written on the same underlying. In the presence of transaction cost and trading restrictions, we relax the results to learning minimal equivalent "near-martingale measures" under which expected returns remain within prevailing bid/ask spreads. Our approach to thus "removing the drift" in a high dimensional complex space is entirely model-free and can be applied to any market simulator which does not exhibit classic arbitrage. The resulting model can be used for risk neutral pricing, or, in the case of transaction costs or trading constraints, for "Deep Hedging". We demonstrate our approach by applying it to two market simulators, an auto-regressive discrete-time stochastic implied volatility model, and a Generative Adversarial Network (GAN) based simulator, both of which trained on historical data of option prices under the statistical measure to produce realistic samples of spot and option prices. We comment on robustness with respect to estimation error of the original market simulator.
翻訳日:2021-11-19 12:09:34 公開日:2021-11-18
# ハードラベル攻撃の歪み低減のための最適タンジェント点の探索

Finding Optimal Tangent Points for Reducing Distortions of Hard-label Attacks ( http://arxiv.org/abs/2111.07492v2 )

ライセンス: Link先を確認
Chen Ma, Xiangyu Guo, Li Chen, Jun-Hai Yong, Yisen Wang(参考訳) ブラックボックスの敵攻撃の大きな問題は、上位1つのラベルしか使用できないハードラベル攻撃設定におけるクエリの複雑さである。 本稿では,決定境界上に位置する仮想半球の最適接点を同定し,攻撃の歪みを低減させる,タンジェント攻撃(ta)と呼ばれる新しい幾何学的アプローチを提案する。 決定境界が局所平坦であると仮定すると、各反復においてそのような接点を通る接線に沿って決定境界に達することにより、最小$\ell_2$歪みが得られることが理論的に証明される。 さらに,本手法のロバスト性を向上させるため,半楕円形で半球を置き換え,曲線決定境界に適応する一般化手法を提案する。 我々のアプローチはハイパーパラメータと事前トレーニングがない。 ImageNet と CIFAR-10 データセットで行った大規模な実験により,我々の手法は少数のクエリしか消費できず,低マグニチュード歪みを実現することができた。 実装ソースコードはhttps://github.com/m achanic/TangentAttac k.comで公開されている。

One major problem in black-box adversarial attacks is the high query complexity in the hard-label attack setting, where only the top-1 predicted label is available. In this paper, we propose a novel geometric-based approach called Tangent Attack (TA), which identifies an optimal tangent point of a virtual hemisphere located on the decision boundary to reduce the distortion of the attack. Assuming the decision boundary is locally flat, we theoretically prove that the minimum $\ell_2$ distortion can be obtained by reaching the decision boundary along the tangent line passing through such tangent point in each iteration. To improve the robustness of our method, we further propose a generalized method which replaces the hemisphere with a semi-ellipsoid to adapt to curved decision boundaries. Our approach is free of hyperparameters and pre-training. Extensive experiments conducted on the ImageNet and CIFAR-10 datasets demonstrate that our approach can consume only a small number of queries to achieve the low-magnitude distortion. The implementation source code is released online at https://github.com/m achanic/TangentAttac k.
翻訳日:2021-11-19 12:09:12 公開日:2021-11-18
# (参考訳) 視覚的質問応答におけるヒューマンパリティの達成 [全文訳有]

Achieving Human Parity on Visual Question Answering ( http://arxiv.org/abs/2111.08896v2 )

ライセンス: CC BY 4.0
Ming Yan, Haiyang Xu, Chenliang Li, Junfeng Tian, Bin Bi, Wei Wang, Weihua Chen, Xianzhe Xu, Fan Wang, Zheng Cao, Ji Zhang, Songfang Huang, Fei Huang, Luo Si, Rong Jin(参考訳) 視覚質問応答(vqa)タスクは、視覚画像と言語分析の両方を使用して、画像に関するテキスト質問に応答する。 この10年間で現実世界のアプリケーションが増えていることで、人気のある研究テーマとなっている。 本稿では,alicemind-mmu (alibaba's collection of encoder-decoder from machine intelligence lab of damo academy - multimedia understanding) に関する最近の研究について述べる。 これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。 異なるタイプの視覚的質問を必要な専門知識で扱うことは、VQAアーキテクチャのパフォーマンスを人間レベルまで上げる上で重要な役割を担います。 新しい研究成果の有効性を示すために,広範囲にわたる実験と分析を行った。

The Visual Question Answering (VQA) task utilizes both visual image and language analysis to answer a textual question with respect to an image. It has been a popular research topic with an increasing number of real-world applications in the last decade. This paper describes our recent research of AliceMind-MMU (ALIbaba's Collection of Encoder-decoders from Machine IntelligeNce lab of Damo academy - MultiMedia Understanding) that obtains similar or even slightly better results than human being does on VQA. This is achieved by systematically improving the VQA pipeline including: (1) pre-training with comprehensive visual and textual feature representation; (2) effective cross-modal interaction with learning to attend; and (3) A novel knowledge mining framework with specialized expert modules for the complex VQA task. Treating different types of visual questions with corresponding expertise needed plays an important role in boosting the performance of our VQA architecture up to the human level. An extensive set of experiments and analysis are conducted to demonstrate the effectiveness of the new research work.
翻訳日:2021-11-19 12:08:23 公開日:2021-11-18
# 異常検出のための自己監督型予測畳み込み回避ブロック

Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection ( http://arxiv.org/abs/2111.09099v2 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea, Neelu Madan, Radu Tudor Ionescu, Kamal Nasrollahi, Fahad Shahbaz Khan, Thomas B. Moeslund, Mubarak Shah(参考訳) 異常検出は、通常と異常の両方のテストサンプルで評価しながら、モデルが通常のトレーニングサンプルからのみ学習できる、一級分類問題として一般的に追求されている。 異常検出に成功している手法としては,マスク情報(パッチ,将来のフレームなど)の予測や,マスク情報に対する再構成誤差を異常スコアとして活用する手法がある。 関連する手法と異なり,新しい自己教師あり予測アーキテクチャ構築ブロックに再構成に基づく機能を統合することを提案する。 提案する自己教師ブロックは汎用的であり、様々な最先端の異常検出方法に容易に組み込むことができる。 私たちのブロックは、レセプティブフィールドの中心領域がマスクされている拡張フィルタを備えた畳み込み層から始まります。 得られた活性化マップはチャネルアテンションモジュールを通過します。 我々のブロックは、受容領域におけるマスク領域に対する再構成誤差を最小限に抑える損失を備える。 画像や動画の異常検出のための最先端フレームワークに組み込んで,MVTec AD, Avenue, ShanghaiTechの性能向上を示す実証的な証拠を提供することで,ブロックの汎用性を実証する。

Anomaly detection is commonly pursued as a one-class classification problem, where models can only learn from normal training samples, while being evaluated on both normal and abnormal test samples. Among the successful approaches for anomaly detection, a distinguished category of methods relies on predicting masked information (e.g. patches, future frames, etc.) and leveraging the reconstruction error with respect to the masked information as an abnormality score. Different from related methods, we propose to integrate the reconstruction-based functionality into a novel self-supervised predictive architectural building block. The proposed self-supervised block is generic and can easily be incorporated into various state-of-the-art anomaly detection methods. Our block starts with a convolutional layer with dilated filters, where the center area of the receptive field is masked. The resulting activation maps are passed through a channel attention module. Our block is equipped with a loss that minimizes the reconstruction error with respect to the masked area in the receptive field. We demonstrate the generality of our block by integrating it into several state-of-the-art frameworks for anomaly detection on image and video, providing empirical evidence that shows considerable performance improvements on MVTec AD, Avenue, and ShanghaiTech.
翻訳日:2021-11-19 11:30:27 公開日:2021-11-18
# 解釈可能で信頼性の高い読み理解に向けて : 予測不能なパイプラインモデル

Towards Interpretable and Reliable Reading Comprehension: A Pipeline Model with Unanswerability Prediction ( http://arxiv.org/abs/2111.09029v2 )

ライセンス: Link先を確認
Kosuke Nishida, Kyosuke Nishida, Itsumi Saito, Sen Yoshida(参考訳) 回答の解釈可能性を考慮した読解(RC)課題である注釈付きサポート事実を持つマルチホップQAについて検討した。 本研究では,解釈不能な問合せを予測可能なパイプラインモデルとして解釈可能な読解理解(IRC)モデルを定義する。 IRCモデルは、予測された支持事実と解釈可能性の実際の理論的根拠との整合性を確立することにより、回答予測を正当化する。 ircモデルは、十分な情報に基づいて強制的に回答を出力するのではなく、解答不能な質問を検出し、解答の信頼性を確保する。 また,パイプラインRCモデルのエンドツーエンドトレーニング手法を提案する。 解釈可能性と信頼性を評価するために,各経路に対するマルチホップ質問の解答可能性を考慮した実験を行った。 我々のエンドツーエンドのトレーニング可能なパイプラインモデルは、修正されたHotpotQAデータセットで非解釈可能なモデルよりも優れていることを示す。 また, 予測性能と解釈可能性のトレードオフにもかかわらず, IRCモデルは従来の非解釈モデルと同等の結果が得られることを示した。

Multi-hop QA with annotated supporting facts, which is the task of reading comprehension (RC) considering the interpretability of the answer, has been extensively studied. In this study, we define an interpretable reading comprehension (IRC) model as a pipeline model with the capability of predicting unanswerable queries. The IRC model justifies the answer prediction by establishing consistency between the predicted supporting facts and the actual rationale for interpretability. The IRC model detects unanswerable questions, instead of outputting the answer forcibly based on the insufficient information, to ensure the reliability of the answer. We also propose an end-to-end training method for the pipeline RC model. To evaluate the interpretability and the reliability, we conducted the experiments considering unanswerability in a multi-hop question for a given passage. We show that our end-to-end trainable pipeline model outperformed a non-interpretable model on our modified HotpotQA dataset. Experimental results also show that the IRC model achieves comparable results to the previous non-interpretable models in spite of the trade-off between prediction performance and interpretability.
翻訳日:2021-11-19 11:30:08 公開日:2021-11-18