このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210119となっている論文です。

PDF登録状況(公開日: 20210119)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) メタラーニングによる視覚・言語ナビゲーションのための視覚知覚一般化 [全文訳有]

Visual Perception Generalization for Vision-and-Language Navigation via Meta-Learning ( http://arxiv.org/abs/2012.05446v3 )

ライセンス: CC BY 4.0
Ting Wang, Zongkai Wu, Donglin Wang(参考訳) VLN(Vision-and-Langu age Navigation)は、自然言語の指示やリアルタイムで受信した視覚情報を理解することによって、エージェントが現実世界の環境をナビゲートする必要がある課題である。 従来の作業では、1.5メートルの高さ、90度の水平視野(HFOV)など、データセットの制限により、固定されたカメラ構成を使用して、連続環境や物理的なロボット上でVLNタスクを実装していた。 しかし、目的の異なる現実のロボットは複数のカメラ構成を持ち、視覚情報のギャップが大きいため、学習したナビゲーションモデルを様々なロボット間で直接転送することは困難である。 本稿では,メタ学習に基づく視覚認識の一般化戦略を提案する。 学習段階では,まず視覚知覚モジュールに対する一般化問題を同定し,次に2つのメタ学習アルゴリズムを比較して,視聴覚および視聴覚環境における一般化を改善する。 そのうちの1つは、いくつかのショット適応を必要とするモデル非依存メタラーニング(MAML)アルゴリズムを使用し、もう1つは、機能的にアフィン変換層を持つメトリックベースのメタラーニング手法である。 実験の結果,本手法は学習したナビゲーションモデルを新しいカメラ構成に適応させることに成功し,この2つのアルゴリズムは目に見える環境と見えない環境においてそれぞれ優位性を示すことがわかった。

Vision-and-language navigation (VLN) is a challenging task that requires an agent to navigate in real-world environments by understanding natural language instructions and visual information received in real-time. Prior works have implemented VLN tasks on continuous environments or physical robots, all of which use a fixed camera configuration due to the limitations of datasets, such as 1.5 meters height, 90 degrees horizontal field of view (HFOV), etc. However, real-life robots with different purposes have multiple camera configurations, and the huge gap in visual information makes it difficult to directly transfer the learned navigation model between various robots. In this paper, we propose a visual perception generalization strategy based on meta-learning, which enables the agent to fast adapt to a new camera configuration with a few shots. In the training phase, we first locate the generalization problem to the visual perception module, and then compare two meta-learning algorithms for better generalization in seen and unseen environments. One of them uses the Model-Agnostic Meta-Learning (MAML) algorithm that requires a few shot adaptation, and the other refers to a metric-based meta-learning method with a feature-wise affine transformation layer. The experiment results show that our strategy successfully adapts the learned navigation model to a new camera configuration, and the two algorithms show their advantages in seen and unseen environments respectively.
翻訳日:2021-05-15 23:26:51 公開日:2021-01-19
# (参考訳) Polyak-{\L}ojasiewicz条件下でのCV@R統計的学習のための確率勾配の雑音収束 [全文訳有]

Noisy Linear Convergence of Stochastic Gradient Descent for CV@R Statistical Learning under Polyak-{\L}ojasiewicz Conditions ( http://arxiv.org/abs/2012.07785v3 )

ライセンス: CC BY 4.0
Dionysios S. Kalogerias(参考訳) コンディショナルバリュー・アット・リスク(\mathrm{CV@R}$)は、近年、安全、公正性、分散ロバスト性、予測エラー安定性など、現代の応用において望ましい運用特徴に関連するため、教師付き統計学習におけるパフォーマンス基準として、最も一般的なリスク対策の1つである。 しかし、その変分的な定義から、$\mathrm{cv@r}$ は滑らかで強い凸損失関数であっても難しい最適化問題を引き起こすと考えられている。 我々は、集合制限されたポリアック・ロジャシェヴィチの不等式を満たす強凸(あるいは凸)損失関数の大きいクラスに対して、逐次的$\mathrm{cv@r}$ learning に対する確率的勾配降下のノイズ(すなわち固定精度)線形収束を確立することで、この主張を否定する。 このクラスは滑らかで強い凸損失を全て含み、線形最小二乗回帰のような古典的な問題は、リスク中立バージョンと同様に$\mathrm{cv@r}$条件の下で効率的に解くことができる。 本研究では,このようなリスクを意識したリッジ回帰課題を数値的に示し,その妥当性を検証した。

Conditional Value-at-Risk ($\mathrm{CV@R}$) is one of the most popular measures of risk, which has been recently considered as a performance criterion in supervised statistical learning, as it is related to desirable operational features in modern applications, such as safety, fairness, distributional robustness, and prediction error stability. However, due to its variational definition, $\mathrm{CV@R}$ is commonly believed to result in difficult optimization problems, even for smooth and strongly convex loss functions. We disprove this statement by establishing noisy (i.e., fixed-accuracy) linear convergence of stochastic gradient descent for sequential $\mathrm{CV@R}$ learning, for a large class of not necessarily strongly-convex (or even convex) loss functions satisfying a set-restricted Polyak-Lojasiewicz inequality. This class contains all smooth and strongly convex losses, confirming that classical problems, such as linear least squares regression, can be solved efficiently under the $\mathrm{CV@R}$ criterion, just as their risk-neutral versions. Our results are illustrated numerically on such a risk-aware ridge regression task, also verifying their validity in practice.
翻訳日:2021-05-08 20:43:43 公開日:2021-01-19
# マルチリンガル・エビデンス・レトリーバルとFact Verification to Combat Global Disinformation: The Power of Polyglotism

Multilingual Evidence Retrieval and Fact Verification to Combat Global Disinformation: The Power of Polyglotism ( http://arxiv.org/abs/2012.08919v2 )

ライセンス: Link先を確認
Denisa A.O. Roberts(参考訳) 本稿では,多言語的証拠検索と事実検証を,この種の最初の試みである世界的偽情報と戦うための第一歩として検討する。 目的は、証拠に富んだ言語を検索して、より一般的に偽情報に照らされた証拠に乏しい言語のクレームを検証する多言語システムを構築することである。 そこで,本システムでは,トランスファー学習能力のエビデンスを示し,400例の英語・ローマ混合データセットを言語間トランスファー学習評価に利用可能とした。

This article investigates multilingual evidence retrieval and fact verification as a step to combat global disinformation, a first effort of this kind, to the best of our knowledge. The goal is building multilingual systems that retrieve in evidence-rich languages to verify claims in evidence-poor languages that are more commonly targeted by disinformation. To this end, our EnmBERT fact verification system shows evidence of transfer learning ability and 400 example mixed English-Romanian dataset is made available for cross-lingual transfer learning evaluation.
翻訳日:2021-05-03 03:13:07 公開日:2021-01-19
# (参考訳) 最適化オプティマイザ:回帰最適勾配降下アルゴリズム

Optimizing Optimizers: Regret-optimal gradient descent algorithms ( http://arxiv.org/abs/2101.00041v2 )

ライセンス: CC BY 4.0
Philippe Casgrain, Anastasis Kratsios(参考訳) 高速で堅牢な最適化アルゴリズムの必要性は、機械学習のあらゆる領域において重要である。 本稿では最適化アルゴリズムを最適制御問題として設計する作業について述べる。 後悔をアルゴリズムのパフォーマンスの指標として用い,後悔最適アルゴリズムの存在,独自性,一貫性について検討する。 制御問題に対して一階の最適性条件を提供することにより,後悔の最適化アルゴリズムは,その後悔によって生成される値関数上での2条件勾配降下を行うのと同値となる,そのダイナミクスの特定の構造を満足しなければならないことを示した。 これらの最適ダイナミクスを用いて、凸最適化問題の解への収束率の境界を与える。 閉形式最適力学は一般には得られないが, より高速に近似し, 長期的後悔を直接最適化する最適化アルゴリズムを生成する。 最後に、これらはそれらの効率性を示すためによく使われる最適化アルゴリズムに対してベンチマークされる。

The need for fast and robust optimization algorithms are of critical importance in all areas of machine learning. This paper treats the task of designing optimization algorithms as an optimal control problem. Using regret as a metric for an algorithm's performance, we study the existence, uniqueness and consistency of regret-optimal algorithms. By providing first-order optimality conditions for the control problem, we show that regret-optimal algorithms must satisfy a specific structure in their dynamics which we show is equivalent to performing dual-preconditioned gradient descent on the value function generated by its regret. Using these optimal dynamics, we provide bounds on their rates of convergence to solutions of convex optimization problems. Though closed-form optimal dynamics cannot be obtained in general, we present fast numerical methods for approximating them, generating optimization algorithms which directly optimize their long-term regret. Lastly, these are benchmarked against commonly used optimization algorithms to demonstrate their effectiveness.
翻訳日:2021-04-17 19:48:43 公開日:2021-01-19
# 依存性フレームワークによる談話リソースの統一

Unifying Discourse Resources with Dependency Framework ( http://arxiv.org/abs/2101.00167v2 )

ライセンス: Link先を確認
Yi Cheng, Sujian Li, Yueyuan Li(参考訳) テキストレベルの談話分析には、様々な談話スキームがあるが、まだ未熟であり、テキストの内部論理に注釈をつけるのに労力がかかるため、ラベル付きデータはほとんどない。 本稿では,複数の中国語談話コーパスを多義的アノテーションスキームに統一するために,半自動的手法を設計して依存関係構造に変換する手法を提案する。 また、いくつかのベンチマーク依存性パーサを実装し、パフォーマンスを改善するために統合データをどのように活用できるかの研究も行っています。

For text-level discourse analysis, there are various discourse schemes but relatively few labeled data, because discourse research is still immature and it is labor-intensive to annotate the inner logic of a text. In this paper, we attempt to unify multiple Chinese discourse corpora under different annotation schemes with discourse dependency framework by designing semi-automatic methods to convert them into dependency structures. We also implement several benchmark dependency parsers and research on how they can leverage the unified data to improve performance.
翻訳日:2021-04-16 11:11:03 公開日:2021-01-19
# 逆シミュレーションによるアノテーションフリーインスタンスセグメンテーションと追跡

Towards Annotation-free Instance Segmentation and Tracking with Adversarial Simulations ( http://arxiv.org/abs/2101.00567v2 )

ライセンス: Link先を確認
Quan Liu, Isabella M. Gaeta, Mengyang Zhao, Ruining Deng, Aadarsh Jha, Bryan A. Millis, Anita Mahadevan-Jansen, Matthew J. Tyska, Yuankai Huo(参考訳) 顕微鏡ビデオの定量的解析は、しばしば、細胞および細胞内のオブジェクトのインスタンス分割と追跡を必要とする。 従来の方法は、(1)各フレームのインスタンスオブジェクトセグメンテーションを実行する、(2)フレームごとにオブジェクトを関連付ける、の2つのステージで構成される。 近年,画素埋め込みに基づくディープラーニングアプローチは,インスタンスのセグメンテーションとトラッキングを同時に行うための一段階の全体解を提供する。 しかし、このような深層学習手法は、空間的(セグメンテーション)だけでなく、時間的(トラッキング)にも一貫したアノテーションを必要とする。 コンピュータビジョンでは、一貫したセグメンテーションとトラッキングを備えた注釈付きトレーニングデータは資源集約的であり、(1)高密度物体(例えば重ね合わせやタッチ)、(2)高いダイナミクス(例えば不規則な運動や分裂)による顕微鏡イメージングにおいて重大度を乗じることができる。 ダイナミックスシーンにおけるこのようなアノテーションの欠如を緩和するため、現実の自動運転システムの訓練にシミュレーション環境(コンピュータゲームなど)を使用するなど、コンピュータビジョンで成功したソリューションを提供している。 本稿では,逆シミュレーションと単段階画素埋め込みに基づく学習を併用したアノテーションのない合成インスタンスセグメンテーション・トラッキング(ASIST)手法を提案する。 提案手法は,(1)敵対的シミュレーションと1段階の画素埋め込みに基づくディープラーニングを集約し,(2)細胞(hela細胞)と細胞内(microvilli)の両方で評価し,(3)我々の知る限りでは,顕微鏡ビデオにおけるアノテーションフリーなインスタンス分割と追跡研究を探求する最初の研究である。 このASIST法は、完全な教師付きアプローチと比較して、重要な一歩を踏み出した。

The quantitative analysis of microscope videos often requires instance segmentation and tracking of cellular and subcellular objects. The traditional method is composed of two stages: (1) performing instance object segmentation of each frame, and (2) associating objects frame-by-frame. Recently, pixel-embedding-base d deep learning approaches provide single stage holistic solutions to tackle instance segmentation and tracking simultaneously. However, such deep learning methods require consistent annotations not only spatially (for segmentation), but also temporally (for tracking). In computer vision, annotated training data with consistent segmentation and tracking is resource intensive, the severity of which can be multiplied in microscopy imaging due to (1) dense objects (e.g., overlapping or touching), and (2) high dynamics (e.g., irregular motion and mitosis). To alleviate the lack of such annotations in dynamics scenes, adversarial simulations have provided successful solutions in computer vision, such as using simulated environments (e.g., computer games) to train real-world self-driving systems. In this paper, we propose an annotation-free synthetic instance segmentation and tracking (ASIST) method with adversarial simulation and single-stage pixel-embedding based learning. The contribution of this paper is three-fold: (1) the proposed method aggregates adversarial simulations and single-stage pixel-embedding based deep learning; (2) the method is assessed with both the cellular (i.e., HeLa cells) and subcellular (i.e., microvilli) objects; and (3) to the best of our knowledge, this is the first study to explore annotation-free instance segmentation and tracking study for microscope videos. This ASIST method achieved an important step forward, when compared with fully supervised approaches.
翻訳日:2021-04-12 11:36:14 公開日:2021-01-19
# 多モード生成モデルによる直観物理学の学習

Learning Intuitive Physics with Multimodal Generative Models ( http://arxiv.org/abs/2101.04454v2 )

ライセンス: Link先を確認
Sahand Rezaei-Shoshtari, Francois Robert Hogan, Michael Jenkin, David Meger, Gregory Dudek(参考訳) 物体が環境と接触する際の未来の相互作用を予測することは、自律的なエージェントが知的で予測可能な行動を取るための鍵となる。 本稿では,視覚と触覚のフィードバックを融合させ,動的シーンにおける物体の動きを予測する枠組みを提案する。 視覚情報は3d形状や位置などの物体特性をキャプチャし、触覚情報は相互作用力と環境との接触時の物体の動きに関する重要な手がかりを提供する。 接触面の高分解能マルチモーダルセンシングを実現する新しいSee-Through-Your-Ski n(STS)センサを用いて,物体の視覚的外観と触覚特性の両方をキャプチャする。 マルチモーダル変分オートエンコーダ (MVAE) を用いてセンサからのデュアルストリーム信号を解釈し, 接触対象の両モードを捕捉し, 視覚的・触覚的相互作用と逆変換のマッピングを開発する。 さらに、物体の静止状態が与えられた初期状態から予測されるシミュレーションおよび実世界の実験を通して、将来の物理的相互作用の結果を予測するために知覚システムを利用することができる。

Predicting the future interaction of objects when they come into contact with their environment is key for autonomous agents to take intelligent and anticipatory actions. This paper presents a perception framework that fuses visual and tactile feedback to make predictions about the expected motion of objects in dynamic scenes. Visual information captures object properties such as 3D shape and location, while tactile information provides critical cues about interaction forces and resulting object motion when it makes contact with the environment. Utilizing a novel See-Through-your-Ski n (STS) sensor that provides high resolution multimodal sensing of contact surfaces, our system captures both the visual appearance and the tactile properties of objects. We interpret the dual stream signals from the sensor using a Multimodal Variational Autoencoder (MVAE), allowing us to capture both modalities of contacting objects and to develop a mapping from visual to tactile interaction and vice-versa. Additionally, the perceptual system can be used to infer the outcome of future physical interactions, which we validate through simulated and real-world experiments in which the resting state of an object is predicted from given initial conditions.
翻訳日:2021-04-04 01:52:47 公開日:2021-01-19
# イマジネーションによる自我中心行動の予測

Learning to Anticipate Egocentric Actions by Imagination ( http://arxiv.org/abs/2101.04924v2 )

ライセンス: Link先を確認
Yu Wu, Linchao Zhu, Xiaohan Wang, Yi Yang, Fei Wu(参考訳) 実行前に行動を予測することは、自動運転やロボティクスなど、幅広い実用的な応用に不可欠である。 本稿では,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオに先立ち,将来的なアクション秒を予測する。 従来のアプローチでは、観測内容の要約と、過去の観測に基づいて将来の行動を直接予測することに集中していた。 監視されていないフレームの欠落情報を補うためにいくつかの手がかりを発掘できれば、アクション予測に利益があると信じています。 次に,行動予測を将来の特徴予測に分解することを提案する。 視覚的特徴が近い将来どのように変化するかを想像し、これらの想像された表現に基づいて将来のアクションラベルを予測する。 異なることに、ImagineRNNは機能回帰ではなく、対照的な学習方法で最適化されています。 プロキシタスクを使ってimaginernnをトレーニングします。つまり、気晴らしから正しい状態を選択するのです。 さらに,フレームの内容に代えて隣接するフレームの特徴差を予測できるように目標を変更して,imaginernnをさらに改善する。 これにより、隣接フレームの特徴の違いが将来を予測する上でより重要であるため、ネットワークがターゲット、すなわち将来の行動に焦点を合わせることが促進される。 2つの大規模エゴセントリックアクションデータセットに関する広範な実験により,本手法の有効性が検証された。 本手法は,epic kitchens action anticipation challengeの既往のテストセットと未発見のテストセットの両方において,従来の方法を大幅に上回っている。

Anticipating actions before they are executed is crucial for a wide range of practical applications, including autonomous driving and robotics. In this paper, we study the egocentric action anticipation task, which predicts future action seconds before it is performed for egocentric videos. Previous approaches focus on summarizing the observed content and directly predicting future action based on past observations. We believe it would benefit the action anticipation if we could mine some cues to compensate for the missing information of the unobserved frames. We then propose to decompose the action anticipation into a series of future feature predictions. We imagine how the visual feature changes in the near future and then predicts future action labels based on these imagined representations. Differently, our ImagineRNN is optimized in a contrastive learning way instead of feature regression. We utilize a proxy task to train the ImagineRNN, i.e., selecting the correct future states from distractors. We further improve ImagineRNN by residual anticipation, i.e., changing its target to predicting the feature difference of adjacent frames instead of the frame content. This promotes the network to focus on our target, i.e., the future action, as the difference between adjacent frame features is more important for forecasting the future. Extensive experiments on two large-scale egocentric action datasets validate the effectiveness of our method. Our method significantly outperforms previous methods on both the seen test set and the unseen test set of the EPIC Kitchens Action Anticipation Challenge.
翻訳日:2021-03-30 07:58:04 公開日:2021-01-19
# JITuNE: ネットワーク埋め込みアルゴリズムのためのジャストインタイムハイパーパラメータチューニング

JITuNE: Just-In-Time Hyperparameter Tuning for Network Embedding Algorithms ( http://arxiv.org/abs/2101.06427v2 )

ライセンス: Link先を確認
Mengying Guo, Tao Yi, Yuqing Zhu, Yungang Bao(参考訳) ネットワーク埋め込み(NE)は、大規模ネットワークのための簡潔なノード表現を生成し、共通の機械学習手法をネットワーク構造に直接適用することができる。 ノード分類やリンク予測など,さまざまなアプリケーションでNEアルゴリズムが提案され,利用されている。 NEアルゴリズムは通常、パフォーマンスの鍵となるハイパーパラメータを含むが、ハイパーパラメータチューニングプロセスには時間がかかることがある。 ハイパーパラメータを指定された時間内にチューニングすることが望ましい。 NEアルゴリズムのハイパーパラメータチューニングにはAutoML法が適用されているが, NEアルゴリズムでは, 与えられた時間内にハイパーパラメータをチューニングする方法が研究されていない。 本稿では,NEアルゴリズムのためのジャストインタイムハイパーパラメータチューニングフレームワークJITuNEを提案する。 我々のJITuNEフレームワークは,階層型ネットワークシンプ上でのチューニングと,シンプ上で得られた知識をネットワーク全体に伝達することにより,NEアルゴリズムの時間制約ハイパーパラメータチューニングを可能にする。 シンプシスの階層的生成と時間制約のあるチューニング方法により、全体のチューニング時間を制約することができる。 大規模な実験により、JITuNEはNEアルゴリズムの性能を大幅に改善し、同じ数のアルゴリズムの実行内で最先端のメソッドより優れていることが示されている。

Network embedding (NE) can generate succinct node representations for massive-scale networks and enable direct applications of common machine learning methods to the network structure. Various NE algorithms have been proposed and used in a number of applications, such as node classification and link prediction. NE algorithms typically contain hyperparameters that are key to performance, but the hyperparameter tuning process can be time consuming. It is desirable to have the hyperparameters tuned within a specified length of time. Although AutoML methods have been applied to the hyperparameter tuning of NE algorithms, the problem of how to tune hyperparameters in a given period of time is not studied for NE algorithms before. In this paper, we propose JITuNE, a just-in-time hyperparameter tuning framework for NE algorithms. Our JITuNE framework enables the time-constrained hyperparameter tuning for NE algorithms by employing the tuning over hierarchical network synopses and transferring the knowledge obtained on synopses to the whole network. The hierarchical generation of synopsis and a time-constrained tuning method enable the constraining of overall tuning time. Extensive experiments demonstrate that JITuNE can significantly improve performances of NE algorithms, outperforming state-of-the-art methods within the same number of algorithm runs.
翻訳日:2021-03-28 04:30:35 公開日:2021-01-19
# (参考訳) Deep-Mobility: 効率的で信頼性の高い5Gハンドオーバのためのディープラーニングアプローチ [全文訳有]

Deep-Mobility: A Deep Learning Approach for an Efficient and Reliable 5G Handover ( http://arxiv.org/abs/2101.06558v2 )

ライセンス: CC BY-SA 4.0
Rahul Arun Paropkari, Anurag Thantharate, Cory Beard(参考訳) 5Gセルネットワークは世界中に展開されており、このアーキテクチャは超高密度ネットワーク(UDN)デプロイメントをサポートしている。 小細胞はエンドユーザに5G接続を提供する上で非常に重要な役割を担います。 デバイス、データ、ネットワーク要求の指数的な増加は、サービスプロバイダがよりよくハンドオーバを管理し、ユーザが望むサービスに対応することを義務付ける。 従来のハンドオーバ改善スキームとは対照的に,ネットワークモビリティを管理するための深層学習ニューラルネットワーク(DLNN)を実装し,ネットワーク内深層学習と予測を利用した「深層移動」モデルを開発した。 ネットワークキーパフォーマンスインジケータ(kpi)を使用してモデルをトレーニングし、ネットワークトラフィックとハンドオーバ要件を分析します。 本手法では、リカレントニューラルネットワーク(RNN)やLong Short-Term Memory Network(LSTM)などのディープラーニングニューラルネットワークを用いて、RF信号条件を連続的に観測・追跡し、システムレベルの入力も併用して検討し、ハンドオーバの集団決定を行う。 ユーザモビリティとともに、システムイベント間の複数のパラメータとインタラクションを調査でき、任意のシナリオでハンドオフを発生させます。 本稿では,ユーザ機器(UE)とネットワーク側からの特定のKPIの影響と感度を調査しながら,本モデルの基本的モデリング手法を示し,その有用性を示す。

5G cellular networks are being deployed all over the world and this architecture supports ultra-dense network (UDN) deployment. Small cells have a very important role in providing 5G connectivity to the end users. Exponential increases in devices, data and network demands make it mandatory for the service providers to manage handovers better, to cater to the services that a user desire. In contrast to any traditional handover improvement scheme, we develop a 'Deep-Mobility' model by implementing a deep learning neural network (DLNN) to manage network mobility, utilizing in-network deep learning and prediction. We use network key performance indicators (KPIs) to train our model to analyze network traffic and handover requirements. In this method, RF signal conditions are continuously observed and tracked using deep learning neural networks such as the Recurrent neural network (RNN) or Long Short-Term Memory network (LSTM) and system level inputs are also considered in conjunction, to take a collective decision for a handover. We can study multiple parameters and interactions between system events along with the user mobility, which would then trigger a handoff in any given scenario. Here, we show the fundamental modeling approach and demonstrate usefulness of our model while investigating impacts and sensitivities of certain KPIs from the user equipment (UE) and network side.
翻訳日:2021-03-28 03:23:36 公開日:2021-01-19
# 共同定位・知覚・予測のための深部マルチタスク学習

Deep Multi-Task Learning for Joint Localization, Perception, and Prediction ( http://arxiv.org/abs/2101.06720v2 )

ライセンス: Link先を確認
John Phillips, Julieta Martinez, Ioan Andrei B\^arsan, Sergio Casas, Abbas Sadat, Raquel Urtasun(参考訳) 過去数年間、私たちは認識、動き予測、モーションプランニングなど、自動運転の多くのサブタスクで大きな進歩を見てきた。 しかし、これらのシステムは、車が高精細度マップに対して正確に局所化されていると仮定することが多い。 本稿では,この仮定に疑問を呈し,ローカライズエラー下での最先端の自律性スタックで発生する問題を考察する。 観測結果に基づき,認識,予測,局所化を共同で行うシステムの設計を行った。 本アーキテクチャでは,両タスク間の計算を再利用し,効率よくローカライズエラーを修正できる。 本研究では,大規模自律データセットを用いた実験を行い,提案手法の効率と精度を示す。

Over the last few years, we have witnessed tremendous progress on many subtasks of autonomous driving, including perception, motion forecasting, and motion planning. However, these systems often assume that the car is accurately localized against a high-definition map. In this paper we question this assumption, and investigate the issues that arise in state-of-the-art autonomy stacks under localization error. Based on our observations, we design a system that jointly performs perception, prediction, and localization. Our architecture is able to reuse computation between both tasks, and is thus able to correct localization errors efficiently. We show experiments on a large-scale autonomy dataset, demonstrating the efficiency and accuracy of our proposed approach.
翻訳日:2021-03-27 20:19:34 公開日:2021-01-19
# (参考訳) 訓練済みモデルのためのレッドアラーム:ニューロンレベルバックドアアタックによる普遍的脆弱性 [全文訳有]

Red Alarm for Pre-trained Models: Universal Vulnerabilities by Neuron-Level Backdoor Attacks ( http://arxiv.org/abs/2101.06969v2 )

ライセンス: CC BY 4.0
Zhengyan Zhang, Guangxuan Xiao, Yongwei Li, Tian Lv, Fanchao Qi, Zhiyuan Liu, Yasheng Wang, Xin Jiang, Maosong Sun(参考訳) 事前訓練されたモデル(PTM)の成功により、人々は通常、下流タスクのために既存のPTMを微調整する。 PTMの多くはオープンソースによって提供され、維持されており、バックドア攻撃に悩まされる可能性がある。 本研究では,下流タスクの知識を必要とせず,バックドアアタックによって微調整されたモデルを容易に制御できるPTMの普遍的脆弱性を実証する。 具体的には、攻撃者は単純な事前トレーニングタスクを追加して、トリガーインスタンスの出力隠れ状態を事前に定義されたターゲット埋め込み、すなわちニューロンレベルのバックドア攻撃(NeuBA)に制限することができる。 攻撃者がトリガーとそれに対応する出力隠された状態を慎重に設計すれば、微調整中にバックドア機能を排除できない。 自然言語処理(NLP)とコンピュータビジョン(CV)の両タスクの実験において,NeuBAはクリーンなデータにモデル性能に影響を与えることなく,トリガインスタンスの予測を確実に制御することを示した。 最後に、再初期化はNeuBAに抵抗できず、普遍的な脆弱性を軽減するためのいくつかの可能性について議論する。 私たちの発見は、ptmを広く使うための赤いアラームのように聞こえる。 ソースコードとデータは \url{https://github.com/t hunlp/NeuBA} でアクセスできます。

Due to the success of pre-trained models (PTMs), people usually fine-tune an existing PTM for downstream tasks. Most of PTMs are contributed and maintained by open sources and may suffer from backdoor attacks. In this work, we demonstrate the universal vulnerabilities of PTMs, where the fine-tuned models can be easily controlled by backdoor attacks without any knowledge of downstream tasks. Specifically, the attacker can add a simple pre-training task to restrict the output hidden states of the trigger instances to the pre-defined target embeddings, namely neuron-level backdoor attack (NeuBA). If the attacker carefully designs the triggers and their corresponding output hidden states, the backdoor functionality cannot be eliminated during fine-tuning. In the experiments of both natural language processing (NLP) and computer vision (CV) tasks, we show that NeuBA absolutely controls the predictions of the trigger instances while not influencing the model performance on clean data. Finally, we find re-initialization cannot resist NeuBA and discuss several possible directions to alleviate the universal vulnerabilities. Our findings sound a red alarm for the wide use of PTMs. Our source code and data can be accessed at \url{https://github.com/t hunlp/NeuBA}.
翻訳日:2021-03-27 13:37:04 公開日:2021-01-19
# 最適パスフォレストを用いた視覚表現の学習とBarrett食道・腺癌診断への応用

Learning Visual Representations with Optimum-Path Forest and its Applications to Barrett's Esophagus and Adenocarcinoma Diagnosis ( http://arxiv.org/abs/2101.07209v2 )

ライセンス: Link先を確認
Luis A. de Souza Jr., Luis C. S. Afonso, Alanna Ebigbo, Andreas Probst, Helmut Messmann, Robert Mendel, Christoph Palm and Jo\~ao P. Papa(参考訳) 本研究では,バレット食道(BE)と腺癌自動診断の文脈で視覚辞書を学習するための教師なし最適パスフォレスト(OPF)分類器を紹介する。 提案手法は3つの異なる特徴抽出器(SIFT, SURF, BEコンテキストA-KAZEにはまだ適用されていない)とOPFの2つの変種、放射基底関数と線形カーネルを持つサポートベクトルマシン、ベイズ分類器の5つの教師付き分類器を用いて2つのデータセット(MICCAI 2015, Augsburg)で検証された。 MICCAI 2015データセットについて, 教師なしOPFによる辞書生成, 教師付きOPFによる分類, 精度78%のSURF特徴抽出器を用いて, BE患者と腺癌患者との鑑別を行った。 アウクスブルクデータセットに関して、最も正確な結果はOPF分類器でも得られ、A-KAZEを73%近い精度で特徴抽出器とした。 特徴抽出と視覚単語の袋技術の組み合わせは,最近文献で得られた他の手法を上回り,関連する研究分野における新たな進歩を浮き彫りにした。 この研究の意義を補強するため、我々の知る限りでは、この研究の主要な貢献は、be特徴計算における教師なしのテクニックの応用であり、視覚のバグやopf分類器を使ってコンピュータ支援のbe識別に取り組むことを目的とした最初のものである。 また,A-KAZE特徴を用いた新しいBEおよび腺癌の記述も提案されているが,文献上はまだ適用されていない。

In this work, we introduce the unsupervised Optimum-Path Forest (OPF) classifier for learning visual dictionaries in the context of Barrett's esophagus (BE) and automatic adenocarcinoma diagnosis. The proposed approach was validated in two datasets (MICCAI 2015 and Augsburg) using three different feature extractors (SIFT, SURF, and the not yet applied to the BE context A-KAZE), as well as five supervised classifiers, including two variants of the OPF, Support Vector Machines with Radial Basis Function and Linear kernels, and a Bayesian classifier. Concerning MICCAI 2015 dataset, the best results were obtained using unsupervised OPF for dictionary generation using supervised OPF for classification purposes and using SURF feature extractor with accuracy nearly to 78% for distinguishing BE patients from adenocarcinoma ones. Regarding the Augsburg dataset, the most accurate results were also obtained using both OPF classifiers but with A-KAZE as the feature extractor with accuracy close to 73%. The combination of feature extraction and bag-of-visual-words techniques showed results that outperformed others obtained recently in the literature, as well as we highlight new advances in the related research area. Reinforcing the significance of this work, to the best of our knowledge, this is the first one that aimed at addressing computer-aided BE identification using bag-of-visual-words and OPF classifiers, being this application of unsupervised technique in the BE feature calculation the major contribution of this work. It is also proposed a new BE and adenocarcinoma description using the A-KAZE features, not yet applied in the literature.
翻訳日:2021-03-27 06:04:46 公開日:2021-01-19
# ねじりせん断を受ける土壌試料の変形計測のための光流動法

Optical Flow Method for Measuring Deformation of Soil Specimen Subjected to Torsional Shearing ( http://arxiv.org/abs/2101.07005v2 )

ライセンス: Link先を確認
Piotr E. Srokosz, Marcin Bujko, Marta Boche\'nska and Rafa{\l} Ossowski(参考訳) 本研究では, 実験室における微小変形測定に光流動法を用いた。 主な目的は, ねじりせん断を受ける円筒状土壌試料の全高さに沿って変形が分布する様子を観察することであった(ts試験)。 乾式非粘着性土壌試料を等方性圧力の2つの値で実験した。 小さいひずみ範囲(0.001-0.01%)で変形を解析するため,低振幅循環トルクを負荷した。 Ce Liu (2009) による光学フロー法は一連の画像からの運動推定に用いられた。 このアルゴリズムは、画像特徴抽出のためのスケール不変特徴変換(SIFT)とより高速な計算のための粗粒間マッチング方式を用いる。 結果はPIV(Particle Image Velocimetry)で検証された。 その結果, 変位分布は一般に仮定される線形性から逸脱することがわかった。 さらに, 観測された変形機構解析により, ts試験で一般的に決定されるせん断弾性率$g$をかなり過大評価できることが示唆された。

In this study optical flow method was used for soil small deformation measurement in laboratory tests. The main objective was to observe how the deformation distributes along the whole height of cylindrical soil specimen subjected to torsional shearing (TS test). The experiments were conducted on dry non-cohesive soil specimens under two values of isotropic pressure. Specimens were loaded with low-amplitude cyclic torque to analyze the deformation within the small strain range (0.001-0.01%). Optical flow method variant by Ce Liu (2009) was used for motion estimation from series of images. This algorithm uses scale-invariant feature transform (SIFT) for image feature extraction and coarse-to-fine matching scheme for faster calculations. The results were validated with the Particle Image Velocimetry (PIV). The results show that the displacement distribution deviates from commonly assumed linearity. Moreover, the observed deformation mechanisms analysis suggest that the shear modulus $G$ commonly determined through TS tests can be considerably overestimated.
翻訳日:2021-03-27 05:51:53 公開日:2021-01-19
# (参考訳) 半教師付きノイズ再構成型生成逆ネットワークによる銀河画像の翻訳 [全文訳有]

Galaxy Image Translation with Semi-supervised Noise-reconstructed Generative Adversarial Networks ( http://arxiv.org/abs/2101.07389v1 )

ライセンス: CC BY 4.0
Qiufan Lin and Dominique Fouchez and J\'er\^ome Pasquet(参考訳) ディープラーニングニューラルネットワークを用いた画像から画像への翻訳、特にgans(generative adversarial network)は、天文学的なイメージをシミュレートする最も強力な方法の1つである。 しかし、現在の研究はペア画像と教師付き翻訳の活用に限られており、器用・観察的効果を符号化するノイズ背景の再構築に関する議論は稀である。 これらの制限は、天体物理学におけるその後の科学的応用に有害である可能性がある。 そこで本稿では,画像翻訳における未ペア画像の使用とノイズ特性の保存方法を提案する。 本研究では,ペア画像とペア画像の両方を半教師付きで活用するGANを用いた双方向画像翻訳モデルを提案し,高周波特徴を特徴とする雑音の学習と再構成が可能なノイズエミュレーションモジュールを提案する。 Sloan Digital Sky Survey (SDSS) と Canada France Hawaii Telescope Legacy Survey (CFHT) のマルチバンド・ギャラクシー・イメージを実験することにより,本手法はグローバル・ローカルな特性を効果的に回復し,ベンチマーク画像変換モデルより優れていることを示す。 我々の知る限り、この研究は天体物理学研究に半教師付き手法とノイズ再構成技術を適用する最初の試みである。

Image-to-image translation with Deep Learning neural networks, particularly with Generative Adversarial Networks (GANs), is one of the most powerful methods for simulating astronomical images. However, current work is limited to utilizing paired images with supervised translation, and there has been rare discussion on reconstructing noise background that encodes instrumental and observational effects. These limitations might be harmful for subsequent scientific applications in astrophysics. Therefore, we aim to develop methods for using unpaired images and preserving noise characteristics in image translation. In this work, we propose a two-way image translation model using GANs that exploits both paired and unpaired images in a semi-supervised manner, and introduce a noise emulating module that is able to learn and reconstruct noise characterized by high-frequency features. By experimenting on multi-band galaxy images from the Sloan Digital Sky Survey (SDSS) and the Canada France Hawaii Telescope Legacy Survey (CFHT), we show that our method recovers global and local properties effectively and outperforms benchmark image translation models. To our best knowledge, this work is the first attempt to apply semi-supervised methods and noise reconstruction techniques in astrophysical studies.
翻訳日:2021-03-26 10:05:10 公開日:2021-01-19
# (参考訳) トポロジカル分析による臨床症状からのCOVID-19生物学的経路の推測 [全文訳有]

Inferring COVID-19 Biological Pathways from Clinical Phenotypes via Topological Analysis ( http://arxiv.org/abs/2101.07417v1 )

ライセンス: CC BY 4.0
Negin Karisani, Daniel E. Platt, Saugata Basu and Laxmi Parida(参考訳) 新型コロナウイルスは世界中で数千人の死者を出し、国際経済に大きな混乱をもたらした。 この病気に関連する経路の特定は、医学研究者が疾患の性質をよりよく理解するのに役立ちます。 この処理は、医療記録を分析して行うことができる。 このプロセスで研究者をタイムリーに支援できるツールやモデルを開発することが重要である。 しかし、医療記録はしばしば構造化されていない臨床記録であり、これは自動化されたシステムを開発する上で大きな課題となる。 本稿では,臨床ノートの分析と疾患関連経路を明らかにするために,実践者を支援するパイプラインを提案する。 このパイプラインは, トポロジカルな特性に依存し, 1) 臨床ノートを前処理して, 健全な概念を抽出し, 2) 抽出した概念を特徴付ける患者の特徴空間を構築し, 3) トポロジカルな特性を利用して, 利用可能な知識を抽出し, その結果を視覚化する。 新型コロナウイルス(COVID-19)の臨床ノートの公開データセットに関する実験は、パイプラインが本当に意味のある経路を抽出できることを実証しています。

COVID-19 has caused thousands of deaths around the world and also resulted in a large international economic disruption. Identifying the pathways associated with this illness can help medical researchers to better understand the properties of the condition. This process can be carried out by analyzing the medical records. It is crucial to develop tools and models that can aid researchers with this process in a timely manner. However, medical records are often unstructured clinical notes, and this poses significant challenges to developing the automated systems. In this article, we propose a pipeline to aid practitioners in analyzing clinical notes and revealing the pathways associated with this disease. Our pipeline relies on topological properties and consists of three steps: 1) pre-processing the clinical notes to extract the salient concepts, 2) constructing a feature space of the patients to characterize the extracted concepts, and finally, 3) leveraging the topological properties to distill the available knowledge and visualize the result. Our experiments on a publicly available dataset of COVID-19 clinical notes testify that our pipeline can indeed extract meaningful pathways.
翻訳日:2021-03-26 09:48:12 公開日:2021-01-19
# (参考訳) sosd-net:単眼画像からの統合意味オブジェクトセグメンテーションと深さ推定 [全文訳有]

SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from Monocular images ( http://arxiv.org/abs/2101.07422v1 )

ライセンス: CC BY 4.0
Lei He, Jiwen Lu, Guanghui Wang, Shiyu Song, Jie Zhou(参考訳) 深度推定とセマンティックセグメンテーションはシーン理解において重要な役割を果たす。 最先端の手法ではマルチタスク学習を用いて2つのタスクのモデルをピクセル単位で同時に学習する。 彼らは通常、共通の特徴を共有したり、対応するブランチから特徴マップを縫い合わせることにフォーカスする。 しかし,これらの手法は,幾何学的手がかりとシーン解析の相関性について深く考慮されていない。 本稿では,まず,これら2つの課題の幾何学的関係を画像解析によって活用する意味的対象性の概念を紹介し,対象性仮定に基づく意味的対象分割と深度推定ネットワーク(SOSD-Net)を提案する。 我々の知る限り、SOSD-Netは、一眼深度推定とセマンティックセグメンテーションを同時に行うための幾何学的制約を利用する最初のネットワークである。 また,これら2つのタスク間の相互暗黙的関係を考慮し,期待最大化アルゴリズムによる反復的アイデアを活用し,提案するネットワークをより効果的に学習する。 CityscapesとNYU v2データセットに関する大規模な実験結果を示し、提案手法の優れた性能を示す。

Depth estimation and semantic segmentation play essential roles in scene understanding. The state-of-the-art methods employ multi-task learning to simultaneously learn models for these two tasks at the pixel-wise level. They usually focus on sharing the common features or stitching feature maps from the corresponding branches. However, these methods lack in-depth consideration on the correlation of the geometric cues and the scene parsing. In this paper, we first introduce the concept of semantic objectness to exploit the geometric relationship of these two tasks through an analysis of the imaging process, then propose a Semantic Object Segmentation and Depth Estimation Network (SOSD-Net) based on the objectness assumption. To the best of our knowledge, SOSD-Net is the first network that exploits the geometry constraint for simultaneous monocular depth estimation and semantic segmentation. In addition, considering the mutual implicit relationship between these two tasks, we exploit the iterative idea from the expectation-maximiza tion algorithm to train the proposed network more effectively. Extensive experimental results on the Cityscapes and NYU v2 dataset are presented to demonstrate the superior performance of the proposed approach.
翻訳日:2021-03-26 09:33:59 公開日:2021-01-19
# (参考訳) テイラー級数近似による部分モジュラー最大化 [全文訳有]

Submodular Maximization via Taylor Series Approximation ( http://arxiv.org/abs/2101.07423v1 )

ライセンス: CC BY 4.0
G\"ozde \"Ozcan, Armin Moharrer, Stratis Ioannidis(参考訳) 本研究では,マトロイド制約を伴う部分モジュラー最大化問題,特に,対象を解析関数と多線形関数の合成によって表現できる問題について検討する。 この形式の関数に対して、いわゆる連続 greedy アルゴリズムはテイラー級数近似による決定論的推定を用いて、任意に$(1-1/e) に近い約 0.63$ の比率を得る。 これにより、サンプリングを使用する先行技術よりも実行時間が大幅に短縮される。

We study submodular maximization problems with matroid constraints, in particular, problems where the objective can be expressed via compositions of analytic and multilinear functions. We show that for functions of this form, the so-called continuous greedy algorithm attains a ratio arbitrarily close to $(1-1/e) \approx 0.63$ using a deterministic estimation via Taylor series approximation. This drastically reduces execution time over prior art that uses sampling.
翻訳日:2021-03-26 09:10:06 公開日:2021-01-19
# (参考訳) 低解像度顔認識の性能向上のためのディープラーニングに基づく超解法アルゴリズムの解析と評価

Analysis and evaluation of Deep Learning based Super-Resolution algorithms to improve performance in Low-Resolution Face Recognition ( http://arxiv.org/abs/2101.10845v1 )

ライセンス: CC BY 4.0
Angelo G. Menezes(参考訳) 監視シナリオは、通常低解像度の映像を含むため、いくつかの問題を起こしやすく、そもそも被写体がカメラからどのくらい離れているか制御できない。 この状況は、関係する被験者の識別特性を回復できる可能性があるため、アップサンプリング(超解像)アルゴリズムの適用に適している。 一般の超解像法は人間の知覚の画質を高めるために提案されているが、バイオメトリクスの超解像法は自動認識性能の向上に重点を置いているため、画像の最良の「コンピュータ認識」バージョンを求める。 畳み込みニューラルネットワークとディープラーニングアルゴリズムは、一般にコンピュータビジョンタスクに適用され、画像分類、復元、超解像を含むいくつかのサブドメインで最先端のものとなっている。 しかし、最新の超解像法が低分解能の"in-the-wild"データにおける精度と顔認証性能に与える影響は評価されていない。 本研究の目的は、実世界の低解像度画像における顔認識性能による顔の超解像課題に対して、異なるディープニューラルネットワークアーキテクチャの評価と適応を行うことである。 実世界の監視および出席データセットにおける実験結果は、一般的な超高解像度アーキテクチャが、高分解能顔で訓練されたディープニューラルネットワークのフェイス検証性能を向上させる可能性があることを示した。 また、ニューラルネットワークは関数近似子であり、特定の目的関数に基づいてトレーニングすることができるため、特徴抽出に最適化されたカスタマイズされた損失関数の使用は、低解像度の顔画像における識別的特徴の回復に有望な結果を示した。

Surveillance scenarios are prone to several problems since they usually involve low-resolution footage, and there is no control of how far the subjects may be from the camera in the first place. This situation is suitable for the application of upsampling (super-resolution) algorithms since they may be able to recover the discriminant properties of the subjects involved. While general super-resolution approaches were proposed to enhance image quality for human-level perception, biometrics super-resolution methods seek the best "computer perception" version of the image since their focus is on improving automatic recognition performance. Convolutional neural networks and deep learning algorithms, in general, have been applied to computer vision tasks and are now state-of-the-art for several sub-domains, including image classification, restoration, and super-resolution. However, no work has evaluated the effects that the latest proposed super-resolution methods may have upon the accuracy and face verification performance in low-resolution "in-the-wild" data. This project aimed at evaluating and adapting different deep neural network architectures for the task of face super-resolution driven by face recognition performance in real-world low-resolution images. The experimental results in a real-world surveillance and attendance datasets showed that general super-resolution architectures might enhance face verification performance of deep neural networks trained on high-resolution faces. Also, since neural networks are function approximators and can be trained based on specific objective functions, the use of a customized loss function optimized for feature extraction showed promising results for recovering discriminant features in low-resolution face images.
翻訳日:2021-03-26 08:43:17 公開日:2021-01-19
# (参考訳) 空間変調を用いたDECRの高速収束 [全文訳有]

Fast Convergence of DETR with Spatially Modulated Co-Attention ( http://arxiv.org/abs/2101.07448v1 )

ライセンス: CC BY 4.0
Peng Gao, Minghang Zheng, Xiaogang Wang, Jifeng Dai, Hongsheng Li(参考訳) 最近提案されたDETRモデルは、Transformerをオブジェクト検出に適用し、Faster-RCNNのような2段階のオブジェクト検出フレームワークで同等のパフォーマンスを実現する。 しかし、DETRは収束が遅い。 DETR \cite{carion2020end}をスクラッチからトレーニングするには500エポックが必要である。 そこで本研究では,その収束を加速するために,DECフレームワーク,すなわちSpatially Modulated Co-Attention (SMCA) 機構を改善するための簡易かつ効果的な手法を提案する。 SMCAの中核となる考え方は、当初推定された境界ボックス付近で高いコアテンション応答を制限し、DECにおける回帰認識コアテンションを実行することである。 提案するSMCAは,DeTR内の他の操作を一定に保ちながら,デコーダ内の元のコアテンション機構を置き換えることで,DTRの収束速度を向上する。 さらに,マルチヘッドおよびスケール選択型アテンションデザインをSMCAに統合することにより,拡張畳み込みベースバックボーン(45.6 mAP,108 epochs,43.3 mAP,500 epochs)のDETRよりも優れた性能が得られる。 提案したSMCAの有効性を検証するため,COCOデータセットに対する広範囲なアブレーション研究を行った。

The recently proposed Detection Transformer (DETR) model successfully applies Transformer to objects detection and achieves comparable performance with two-stage object detection frameworks, such as Faster-RCNN. However, DETR suffers from its slow convergence. Training DETR \cite{carion2020end} from scratch needs 500 epochs to achieve a high accuracy. To accelerate its convergence, we propose a simple yet effective scheme for improving the DETR framework, namely Spatially Modulated Co-Attention (SMCA) mechanism. The core idea of SMCA is to conduct regression-aware co-attention in DETR by constraining co-attention responses to be high near initially estimated bounding box locations. Our proposed SMCA increases DETR's convergence speed by replacing the original co-attention mechanism in the decoder while keeping other operations in DETR unchanged. Furthermore, by integrating multi-head and scale-selection attention designs into SMCA, our fully-fledged SMCA can achieve better performance compared to DETR with a dilated convolution-based backbone (45.6 mAP at 108 epochs vs. 43.3 mAP at 500 epochs). We perform extensive ablation studies on COCO dataset to validate the effectiveness of the proposed SMCA.
翻訳日:2021-03-26 08:19:38 公開日:2021-01-19
# (参考訳) 名前付きエンティティ認識のための単対複数アノテーション [全文訳有]

Single versus Multiple Annotation for Named Entity Recognition of Mutations ( http://arxiv.org/abs/2101.07450v1 )

ライセンス: CC BY 4.0
David Martinez Iraola and Antonio Jimeno Yepes(参考訳) 本研究の目的は、手動で注釈付きデータを構築するための異なるアプローチを解析することにより、変異のNER(Named Entity Recognition)の知識獲得ボトルネックを解決することである。 まず,2つのアノテータに対して1つのアノテータを用いることで,複数のアノテータが必要かどうかを測定する。 1つのアノテータを使用する場合のパフォーマンス損失を評価すると、異なる方法を適用して第2のアノテーションのトレーニングデータをサンプリングし、フルパスを必要とせずにデータセットの品質を改善することを目指しています。 保持されたダブルアノテートデータを使用して、異なるタイプのランキングを持つ2つのシナリオを構築します。 i) 誤りであるトレーニングインスタンスを識別する能力(議論後の二重アノテーションとは異なる場合) および(ii) 修正を異なる閾値で統合した後の最先端の分類器に対するミューテーションNER性能について評価する。

The focus of this paper is to address the knowledge acquisition bottleneck for Named Entity Recognition (NER) of mutations, by analysing different approaches to build manually-annotated data. We address first the impact of using a single annotator vs two annotators, in order to measure whether multiple annotators are required. Once we evaluate the performance loss when using a single annotator, we apply different methods to sample the training data for second annotation, aiming at improving the quality of the dataset without requiring a full pass. We use held-out double-annotated data to build two scenarios with different types of rankings: similarity-based and confidence based. We evaluate both approaches on: (i) their ability to identify training instances that are erroneous (cases where single-annotator labels differ from double-annotation after discussion), and (ii) on Mutation NER performance for state-of-the-art classifiers after integrating the fixes at different thresholds.
翻訳日:2021-03-26 08:01:43 公開日:2021-01-19
# (参考訳) 手書きページセグメンテーションのための教師なしディープラーニング [全文訳有]

Unsupervised Deep Learning for Handwritten Page Segmentation ( http://arxiv.org/abs/2101.07487v1 )

ライセンス: CC BY 4.0
Ahmad Droby, Berat Kurar Barakat, Borak Madi, Reem Alaasam and Jihad El-Sana(参考訳) 手書きの文書画像を均質なパターンで領域に分割することは、多くの文書画像分析タスクにおいて重要な前処理ステップである。 レイアウト分析のためのディープラーニングモデルをトレーニングするための手ラベルデータには、かなりの人的労力が必要です。 本稿では,注釈付き画像の必要性を排除したページセグメンテーションのための教師なしディープラーニング手法を提案する。 サイムズニューラルネットワークは、前景画素数、平均コンポーネント高さと幅などの測定可能な特性を用いてパッチを区別するように訓練される。 ネットワークは、空間的に近接するパッチが似ているように訓練される。 ネットワークの学習した機能はページセグメンテーションに使用され、パッチは抽出された特徴に基づいてメインテキストとサイドテキストに分類される。 非常に複雑なレイアウトで手書き文書画像のデータセット上で本手法を検証した。 実験の結果,提案手法は通常の教師なし手法と同じくらい有効であることがわかった。

Segmenting handwritten document images into regions with homogeneous patterns is an important pre-processing step for many document images analysis tasks. Hand-labeling data to train a deep learning model for layout analysis requires significant human effort. In this paper, we present an unsupervised deep learning method for page segmentation, which revokes the need for annotated images. A siamese neural network is trained to differentiate between patches using their measurable properties such as number of foreground pixels, and average component height and width. The network is trained that spatially nearby patches are similar. The network's learned features are used for page segmentation, where patches are classified as main and side text based on the extracted features. We tested the method on a dataset of handwritten document images with quite complex layouts. Our experiments show that the proposed unsupervised method is as effective as typical supervised methods.
翻訳日:2021-03-23 14:05:29 公開日:2021-01-19
# (参考訳) 時系列データにおけるbilevel programmingを用いたcnnのハイパーパラメータの最適化 [全文訳有]

Optimizing Hyperparameters in CNNs using Bilevel Programming in Time Series Data ( http://arxiv.org/abs/2101.07492v1 )

ライセンス: CC BY 4.0
Taniya Seth and Pranab K. Muhuri(参考訳) ハイパーパラメータ最適化は、最先端の結果を生成する能力のため、マシンラーニングコミュニティの中心的なトピックであり続けている。 近年の時系列予測におけるcnnの利用への関心が高まる中、時系列予測のためにcnnのハイパーパラメータを最適化する概念を提案する。 本稿では,超パラメータ最適化問題を双レベルプログラミングを用いてモデル化する手法について述べる。

Hyperparameter optimization has remained a central topic within the machine learning community due to its ability to produce state-of-the-art results. With the recent interest growing in the usage of CNNs for time series prediction, we propose the notion of optimizing Hyperparameters in CNNs for the purpose of time series prediction. In this position paper, we give away the idea of modeling the concerned hyperparameter optimization problem using bilevel programming.
翻訳日:2021-03-23 13:39:23 公開日:2021-01-19
# (参考訳) 医療のための協調的フェデレーションラーニング:端部におけるマルチモーダルなCOVID-19診断 [全文訳有]

Collaborative Federated Learning For Healthcare: Multi-Modal COVID-19 Diagnosis at the Edge ( http://arxiv.org/abs/2101.07511v1 )

ライセンス: CC BY 4.0
Adnan Qayyum, Kashif Ahmad, Muhammad Ahtazaz Ahsan, Ala Al-Fuqaha, and Junaid Qadir(参考訳) ここ数年で大幅に改善されたにもかかわらず、クラウドベースのヘルスケアアプリケーションは、厳格なセキュリティ、プライバシ、サービス要件の品質(低レイテンシなど)を満たすことの制限により、採用が遅れている。 エッジコンピューティングのトレンドは、フェデレーション学習のような分散機械学習のテクニックとともに、このような環境で実行可能なソリューションとして人気を集めています。 本稿では,先進的な診断施設を欠いた遠隔医療センターにおいて,臨床視覚データのインテリジェントな処理の可能性を分析し,評価することにより,医療におけるエッジコンピューティングの能力を活用し,マルチモーダルデータの安全性を享受する。 そこで本研究では,クラスタ化フェデレーション学習(CFL)の概念を,新型コロナウイルスの自動診断に活用する。 このような自動化システムは、新型コロナウイルス(covid-19)のパンデミックが2019年後半に発生して以来、多くのストレスにさらされてきた世界中の医療システムの負担を軽減するのに役立つ。 2つのベンチマークデータセットの異なる実験環境において,提案フレームワークの性能を評価する。 その結果、それぞれのデータセットにおいて、特定のモデル(例えば、特定の種類のCOVID-19画像上の各モデル)を中心データでトレーニングする中央ベースラインに対して比較結果が得られ、X線および超音波データセット上の従来のフェデレートラーニング設定でトレーニングされたマルチモーダルモデルに対して、全体的なF1スコアの16.%と11.%の改善が達成された。 また,このようなプライバシや遅延に敏感なアプリケーションにおいて,mlをエッジにデプロイするための,関連する課題や技術,ツール,テクニックについても詳細に論じる。

Despite significant improvements over the last few years, cloud-based healthcare applications continue to suffer from poor adoption due to their limitations in meeting stringent security, privacy, and quality of service requirements (such as low latency). The edge computing trend, along with techniques for distributed machine learning such as federated learning, have gained popularity as a viable solution in such settings. In this paper, we leverage the capabilities of edge computing in medicine by analyzing and evaluating the potential of intelligent processing of clinical visual data at the edge allowing the remote healthcare centers, lacking advanced diagnostic facilities, to benefit from the multi-modal data securely. To this aim, we utilize the emerging concept of clustered federated learning (CFL) for an automatic diagnosis of COVID-19. Such an automated system can help reduce the burden on healthcare systems across the world that has been under a lot of stress since the COVID-19 pandemic emerged in late 2019. We evaluate the performance of the proposed framework under different experimental setups on two benchmark datasets. Promising results are obtained on both datasets resulting in comparable results against the central baseline where the specialized models (i.e., each on a specific type of COVID-19 imagery) are trained with central data, and improvements of 16\% and 11\% in overall F1-Scores have been achieved over the multi-modal model trained in the conventional Federated Learning setup on X-ray and Ultrasound datasets, respectively. We also discuss in detail the associated challenges, technologies, tools, and techniques available for deploying ML at the edge in such privacy and delay-sensitive applications.
翻訳日:2021-03-23 05:17:41 公開日:2021-01-19
# (参考訳) Momentum^2 Teacher: Momentum Statistics for Self-Supervised Learning [全文訳有]

Momentum^2 Teacher: Momentum Teacher with Momentum Statistics for Self-Supervised Learning ( http://arxiv.org/abs/2101.07525v1 )

ライセンス: CC BY 4.0
Zeming Li, Songtao Liu, Jian Sun(参考訳) 本稿では,学生教師による自己指導型学習のための新しいアプローチ,Momentum$^2$ Teacherを提案する。 このアプローチは、ネットワークウェイトとバッチ正規化(BN)統計の両方でモーメント更新を行う。 教師の体重は生徒の運動量の変化であり、教師のBN統計は歴史における運動量の変化である。 Momentum$^2$ Teacherはシンプルで効率的です。 これは、小さなバッチサイズ(\eg, 128)を使用して、TPUのような特別なハードウェアでの大規模なバッチトレーニングやGPU操作間の非効率(\eg, shuffling BN, synced BN)を必要とせずに、ImageNetリニア評価プロトコル(74.5\%)下での成果を達成することができる。 実装と事前トレーニングされたモデルはgithub\footnote{https://github.com/z engarden/momentum2-t eacher}で提供される。

In this paper, we present a novel approach, Momentum$^2$ Teacher, for student-teacher based self-supervised learning. The approach performs momentum update on both network weights and batch normalization (BN) statistics. The teacher's weight is a momentum update of the student, and the teacher's BN statistics is a momentum update of those in history. The Momentum$^2$ Teacher is simple and efficient. It can achieve the state of the art results (74.5\%) under ImageNet linear evaluation protocol using small-batch size(\eg, 128), without requiring large-batch training on special hardware like TPU or inefficient across GPU operation (\eg, shuffling BN, synced BN). Our implementation and pre-trained models will be given on GitHub\footnote{https://github.com/z engarden/momentum2-t eacher}.
翻訳日:2021-03-23 04:57:57 公開日:2021-01-19
# (参考訳) VML-MOC: 多重指向および曲面手書きテキストラインデータセットのセグメンテーション [全文訳有]

VML-MOC: Segmenting a multiply oriented and curved handwritten text lines dataset ( http://arxiv.org/abs/2101.07542v1 )

ライセンス: CC BY 4.0
Berat Kurar Barakat, Rafi Cohen, Irina Rabaev, and Jihad El-Sana(参考訳) 本稿では,VML-MOCデータセットという,テキスト行の多重化による手書き文書の自然な,非常に複雑なデータセットを公開する。 これらのテキストは、何年にもわたって異なる著者によってページマージンに言及された。 それらは 0 から 180 までの方向の異なる位置に現れるか、あるいは曲線形式として現れる。 我々は、任意の向きで歪んだり湾曲した手書きテキスト行を分割する多目的ガウス的手法を評価する。 テスト文書の結合スコアが80.96%を超える平均ピクセル交点を達成している。 その結果, 単方向ガウスに基づくテキスト線分割法の結果と比較した。

This paper publishes a natural and very complicated dataset of handwritten documents with multiply oriented and curved text lines, namely VML-MOC dataset. These text lines were written as remarks on the page margins by different writers over the years. They appear at different locations within the orientations that range between 0 and 180 or as curvilinear forms. We evaluate a multi-oriented Gaussian based method to segment these handwritten text lines that are skewed or curved in any orientation. It achieves a mean pixel Intersection over Union score of 80.96% on the test documents. The results are compared with the results of a single-oriented Gaussian based text line segmentation method.
翻訳日:2021-03-23 04:40:57 公開日:2021-01-19
# (参考訳) 医用画像の深層学習モデルの視覚的解釈性に対するStyleGANの利用 [全文訳有]

Using StyleGAN for Visual Interpretability of Deep Learning Models on Medical Images ( http://arxiv.org/abs/2101.07563v1 )

ライセンス: CC BY 4.0
Kathryn Schutte, Olivier Moindrot, Paul H\'erent, Jean-Baptiste Schiratti, Simon J\'egou(参考訳) aiベースの医療機器が放射線学や組織学などの画像分野で一般的になるにつれ、基礎となる予測モデルの解釈性は臨床での使用拡大に不可欠である。 GradCAMのような既存のヒートマップベースの解釈可能性手法は、予測機能の位置のみを強調するが、予測にどのように貢献するかは説明していない。 本稿では,画像上の任意のブラックボックスモデルの予測を理解するために,入力画像をどのように修正して異なる予測を生成するかを示すことにより,新たな解釈可能性を提案する。 StyleGANは医療画像に基づいて訓練され、潜伏ベクトルと画像のマッピングを提供する。 提案手法は,潜在空間における最適方向を同定し,モデル予測の変化を生成する。 この方向に沿って入力画像の潜在表現をシフトさせることにより、予測が変化する一連の新しい合成画像を生成することができる。 組織学および放射線画像へのアプローチを検証し,GradCAMヒートマップよりも有意義な説明を提供する能力を示した。 提案手法は, モデルによって得られたパターンを明らかにし, 臨床医がモデルの予測を信頼し, 新たなバイオマーカーを発見し, 最終的には潜在的なバイアスを明らかにする。

As AI-based medical devices are becoming more common in imaging fields like radiology and histology, interpretability of the underlying predictive models is crucial to expand their use in clinical practice. Existing heatmap-based interpretability methods such as GradCAM only highlight the location of predictive features but do not explain how they contribute to the prediction. In this paper, we propose a new interpretability method that can be used to understand the predictions of any black-box model on images, by showing how the input image would be modified in order to produce different predictions. A StyleGAN is trained on medical images to provide a mapping between latent vectors and images. Our method identifies the optimal direction in the latent space to create a change in the model prediction. By shifting the latent representation of an input image along this direction, we can produce a series of new synthetic images with changed predictions. We validate our approach on histology and radiology images, and demonstrate its ability to provide meaningful explanations that are more informative than GradCAM heatmaps. Our method reveals the patterns learned by the model, which allows clinicians to build trust in the model's predictions, discover new biomarkers and eventually reveal potential biases.
翻訳日:2021-03-23 04:28:45 公開日:2021-01-19
# (参考訳) 最大平均差最小化のためのグリードアルゴリズムの性能解析

Performance analysis of greedy algorithms for minimising a Maximum Mean Discrepancy ( http://arxiv.org/abs/2101.07564v1 )

ライセンス: CC BY 4.0
Luc Pronzato(参考訳) 我々は,最大平均離散性(MMD)の最小化に基づいて,確率測度$\mu$の量子化のための複数の反復アルゴリズムの性能を解析する。 我々の分析では、カーネルハーディング、greedy MMD最小化、Sequential Bayesian Quadrature (SBQ)がある。 MMDが測定した有限サンプルサイズ近似誤差はSBQに対して1/n$と減少し,また,ステップサイズシーケンスを使用する場合のカーネルハーディングやグリーディーMDDの最小化にも有効であることを示す。 近似誤差の上界はsbqより若干優れているが、他の手法の方がかなり高速であり、計算コストは選択した点数で線形に増加するだけである。 これは2つの数値的な例で示され、目標測度 $\mu$ は一様(空間充填設計のアプリケーション)であり、$\mu$ はガウス混合である。

We analyse the performance of several iterative algorithms for the quantisation of a probability measure $\mu$, based on the minimisation of a Maximum Mean Discrepancy (MMD). Our analysis includes kernel herding, greedy MMD minimisation and Sequential Bayesian Quadrature (SBQ). We show that the finite-sample-size approximation error, measured by the MMD, decreases as $1/n$ for SBQ and also for kernel herding and greedy MMD minimisation when using a suitable step-size sequence. The upper bound on the approximation error is slightly better for SBQ, but the other methods are significantly faster, with a computational cost that increases only linearly with the number of points selected. This is illustrated by two numerical examples, with the target measure $\mu$ being uniform (a space-filling design application) and with $\mu$ a Gaussian mixture.
翻訳日:2021-03-23 04:21:18 公開日:2021-01-19
# (参考訳) 第3次人工知能(AI)カリキュラムの作成と評価 [全文訳有]

Creation and Evaluation of a Pre-tertiary Artificial Intelligence (AI) Curriculum ( http://arxiv.org/abs/2101.07570v1 )

ライセンス: CC BY 4.0
Thomas K.F. Chiu, Helen Meng, Ching-Sing Chai, Irwin King, Savio Wong and Yeung Yam(参考訳) コントリビューション:香港大学(CUHK)-Jockey Club AI for the Future Project(AI4Future)は、第3次教育のためのAIカリキュラムを共同で作成し、その効果を評価した。 従来,第3級教育ではAIが教えられていたが,香港の中等教育で使われ,肯定的なフィードバックを受けたカリキュラムの開発に成功している。 背景: AI4Futureは、CUHK工学部と教育学部、香港中等学校、政府、AI産業の5つの主要なパートナーからなるクロスセクタープロジェクトである。 工学と教育を専門とする14人の教授が、6つの中学校の17の校長と教師と協力してカリキュラムを共同作成した。 このチーム構成は、工学と教育の研究者と、教育の文脈における実践者のギャップを埋める。 研究質問:共同作成プロセスを通じて開発されたカリキュラムコンテンツの主な特徴は何か。 カリキュラムは、AIに対する態度やモチベーションだけでなく、学生の能力向上に寄与するか? 教師の自立と育成を目的とした共創プロセスに対する教師の認識はどのようなものか。 方法】335名の学生を対象に,定量的および定性的手法を併用した。 その結果,1) 学習資源の2つの主な特徴,2) 学習者の能力向上,2) 学習に対する肯定的な態度,3) 共創プロセスは,AIにおける教師の知識を向上する様々な資源を生み出し,また,授業に課題を取り入れた教師の自主性を育成した。

Contributions: The Chinese University of Hong Kong (CUHK)-Jockey Club AI for the Future Project (AI4Future) co-created an AI curriculum for pre-tertiary education and evaluated its efficacy. While AI is conventionally taught in tertiary level education, our co-creation process successfully developed the curriculum that has been used in secondary school teaching in Hong Kong and received positive feedback. Background: AI4Future is a cross-sector project that engages five major partners - CUHK Faculty of Engineering and Faculty of Education, Hong Kong secondary schools, the government and the AI industry. A team of 14 professors with expertise in engineering and education collaborated with 17 principals and teachers from 6 secondary schools to co-create the curriculum. This team formation bridges the gap between researchers in engineering and education, together with practitioners in education context. Research Questions: What are the main features of the curriculum content developed through the co-creation process? Would the curriculum significantly improve the students perceived competence in, as well as attitude and motivation towards AI? What are the teachers perceptions of the co-creation process that aims to accommodate and foster teacher autonomy? Methodology: This study adopted a mix of quantitative and qualitative methods and involved 335 student participants. Findings: 1) two main features of learning resources, 2) the students perceived greater competence, and developed more positive attitude to learn AI, and 3) the co-creation process generated a variety of resources which enhanced the teachers knowledge in AI, as well as fostered teachers autonomy in bringing the subject matter into their classrooms.
翻訳日:2021-03-23 04:20:10 公開日:2021-01-19
# (参考訳) 空間アセンブリ:強化学習,自己遊び,木探索を用いた生成的アーキテクチャ [全文訳有]

Spatial Assembly: Generative Architecture With Reinforcement Learning, Self Play and Tree Search ( http://arxiv.org/abs/2101.07579v1 )

ライセンス: CC BY 4.0
Panagiotis Tigas and Tyson Hosmer(参考訳) 本研究では,空間集合生成における強化学習(Reinforcement Learning, RL)の利用について, 逐次生成アルゴリズム(Wave Function Collapse Algorithm, WFC)とゲーム解決のためのRLのアイデアを組み合わせて検討する。 WFC は Constraint Solving にインスパイアされた生成設計アルゴリズムである。 WFCでは、タイル/ブロックと制約のセットを定義し、アルゴリズムはこれらの制約を満たすアセンブリを生成する。 状態遷移をwfcで定義したマルコフ決定プロセスとして空間集合の生成の問題を取り上げ,強化学習と自己遊びを用いて,設計者が設定した目標を最大化する集合を生成するポリシを学習するアルゴリズムを提案する。 最後に,建築設計における空間集合アルゴリズムの活用を実演する。

With this work, we investigate the use of Reinforcement Learning (RL) for the generation of spatial assemblies, by combining ideas from Procedural Generation algorithms (Wave Function Collapse algorithm (WFC)) and RL for Game Solving. WFC is a Generative Design algorithm, inspired by Constraint Solving. In WFC, one defines a set of tiles/blocks and constraints and the algorithm generates an assembly that satisfies these constraints. Casting the problem of generation of spatial assemblies as a Markov Decision Process whose states transitions are defined by WFC, we propose an algorithm that uses Reinforcement Learning and Self-Play to learn a policy that generates assemblies that maximize objectives set by the designer. Finally, we demonstrate the use of our Spatial Assembly algorithm in Architecture Design.
翻訳日:2021-03-23 04:05:51 公開日:2021-01-19
# (参考訳) 空間情報に基づくデュアルドメインによるリアルタイムリミテッドビューctインペインティングと再構成 [全文訳有]

Real-Time Limited-View CT Inpainting and Reconstruction with Dual Domain Based on Spatial Information ( http://arxiv.org/abs/2101.07594v1 )

ライセンス: CC BY 4.0
Ken Deng, Chang Sun, Yitong Liu, Hongwen Yang(参考訳) 低線量CTは現実の一般的な問題である。 現在の削減、スパースサンプリング、限定的なビュースキャンがすべて原因です。 それらの間には、機械的・物理的制限が避けられないため、業界ではリミテッドビューCTが一般的である。 しかし, 限られた視野CTは, 膨大な情報損失を考慮し, 深刻な画像障害を引き起こす可能性がある。 したがって、スキャン済みの事前情報を有効活用して完了させる。 CT画像スライスは非常に密度が高く、連続した画像間の連続性が高いことは、否定できない事実である。 その結果,連続フレーム間の空間相関を十分に活用することで,映像インパインティングにおける復元結果を大幅に改善できることがわかった。 そこで本研究では,空間情報に基づく限定視点CT画像品質を向上する深層学習に基づく3段階アルゴリズムを提案する。 ステージ1では、Radonドメインの事前情報をよりよく活用するために、Radonデータを補完する対向オートエンコーダを設計する。 第2段階では、画像領域の空間連続性に基づくインペインティングを行うためのモデルが構築される。 この時点では、画像は概ね復元されているが、テクスチャはいまだに細かく修復する必要がある。 そこで我々は,ステージ3の画像を正確に復元するモデルを提案し,最終的に理想的な塗装結果を得る。 さらに,SART-TVの代わりにFBPを採用し,リアルタイム利用に適したアルゴリズムを提案する。 実験では, 後方3分の1を切断したRadonデータを復元, 復元し, 40.209のPSNR, 0.943のSSIMを実現し, テクスチャを正確に提示する。

Low-dose Computed Tomography is a common issue in reality. Current reduction, sparse sampling and limited-view scanning can all cause it. Between them, limited-view CT is general in the industry due to inevitable mechanical and physical limitation. However, limited-view CT can cause serious imaging problem on account of its massive information loss. Thus, we should effectively utilize the scant prior information to perform completion. It is an undeniable fact that CT imaging slices are extremely dense, which leads to high continuity between successive images. We realized that fully exploit the spatial correlation between consecutive frames can significantly improve restoration results in video inpainting. Inspired by this, we propose a deep learning-based three-stage algorithm that hoist limited-view CT imaging quality based on spatial information. In stage one, to better utilize prior information in the Radon domain, we design an adversarial autoencoder to complement the Radon data. In the second stage, a model is built to perform inpainting based on spatial continuity in the image domain. At this point, we have roughly restored the imaging, while its texture still needs to be finely repaired. Hence, we propose a model to accurately restore the image in stage three, and finally achieve an ideal inpainting result. In addition, we adopt FBP instead of SART-TV to make our algorithm more suitable for real-time use. In the experiment, we restore and reconstruct the Radon data that has been cut the rear one-third part, they achieve PSNR of 40.209, SSIM of 0.943, while precisely present the texture.
翻訳日:2021-03-23 04:02:35 公開日:2021-01-19
# (参考訳) 自己説明ニューラルネットワークを用いたグレンジャー因果関係の解釈モデル [全文訳有]

Interpretable Models for Granger Causality Using Self-explaining Neural Networks ( http://arxiv.org/abs/2101.07600v1 )

ライセンス: CC BY 4.0
Ri\v{c}ards Marcinkevi\v{c}s, Julia E. Vogt(参考訳) 時系列データの探索解析は、複雑な力学系をよりよく理解することができる。 グランガー因果関係は、広範囲の領域に適用されたシーケンシャルデータにおける相互作用を分析するための実践的なフレームワークである。 本稿では,自己説明型ニューラルネットワークの拡張に基づく非線形力学下での多変量グランガー因果関係の推論手法を提案する。 このフレームワークは、リレーショナル推論に加えて、グランガー因果効果の兆候を検出し、時間とともに変動を検査できるため、他の神経ネットワークベースのグラガー因果関係を推定する技術よりも解釈可能である。 シミュレーションデータに関する包括的実験において,我々のフレームワークはグランガー因果関係を推定するいくつかの強力なベースライン手法と同等の性能を発揮し,対話符号を推定する性能が向上することを示した。 その結果,我々のフレームワークは,グラガー因果関係を推定するためのスパースインプットニューラルネットワークの代替として,より有効かつ解釈可能なものであることが示唆された。

Exploratory analysis of time series data can yield a better understanding of complex dynamical systems. Granger causality is a practical framework for analysing interactions in sequential data, applied in a wide range of domains. In this paper, we propose a novel framework for inferring multivariate Granger causality under nonlinear dynamics based on an extension of self-explaining neural networks. This framework is more interpretable than other neural-network-based techniques for inferring Granger causality, since in addition to relational inference, it also allows detecting signs of Granger-causal effects and inspecting their variability over time. In comprehensive experiments on simulated data, we show that our framework performs on par with several powerful baseline methods at inferring Granger causality and that it achieves better performance at inferring interaction signs. The results suggest that our framework is a viable and more interpretable alternative to sparse-input neural networks for inferring Granger causality.
翻訳日:2021-03-23 03:44:28 公開日:2021-01-19
# (参考訳) 胸部X線写真からの心胸壁比算出のための深層学習モデルによる心肥大診断 [全文訳有]

Deep Learning Models for Calculation of Cardiothoracic Ratio from Chest Radiographs for Assisted Diagnosis of Cardiomegaly ( http://arxiv.org/abs/2101.07606v1 )

ライセンス: CC BY 4.0
Tanveer Gupte, Mrunmai Niljikar, Manish Gawali, Viraj Kulkarni, Amit Kharat, Aniruddha Pant(参考訳) 本稿では,胸部X線写真から心内膜像の存在を検出するための深層学習に基づく自動手法を提案する。 結束箱を用いたx線画像の心臓と胸部領域を画定する2つのモデルを開発し,その出力を用いて心拍数を算出した。 保持試験データセットで平均絶対誤差0.0209、特定度0.097で0.08、別病院から独立したデータセットで平均絶対誤差0.018の感度を0.96とする。 また,提案手法の3つのセグメンテーションモデルアーキテクチャを比較し,SE-Resnext U-NetやEfficientNet U-Netよりも優れた結果が得られることを示した。 心エコー比を数値的に測定することで,視覚的評価から生じるヒトの主観性を軽減することが期待されている。

We propose an automated method based on deep learning to compute the cardiothoracic ratio and detect the presence of cardiomegaly from chest radiographs. We develop two separate models to demarcate the heart and chest regions in an X-ray image using bounding boxes and use their outputs to calculate the cardiothoracic ratio. We obtain a sensitivity of 0.96 at a specificity of 0.81 with a mean absolute error of 0.0209 on a held-out test dataset and a sensitivity of 0.84 at a specificity of 0.97 with a mean absolute error of 0.018 on an independent dataset from a different hospital. We also compare three different segmentation model architectures for the proposed method and observe that Attention U-Net yields better results than SE-Resnext U-Net and EfficientNet U-Net. By providing a numeric measurement of the cardiothoracic ratio, we hope to mitigate human subjectivity arising out of visual assessment in the detection of cardiomegaly.
翻訳日:2021-03-23 03:15:26 公開日:2021-01-19
# (参考訳) 時間選好による経年的引用推薦 [全文訳有]

Chronological Citation Recommendation with Time Preference ( http://arxiv.org/abs/2101.07609v1 )

ライセンス: CC BY 4.0
Shutian Ma, Heng Zhang, Chengzhi Zhang, Xiaozhong Liu(参考訳) 引用推薦は、研究者が引用する候補文献を見つけるのを助ける重要な課題である。 伝統的な研究は引用を推奨する静的モデルに焦点を当てており、時間変化によって引き起こされる論文の違いを明示的に区別していない。 しかし,時間関連機能の追加やテクスト的話題の動的モデル化により,経年的引用推薦について検討する研究者もいる。 これらのソリューションは、ユーザのプロファイリングに関する情報がない場合や、独立した論文が引用されない場合、機能の一般化やコールドスタートの問題に対処できない。 科学パラダイムの台頭と衰退に伴い、科学のトピックは時間とともに変化し進化する傾向がある。 古い時代に出版された古典的読解に理論的な基礎がほとんど存在するのに対し、より最近の論文では新しい技術が提案されているため、人々は論文の引用に時間的好みを持つだろう。 本論文は, 時系列引用の推奨を探索するために, ユーザクエリに基づいて, 異なる時間スライスで発行された論文を引用する確率分布である時間優先性を予測することを目的とする。 次に、この時間設定を用いて、コンテンツベースのフィルタリングによって得られた初期引用リストを再ランクする。 実験の結果、タスクパフォーマンスが時間優先によってさらに向上できることが示され、他の引用レコメンデーションフレームワークに追加するフレキシブルである。

Citation recommendation is an important task to assist scholars in finding candidate literature to cite. Traditional studies focus on static models of recommending citations, which do not explicitly distinguish differences between papers that are caused by temporal variations. Although, some researchers have investigated chronological citation recommendation by adding time related function or modeling textual topics dynamically. These solutions can hardly cope with function generalization or cold-start problems when there is no information for user profiling or there are isolated papers never being cited. With the rise and fall of science paradigms, scientific topics tend to change and evolve over time. People would have the time preference when citing papers, since most of the theoretical basis exist in classical readings that published in old time, while new techniques are proposed in more recent papers. To explore chronological citation recommendation, this paper wants to predict the time preference based on user queries, which is a probability distribution of citing papers published in different time slices. Then, we use this time preference to re-rank the initial citation list obtained by content-based filtering. Experimental results demonstrate that task performance can be further enhanced by time preference and it's flexible to be added in other citation recommendation frameworks.
翻訳日:2021-03-23 03:04:49 公開日:2021-01-19
# (参考訳) CTスキャンにおけるセマンティックセグメンテーションのための3次元および2次元深層学習手法の比較評価 [全文訳有]

Comparative Evaluation of 3D and 2D Deep Learning Techniques for Semantic Segmentation in CT Scans ( http://arxiv.org/abs/2101.07612v1 )

ライセンス: CC BY 4.0
Abhishek Shivdeo, Rohit Lokwani, Viraj Kulkarni, Amit Kharat, Aniruddha Pant(参考訳) 画像セグメンテーションは、関心領域のセグメンテーションを支援することで、いくつかの医療画像アプリケーションにおいて重要な役割を果たす。 深層学習に基づくアプローチは医学データのセマンティクスセグメンテーションに広く採用されている。 近年,2次元深層学習アーキテクチャに加えて,3次元医用画像データの予測アルゴリズムとして3次元アーキテクチャが採用されている。 本稿では, 3次元ctスキャンにおいて, 固化と接地ガラスの不透明さをセグメント化するための3次元スタックベース深層学習手法を提案する。 また,この3D手法と従来の2D深層学習手法のセグメンテーション結果,文脈情報保持時間,および推論時間に基づいて比較を行った。 また、これらの深層学習モデルにより予測される病理領域のスライスワイズ領域で観察される特異なパターンを表す領域プロットを定義する。 総括評価では,CTスキャンのセグメンテーションにおいて,3次元法の方が2次元法より優れていた。 3D法と2D法では,それぞれ79%,73%のダイススコアが得られた。 3D法は2D法と比較して推論時間を5倍に短縮する。 また, 3次元モデルによって予測される領域プロットは, 2次元モデルで予測されるものよりも基底的真理に類似していることが示された。 また,トレーニング中に保持する文脈情報の量を増やすことで,3次元モデルの性能が向上することを示す。

Image segmentation plays a pivotal role in several medical-imaging applications by assisting the segmentation of the regions of interest. Deep learning-based approaches have been widely adopted for semantic segmentation of medical data. In recent years, in addition to 2D deep learning architectures, 3D architectures have been employed as the predictive algorithms for 3D medical image data. In this paper, we propose a 3D stack-based deep learning technique for segmenting manifestations of consolidation and ground-glass opacities in 3D Computed Tomography (CT) scans. We also present a comparison based on the segmentation results, the contextual information retained, and the inference time between this 3D technique and a traditional 2D deep learning technique. We also define the area-plot, which represents the peculiar pattern observed in the slice-wise areas of the pathology regions predicted by these deep learning models. In our exhaustive evaluation, 3D technique performs better than the 2D technique for the segmentation of CT scans. We get dice scores of 79% and 73% for the 3D and the 2D techniques respectively. The 3D technique results in a 5X reduction in the inference time compared to the 2D technique. Results also show that the area-plots predicted by the 3D model are more similar to the ground truth than those predicted by the 2D model. We also show how increasing the amount of contextual information retained during the training can improve the 3D model's performance.
翻訳日:2021-03-23 02:50:10 公開日:2021-01-19
# (参考訳) Sparse-View CT再構成のための空間相関を利用した軽量構造 [全文訳有]

A Lightweight Structure Aimed to Utilize Spatial Correlation for Sparse-View CT Reconstruction ( http://arxiv.org/abs/2101.07613v1 )

ライセンス: CC BY 4.0
Yitong Liu, Ken Deng, Chang Sun, Hongwen Yang(参考訳) Sparse-view Computed Tomography (CT) は放射線線量を減らすために広く用いられている手法として知られている。 しかし、その厳しい画像ノイズとストリーキングアーティファクトは、低線量プロトコルにおいて大きな問題であることが判明した。 本稿では,単一の画像スライスのみを処理するアルゴリズムの限界を破る2領域深層学習に基づく手法を提案する。 走査対象物は通常、高い空間連続性を含むため、得られた連続撮像スライスはほとんど探索されていない豊富な情報を具現化する。 そこで我々はLS-AAEというカスケードモデルを構築し,この問題に対処することを目的とした。 また,軽度医療の社会的傾向に適応するため,本モデルはモジュール設計における線形ボトルネックを伴う逆残差を採用し,その性能を損なうことなく,移動可能かつ軽量に(モデルパラメータを元の8分の1に還元する)。 実験では,4{\deg},8{\deg},16{\deg}の間隔でスパースサンプリングを行った。 しかし,本手法は依然として頑健であり,PSNR 40.305,SSIM 0.948 に到達し,高モデル移動性を確保した。 特に、サンプリングレートが4分の1である場合でも、他の電流法を上回っており、その卓越性が顕著である。

Sparse-view computed tomography (CT) is known as a widely used approach to reduce radiation dose while accelerating imaging through lowered projection views and correlated calculations. However, its severe imaging noise and streaking artifacts turn out to be a major issue in the low dose protocol. In this paper, we propose a dual-domain deep learning-based method that breaks through the limitations of currently prevailing algorithms that merely process single image slices. Since the scanned object usually contains a high degree of spatial continuity, the obtained consecutive imaging slices embody rich information that is largely unexplored. Therefore, we establish a cascade model named LS-AAE which aims to tackle the above problem. In addition, in order to adapt to the social trend of lightweight medical care, our model adopts the inverted residual with linear bottleneck in the module design to make it mobile and lightweight (reduce model parameters to one-eighth of its original) without sacrificing its performance. In our experiments, sparse sampling is conducted at intervals of 4{\deg}, 8{\deg} and 16{\deg}, which appears to be a challenging sparsity that few scholars have attempted before. Nevertheless, our method still exhibits its robustness and achieves the state-of-the-art performance by reaching the PSNR of 40.305 and the SSIM of 0.948, while ensuring high model mobility. Particularly, it still exceeds other current methods when the sampling rate is one-fourth of them, thereby demonstrating its remarkable superiority.
翻訳日:2021-03-23 02:34:06 公開日:2021-01-19
# (参考訳) 異なる分野からの参照のキャラクタリゼーション--Citation Content Analysisの視点から [全文訳有]

Characterizing References from Different Disciplines: A Perspective of Citation Content Analysis ( http://arxiv.org/abs/2101.07614v1 )

ライセンス: CC BY 4.0
Chengzhi Zhang, Lifan Liu, Yuzhuo Wang(参考訳) 社会問題には必然的に複数の分野が含まれるため、多分野連携は研究において一般的である。 研究論文では、参照情報、特に引用内容は、異なる分野間のコミュニケーションの重要な表現である。 研究論文における参照の分布特性の分析は、参照情報のソースを検出し、異なる分野のコントリビューションを特定するための基礎となる。 この研究は、データとしてPLoSの記事を取り、Citation Content Analysis (CCA)に基づいて異なる分野からの参照を特徴付ける。 まず、PLoSから210,334のフルテキスト記事をダウンロードし、インテキストの引用情報を収集する。 そして、これらの学術論文において、それぞれの参照の規律を特定する。 これらの参照の分布を特徴付けるために,引用数,平均引用強度,平均引用長の3つの特徴を分析した。 最後に、異なる分野からの参照の分布は著しく異なると結論づける。 ほとんどの文献は自然科学からの引用であるが、人文科学と社会科学は記事の紹介と背景セクションにおいて重要な役割を担っている。 数学などの基本的な分野は、主にPLoSの論文で研究方法を提供している。 論文の結果や議論セクションで言及されている引用は、plosにおける看護や医学からの引用など、主に学際的な引用である。

Multidisciplinary cooperation is now common in research since social issues inevitably involve multiple disciplines. In research articles, reference information, especially citation content, is an important representation of communication among different disciplines. Analyzing the distribution characteristics of references from different disciplines in research articles is basic to detecting the sources of referred information and identifying contributions of different disciplines. This work takes articles in PLoS as the data and characterizes the references from different disciplines based on Citation Content Analysis (CCA). First, we download 210,334 full-text articles from PLoS and collect the information of the in-text citations. Then, we identify the discipline of each reference in these academic articles. To characterize the distribution of these references, we analyze three characteristics, namely, the number of citations, the average cited intensity and the average citation length. Finally, we conclude that the distributions of references from different disciplines are significantly different. Although most references come from Natural Science, Humanities and Social Sciences play important roles in the Introduction and Background sections of the articles. Basic disciplines, such as Mathematics, mainly provide research methods in the articles in PLoS. Citations mentioned in the Results and Discussion sections of articles are mainly in-discipline citations, such as citations from Nursing and Medicine in PLoS.
翻訳日:2021-03-23 02:18:45 公開日:2021-01-19
# (参考訳) 協調学習における証明可能なバックドアディフェンスについて [全文訳有]

On Provable Backdoor Defense in Collaborative Learning ( http://arxiv.org/abs/2101.08177v1 )

ライセンス: CC BY 4.0
Ximing Qiao, Yuhua Bai, Siping Hu, Ang Li, Yiran Chen, Hai Li(参考訳) 協調学習は、複数のデータソースを使用したモデルの共同トレーニングを可能にするため、セキュリティ問題は中心的な関心事となっている。 悪意のあるユーザは、有害なデータをアップロードすることで、モデルの収束を防ぎ、隠れたバックドアを注入することができる。 いわゆるバックドア攻撃は、モデルが標準テストデータで正常に振る舞うが、特定のバックドアキーによってトリガーされた場合に間違った出力を与えるため、特に検出が難しい。 ビザンチン耐性訓練アルゴリズムは収束保証を提供するが、バックドア攻撃に対する証明可能な防御は未解決のままである。 ランダムな平滑化に基づく手法は、少数の破損したピクセルやラベルを補正するしかなく、サブセットアグリゲーションに基づく手法は、低データ利用による分類精度の低下を引き起こす。 既存のサブセット集約メソッドを一般化する新しいフレームワークを提案する。 このフレームワークは、サブセットアグリゲーションメソッドの決定因子であるサブセット選択プロセスが、コード設計の問題と見なせることを示している。 データ利用率の理論的境界を導出し、最適なコード構成を提供する。 MNIST と CIFAR-10 の非IID バージョンに対する実験により、最適符号を用いた手法は、重複しない分割とランダム選択を用いてベースラインを著しく上回ることを示した。 さらに、既存のコーディング理論と統合することで、特別なコードが攻撃者の位置を追跡できることが示される。 このような能力はバックドア攻撃に対する新しい対策を提供する。

As collaborative learning allows joint training of a model using multiple sources of data, the security problem has been a central concern. Malicious users can upload poisoned data to prevent the model's convergence or inject hidden backdoors. The so-called backdoor attacks are especially difficult to detect since the model behaves normally on standard test data but gives wrong outputs when triggered by certain backdoor keys. Although Byzantine-tolerant training algorithms provide convergence guarantee, provable defense against backdoor attacks remains largely unsolved. Methods based on randomized smoothing can only correct a small number of corrupted pixels or labels; methods based on subset aggregation cause a severe drop in classification accuracy due to low data utilization. We propose a novel framework that generalizes existing subset aggregation methods. The framework shows that the subset selection process, a deciding factor for subset aggregation methods, can be viewed as a code design problem. We derive the theoretical bound of data utilization ratio and provide optimal code construction. Experiments on non-IID versions of MNIST and CIFAR-10 show that our method with optimal codes significantly outperforms baselines using non-overlapping partition and random selection. Additionally, integration with existing coding theory results shows that special codes can track the location of the attackers. Such capability provides new countermeasures to backdoor attacks.
翻訳日:2021-03-23 02:01:11 公開日:2021-01-19
# (参考訳) 歳入ショックに対する財政的対応

The fiscal response to revenue shocks ( http://arxiv.org/abs/2101.07661v1 )

ライセンス: CC BY 4.0
Simon Berset, Martin Huber, Mark Schelker(参考訳) 地方財政政策における歳入ショックの影響について検討する。 我々はスイスのチューリッヒのカントンにおいて、動けない不動産利得税からの非常に不安定な収入に注目し、大きな、まれなポジティブかつ負の収益ショックを受けた財政行動を分析する。 我々は、因果的機械学習戦略を適用し、二重選択後のラッソ推定器を実装して、公的財政に対する収益ショックの因果効果を特定する。 地方政策立案者は概して概ね円滑な財政ショックを示す。 しかし, 消費削減によって負のショックが緩和される一方で, 積極的ショックが緩和される財政保守主義と整合するパターンも見いだされる。

We study the impact of fiscal revenue shocks on local fiscal policy. We focus on the very volatile revenues from the immovable property gains tax in the canton of Zurich, Switzerland, and analyze fiscal behavior following large and rare positive and negative revenue shocks. We apply causal machine learning strategies and implement the post-double-selectio n LASSO estimator to identify the causal effect of revenue shocks on public finances. We show that local policymakers overall predominantly smooth fiscal shocks. However, we also find some patterns consistent with fiscal conservatism, where positive shocks are smoothed, while negative ones are mitigated by spending cuts.
翻訳日:2021-03-23 01:35:36 公開日:2021-01-19
# (参考訳) リズムに拡張された自動評価指標を用いた音楽生成モデルの比較 [全文訳有]

A framework to compare music generative models using automatic evaluation metrics extended to rhythm ( http://arxiv.org/abs/2101.07669v1 )

ライセンス: CC BY 4.0
Sebastian Garcia-Valencia, Alejandro Betancourt, Juan G. Lalinde-Pulido(参考訳) 機械学習モデルをトレーニングするには、各プロセス、シーケンス生成、特に音楽作曲の分野において、多くの選択肢について多くの決定を下す必要があるが、問題の性質は選択肢を狭めるのに役立つが、同時に、特定の課題のために他の選択肢が現れる。 本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。 モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の品質を評価する。

To train a machine learning model is necessary to take numerous decisions about many options for each process involved, in the field of sequence generation and more specifically of music composition, the nature of the problem helps to narrow the options but at the same time, some other options appear for specific challenges. This paper takes the framework proposed in a previous research that did not consider rhythm to make a series of design decisions, then, rhythm support is added to evaluate the performance of two RNN memory cells in the creation of monophonic music. The model considers the handling of music transposition and the framework evaluates the quality of the generated pieces using automatic quantitative metrics based on geometry which have rhythm support added as well.
翻訳日:2021-03-23 01:01:51 公開日:2021-01-19
# (参考訳) エッジ機能グラフ注意ネットワーク [全文訳有]

Edge-Featured Graph Attention Network ( http://arxiv.org/abs/2101.07671v1 )

ライセンス: CC BY 4.0
Jun Chen, Haopeng Chen(参考訳) グラフ構造化データの学習タスクを扱うために、多くのニューラルネットワークアーキテクチャが提案されている。 しかし、これらのモデルのほとんどは学習プロセス中のノード機能のみに集中しています。 エッジ機能は、通常、ノードと同様に重要な役割を果たすが、これらのモデルによってしばしば無視または単純化される。 本稿では,グラフニューラルネットワークをノードとエッジの両方の機能を持つグラフ上で学習するタスクに拡張するために,エッジ特徴付グラフアテンションネットワーク(egats)を提案する。 これらのモデルはグラフアテンションネットワーク(gats)の拡張と見なすことができる。 モデル構造と学習過程を再構築することにより、新しいモデルは、ノードとエッジの特徴を入力として受け入れ、エッジ情報を特徴表現に組み込んで、ノードとエッジの特徴を並列かつ相互に反復することができる。 その結果,我々の研究は他のノード分類手法と非常に競争力があり,エッジ機能付きグラフ学習タスクにも適用できることがわかった。

Lots of neural network architectures have been proposed to deal with learning tasks on graph-structured data. However, most of these models concentrate on only node features during the learning process. The edge features, which usually play a similarly important role as the nodes, are often ignored or simplified by these models. In this paper, we present edge-featured graph attention networks, namely EGATs, to extend the use of graph neural networks to those tasks learning on graphs with both node and edge features. These models can be regarded as extensions of graph attention networks (GATs). By reforming the model structure and the learning process, the new models can accept node and edge features as inputs, incorporate the edge information into feature representations, and iterate both node and edge features in a parallel but mutual way. The results demonstrate that our work is highly competitive against other node classification approaches, and can be well applied in edge-featured graph learning tasks.
翻訳日:2021-03-23 00:53:10 公開日:2021-01-19
# (参考訳) アフリカにおける公共交通システムのための人工知能による到着時刻とバス占有率の推定

An Artificial Intelligence based approach to estimating time of arrival and bus occupancy for public transport systems in Africa ( http://arxiv.org/abs/2101.07674v1 )

ライセンス: CC BY 4.0
Appau Ernest(参考訳) 本論文は,バス追跡監視システムの設計と実装に関する先進的な報告を含む。 本報告は, それぞれの目的を簡潔に探求する5章の限界内にその内容を有する。 第1章は序章である。 これには、バスのトラッキングと監視システム、プロジェクトの必要性と目的と目的に関する簡単な説明が含まれている。 第2章はこのプロジェクトの文献レビューである。 これは、他の人が行った以前の関連する研究やプロジェクトの批判的な分析を伴っている。 第3章は、クウェーム・ヌルマ大学のキャンパスにおける提案されたシステムの理論と設計の考察から成っている。 第4章 データの収集に使用する方法と,提案するシステム構築に採用されるアプローチと技術スタックについて語る。第5章では,論文を締め括り,提案システムのkwame nkrumah科学技術大学キャンパスにおけるテストと展開の結果について論じる。

This document entails a progressive report on the design and implementation of a bus tracking and monitoring system . This report has its contents within the limits of five chapters with each concisely exploring their various objectives. Chapter one is the introductory chapter. It entails a brief description of a bus tracking and monitoring system ,the need and the aims and objectives of this project. Chapter two consists the literature review of this project. This entails the critical analysis of previous related research and projects undertaken by other people. The merits and demerits of the various implementations.Chap ter three consists of theory and design considerations of the proposed system for Kwame Nkrumah University campus. Chapter four talks about the methods used to collect data and the approach and technology stack adopted to build the proposed system.Chapter five concludes the thesis and discusses the results of test and deployment of the proposed system on Kwame Nkrumah University of Science and Technology campus
翻訳日:2021-03-23 00:42:15 公開日:2021-01-19
# (参考訳) 新型コロナウイルスパンデミックにおけるTwitterの主観的幸福度指標 : クロスカントリー比較研究

Twitter Subjective Well-Being Indicator During COVID-19 Pandemic: A Cross-Country Comparative Study ( http://arxiv.org/abs/2101.07695v1 )

ライセンス: CC BY 4.0
Tiziana Carpi, Airo Hino, Stefano Maria Iacus, Giuseppe Porro(参考訳) 本研究は、日本とイタリアのTwitterデータ指標を用いて、新型コロナウイルスのパンデミックが主観的幸福感に与える影響を分析した。 総じて、主観的幸福感はイタリアでは11.7%、日本では8.3%減少し、2019年後半の2カ月に比べて、そして歴史的平均と比べてさらに低下した。 データサイエンスアプローチを通じて、気候と空気の品質データ、COVID-19のケースと死亡数、Facebook Covidとインフルエンザの世界的な調査、Google Trendsデータと新型コロナウイルス関連のサーチ、Googleモビリティデータ、ポリシー介入対策、経済変数、Google Trendsプロキシなど、いくつかの説明変数、ビッグデータに基づく健康とストレスプロキシ変数など、この低下の可能性のある原因を特定しようとしています。 本研究では, 簡単な静的回帰モデルではウェルビーイングの複雑さを捉えることができず, 動的弾性ネット手法を用いて, 短時間であっても, 異なる期間のウェルビーイングにどう影響するかを示す。 最後に、構造方程式モデリング分析は、covid-19要因と主観的幸福感の因果関係に対処し、全体的な移動制限、インフルエンザおよびcovid-19様症状、経済的不確実性、社会的距離、パンデミックに関するニュースが主観的幸福感に悪影響を及ぼすことを示している。

This study analyzes the impact of the COVID-19 pandemic on the subjective well-being as measured through Twitter data indicators for Japan and Italy. It turns out that, overall, the subjective well-being dropped by 11.7% for Italy and 8.3% for Japan in the first nine months of 2020 compared to the last two months of 2019 and even more compared to the historical mean of the indexes. Through a data science approach we try to identify the possible causes of this drop down by considering several explanatory variables including, climate and air quality data, number of COVID-19 cases and deaths, Facebook Covid and flu symptoms global survey, Google Trends data and coronavirus-related searches, Google mobility data, policy intervention measures, economic variables and their Google Trends proxies, as well as health and stress proxy variables based on big data. We show that a simple static regression model is not able to capture the complexity of well-being and therefore we propose a dynamic elastic net approach to show how different group of factors may impact the well-being in different periods, even over a short time length, and showing further country-specific aspects. Finally, a structural equation modeling analysis tries to address the causal relationships among the COVID-19 factors and subjective well-being showing that, overall, prolonged mobility restrictions,flu and Covid-like symptoms, economic uncertainty, social distancing and news about the pandemic have negative effects on the subjective well-being.
翻訳日:2021-03-23 00:22:57 公開日:2021-01-19
# (参考訳) グラフ畳み込みネットワークの分散トレーニングのための通信効率の高いサンプリング [全文訳有]

Communication-Effici ent Sampling for Distributed Training of Graph Convolutional Networks ( http://arxiv.org/abs/2101.07706v1 )

ライセンス: CC BY 4.0
Peng Jiang, Masuma Akter Rumi(参考訳) グラフ畳み込みネットワーク(GCN)のトレーニングは、近隣ノードから再帰的にデータを収集する必要があるため、コストがかかる。 計算オーバヘッドを低減するため, 先行研究では, 少数の近傍のサンプルに基づいて, 集約結果を推定する様々な近傍サンプリング手法が提案されている。 これらの手法は訓練の加速に成功しているが、主にシングルマシンの設定に焦点を当てている。 実世界のグラフは大きいので、分散システムにおけるGCNのトレーニングが望ましい。 しかし,既存の隣接サンプリング手法は分散環境ではうまく動作しないことがわかった。 具体的には、単純な実装は異なるマシン間で大量の特徴ベクトルの通信を引き起こす可能性がある。 この問題に対処するため,本稿では,通信効率の良い隣接サンプリング手法を提案する。 私たちの主なアイデアは、リモートノードがより頻繁にアクセスされるように、ローカルノードに高いサンプリング確率を割り当てることです。 本稿では, 局所サンプリング確率を判定し, スクイード隣りのサンプリングがトレーニングの収束度に大きく影響しないことを確かめるアルゴリズムを提案する。 ノード分類ベンチマークを用いた実験により,分散gcnトレーニングにおける通信オーバーヘッドを,精度の低下を少なく抑えることができた。

Training Graph Convolutional Networks (GCNs) is expensive as it needs to aggregate data recursively from neighboring nodes. To reduce the computation overhead, previous works have proposed various neighbor sampling methods that estimate the aggregation result based on a small number of sampled neighbors. Although these methods have successfully accelerated the training, they mainly focus on the single-machine setting. As real-world graphs are large, training GCNs in distributed systems is desirable. However, we found that the existing neighbor sampling methods do not work well in a distributed setting. Specifically, a naive implementation may incur a huge amount of communication of feature vectors among different machines. To address this problem, we propose a communication-effici ent neighbor sampling method in this work. Our main idea is to assign higher sampling probabilities to the local nodes so that remote nodes are accessed less frequently. We present an algorithm that determines the local sampling probabilities and makes sure our skewed neighbor sampling does not affect much the convergence of the training. Our experiments with node classification benchmarks show that our method significantly reduces the communication overhead for distributed GCN training with little accuracy loss.
翻訳日:2021-03-23 00:21:11 公開日:2021-01-19
# (参考訳) 熱伝達を増強する層流流路壁修正の迅速発見のための機械学習 [全文訳有]

Machine learning for rapid discovery of laminar flow channel wall modifications that enhance heat transfer ( http://arxiv.org/abs/2101.08130v1 )

ライセンス: CC BY 4.0
Matthias Schniewind, Alexander Stroh, Bradley P. Ladewig, Pascal Friederich(参考訳) 単純平たい流路内の流体中の伝熱の計算は, 様々なシミュレーション手法において比較的容易な作業である。 しかし、チャネル幾何がより複雑になると、数値シミュレーションは壁のジオメトリの最適化においてボトルネックとなる。 本稿では、任意の非平坦チャネルの正確な数値シミュレーションと、ドラッグ係数とスタントン数を予測する機械学習モデルを組み合わせる。 畳み込みニューラルネットワークは,数値シミュレーションのわずかな時間でターゲット特性を正確に予測できることを示す。 我々は,CNNモデルを仮想的な高スループットスクリーニング手法を用いて,多種多様なランダムな壁構造を探索する。 その結果,S字型チャネルジオメトリはPareto-Optimalであり,直感的と思われるが,解析する前には明らかではなかった。 一般的なアプローチは、ここで述べたような単純なフロー設定に適用できるだけでなく、化学工学における多相や反応単位操作のようなより複雑なタスクにも拡張できる。

The calculation of heat transfer in fluid flow in simple flat channels is a relatively easy task for various simulations methods. However, once the channel geometry becomes more complex, numerical simulations become a bottleneck in optimizing wall geometries. We present a combination of accurate numerical simulations of arbitrary, non-flat channels and machine learning models predicting drag coefficient and Stanton number. We show that convolutional neural networks can accurately predict the target properties at a fraction of the time of numerical simulations. We use the CNN models in a virtual high-throughput screening approach to explore a large number of possible, randomly generated wall architectures. We find that S-shaped channel geometries are Pareto-optimal, a result which seems intuitive, but was not obvious before analysing the data. The general approach is not only applicable to simple flow setups as presented here, but can be extended to more complex tasks, such as multiphase or even reactive unit operations in chemical engineering.
翻訳日:2021-03-23 00:05:56 公開日:2021-01-19
# (参考訳) 深部ニューラルネットワークを用いたX線画像からの肺炎と領域検出の予測 [全文訳有]

Predicting Pneumonia and Region Detection from X-Ray Images using Deep Neural Network ( http://arxiv.org/abs/2101.07717v1 )

ライセンス: CC BY 4.0
Sheikh Md Hanif Hossain, S M Raju and Amelia Ritahani Ismail(参考訳) 生体画像は劇的に増加しています。 その過程で、様々な病気の予測と同定のために、多くの機械学習アルゴリズムが提案されている。 そのような病気の1つは、肺気嚢の炎症を通じて細菌とウイルスの両方によって引き起こされる肺炎である。 本稿では,X線画像を入力として受信し,この患者が肺炎に罹患しているかどうか,および炎症の発生した肺の特定部位について検証するアルゴリズムを提案する。 このアルゴリズムは、事前学習されたresnet-50(convolutio nal neural network)を使用して予測を行う転送学習メカニズムに基づいている。 このモデルは90.6%の精度を達成しており、このモデルが有効であり、患者の肺炎の検出に実装可能であることを確認している。 さらに、肺感染部位の検出には、クラス活性化マップを用いる。 また、PneuNetはユーザーがより簡単にアクセスでき、サービスを利用できるように開発された。

Biomedical images are increasing drastically. Along the way, many machine learning algorithms have been proposed to predict and identify various kinds of diseases. One such disease is Pneumonia which is an infection caused by both bacteria and viruses through the inflammation of a person's lung air sacs. In this paper, an algorithm was proposed that receives x-ray images as input and verifies whether this patient is infected by Pneumonia as well as specific region of the lungs that the inflammation has occurred at. The algorithm is based on the transfer learning mechanism where pre-trained ResNet-50 (Convolutional Neural Network) was used followed by some custom layer for making the prediction. The model has achieved an accuracy of 90.6 percent which confirms that the model is effective and can be implemented for the detection of Pneumonia in patients. Furthermore, a class activation map is used for the detection of the infected region in the lungs. Also, PneuNet was developed so that users can access more easily and use the services.
翻訳日:2021-03-23 00:04:17 公開日:2021-01-19
# (参考訳) 医用画像分割のための形状制約深層学習に関する調査 [全文訳有]

A survey on shape-constraint deep learning for medical image segmentation ( http://arxiv.org/abs/2101.07721v1 )

ライセンス: CC BY 4.0
Simon Bohlender, Ilkay Oksuz, Anirban Mukhopadhyay(参考訳) U-Netの出現以来、完全な畳み込みディープニューラルネットワークとその多くの変種は、ディープラーニングベースの医療画像セグメンテーションの現代的景観を完全に変えてきた。 しかし,これらの手法の画素レベルの分類や回帰への過度な依存は問題として早期に確認されている。 特に、少ないアノテーションで医学データベースでトレーニングする場合、これらの手法は断片化された構造、位相的不整合、ピクセルの島などの分割アーティファクトを生成する傾向にある。 これらのアーティファクトは、セグメンテーションがほとんど常に下流評価の前処理であるので、医療画像において特に問題となる。 下流評価の可能性の範囲は、手術計画、可視化、形状分析、予後、治療計画など、かなり大きい。 しかしながら、これらすべての下流タスクで共通するスレッドは、解剖学的一貫性の要求である。 セグメンテーション結果が解剖学的に一貫したものであることを保証するため、マルコフ/条件ランダムフィールドに基づくアプローチでは、統計形状モデルが過去5年間で人気が高まっている。 本稿では, 医用画像セグメンテーションの解剖学的制約に関する最近の文献の概要を概説し, 提案手法の欠点と可能性について概説し, 今後の課題について概説する。 我々は提出日まで最も関係のある論文をレビューする。 クイックアクセスには、基礎となるメソッドやデータセット、パフォーマンスといった重要な詳細が集計される。

Since the advent of U-Net, fully convolutional deep neural networks and its many variants have completely changed the modern landscape of deep learning based medical image segmentation. However, the over dependence of these methods on pixel level classification and regression has been identified early on as a problem. Especially when trained on medical databases with sparse available annotation, these methods are prone to generate segmentation artifacts such as fragmented structures, topological inconsistencies and islands of pixel. These artefacts are especially problematic in medical imaging since segmentation is almost always a pre-processing step for some downstream evaluation. The range of possible downstream evaluations is rather big, for example surgical planning, visualization, shape analysis, prognosis, treatment planning etc. However, one common thread across all these downstream tasks is the demand of anatomical consistency. To ensure the segmentation result is anatomically consistent, approaches based on Markov/ Conditional Random Fields, Statistical Shape Models are becoming increasingly popular over the past 5 years. In this review paper, a broad overview of recent literature on bringing anatomical constraints for medical image segmentation is given, the shortcomings and opportunities of the proposed methods are thoroughly discussed and potential future work is elaborated. We review the most relevant papers published until the submission date. For quick access, important details such as the underlying method, datasets and performance are tabulated.
翻訳日:2021-03-22 14:09:42 公開日:2021-01-19
# (参考訳) ラベルなしデータを用いたクロスドメイン・マイノショット学習 [全文訳有]

Cross-domain few-shot learning with unlabelled data ( http://arxiv.org/abs/2101.07899v1 )

ライセンス: CC BY 4.0
Fupin Yao(参考訳) データ不足問題を解決するためのショット学習はほとんどありません。 テストセットとトレーニングセットの間にドメインシフトがある場合、そのパフォーマンスは大幅に低下します。 この設定はクロスドメイン・ショットラーニングと呼ばれる。 しかし、トレーニング中にターゲットドメインが見えないため、これは非常に難しい。 そこで本研究では,対象ドメインと対象ドメインとのギャップを埋めることのできる,対象ドメインからの不正なデータを新たに設定する手法を提案する。 この設定のベンチマークは DomainNet \cite{peng2018oment} を使って作成されます。 ラベル付き学習セットとラベルなし学習セットの知識を十分に活用するための自己教師付き学習手法を考案した。 広範な実験により,本手法は複数のベースライン法を大差で上回った。 また、重要なパフォーマンス向上をもたらすエピソードトレーニングパイプラインを慎重に設計します。

Few shot learning aims to solve the data scarcity problem. If there is a domain shift between the test set and the training set, their performance will decrease a lot. This setting is called Cross-domain few-shot learning. However, this is very challenging because the target domain is unseen during training. Thus we propose a new setting some unlabelled data from the target domain is provided, which can bridge the gap between the source domain and the target domain. A benchmark for this setting is constructed using DomainNet \cite{peng2018oment}. We come up with a self-supervised learning method to fully utilize the knowledge in the labeled training set and the unlabelled set. Extensive experiments show that our methods outperforms several baseline methods by a large margin. We also carefully design an episodic training pipeline which yields a significant performance boost.
翻訳日:2021-03-22 12:30:59 公開日:2021-01-19
# 強化学習における接地言語とその一般化のためのダイナミクス

Grounding Language to Entities and Dynamics for Generalization in Reinforcement Learning ( http://arxiv.org/abs/2101.07393v1 )

ライセンス: Link先を確認
H. J. Austin Wang and Karthik Narasimhan(参考訳) 本稿では,新しいシナリオに対する制御ポリシーの一般化を改善するために,テキスト記述を活用するという課題について考察する。 この分野での先行研究とは異なり、我々はテキストと状態観察を接続する事前知識へのアクセスを前提とせず、シンボル接地と制御ポリシーを同時に学習する。 これは、具体的な監督の欠如による難題であり、誤った根拠付けは、テキストをまったく使わないポリシーよりもパフォーマンスが悪くなる可能性がある。 本研究では,マルチモーダル・エンティティ・コンディション・アテンション・モジュールを用いた新しいモデルであるemma(entity mapper with multi-modal attention)を開発した。 EMMAはエンド・ツー・エンドの差別化が可能であり、環境報酬を唯一の監督源とすることで、テキストから観察までエンティティとダイナミクスの潜在基盤を学習することができる。 このモデルを実証的にテストするために,1320ゲームの新しいフレームワークを設計し,フリーフォーム自然言語によるテキストマニュアルをクラウドソーシングによって収集する。 我々は、emmaが新たなダイナミクスを持つゲームに対してゼロショット一般化を成功させ、複数のベースラインと比較してはるかに高い報酬を得ることを実証する。 EMMAが取得した基盤は、ノイズの多い記述や言語的変異にも頑丈である。

In this paper, we consider the problem of leveraging textual descriptions to improve generalization of control policies to new scenarios. Unlike prior work in this space, we do not assume access to any form of prior knowledge connecting text and state observations, and learn both symbol grounding and control policy simultaneously. This is challenging due to a lack of concrete supervision, and incorrect groundings can result in worse performance than policies that do not use the text at all. We develop a new model, EMMA (Entity Mapper with Multi-modal Attention) which uses a multi-modal entity-conditioned attention module that allows for selective focus over relevant sentences in the manual for each entity in the environment. EMMA is end-to-end differentiable and can learn a latent grounding of entities and dynamics from text to observations using environment rewards as the only source of supervision. To empirically test our model, we design a new framework of 1320 games and collect text manuals with free-form natural language via crowd-sourcing. We demonstrate that EMMA achieves successful zero-shot generalization to unseen games with new dynamics, obtaining significantly higher rewards compared to multiple baselines. The grounding acquired by EMMA is also robust to noisy descriptions and linguistic variation.
翻訳日:2021-03-22 11:34:33 公開日:2021-01-19
# フィルムのトロープ検出による状況と行動の理解

Situation and Behavior Understanding by Trope Detection on Films ( http://arxiv.org/abs/2101.07632v1 )

ライセンス: Link先を確認
Chen-Hsi Chang, Hung-Ting Su, Juiheng Hsu, Yu-Siang Wang, Yu-Cheng Chang, Zhe Yu Liu, Ya-Liang Chang, Wen-Feng Cheng, Ke-Jyun Wang and Winston H. Hsu(参考訳) 深層認知能力の人間の能力は、多様なユーザ生成入力を処理する様々な現実世界のアプリケーションの開発に不可欠である。 ディープラーニングと自然言語処理の最近の進歩により、浅い意味論を必要とするいくつかのベンチマークにおいて、学習システムが人間のパフォーマンスに到達できるようになったが、最近の多くの研究で指摘されているように、このような人間の能力は、現代の文脈埋め込みモデルにおいても依然として困難である。 既存の機械理解データセットは文レベルの入力を仮定し、カジュアルな推論や動機づけの推論を欠いている。 そこで,我々は,機械の状況と行動を理解するために,フィルムのトロープ検出という挑戦的な新しい課題を提示する。 トロープ(英: Trope)は、創作作品のレシピの材料として頻繁に使用されるストーリーテリング装置である。 既存の映画タグ予測タスクと比較すると、トロピーは道徳的概念から一連の状況まで、動機付けや原因と効果が組み込まれているため、より洗練されている。 我々は、新しいデータセットであるTropes in Movie Synopses (TiMoS)を導入し、5623の映画シンプと95の異なるトピックをウィキペディアスタイルのデータベースであるTVTropesから収集した。 本稿では,単語,文,役割関係の多段階的注意を生かしたマルチストリーム理解ネットワーク(MulCom)を提案する。 実験結果から, BERTのコンテキスト埋め込み, 映画タグ予測システム, リレーショナルネットワークなどの現代モデルは, F1スコアの少なくとも37%(23.97/64.87)で動作していることがわかった。 私たちのmulcomは、現在のすべてのベースラインを1.5から5.0 f1、平均精度(map)スコアを1.5から3.0で上回っています。 また,今後の研究への道を開くために,詳細な分析と人的評価も提供する。

The human ability of deep cognitive skills are crucial for the development of various real-world applications that process diverse and abundant user generated input. While recent progress of deep learning and natural language processing have enabled learning system to reach human performance on some benchmarks requiring shallow semantics, such human ability still remains challenging for even modern contextual embedding models, as pointed out by many recent studies. Existing machine comprehension datasets assume sentence-level input, lack of casual or motivational inferences, or could be answered with question-answer bias. Here, we present a challenging novel task, trope detection on films, in an effort to create a situation and behavior understanding for machines. Tropes are storytelling devices that are frequently used as ingredients in recipes for creative works. Comparing to existing movie tag prediction tasks, tropes are more sophisticated as they can vary widely, from a moral concept to a series of circumstances, and embedded with motivations and cause-and-effects. We introduce a new dataset, Tropes in Movie Synopses (TiMoS), with 5623 movie synopses and 95 different tropes collecting from a Wikipedia-style database, TVTropes. We present a multi-stream comprehension network (MulCom) leveraging multi-level attention of words, sentences, and role relations. Experimental result demonstrates that modern models including BERT contextual embedding, movie tag prediction systems, and relational networks, perform at most 37% of human performance (23.97/64.87) in terms of F1 score. Our MulCom outperforms all modern baselines, by 1.5 to 5.0 F1 score and 1.5 to 3.0 mean of average precision (mAP) score. We also provide a detailed analysis and human evaluation to pave ways for future research.
翻訳日:2021-03-22 11:33:46 公開日:2021-01-19
# artemis: 視覚芸術のための感情言語

ArtEmis: Affective Language for Visual Art ( http://arxiv.org/abs/2101.07396v1 )

ライセンス: Link先を確認
Panos Achlioptas, Maks Ovsjanikov, Kilichbek Haydarov, Mohamed Elhoseiny, Leonidas Guibas(参考訳) 本稿では,視覚コンテンツの相互作用,感情的効果,後者の言語説明を詳細に理解することを目的とした,新しい大規模データセットと機械学習モデルを提案する。 コンピュータビジョンにおける既存のほとんどのアノテーションデータセットとは対照的に、視覚的なアートワークによって引き起こされる情緒的な経験に注目し、アノテータに与えられたイメージに対する支配的な感情を示し、重要なことに、彼らの感情選択に対する基礎的な言葉による説明を提供するよう依頼する。 以下に示すように、これは画像の客観的な内容と情緒的な影響の両方に対する豊富なシグナルをもたらし、抽象的な概念(例えば「自由」や「愛」)や、視覚的なシミュレートや比喩、個人的体験への主観的な参照を含む、直接見えるものを超えた参照を創り出す。 我々は視覚芸術(絵画、芸術写真など)に焦点を当てており、視聴者から感情的な反応を引き出すために作られたイメージの第一の例である。 私たちのデータセットはArtEmisと呼ばれ、WikiArtの81Kのアートワークに439Kの感情属性と人間による説明が含まれています。 このデータを基に,視覚刺激から感情を表現・説明できる一連のキャプションシステムを訓練し,実演する。 注目すべきは、これらのシステムによって生成されたキャプションは、しばしば画像の意味的内容と抽象的内容の反映に成功し、既存のデータセットで訓練されたシステムを超えた。 収集されたデータセットと開発されたメソッドはhttps://artemisdatas et.org.comで入手できる。

We present a novel large-scale dataset and accompanying machine learning models aimed at providing a detailed understanding of the interplay between visual content, its emotional effect, and explanations for the latter in language. In contrast to most existing annotation datasets in computer vision, we focus on the affective experience triggered by visual artworks and ask the annotators to indicate the dominant emotion they feel for a given image and, crucially, to also provide a grounded verbal explanation for their emotion choice. As we demonstrate below, this leads to a rich set of signals for both the objective content and the affective impact of an image, creating associations with abstract concepts (e.g., "freedom" or "love"), or references that go beyond what is directly visible, including visual similes and metaphors, or subjective references to personal experiences. We focus on visual art (e.g., paintings, artistic photographs) as it is a prime example of imagery created to elicit emotional responses from its viewers. Our dataset, termed ArtEmis, contains 439K emotion attributions and explanations from humans, on 81K artworks from WikiArt. Building on this data, we train and demonstrate a series of captioning systems capable of expressing and explaining emotions from visual stimuli. Remarkably, the captions produced by these systems often succeed in reflecting the semantic and abstract content of the image, going well beyond systems trained on existing datasets. The collected dataset and developed methods are available at https://artemisdatas et.org.
翻訳日:2021-03-22 11:33:14 公開日:2021-01-19
# グラフニューラルネットワークを用いたドックレス自転車共有システムにおける自転車ステーションの動的計画

Dynamic Planning of Bicycle Stations in Dockless Public Bicycle-sharing System Using Gated Graph Neural Network ( http://arxiv.org/abs/2101.07425v1 )

ライセンス: Link先を確認
Jianguo Chen and Kenli Li and Keqin Li and Philip S. Yu and Zeng Zeng(参考訳) 便利なサイクリングと柔軟な駐車場所の恩恵を受け、ドックレス公共自転車シェアリング(dl-pbs)ネットワークは多くの国で人気が高まっている。 しかし、冗長で低ユーティリティな駅は公共の都市空間とDL-PBSベンダーのメンテナンスコストを無駄にしている。 本稿では,DL-PBSネットワークにおける最適な自転車ステーションレイアウトを動的に提供するために,BSDP(Bicycle Station Dynamic Planning)システムを提案する。 BSDPシステムには、自転車落下位置クラスタリング、自転車ステーショングラフモデリング、自転車ステーション位置予測、自転車ステーションレイアウトレコメンデーションの4つのモジュールが含まれている。 自転車降車位置クラスタリングモジュールにおいて、大規模サイクリング軌道記録の各時空間サブセットから候補自転車ステーションをクラスタリングする。 自転車駅グラフモデリングモジュールにおいて、クラスタリング結果に基づいて重み付きダイアグラフモデルを構築し、低い駅歳入とユーティリティを有する下位の駅をフィルタする。 そして、各期間にわたるグラフモデルを組み合わせて、グラフシーケンスモデルを作成する。 自転車停留所位置予測モジュールでは、GGNNモデルを用いて、グラフシーケンスデータをトレーニングし、次の期間の自転車ステーションを動的に予測する。 本発明の自転車駅レイアウトレコメンデーションモジュールは、都市管理計画に従って予測された自転車駅を微調整し、都市管理、ベンダー収益、ユーザ利便性に配慮した推奨駅レイアウトを実現する。 実際のDL-PBSネットワーク実験では,提案したBSDPシステムの有効性,精度,実現可能性を検証する。

Benefiting from convenient cycling and flexible parking locations, the Dockless Public Bicycle-sharing (DL-PBS) network becomes increasingly popular in many countries. However, redundant and low-utility stations waste public urban space and maintenance costs of DL-PBS vendors. In this paper, we propose a Bicycle Station Dynamic Planning (BSDP) system to dynamically provide the optimal bicycle station layout for the DL-PBS network. The BSDP system contains four modules: bicycle drop-off location clustering, bicycle-station graph modeling, bicycle-station location prediction, and bicycle-station layout recommendation. In the bicycle drop-off location clustering module, candidate bicycle stations are clustered from each spatio-temporal subset of the large-scale cycling trajectory records. In the bicycle-station graph modeling module, a weighted digraph model is built based on the clustering results and inferior stations with low station revenue and utility are filtered. Then, graph models across time periods are combined to create a graph sequence model. In the bicycle-station location prediction module, the GGNN model is used to train the graph sequence data and dynamically predict bicycle stations in the next period. In the bicycle-station layout recommendation module, the predicted bicycle stations are fine-tuned according to the government urban management plan, which ensures that the recommended station layout is conducive to city management, vendor revenue, and user convenience. Experiments on actual DL-PBS networks verify the effectiveness, accuracy and feasibility of the proposed BSDP system.
翻訳日:2021-03-22 11:32:17 公開日:2021-01-19
# 多目的強化学習によるドックレス自転車シェアリングシステムの動的自転車派遣

Dynamic Bicycle Dispatching of Dockless Public Bicycle-sharing Systems using Multi-objective Reinforcement Learning ( http://arxiv.org/abs/2101.07437v1 )

ライセンス: Link先を確認
Jianguo Chen and Kenli Li and Keqin Li and Philip S. Yu and Zeng Zeng(参考訳) 次世代の公共自転車共有システム(PBS)として、ドックレスPBS(DL-PBS)はサイバー物理システムとインテリジェント輸送の重要な応用である。 動的自転車レンタル需要に基づく効率的な自転車配車ソリューションとしてAIをどのように活用するかは,DL-PBSにとって重要な課題である。 本稿では,多目的強化学習(MORL-BD)に基づく動的自転車派遣アルゴリズムを提案する。 我々は,cpsの観点からdl-pbsシステムをモデル化し,ディープラーニングを用いて自転車パーキングスポットの配置と自転車派遣の動的需要を予測する。 本研究では, 配車コストの最適化, 配車場の初期負荷, トラック間の負荷バランス, 自転車の供給と需要の動的バランスを考慮し, 多経路自転車配車問題を多目的最適化問題として定義する。 これにより、複数のディスパッチトラック間の協調型多ルート自転車派遣問題は、マルチエージェントモールモデルとしてモデル化される。 駐車場間のディスパッチパスはすべて状態空間として定義され、ディスパッチコストの相反は報酬として定義される。 各ディスパッチトラックは、動的DL-PBSネットワークにおいて最適なディスパッチパスを学習するエージェントを備える。 私たちは、各アクションで見つかった自転車配車経路のパレート最適解を保存するためのエリートリストを作成し、最後にパレートフロンティアを得る。 実際のDL-PBSシステムの実験結果から,MORL-BDは既存の手法と比較して,実行時間が少なくて高品質なParetoフロンティアを見出すことができた。

As a new generation of Public Bicycle-sharing Systems (PBS), the dockless PBS (DL-PBS) is an important application of cyber-physical systems and intelligent transportation. How to use AI to provide efficient bicycle dispatching solutions based on dynamic bicycle rental demand is an essential issue for DL-PBS. In this paper, we propose a dynamic bicycle dispatching algorithm based on multi-objective reinforcement learning (MORL-BD) to provide the optimal bicycle dispatching solution for DL-PBS. We model the DL-PBS system from the perspective of CPS and use deep learning to predict the layout of bicycle parking spots and the dynamic demand of bicycle dispatching. We define the multi-route bicycle dispatching problem as a multi-objective optimization problem by considering the optimization objectives of dispatching costs, dispatch truck's initial load, workload balance among the trucks, and the dynamic balance of bicycle supply and demand. On this basis, the collaborative multi-route bicycle dispatching problem among multiple dispatch trucks is modeled as a multi-agent MORL model. All dispatch paths between parking spots are defined as state spaces, and the reciprocal of dispatching costs is defined as a reward. Each dispatch truck is equipped with an agent to learn the optimal dispatch path in the dynamic DL-PBS network. We create an elite list to store the Pareto optimal solutions of bicycle dispatch paths found in each action, and finally, get the Pareto frontier. Experimental results on the actual DL-PBS systems show that compared with existing methods, MORL-BD can find a higher quality Pareto frontier with less execution time.
翻訳日:2021-03-22 11:31:54 公開日:2021-01-19
# disentangled recurrent wasserstein autoencoder

Disentangled Recurrent Wasserstein Autoencoder ( http://arxiv.org/abs/2101.07496v1 )

ライセンス: Link先を確認
Jun Han, Martin Renqiang Min, Ligong Han, Li Erran Li, Xuan Zhang(参考訳) 不連続表現の学習は解釈可能なモデルにつながり、教師なし学習フレームワークで画像などの静的データに対して広く研究されてきたスタイル転送によるデータ生成を促進する。 しかし、逐次データ生成の難しさから教師なし不規則な逐次表現学習を探求した著作はごくわずかである。 本稿では,逐次データの生成モデリングのための新しいフレームワークであるrecurrent wasserstein autoencoder (r-wae)を提案する。 r-waeは入力列の表現を静的および動的因子(すなわち時間不変および時間変動部分)に分解する。 理論的解析により,R-WAEはモデル分布と逐次データ分布のワッサーシュタイン距離のペナル化形式の上限を最小化し,入力データと異なる非絡み合い要因の相互情報を同時に最大化することを示した。 これは入力データと不連続な潜在表現の間の相互情報最大化を明示的に強制しないvae(recurrent)よりも優れている。 シーケンシャルデータにおけるアクションの数が弱い監視情報として利用できる場合、R-WAEは、その歪みを改善するために、アクションのカテゴリー的潜在表現を学習するように拡張される。 様々なデータセットの実験により、我々のモデルは、定量的にも質的にも、無条件のビデオ生成において、同じ設定で他のベースラインよりも優れていることが示された。

Learning disentangled representations leads to interpretable models and facilitates data generation with style transfer, which has been extensively studied on static data such as images in an unsupervised learning framework. However, only a few works have explored unsupervised disentangled sequential representation learning due to challenges of generating sequential data. In this paper, we propose recurrent Wasserstein Autoencoder (R-WAE), a new framework for generative modeling of sequential data. R-WAE disentangles the representation of an input sequence into static and dynamic factors (i.e., time-invariant and time-varying parts). Our theoretical analysis shows that, R-WAE minimizes an upper bound of a penalized form of the Wasserstein distance between model distribution and sequential data distribution, and simultaneously maximizes the mutual information between input data and different disentangled latent factors, respectively. This is superior to (recurrent) VAE which does not explicitly enforce mutual information maximization between input data and disentangled latent representations. When the number of actions in sequential data is available as weak supervision information, R-WAE is extended to learn a categorical latent representation of actions to improve its disentanglement. Experiments on a variety of datasets show that our models outperform other baselines with the same settings in terms of disentanglement and unconditional video generation both quantitatively and qualitatively.
翻訳日:2021-03-22 11:31:26 公開日:2021-01-19
# Renyiエントロピーアプローチに基づく階層型トピックモデルの解析とチューニング

Analysis and tuning of hierarchical topic models based on Renyi entropy approach ( http://arxiv.org/abs/2101.07598v1 )

ライセンス: Link先を確認
Sergei Koltcov, Vera Ignatenko, Maxim Terpilovskii, Paolo Rosso(参考訳) 階層的トピックモデリングは、トピック抽象化のレベルを表すトピック階層の構築を可能にするテキストコレクションのトピック構造を決定するための潜在的に強力な手段である。 しかしながら、各階層レベルのトピック数を含む階層モデルのパラメータのチューニングは、依然として課題であり、未解決な課題である。 本稿では,上記の問題に対する部分解に対するrenyiエントロピーに基づくアプローチを提案する。 まず,階層モデルにおけるrenyiエントロピーに基づく品質指標を提案する。 第2に,人間マークアップを用いたデータセット上での階層的トピックモデルのチューニングの実用概念を提案する。 数値実験では,階層的潜在ディリクレ割当(hlda)モデル,階層的パチンコ割当モデル(hpam),話題モデルの階層的加法正規化(hartm)という3つの異なる階層モデルを検討した。 我々は、hLDAモデルが不安定なレベルをかなり有しており、さらに、ラベル付きデータセットの真数から派生したトピックの数が遠ざかっていることを実証する。 hPAMモデルでは、Renyiエントロピーアプローチにより、データ構造の1つのレベルのみを決定できる。 hartmモデルでは,提案手法により2つの階層レベルでトピック数を推定できる。

Hierarchical topic modeling is a potentially powerful instrument for determining the topical structure of text collections that allows constructing a topical hierarchy representing levels of topical abstraction. However, tuning of parameters of hierarchical models, including the number of topics on each hierarchical level, remains a challenging task and an open issue. In this paper, we propose a Renyi entropy-based approach for a partial solution to the above problem. First, we propose a Renyi entropy-based metric of quality for hierarchical models. Second, we propose a practical concept of hierarchical topic model tuning tested on datasets with human mark-up. In the numerical experiments, we consider three different hierarchical models, namely, hierarchical latent Dirichlet allocation (hLDA) model, hierarchical Pachinko allocation model (hPAM), and hierarchical additive regularization of topic models (hARTM). We demonstrate that hLDA model possesses a significant level of instability and, moreover, the derived numbers of topics are far away from the true numbers for labeled datasets. For hPAM model, the Renyi entropy approach allows us to determine only one level of the data structure. For hARTM model, the proposed approach allows us to estimate the number of topics for two hierarchical levels.
翻訳日:2021-03-22 11:30:20 公開日:2021-01-19
# 集合の族を学習する -- 高次タスクのためのハイパーグラフ表現学習

Learning over Families of Sets -- Hypergraph Representation Learning for Higher Order Tasks ( http://arxiv.org/abs/2101.07773v1 )

ライセンス: Link先を確認
Balasubramaniam Srinivasan, Da Zheng, George Karypis(参考訳) グラフ表現学習は過去10年間で大きな進歩を遂げてきた。 しかし、多くのリレーショナルドメインでは、エンティティ間の関係が対の相互作用を超えたため、入力データは単純なグラフ表現には適さない。 そのような場合、データ内の関係は非一様ハイパーグラフのハイパーエッジ(エンティティの集合)として表される。 ハイパーグラフのノード表現を学習するための原理的手法は存在するが、これらのアプローチは一様でないハイパーグラフ(基数が異なるハイパーエッジ)のタスクへの適用性に制限がある。 本研究では,ハイパーグラフの行グラフにおける局所同型を保ちながら,その構成頂点の置換に不変である可変サイズのハイパーエッジの表現性を示すために,インシデント構造を利用したハイパーグラフニューラルネットワークを開発した。 具体的には、与えられた頂点集合に対して、(1)ハイパーエッジ分類および(2)頂点とハイパーエッジの間の高次相互作用をキャプチャする部分観測ハイパーエッジの可変拡大のための枠組みを提案する。 我々は,複数の実世界のハイパーグラフデータセットの性能評価を行い,最先端モデルよりも一貫性があり,精度が大幅に向上したことを示す。

Graph representation learning has made major strides over the past decade. However, in many relational domains, the input data are not suited for simple graph representations as the relationships between entities go beyond pairwise interactions. In such cases, the relationships in the data are better represented as hyperedges (set of entities) of a non-uniform hypergraph. While there have been works on principled methods for learning representations of nodes of a hypergraph, these approaches are limited in their applicability to tasks on non-uniform hypergraphs (hyperedges with different cardinalities). In this work, we exploit the incidence structure to develop a hypergraph neural network to learn provably expressive representations of variable sized hyperedges which preserve local-isomorphism in the line graph of the hypergraph, while also being invariant to permutations of its constituent vertices. Specifically, for a given vertex set, we propose frameworks for (1) hyperedge classification and (2) variable sized expansion of partially observed hyperedges which captures the higher order interactions among vertices and hyperedges. We evaluate performance on multiple real-world hypergraph datasets and demonstrate consistent, significant improvement in accuracy, over state-of-the-art models.
翻訳日:2021-03-22 11:29:58 公開日:2021-01-19
# 深層畳み込み核法におけるパッチの無理な有効性

The Unreasonable Effectiveness of Patches in Deep Convolutional Kernels Methods ( http://arxiv.org/abs/2101.07528v1 )

ライセンス: Link先を確認
Louis Thiry (DI-ENS), Michael Arbel (UCL), Eugene Belilovsky (MILA), Edouard Oyallon (MLIA)(参考訳) 最近の一連の研究は、CIFAR-10のようなデータセット上の標準的な教師付き深層畳み込みネットワークと競合し、87-90%の範囲で精度を得ながら、理論解析に適していることを示した。 本稿では,畳み込み型カーネルメソッドの性能向上の鍵となる,データ依存型特徴抽出ステップの重要性を強調する。 このステップは一般的にパッチの白付き辞書に対応し、データ駆動の畳み込み型カーネルメソッドを生み出します。 本研究は,これらの手法の高性能化の鍵となる要素であることを示すとともに,その効果を広く研究する。 具体的には、画像パッチの単一層に線形分類器を付加したカーネルメソッドの最も単純な例の一つが、CIFAR-10の分類精度を従来のより洗練された畳み込みカーネルメソッドと同じ範囲で取得していることを示す。 我々は,この手法を課題の多いimagenetデータセットに拡張し,既存の非学習表現法をすべて越えることができることを示す。 これは、イメージネット上の畳み込みカーネルモデルの調査を開始する、表現学習手法のないオブジェクト認識の新しいベースラインである。 使用辞書を解析するための実験を行い,低次元特性を示すアブレーションを行った。

A recent line of work showed that various forms of convolutional kernel methods can be competitive with standard supervised deep convolutional networks on datasets like CIFAR-10, obtaining accuracies in the range of 87-90% while being more amenable to theoretical analysis. In this work, we highlight the importance of a data-dependent feature extraction step that is key to the obtain good performance in convolutional kernel methods. This step typically corresponds to a whitened dictionary of patches, and gives rise to a data-driven convolutional kernel methods. We extensively study its effect, demonstrating it is the key ingredient for high performance of these methods. Specifically, we show that one of the simplest instances of such kernel methods, based on a single layer of image patches followed by a linear classifier is already obtaining classification accuracies on CIFAR-10 in the same range as previous more sophisticated convolutional kernel methods. We scale this method to the challenging ImageNet dataset, showing such a simple approach can exceed all existing non-learned representation methods. This is a new baseline for object recognition without representation learning methods, that initiates the investigation of convolutional kernel models on ImageNet. We conduct experiments to analyze the dictionary that we used, our ablations showing they exhibit low-dimensional properties.
翻訳日:2021-03-22 11:29:41 公開日:2021-01-19
# 画像カラー化のための画像・オブジェクトレベルの特徴間の協調

Collaboration among Image and Object Level Features for Image Colourisation ( http://arxiv.org/abs/2101.07576v1 )

ライセンス: Link先を確認
Rita Pucci, Christian Micheloni, Niki Martinel(参考訳) 画像のカラー化は不適切な問題であり、入力データムに存在するコンテキストとオブジェクトインスタンスに依存する複数の正しいソリューションがある。 以前のアプローチでは、強力なユーザインタラクションを必要とするか、あるいは画像レベル(コンテキスト)の学習において畳み込みニューラルネットワーク(CNN)の能力を活用することによって、この問題に対処していた。 しかし、人間のヒントを得ることは必ずしも実現可能ではなく、CNNだけでは、監督によって事前訓練された複数のモデルが考慮されない限り、オブジェクトレベルのセマンティクスを学べない。 本研究では,コンボリューションによる画像レベルの特徴とカプセルによってキャプチャされたオブジェクトレベルの特徴を分離する,UCapsNetという単一のネットワークを提案する。 そして,異なる層間の接続をスキップすることで,これらの分離要因間の協調を強制し,高品質で再現可能な画像彩色を実現する。 我々は、問題を完全な自己監督アプローチによって対処できる分類タスクとして位置づけ、そのため人間の努力は不要である。 3つのベンチマークデータセットによる実験結果から,本手法は標準品質指標の既存手法よりも優れており,画像のカラー化における技術性能の状態を達成していることがわかった。 大規模ユーザ調査の結果,提案手法は既存ソリューションよりも好まれることがわかった。

Image colourisation is an ill-posed problem, with multiple correct solutions which depend on the context and object instances present in the input datum. Previous approaches attacked the problem either by requiring intense user interactions or by exploiting the ability of convolutional neural networks (CNNs) in learning image level (context) features. However, obtaining human hints is not always feasible and CNNs alone are not able to learn object-level semantics unless multiple models pretrained with supervision are considered. In this work, we propose a single network, named UCapsNet, that separate image-level features obtained through convolutions and object-level features captured by means of capsules. Then, by skip connections over different layers, we enforce collaboration between such disentangling factors to produce high quality and plausible image colourisation. We pose the problem as a classification task that can be addressed by a fully self-supervised approach, thus requires no human effort. Experimental results on three benchmark datasets show that our approach outperforms existing methods on standard quality metrics and achieves a state of the art performances on image colourisation. A large scale user study shows that our method is preferred over existing solutions.
翻訳日:2021-03-22 11:29:17 公開日:2021-01-19
# adasにおけるリアルタイムデプロイメントのためのマルチタスクネットワークpruningと組込み最適化

Multi-Task Network Pruning and Embedded Optimization for Real-time Deployment in ADAS ( http://arxiv.org/abs/2101.07831v1 )

ライセンス: Link先を確認
Flora Dellinger, Thomas Boulay, Diego Mendoza Barrenechea, Said El-Hachimi, Isabelle Leang, Fabian B\"urger(参考訳) カメラベースのディープラーニングアルゴリズムは、自動運転システムにおける認識にますます必要である。 しかし、自動車業界からの制約は、限られた計算資源を持つ組み込みシステムを導入することでCNNの展開に挑戦する。 本稿では,商用プロトタイププラットフォーム上にマルチタスクCNNネットワークを組み込む手法を提案する。 チップの低出力システム(SoC)は10FPSで4つのサラウンドビュー魚眼カメラを処理する。 最初の焦点は、効率的でコンパクトなマルチタスクネットワークアーキテクチャの設計である。 次に、CNNを圧縮するためにプルーニング法を適用し、性能を著しく低下させることなく実行時間とメモリ使用量を2倍に削減する。 最後に,複合量子化フォーマットの使用や異なるメモリ領域間の効率的なデータ転送などの組込み最適化手法を提案する。 このアプローチは、組み込み検出性能、ランタイム、メモリ帯域幅を考慮して、ハードウェアプラットフォーム上で評価される。 分類タスクに焦点をあてた文学作品と異なり,対象検出,意味セグメンテーション,汚れ検出タスクを備えたコンパクトマルチタスクネットワークにおけるpruningとquantizationの効果を検討することを目的としている。

Camera-based Deep Learning algorithms are increasingly needed for perception in Automated Driving systems. However, constraints from the automotive industry challenge the deployment of CNNs by imposing embedded systems with limited computational resources. In this paper, we propose an approach to embed a multi-task CNN network under such conditions on a commercial prototype platform, i.e. a low power System on Chip (SoC) processing four surround-view fisheye cameras at 10 FPS. The first focus is on designing an efficient and compact multi-task network architecture. Secondly, a pruning method is applied to compress the CNN, helping to reduce the runtime and memory usage by a factor of 2 without lowering the performances significantly. Finally, several embedded optimization techniques such as mixed-quantization format usage and efficient data transfers between different memory areas are proposed to ensure real-time execution and avoid bandwidth bottlenecks. The approach is evaluated on the hardware platform, considering embedded detection performances, runtime and memory bandwidth. Unlike most works from the literature that focus on classification task, we aim here to study the effect of pruning and quantization on a compact multi-task network with object detection, semantic segmentation and soiling detection tasks.
翻訳日:2021-03-22 11:28:55 公開日:2021-01-19
# バッチ正規化統計のマッチングによる分布アライメントによるソースフリードメイン適応

Source-free Domain Adaptation via Distributional Alignment by Matching Batch Normalization Statistics ( http://arxiv.org/abs/2101.10842v1 )

ライセンス: Link先を確認
Masato Ishii and Masashi Sugiyama(参考訳) 本稿では,ソースフリー設定のための新しいドメイン適応手法を提案する。 この設定では、未ラベルのターゲットデータと事前訓練されたデータモデルが与えられるが、適応中にソースデータにアクセスすることはできない。 ソースデータがないため、典型的なドメイン適応アルゴリズムとは異なり、ドメイン間のデータ分布を直接マッチングすることはできない。 この問題に対処するために、事前学習モデルに格納されたバッチ正規化統計を利用して、観測されていないソースデータの分布を近似する。 具体的には、適応中にモデルの分類部を固定し、残りの特徴エンコーダ部のみを微調整し、エンコーダによって抽出された特徴のバッチ正規化統計を固定分類器に格納されているものと一致させる。 さらに,特徴と分類器の出力間の相互情報を最大化し,分類性能をさらに向上させる。 いくつかのベンチマークデータセットによる実験結果から,提案手法はソースデータへのアクセスを必要とせずに,最先端のドメイン適応手法と競合する性能を発揮することが示された。

In this paper, we propose a novel domain adaptation method for the source-free setting. In this setting, we cannot access source data during adaptation, while unlabeled target data and a model pretrained with source data are given. Due to lack of source data, we cannot directly match the data distributions between domains unlike typical domain adaptation algorithms. To cope with this problem, we propose utilizing batch normalization statistics stored in the pretrained model to approximate the distribution of unobserved source data. Specifically, we fix the classifier part of the model during adaptation and only fine-tune the remaining feature encoder part so that batch normalization statistics of the features extracted by the encoder match those stored in the fixed classifier. Additionally, we also maximize the mutual information between the features and the classifier's outputs to further boost the classification performance. Experimental results with several benchmark datasets show that our method achieves competitive performance with state-of-the-art domain adaptation methods even though it does not require access to source data.
翻訳日:2021-03-22 11:28:23 公開日:2021-01-19
# UniSpeech:ラベル付きおよびラベルなしデータを用いた統一音声表現学習

UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data ( http://arxiv.org/abs/2101.07597v1 )

ライセンス: Link先を確認
Chengyi Wang, Yu Wu, Yao Qian, Kenichi Kumatani, Shujie Liu, Furu Wei, Michael Zeng and Xuedong Huang(参考訳) 本稿では,ラベルなしデータとラベル付きデータの両方で音声表現を学習するためのunispeechと呼ばれる統合事前学習手法を提案する。 結果表現は、音声構造とより関連づけられた情報をキャプチャし、言語とドメイン間の一般化を改善することができる。 公立CommonVoiceコーパスにおける言語間表現学習におけるUniSpeechの有効性を評価する。 結果は、UniSpeechが音声認識のための自己指導型事前学習と教師型トランスファー学習を最大13.4%、相対的な電話誤り率17.8%で上回っていることを示している。 UniSpeechの転送可能性はまた、ドメインシフト音声認識タスク、すなわち、以前のアプローチと比較して6%の単語誤り率の減少を示す。

In this paper, we propose a unified pre-training approach called UniSpeech to learn speech representations with both unlabeled and labeled data, in which supervised phonetic CTC learning and phonetically-aware contrastive self-supervised learning are conducted in a multi-task learning manner. The resultant representations can capture information more correlated with phonetic structures and improve the generalization across languages and domains. We evaluate the effectiveness of UniSpeech for cross-lingual representation learning on public CommonVoice corpus. The results show that UniSpeech outperforms self-supervised pretraining and supervised transfer learning for speech recognition by a maximum of 13.4% and 17.8% relative phone error rate reductions respectively (averaged over all testing languages). The transferability of UniSpeech is also demonstrated on a domain-shift speech recognition task, i.e., a relative word error rate reduction of 6% against the previous approach.
翻訳日:2021-03-22 11:28:05 公開日:2021-01-19
# 座標グラフを用いた風力発電制御のスケーラブル最適化

Scalable Optimization for Wind Farm Control using Coordination Graphs ( http://arxiv.org/abs/2101.07844v1 )

ライセンス: Link先を確認
Timothy Verstraeten, Pieter-Jan Daems, Eugenio Bargiacchi, Diederik M. Roijers, Pieter J.K. Libin, Jan Helsen(参考訳) 風力発電所は、生態系と再生可能エネルギーの創出に不可欠である。 容量が急速に増加したため、現代の風力発電所は電力グリッドの安定性を確保するために出力に厳しい制約を課す必要がある。 具体的には、風力発電所の電力生産をグリッドオペレータが課す電力需要に合わせるために風力発電所制御装置が必要となる。 風力タービン間の複雑な依存関係が存在するため、これは非自明な最適化問題である。 最先端の風力発電制御は典型的には、タービンの健康状態を定義する全負荷スペクトルを捕捉できない物理ベースのヒューリスティックに依存している。 これが考慮されていない場合、農場のタービンの長期生存性は危険にさらされる。 タービンの寿命を決定する複雑な依存関係を考えると、柔軟で最適な制御戦略を学ぶにはデータ駆動のアプローチが必要だ。 しかし、風力発電は大規模マルチエージェントシステムであるため、全関節動作空間における制御戦略の最適化は困難である。 そこで本稿では, 疎風力発電構造を利用した風力発電制御の新しい学習手法を提案し, 最適化問題を分解する。 マルチエージェントのトンプソンサンプリングに基づくベイズ手法を用いて,タービンの寿命を考慮しつつ,需要に合致する構成のための因子付きジョイント動作空間を探索する。 本手法をグリッド型風力発電機レイアウトに適用し,最先端の風流シミュレータを用いて構成評価を行う。 提案手法は,要求誤差の観点から物理に基づくヒューリスティック手法と競合する一方で,ヒューリスティックとは対照的に,高リスクタービンの寿命を延ばす。

Wind farms are a crucial driver toward the generation of ecological and renewable energy. Due to their rapid increase in capacity, contemporary wind farms need to adhere to strict constraints on power output to ensure stability of the electricity grid. Specifically, a wind farm controller is required to match the farm's power production with a power demand imposed by the grid operator. This is a non-trivial optimization problem, as complex dependencies exist between the wind turbines. State-of-the-art wind farm control typically relies on physics-based heuristics that fail to capture the full load spectrum that defines a turbine's health status. When this is not taken into account, the long-term viability of the farm's turbines is put at risk. Given the complex dependencies that determine a turbine's lifetime, learning a flexible and optimal control strategy requires a data-driven approach. However, as wind farms are large-scale multi-agent systems, optimizing control strategies over the full joint action space is intractable. We propose a new learning method for wind farm control that leverages the sparse wind farm structure to factorize the optimization problem. Using a Bayesian approach, based on multi-agent Thompson sampling, we explore the factored joint action space for configurations that match the demand, while considering the lifetime of turbines. We apply our method to a grid-like wind farm layout, and evaluate configurations using a state-of-the-art wind flow simulator. Our results are competitive with a physics-based heuristic approach in terms of demand error, while, contrary to the heuristic, our method prolongs the lifetime of high-risk turbines.
翻訳日:2021-03-22 11:27:48 公開日:2021-01-19
# 様々な生成的敵ネットワークによって生成されるビートブル・ロードランナーレベルの空間の照明

Illuminating the Space of Beatable Lode Runner Levels Produced By Various Generative Adversarial Networks ( http://arxiv.org/abs/2101.07868v1 )

ライセンス: Link先を確認
Kirby Steckel and Jacob Schrum(参考訳) GAN(Generative Adversarial Networks)は、トレーニングセットから要素の説得力のある模倣を生成することができるが、トレーニングセット内の要素の分布は、GANを適切にトレーニングすることの難しさと、それが生成する出力の品質に影響を及ぼす。 本稿では,ゲームlode runnerの異なるサブセットでトレーニングされた6種類のganについて検討する。 品質多様性アルゴリズムMAP-Elitesは、各GANが生成できる品質レベルのセットを探索するために用いられ、そこでは品質は打ち負かされ、最も長い解経路を持つと定義されていた。 興味深いことに、たった20のレベルでトレーニングされたGANが、150のレベルでトレーニングされたGANが、150のレベルでトレーニングされたGANが、最も多様なビータブルレベルでトレーニングされた最小のセットを生成した。

Generative Adversarial Networks (GANs) are capable of generating convincing imitations of elements from a training set, but the distribution of elements in the training set affects to difficulty of properly training the GAN and the quality of the outputs it produces. This paper looks at six different GANs trained on different subsets of data from the game Lode Runner. The quality diversity algorithm MAP-Elites was used to explore the set of quality levels that could be produced by each GAN, where quality was defined as being beatable and having the longest solution path possible. Interestingly, a GAN trained on only 20 levels generated the largest set of diverse beatable levels while a GAN trained on 150 levels generated the smallest set of diverse beatable levels, thus challenging the notion that more is always better when training GANs.
翻訳日:2021-03-22 11:27:24 公開日:2021-01-19
# AI時代のパーソナライズド教育:次に何を期待するか

Personalized Education in the AI Era: What to Expect Next? ( http://arxiv.org/abs/2101.10074v1 )

ライセンス: Link先を確認
Setareh Maghsudi, Andrew Lan, Jie Xu, and Mihaela van der Schaar(参考訳) パーソナライズされた学習の目的は、学習者の強みと一致する効果的な知識獲得トラックを設計し、最終的に目的を達成するために弱点を回避することである。 この概念は数年前に登場し、世界中の多くの教育機関で採用されている。 近年、人工知能(AI)と機械学習(ML)の進歩とビッグデータ分析の進歩により、パーソナライズされた教育を多くの面で強化する新たな視点が展開されている。 学習プラットフォームは,AI/ML手法を利用して,生徒の特徴を正確に把握する。 これは、部分的には過去の経験を観察し、学習者の特徴や類似点を調べて利用可能なビッグデータを分析することで行われる。 例えば、多くのアクセス可能なコンテンツの中で最も適切なコンテンツを推薦し、よく設計された長期カリキュラムを助言し、適切な学習者を提案、正確な性能評価などで接続することができる。 それでも、aiベースのパーソナライズ教育のいくつかの側面は未調査のままである。 その中には、ピアの欠如による悪影響の補償、学習のモチベーションの作成と維持、多様性の向上、データやアルゴリズムによって引き起こされるバイアスの除去などが含まれる。 本稿では,AI/MLに基づくパーソナライズされた教育の課題について考察し,その可能性について考察する。

The objective of personalized learning is to design an effective knowledge acquisition track that matches the learner's strengths and bypasses her weaknesses to ultimately meet her desired goal. This concept emerged several years ago and is being adopted by a rapidly-growing number of educational institutions around the globe. In recent years, the boost of artificial intelligence (AI) and machine learning (ML), together with the advances in big data analysis, has unfolded novel perspectives to enhance personalized education in numerous dimensions. By taking advantage of AI/ML methods, the educational platform precisely acquires the student's characteristics. This is done, in part, by observing the past experiences as well as analyzing the available big data through exploring the learners' features and similarities. It can, for example, recommend the most appropriate content among numerous accessible ones, advise a well-designed long-term curriculum, connect appropriate learners by suggestion, accurate performance evaluation, and the like. Still, several aspects of AI-based personalized education remain unexplored. These include, among others, compensating for the adverse effects of the absence of peers, creating and maintaining motivations for learning, increasing diversity, removing the biases induced by the data and algorithms, and the like. In this paper, while providing a brief review of state-of-the-art research, we investigate the challenges of AI/ML-based personalized education and discuss potential solutions.
翻訳日:2021-03-22 11:27:05 公開日:2021-01-19
# 輸入ベクトルマシンを用いた危険な積極的交通条件の同定

Utilizing Import Vector Machines to Identify Dangerous Pro-active Traffic Conditions ( http://arxiv.org/abs/2101.07683v1 )

ライセンス: Link先を確認
Kui Yang, Wenjing Zhao, Constantinos Antoniou(参考訳) 交通事故は、交通流の発展に伴うメトロポリスで深刻な問題となっている。 本稿では,最近開発されたIVM(Import Vector Machines)のリアルタイム事故リスク解析における機械学習手法の理論と応用について考察する。 上海都市高速道路の歴史的事故データとそれに対応する交通データを用いて一致した。 交通状況は危険(すなわち、危険)と分類される。 おそらくクラッシュに繋がるでしょう)と安全(つまり)です。 平均速度、体積および占有率の5分間の測定に基づく(通常の交通条件)。 ivmアルゴリズムは分類器を構築するように訓練され、その性能は人気のあるサポートベクターマシン(svm)の技術と比較される。 主な知見は、IVMが危険なプロアクティブ交通条件のリアルタイム識別に有効であることを示している。 さらに、SVMの"サポートポイント"と同様に、IVMモデルは、カーネル基底関数(典型的にはSVMよりもはるかに小さい)をインデックスするために、トレーニングデータのごく一部しか使用せず、その分類率はSVMと似ている。 これにより、特にトレーニングデータセットのサイズが大きい場合、IVMはSVMよりも計算上の優位性が得られる。

Traffic accidents have been a severe issue in metropolises with the development of traffic flow. This paper explores the theory and application of a recently developed machine learning technique, namely Import Vector Machines (IVMs), in real-time crash risk analysis, which is a hot topic to reduce traffic accidents. Historical crash data and corresponding traffic data from Shanghai Urban Expressway System were employed and matched. Traffic conditions are labelled as dangerous (i.e. probably leading to a crash) and safe (i.e. a normal traffic condition) based on 5-minute measurements of average speed, volume and occupancy. The IVM algorithm is trained to build the classifier and its performance is compared to the popular and successfully applied technique of Support Vector Machines (SVMs). The main findings indicate that IVMs could successfully be employed in real-time identification of dangerous pro-active traffic conditions. Furthermore, similar to the "support points" of the SVM, the IVM model uses only a fraction of the training data to index kernel basis functions, typically a much smaller fraction than the SVM, and its classification rates are similar to those of SVMs. This gives the IVM a computational advantage over the SVM, especially when the size of the training data set is large.
翻訳日:2021-03-22 11:26:30 公開日:2021-01-19
# マルチアームバンディットのミニマックスオフポリシー評価

Minimax Off-Policy Evaluation for Multi-Armed Bandits ( http://arxiv.org/abs/2101.07781v1 )

ライセンス: Link先を確認
Cong Ma, Banghua Zhu, Jiantao Jiao, Martin J. Wainwright(参考訳) 境界付報酬を伴うマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討し,3つの条件下でのミニマックスレート最適化手法の開発を行った。 まず、動作ポリシーが分かっている場合、プラグインと重要サンプリング推定器を交互に切り替える方法であるswitch estimatorが、すべてのサンプルサイズに対して最小のレート最適化であることを示す。 第二に、行動方針が不明な場合、競争率の観点から性能を解析し、既知の行動方針と未知の行動方針との基本的なギャップを明らかにする。 行動方針が不明な場合、どの推定器も平均二乗誤差(行動方針の知識を備えたオラクル推定器と比較して)を目標政策の支持サイズに比例する乗法的因子で表さなければならない。 さらに,プラグイン手法が対数係数までの最悪の競合比を達成することを示す。 第3に、行動方針によって取られる最小確率が知られていると仮定した部分的知識設定の研究を開始する。 最小確率の比較的大きな値に対して,プラグイン推定器は最適であるが,最小確率が低い場合には最適でないことを示す。 このギャップを解消するために, 最適な推定誤差を実現するため, チェビシェフ多項式による近似に基づく新しい推定器を提案する。 シミュレーションデータと実データの両方に関する数値実験は、我々の理論的知見を裏付けるものである。

We study the problem of off-policy evaluation in the multi-armed bandit model with bounded rewards, and develop minimax rate-optimal procedures under three settings. First, when the behavior policy is known, we show that the Switch estimator, a method that alternates between the plug-in and importance sampling estimators, is minimax rate-optimal for all sample sizes. Second, when the behavior policy is unknown, we analyze performance in terms of the competitive ratio, thereby revealing a fundamental gap between the settings of known and unknown behavior policies. When the behavior policy is unknown, any estimator must have mean-squared error larger -- relative to the oracle estimator equipped with the knowledge of the behavior policy -- by a multiplicative factor proportional to the support size of the target policy. Moreover, we demonstrate that the plug-in approach achieves this worst-case competitive ratio up to a logarithmic factor. Third, we initiate the study of the partial knowledge setting in which it is assumed that the minimum probability taken by the behavior policy is known. We show that the plug-in estimator is optimal for relatively large values of the minimum probability, but is sub-optimal when the minimum probability is low. In order to remedy this gap, we propose a new estimator based on approximation by Chebyshev polynomials that provably achieves the optimal estimation error. Numerical experiments on both simulated and real data corroborate our theoretical findings.
翻訳日:2021-03-22 11:26:11 公開日:2021-01-19
# 大局的文脈と注意機構を利用したT1強調MRIにおける髄膜腫の分画

Meningioma segmentation in T1-weighted MRI leveraging global context and attention mechanisms ( http://arxiv.org/abs/2101.07715v1 )

ライセンス: Link先を確認
David Bouget, Andr\'e Pedersen, Sayied Abdol Mohieb Hosainey, Ole Solheim, Ingerid Reinertsen(参考訳) 髄膜腫は脳腫瘍の最も一般的なタイプであり、脳腫瘍の約30%を占める。 これらの腫瘍の多くは外科的に切除されることはないが、時間とともに監視される。 自動的, 正確な髄膜腫分節化は, 信頼性の高い成長予測と患者特異的治療計画の実現に有用である。 本研究では, 3次元mriボリュームを入力として, (i) attention-gated u-net (agunet) と (ii) dual attention u-net (daunet) という, u-net アーキテクチャ上の注意機構の導入を提案する。 注意力は、グローバルコンテキストを活用し、全体にわたって機能の関係を識別する可能性がある。 エンコーダ・デコーダアーキテクチャに固有の細部の空間分解能の低下と損失を抑えるため,マルチスケール入力および深部監視成分の影響を検討した。 提案されたアーキテクチャはトレーニング可能なエンドツーエンドであり、それぞれの概念はアブレーション研究のためにシームレスに無効にすることができる。 ノルウェーのトロンドハイムにあるセント・オラヴス大学病院から,600 T1強調MRIボリュームの5倍のクロスバリデーションを用いて検証を行った。 最高性能の建築では、平均サイコロスコアが81.6%、f1スコアが95.6%に達した。 ほぼ完全な98%の精度で3ml未満の髄膜腫がたまに消失し、全体のリコール率は93%に達した。 3次元MRIボリュームからグローバルコンテキストを活用することで、ネイティブボリューム解像度を直接処理できない場合でも、最高のパフォーマンスが得られる。 総じて, 3ml以上の髄膜腫に対して, 臨床的に有用であった。 将来的には, 性能向上のために, マルチスケール設計と改良ネットワークの利用も検討すべきである。 髄膜腫が3ml未満の症例は、最小の腫瘍のパフォーマンスを改善するためにも必要かもしれない。

Meningiomas are the most common type of primary brain tumor, accounting for approximately 30% of all brain tumors. A substantial number of these tumors are never surgically removed but rather monitored over time. Automatic and precise meningioma segmentation is therefore beneficial to enable reliable growth estimation and patient-specific treatment planning. In this study, we propose the inclusion of attention mechanisms over a U-Net architecture: (i) Attention-gated U-Net (AGUNet) and (ii) Dual Attention U-Net (DAUNet), using a 3D MRI volume as input. Attention has the potential to leverage the global context and identify features' relationships across the entire volume. To limit spatial resolution degradation and loss of detail inherent to encoder-decoder architectures, we studied the impact of multi-scale input and deep supervision components. The proposed architectures are trainable end-to-end and each concept can be seamlessly disabled for ablation studies. The validation studies were performed using a 5-fold cross validation over 600 T1-weighted MRI volumes from St. Olavs University Hospital, Trondheim, Norway. For the best performing architecture, an average Dice score of 81.6% was reached for an F1-score of 95.6%. With an almost perfect precision of 98%, meningiomas smaller than 3ml were occasionally missed hence reaching an overall recall of 93%. Leveraging global context from a 3D MRI volume provided the best performances, even if the native volume resolution could not be processed directly. Overall, near-perfect detection was achieved for meningiomas larger than 3ml which is relevant for clinical use. In the future, the use of multi-scale designs and refinement networks should be further investigated to improve the performance. A larger number of cases with meningiomas below 3ml might also be needed to improve the performance for the smallest tumors.
翻訳日:2021-03-22 11:24:47 公開日:2021-01-19
# 準安定物質の自律合成

Autonomous synthesis of metastable materials ( http://arxiv.org/abs/2101.07385v1 )

ライセンス: Link先を確認
Sebastian Ament, Maximilian Amsler, Duncan R. Sutherland, Ming-Chiang Chang, Dan Guevarra, Aine B. Connolly, John M. Gregoire, Michael O. Thompson, Carla P. Gomes, R. Bruce van Dover(参考訳) 人工知能(ai)によって実現される自律実験は、科学的発見を加速するための新しいパラダイムを提供する。 非平衡物質合成は、物質発見と開発のための流域となる複雑な資源集約的な実験の象徴である。 非平衡合成相図のマッピングは近年、高いスループットの実験によって加速されているが、パラメータ空間が大きすぎるため、材料研究は制限されている。 我々は,SARA(Scientific Autonomous Reasoning Agent)が管理する階層的自律実験を通して,メタスタブル物質の迅速な合成と探索を実証する。 SARAは、処理フェーズ図の構造を効率的に明らかにするAI手法の階層構造とともに、ロボット素材の合成とキャラクタリゼーションを統合する。 SARAは並列材料合成のための横勾配レーザースパイクアニール(lg-LSA)実験を設計し、位相遷移を迅速に同定するために光学分光を用いる。 多次元パラメータ空間の効率的な探索は、実験の基礎となる物理学とエンドツーエンドの不確実性定量化を組み込んだ高度な機械学習モデルに基づくネスト付きアクティブラーニング(al)サイクルによって達成される。 これと複数のスケールでのALの調整により、SARAは複雑な科学的タスクを活用するAIを具現化した。 我々は,Bi$_2$O$_3$系の合成相境界を自律的にマッピングすることにより,室温での運動安定化条件を含む合成相図の確立に至り,固体酸化物燃料電池などの電気化学技術にとって重要な発展をもたらすことを示す。

Autonomous experimentation enabled by artificial intelligence (AI) offers a new paradigm for accelerating scientific discovery. Non-equilibrium materials synthesis is emblematic of complex, resource-intensive experimentation whose acceleration would be a watershed for materials discovery and development. The mapping of non-equilibrium synthesis phase diagrams has recently been accelerated via high throughput experimentation but still limits materials research because the parameter space is too vast to be exhaustively explored. We demonstrate accelerated synthesis and exploration of metastable materials through hierarchical autonomous experimentation governed by the Scientific Autonomous Reasoning Agent (SARA). SARA integrates robotic materials synthesis and characterization along with a hierarchy of AI methods that efficiently reveal the structure of processing phase diagrams. SARA designs lateral gradient laser spike annealing (lg-LSA) experiments for parallel materials synthesis and employs optical spectroscopy to rapidly identify phase transitions. Efficient exploration of the multi-dimensional parameter space is achieved with nested active learning (AL) cycles built upon advanced machine learning models that incorporate the underlying physics of the experiments as well as end-to-end uncertainty quantification. With this, and the coordination of AL at multiple scales, SARA embodies AI harnessing of complex scientific tasks. We demonstrate its performance by autonomously mapping synthesis phase boundaries for the Bi$_2$O$_3$ system, leading to orders-of-magnitude acceleration in establishment of a synthesis phase diagram that includes conditions for kinetically stabilizing $\delta$-Bi$_2$O$_3$ at room temperature, a critical development for electrochemical technologies such as solid oxide fuel cells.
翻訳日:2021-03-22 11:24:16 公開日:2021-01-19
# 線形rnnの暗黙的バイアス

Implicit Bias of Linear RNNs ( http://arxiv.org/abs/2101.07833v1 )

ライセンス: Link先を確認
Melikasadat Emami, Mojtaba Sahraee-Ardakan, Parthe Pandit, Sundeep Rangan, Alyson K. Fletcher(参考訳) 経験的研究に基づく現代の知恵は、標準リカレントニューラルネットワーク(RNN)が長期記憶を必要とするタスクではうまく機能しないことを示している。 しかし、この行動の正確な理由は不明である。 本稿では、線形RNNの特殊な場合において、この特性を厳密に説明する。 この研究は線形RNNに限られているが、伝統的にこれらのシステムでさえ非線形パラメータ化のため解析が困難であった。 近年開発されたカーネルレジーム解析を用いて,ランダム初期化から学習した線形rnnが,重み付き1次元畳み込みネットワークと機能的に等価であることを示す。 重要なことに、等価モデルの重み付けは、畳み込みの時間ラグが小さく、従ってメモリが短い要素に暗黙の偏りをもたらす。 このバイアスの程度は初期化における遷移核行列の分散に依存し、古典的な爆発および消滅勾配問題と関連している。 この理論は合成実験と実データ実験の両方で検証されている。

Contemporary wisdom based on empirical studies suggests that standard recurrent neural networks (RNNs) do not perform well on tasks requiring long-term memory. However, precise reasoning for this behavior is still unknown. This paper provides a rigorous explanation of this property in the special case of linear RNNs. Although this work is limited to linear RNNs, even these systems have traditionally been difficult to analyze due to their non-linear parameterization. Using recently-developed kernel regime analysis, our main result shows that linear RNNs learned from random initializations are functionally equivalent to a certain weighted 1D-convolutional network. Importantly, the weightings in the equivalent model cause an implicit bias to elements with smaller time lags in the convolution and hence, shorter memory. The degree of this bias depends on the variance of the transition kernel matrix at initialization and is related to the classic exploding and vanishing gradients problem. The theory is validated in both synthetic and real data experiments.
翻訳日:2021-03-22 11:23:36 公開日:2021-01-19
# 量子置換同期

Quantum Permutation Synchronization ( http://arxiv.org/abs/2101.07755v1 )

ライセンス: Link先を確認
Tolga Birdal, Vladislav Golyanik, Christian Theobalt, Leonidas Guibas(参考訳) 本稿では,コンピュータビジョンの文脈で同期問題を解決する量子アルゴリズムQuantumSyncを提案する。 特に,離散変数における非凸最適化問題の解法を含む置換同期に着目した。 まず、同期を2次非制約バイナリ最適化問題(QUBO)に定式化することから始める。 このような定式化は問題のバイナリの性質を尊重するが、結果が置換の集合であることを保証するには余分な注意が必要である。 したがって、 (i) 置換制約をQUBO問題に挿入する方法を示し、 (ii) 断熱量子コンピュータD-Waveの現世代における制約付きQUBO問題を解く。 量子アニールにより、エネルギーランドスケープをサンプリングして信頼度を推定しながら、高い確率で大域的最適性を保証する。 我々のD-Waveコンピュータにおける概念実証は、量子機械が一般的なが難しい同期問題の解決に有望な方法を提供することを示す。

We present QuantumSync, the first quantum algorithm for solving a synchronization problem in the context of computer vision. In particular, we focus on permutation synchronization which involves solving a non-convex optimization problem in discrete variables. We start by formulating synchronization into a quadratic unconstrained binary optimization problem (QUBO). While such formulation respects the binary nature of the problem, ensuring that the result is a set of permutations requires extra care. Hence, we: (i) show how to insert permutation constraints into a QUBO problem and (ii) solve the constrained QUBO problem on the current generation of the adiabatic quantum computers D-Wave. Thanks to the quantum annealing, we guarantee global optimality with high probability while sampling the energy landscape to yield confidence estimates. Our proof-of-concepts realization on the adiabatic D-Wave computer demonstrates that quantum machines offer a promising way to solve the prevalent yet difficult synchronization problems.
翻訳日:2021-03-22 11:23:21 公開日:2021-01-19
# 計算語彙意味変化の課題

Challenges for Computational Lexical Semantic Change ( http://arxiv.org/abs/2101.07668v1 )

ライセンス: Link先を確認
Simon Hengchen and Nina Tahmasebi and Dominik Schlechtweg and Haim Dubossarsky(参考訳) 近年,語彙意味変化(LSC)の計算研究が盛んに行われており,計算科学と言語学の両方からこの分野への関心が高まっている。 これまでの研究のほとんどは、大きなダイアクロニックなテキストデータを使用して意味的変化をモデル化し、検出する手法に焦点を合わせてきた。 ダイアクロニックテキストの容易なモデリングを提供する手法は、LCCにスパイクされる主な理由の1つであるが、ニューラルモデルは問題の多くの側面を未解決のまま残している。 この分野にはいくつかのオープンで複雑な課題がある。 本章では,これらの課題のうち最も重要なものを説明し,今後の方向性を概説する。

The computational study of lexical semantic change (LSC) has taken off in the past few years and we are seeing increasing interest in the field, from both computational sciences and linguistics. Most of the research so far has focused on methods for modelling and detecting semantic change using large diachronic textual data, with the majority of the approaches employing neural embeddings. While methods that offer easy modelling of diachronic text are one of the main reasons for the spiking interest in LSC, neural models leave many aspects of the problem unsolved. The field has several open and complex challenges. In this chapter, we aim to describe the most important of these challenges and outline future directions.
翻訳日:2021-03-22 11:22:47 公開日:2021-01-19
# 量子確率のパラコンシステンス基礎

Paraconsistent Foundations for Quantum Probability ( http://arxiv.org/abs/2101.07498v1 )

ライセンス: Link先を確認
Ben Goertzel(参考訳) ファジィ版の 4-真値パラ一貫性論理(真理値がtrue, false, both, neither に対応する)は、量子確率の複素数代数にほぼ同型にマッピングできると論じられている。 すなわち、pビット (並列ビット) は qubits の近接近似に変換できる。 近似誤差は、少なくとも形式的な意味では任意に小さくすることができ、観測者の観察を悩ませていると仮定される既約の「証拠誤差」の度合いと関連付けられる。 この論理対応は、プログラミング言語の確率型と量子型の間の近似写像を通じて、プログラム空間に現れる。

It is argued that a fuzzy version of 4-truth-valued paraconsistent logic (with truth values corresponding to True, False, Both and Neither) can be approximately isomorphically mapped into the complex-number algebra of quantum probabilities. I.e., p-bits (paraconsistent bits) can be transformed into close approximations of qubits. The approximation error can be made arbitrarily small, at least in a formal sense, and can be related to the degree of irreducible "evidential error" assumed to plague an observer's observations. This logical correspondence manifests itself in program space via an approximate mapping between probabilistic and quantum types in programming languages.
翻訳日:2021-03-22 11:22:35 公開日:2021-01-19
# 地理空間データのマッピングと記述 複雑なマッピングを一般化し、地理空間データを記述して複雑なモデルを一般化する:littosim-genモデルの場合

Mapping and Describing Geospatial Data to Generalize Complex Mapping and Describing Geospatial Data to Generalize Complex Models: The Case of LittoSIM-GEN Models ( http://arxiv.org/abs/2101.07523v1 )

ライセンス: Link先を確認
Ahmed Laatabi, Nicolas Becu (LIENSs), Nicolas Marilleau (UMMISCO), C\'ecilia Pignon-Mussaud (LIENSs), Marion Amalric (CITERES), X. Bertin (LIENSs), Brice Anselme (PRODIG), Elise Beck (PACTE)(参考訳) 科学的質問の中には、信頼できるシミュレーションモデルを開発するために経験的データが不可欠であるものもある。 これらのデータは、通常、多様で異種なフォーマットの異なるソースから来る。 複雑なデータ駆動モデルの設計は、しばしば研究プロジェクトで利用可能なデータの構造によって形成される。 したがって、このようなモデルを他のケーススタディに適用するには、同様のデータを取得するか、モデル入力に合うように新しいデータを変換する必要がある。 これは、地理情報システムデータなどの高度なデータ構造を使用するエージェントベースモデル(ABM)のケースである。 我々は,LittoSIM-GENプロジェクトにおいて,我々の参加型洪水モデル(LittoSIM)を新たな領域に一般化する際に,この問題に直面した。 この経験から,地理空間データのabmへの統合を構造化,記述,自動化するためのマッピング手法を提案する。

For some scientific questions, empirical data are essential to develop reliable simulation models. These data usually come from different sources with diverse and heterogeneous formats. The design of complex data-driven models is often shaped by the structure of the data available in research projects. Hence, applying such models to other case studies requires either to get similar data or to transform new data to fit the model inputs. It is the case of agent-based models (ABMs) that use advanced data structures such as Geographic Information Systems data. We faced this problem in the LittoSIM-GEN project when generalizing our participatory flooding model (LittoSIM) to new territories. From this experience, we provide a mapping approach to structure, describe, and automatize the integration of geospatial data into ABMs.
翻訳日:2021-03-22 11:22:25 公開日:2021-01-19
# DCNNを用いた品質管理・検査用任意オブジェクト指向物体検出器

A DCNN-based Arbitrarily-Oriented Object Detector for Quality Control and Inspection Application ( http://arxiv.org/abs/2101.07383v1 )

ライセンス: Link先を確認
Kai Yao, Alberto Ortiz, Francisco Bonnin-Pascual(参考訳) オンライン自動品質管理・検査プロセスにおける機械ビジョンシステムの成功に続いて,病院内における滅菌用手術用工具箱における品質管理項目の検出と,血管内欠陥の検出による構造的欠陥の防止という,2つの異なる用途に対して,物体認識ソリューションが提案されている。 解には2つの段階がある。 まず,Single Shot MultiBox Detector (SSD) に基づく特徴ピラミッドアーキテクチャを用いて検出性能を向上し,デフォルトボックスの範囲のパラメータを選択するために基底真理に基づく統計的解析を行う。 第2に,軽量ニューラルネットワークを用いて回帰法を用いて指向性検出結果を得る。 提案手法の第1段階では,2つのシナリオで考慮される小型ターゲットを検出できる。 第2段階では、単純さにもかかわらず、高い走行効率を維持しながら、延長目標の検出が効率的である。

Following the success of machine vision systems for on-line automated quality control and inspection processes, an object recognition solution is presented in this work for two different specific applications, i.e., the detection of quality control items in surgery toolboxes prepared for sterilizing in a hospital, as well as the detection of defects in vessel hulls to prevent potential structural failures. The solution has two stages. First, a feature pyramid architecture based on Single Shot MultiBox Detector (SSD) is used to improve the detection performance, and a statistical analysis based on ground truth is employed to select parameters of a range of default boxes. Second, a lightweight neural network is exploited to achieve oriented detection results using a regression method. The first stage of the proposed method is capable of detecting the small targets considered in the two scenarios. In the second stage, despite the simplicity, it is efficient to detect elongated targets while maintaining high running efficiency.
翻訳日:2021-03-22 11:22:12 公開日:2021-01-19
# 限られたデータ量を有する訓練ネットワークにおけるパーリンノイズを用いた初期化

Initialization Using Perlin Noise for Training Networks with a Limited Amount of Data ( http://arxiv.org/abs/2101.07406v1 )

ライセンス: Link先を確認
Nakamasa Inoue, Eisuke Yamagata, Hirokatsu Kataoka(参考訳) 限られたデータ量で画像分類ネットワークを訓練するためのPerlinノイズを用いた新しいネットワーク初期化手法を提案する。 提案手法は,perlinノイズサンプルを雑音カテゴリに分類することを目的として,人工雑音分類問題を解くことでネットワークパラメータを初期化するものである。 具体的には,提案手法は2つのステップからなる。 まず、ノイズ複雑性に基づいてカテゴリラベルが定義されたperlinノイズサンプルを生成する。 第二に、ネットワークパラメータを最適化して生成されたノイズサンプルを分類する分類問題を解く。 この方法は、画像分類のための合理的な初期重み(フィルタ)を生成する。 我々の知る限りでは、実世界のイメージを使わずに、人工最適化問題を解くことでネットワークを初期化する最初の試みである。 提案手法は4つの画像分類データセットにおいて従来の初期化手法よりも優れていることを示す。

We propose a novel network initialization method using Perlin noise for training image classification networks with a limited amount of data. Our main idea is to initialize the network parameters by solving an artificial noise classification problem, where the aim is to classify Perlin noise samples into their noise categories. Specifically, the proposed method consists of two steps. First, it generates Perlin noise samples with category labels defined based on noise complexity. Second, it solves a classification problem, in which network parameters are optimized to classify the generated noise samples. This method produces a reasonable set of initial weights (filters) for image classification. To the best of our knowledge, this is the first work to initialize networks by solving an artificial optimization problem without using any real-world images. Our experiments show that the proposed method outperforms conventional initialization methods on four image classification datasets.
翻訳日:2021-03-22 11:21:55 公開日:2021-01-19
# 室内シーンにおける家具レイアウト作成のための深層補強学習

Deep Reinforcement Learning for Producing Furniture Layout in Indoor Scenes ( http://arxiv.org/abs/2101.07462v1 )

ライセンス: Link先を確認
Xinhan Di, Pengqian Yu(参考訳) 工業用インテリアデザインのプロセスでは、プロのデザイナーが部屋の家具のサイズと位置を計画し、販売に適したデザインを実現する。 本稿では,内部シーン設計タスクをマルコフ決定プロセス(mdp)として検討し,深層強化学習によって解決する。 その目的は、室内レイアウトタスクのために家具の正確な位置と大きさを同時に作成することである。 特に, 家具配置タスクを, 状態, 動作, 報酬関数を定義することで, MDP問題として定式化する。 次にシミュレーション環境を設計,強化学習エージェントを訓練し,mdp定式化のための最適なレイアウトを作成する。 我々は、プロのデザイナーによる工業デザインを含む大規模な現実世界の内部レイアウトデータセットで実験を行った。 その結果,提案モデルでは,最先端モデルと比較して高品質なレイアウトが得られた。 開発されたシミュレータとコードは \url{https://github.com/C ODE-SUBMIT/simulator 1} で入手できる。

In the industrial interior design process, professional designers plan the size and position of furniture in a room to achieve a satisfactory design for selling. In this paper, we explore the interior scene design task as a Markov decision process (MDP), which is solved by deep reinforcement learning. The goal is to produce an accurate position and size of the furniture simultaneously for the indoor layout task. In particular, we first formulate the furniture layout task as a MDP problem by defining the state, action, and reward function. We then design the simulated environment and train reinforcement learning agents to produce the optimal layout for the MDP formulation. We conduct our experiments on a large-scale real-world interior layout dataset that contains industrial designs from professional designers. Our numerical results demonstrate that the proposed model yields higher-quality layouts as compared with the state-of-art model. The developed simulator and codes are available at \url{https://github.com/C ODE-SUBMIT/simulator 1}.
翻訳日:2021-03-22 11:21:30 公開日:2021-01-19
# 大規模多目的進化最適化による注意誘導型ブラックボックス攻撃

Attention-Guided Black-box Adversarial Attacks with Large-Scale Multiobjective Evolutionary Optimization ( http://arxiv.org/abs/2101.07512v1 )

ライセンス: Link先を確認
Jie Wang, Zhaoxia Yin, Jing Jiang, and Yang Du(参考訳) ブラックボックス最適化によるディープニューラルネットワーク(DNN)の処理は、DNNの構造的事前知識が常に不明であるため、一般的な攻撃手法となっている。 しかしながら、最近のブラックボックスの敵攻撃は、高解像度画像に対処する際の攻撃能力と、生成した敵の例(AE)の視覚的品質のバランスをとるのに苦労する可能性がある。 本稿では,LMOAと呼ばれる大規模多目的進化最適化に基づく注意誘導型ブラックボックス対向攻撃を提案する。 画像の空間的意味情報を考慮し,まず注意マップを利用して摂動画素を決定する。 画像全体を攻撃する代わりに、注意機構で乱れたピクセルを減らすことで、悪名高い次元の呪いを回避し、攻撃性能を向上させることができる。 第2に、サリアン領域の縮小画素を横切るために、大規模多目的進化アルゴリズムを用いる。 その特徴から、生成されたAEは、人間の視覚によって認識できないまま、標的のDNNを騙す可能性がある。 画像NetデータセットにおけるLMOAの有効性を実験により検証した。 さらに重要なのは、既存のブラックボックスの敵攻撃と比較して、視覚的品質の優れた高解像度のAEを生成するのが競争力があることだ。

Fooling deep neural networks (DNNs) with the black-box optimization has become a popular adversarial attack fashion, as the structural prior knowledge of DNNs is always unknown. Nevertheless, recent black-box adversarial attacks may struggle to balance their attack ability and visual quality of the generated adversarial examples (AEs) in tackling high-resolution images. In this paper, we propose an attention-guided black-box adversarial attack based on the large-scale multiobjective evolutionary optimization, termed as LMOA. By considering the spatial semantic information of images, we firstly take advantage of the attention map to determine the perturbed pixels. Instead of attacking the entire image, reducing the perturbed pixels with the attention mechanism can help to avoid the notorious curse of dimensionality and thereby improves the performance of attacking. Secondly, a large-scale multiobjective evolutionary algorithm is employed to traverse the reduced pixels in the salient region. Benefiting from its characteristics, the generated AEs have the potential to fool target DNNs while being imperceptible by the human vision. Extensive experimental results have verified the effectiveness of the proposed LMOA on the ImageNet dataset. More importantly, it is more competitive to generate high-resolution AEs with better visual quality compared with the existing black-box adversarial attacks.
翻訳日:2021-03-22 11:21:15 公開日:2021-01-19
# BANet: 動的シーン劣化のためのBlur-aware Attention Networks

BANet: Blur-aware Attention Networks for Dynamic Scene Deblurring ( http://arxiv.org/abs/2101.07518v1 )

ライセンス: Link先を確認
Fu-Jen Tsai, Yan-Tsung Peng, Yen-Yu Lin, Chung-Chi Tsai, and Chia-Wen Lin(参考訳) 画像の動きのぼやけは通常、動く物体やカメラの揺れから生じる。 このようなぼやけは一般に方向的かつ非一様である。 先行研究は自己着脱を伴う自己再帰型マルチスケールまたはマルチパッチアーキテクチャを用いて非一様ボケを解決することを試みる。 しかしながら、セルフリカレントフレームワークを使用すると、一般的には推論時間が長くなり、ピクセル間またはチャネル間自己アテンションが過剰なメモリ使用を引き起こす可能性がある。 本稿では,単一フォワードパスで高精度かつ効率的なデブラリングを実現するぼかし認識アテンションネットワーク(banet)を提案する。 banetでは,マルチカーネルストリッププーリングを用いた領域ベースのセルフアテンションを用いて,異なる次数のぼかしパターンとカスケード並列拡張畳み込みを解消し,マルチスケールコンテンツの特徴を集約する。 GoPro と HIDE のベンチマークによる大規模な実験結果から,提案した BANet は,ぼやけた画像復元における最先端技術に対して良好に動作し,劣化した結果をリアルタイムで提供することを示した。

Image motion blur usually results from moving objects or camera shakes. Such blur is generally directional and non-uniform. Previous research efforts attempt to solve non-uniform blur by using self-recurrent multi-scale or multi-patch architectures accompanying with self-attention. However, using self-recurrent frameworks typically leads to a longer inference time, while inter-pixel or inter-channel self-attention may cause excessive memory usage. This paper proposes blur-aware attention networks (BANet) that accomplish accurate and efficient deblurring via a single forward pass. Our BANet utilizes region-based self-attention with multi-kernel strip pooling to disentangle blur patterns of different degrees and with cascaded parallel dilated convolution to aggregate multi-scale content features. Extensive experimental results on the GoPro and HIDE benchmarks demonstrate that the proposed BANet performs favorably against the state-of-the-art in blurred image restoration and can provide deblurred results in realtime.
翻訳日:2021-03-22 11:20:55 公開日:2021-01-19
# PICA: 画素相関に基づく意図的ブラックボックス攻撃

PICA: A Pixel Correlation-based Attentional Black-box Adversarial Attack ( http://arxiv.org/abs/2101.07538v1 )

ライセンス: Link先を確認
Jie Wang, Zhaoxia Yin, Jin Tang, Jing Jiang, and Bin Luo(参考訳) 深層ニューラルネットワーク(DNN)の構造的知識の習得が困難なため、ブラックボックスの敵対的攻撃の研究がますます広まっている。 しかし、高解像度画像に適したDNNを騙すと、新興攻撃の性能に悪影響を及ぼす。 説明の1つは、これらの方法が通常、空間的な意味情報に関係なく、画像全体を攻撃することに集中し、悪名高い次元の呪いに遭遇することである。 そこで本研究では,PICA(Pixel correlation-based attentional black-box adversarial attack)を提案する。 まず、黒箱攻撃の寸法が減少するような画像の注意機構と画素相関を利用して、正当領域の隣接する2つのピクセルのうち1つだけを目標とする。 その後、一般的な多目的進化アルゴリズムを用いて、縮小したピクセルを横切り、人間の視覚によって知覚できない摂動を生成する。 広範な実験結果から,imagenetデータセットにおけるpicaの有効性が検証された。 さらに重要なことは、PICAは既存のブラックボックス攻撃と比較して高解像度の逆例を生成するのに計算効率が良いことである。

The studies on black-box adversarial attacks have become increasingly prevalent due to the intractable acquisition of the structural knowledge of deep neural networks (DNNs). However, the performance of emerging attacks is negatively impacted when fooling DNNs tailored for high-resolution images. One of the explanations is that these methods usually focus on attacking the entire image, regardless of its spatial semantic information, and thereby encounter the notorious curse of dimensionality. To this end, we propose a pixel correlation-based attentional black-box adversarial attack, termed as PICA. Firstly, we take only one of every two neighboring pixels in the salient region as the target by leveraging the attentional mechanism and pixel correlation of images, such that the dimension of the black-box attack reduces. After that, a general multiobjective evolutionary algorithm is employed to traverse the reduced pixels and generate perturbations that are imperceptible by the human vision. Extensive experimental results have verified the effectiveness of the proposed PICA on the ImageNet dataset. More importantly, PICA is computationally more efficient to generate high-resolution adversarial examples compared with the existing black-box attacks.
翻訳日:2021-03-22 11:20:35 公開日:2021-01-19
# 視覚と運動の手がかりによる物体追跡

Object Tracking by Detection with Visual and Motion Cues ( http://arxiv.org/abs/2101.07549v1 )

ライセンス: Link先を確認
Niels Ole Salscheider(参考訳) 自動運転車や他の自動運転車は、カメラ画像内の物体を検出し追跡する必要がある。 本稿では,カルマンフィルタを用いた定速度運動モデルと割り当てヒューリスティックに基づく単純なオンライントラッキングアルゴリズムを提案する。 割り当てヒューリスティックは、オブジェクトの出現を記述し、それらを再同定するために使用できる埋め込みベクター、2つの連続したビデオフレーム間のオブジェクト移動を記述する変位ベクター、カルマンフィルタ状態と新しい検出との間のマハラノビス距離、クラス距離の4つのメトリクスに依存している。 これらのメトリクスは線形SVMと組み合わせられ、代入問題はハンガリーのアルゴリズムによって解決される。 また,これらの指標を推定する効率的なCNNアーキテクチャを提案する。 マルチフレームモデルは、バックボーン内で個別に処理された2つの連続したビデオフレームを受け入れ、得られた特徴マップに基づいて光フローを推定する。 これにより、ネットワークヘッドは変位ベクトルを推定できる。 BDD100K追跡データセットの課題に対するアプローチを評価する。 マルチフレームモデルでは,MOTP において 0.206 の低いローカライゼーション誤差で 39.1% のMOTA値が得られる。 我々の高速単一フレームモデルはMOTPの0.202のローカライゼーション誤差と36.8%のMOTA値を達成する。

Self-driving cars and other autonomous vehicles need to detect and track objects in camera images. We present a simple online tracking algorithm that is based on a constant velocity motion model with a Kalman filter, and an assignment heuristic. The assignment heuristic relies on four metrics: An embedding vector that describes the appearance of objects and can be used to re-identify them, a displacement vector that describes the object movement between two consecutive video frames, the Mahalanobis distance between the Kalman filter states and the new detections, and a class distance. These metrics are combined with a linear SVM, and then the assignment problem is solved by the Hungarian algorithm. We also propose an efficient CNN architecture that estimates these metrics. Our multi-frame model accepts two consecutive video frames which are processed individually in the backbone, and then optical flow is estimated on the resulting feature maps. This allows the network heads to estimate the displacement vectors. We evaluate our approach on the challenging BDD100K tracking dataset. Our multi-frame model achieves a good MOTA value of 39.1% with low localization error of 0.206 in MOTP. Our fast single-frame model achieves an even lower localization error of 0.202 in MOTP, and a MOTA value of 36.8%.
翻訳日:2021-03-22 11:20:17 公開日:2021-01-19
# jigsawgan: 生成的逆ネットワークを用いたジグソーパズルの自己教師付き学習

JigsawGAN: Self-supervised Learning for Solving Jigsaw Puzzles with Generative Adversarial Networks ( http://arxiv.org/abs/2101.07555v1 )

ライセンス: Link先を確認
Ru Li, Shuaicheng Liu, Guangfu Wang, Guanghui Liu and Bing Zeng(参考訳) 本稿では,ジグソーパズルを解くためのGAN(Generative Adversarial Network)に基づく解を提案する。 問題は、画像が等しい正方形に切断され、断片情報に従って画像の復元を求めることである。 従来のジグソーソルバは、重要な意味情報を無視する部分境界に基づいて断片関係を決定することが多い。 本稿では,未ペア画像によるジグソーパズルの解法であるJigsawGANを提案する。 我々は,(1)ジグソー置換を分類する分類分岐,(2)正しい順序で画像の特徴を復元するGAN分岐を含むマルチタスクパイプラインを設計する。 分類枝は、シャッフル片に応じて生成された擬似ラベルによって制約される。 GANブランチは、生成者が自然な画像を生成して再組み立てされた断片で識別器を騙す画像意味情報に集中し、一方、識別器は、所定の画像が合成された又は実際のターゲット多様体に属するか否かを識別する。 これら2つの分岐は、分類結果に従って正しい順序にワープ特徴を適用するフローベースワープによって接続される。 提案手法は,意味情報とエッジ情報の両方を同時に利用することで,より効率的にジグソーパズルを解くことができる。 いくつかの先行手法と比較して定性的かつ定量的な比較は,本手法の優位性を示している。

The paper proposes a solution based on Generative Adversarial Network (GAN) for solving jigsaw puzzles. The problem assumes that an image is cut into equal square pieces, and asks to recover the image according to pieces information. Conventional jigsaw solvers often determine piece relationships based on the piece boundaries, which ignore the important semantic information. In this paper, we propose JigsawGAN, a GAN-based self-supervised method for solving jigsaw puzzles with unpaired images (with no prior knowledge of the initial images). We design a multi-task pipeline that includes, (1) a classification branch to classify jigsaw permutations, and (2) a GAN branch to recover features to images with correct orders. The classification branch is constrained by the pseudo-labels generated according to the shuffled pieces. The GAN branch concentrates on the image semantic information, among which the generator produces the natural images to fool the discriminator with reassembled pieces, while the discriminator distinguishes whether a given image belongs to the synthesized or the real target manifold. These two branches are connected by a flow-based warp that is applied to warp features to correct order according to the classification results. The proposed method can solve jigsaw puzzles more efficiently by utilizing both semantic information and edge information simultaneously. Qualitative and quantitative comparisons against several leading prior methods demonstrate the superiority of our method.
翻訳日:2021-03-22 11:19:57 公開日:2021-01-19
# 多段階機械学習による物体検出性能の向上

An Improvement of Object Detection Performance using Multi-step Machine Learnings ( http://arxiv.org/abs/2101.07571v1 )

ライセンス: Link先を確認
Tomoe Kishimoto, Masahiko Saito, Junichi Tanaka, Yutaro Iiyama, Ryu Sawada and Koji Terashi(参考訳) 複数の機械学習モデルをパイプラインに接続することは、複雑な問題に対処するのに有効である。 問題をステップに分割することで、それぞれがパイプラインの特定のコンポーネントモデルに取り組まれ、全体的なソリューションを正確かつ説明可能である。 本稿では,キャリブレーションモデルと呼ばれる後処理ステップを導入するマルチステップ概念に基づく物体検出の強化について述べる。 キャリブレーションモデルは畳み込みニューラルネットワークで構成され、入力のドメイン知識に基づいてリッチなコンテキスト情報を利用する。 既存の物体検出器よりも平均精度の0.8-1.9倍の物体検出性能の向上が観測されている。

Connecting multiple machine learning models into a pipeline is effective for handling complex problems. By breaking down the problem into steps, each tackled by a specific component model of the pipeline, the overall solution can be made accurate and explainable. This paper describes an enhancement of object detection based on this multi-step concept, where a post-processing step called the calibration model is introduced. The calibration model consists of a convolutional neural network, and utilizes rich contextual information based on the domain knowledge of the input. Improvements of object detection performance by 0.8-1.9 in average precision metric over existing object detectors have been observed using the new model.
翻訳日:2021-03-22 11:19:36 公開日:2021-01-19
# スペクトル混合と不均一データセットを用いたハイパースペクトル画像の超解像

Hyperspectral Image Super-Resolution with Spectral Mixup and Heterogeneous Datasets ( http://arxiv.org/abs/2101.07589v1 )

ライセンス: Link先を確認
Ke Li, Dengxin Dai, Ender Konukoglu, Luc Van Gool(参考訳) 本研究はハイパースペクトル画像(HSI)超解像(SR)の研究である。 HSI SRは高次元データと限られたトレーニング例によって特徴づけられる。 これにより、記憶や分散サンプルに対する感受性など、ニューラルネットワークの望ましくない振る舞いが悪化する。 この仕事は3つの貢献でこれらの問題に対処する。 まず,実効的な仮想トレーニングサンプルを構築するための簡易かつ効果的なデータ拡張ルーチンであるSpectral Mixupを提案する。 第2に,HSI SR と RGB 画像 SR が相関関係にあることを観測し,補助タスク RGB 画像 SR が追加の監督を提供するように,それらを共同で訓練するための新しいマルチタスクネットワークを開発する。 最後に、低解像度のHSIを含むデータセットからのみ学習できるように、ネットワークを半教師付き設定に拡張する。 これらの貢献により,ヘテロジニアスなデータセットから学習し,大量のhd hsiトレーニングサンプルを持つことの必要性を解消できる。 4つのデータセットに関する広範囲な実験により,提案手法が既存の手法を大幅に上回っており,貢献の妥当性が示唆された。 この作業のコードはまもなくリリースされる予定だ。

This work studies Hyperspectral image (HSI) super-resolution (SR). HSI SR is characterized by high-dimensional data and a limited amount of training examples. This exacerbates the undesirable behaviors of neural networks such as memorization and sensitivity to out-of-distribution samples. This work addresses these issues with three contributions. First, we propose a simple, yet effective data augmentation routine, termed Spectral Mixup, to construct effective virtual training samples. Second, we observe that HSI SR and RGB image SR are correlated and develop a novel multi-tasking network to train them jointly so that the auxiliary task RGB image SR can provide additional supervision. Finally, we extend the network to a semi-supervised setting so that it can learn from datasets containing low-resolution HSIs only. With these contributions, our method is able to learn from heterogeneous datasets and lift the requirement for having a large amount of HD HSI training samples. Extensive experiments on four datasets show that our method outperforms existing methods significantly and underpin the relevance of our contributions. The code of this work will be released soon.
翻訳日:2021-03-22 11:19:28 公開日:2021-01-19
# 3次元形状検索と変形の連成学習

Joint Learning of 3D Shape Retrieval and Deformation ( http://arxiv.org/abs/2101.07889v1 )

ライセンス: Link先を確認
Mikaela Angelina Uy, Vladimir G. Kim, Minhyuk Sung, Noam Aigerman, Siddhartha Chaudhuri, Leonidas Guibas(参考訳) 対象画像やスキャンと一致する高品質な3dモデルを作成するための新しい手法を提案する。 本手法は,既存の形状を3dモデルデータベースから検索し,その形状に適合するように変形する手法である。 形状検索や変形に独自に焦点をあてた従来のアプローチとは異なり,ニューラルネットワークの変形モジュールと,検索モジュールが使用する埋め込み空間を同時に学習する合同学習手順を提案する。 これにより,ネットワークは変形を認識できる埋め込み空間を学習できるため,取得したモデルが適切な変形の後にターゲットにマッチする可能性が高まる。 実際、埋め込み空間を使って変形モジュールのトレーニングに使用される形状ペアをガイドし、意味のある形状ペア間の変形を学習する能力に投資します。 さらに, 新たに開発した部分認識変形モジュールは, ソース形状の非整合かつ多様な部分構造で動作する。 近年提案されている新しい枠組みだけでなく, 最先端の神経変形モジュールについても, 共同訓練の利点を実証する。 最後に, ニューラル変形や事前学習した変形モジュールに代えて, 直接最適化した2段階の変形認識検索よりも優れることを示す。

We propose a novel technique for producing high-quality 3D models that match a given target object image or scan. Our method is based on retrieving an existing shape from a database of 3D models and then deforming its parts to match the target shape. Unlike previous approaches that independently focus on either shape retrieval or deformation, we propose a joint learning procedure that simultaneously trains the neural deformation module along with the embedding space used by the retrieval module. This enables our network to learn a deformation-aware embedding space, so that retrieved models are more amenable to match the target after an appropriate deformation. In fact, we use the embedding space to guide the shape pairs used to train the deformation module, so that it invests its capacity in learning deformations between meaningful shape pairs. Furthermore, our novel part-aware deformation module can work with inconsistent and diverse part-structures on the source shapes. We demonstrate the benefits of our joint training not only on our novel framework, but also on other state-of-the-art neural deformation modules proposed in recent years. Lastly, we also show that our jointly-trained method outperforms a two-step deformation-aware retrieval that uses direct optimization instead of neural deformation or a pre-trained deformation module.
翻訳日:2021-03-22 11:19:09 公開日:2021-01-19
# オープンセットセミスーパーバイザラーニングのための一貫性トレーニングについて

On The Consistency Training for Open-Set Semi-Supervised Learning ( http://arxiv.org/abs/2101.08237v1 )

ライセンス: Link先を確認
Huixiang Luo, Hao Cheng, Yuting Gao, Ke Li, Mengdan Zhang, Fanxu Meng, Xiaowei Guo, Feiyue Huang, Xing Sun(参考訳) 従来の半教師付き学習(SSL)手法、例えばMixMatchは、ラベル付きデータセットとラベルなしデータセットの両方が同じディストリビューションから引き出される場合、優れたパフォーマンスを達成する。 しかしながら、これらの手法は、ラベルなしデータセットが配布外サンプル(OOD)を含む、より現実的な環境での厳しいパフォーマンス劣化に悩まされることが多い。 最近のアプローチは、ラベルのないデータからそれらをフィルタリングすることで、oodサンプルのネガティブな影響を軽減する。 本研究は,OODサンプルをトレーニング中に除去する必要がないことを示す。 逆に、OODサンプルを適切に利用すれば、ネットワークの恩恵を受けることができる。 低次元空間と高次元空間の両方においてOODサンプルがDNNトレーニングにどのように影響するかを徹底的に研究し、Pseudo Labeling(PL)とData Augmentation based Consistency Training(DACT)の2つの基本的なSSL手法を検討する。 結論は2つある: (1) 性能劣化に苦しむPLとは異なり、DACTはモデル性能に改善をもたらし、(2) 改善はラベル付きデータセットとラベルなしデータセットの間のクラス単位の分散ギャップと密接に関連している。 この観察により,ラベル付きデータセットとラベルなしデータセット(OODサンプルを含む)のギャップを埋めることで,モデル性能をさらに向上する。 従来のアルゴリズムと比較してIDとODサンプルの区別に多くの注意を払っているのに対し,本手法はOODサンプルをよりよく利用し,最先端の結果が得られる。

Conventional semi-supervised learning (SSL) methods, e.g., MixMatch, achieve great performance when both labeled and unlabeled dataset are drawn from the same distribution. However, these methods often suffer severe performance degradation in a more realistic setting, where unlabeled dataset contains out-of-distribution (OOD) samples. Recent approaches mitigate the negative influence of OOD samples by filtering them out from the unlabeled data. Our studies show that it is not necessary to get rid of OOD samples during training. On the contrary, the network can benefit from them if OOD samples are properly utilized. We thoroughly study how OOD samples affect DNN training in both low- and high-dimensional spaces, where two fundamental SSL methods are considered: Pseudo Labeling (PL) and Data Augmentation based Consistency Training (DACT). Conclusion is twofold: (1) unlike PL that suffers performance degradation, DACT brings improvement to model performance; (2) the improvement is closely related to class-wise distribution gap between the labeled and the unlabeled dataset. Motivated by this observation, we further improve the model performance by bridging the gap between the labeled and the unlabeled datasets (containing OOD samples). Compared to previous algorithms paying much attention to distinguishing between ID and OOD samples, our method makes better use of OOD samples and achieves state-of-the-art results.
翻訳日:2021-03-22 11:18:49 公開日:2021-01-19
# 自己整合生成ネットワークによるディープビュー合成

Deep View Synthesis via Self-Consistent Generative Network ( http://arxiv.org/abs/2101.10844v1 )

ライセンス: Link先を確認
Zhuoman Liu, Wei Jia, Ming Yang, Peiyao Luo, Yong Guo, and Mingkui Tan(参考訳) ビュー合成は、2つ以上のカメラが異なる位置で捉えた一連のビューから目に見えないビューを生成することを目的としている。 異なるビュー間でピクセルレベルのマッチングを行うのは難しいため、このタスクは簡単ではない。 この問題に対処するために、既存の手法の多くは、ピクセルにマッチする幾何学的情報を活用しようとする。 しかし、異なるカメラが大きなベースラインを持つ場合(すなわち、互いに遠く離れた)、厳密な幾何学的歪みの問題が起こり、幾何学的情報が有用なガイダンスを与えられないため、非常にぼやけた合成画像が得られる。 以上の課題に対処するため,本稿では,幾何学的情報を明示的に活用することなく,与えられた入力ビューから新規なビューを合成する,自己一貫性生成ネットワーク(SCGN)と呼ばれる新しい深層生成モデルを提案する。 提案したSCGNモデルは、ビュー合成ネットワーク(VSN)とビュー分解ネットワーク(VDN)の2つの主要コンポーネントから構成され、どちらもエンコーダ-デコーダ構造を採用している。 ここで、VDNは、合成された新しいビューから入力ビューを再構築し、ビュー合成の一貫性を維持する。 vdnのおかげで、scgnはエンコードする前に幾何学的修正を使わずに新しいビューを合成できるため、トレーニングとアプリケーションの両方が容易になる。 最後に、新たなビューのフォトリアリズムを改善するために、敵対的損失が導入される。 2つのベンチマークタスクにおけるいくつかの最先端手法に対する定性的および定量的比較は、我々のアプローチの優位性を示した。

View synthesis aims to produce unseen views from a set of views captured by two or more cameras at different positions. This task is non-trivial since it is hard to conduct pixel-level matching among different views. To address this issue, most existing methods seek to exploit the geometric information to match pixels. However, when the distinct cameras have a large baseline (i.e., far away from each other), severe geometry distortion issues would occur and the geometric information may fail to provide useful guidance, resulting in very blurry synthesized images. To address the above issues, in this paper, we propose a novel deep generative model, called Self-Consistent Generative Network (SCGN), which synthesizes novel views from the given input views without explicitly exploiting the geometric information. The proposed SCGN model consists of two main components, i.e., a View Synthesis Network (VSN) and a View Decomposition Network (VDN), both employing an Encoder-Decoder structure. Here, the VDN seeks to reconstruct input views from the synthesized novel view to preserve the consistency of view synthesis. Thanks to VDN, SCGN is able to synthesize novel views without using any geometric rectification before encoding, making it easier for both training and applications. Finally, adversarial loss is introduced to improve the photo-realism of novel views. Both qualitative and quantitative comparisons against several state-of-the-art methods on two benchmark tasks demonstrated the superiority of our approach.
翻訳日:2021-03-22 11:18:22 公開日:2021-01-19
# 会話パス検索における質問書き直し手法の比較

A Comparison of Question Rewriting Methods for Conversational Passage Retrieval ( http://arxiv.org/abs/2101.07382v1 )

ライセンス: Link先を確認
Svitlana Vakulenko, Nikos Voskarides, Zhucheng Tu, Shayne Longpre(参考訳) 会話文の検索は、元の質問を書き換えて変更することで、もはや会話履歴に依存しないようにする。 いくつかの質問書き直し手法が最近提案されているが、異なる探索パイプラインで比較された。 このギャップを、TREC CAsT 2019と2020データセットの質問書き直し方法を、同じ検索パイプラインで徹底的に評価することで埋める。 質問書換え手法の違いが検索性能に及ぼす影響を分析し,質問書換え手法を組み合わせることで,両者のデータセットにおいて最先端の性能が得られることを示す。

Conversational passage retrieval relies on question rewriting to modify the original question so that it no longer depends on the conversation history. Several methods for question rewriting have recently been proposed, but they were compared under different retrieval pipelines. We bridge this gap by thoroughly evaluating those question rewriting methods on the TREC CAsT 2019 and 2020 datasets under the same retrieval pipeline. We analyze the effect of different types of question rewriting methods on retrieval performance and show that by combining question rewriting methods of different types we can achieve state-of-the-art performance on both datasets.
翻訳日:2021-03-22 11:17:59 公開日:2021-01-19
# オンラインメンタルヘルス支援における共感的会話の実現に向けて:強化学習アプローチ

Towards Facilitating Empathic Conversations in Online Mental Health Support: A Reinforcement Learning Approach ( http://arxiv.org/abs/2101.07714v1 )

ライセンス: Link先を確認
Ashish Sharma, Inna W. Lin, Adam S. Miner, David C. Atkins, Tim Althoff(参考訳) オンラインピアツーピアサポートプラットフォームは、メンタルヘルスのサポートを求め、提供する数百万人の人々間の会話を可能にする。 成功すれば、Webベースのメンタルヘルスの会話は治療へのアクセスを改善し、世界的な病気の負担を減らすことができる。 心理学者は、共感、他者の感情や経験を理解し、感じる能力が、支援的な会話においてポジティブな結果をもたらす重要な要素であることを繰り返し示してきた。 しかし、最近の研究では、オンラインのメンタルヘルスプラットフォームでは、共感的な会話はまれである。 本稿では,オンラインのメンタルヘルス支援会話における共感向上に向けた研究を行う。 低共感の会話投稿をより高い共感に変換することを目的とした新しい共感的書き直しタスクを導入する。 このようなトランスフォーメーションの学習は困難であり、会話の質を維持しながら、会話の文脈に対する文流と特異性を通じて共感を深く理解する必要がある。 本稿では,会話の質を維持しつつ,共感の表現レベルを高めるために,文章レベルの編集をポストに行う深層強化学習エージェントPartnerを提案する。 このrlエージェントは,gpt-2から適応したトランスフォーマー言語モデルに基づくポリシーネットワークを利用して,候補共感文を生成し,適切な位置にこれらの文を付加する2つのタスクを行う。 トレーニング中は、テキストの流布、コンテキストの特異性、多様性を維持しながら、投稿に対する共感を高める変換に報いる。 自動評価と人的評価の組み合わせにより、PartinERはより共感的で特異で多様な応答を生成し、スタイル転送や共感的対話生成といった関連するタスクからNLPメソッドより優れていることを示す。 当社の作業は,Webプラットフォーム上での共感的会話の促進に直接的な意味を持っている。

Online peer-to-peer support platforms enable conversations between millions of people who seek and provide mental health support. If successful, web-based mental health conversations could improve access to treatment and reduce the global disease burden. Psychologists have repeatedly demonstrated that empathy, the ability to understand and feel the emotions and experiences of others, is a key component leading to positive outcomes in supportive conversations. However, recent studies have shown that highly empathic conversations are rare in online mental health platforms. In this paper, we work towards improving empathy in online mental health support conversations. We introduce a new task of empathic rewriting which aims to transform low-empathy conversational posts to higher empathy. Learning such transformations is challenging and requires a deep understanding of empathy while maintaining conversation quality through text fluency and specificity to the conversational context. Here we propose PARTNER, a deep reinforcement learning agent that learns to make sentence-level edits to posts in order to increase the expressed level of empathy while maintaining conversation quality. Our RL agent leverages a policy network, based on a transformer language model adapted from GPT-2, which performs the dual task of generating candidate empathic sentences and adding those sentences at appropriate positions. During training, we reward transformations that increase empathy in posts while maintaining text fluency, context specificity and diversity. Through a combination of automatic and human evaluation, we demonstrate that PARTNER successfully generates more empathic, specific, and diverse responses and outperforms NLP methods from related tasks like style transfer and empathic dialogue generation. Our work has direct implications for facilitating empathic conversations on web-based platforms.
翻訳日:2021-03-22 11:17:48 公開日:2021-01-19
# 微分プライベート学習における動的雑音の影響について

On Dynamic Noise Influence in Differentially Private Learning ( http://arxiv.org/abs/2101.07413v1 )

ライセンス: Link先を確認
Junyuan Hong and Zhangyang Wang and Jiayu Zhou(参考訳) モデルパフォーマンスを維持しながら学習におけるプライバシを保護することは、機密データを含む多くのアプリケーションでますます重要になっている。 private gradient descent (pgd) は、差分プライバシープロトコルに基づいて勾配をノイズとする、一般的なプライベート学習フレームワークである。 最近の研究では、ノイズの大きさを小さくする \emph{dynamic privacy schedules} は最終イテレーションでの損失を改善できるが、そのようなスケジュールの有効性と最適化アルゴリズムとの関係に関する理論的理解は限られている。 本稿では,これらの重要な質問に答えるために,動的プライバシスケジュールにおけるノイズの影響を包括的に分析する。 まず、PGDの実用上界を最小化する動的ノイズスケジュールを示し、各最適化ステップからのノイズの影響が最終モデルの実用性にどのように影響するかを示す。 また,運動量を用いた場合の動的騒音の影響も明らかにした。 一般の非凸損失に対する接続の存在を実証的に示し、その影響は損失曲率に大きく影響している。

Protecting privacy in learning while maintaining the model performance has become increasingly critical in many applications that involve sensitive data. Private Gradient Descent (PGD) is a commonly used private learning framework, which noises gradients based on the Differential Privacy protocol. Recent studies show that \emph{dynamic privacy schedules} of decreasing noise magnitudes can improve loss at the final iteration, and yet theoretical understandings of the effectiveness of such schedules and their connections to optimization algorithms remain limited. In this paper, we provide comprehensive analysis of noise influence in dynamic privacy schedules to answer these critical questions. We first present a dynamic noise schedule minimizing the utility upper bound of PGD, and show how the noise influence from each optimization step collectively impacts utility of the final model. Our study also reveals how impacts from dynamic noise influence change when momentum is used. We empirically show the connection exists for general non-convex losses, and the influence is greatly impacted by the loss curvature.
翻訳日:2021-03-22 11:17:21 公開日:2021-01-19
# PeerGAN: 競合するピア判別器を持つ生成的敵対ネットワーク

PeerGAN: Generative Adversarial Networks with a Competing Peer Discriminator ( http://arxiv.org/abs/2101.07524v1 )

ライセンス: Link先を確認
Jiaheng Wei, Minghao Liu, Jiahao Luo, Qiutong Li, James Davis, and Yang Liu(参考訳) 本稿では,生成したサンプルの安定性向上とモード崩壊の軽減を目的として,gan (generative adversarial network) ソリューションであるpeerganを提案する。 判別器の$D_1$とジェネレータの$G$の2人プレイヤゲームに基づいて、min-maxゲームに$D_2$のピアディミネーターを導入する。 2つの識別器を使った以前の研究と同様に、$D_1$と$D_2$の両方の役割は生成されたサンプルと実際のサンプルを区別することであり、ジェネレータは両方の識別器を騙すことができる高品質なサンプルを生成しようとする。 既存の方法とは異なり、d_1$ と $d_2$ の間の別のゲームを導入することで、それらの合意を阻止し、生成されたサンプルの多様性のレベルを増加させる。 この特性は、$d_1$と$d_2$が収束しすぎることを防ぎ、早期モードの崩壊を避けるのに役立つ。 我々は,$g,d_1,d_2$で形成されたmin-maxゲームの平衡に関する理論的解析を行う。 我々は PeerGAN の収束挙動と min-max ゲームの安定性を提供する。 PeerGANは教師なしの環境で動作しており、$D_1$と$D_2$の間の追加のゲームにはラベルの監督は必要ない。 合成データセットと実世界の画像データセット(MNIST, Fashion MNIST, CIFAR-10, STL-10, CelebA, VGG)による実験の結果, PeerGANは多種多様な高品質なサンプルの生成において競争ベースラインよりも優れており, 計算コストは無視できないことがわかった。

In this paper, we introduce PeerGAN, a generative adversarial network (GAN) solution to improve the stability of the generated samples and to mitigate mode collapse. Built upon the Vanilla GAN's two-player game between the discriminator $D_1$ and the generator $G$, we introduce a peer discriminator $D_2$ to the min-max game. Similar to previous work using two discriminators, the first role of both $D_1$, $D_2$ is to distinguish between generated samples and real ones, while the generator tries to generate high-quality samples that are able to fool both discriminators. Different from existing methods, we introduce another game between $D_1$ and $D_2$ to discourage their agreement and therefore increase the level of diversity of the generated samples. This property helps avoid early mode collapse by preventing $D_1$ and $D_2$ from converging too fast. We provide theoretical analysis for the equilibrium of the min-max game formed among $G, D_1, D_2$. We offer convergence behavior of PeerGAN as well as stability of the min-max game. It's worth mentioning that PeerGAN operates in the unsupervised setting, and the additional game between $D_1$ and $D_2$ does not need any label supervision. Experiments results on a synthetic dataset and on real-world image datasets (MNIST, Fashion MNIST, CIFAR-10, STL-10, CelebA, VGG) demonstrate that PeerGAN outperforms competitive baseline work in generating diverse and high-quality samples, while only introduces negligible computation cost.
翻訳日:2021-03-22 11:17:04 公開日:2021-01-19
# 入院患者の経時的劣化予測

Continual Deterioration Prediction for Hospitalized COVID-19 Patients ( http://arxiv.org/abs/2101.07581v1 )

ライセンス: Link先を確認
Jiacheng Liu, Meghna Singh, Catherine ST.Hill, Vino Raj, Lisa Kirkland, Jaideep Srivastava(参考訳) 2020年8月までに、新型コロナウイルス(COVID-19)は世界のほぼすべての国に広がり、何百万人もの感染者と数十万人の死者を出した。 本稿では,臨床変数がcovid-19の予後に時間的変動をもたらすという仮定を最初に検証する。 そこで我々は,病院滞在終了時の患者結果の日次予測を行うための時間的階層化アプローチを開発した。 トレーニングデータは、患者の全体的な状態のプロキシである残りの滞在期間によってセグメント化される。 これに基づいて、各時間セグメント毎に1つの予測モデルが構築される。 公開データのおかげで、プロトタイプモデルの構築と評価が可能になりました。 予備実験では、0.98 AUROC、0.91 F1スコア、0.97 AUPRの連続劣化予測が示され、モデルの発展と異なるデータセットの検証が促進された。 また、我々の手法を動機づける重要な仮定を検証する。 臨床変数は、COVID-19の結果に時間的に影響する可能性がある。 つまり、予測モデルにおける変数の特徴の重要性は、病気の段階によって異なる。

Leading up to August 2020, COVID-19 has spread to almost every country in the world, causing millions of infected and hundreds of thousands of deaths. In this paper, we first verify the assumption that clinical variables could have time-varying effects on COVID-19 outcomes. Then, we develop a temporal stratification approach to make daily predictions on patients' outcome at the end of hospital stay. Training data is segmented by the remaining length of stay, which is a proxy for the patient's overall condition. Based on this, a sequence of predictive models are built, one for each time segment. Thanks to the publicly shared data, we were able to build and evaluate prototype models. Preliminary experiments show 0.98 AUROC, 0.91 F1 score and 0.97 AUPR on continuous deterioration prediction, encouraging further development of the model as well as validations on different datasets. We also verify the key assumption which motivates our method. Clinical variables could have time-varying effects on COVID-19 outcomes. That is to say, the feature importance of a variable in the predictive model varies at different disease stages.
翻訳日:2021-03-22 11:16:33 公開日:2021-01-19
# ディープカーネルサロゲートを用いたFew-Shot Bayesian Optimization

Few-Shot Bayesian Optimization with Deep Kernel Surrogates ( http://arxiv.org/abs/2101.07667v1 )

ライセンス: Link先を確認
Martin Wistuba and Josif Grabocka(参考訳) ハイパーパラメータ最適化(HPO)は、機械学習ソリューションの自動化における中心的な柱であり、主にベイズ最適化によって行われる。 検証エラー)。 残念ながら、応答関数の評価は計算量が多い。 以前の研究では、他のタスクからアルゴリズムのハイパーパラメータを最適化することを学ぶトランスファーラーニングサロゲートの必要性を強調していた。 従来の研究とは対照的に,我々はHPOを,新しいタスクの応答関数に迅速に適応する(応答評価がほとんどない)共有深層代理モデルを訓練する,数発の学習問題として再考することを提案する。 本稿では,トレーニングデータセットの集合の応答関数を協調的に近似するために,エンドツーエンドでメタ学習されるガウスプロセスサロゲートに対するディープカーネルネットワークの利用を提案する。 その結果, 深層カーネルサロゲートの新規な数ショット最適化は, 多様なメタデータセットに関する最近の手法と比較して, HPOにおける新しい最先端結果をもたらすことがわかった。

Hyperparameter optimization (HPO) is a central pillar in the automation of machine learning solutions and is mainly performed via Bayesian optimization, where a parametric surrogate is learned to approximate the black box response function (e.g. validation error). Unfortunately, evaluating the response function is computationally intensive. As a remedy, earlier work emphasizes the need for transfer learning surrogates which learn to optimize hyperparameters for an algorithm from other tasks. In contrast to previous work, we propose to rethink HPO as a few-shot learning problem in which we train a shared deep surrogate model to quickly adapt (with few response evaluations) to the response function of a new task. We propose the use of a deep kernel network for a Gaussian process surrogate that is meta-learned in an end-to-end fashion in order to jointly approximate the response functions of a collection of training data sets. As a result, the novel few-shot optimization of our deep kernel surrogate leads to new state-of-the-art results at HPO compared to several recent methods on diverse metadata sets.
翻訳日:2021-03-22 11:16:15 公開日:2021-01-19
# アテンション残差畳み込みニューラルネットワークによる画像認識

Image Denoising using Attention-Residual Convolutional Neural Networks ( http://arxiv.org/abs/2101.07713v1 )

ライセンス: Link先を確認
Rafael G. Pires, Daniel F. S. Santos, Marcos C.S. Santana, Claudio F.G. Santos, Joao P. Papa(参考訳) 画像取得の過程では、取得センサの物理的制約や、データ転送や操作における不正確さなどにより、通常、ノイズがデータに追加される。 その意味では、結果のイメージを処理して、詳細を失うことなくノイズを減衰させる必要がある。 フィルタベースやノイズ先行モデリングといった非学習型戦略が,画像の雑音化問題を解決するために採用されている。 今日では、Residual Convolutional Neural Networksなど、学習ベースのDenoisingテクニックの方が、はるかに効果的で柔軟なアプローチであることが示されている。 本稿では,学習に基づく新たな非盲検手法であるAttention Residual Convolutional Neural Network (ARCNN)を提案し,その拡張としてFlexible Attention Residual Convolutional Neural Network (FARCNN)を提案する。 提案手法は,アテンション・残留機構を用いて基礎となる騒音予測を学習する。 ガウスノイズとポアソンノイズのレベルが異なっていたパブリックデータセットの実験は、いくつかの最先端画像デノイジング手法に対する提案手法の有効性を裏付けるものである。 ARCNNはガウス語とポアソン語で約0.44dBと0.96dBの平均PSNR結果を達成し、FARCNNはARCNNに比べて若干パフォーマンスが悪くても非常に一貫した結果を示した。

During the image acquisition process, noise is usually added to the data mainly due to physical limitations of the acquisition sensor, and also regarding imprecisions during the data transmission and manipulation. In that sense, the resultant image needs to be processed to attenuate its noise without losing details. Non-learning-based strategies such as filter-based and noise prior modeling have been adopted to solve the image denoising problem. Nowadays, learning-based denoising techniques showed to be much more effective and flexible approaches, such as Residual Convolutional Neural Networks. Here, we propose a new learning-based non-blind denoising technique named Attention Residual Convolutional Neural Network (ARCNN), and its extension to blind denoising named Flexible Attention Residual Convolutional Neural Network (FARCNN). The proposed methods try to learn the underlying noise expectation using an Attention-Residual mechanism. Experiments on public datasets corrupted by different levels of Gaussian and Poisson noise support the effectiveness of the proposed approaches against some state-of-the-art image denoising methods. ARCNN achieved an overall average PSNR results of around 0.44dB and 0.96dB for Gaussian and Poisson denoising, respectively FARCNN presented very consistent results, even with slightly worsen performance compared to ARCNN.
翻訳日:2021-03-22 11:15:57 公開日:2021-01-19
# 新型コロナウイルスの機械学習応用:最先端のレビュー

Machine learning applications for COVID-19: A state-of-the-art review ( http://arxiv.org/abs/2101.07824v1 )

ライセンス: Link先を確認
Firuz Kamalov, Aswani Cherukuri, Hana Sulieman, Fadi Thabtah, Akbar Hossain(参考訳) 新型コロナウイルス(COVID-19)のパンデミックにより、機械学習コミュニティは、新型コロナウイルスとの戦いに役立つ新しいソリューションを創りだした。 機械学習と人工知能の新型コロナウイルスへの応用に関する文学の分野は、常に成長している。 本稿の目標は、新型コロナウイルス(covid-19)に適用される機械学習研究の最新の進歩を紹介することである。 我々は、予測、診断、薬物開発、接触追跡の4つの研究分野をカバーしている。 我々は,最も成功した美術研究の状況をレビューし,分析する。 本論文は,本研究の他の既存調査とは対照的に,本研究の概観を概観し,インフォメーション・インフォメーションを提供するのに十分な詳細を述べる。

The COVID-19 pandemic has galvanized the machine learning community to create new solutions that can help in the fight against the virus. The body of literature related to applications of machine learning and artificial intelligence to COVID-19 is constantly growing. The goal of this article is to present the latest advances in machine learning research applied to COVID-19. We cover four major areas of research: forecasting, medical diagnostics, drug development, and contact tracing. We review and analyze the most successful state of the art studies. In contrast to other existing surveys on the subject, our article presents a high level overview of the current research that is sufficiently detailed to provide an informed insight.
翻訳日:2021-03-22 11:15:33 公開日:2021-01-19
# ロボットのダイナミクスと環境変化における適応モータ制御のためのメタ強化学習

Meta-Reinforcement Learning for Adaptive Motor Control in Changing Robot Dynamics and Environments ( http://arxiv.org/abs/2101.07599v1 )

ライセンス: Link先を確認
Timoth\'ee Anne, Jack Wilkinson, Zhibin Li(参考訳) この研究は、ロバストな移動のための異なる条件に制御ポリシーを適応させるメタラーニングアプローチを開発した。 提案手法は, 相互作用モデルを常に更新し, 状態-作用軌道の推定可能な行動列をサンプリングし, 報酬を最大化するために最適な行動を適用する。 オンラインモデル適応を実現するために,提案手法では,新たに収集したデータからオンラインに選択したトレーニング条件の潜在ベクトルを学習する。 本研究は,適切な状態空間と報酬関数を設計し,mpc方式で実現可能な動作を最適化し,制約を考慮したジョイント空間内で直接サンプリングすることにより,特定の歩行歩行の事前設計を必要としない。 さらに,インタラクション中に予期せぬ変化を検知し,制御方針を迅速に適応するロボットの能力を示す。 物理シミュレーションにおけるspotmicroロボットの広範な検証は、様々な摩擦、外部の押圧、およびハードウェアの故障や変化を含む異なるロボットモデルの下で適応的でロコモーションスキルを示す。

This work developed a meta-learning approach that adapts the control policy on the fly to different changing conditions for robust locomotion. The proposed method constantly updates the interaction model, samples feasible sequences of actions of estimated the state-action trajectories, and then applies the optimal actions to maximize the reward. To achieve online model adaptation, our proposed method learns different latent vectors of each training condition, which are selected online given the newly collected data. Our work designs appropriate state space and reward functions, and optimizes feasible actions in an MPC fashion which are then sampled directly in the joint space considering constraints, hence requiring no prior design of specific walking gaits. We further demonstrate the robot's capability of detecting unexpected changes during interaction and adapting control policies quickly. The extensive validation on the SpotMicro robot in a physics simulation shows adaptive and robust locomotion skills under varying ground friction, external pushes, and different robot models including hardware faults and changes.
翻訳日:2021-03-22 11:15:23 公開日:2021-01-19
# 非重み付き単純ゲームのトレーディング変換と重み付き単純ゲームの整数重み付け

Trading Transforms of Non-weighted Simple Games and Integer Weights of Weighted Simple Games ( http://arxiv.org/abs/2101.07621v1 )

ライセンス: Link先を確認
Akihiro Kawana and Tomomi Matsui(参考訳) 本論文は単純なゲームについて述べる。 単純なゲームに関する基本的な質問の1つは、単純なゲームを重み付けされた多数派ゲームにすることである。 Taylor and Zwicker (1992) は単純ゲームが非重み付きであることと有限サイズのトレーディング変換が存在することを証明した。 彼らはまた、もし存在するならば、そのようなトレーディング変換のサイズに上限を与えた。 Gvozdeva と Slinko (2009) はその上限を改良した。 これらの証明は、Muroga (1971) によって証明された線型不等式の性質を用いる。 与えられた単純なゲームが重み付けされていない場合、トレーディングトランスフォーメーションが存在することの新たな証明を提供する。 我々の証明はFarkasの補題(1894年)を用いており、取引変換のサイズに改善された上限を与える。 また、重み付き単純ゲームの整数重み表現についても論じ、Muroga (1971) によって得られた境界値を改善する。 kurz (2012) によって得られた計算結果に基づいて、プレイヤー数が5人以下であれば、我々の境界はタイトであることを示した。 最後に、我々は最小の勝利連立と最大負け連立があると仮定して整数重み表現を見つける問題を扱う。 ラウンドリング法の性能について論じる。

This paper is concerned with simple games. One of the fundamental questions regarding simple games is that of what makes a simple game a weighted majority game. Taylor and Zwicker (1992) showed that a simple game is non-weighted if and only if there exists a trading transform of finite size. They also provided an upper bound on the size of such a trading transform, if it exists. Gvozdeva and Slinko (2009) improved on that upper bound. Their proof employs a property of linear inequalities demonstrated by Muroga (1971). We provide a new proof of the existence of a trading transform when a given simple game is non-weighted. Our proof employs Farkas' lemma (1894), and yields an improved upper bound on the size of a trading transform. We also discuss an integer weights representation of a weighted simple game, and improve on the bounds obtained by Muroga (1971). We show that our bounds are tight when the number of players is less than or equal to five, based on the computational results obtained by Kurz (2012). Lastly, we deal with the problem of finding an integer weights representation under the assumption that we have minimal winning coalitions and maximal losing coalitions. We discuss a performance of a rounding method.
翻訳日:2021-03-22 11:15:04 公開日:2021-01-19
# 報酬推論における選択集合の誤特定

Choice Set Misspecification in Reward Inference ( http://arxiv.org/abs/2101.07691v1 )

ライセンス: Link先を確認
Rachel Freedman, Rohin Shah and Anca Dragan(参考訳) 自然な報酬信号のない環境で動作しているロボットに対する報酬関数の特定は困難であり、誤って特定された報酬は退行や危険な行動にインセンティブを与える可能性がある。 報酬関数を手動で指定する有望な代替手段は、デモや修正など、ロボットが人間のフィードバックから報酬を推測できるようにすることだ。 このフィードバックを解釈するために、ロボットは、人間が選択セットから選択する、例えば、実証できる軌道のセットや、修正できる可能性など、ほぼ最適なものとして扱う。 本研究では,選択セット自体の特定が困難であり,選択セットの誤特定を解析することを提案する。ロボットが,人間がフィードバックを選択する選択セットについて誤った仮定を行うとき,何が起こるか。 異なる選択セットの誤分類の分類を提案し,これら異なるクラスが推定された報酬と結果のパフォーマンスに有意義な違いをもたらすことを示した。 私たちは通常、誤特定が痛むことを期待するが、ある種の誤特定は役に立たず、有害ではない(期待では)。 しかし、他の状況では、不特定は極めて有害であり、ロボットが信じるべきものと逆のものを信じるようになる。 現実の報酬推論における不特定性の影響に対する予測と応答がより良くなることを期待します。

Specifying reward functions for robots that operate in environments without a natural reward signal can be challenging, and incorrectly specified rewards can incentivise degenerate or dangerous behavior. A promising alternative to manually specifying reward functions is to enable robots to infer them from human feedback, like demonstrations or corrections. To interpret this feedback, robots treat as approximately optimal a choice the person makes from a choice set, like the set of possible trajectories they could have demonstrated or possible corrections they could have made. In this work, we introduce the idea that the choice set itself might be difficult to specify, and analyze choice set misspecification: what happens as the robot makes incorrect assumptions about the set of choices from which the human selects their feedback. We propose a classification of different kinds of choice set misspecification, and show that these different classes lead to meaningful differences in the inferred reward and resulting performance. While we would normally expect misspecification to hurt, we find that certain kinds of misspecification are neither helpful nor harmful (in expectation). However, in other situations, misspecification can be extremely harmful, leading the robot to believe the opposite of what it should believe. We hope our results will allow for better prediction and response to the effects of misspecification in real-world reward inference.
翻訳日:2021-03-22 11:14:45 公開日:2021-01-19
# 肺結節分類における効率的,説明可能,識別的表現の学習

Learning Efficient, Explainable and Discriminative Representations for Pulmonary Nodules Classification ( http://arxiv.org/abs/2101.07429v1 )

ライセンス: Link先を確認
Hanliang Jiang, Fuhao Shen, Fei Gao, Weidong Han(参考訳) 肺癌の早期診断には肺結節の自動分類が重要である。 近年,ディープラーニング技術がこの分野で著しい進歩を遂げている。 しかし、これらの深層モデルは一般に高い計算複雑性を持ち、ブラックボックス方式で機能する。 これらの課題に対処するため、本研究では、効率的かつ(部分的に)説明可能な分類モデルの構築を目指している。 具体的には,NAS(emph{neural architecture search)を用いて3Dネットワークアーキテクチャを自動的に検索する。 さらに、ネットワーク内の畳み込みブロックアテンションモジュール(CBAM)を用いて、推論プロセスの理解を支援する。 訓練中はA-Softmax損失を用いて角識別表現を学習する。 推論段階では、予測精度とロバスト性を改善するために、多様なニューラルネットワークのアンサンブルを用いる。 LIDC-IDRIデータベース上で大規模な実験を行う。 従来の最先端モデルと比較すると、1/40未満のパラメータを用いて高い性能を示す。 さらに、経験的研究は、学習ネットワークの推論過程が医師の診断と一致していることを示している。 関連コードと結果は、https://github.com/f ei-hdu/NAS-Lung.comでリリースされた。

Automatic pulmonary nodules classification is significant for early diagnosis of lung cancers. Recently, deep learning techniques have enabled remarkable progress in this field. However, these deep models are typically of high computational complexity and work in a black-box manner. To combat these challenges, in this work, we aim to build an efficient and (partially) explainable classification model. Specially, we use \emph{neural architecture search} (NAS) to automatically search 3D network architectures with excellent accuracy/speed trade-off. Besides, we use the convolutional block attention module (CBAM) in the networks, which helps us understand the reasoning process. During training, we use A-Softmax loss to learn angularly discriminative representations. In the inference stage, we employ an ensemble of diverse neural networks to improve the prediction accuracy and robustness. We conduct extensive experiments on the LIDC-IDRI database. Compared with previous state-of-the-art, our model shows highly comparable performance by using less than 1/40 parameters. Besides, empirical study shows that the reasoning process of learned networks is in conformity with physicians' diagnosis. Related code and results have been released at: https://github.com/f ei-hdu/NAS-Lung.
翻訳日:2021-03-22 11:14:24 公開日:2021-01-19
# 深度映像からのマルチスケール特徴マップに基づく人間の行動認識

Human Action Recognition Based on Multi-scale Feature Maps from Depth Video Sequences ( http://arxiv.org/abs/2101.07618v1 )

ライセンス: Link先を確認
Chang Li and Qian Huang and Xing Li and Qianhan Wu(参考訳) 人間の行動認識はコンピュータビジョンの活発な研究領域である。 優れたプロセスが作成されているが、従来の手法は、主に1つのスケールで深度データに基づくアクションを認識するため、実用的なアプリケーションシナリオで追加の情報アクション認識を提供するマルチスケールの特徴を無視することが多い。 本稿では,深部映像列から人間の行動を認識するマルチスケール動作情報に着目した新しい枠組みを提案する。 本稿では,ラプラシアピラミッド深部運動画像(lp-dmi)と呼ばれる多次元特徴マップを提案する。 動作のマルチスケールな静的表現を生成するテンプレートとして,深度運動画像(DMI)を用いる。 次に,lp-dmiを組み込んで動作の多スケール動的情報を強化し,人体の冗長な静的情報を削減する。 さらに,lp-dmi-hog と呼ばれるマルチグラニュラ性記述子を抽出し,より識別的特徴を与える。 最後に,行動分類にextreme learning machine(elm)を用いる。 提案手法は、パブリックMSRAction3Dデータセット、UTD-MHADおよびDHAデータセットの認識精度を93.41%、85.12%、91.94%向上させる。 実験により,本手法が最先端のベンチマークより優れていることを示す。

Human action recognition is an active research area in computer vision. Although great process has been made, previous methods mostly recognize actions based on depth data at only one scale, and thus they often neglect multi-scale features that provide additional information action recognition in practical application scenarios. In this paper, we present a novel framework focusing on multi-scale motion information to recognize human actions from depth video sequences. We propose a multi-scale feature map called Laplacian pyramid depth motion images(LP-DMI). We employ depth motion images (DMI) as the templates to generate the multi-scale static representation of actions. Then, we caculate LP-DMI to enhance multi-scale dynamic information of motions and reduces redundant static information in human bodies. We further extract the multi-granularity descriptor called LP-DMI-HOG to provide more discriminative features. Finally, we utilize extreme learning machine (ELM) for action classification. The proposed method yeilds the recognition accuracy of 93.41%, 85.12%, 91.94% on public MSRAction3D dataset, UTD-MHAD and DHA dataset. Through extensive experiments, we prove that our method outperforms state-of-the-art benchmarks.
翻訳日:2021-03-22 11:13:51 公開日:2021-01-19
# 深層フィードバック逆問題解法

Deep Feedback Inverse Problem Solver ( http://arxiv.org/abs/2101.07719v1 )

ライセンス: Link先を確認
Wei-Chiu Ma, Shenlong Wang, Jiayuan Gu, Sivabalan Manivasagam, Antonio Torralba, Raquel Urtasun(参考訳) 逆問題に対する効率的で効果的で汎用的なアプローチを提案する。 重要なアイデアは、フォワードプロセスが提供するフィードバック信号を活用し、反復的な更新モデルを学ぶことです。 具体的には、各イテレーションでニューラルネットワークがフィードバックを入力として受け取り、現在の推定値を更新する。 私たちのアプローチは前もってのプロセスに制限がなく、事前の知識も必要ありません。 フィードバック情報を通じて,入力観測に一貫性のある正確な推定を行うだけでなく,早期不正確な予測から復元することができる。 6-DOFポーズ推定,照明推定,逆運動学など,幅広い逆問題に対するアプローチの有効性を検証する。 従来の最適化手法と比較して,2~3桁の高速さで同等ないし優れた性能を実現することができる。 ディープラーニングベースのアプローチと比較して、私たちのモデルはすべてのメトリクスのパフォーマンスを一貫して改善します。 ビデオ、アニメーション、補足資料などについてはプロジェクトページを参照してください。

We present an efficient, effective, and generic approach towards solving inverse problems. The key idea is to leverage the feedback signal provided by the forward process and learn an iterative update model. Specifically, at each iteration, the neural network takes the feedback as input and outputs an update on the current estimation. Our approach does not have any restrictions on the forward process; it does not require any prior knowledge either. Through the feedback information, our model not only can produce accurate estimations that are coherent to the input observation but also is capable of recovering from early incorrect predictions. We verify the performance of our approach over a wide range of inverse problems, including 6-DOF pose estimation, illumination estimation, as well as inverse kinematics. Comparing to traditional optimization-based methods, we can achieve comparable or better performance while being two to three orders of magnitude faster. Compared to deep learning-based approaches, our model consistently improves the performance on all metrics. Please refer to the project page for videos, animations, supplementary materials, etc.
翻訳日:2021-03-22 11:13:32 公開日:2021-01-19
# 画像記述子の体系的アグリゲーションの枠組みとしての超次元計算

Hyperdimensional computing as a framework for systematic aggregation of image descriptors ( http://arxiv.org/abs/2101.07720v1 )

ライセンス: Link先を確認
Peer Neubert and Stefan Schubert(参考訳) 画像とビデオのディスクリプタは、コンピュータビジョンとそのモバイルロボティクスなどの応用分野において、一貫したツールである。 手作りで特に学習された画像記述子の多くは、潜在的に(非常に)多くの次元を持つ数値ベクトルである。 メモリ消費や比較時間といった実践的な考慮事項は、コンパクトな表現の作成を要求する。 本稿では,一組のベクトルから得られる情報を同一次元のベクトルに体系的に結合する手法として,超次元計算(HDC)を用いる。 HDCは、数千次元の数値ベクトルで分散表現を用いた記号処理を行うための既知の技術である。 本稿では,既存および将来の画像記述子(深層学習ベース)の出力処理に適したhdc実装を提案する。 簡単なベクトル演算による追加知識とともに記述子を処理するためのフレームワークとしてどのように使用できるかについて議論する。 具体的な結果は、局所的な画像記述子の集合を1つの全体的記述子のイメージ位置とともに集約する、HDCベースの新しいアプローチである。 一連の標準的な移動ロボットの配置認識実験で利用可能な総体的記述子と集約法と比較すると、ランナーアップと3.6倍の最悪のパフォーマンスに比べて平均性能が20%向上している。

Image and video descriptors are an omnipresent tool in computer vision and its application fields like mobile robotics. Many hand-crafted and in particular learned image descriptors are numerical vectors with a potentially (very) large number of dimensions. Practical considerations like memory consumption or time for comparisons call for the creation of compact representations. In this paper, we use hyperdimensional computing (HDC) as an approach to systematically combine information from a set of vectors in a single vector of the same dimensionality. HDC is a known technique to perform symbolic processing with distributed representation in numerical vectors with thousands of dimensions. We present a HDC implementation that is suitable for processing the output of existing and future (deep-learning based) image descriptors. We discuss how this can be used as a framework to process descriptors together with additional knowledge by simple and fast vector operations. A concrete outcome is a novel HDC-based approach to aggregate a set of local image descriptors together with their image positions in a single holistic descriptor. The comparison to available holistic descriptors and aggregation methods on a series of standard mobile robotics place recognition experiments shows a 20% improvement in average performance compared to runner-up and 3.6x better worst-case performance.
翻訳日:2021-03-22 11:13:18 公開日:2021-01-19
# 人間活動の階層構造を機械がどう考えるか

Machine-Generated Hierarchical Structure of Human Activities to Reveal How Machines Think ( http://arxiv.org/abs/2101.07855v1 )

ライセンス: Link先を確認
Mahsun Alt{\i}n, Furkan G\"ursoy, Lina Xu(参考訳) ディープラーニングに基づくコンピュータビジョンモデルは、人間活動認識(HAR)に対する画期的なアプローチであることが証明されている。 しかしながら、既存の作業の多くは、新しいモデルアーキテクチャの作成、モデルの複雑さの増大、より大きなデータセットでのトレーニングによるモデルパラメータの洗練による予測精度の向上に費やされている。 本稿では,既存の作業とは違って,モデル精度の向上とモデル予測の形状形成を行い,人間活動の類似グループに対する高レベルな要約ラベルの自動作成により,人間の理解と一致させるための代替案を提案する。 まず,人間行動認識のための階層的ラベリングシステムの構築の重要性と実現可能性について考察する。 次に,ブラックボックスHARモデルの予測を用いて,異なるアクティビティ間の類似性を同定する。 最後に,階層的クラスタリング手法を調整し,アクティビティの階層的木を自動生成し,実験を行う。 このシステムでは、同じレベルのアクティビティラベルは、設計された精度の大きさを持ち、特定の量のアクティビティの詳細を反映します。 この戦略は、機密性の高い予測を隠蔽することで、認識されたアクティビティの細部とユーザのプライバシの間のトレードオフを可能にし、プライバシに制限されたシナリオで以前は禁止されていた侵入モデルを使用する可能性を提供する。 階層構造はマシンの観点から生成されるため、上位レベルの予測はより正確であり、最終的な予測目標にかなり簡単なトレーニングセットに詳細なラベルが多すぎる場合に特に有用である。 さらに,これらの木構造の解析により,予測モデルのバイアスを明らかにし,今後のデータ収集戦略を導くことができる。

Deep-learning based computer vision models have proved themselves to be ground-breaking approaches to human activity recognition (HAR). However, most existing works are dedicated to improve the prediction accuracy through either creating new model architectures, increasing model complexity, or refining model parameters by training on larger datasets. Here, we propose an alternative idea, differing from existing work, to increase model accuracy and also to shape model predictions to align with human understandings through automatically creating higher-level summarizing labels for similar groups of human activities. First, we argue the importance and feasibility of constructing a hierarchical labeling system for human activity recognition. Then, we utilize the predictions of a black box HAR model to identify similarities between different activities. Finally, we tailor hierarchical clustering methods to automatically generate hierarchical trees of activities and conduct experiments. In this system, the activity labels on the same level will have a designed magnitude of accuracy and reflect a specific amount of activity details. This strategy enables a trade-off between the extent of the details in the recognized activity and the user privacy by masking some sensitive predictions; and also provides possibilities for the use of formerly prohibited invasive models in privacy-concerned scenarios. Since the hierarchy is generated from the machine's perspective, the predictions at the upper levels provide better accuracy, which is especially useful when there are too detailed labels in the training set that are rather trivial to the final prediction goal. Moreover, the analysis of the structure of these trees can reveal the biases in the prediction model and guide future data collection strategies.
翻訳日:2021-03-22 11:12:35 公開日:2021-01-19
# サイバー物理システムレジリエンスを高めるための予測可能な物のインターネット(IoPT)フレームワーク

Internet of Predictable Things (IoPT) Framework to Increase Cyber-Physical System Resiliency ( http://arxiv.org/abs/2101.07816v1 )

ライセンス: Link先を確認
Umit Cali, Murat Kuzlu, Vinayak Sharma, Manisa Pipattanasomporn, Ferhat Ozgur Catak(参考訳) 過去20年間で、分散エネルギーシステム、特に再生可能エネルギー源(RES)は、電力システムの市場シェアと浸透レベルを増大させ、経済的に可能になっている。 エネルギーシステムの脱炭と分散化に加えて、デジタル化も非常に重要になっている。 人工知能(AI)、高度な最適化アルゴリズム、産業用IoT(Industrial Internet of Things)、その他のデジタル化フレームワークの使用により、現代の電力システム資産はよりインテリジェントになり、サイバーセキュリティのリスクに弱い。 本稿では,サイバーセキュリティリスクに対するサイバー物理システムのレジリエンスを高めるために,高度なデータ分析と機械学習手法を取り入れたIoPT(Internet of Predictable Things)の概念を提案する。 提案した概念は、様々なサイバー攻撃シナリオ下でテストされたサイバー物理システムを用いて、概念実証(PoC)として実証される。

During the last two decades, distributed energy systems, especially renewable energy sources (RES), have become more economically viable with increasing market share and penetration levels on power systems. In addition to decarbonization and decentralization of energy systems, digitalization has also become very important. The use of artificial intelligence (AI), advanced optimization algorithms, Industrial Internet of Things (IIoT), and other digitalization frameworks makes modern power system assets more intelligent, while vulnerable to cybersecurity risks. This paper proposes the concept of the Internet of Predictable Things (IoPT) that incorporates advanced data analytics and machine learning methods to increase the resiliency of cyber-physical systems against cybersecurity risks. The proposed concept is demonstrated using a cyber-physical system testbed under a variety of cyber attack scenarios as a proof of concept (PoC).
翻訳日:2021-03-22 11:12:08 公開日:2021-01-19
# 近似ベイズ計算を用いたネットワークモデル選択のための概要統計の選択

Selection of Summary Statistics for Network Model Choice with Approximate Bayesian Computation ( http://arxiv.org/abs/2101.07766v1 )

ライセンス: Link先を確認
Louis Raynal and Jukka-Pekka Onnela(参考訳) 近似ベイズ計算(ABC)は、現在、難易度のあるモデル上でモデル選択とパラメータ推論を行う主要な戦略の1つとして機能している。 abcの本質的な構成要素は、サマリ統計を通じて大量のシミュレーションデータと観測データを比較することである。 次元の呪いを避けるため、要約統計の選択は最重要であり、abcを機械的なネットワークモデルに適用する場合、さらに重要になる。 実際、多くの要約統計学はネットワーク構造を符号化するのに利用できるが、その計算複雑性は非常に可変である。 大規模ネットワークでは、要約統計の計算がボトルネックを発生させ、abcの使用が困難になる。 この計算負担を低減し, メカニスティックネットワークモデルの解析をより実用的なものにするため, モデル選択フレームワークにおける2つの質問について検討した。 まず,選択過程における異なる要約コストを考慮したコストベースのフィルタ選択手法の有用性を検討した。 次に、少ないノード数で生成されたネットワークを用いて選択を行い、選択ステップに必要な時間を削減する。 その結果,計算量的に安価な要約統計は,分類精度に最小限の影響で効率的に選択できることがわかった。 さらに,ノード数が少ないネットワークは,中程度の要約数を排除するためにのみ使用可能であることが判明した。 この後者の発見はネットワーク固有のものであるが、前者は一般であり、ABCアプリケーションに適応することができる。

Approximate Bayesian Computation (ABC) now serves as one of the major strategies to perform model choice and parameter inference on models with intractable likelihoods. An essential component of ABC involves comparing a large amount of simulated data with the observed data through summary statistics. To avoid the curse of dimensionality, summary statistic selection is of prime importance, and becomes even more critical when applying ABC to mechanistic network models. Indeed, while many summary statistics can be used to encode network structures, their computational complexity can be highly variable. For large networks, computation of summary statistics can quickly create a bottleneck, making the use of ABC difficult. To reduce this computational burden and make the analysis of mechanistic network models more practical, we investigated two questions in a model choice framework. First, we studied the utility of cost-based filter selection methods to account for different summary costs during the selection process. Second, we performed selection using networks generated with a smaller number of nodes to reduce the time required for the selection step. Our findings show that computationally inexpensive summary statistics can be efficiently selected with minimal impact on classification accuracy. Furthermore, we found that networks with a smaller number of nodes can only be employed to eliminate a moderate number of summaries. While this latter finding is network specific, the former is general and can be adapted to any ABC application.
翻訳日:2021-03-22 11:10:46 公開日:2021-01-19
# 回転を伴うマルチターゲット検出

Multi-target detection with rotations ( http://arxiv.org/abs/2101.07709v1 )

ライセンス: Link先を確認
Tamir Bendory, Ti-Yen Lan, Nicholas F. Marshall, Iris Rukshin, Amit Singer(参考訳) 対象画像の無作為に回転・翻訳された多くのコピーを含む大雑音計測画像から2次元目標画像を推定するマルチターゲット検出問題を考察する。 単一粒子の低温電子顕微鏡を応用し,計測対象画像の位置と方向を推定することが困難である低信号対雑音状態に着目した。 本手法は自己相関解析を用いて対象画像の回転的および翻訳的不変な特徴を推定する。 本手法は,ノイズのレベルに関わらず,測定値が十分に大きい場合に対象画像の復元に有効であることを示す。

We consider the multi-target detection problem of estimating a two-dimensional target image from a large noisy measurement image that contains many randomly rotated and translated copies of the target image. Motivated by single-particle cryo-electron microscopy, we focus on the low signal-to-noise regime, where it is difficult to estimate the locations and orientations of the target images in the measurement. Our approach uses autocorrelation analysis to estimate rotationally and translationally invariant features of the target image. We demonstrate that, regardless of the level of noise, our technique can be used to recover the target image when the measurement is sufficiently large.
翻訳日:2021-03-22 11:10:25 公開日:2021-01-19
# 室内環境における長期水平構成作業のためのモジュール型視覚言語ナビゲーション・操作フレームワーク

A modular vision language navigation and manipulation framework for long horizon compositional tasks in indoor environment ( http://arxiv.org/abs/2101.07891v1 )

ライセンス: Link先を確認
Homagni Saha, Fateme Fotouhif, Qisai Liu, Soumik Sarkar(参考訳) 本稿では,視覚的な自然言語命令を日常の家庭内タスクに対して実行するための,MoViLan (Modular Vision and Language) という新しいフレームワークを提案する。 データ駆動でエンドツーエンドの学習フレームワークが視覚と言語のモダリティに基づいたナビゲーションタスクを対象として提案されているが、最近のベンチマークデータセットのパフォーマンスは、長い地平線のための包括的な技術開発におけるギャップを明らかにした。 本稿では,高度に協調した視覚・言語訓練データ(例えば,専門家による実験軌道の形で)を必要とせずに,ナビゲーションとオブジェクトの相互作用の複合問題に対処するモジュール方式を提案する。 このようなアプローチは、この分野における従来のエンドツーエンド技術とは大きく離れており、視覚と言語データセットを分離したより魅力的なトレーニングプロセスを可能にします。 具体的には、乱雑な屋内環境のための新しい幾何学的対応マッピング手法と、家事指導に一般化された言語理解モデルを提案する。 我々は,最近リリースされたベンチマークデータセットセット-ALFREDのベースライン上での長期合成タスクの成功率を著しく向上させることを示す。

In this paper we propose a new framework - MoViLan (Modular Vision and Language) for execution of visually grounded natural language instructions for day to day indoor household tasks. While several data-driven, end-to-end learning frameworks have been proposed for targeted navigation tasks based on the vision and language modalities, performance on recent benchmark data sets revealed the gap in developing comprehensive techniques for long horizon, compositional tasks (involving manipulation and navigation) with diverse object categories, realistic instructions and visual scenarios with non-reversible state changes. We propose a modular approach to deal with the combined navigation and object interaction problem without the need for strictly aligned vision and language training data (e.g., in the form of expert demonstrated trajectories). Such an approach is a significant departure from the traditional end-to-end techniques in this space and allows for a more tractable training process with separate vision and language data sets. Specifically, we propose a novel geometry-aware mapping technique for cluttered indoor environments, and a language understanding model generalized for household instruction following. We demonstrate a significant increase in success rates for long-horizon, compositional tasks over the baseline on the recently released benchmark data set-ALFRED.
翻訳日:2021-03-22 11:10:15 公開日:2021-01-19
# ES-ENAS:強化学習のための余分なコストなしで進化戦略とニューラルネットワーク検索を組み合わせる

ES-ENAS: Combining Evolution Strategies with Neural Architecture Search at No Extra Cost for Reinforcement Learning ( http://arxiv.org/abs/2101.07415v1 )

ライセンス: Link先を確認
Xingyou Song, Krzysztof Choromanski, Jack Parker-Holder, Yunhao Tang, Daiyi Peng, Deepali Jain, Wenbo Gao, Aldo Pacchiano, Tamas Sarlos, Yuxiang Yang(参考訳) 本稿では、進化戦略(ES)と効率的なNAS(ENAS)を高度にスケーラブルかつ直感的に組み合わせることで、強化学習(RL)ポリシー設計のための単純なニューラルネットワーク探索(NAS)アルゴリズムであるES-ENASを紹介する。 我々はESがすでに分散ブラックボックスアルゴリズムであることに気付き、ESの中央アグリゲータにENASからモデルコントローラを挿入するだけで、重量共有特性を無償で取得できると考えている。 これにより、教師付き学習環境におけるNAS研究から強化学習シナリオへのギャップを、2つの異なる研究ライン間の比較的単純な結婚を通じて埋めることができ、RLにコントローラベースのNAS技術を適用した最初の1つである。 エッジプルーニングと重み共有による連続制御におけるRL問題に対する組合せニューラルネットワークアーキテクチャの訓練により,本手法の有用性を実証する。 我々はまた、多目的最適化や様々な制御メソッドを含む、現代的なnas文学から広く普及したテクニックを取り入れ、rlフィールドにその約束を示し、拡張の可能性について議論した。 複数のタスクに対する90%以上のネットワーク圧縮を実現し,ストレージと計算資源に制限のある移動ロボット工学に特に関心を持つ可能性がある。

We introduce ES-ENAS, a simple neural architecture search (NAS) algorithm for the purpose of reinforcement learning (RL) policy design, by combining Evolutionary Strategies (ES) and Efficient NAS (ENAS) in a highly scalable and intuitive way. Our main insight is noticing that ES is already a distributed blackbox algorithm, and thus we may simply insert a model controller from ENAS into the central aggregator in ES and obtain weight sharing properties for free. By doing so, we bridge the gap from NAS research in supervised learning settings to the reinforcement learning scenario through this relatively simple marriage between two different lines of research, and are one of the first to apply controller-based NAS techniques to RL. We demonstrate the utility of our method by training combinatorial neural network architectures for RL problems in continuous control, via edge pruning and weight sharing. We also incorporate a wide variety of popular techniques from modern NAS literature, including multiobjective optimization and varying controller methods, to showcase their promise in the RL field and discuss possible extensions. We achieve >90% network compression for multiple tasks, which may be special interest in mobile robotics with limited storage and computational resources.
翻訳日:2021-03-22 11:09:52 公開日:2021-01-19
# DenseECGを用いた心房細動の心電図分類と診断

Electrocardiogram Classification and Visual Diagnosis of Atrial Fibrillation with DenseECG ( http://arxiv.org/abs/2101.07535v1 )

ライセンス: Link先を確認
Dacheng Chen, Dan Li, Xiuqin Xu, Ruizhi Yang, See-Kiong Ng(参考訳) 心房細動(Atrial Fibrillation、AF)は、世界中の多くの人々に影響を及ぼす一般的な不整脈である。 発見されていない場合、慢性的な障害や早期死亡に至る。 しかし、この問題のある患者は、特に初期の段階では、その存在感をほとんど感じない。 非侵襲的, 自動的, 効果的検出法は, 医療介入の進行防止に間に合うように早期発見を支援するために必要である。 心臓の電気活動を記録する心電図(ECG)は、AFの存在を検出するために広く用いられている。 しかし、AFの微妙なパターンのため、検出モデルの性能は、複雑なデータ前処理と専門的に設計された機能に依存している。 本研究では,5層1D高密度結合畳み込みニューラルネットワークに基づくエンドツーエンドモデルであるDenseECGを開発した。 2017 physionet computing in cardiology (cinc) challenge の公開データセットを用いて,短期心臓リズム (9-61s) の単誘導心電図記録8528本を含むモデルをトレーニングした。 トレーニングしたモデルは、複雑なデータ前処理や専門家が監督する機能エンジニアリングなしに、このデータセット上の他の最先端af検出モデルよりも優れていました。

Atrial Fibrillation (AF) is a common cardiac arrhythmia affecting a large number of people around the world. If left undetected, it will develop into chronic disability or even early mortality. However, patients who have this problem can barely feel its presence, especially in its early stage. A non-invasive, automatic, and effective detection method is therefore needed to help early detection so that medical intervention can be implemented in time to prevent its progression. Electrocardiogram (ECG), which records the electrical activities of the heart, has been widely used for detecting the presence of AF. However, due to the subtle patterns of AF, the performance of detection models have largely depended on complicated data pre-processing and expertly engineered features. In our work, we developed DenseECG, an end-to-end model based on 5 layers 1D densely connected convolutional neural network. We trained our model using the publicly available dataset from 2017 PhysioNet Computing in Cardiology(CinC) Challenge containing 8528 single-lead ECG recordings of short-term heart rhythms (9-61s). Our trained model was able to outperform the other state-of-the-art AF detection models on this dataset without complicated data pre-processing and expert-supervised feature engineering.
翻訳日:2021-03-22 11:09:29 公開日:2021-01-19
# ユーザドロップアウトによる情報理論的セキュアアグリゲーション

Information Theoretic Secure Aggregation with User Dropouts ( http://arxiv.org/abs/2101.07750v1 )

ライセンス: Link先を確認
Yizhou Zhao, Hua Sun(参考訳) 堅牢なセキュアアグリゲーション問題において、サーバは、複数のユーザの入力の合計を学習し、学習したいが、一部のユーザがドロップアウトする可能性がある(例えば、応答しないかもしれない)。 削除されたユーザの身元は事前に分かっておらず、サーバは生き残ったユーザの合計を確実に回復する必要がある。 セキュアアグリゲーションの最小2ラウンドモデルについて考察する。 最初のラウンドでは、$K$ユーザのうち、$U$ユーザ以下の任意のセットがサーバーに応答し、サーバーは、応答するすべてのユーザの入力の総和を知りたがっている。 残りのユーザーはドロップとして表示される。 第2ラウンドでは、生き残ったユーザのU$ユーザ以下の任意のセット(すなわち、第2ラウンドでドロップアウトが可能)と、生き残ったユーザから得た情報が2ラウンドにわたってデコードされ、サーバは所望の金額をデコードできる。 セキュリティ上の制約は、サーバが$t$のユーザと衝突し、ドロップしたユーザからのメッセージがサーバから受信されたとしても(例えば遅延パケット)、情報理論的な意味において合計以上の追加情報を推測できないことである。 この情報理論的なセキュアアグリゲーション問題に対して,我々は最適な通信コストを特徴付ける。 u \leq t$ の場合、セキュアアグリゲーションは実現不可能であり、$u > t$ が和の1つのシンボルを安全に計算するには、各ユーザからサーバに送信されるシンボルの最小数は、最初のラウンドで1ドル、第2ラウンドでは1ドル/(u-t)$である。

In the robust secure aggregation problem, a server wishes to learn and only learn the sum of the inputs of a number of users while some users may drop out (i.e., may not respond). The identity of the dropped users is not known a priori and the server needs to securely recover the sum of the remaining surviving users. We consider the following minimal two-round model of secure aggregation. Over the first round, any set of no fewer than $U$ users out of $K$ users respond to the server and the server wants to learn the sum of the inputs of all responding users. The remaining users are viewed as dropped. Over the second round, any set of no fewer than $U$ users of the surviving users respond (i.e., dropouts are still possible over the second round) and from the information obtained from the surviving users over the two rounds, the server can decode the desired sum. The security constraint is that even if the server colludes with any $T$ users and the messages from the dropped users are received by the server (e.g., delayed packets), the server is not able to infer any additional information beyond the sum in the information theoretic sense. For this information theoretic secure aggregation problem, we characterize the optimal communication cost. When $U \leq T$, secure aggregation is not feasible, and when $U > T$, to securely compute one symbol of the sum, the minimum number of symbols sent from each user to the server is $1$ over the first round, and $1/(U-T)$ over the second round.
翻訳日:2021-03-22 11:09:14 公開日:2021-01-19
# SEMULATOR:回帰ニューラルネットワークを用いたクロスバーアレイ型アナログニューラルシステムのダイナミクスをエミュレートする

SEMULATOR: Emulating the Dynamics of Crossbar Array-based Analog Neural System with Regression Neural Networks ( http://arxiv.org/abs/2101.07864v1 )

ライセンス: Link先を確認
Chaeun Lee, Seyoung Kim(参考訳) ディープニューラルネットワークは膨大な計算量とメモリを必要とするため、新興メモリデバイスによるアナログコンピューティングは、エッジデバイスのデジタルコンピューティングに代わる有望な選択肢である。 しかし,アナログ計算システムのシミュレーション時間の増加により,まだ検討されていない。 この問題を解決するために、解析的近似シミュレータが開発されたが、これらのモデルは不正確であり、乗算演算(MAC)のための周辺回路の選択肢を狭めている。 この意味では、深いニューラルネットワークを用いてクロスバーベースのアナログコンピューティングシステムの挙動をエミュレートする手法であるSEMULATOR(SiMUlaTOR by Emulated the analog computing block)を提案する。 提案したニューラルアーキテクチャを用いて,実験および理論的に,ニューラル計算のためのMACユニットをエミュレートすることを示した。 また、SPICEなどの回路シミュレータと比較した場合、シミュレーション時間を非比較的に短縮する。

As deep neural networks require tremendous amount of computation and memory, analog computing with emerging memory devices is a promising alternative to digital computing for edge devices. However, because of the increasing simulation time for analog computing system, it has not been explored. To overcome this issue, analytically approximated simulators are developed, but these models are inaccurate and narrow down the options for peripheral circuits for multiply-accumulate operation (MAC). In this sense, we propose a methodology, SEMULATOR (SiMULATOR by Emulating the analog computing block) which uses a deep neural network to emulate the behavior of crossbar-based analog computing system. With the proposed neural architecture, we experimentally and theoretically shows that it emulates a MAC unit for neural computation. In addition, the simulation time is incomparably reduced when it compared to the circuit simulators such as SPICE.
翻訳日:2021-03-22 11:08:46 公開日:2021-01-19
# 説明可能なパターン: データ分析の民主化をサポートするための知見から洞察へ

Explainable Patterns: Going from Findings to Insights to Support Data Analytics Democratization ( http://arxiv.org/abs/2101.08655v1 )

ライセンス: Link先を確認
Leonardo Christino, Martha D. Ferreira, Asal Jalilvand and Fernando V. Paulovich(参考訳) 過去数十年間、企業、非営利団体、政府、その他を含む大規模な取り組みが、データの民主化の概念を支持し、人々がデータと向き合うよう教育する取り組みを推進してきた。 これは、我々の自由世界で最も重要な進歩の1つだが、具体的な事実のないデータへのアクセスや、既存のパターンを理解するための専門家の欠如は、本質的な価値を損ね、民主化を弱める。 ですから、データへの完全なアクセスを提供することのメリットは、さらに一歩進んで、データ分析の民主化をサポートすることで、ドメインの専門家がデータ解釈と検証に拘束力のないアクセスを促進する必要なしに、発見を洞察に変換することを支援することでのみ影響します。 本稿では,データストーリーテリングの探索と作成において,layユーザを支援する新たなフレームワークであるexpatt(solvable patterns)を提案する。外部(テキスト)の情報ソースを使用して,観察あるいは選択された結果に対する妥当な説明を自動的に生成し,ドメイン専門家の必要性を回避あるいは軽減する。 ExPattの適用性は、世界の人口統計指標とウィキペディアを含むさまざまなユースケースを通じて確認されており、データ分析の民主化に向けて実際にどのように使用できるかを示している。

In the past decades, massive efforts involving companies, non-profit organizations, governments, and others have been put into supporting the concept of data democratization, promoting initiatives to educate people to confront information with data. Although this represents one of the most critical advances in our free world, access to data without concrete facts to check or the lack of an expert to help on understanding the existing patterns hampers its intrinsic value and lessens its democratization. So the benefits of giving full access to data will only be impactful if we go a step further and support the Data Analytics Democratization, assisting users in transforming findings into insights without the need of domain experts to promote unconstrained access to data interpretation and verification. In this paper, we present Explainable Patterns (ExPatt), a new framework to support lay users in exploring and creating data storytellings, automatically generating plausible explanations for observed or selected findings using an external (textual) source of information, avoiding or reducing the need for domain experts. ExPatt applicability is confirmed via different use-cases involving world demographics indicators and Wikipedia as an external source of explanations, showing how it can be used in practice towards the data analytics democratization.
翻訳日:2021-03-22 11:08:13 公開日:2021-01-19