このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20200918)

# 悪意のある専門家による乗法学習システムにおける最適逆政策に向けて

Toward Optimal Adversarial Policies in the Multiplicative Learning System with a Malicious Expert ( http://arxiv.org/abs/2001.00543v2 )

ライセンス: Link先を確認
S. Rasoul Etesami, Negar Kiyavash, Vincent Leon, H. Vincent Poor(参考訳) 本稿では,専門家のアドバイスを組み合わせて真の結果を予測する,従来の乗法重則に基づく学習システムについて考察する。 専門家の一人が悪意があり、システムに最大損失を課すことを目指していると推測されている。 システムの損失は、予測結果のシーケンスと真の結果との絶対的な差として自然に定義される。 この問題をオフラインとオンラインの両方の設定で検討する。 悪意のある専門家が決定の順序全体を優先的に選択しなければならないオフライン環境では、偽の予測を常に報告する単純な欲求ポリシーが1+O(\sqrt{\frac{\ln N}{N}})$の近似比で漸近的に最適であることを示す。 特に、最適なオフラインポリシーの構造によく似たポリシーについて述べる。 悪意のある専門家がその判断を適応的に行うことができるオンライン環境では、最適のオンラインポリシーを$O(N^3)$で動的プログラムを解くことで効率的に計算できることを示す。 本研究は,脅威がシステムの不可欠な部分である敵攻撃に対して,一般的な学習アルゴリズムの脆弱性評価のための新たな方向を提供する。

We consider a learning system based on the conventional multiplicative weight (MW) rule that combines experts' advice to predict a sequence of true outcomes. It is assumed that one of the experts is malicious and aims to impose the maximum loss on the system. The loss of the system is naturally defined to be the aggregate absolute difference between the sequence of predicted outcomes and the true outcomes. We consider this problem under both offline and online settings. In the offline setting where the malicious expert must choose its entire sequence of decisions a priori, we show somewhat surprisingly that a simple greedy policy of always reporting false prediction is asymptotically optimal with an approximation ratio of $1+O(\sqrt{\frac{\ln N}{N}})$, where $N$ is the total number of prediction stages. In particular, we describe a policy that closely resembles the structure of the optimal offline policy. For the online setting where the malicious expert can adaptively make its decisions, we show that the optimal online policy can be efficiently computed by solving a dynamic program in $O(N^3)$. Our results provide a new direction for vulnerability assessment of commonly used learning algorithms to adversarial attacks where the threat is an integral part of the system.
翻訳日:2023-01-16 04:03:13 公開日:2020-09-18
# ジオソーシャル・ロケーション分類:ジオタグ付きソーシャル・メディア投稿に基づく場所への類型化

Geosocial Location Classification: Associating Type to Places Based on Geotagged Social-Media Posts ( http://arxiv.org/abs/2002.01846v2 )

ライセンス: Link先を確認
Elad Kravi, Benny Kimelfeld, Yaron Kanza, Roi Reichart(参考訳) 位置へのアソシエーション型は、地図を豊かにするために使用することができ、多くの地理空間アプリケーションに役立つ。 自動的な方法では、人的労力の面でのコスト削減や、変化への対応の迅速化が期待できる。 本稿では,ソーシャル・メディアの投稿に基づいて,建物などのサイトの種類が発見される場所分類の問題点について検討する。 私たちの目標は、ある場所の小さな半径に投稿されたメッセージセットと、対応する場所タイプ、例えば学校、教会、レストラン、博物館とを正確に関連付けることです。 この問題に対する2つのアプローチを探る。 (a)まず各メッセージが分類され、次にそのメッセージセットに関連付けられた場所が個々のメッセージラベルから推測されるパイプラインアプローチ b)個々のメッセージが同時に処理され、所望の場所タイプが生成される共同アプローチ。 ジオタグ付きツイートのデータセット上で2つのアプローチを試した。 本結果は,関節アプローチの優位性を示すものである。 さらに,この問題の一意な構造から,弱い関連メッセージが単一のファイナルラベルを生成するために処理される場合,線形分類器はディープニューラルネットワークの代替手段よりも優れていることを示す。

Associating type to locations can be used to enrich maps and can serve a plethora of geospatial applications. An automatic method to do so could make the process less expensive in terms of human labor, and faster to react to changes. In this paper we study the problem of Geosocial Location Classification, where the type of a site, e.g., a building, is discovered based on social-media posts. Our goal is to correctly associate a set of messages posted in a small radius around a given location with the corresponding location type, e.g., school, church, restaurant or museum. We explore two approaches to the problem: (a) a pipeline approach, where each message is first classified, and then the location associated with the message set is inferred from the individual message labels; and (b) a joint approach where the individual messages are simultaneously processed to yield the desired location type. We tested the two approaches over a dataset of geotagged tweets. Our results demonstrate the superiority of the joint approach. Moreover, we show that due to the unique structure of the problem, where weakly-related messages are jointly processed to yield a single final label, linear classifiers outperform deep neural network alternatives.
翻訳日:2023-01-03 21:46:38 公開日:2020-09-18
# 帰納的局所表現アライメントを用いた大規模勾配自由深層学習

Large-Scale Gradient-Free Deep Learning with Recursive Local Representation Alignment ( http://arxiv.org/abs/2002.03911v3 )

ライセンス: Link先を確認
Alexander Ororbia, Ankur Mali, Daniel Kifer, C. Lee Giles(参考訳) 大規模なデータセットでディープニューラルネットワークをトレーニングするには、(クラウドプラットフォーム上でも)コストが小さい組織やグループ、個人の手が届かないような、大きなハードウェアリソースが必要です。 これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。 さらに、安定なパラメータ最適化を保証するために、特別なウェイト初期化やアクティベーション関数などの様々なトリックを継続的に開発する必要がある。 私たちの目標は、ディープネットワークのトレーニングに使用できるバックプロップの、効果的で神経生物学的に賞賛に値する代替手段を探すことです。 本稿では,大規模ニューラルアーキテクチャのトレーニングのための勾配なし学習手法,再帰的局所表現アライメントを提案する。 CIFAR-10と大規模なベンチマークであるImageNetの残余ネットワークを用いた実験では、並列化可能で計算的に要求の少ない重み更新により、より早く収束しながらアルゴリズムが一般化される。 これはバックプロップフリーなアルゴリズムがより大きなデータセットにスケールアップできるという実証的な証拠である。

Training deep neural networks on large-scale datasets requires significant hardware resources whose costs (even on cloud platforms) put them out of reach of smaller organizations, groups, and individuals. Backpropagation, the workhorse for training these networks, is an inherently sequential process that is difficult to parallelize. Furthermore, it requires researchers to continually develop various tricks, such as specialized weight initializations and activation functions, in order to ensure a stable parameter optimization. Our goal is to seek an effective, neuro-biologically-plausible alternative to backprop that can be used to train deep networks. In this paper, we propose a gradient-free learning procedure, recursive local representation alignment, for training large-scale neural architectures. Experiments with residual networks on CIFAR-10 and the large benchmark, ImageNet, show that our algorithm generalizes as well as backprop while converging sooner due to weight updates that are parallelizable and computationally less demanding. This is empirical evidence that a backprop-free algorithm can scale up to larger datasets.
翻訳日:2023-01-02 07:12:47 公開日:2020-09-18
# CodeBERT: プログラミングと自然言語のための事前学習モデル

CodeBERT: A Pre-Trained Model for Programming and Natural Languages ( http://arxiv.org/abs/2002.08155v4 )

ライセンス: Link先を確認
Zhangyin Feng, Daya Guo, Duyu Tang, Nan Duan, Xiaocheng Feng, Ming Gong, Linjun Shou, Bing Qin, Ting Liu, Daxin Jiang, Ming Zhou(参考訳) プログラム言語(PL)とナット言語(NL)のためのバイモーダル事前学習モデルであるCodeBERTを提案する。 CodeBERTは、自然言語コード検索やコードドキュメンテーション生成など、下流のNL-PLアプリケーションをサポートする汎用表現を学習する。 トランスフォーマリンアーキテクチャを用いたコードバートを開発し,生成器からサンプリング可能な代替品を検出するためのトークン検出の事前学習タスクを組み込んだハイブリッド目的関数で学習する。 これにより、NL-PLペアのバイモーダルデータと、モデルトレーニングのための入力トークンを前者が提供し、後者がより良いジェネレータの学習を支援することができる。 モデルパラメータの微調整により2つのNL-PLアプリケーション上でCodeBERTを評価する。 結果から,CodeBERTは自然言語コード検索とコードドキュメンテーション生成タスクの両方において,最先端のパフォーマンスを実現していることがわかった。 さらに、CodeBERTでどのような知識が学習されるかを調べるため、NL-PL探索のためのデータセットを構築し、事前学習されたモデルのパラメータが固定されたゼロショット設定で評価する。 その結果,CodeBERTは従来のNL-PL探索モデルよりも優れた性能を示した。

We present CodeBERT, a bimodal pre-trained model for programming language (PL) and nat-ural language (NL). CodeBERT learns general-purpose representations that support downstream NL-PL applications such as natural language codesearch, code documentation generation, etc. We develop CodeBERT with Transformer-based neural architecture, and train it with a hybrid objective function that incorporates the pre-training task of replaced token detection, which is to detect plausible alternatives sampled from generators. This enables us to utilize both bimodal data of NL-PL pairs and unimodal data, where the former provides input tokens for model training while the latter helps to learn better generators. We evaluate CodeBERT on two NL-PL applications by fine-tuning model parameters. Results show that CodeBERT achieves state-of-the-art performance on both natural language code search and code documentation generation tasks. Furthermore, to investigate what type of knowledge is learned in CodeBERT, we construct a dataset for NL-PL probing, and evaluate in a zero-shot setting where parameters of pre-trained models are fixed. Results show that CodeBERT performs better than previous pre-trained models on NL-PL probing.
翻訳日:2022-12-30 14:21:49 公開日:2020-09-18
# 高分解能構造-DTI合成のためのManifold-Aware CycleGAN

Manifold-Aware CycleGAN for High-Resolution Structural-to-DTI Synthesis ( http://arxiv.org/abs/2004.00173v3 )

ライセンス: Link先を確認
Benoit Anctil-Robitaille, Christian Desrosiers, Herve Lombaert(参考訳) 画像から画像への非対訳は自然画像にうまく適用されているが、拡散テンソル画像(dti)のような多様体値データにはほとんど注目されていない。 DTIの非ユークリッド的な性質は、現在の生成逆数ネットワーク(GAN)が可塑性画像を生成するのを防ぎ、主に分画異方性(FA)や平均微分率(MD)のような拡散MRIスカラーマップへの応用に制限されている。 これらのスカラーマップが臨床的に有用であるとしても、主に繊維の配向を無視し、脳線維の分析に限定的な応用がある。 本稿では,未知のT1w画像から高分解能DTIの生成を学習する,多様体対応のCycleGANを提案する。 対称正定値 3x3 行列 SPD(3) のリーマン多様体上のデータ分布のワッサーシュタイン距離最小化問題として、逆およびサイクル整合損失を用いて目的を定式化する。 生成された拡散テンソルが SPD(3) 多様体上に存在することを保証するため、対数ユークリッド計量の指数写像と対数写像の理論的性質を利用する。 提案手法は,標準のGANと異なり,拡散に基づくメトリクスの計算やファイバトラクトグラフィーアルゴリズムの実行に使用可能な,現実的な高分解能DTIを生成することができる。 モデルの性能を評価するために,生成したテンソルの主方位とその接地方向のコサイン類似性,導出されたfa値の平均二乗誤差(mse),テンソル間の対ユークリッド距離を計算する。 本手法は,高分解能dtiを合成しながら,標準サイクルガンより2.5倍,多様体認識ワッサースタインganよりも最大30%高いコサイン類似性を示す。

Unpaired image-to-image translation has been applied successfully to natural images but has received very little attention for manifold-valued data such as in diffusion tensor imaging (DTI). The non-Euclidean nature of DTI prevents current generative adversarial networks (GANs) from generating plausible images and has mainly limited their application to diffusion MRI scalar maps, such as fractional anisotropy (FA) or mean diffusivity (MD). Even if these scalar maps are clinically useful, they mostly ignore fiber orientations and therefore have limited applications for analyzing brain fibers. Here, we propose a manifold-aware CycleGAN that learns the generation of high-resolution DTI from unpaired T1w images. We formulate the objective as a Wasserstein distance minimization problem of data distributions on a Riemannian manifold of symmetric positive definite 3x3 matrices SPD(3), using adversarial and cycle-consistency losses. To ensure that the generated diffusion tensors lie on the SPD(3) manifold, we exploit the theoretical properties of the exponential and logarithm maps of the Log-Euclidean metric. We demonstrate that, unlike standard GANs, our method is able to generate realistic high-resolution DTI that can be used to compute diffusion-based metrics and potentially run fiber tractography algorithms. To evaluate our model's performance, we compute the cosine similarity between the generated tensors principal orientation and their ground-truth orientation, the mean squared error (MSE) of their derived FA values and the Log-Euclidean distance between the tensors. We demonstrate that our method produces 2.5 times better FA MSE than a standard CycleGAN and up to 30% better cosine similarity than a manifold-aware Wasserstein GAN while synthesizing sharp high-resolution DTI.
翻訳日:2022-12-17 19:23:26 公開日:2020-09-18
# ニューラルネットワークのロバスト性認定のための密閉凸緩和

Tightened Convex Relaxations for Neural Network Robustness Certification ( http://arxiv.org/abs/2004.00570v2 )

ライセンス: Link先を確認
Brendon G. Anderson, Ziye Ma, Jingqi Li, Somayeh Sojoudi(参考訳) 本稿では,摂動入力データに対するニューラルネットワークの堅牢性を検証することの問題点について考察する。 このような認定は、安全クリティカルな意思決定および制御システムにおけるニューラルネットワークの適用に不可欠である。 凸最適化を用いた認証技術が提案されているが、しばしば証明書を無効にする緩和誤差に悩まされる。 本研究では,ReLUネットワークの構造を利用して,新しい分割型認証手法により緩和誤差を改善する。 提案手法は,既存の線形計画の緩和を厳しくし,分割を細かくすることで漸近的に緩和誤差をゼロにする。 我々は,リラクゼーション誤差ゼロとなる有限分割法を開発し,その結果を用いて,最悪のリラクゼーション誤差を最小化する可搬分割スキームを導出する。 実データを用いた実験では、パーティショニング手順が以前のメソッドが失敗した場合に堅牢性証明書を発行できることが示されている。 その結果,既存の凸緩和技術を強化するための直感的,効果的,理論的に正当化された方法として,分割ベースの認証手順が得られた。

In this paper, we consider the problem of certifying the robustness of neural networks to perturbed and adversarial input data. Such certification is imperative for the application of neural networks in safety-critical decision-making and control systems. Certification techniques using convex optimization have been proposed, but they often suffer from relaxation errors that void the certificate. Our work exploits the structure of ReLU networks to improve relaxation errors through a novel partition-based certification procedure. The proposed method is proven to tighten existing linear programming relaxations, and asymptotically achieves zero relaxation error as the partition is made finer. We develop a finite partition that attains zero relaxation error and use the result to derive a tractable partitioning scheme that minimizes the worst-case relaxation error. Experiments using real data show that the partitioning procedure is able to issue robustness certificates in cases where prior methods fail. Consequently, partition-based certification procedures are found to provide an intuitive, effective, and theoretically justified method for tightening existing convex relaxation techniques.
翻訳日:2022-12-17 18:28:04 公開日:2020-09-18
# 変圧器の訓練の難しさを理解する

Understanding the Difficulty of Training Transformers ( http://arxiv.org/abs/2004.08249v2 )

ライセンス: Link先を確認
Liyuan Liu, Xiaodong Liu, Jianfeng Gao, Weizhu Chen, Jiawei Han(参考訳) トランスフォーマーは多くのNLPタスクで有効であることが証明されている。 しかし、それらのトレーニングは、最先端のオプティマイザや学習率スケジューラを慎重に設計する(例えば、従来のSGDは、トランスフォーマーを効果的に訓練することができない)ための非自明な努力を必要とする。 ここでの目標は、経験的および理論的観点から、$\textit{what complicatedes transformer training}$を理解することです。 解析の結果,不均衡勾配がトレーニングの不安定性の根本原因ではないことが明らかとなった。 その代わり、多層トランスフォーマーモデルの各層でトレーニングに実質的に影響を及ぼす増幅効果を識別するが、その残留ブランチへの重い依存は、小さなパラメータ摂動(例えば、パラメータ更新)を増幅し、モデル出力に重大な障害をもたらすため、トレーニングを不安定にする。 しかし、光依存がモデルポテンシャルを制限し、劣った訓練されたモデルにつながることが観察される。 当社の分析に触発されて我々は,初期段階のトレーニングを安定させ,その潜在能力を後期に解き放つために,admin (\textbf{ad}$aptive $\textbf{m}$odel $\textbf{in}$itialization)を提案する。 大規模な実験により、Adminはより安定し、より早く収束し、より良いパフォーマンスをもたらすことが示されている。 実装は、https://github.com/LiyuanLucasLiu/Transforemr-Clinic.comでリリースされている。

Transformers have proved effective in many NLP tasks. However, their training requires non-trivial efforts regarding designing cutting-edge optimizers and learning rate schedulers carefully (e.g., conventional SGD fails to train Transformers effectively). Our objective here is to understand $\textit{what complicates Transformer training}$ from both empirical and theoretical perspectives. Our analysis reveals that unbalanced gradients are not the root cause of the instability of training. Instead, we identify an amplification effect that influences training substantially -- for each layer in a multi-layer Transformer model, heavy dependency on its residual branch makes training unstable, since it amplifies small parameter perturbations (e.g., parameter updates) and results in significant disturbances in the model output. Yet we observe that a light dependency limits the model potential and leads to inferior trained models. Inspired by our analysis, we propose Admin ($\textbf{Ad}$aptive $\textbf{m}$odel $\textbf{in}$itialization) to stabilize stabilize the early stage's training and unleash its full potential in the late stage. Extensive experiments show that Admin is more stable, converges faster, and leads to better performance. Implementations are released at: https://github.com/LiyuanLucasLiu/Transforemr-Clinic.
翻訳日:2022-12-12 10:07:28 公開日:2020-09-18
# 知識認識型質問応答のためのスケーラブルなマルチホップ関係推論

Scalable Multi-Hop Relational Reasoning for Knowledge-Aware Question Answering ( http://arxiv.org/abs/2005.00646v2 )

ライセンス: Link先を確認
Yanlin Feng, Xinyue Chen, Bill Yuchen Lin, Peifeng Wang, Jun Yan, Xiang Ren(参考訳) 質問応答(QA)モデルを外部知識(例えば知識グラフ)で拡張する作業は、マルチホップ関係を効率的にモデル化するのに苦労するか、モデルの予測論理の透明性を欠いている。 本稿では,事前学習言語モデル(PTLM)にマルチホップ関係推論モジュール,MHGRN(Multi-hop graph relation network)を組み込む新しい知識認識手法を提案する。 外部知識グラフから抽出したサブグラフに対して多重ホップ・マルチリレーショナル推論を行う。 提案する推論モジュールは、パスベースの推論手法とグラフニューラルネットワークを統合し、解釈性と拡張性を向上させる。 また,CommonsenseQAおよびOpenbookQAデータセットの有効性とスケーラビリティを実証的に示すとともに,ケーススタディでその振る舞いを解釈する。

Existing work on augmenting question answering (QA) models with external knowledge (e.g., knowledge graphs) either struggle to model multi-hop relations efficiently, or lack transparency into the model's prediction rationale. In this paper, we propose a novel knowledge-aware approach that equips pre-trained language models (PTLMs) with a multi-hop relational reasoning module, named multi-hop graph relation network (MHGRN). It performs multi-hop, multi-relational reasoning over subgraphs extracted from external knowledge graphs. The proposed reasoning module unifies path-based reasoning methods and graph neural networks to achieve better interpretability and scalability. We also empirically show its effectiveness and scalability on CommonsenseQA and OpenbookQA datasets, and interpret its behaviors with case studies.
翻訳日:2022-12-07 22:59:42 公開日:2020-09-18
# 鳥の足は4本? NumerSense:事前訓練された言語モデルの数値コモンセンス知識の探索

Birds have four legs?! NumerSense: Probing Numerical Commonsense Knowledge of Pre-trained Language Models ( http://arxiv.org/abs/2005.00683v2 )

ライセンス: Link先を確認
Bill Yuchen Lin, Seyeon Lee, Rahul Khanna, Xiang Ren(参考訳) 近年の研究では、BERTのような事前学習言語モデル(PTLM)が、ある種の常識と事実的知識を持っていることが示されている。 彼らは、PTLMを「神経知識基盤」として、マスク付き単語を予測して使うことを約束していると示唆している。 驚くべきことに、これは数値コモンセンスの知識には役に立たない(例えば、鳥は通常2本の足を持つ)。 本稿では,ptlmsから数値コモンセンス知識を導出できるかどうか,また,このプロセスの堅牢性について検討する。 そこで本研究では,13.6kのマスキングワード予測プローブ(微調整用10.5k,テスト用3.1k)を含む診断データセットnumersenseを用いた新しい探索タスクを提案する。 解析の結果, (1) BERTとその強力な変種RoBERTaは, 微調整の前に診断データセットに悪影響を及ぼす, (2) 遠隔監視による微調整は, 改善をもたらす, (3) 最高の教師付きモデルは, 人的性能(精度54.06%対96.3%)と比較しても, 依然として低性能であることがわかった。

Recent works show that pre-trained language models (PTLMs), such as BERT, possess certain commonsense and factual knowledge. They suggest that it is promising to use PTLMs as "neural knowledge bases" via predicting masked words. Surprisingly, we find that this may not work for numerical commonsense knowledge (e.g., a bird usually has two legs). In this paper, we investigate whether and to what extent we can induce numerical commonsense knowledge from PTLMs as well as the robustness of this process. To study this, we introduce a novel probing task with a diagnostic dataset, NumerSense, containing 13.6k masked-word-prediction probes (10.5k for fine-tuning and 3.1k for testing). Our analysis reveals that: (1) BERT and its stronger variant RoBERTa perform poorly on the diagnostic dataset prior to any fine-tuning; (2) fine-tuning with distant supervision brings some improvement; (3) the best supervised model still performs poorly as compared to human performance (54.06% vs 96.3% in accuracy).
翻訳日:2022-12-07 11:40:34 公開日:2020-09-18
# aiの鑑識:人工知能システムがやったのか? なぜだ?

AI Forensics: Did the Artificial Intelligence System Do It? Why? ( http://arxiv.org/abs/2005.13635v2 )

ライセンス: Link先を確認
Johannes Schneider and Frank Breitinger(参考訳) ますます自律的な方法で、AIシステムは私たちの日常生活に影響を与える決定をします。 彼らの行動は事故、損害、あるいはより一般的には規制違反を引き起こす可能性がある。 したがって、AIシステムは様々な出来事の容疑者と見なされるかもしれない。 したがって、特定のイベントをAIとその所有者とその作者に関連付けることが不可欠である。 複数のメーカーのAIシステムが多種多様で、所有者が変更したり、自己学習を通じて変更したりする可能性があり、これは簡単ではないように思える。 本稿では、インシデントに責任を負うAIシステムと、"設計が重要"である可能性のあるモチベーションの特定方法について論じる。 概念化に加えて,強化学習と畳み込みニューラルネットワークを用いた2つのケーススタディを実施し,提案手法と課題について述べる。 私たちのケースでは、"aiシステムを捕まえる"というのはささいなことではありませんし、機械学習の専門知識も必要です。 AIシステムの運用中に収集される必須情報を強制する法的措置と、システムを独自に識別する手段は、この問題を促進する可能性がある。

In an increasingly autonomous manner AI systems make decisions impacting our daily life. Their actions might cause accidents, harm or, more generally, violate regulations -- either intentionally or not. Thus, AI systems might be considered suspects for various events. Therefore, it is essential to relate particular events to an AI, its owner and its creator. Given a multitude of AI systems from multiple manufactures, potentially, altered by their owner or changing through self-learning, this seems non-trivial. This paper discusses how to identify AI systems responsible for incidents as well as their motives that might be "malicious by design". In addition to a conceptualization, we conduct two case studies based on reinforcement learning and convolutional neural networks to illustrate our proposed methods and challenges. Our cases illustrate that "catching AI systems" seems often far from trivial and requires extensive expertise in machine learning. Legislative measures that enforce mandatory information to be collected during operation of AI systems as well as means to uniquely identify systems might facilitate the problem.
翻訳日:2022-11-28 09:34:38 公開日:2020-09-18
# MetaInv-Net:Sparse View CT画像再構成のためのメタインバージョンネットワーク

MetaInv-Net: Meta Inversion Network for Sparse View CT Image Reconstruction ( http://arxiv.org/abs/2006.00171v3 )

ライセンス: Link先を確認
Haimiao Zhang, Baodong Liu, Hengyong Yu, Bin Dong(参考訳) X線CT(CT)は診断や画像誘導療法などの臨床応用に広く用いられている。 本稿では,反復アルゴリズムの展開により構築したバックボーンネットワークアーキテクチャを用いて,CT画像再構成のための新しいディープラーニングモデルを提案する。 しかし、出来るだけ多くのデータ適応コンポーネントをアンロールされたダイナミックスモデルに含めるという既存の戦略とは異なり、従来のデザインが直観や経験に依存している部分のみを学ぶことは十分である。 より具体的には、バックボーンモデルのサブ問題の1つに関与する共役勾配(cg)アルゴリズムの初期化子を学ぶことを提案する。 イメージプリエントやハイパーパラメータといった他のコンポーネントは、元の設計として保持される。 CGモジュールの初期化を推測するためにハイパーネットワークが導入されたため、提案モデルが特定のメタ学習モデルとなる。 したがって、提案モデルをメタインバージョンネットワーク(metainv-net)と呼ぶ。 提案されたmetainv-netはトレーニング可能なパラメータをはるかに少なくして設計できるが、ct画像における最先端のディープモデルよりも優れた画像再構成性能を維持している。 シミュレーションおよび実データ実験では、MetaInv-Netは非常によく機能し、トレーニング設定、すなわち他のスキャン設定、ノイズレベル、データセットを超越して一般化することができる。

X-ray Computed Tomography (CT) is widely used in clinical applications such as diagnosis and image-guided interventions. In this paper, we propose a new deep learning based model for CT image reconstruction with the backbone network architecture built by unrolling an iterative algorithm. However, unlike the existing strategy to include as many data-adaptive components in the unrolled dynamics model as possible, we find that it is enough to only learn the parts where traditional designs mostly rely on intuitions and experience. More specifically, we propose to learn an initializer for the conjugate gradient (CG) algorithm that involved in one of the subproblems of the backbone model. Other components, such as image priors and hyperparameters, are kept as the original design. Since a hypernetwork is introduced to inference on the initialization of the CG module, it makes the proposed model a certain meta-learning model. Therefore, we shall call the proposed model the meta-inversion network (MetaInv-Net). The proposed MetaInv-Net can be designed with much less trainable parameters while still preserves its superior image reconstruction performance than some state-of-the-art deep models in CT imaging. In simulated and real data experiments, MetaInv-Net performs very well and can be generalized beyond the training setting, i.e., to other scanning settings, noise levels, and data sets.
翻訳日:2022-11-26 17:49:41 公開日:2020-09-18
# COMET:小型物体追跡のためのコンテキスト対応IoUガイドネットワーク

COMET: Context-Aware IoU-Guided Network for Small Object Tracking ( http://arxiv.org/abs/2006.02597v3 )

ライセンス: Link先を確認
Seyed Mojtaba Marvasti-Zadeh, Javad Khaghani, Hossein Ghanei-Yakhdan, Shohreh Kasaei, and Li Cheng(参考訳) 中高度から高高度の空撮映像から未知の小型目標を追跡することの問題点を考察する。 これは難しい問題であり、急激なカメラの動きと高密度の不可避なシナリオではさらに顕著である。 この問題に対処するために,マルチタスク2ストリームネットワークとオフライン参照提案生成戦略を利用するコンテキスト対応IoU誘導トラッカー(COMET)を導入する。 提案するネットワークは,マルチスケールの特徴学習とアテンションモジュールによるターゲット関連情報を完全に活用する。 提案手法では, オンライントラッキングにおいて, 余分な計算複雑性を伴わずに, ターゲットとその部分のネットワークを一般化するための効率的なサンプリング戦略を導入する。 これらの戦略は大きな咬合や視点の変化の処理に大いに寄与している。 COMETは、小さなオブジェクトを追跡することに焦点を当てた、さまざまな空中ビューデータセットにおいて、最先端のデータをパフォーマンスします。 具体的には、COMETは、UAVDT、VisDrone-2019、Small-90の挑戦的なベンチマークで平均6.2%(および7%)の精度でATOMトラッカーを上回っている。

We consider the problem of tracking an unknown small target from aerial videos of medium to high altitudes. This is a challenging problem, which is even more pronounced in unavoidable scenarios of drastic camera motion and high density. To address this problem, we introduce a context-aware IoU-guided tracker (COMET) that exploits a multitask two-stream network and an offline reference proposal generation strategy. The proposed network fully exploits target-related information by multi-scale feature learning and attention modules. The proposed strategy introduces an efficient sampling strategy to generalize the network on the target and its parts without imposing extra computational complexity during online tracking. These strategies contribute considerably in handling significant occlusions and viewpoint changes. Empirically, COMET outperforms the state-of-the-arts in a range of aerial view datasets that focusing on tracking small objects. Specifically, COMET outperforms the celebrated ATOM tracker by an average margin of 6.2% (and 7%) in precision (and success) score on challenging benchmarks of UAVDT, VisDrone-2019, and Small-90.
翻訳日:2022-11-25 12:40:37 公開日:2020-09-18
# ニューヨーク市におけるZIPコードレベルの影響評価のための教師なし機械学習手法

An Unsupervised Machine Learning Approach to Assess the ZIP Code Level Impact of COVID-19 in NYC ( http://arxiv.org/abs/2006.08361v3 )

ライセンス: Link先を確認
Fadoua Khmaissia, Pegah Sagheb Haghighi, Aarthe Jayaprakash, Zhenwei Wu, Sokratis Papadopoulos, Yuan Lai, Freddy T. Nguyen(参考訳) ニューヨークは新型コロナウイルスのパンデミックの世界的な中心地と認識されている。 ニューヨークの新型コロナウイルス(covid-19)新規感染者の増加率と高い相関関係にある重要な要因を明らかにするため,教師なし機械学習フレームワークを提案する。 同様の人口統計,社会経済,移動パターンを持つZIPコード領域が同様のアウトブレイクを経験する可能性が高いという仮定に基づいて,クラスタリングを行う上で最も関連性の高い特徴を選択し,それらを9つの解釈可能なカテゴリに分類する。 適切な対策を講じることで、政策立案者が早期にウイルスの感染拡大を予測・防ぐことができると考えている。

New York City has been recognized as the world's epicenter of the novel Coronavirus pandemic. To identify the key inherent factors that are highly correlated to the Increase Rate of COVID-19 new cases in NYC, we propose an unsupervised machine learning framework. Based on the assumption that ZIP code areas with similar demographic, socioeconomic, and mobility patterns are likely to experience similar outbreaks, we select the most relevant features to perform a clustering that can best reflect the spread, and map them down to 9 interpretable categories. We believe that our findings can guide policy makers to promptly anticipate and prevent the spread of the virus by taking the right measures.
翻訳日:2022-11-22 14:26:30 公開日:2020-09-18
# Faces \`a la Carte: Attribute Disentanglementによるテキスト対顔生成

Faces \`a la Carte: Text-to-Face Generation via Attribute Disentanglement ( http://arxiv.org/abs/2006.07606v2 )

ライセンス: Link先を確認
Tianren Wang, Teng Zhang, Brian Lovell(参考訳) text-to-face (ttf) 合成は様々なコンピュータビジョンアプリケーションにとって大きな可能性を秘めた課題である。 text-to-image(tti)合成タスクと比較して、顔の属性の多様性と高次元抽象自然言語のパースにより、顔のテキスト記述はずっと複雑で詳細になる。 本稿では,テキストと画像の一貫性を持った高解像度(1024x1024)画像を生成するだけでなく,多彩な表情を出力し,多様な不特定な顔特徴を自然にカバーするテキスト対面モデルを提案する。 マルチラベル分類器と画像エンコーダを微調整することにより,正規分布からサンプリングした入力雑音ベクトルを変換するためのベクトルおよび画像埋め込みを得る。 その後、変換されたノイズベクトルを事前訓練された高解像度画像生成装置に入力し、所望の顔特性を有する一連の顔を生成する。 我々はこのモデルをTF-HDと呼ぶ。 実験結果から,TTF-HDは最先端の性能を有する高品質な顔を生成することがわかった。

Text-to-Face (TTF) synthesis is a challenging task with great potential for diverse computer vision applications. Compared to Text-to-Image (TTI) synthesis tasks, the textual description of faces can be much more complicated and detailed due to the variety of facial attributes and the parsing of high dimensional abstract natural language. In this paper, we propose a Text-to-Face model that not only produces images in high resolution (1024x1024) with text-to-image consistency, but also outputs multiple diverse faces to cover a wide range of unspecified facial features in a natural way. By fine-tuning the multi-label classifier and image encoder, our model obtains the vectors and image embeddings which are used to transform the input noise vector sampled from the normal distribution. Afterwards, the transformed noise vector is fed into a pre-trained high-resolution image generator to produce a set of faces with the desired facial attributes. We refer to our model as TTF-HD. Experimental results show that TTF-HD generates high-quality faces with state-of-the-art performance.
翻訳日:2022-11-21 21:08:21 公開日:2020-09-18
# BERTプレトレーニングの54分での大バッチ最適化

Accelerated Large Batch Optimization of BERT Pretraining in 54 minutes ( http://arxiv.org/abs/2006.13484v2 )

ライセンス: Link先を確認
Shuai Zheng and Haibin Lin and Sheng Zha and Mu Li(参考訳) BERTは最近、自然言語理解(NLU)に多くの注目を集め、様々なNLUタスクで最先端の結果を得た。 しかし、その成功には巨大なディープニューラルネットワークと膨大なデータが必要であり、長いトレーニング時間と開発進捗の妨げとなる。 大規模ミニバッチを用いた確率的勾配手法は、トレーニング時間を短縮するための効率的なツールとして提唱されている。 この一連の研究の中で、LAMBはBERTのトレーニング時間をTPUv3 Podで3日から76分に短縮する顕著な例である。 本稿では,大規模ミニバッチの学習効率を向上させるため,LANSと呼ばれる高速化勾配法を提案する。 学習速度は関数のリプシッツ定数の逆数によって理論上界にあるので、より大きな学習率を選択することで最適化イテレーションの回数を常に減らすことはできない。 精度を損なわずにより大きなミニバッチサイズを使用するために,大規模学習率の難しさを克服する新しい学習速度スケジューラを開発した。 提案手法と学習率スキームを用いて,BERTプレトレーニングのフェーズ1と2において,ミニバッチサイズを96K,33Kにスケールアップした。 192のAWS EC2 P3dn.24xlargeインスタンスで54分かかり、SQuAD v1.1で目標F1スコアが90.5以上に達する。

BERT has recently attracted a lot of attention in natural language understanding (NLU) and achieved state-of-the-art results in various NLU tasks. However, its success requires large deep neural networks and huge amount of data, which result in long training time and impede development progress. Using stochastic gradient methods with large mini-batch has been advocated as an efficient tool to reduce the training time. Along this line of research, LAMB is a prominent example that reduces the training time of BERT from 3 days to 76 minutes on a TPUv3 Pod. In this paper, we propose an accelerated gradient method called LANS to improve the efficiency of using large mini-batches for training. As the learning rate is theoretically upper bounded by the inverse of the Lipschitz constant of the function, one cannot always reduce the number of optimization iterations by selecting a larger learning rate. In order to use larger mini-batch size without accuracy loss, we develop a new learning rate scheduler that overcomes the difficulty of using large learning rate. Using the proposed LANS method and the learning rate scheme, we scaled up the mini-batch sizes to 96K and 33K in phases 1 and 2 of BERT pretraining, respectively. It takes 54 minutes on 192 AWS EC2 P3dn.24xlarge instances to achieve a target F1 score of 90.5 or higher on SQuAD v1.1, achieving the fastest BERT training time in the cloud.
翻訳日:2022-11-17 08:57:08 公開日:2020-09-18
# Chess Transformer: 生成言語モデルを用いたマスタリングプレイ

The Chess Transformer: Mastering Play using Generative Language Models ( http://arxiv.org/abs/2008.04057v5 )

ライセンス: Link先を確認
David Noever, Matt Ciolino and Josh Kalin(参考訳) この研究は、自然言語トランスフォーマーがより汎用的な戦略的モデリング、特にテキスト構造化ゲームをサポートできることを実証している。 自然言語スキルの習得に加えて、抽象トランスフォーマーアーキテクチャはチェス盤上で意味のある動きを生成することができる。 さらなる微調整により、トランスフォーマーはポータブルゲーム表記で2800万のチェスゲームを訓練することで複雑なゲームプレイを学習する。 30,000のトレーニングステップの後、OpenAIのGenerative Pre-trained Transformer (GPT-2)は7億7400万のパラメータの重量を最適化する。 この微調整されたチェストランスフォーマーは、妥当な戦略を生成し、英語やスラヴ交換のような古典的な開口部として識別可能なゲーム形成を表示する。 最後に、ライブプレイにおいて、新しいモデルは、不正な動きを正しくフィルターし、トランスフォーマーのチェス戦略に挑戦する新しい方法を提供する、人間とトランスフォーマーのインターフェースを実証する。 特に、シンプルで表現力に富んだプレーヤアノテーションから複雑なルール構文をキャプチャできる他の戦略ゲームでは、今後の作業がこのトランスフォーマーの約束に基づいて構築されることを期待しています。

This work demonstrates that natural language transformers can support more generic strategic modeling, particularly for text-archived games. In addition to learning natural language skills, the abstract transformer architecture can generate meaningful moves on a chessboard. With further fine-tuning, the transformer learns complex gameplay by training on 2.8 million chess games in Portable Game Notation. After 30,000 training steps, OpenAI's Generative Pre-trained Transformer (GPT-2) optimizes weights for 774 million parameters. This fine-tuned Chess Transformer generates plausible strategies and displays game formations identifiable as classic openings, such as English or the Slav Exchange. Finally, in live play, the novel model demonstrates a human-to-transformer interface that correctly filters illegal moves and provides a novel method to challenge the transformer's chess strategies. We anticipate future work will build on this transformer's promise, particularly in other strategy games where features can capture the underlying complex rule syntax from simple but expressive player annotations.
翻訳日:2022-11-03 19:21:41 公開日:2020-09-18
# CNNのパラメータ再利用可能性を探る

Exploring the parameter reusability of CNN ( http://arxiv.org/abs/2008.03411v2 )

ライセンス: Link先を確認
Wei Wang, Lin Cheng, Yanjie Zhu, Dong Liang(参考訳) 近年、ネットワークのトレーニングに小さなデータを使うことは、ディープラーニングの分野でホットな話題となっている。 事前訓練されたパラメータの再利用は、半教師付きおよび移動学習の問題に対処する最も重要な戦略の1つである。 しかし、これらの手法が成功した根本的な理由はいまだ不明である。 本稿では,畳み込みカーネルの性能に基づいて,あるネットワークが再利用可能なかどうかを判断するだけでなく,対応するパラメータの再利用性能に基づいて,与えられたネットワークのどのレイヤのパラメータを再利用できるかを判断し,最終的に,対応する畳み込みカーネルの根平均二乗誤差(rmse)に基づいて対象タスクにおいてそれらのパラメータが再利用可能なかどうかを判定する手法を提案する。 具体的には、CNNのパラメータ再利用の成功は、ネットワークが再利用可能なネットワークであることと、ソースドメインとターゲットドメインとの畳み込みカーネル間のRMSEが十分に小さいことの2つの条件に依存すると定義する。 実験により,これらの条件が満たされた場合,対象タスクに適用した再利用パラメータの性能が大幅に向上したことを示す。

In recent times, using small data to train networks has become a hot topic in the field of deep learning. Reusing pre-trained parameters is one of the most important strategies to address the issue of semi-supervised and transfer learning. However, the fundamental reason for the success of these methods is still unclear. In this paper, we propose a solution that can not only judge whether a given network is reusable or not based on the performance of reusing convolution kernels but also judge which layers' parameters of the given network can be reused, based on the performance of reusing corresponding parameters and, ultimately, judge whether those parameters are reusable or not in a target task based on the root mean square error (RMSE) of the corresponding convolution kernels. Specifically, we define that the success of a CNN's parameter reuse depends upon two conditions: first, the network is a reusable network; and second, the RMSE between the convolution kernels from the source domain and target domain is small enough. The experimental results demonstrate that the performance of reused parameters applied to target tasks, when these conditions are met, is significantly improved.
翻訳日:2022-11-01 11:47:50 公開日:2020-09-18
# $SU(N)$ゲージ同変流を用いたサンプリング

Sampling using $SU(N)$ gauge equivariant flows ( http://arxiv.org/abs/2008.05456v2 )

ライセンス: Link先を確認
Denis Boyda, Gurtej Kanwar, S\'ebastien Racani\`ere, Danilo Jimenez Rezende, Michael S. Albergo, Kyle Cranmer, Daniel C. Hackett, Phiala E. Shanahan(参考訳) 構成によりゲージ不変となるsu(n)$格子ゲージ理論のためのフローベースサンプリングアルゴリズムを開発した。 私たちの重要な貢献は、行列共役対称性を尊重する$su(n)$変数(または単純な代替で$u(n)$変数)上にフローのクラスを構築することです。 この手法を1つの$su(n)$変数のサンプル分布に適用し、2次元の$su(2)$と$su(3)$格子ゲージ理論のフローベースのスプライマーを構築する。

We develop a flow-based sampling algorithm for $SU(N)$ lattice gauge theories that is gauge-invariant by construction. Our key contribution is constructing a class of flows on an $SU(N)$ variable (or on a $U(N)$ variable by a simple alternative) that respect matrix conjugation symmetry. We apply this technique to sample distributions of single $SU(N)$ variables and to construct flow-based samplers for $SU(2)$ and $SU(3)$ lattice gauge theory in two dimensions.
翻訳日:2022-10-31 05:04:35 公開日:2020-09-18
# グラフ畳み込みネットワークを用いたメッシュ誘導ワンショット顔再現

Mesh Guided One-shot Face Reenactment using Graph Convolutional Networks ( http://arxiv.org/abs/2008.07783v2 )

ライセンス: Link先を確認
Guangming Yao, Yi Yuan, Tianjia Shao, Kun Zhou(参考訳) 顔再現は、駆動画像によって提供される異なるポーズと表現にソースの顔画像をアニメーションすることを目的としている。 既存のアプローチは特定のアイデンティティのために設計されているか、ワンショットまたは数ショットのシナリオでアイデンティティ保存の問題に悩まされている。 本稿では、再構成された3Dメッシュ(すなわち、ソースメッシュと駆動メッシュ)を誘導として、再構成された顔合成に必要な光の流れを学習するワンショット顔再現法を提案する。 技術的には、再建された駆動メッシュにおいて、運転顔の識別情報を明示的に除外する。 このように、本ネットワークは、駆動面形状の干渉を伴わずに、音源面の運動推定に焦点を合わせることができる。 非対称オートエンコーダである顔の動きを学習するための運動ネットを提案する。 エンコーダはメッシュから潜動ベクトルを学習するグラフ畳み込みネットワーク(GCN)であり、デコーダは潜動ベクトルからCNNによる光フロー画像を生成する。 光フロー学習を導くためにスパースキーポイントを用いた従来の方法と比較して、モーションネットは3次元高密度メッシュから直接光学フローを学習し、光学フローの詳細な形状とポーズ情報を提供し、より正確な表現と再現された顔のポーズを実現できる。 大規模実験により,本手法は質的,定量的両比較において,高品質な結果が得られ,最先端の手法よりも優れることが示された。

Face reenactment aims to animate a source face image to a different pose and expression provided by a driving image. Existing approaches are either designed for a specific identity, or suffer from the identity preservation problem in the one-shot or few-shot scenarios. In this paper, we introduce a method for one-shot face reenactment, which uses the reconstructed 3D meshes (i.e., the source mesh and driving mesh) as guidance to learn the optical flow needed for the reenacted face synthesis. Technically, we explicitly exclude the driving face's identity information in the reconstructed driving mesh. In this way, our network can focus on the motion estimation for the source face without the interference of driving face shape. We propose a motion net to learn the face motion, which is an asymmetric autoencoder. The encoder is a graph convolutional network (GCN) that learns a latent motion vector from the meshes, and the decoder serves to produce an optical flow image from the latent vector with CNNs. Compared to previous methods using sparse keypoints to guide the optical flow learning, our motion net learns the optical flow directly from 3D dense meshes, which provide the detailed shape and pose information for the optical flow, so it can achieve more accurate expression and pose on the reenacted face. Extensive experiments show that our method can generate high-quality results and outperforms state-of-the-art methods in both qualitative and quantitative comparisons.
翻訳日:2022-10-27 21:41:14 公開日:2020-09-18
# モードシーキング機能を用いたテキスト画像生成の改善

Improving Text to Image Generation using Mode-seeking Function ( http://arxiv.org/abs/2008.08976v4 )

ライセンス: Link先を確認
Naitik Bhise, Zhenfei Zhang, Tien D. Bui(参考訳) Generative Adversarial Networks (GAN) は、テキストと画像間の意味的関係を理解するために長い間使われてきた。 しかし、画像生成においてモード崩壊の問題があり、いくつかの好ましい出力モードが生じる。 本研究の目的は,特定のモード探索損失関数を用いてネットワークのトレーニングを改善することである。 テキストから画像合成における損失関数は,画像生成における遅延空間内の2点を区別する。 CUB(Caltech Birds)データセットとMicrosoft COCOデータセット上で,トレーニング中の損失関数の強度を変化させることで,本モデルを検証した。 実験の結果,我々のモデルは最先端のアプローチと比較して非常によく機能することがわかった。

Generative Adversarial Networks (GANs) have long been used to understand the semantic relationship between the text and image. However, there are problems with mode collapsing in the image generation that causes some preferred output modes. Our aim is to improve the training of the network by using a specialized mode-seeking loss function to avoid this issue. In the text to image synthesis, our loss function differentiates two points in latent space for the generation of distinct images. We validate our model on the Caltech Birds (CUB) dataset and the Microsoft COCO dataset by changing the intensity of the loss function during the training. Experimental results demonstrate that our model works very well compared to some state-of-the-art approaches.
翻訳日:2022-10-27 12:37:16 公開日:2020-09-18
# hypertendril:ディープニューラルネットワークのユーザ駆動ハイパーパラメータ最適化のためのビジュアル分析

HyperTendril: Visual Analytics for User-Driven Hyperparameter Optimization of Deep Neural Networks ( http://arxiv.org/abs/2009.02078v2 )

ライセンス: Link先を確認
Heungseok Park, Yoonsoo Nam, Ji-Hoon Kim, Jaegul Choo(参考訳) ディープニューラルネットワークのハイパーパラメータを手動でチューニングする手間を軽減するため、大規模な組合せ探索空間において最適なハイパーパラメータセットを探すために、自動機械学習(AutoML)手法が開発された。 しかし、AutoMLメソッドの検索結果は初期設定に大きく依存しているため、適切な設定を見つけるのは簡単ではない。 したがって、視覚分析アプローチによる人間の介入は、このタスクにおいて大きな可能性を秘めている。 そこで本研究では,ユーザ主導型ハイパーパラメータチューニングプロセスをサポートするWebベースのビジュアル分析システムHyperTendrilを提案する。 HyperTendrilは、ユーザが与えられた結果から自身の洞察に基づいて検索空間とAutoMLメソッドの設定を洗練できる反復的インタラクティブなチューニング手順を通じて、ハイパーパラメータ最適化を効果的に操る新しいアプローチを採用している。 HyperTendrilを使うことで、ユーザは様々なハイパーパラメータ検索アルゴリズムの複雑な振る舞いに関する洞察を得て、設定を診断できる。 さらに、HyperTendrilは、異なるハイパーパラメータの相対的重要性とそれらの相互作用効果の分析に基づいて、ユーザが検索空間を洗練するための変数重要度分析をサポートする。 本稿では,HyperTendrilが,プロフェッショナルな産業環境にシステムを展開する際に,対話ログの分析と詳細なインタビューに基づく縦断的ユーザスタディを通じて,ユーザがチューニングプロセスの運営を支援する方法を示す。

To mitigate the pain of manually tuning hyperparameters of deep neural networks, automated machine learning (AutoML) methods have been developed to search for an optimal set of hyperparameters in large combinatorial search spaces. However, the search results of AutoML methods significantly depend on initial configurations, making it a non-trivial task to find a proper configuration. Therefore, human intervention via a visual analytic approach bears huge potential in this task. In response, we propose HyperTendril, a web-based visual analytics system that supports user-driven hyperparameter tuning processes in a model-agnostic environment. HyperTendril takes a novel approach to effectively steering hyperparameter optimization through an iterative, interactive tuning procedure that allows users to refine the search spaces and the configuration of the AutoML method based on their own insights from given results. Using HyperTendril, users can obtain insights into the complex behaviors of various hyperparameter search algorithms and diagnose their configurations. In addition, HyperTendril supports variable importance analysis to help the users refine their search spaces based on the analysis of relative importance of different hyperparameters and their interaction effects. We present the evaluation demonstrating how HyperTendril helps users steer their tuning processes via a longitudinal user study based on the analysis of interaction logs and in-depth interviews while we deploy our system in a professional industrial environment.
翻訳日:2022-10-22 02:17:09 公開日:2020-09-18
# MAT:モーション対応マルチオブジェクトトラッキング

MAT: Motion-Aware Multi-Object Tracking ( http://arxiv.org/abs/2009.04794v2 )

ライセンス: Link先を確認
Shoudong Han, Piao Huang, Hongwei Wang, En Yu, Donghaisheng Liu, Xiaofeng Pan, Jun Zhao(参考訳) 現代のマルチオブジェクト追跡(MOT)システムは、通常、フレーム単位の検出を関連付けることで軌道をモデル化する。 しかし, カメラ動作, 高速動作, 咬合課題が発生すると, 遠距離追尾やトラックレットの純度, 特に小型物体に対しては, 確保が困難となる。 ノイズのある部分検出、類似の外観、時間的空間的制約の欠如などにより、再同定がしばしば用いられるが、信頼できないだけでなく、オクルードされた物やぼやけた物に対する誤った否定にも対処できない。 本稿では,様々な物体の動作パターンに焦点をあてた運動認識トラッカ(mat)という拡張motパラダイムを提案する。 剛性カメラ動作と非剛性歩行者動作とを混合して統合動作定位モジュールを形成する。 また, 長期動作ベース再接続のロバスト性のバランスを図ることを目的とした動的再接続コンテキストモジュールを導入し, 閉塞やぼやけに起因する追跡フラグメントをスムーズに埋める循環型擬似観測更新ストラテジを含む。 さらに、3d積分画像モジュールにより、時間空間制約を伴う不要なトラック検出関連接続を効率的に切断する。 MOT16とMOT17の挑戦的なベンチマークに関する大規模な実験は、我々のMATアプローチが、他の最先端トラッカーとは対照的に、高い効率で大きなマージンで優れたパフォーマンスを達成できることを実証している。

Modern multi-object tracking (MOT) systems usually model the trajectories by associating per-frame detections. However, when camera motion, fast motion, and occlusion challenges occur, it is difficult to ensure long-range tracking or even the tracklet purity, especially for small objects. Although re-identification is often employed, due to noisy partial-detections, similar appearance, and lack of temporal-spatial constraints, it is not only unreliable and time-consuming, but still cannot address the false negatives for occluded and blurred objects. In this paper, we propose an enhanced MOT paradigm, namely Motion-Aware Tracker (MAT), focusing more on various motion patterns of different objects. The rigid camera motion and nonrigid pedestrian motion are blended compatibly to form the integrated motion localization module. Meanwhile, we introduce the dynamic reconnection context module, which aims to balance the robustness of long-range motion-based reconnection, and includes the cyclic pseudo-observation updating strategy to smoothly fill in the tracking fragments caused by occlusion or blur. Additionally, the 3D integral image module is presented to efficiently cut useless track-detection association connections with temporal-spatial constraints. Extensive experiments on MOT16 and MOT17 challenging benchmarks demonstrate that our MAT approach can achieve the superior performance by a large margin with high efficiency, in contrast to other state-of-the-art trackers.
翻訳日:2022-10-20 03:45:43 公開日:2020-09-18
# 市販のbertの適用から学んだ教訓: 銀の弾丸はない

Lessons Learned from Applying off-the-shelf BERT: There is no Silver Bullet ( http://arxiv.org/abs/2009.07238v2 )

ライセンス: Link先を確認
Victor Makarenkov and Lior Rokach(参考訳) NLP分野における課題の1つは、大きな分類モデルのトレーニングである。 GPUハードウェアが使えない場合には、さらに難しい。 トレーニング済みおよび市販のワード埋め込み、モデル、モジュールの可用性の向上は、大規模モデルのトレーニングプロセスの緩和と、競争力のあるパフォーマンスの実現を目的としている。 既製のBERTモデルを用いて実験結果を共有し,LSTMネットワークやより単純なベースラインと比較する。 BERTの複雑さと計算コストは,手前の分類タスクにおける予測性能の向上を保証するものではないことを示す。

One of the challenges in the NLP field is training large classification models, a task that is both difficult and tedious. It is even harder when GPU hardware is unavailable. The increased availability of pre-trained and off-the-shelf word embeddings, models, and modules aim at easing the process of training large models and achieving a competitive performance. We explore the use of off-the-shelf BERT models and share the results of our experiments and compare their results to those of LSTM networks and more simple baselines. We show that the complexity and computational cost of BERT is not a guarantee for enhanced predictive performance in the classification tasks at hand.
翻訳日:2022-10-18 05:12:39 公開日:2020-09-18
# DRL-FAS:顔アンチスプーフィングのための深層強化学習に基づく新しいフレームワーク

DRL-FAS: A Novel Framework Based on Deep Reinforcement Learning for Face Anti-Spoofing ( http://arxiv.org/abs/2009.07529v2 )

ライセンス: Link先を確認
Rizhao Cai, Haoliang Li, Shiqi Wang, Changsheng Chen, and Alex Chichung Kot(参考訳) 提案する顔の例が本物かどうかを判断するために,人間によって採用された哲学,すなわち,まずグローバルに見つめ,その地域を慎重に観察し,より差別的な情報を得るために,顔の反偽造問題に対して,コンボリューショナルニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)に基づく新しい枠組みを提案する。 特に,深層強化学習を活用し,画像サブパッチから顔スプーフィング関連情報を探索する動作をモデル化する。 さらに,rnnを用いて探索したサブパッチから局所情報の表現を逐次学習するリカレント機構を導入する。 最後に、分類目的のために、ローカル情報をグローバルなものと融合させ、CNNを通して元の入力画像から学習することができる。 さらに,アブリレーション研究や可視化分析を含む広範な実験を行い,提案するフレームワークを様々な公開データベース上で評価する。 実験結果から,本手法はすべてのシナリオで最先端性能を達成でき,その有効性が示された。

Inspired by the philosophy employed by human beings to determine whether a presented face example is genuine or not, i.e., to glance at the example globally first and then carefully observe the local regions to gain more discriminative information, for the face anti-spoofing problem, we propose a novel framework based on the Convolutional Neural Network (CNN) and the Recurrent Neural Network (RNN). In particular, we model the behavior of exploring face-spoofing-related information from image sub-patches by leveraging deep reinforcement learning. We further introduce a recurrent mechanism to learn representations of local information sequentially from the explored sub-patches with an RNN. Finally, for the classification purpose, we fuse the local information with the global one, which can be learned from the original input image through a CNN. Moreover, we conduct extensive experiments, including ablation study and visualization analysis, to evaluate our proposed framework on various public databases. The experiment results show that our method can generally achieve state-of-the-art performance among all scenarios, demonstrating its effectiveness.
翻訳日:2022-10-18 00:22:37 公開日:2020-09-18
# 全スライド画像における関心領域検出のためのRCNN

RCNN for Region of Interest Detection in Whole Slide Images ( http://arxiv.org/abs/2009.07532v2 )

ライセンス: Link先を確認
A Nugaliyadde, Kok Wai Wong, Jeremy Parry, Ferdous Sohel, Hamid Laga, Upeka V. Somaratne, Chris Yeomans, Orchid Foster(参考訳) 近年、デジタル病理学が注目されている。 全体スライド画像(WSI)の解析は,ギガピクセルの解像度が非常に大きいため困難である。 関心領域の同定(rois)は、病理学者ががんの検出やその他の異常に対する診断関心領域をさらに分析する最初のステップである。 本稿では,学習用ラベル付きWSIのみを用いて,深層学習技術であるRCNNを用いて,これらのROIを検出する手法について検討する。 実験には,西オーストラリア州にある公立病院の病理サービスから,実際のwsisを用いた。 RCNNモデルのトレーニングには60のWSIと、テストには12のWSIを使用しました。 このモデルは、目に見えない新しいWSIセットでさらにテストされた。 その結果, RCNN は WSI からのROI 検出に有効であることがわかった。

Digital pathology has attracted significant attention in recent years. Analysis of Whole Slide Images (WSIs) is challenging because they are very large, i.e., of Giga-pixel resolution. Identifying Regions of Interest (ROIs) is the first step for pathologists to analyse further the regions of diagnostic interest for cancer detection and other anomalies. In this paper, we investigate the use of RCNN, which is a deep machine learning technique, for detecting such ROIs only using a small number of labelled WSIs for training. For experimentation, we used real WSIs from a public hospital pathology service in Western Australia. We used 60 WSIs for training the RCNN model and another 12 WSIs for testing. The model was further tested on a new set of unseen WSIs. The results show that RCNN can be effectively used for ROI detection from WSIs.
翻訳日:2022-10-17 23:46:30 公開日:2020-09-18
# 点雲変換による単一画像からの新規ビュー合成

Novel View Synthesis from Single Images via Point Cloud Transformation ( http://arxiv.org/abs/2009.08321v2 )

ライセンス: Link先を確認
Hoang-An Le, Thomas Mensink, Partha Das, Theo Gevers(参考訳) 本稿では,オブジェクトを任意の視点から合成できるオブジェクトの真の新規なビュー合成について,明示的な3次元形状表現が望ましいという議論を行う。 提案手法では,物体の形状を捉えるために点雲を推定し,望まれる視点に自由に回転させて新たな画像に投影する。 しかし、この画像は自然によって疎いので、この粗いビューを画像補完ネットワークの入力として使用して、密集したターゲットビューを得る。 点雲は、カメラ固有の1枚のRGB入力画像から推定される予測画素幅深度マップを用いて得られる。 入力ビューとターゲットビューの間に前方のワーピングと後方のワーピングを使用することで、ネットワークを奥行きの監視なしにエンドツーエンドにトレーニングすることができる。 新しいビュー合成のための明示的な3次元形状として点雲を用いる利点は、3D ShapeNetベンチマークで実験的に検証されている。 ソースコードとデータはhttps://lhoangan.github.io/pc4novis/で入手できる。

In this paper the argument is made that for true novel view synthesis of objects, where the object can be synthesized from any viewpoint, an explicit 3D shape representation isdesired. Our method estimates point clouds to capture the geometry of the object, which can be freely rotated into the desired view and then projected into a new image. This image, however, is sparse by nature and hence this coarse view is used as the input of an image completion network to obtain the dense target view. The point cloud is obtained using the predicted pixel-wise depth map, estimated from a single RGB input image,combined with the camera intrinsics. By using forward warping and backward warpingbetween the input view and the target view, the network can be trained end-to-end without supervision on depth. The benefit of using point clouds as an explicit 3D shape for novel view synthesis is experimentally validated on the 3D ShapeNet benchmark. Source code and data will be available at https://lhoangan.github.io/pc4novis/.
翻訳日:2022-10-17 11:47:47 公開日:2020-09-18
# 領域適応オブジェクト検出のための領域提案局所化と分類の協調学習

Collaborative Training between Region Proposal Localization and Classification for Domain Adaptive Object Detection ( http://arxiv.org/abs/2009.08119v2 )

ライセンス: Link先を確認
Ganlong Zhao, Guanbin Li, Ruijia Xu, Liang Lin(参考訳) 物体検出器は通常、大量のラベル付きデータで訓練されるが、これは高価で労働集約的である。 ラベルなしデータセットに適用された事前トレーニングされた検出器は、常にドメインシフトと呼ばれるデータセット分布の違いに悩まされる。 オブジェクト検出のためのドメイン適応は、ラベル付きデータセットからラベル付きデータセットへの検出を適応させようとする。 本稿では,領域提案ネットワーク (rpn) と領域提案分類器 (rpc) が固有二段検出器 (例えば, より高速なrcnn) において大きな領域間ギャップに直面した場合, 転送性が著しく異なることを明らかにする。 領域分類器は好適な性能を示すが、RPNの高品質な提案がなければ制限されるが、バックボーンネットワークにおける単純なアライメントはRPNの適応には不十分である。 我々はRPNとRPCの一貫性と相違点を掘り下げ、それらを個別に扱い、一方の高信頼出力を他方を訓練するための相互指導として活用する。 さらに、RPNとRPCの差分計算やミニマックス最適化に低信頼のサンプルを用いる。 ドメイン適応型領域提案生成とオブジェクト検出の両方において,提案手法の有効性を実証した。 コードはhttps://github.com/ganlongzhao/cst_da_detectionで入手できる。

Object detectors are usually trained with large amount of labeled data, which is expensive and labor-intensive. Pre-trained detectors applied to unlabeled dataset always suffer from the difference of dataset distribution, also called domain shift. Domain adaptation for object detection tries to adapt the detector from labeled datasets to unlabeled ones for better performance. In this paper, we are the first to reveal that the region proposal network (RPN) and region proposal classifier~(RPC) in the endemic two-stage detectors (e.g., Faster RCNN) demonstrate significantly different transferability when facing large domain gap. The region classifier shows preferable performance but is limited without RPN's high-quality proposals while simple alignment in the backbone network is not effective enough for RPN adaptation. We delve into the consistency and the difference of RPN and RPC, treat them individually and leverage high-confidence output of one as mutual guidance to train the other. Moreover, the samples with low-confidence are used for discrepancy calculation between RPN and RPC and minimax optimization. Extensive experimental results on various scenarios have demonstrated the effectiveness of our proposed method in both domain-adaptive region proposal generation and object detection. Code is available at https://github.com/GanlongZhao/CST_DA_detection.
翻訳日:2022-10-17 11:37:38 公開日:2020-09-18
# 変圧器モデルの完全8ビット整数推論に向けて

Towards Fully 8-bit Integer Inference for the Transformer Model ( http://arxiv.org/abs/2009.08034v2 )

ライセンス: Link先を確認
Ye Lin, Yanyang Li, Tengbo Liu, Tong Xiao, Tongran Liu and Jingbo Zhu(参考訳) ディープニューラルネットワークのレイテンシとストレージを両立させる有望な方向として、8ビット整数推論が近年大きな進歩を遂げている。 一方、以前のシステムは複雑なモデル(例えばTransformerのSoftmax)の特定の関数に対して32ビット浮動小数点に依存しており、量子化と非量子化を多用している。 本研究では, Integer Transformer と呼ばれるTransformer アーキテクチャの基本的な変更を経て,(ほぼ) 完全 8ビット整数推論アルゴリズム Scale Propagation が導出可能であることを示す。 解量化は必要に応じて採用され、ネットワークをより効率的にする。 wmt16 en<->ro, wmt14 en<->deおよびen->fr翻訳タスクおよびwikitext-103言語モデリングタスクの実験では、完全な8ビットトランスフォーマシステムは浮動小数点ベースラインと同等の性能を達成しているが、メモリフットプリントは4倍近く削減されている。

8-bit integer inference, as a promising direction in reducing both the latency and storage of deep neural networks, has made great progress recently. On the other hand, previous systems still rely on 32-bit floating point for certain functions in complex models (e.g., Softmax in Transformer), and make heavy use of quantization and de-quantization. In this work, we show that after a principled modification on the Transformer architecture, dubbed Integer Transformer, an (almost) fully 8-bit integer inference algorithm Scale Propagation could be derived. De-quantization is adopted when necessary, which makes the network more efficient. Our experiments on WMT16 En<->Ro, WMT14 En<->De and En->Fr translation tasks as well as the WikiText-103 language modelling task show that the fully 8-bit Transformer system achieves comparable performance with the floating point baseline but requires nearly 4x less memory footprint.
翻訳日:2022-10-17 09:11:43 公開日:2020-09-18
# ニューラルネットワークによるネットワーク侵入管理手法の実験的検討

Experimental Review of Neural-based approaches for Network Intrusion Management ( http://arxiv.org/abs/2009.09011v1 )

ライセンス: Link先を確認
Mario Di Mauro, Giovanni Galatro, Antonio Liotta(参考訳) 侵入検知システム(IDS)における機械学習(ML)技術の使用は、古典的なIDSを経由しない高度な攻撃がかなり多いため、ネットワークセキュリティ管理分野において顕著な役割を担っている。 これらは通常、特定の署名に基づいて攻撃を認識すること、または異常事象を検出することを目的としている。 しかし、決定論的で規則に基づく手法は、(特定のネットワーク状況におけるピークトラフィックのように)特定の(粗い)ネットワーク条件と実際のサイバー攻撃を区別できないことが多い。 本稿では,侵入検出問題に適用したニューラルネットワーク手法の実験的検討を行う。 具体的には 一 侵入検知に関する最も顕著な神経基盤技術について、深度に基づくアプローチ又は予期せぬ結果を特徴とする無重力神経ネットワークを含む完全なビューを提供すること。 二 新規データセット(旧式のkdd99 セットの更新)をスクラッチなpythonベースのルーチンで評価すること。 三 時間的複雑さ及び性能(正確性及びF尺度)、一級・多級双方の問題、資源消費と性能のトレードオフの特定等の実験的分析を行う。 この評価は、特に最先端のデータセットがモデルのトレーニングに使用される場合、ニューラルネットワークの価値を定量化する。 これにより、IDSへのニューラルベースMLの導入を検討しているセキュリティマネージャやコンピュータネットワーク実践者の興味深いガイドラインが導かれる。

The use of Machine Learning (ML) techniques in Intrusion Detection Systems (IDS) has taken a prominent role in the network security management field, due to the substantial number of sophisticated attacks that often pass undetected through classic IDSs. These are typically aimed at recognising attacks based on a specific signature, or at detecting anomalous events. However, deterministic, rule-based methods often fail to differentiate particular (rarer) network conditions (as in peak traffic during specific network situations) from actual cyber attacks. In this paper we provide an experimental-based review of neural-based methods applied to intrusion detection issues. Specifically, we i) offer a complete view of the most prominent neural-based techniques relevant to intrusion detection, including deep-based approaches or weightless neural networks, which feature surprising outcomes; ii) evaluate novel datasets (updated w.r.t. the obsolete KDD99 set) through a designed-from-scratch Python-based routine; iii) perform experimental analyses including time complexity and performance (accuracy and F-measure), considering both single-class and multi-class problems, and identifying trade-offs between resource consumption and performance. Our evaluation quantifies the value of neural networks, particularly when state-of-the-art datasets are used to train the models. This leads to interesting guidelines for security managers and computer network practitioners who are looking at the incorporation of neural-based ML into IDS.
翻訳日:2022-10-17 03:44:04 公開日:2020-09-18
# BCI構築のための脳波信号中のアーティファクトの解析

Analysis of artifacts in EEG signals for building BCIs ( http://arxiv.org/abs/2009.09116v1 )

ライセンス: Link先を確認
Srihari Maruthachalam(参考訳) 脳コンピュータインタフェース(BCI)は、人間の脳信号を解釈する重要なメカニズムである。 運動障害のある人が世界とコミュニケーションをとれるように支援技術を提供し、また独立生活をリードする力を与える。 一般的なBCIデバイスは頭皮から記録された脳波(EEG)電気活動を使用する。 脳波信号は、眼の瞬き、頭部の動き、顎の動きなど、多くの人工物が存在するためうるさい。 このようなアーティファクトは脳波信号を破壊し、脳波分析を困難にする。 この問題は、アーティファクトを見つけ出し、分析からEEGセグメントを除外することで解決され、有用な情報が失われる可能性がある。 しかし,低信号対雑音比の人工物を用いた実用的なBCIを提案する。 本研究の目的は,脳波信号の眼瞬き,頭部結節,頭部回転,顎運動など,さまざまな種類の人工物を分類することである。 アーティファクトの発生は、最初に脳波信号に置かれる。 位置したアーティファクトは、線形時間と動的時間ワープ技術を用いて分類される。 設置されたアーティファクトは、運動障害のある人がスマートフォンを制御するために使用できる。 単一チャネル脳波系におけるアイリンクと4チャンネル脳波系における顎クリンチを用いた音声合成アプリケーションを開発した。 単語予測モデルは単語補完に使用されるため、必要なアーティファクトの数を減らすことができる。

Brain-Computer Interface (BCI) is an essential mechanism that interprets the human brain signal. It provides an assistive technology that enables persons with motor disabilities to communicate with the world and also empowers them to lead independent lives. The common BCI devices use Electroencephalography (EEG) electrical activity recorded from the scalp. EEG signals are noisy owing to the presence of many artifacts, namely, eye blink, head movement, and jaw movement. Such artifacts corrupt the EEG signal and make EEG analysis challenging. This issue is addressed by locating the artifacts and excluding the EEG segment from the analysis, which could lead to a loss of useful information. However, we propose a practical BCI that uses the artifacts which has a low signal to noise ratio. The objective of our work is to classify different types of artifacts, namely eye blink, head nod, head turn, and jaw movements in the EEG signal. The occurrence of the artifacts is first located in the EEG signal. The located artifacts are then classified using linear time and dynamic time warping techniques. The located artifacts can be used by a person with a motor disability to control a smartphone. A speech synthesis application that uses eyeblinks in a single channel EEG system and jaw clinches in four channels EEG system are developed. Word prediction models are used for word completion, thus reducing the number of artifacts required.
翻訳日:2022-10-17 03:43:41 公開日:2020-09-18
# 臨床QCTによる皮質骨厚の正確な空間的モデリングを可能にする合成法の解析

An Analysis by Synthesis Method that Allows Accurate Spatial Modeling of Thickness of Cortical Bone from Clinical QCT ( http://arxiv.org/abs/2009.08664v1 )

ライセンス: Link先を確認
Stefan Reinhold, Timo Damm, Sebastian B\"usse, Stanislav N. Gorb, Claus-C. Gl\"uer, Reinhard Koch(参考訳) オステオポローシス(osteoporosis)は、皮質骨や骨梁骨の強度低下による骨折リスクの増加につながる骨格性疾患である。 最先端の非侵襲的評価方法であっても、診断率が高い。 定量的CT(QCT)は,皮質骨の選択的解析を可能にするが,QCTの低空間分解能は,皮質骨の厚み(Ct.Th)と骨強度の過大評価につながる。 臨床用QCTから皮質骨の厚み分布の正確な空間的モデリングを可能にする新しいモデルベース完全自動画像解析法を提案する。 確率的骨モデルから確率的スキャンを合成する解析バイシンセシス(AbS)法において、最適なモデルパラメータを最大アポテリオリアプローチを用いて推定する。 平面内および平面外点拡散関数の異なる特徴をCTスキャナーで利用することにより,皮質厚みの空間分布を評価することができる。 本手法は, 臨床用QCTでスキャンし, 高分解能末梢性QCT (HR-pQCT) を金標準として比較し, 標準法およびAbSを用いて解析した。 標準 qct ベースの測定値が ct.th を過大評価する一方で 560%で, 金標準値 (r^2 = 0.20,\, p = 0.169$) と有意な相関はみられなかったが, 提案手法は過大評価を排除し, 金標準値 (r^2 = 0.98,\, p < 0.0001$) と有意な相関を示した。

Osteoporosis is a skeletal disorder that leads to increased fracture risk due to decreased strength of cortical and trabecular bone. Even with state-of-the-art non-invasive assessment methods there is still a high underdiagnosis rate. Quantitative computed tomography (QCT) permits the selective analysis of cortical bone, however the low spatial resolution of clinical QCT leads to an overestimation of the thickness of cortical bone (Ct.Th) and bone strength. We propose a novel, model based, fully automatic image analysis method that allows accurate spatial modeling of the thickness distribution of cortical bone from clinical QCT. In an analysis-by-synthesis (AbS) fashion a stochastic scan is synthesized from a probabilistic bone model, the optimal model parameters are estimated using a maximum a-posteriori approach. By exploiting the different characteristics of in-plane and out-of-plane point spread functions of CT scanners the proposed method is able assess the spatial distribution of cortical thickness. The method was evaluated on eleven cadaveric human vertebrae, scanned by clinical QCT and analyzed using standard methods and AbS, both compared to high resolution peripheral QCT (HR-pQCT) as gold standard. While standard QCT based measurements overestimated Ct.Th. by 560% and did not show significant correlation with the gold standard ($r^2 = 0.20,\, p = 0.169$) the proposed method eliminated the overestimation and showed a significant tight correlation with the gold standard ($r^2 = 0.98,\, p < 0.0001$) a root mean square error below 10%.
翻訳日:2022-10-17 03:43:21 公開日:2020-09-18
# 病理組織像からの分子性表現型予測 : 乳癌における全発現形態解析

Predicting molecular phenotypes from histopathology images: a transcriptome-wide expression-morphology analysis in breast cancer ( http://arxiv.org/abs/2009.08917v1 )

ライセンス: Link先を確認
Yinxi Wang, Kimmo Kartasalo, Masi Valkonen, Christer Larsson, Pekka Ruusuvuori, Johan Hartman, Mattias Rantalainen(参考訳) 分子フェノタイピングはがんの精密医療の中心であるが、コストがかかり、標準法は腫瘍の平均プロファイルのみを提供する。 腫瘍から病理組織学的に観察できる微視的形態パターンは、基礎となる分子的表現型によって決定され、臨床因子に関連する。 形態と分子表現型との関係は、病理組織画像で見られる形態から分子表現型を予測するために利用される可能性がある。 乳癌では, 腫瘍平均および空間的に解析された方法でmRNAの発現を予測するために, 遺伝子特異的モデルが最適化され, 検証された。 ヘマトキシリンとエオシン(HE)による17,695遺伝子の発現を予測するために,個々の深部畳み込みニューラルネットワーク(CNN)を最適化した。 9,334 (52.75%)の遺伝子の予測はRNA配列推定(FDR調整p-value < 0.05)と大きく関連していた。 1,011の遺伝子が検証され、876 (87%) と908 (90%) がそれぞれ内部および外部の試験データに再現された。 76遺伝子のうち59遺伝子(77.6%)は、空間転写学的推定と有意な相関(FDR調整p値 < 0.05)を持っていた。 以上の結果から, 提案手法は, 形態学から直接腫瘍平均遺伝子発現と腫瘍内空間表現を予測し, 腫瘍内不均一性を特徴付けるスケーラブルなアプローチをもたらすことが示唆された。

Molecular phenotyping is central in cancer precision medicine, but remains costly and standard methods only provide a tumour average profile. Microscopic morphological patterns observable in histopathology sections from tumours are determined by the underlying molecular phenotype and associated with clinical factors. The relationship between morphology and molecular phenotype has a potential to be exploited for prediction of the molecular phenotype from the morphology visible in histopathology images. We report the first transcriptome-wide Expression-MOrphology (EMO) analysis in breast cancer, where gene-specific models were optimised and validated for prediction of mRNA expression both as a tumour average and in spatially resolved manner. Individual deep convolutional neural networks (CNNs) were optimised to predict the expression of 17,695 genes from hematoxylin and eosin (HE) stained whole slide images (WSIs). Predictions for 9,334 (52.75%) genes were significantly associated with RNA-sequencing estimates (FDR adjusted p-value < 0.05). 1,011 of the genes were brought forward for validation, with 876 (87%) and 908 (90%) successfully replicated in internal and external test data, respectively. Predicted spatial intra-tumour variabilities in expression were validated in 76 genes, out of which 59 (77.6%) had a significant association (FDR adjusted p-value < 0.05) with spatial transcriptomics estimates. These results suggest that the proposed methodology can be applied to predict both tumour average gene expression and intra-tumour spatial expression directly from morphology, thus providing a scalable approach to characterise intra-tumour heterogeneity.
翻訳日:2022-10-17 03:42:49 公開日:2020-09-18
# ロスレス・ソース・コーディングを学ぶための境界

Bounds for Learning Lossless Source Coding ( http://arxiv.org/abs/2009.08562v1 )

ライセンス: Link先を確認
Anders Host-Madsen(参考訳) ユニバーサルソースコードコーダを打ち負かすには,どの程度のトレーニングが必要ですか? 伝統的に、Huffmanコーダーのような修正された最適なコーダーと、Lempel-Zivのような普遍的なソースコードコーダーの2つのタイプのソースコードコーダーがあった。 これらは特定の型のデータに基づいてトレーニングされ、その型の新しいデータをエンコードするために使用されるコーダである。 これは、最近(失われた)画像とビデオのコーディングで非常に人気になったコーダの一種です。 本稿では,学習者のパフォーマンスの基準として,学習データに対する平均性能と,誤りの確率が$P_e$である場合を除き,すべてのトレーニングに対する保証性能の2つを考察する。 いずれの場合も、コーダは冗長性について評価される。 本稿はIID二元体とマルコフ鎖について考察する。 いずれの場合も、必要となるトレーニングデータの量は、非常に適度であることが示される: 長さ$l$のコードシーケンスに対して、ユニバーサルソースコードコーダを打ち負かすのに必要なトレーニングデータの量は$m=K\frac{l}{\log l}$である。

This paper asks a basic question: how much training is required to beat a universal source coder? Traditionally, there have been two types of source coders: fixed, optimum coders such as Huffman coders; and universal source coders, such as Lempel-Ziv The paper considers a third type of source coders: learned coders. These are coders that are trained on data of a particular type, and then used to encode new data of that type. This is a type of coder that has recently become very popular for (lossy) image and video coding. The paper consider two criteria for performance of learned coders: the average performance over training data, and a guaranteed performance over all training except for some error probability $P_e$. In both cases the coders are evaluated with respect to redundancy. The paper considers the IID binary case and binary Markov chains. In both cases it is shown that the amount of training data required is very moderate: to code sequences of length $l$ the amount of training data required to beat a universal source coder is $m=K\frac{l}{\log l}$, where the constant in front depends the case considered.
翻訳日:2022-10-17 03:42:21 公開日:2020-09-18
# ディープセンシングによるゲートウェイコントローラ - インテリジェントなモノのインターネットにおける自律性を学ぶ

Gateway Controller with Deep Sensing: Learning to be Autonomic in Intelligent Internet of Things ( http://arxiv.org/abs/2009.08646v1 )

ライセンス: Link先を確認
Rahim Rahmani and Ramin Firouzi(参考訳) モノのインターネット(IoT)は、ユビキタスセンシングを通じて未来のインターネットに革命をもたらす。 何十億というデバイスがデプロイされると見積もられている場合の課題のひとつは、膨大な量のデータと、デバイスの管理能力の増大だ。 本稿では,IoTゲートウェイにおける自律的管理,接続性,データ相互運用性に特化して設計された,コントローラソリューションとしてのアプローチを提案する。 このアプローチは、他のクラウドベースのソリューションと管理とデータの相互運用の両方で、分散IoTノードをサポートする。 このコンセプトにより、ゲートウェイはIoTデバイスからのデータの相互運用を容易に収集および処理できる。 我々は,このアプローチの実現可能性を示し,エッジコンピューティングインテリジェンスとしての深層センシングと自律型ゲートウェイの利点を評価した。

The Internet of Things(IoT) will revolutionize the Future Internet through ubiquitous sensing. One of the challenges of having the hundreds of billions of devices that are estimated to be deployed would be rise of an enormous amount of data, along with the devices ability to manage. This paper presents an approach as a controller solution and designed specifically for autonomous management, connectivity and data interoperability in an IoT gateway. The approach supports distributed IoT nodes with both management and data interoperability with other cloud-based solutions. The concept further allows gateways to easily collect and process interoperability of data from IoT devices. We demonstrated the feasibility of the approach and evaluate its advantages regarding deep sensing and autonomous enabled gateway as an edge computational intelligence.
翻訳日:2022-10-17 03:41:57 公開日:2020-09-18
# マンタ線を用いた特徴選択による音声感情の最適化

Optimizing Speech Emotion Recognition using Manta-Ray Based Feature Selection ( http://arxiv.org/abs/2009.08909v1 )

ライセンス: Link先を確認
Soham Chattopadhyay, Arijit Dey, Hritam Basak(参考訳) 音声信号からの感情認識は、静的および動的分類タスクの集合と見なすことができるため、信号処理において難しい課題とみなされてきた。 音声データからの感情の認識は、機械学習モデルを用いたエンドツーエンドの特徴抽出と分類に大きく依存しているが、特徴選択と最適化の欠如により、これらの手法の性能が抑制されている。 近年の研究では、Mel Frequency Cepstral Coefficients (MFCC) が、非常に小さな特徴次元を持つ分類の精度を概説しながら、最も信頼性の高い特徴抽出手法の1つであることが示されている。 本稿では,既存の特徴抽出手法を用いて抽出した特徴の連結が,分類精度を向上するだけでなく,効率的な特徴選択の可能性も拡張できることを示す。 我々は,MFCC特徴抽出法とは別に線形予測符号化(LPC)を用いた。 さらに,音声感情認識タスクにおけるマンタレイ最適化の新たな応用を行い,この分野での最先端の成果を得た。 SAVEEとEmo-DBという2つの公開データセットを用いてモデルの性能を評価した。 提案手法は,既存の音声感情分析手法を上回り,これら2つのデータセットの分類精度97.06%,97.68%をそれぞれ有意な結果とした。

Emotion recognition from audio signals has been regarded as a challenging task in signal processing as it can be considered as a collection of static and dynamic classification tasks. Recognition of emotions from speech data has been heavily relied upon end-to-end feature extraction and classification using machine learning models, though the absence of feature selection and optimization have restrained the performance of these methods. Recent studies have shown that Mel Frequency Cepstral Coefficients (MFCC) have been emerged as one of the most relied feature extraction methods, though it circumscribes the accuracy of classification with a very small feature dimension. In this paper, we propose that the concatenation of features, extracted by using different existing feature extraction methods can not only boost the classification accuracy but also expands the possibility of efficient feature selection. We have used Linear Predictive Coding (LPC) apart from the MFCC feature extraction method, before feature merging. Besides, we have performed a novel application of Manta Ray optimization in speech emotion recognition tasks that resulted in a state-of-the-art result in this field. We have evaluated the performance of our model using SAVEE and Emo-DB, two publicly available datasets. Our proposed method outperformed all the existing methods in speech emotion analysis and resulted in a decent result in these two datasets with a classification accuracy of 97.06% and 97.68% respectively.
翻訳日:2022-10-17 03:41:47 公開日:2020-09-18
# 都市労働システムにおける産業課題

Industrial Topics in Urban Labor System ( http://arxiv.org/abs/2009.09799v1 )

ライセンス: Link先を確認
Jaehyuk Park, Morgan R. Frank, Lijun Sun, Hyejin Youn(参考訳) 分類は私たち自身が世界を理解し、それをまとめて伝達する上で不可欠な要素です。 したがって、特に経済システムにおいては、分類体系が必ずしも静的ではなく、さらに多くの革新がおこなわれ、実施される都市部において、認識することが重要である。 最新の分類システムは、物事が絶えず変化するため、現在の経済のさらなる理解を制限する可能性がある。 そこで,本稿では,適応性と表現性を満たす産業トピックスという,米国労働経済の職業別分類システムを開発した。 米国の都市部における職業の分布を活かして,その共存パターンに基づく産業的話題,すなわち職業のクラスターを同定する。 産業の話題は、異なる職業の体系的な割り当てのメカニズムを示している。 産業的な話題としての密集した職業を考えると、地域経済をその地域構成によって特徴づけるアプローチである。 従来の調査に基づくトップダウンアプローチとは異なり、我々の手法は地域経済の基盤構造に関するタイムリーな情報を提供しており、これは政策立案者やビジネスリーダー、特に急速に変化する経済において重要である。

Categorization is an essential component for us to understand the world for ourselves and to communicate it collectively. It is therefore important to recognize that classification system are not necessarily static, especially for economic systems, and even more so in urban areas where most innovation takes place and is implemented. Out-of-date classification systems would potentially limit further understanding of the current economy because things constantly change. Here, we develop an occupation-based classification system for the US labor economy, called industrial topics, that satisfy adaptability and representability. By leveraging the distributions of occupations across the US urban areas, we identify industrial topics - clusters of occupations based on their co-existence pattern. Industrial topics indicate the mechanisms under the systematic allocation of different occupations. Considering the densely connected occupations as an industrial topic, our approach characterizes regional economies by their topical composition. Unlike the existing survey-based top-down approach, our method provides timely information about the underlying structure of the regional economy, which is critical for policymakers and business leaders, especially in our fast-changing economy.
翻訳日:2022-10-17 03:41:22 公開日:2020-09-18
# SLAMにおける鍵フレーム間の相対フレームのポス補正アルゴリズム

Pose Correction Algorithm for Relative Frames between Keyframes in SLAM ( http://arxiv.org/abs/2009.08724v1 )

ライセンス: Link先を確認
Youngseok Jang, Hojoon Shin, and H. Jin Kim(参考訳) ロボット工学の分野でキーフレームベースのSLAMが優位に立つ中、キーフレーム間の相対的なフレームのポーズは通常、オンラインアプリケーションを達成するためのより高速なアルゴリズムのために犠牲にされている。 しかし、これらのアプローチは、全ての入力フレームに比べて比較的スパースなキーフレームだけでなく、全てのフレームの洗練されたポーズを必要とするアプリケーションでは不十分になる可能性がある。 本稿では,キーフレームをバックエンド最適化により更新した後,キーフレーム間の相対フレームを補正する新しいアルゴリズムを提案する。 補正モデルは、ランドマークとロボットのポーズ間の測定制約の保存を用いて導出される。 提案アルゴリズムは既存の鍵フレームベースのSLAMシステムと容易に統合でき、既存の補間法よりも堅牢で正確な性能を示す。 このアルゴリズムは低計算資源を必要とするため、SLAMパイプライン全体の負担は最小限である。 提案手法は,様々なベクトル空間における既存の補間法と比較し,提案手法の評価を行い,kitti と euroc のデータセットにおいて優れた精度を示した。

With the dominance of keyframe-based SLAM in the field of robotics, the relative frame poses between keyframes have typically been sacrificed for a faster algorithm to achieve online applications. However, those approaches can become insufficient for applications that may require refined poses of all frames, not just keyframes which are relatively sparse compared to all input frames. This paper proposes a novel algorithm to correct the relative frames between keyframes after the keyframes have been updated by a back-end optimization process. The correction model is derived using conservation of the measurement constraint between landmarks and the robot pose. The proposed algorithm is designed to be easily integrable to existing keyframe-based SLAM systems while exhibiting robust and accurate performance superior to existing interpolation methods. The algorithm also requires low computational resources and hence has a minimal burden on the whole SLAM pipeline. We provide the evaluation of the proposed pose correction algorithm in comparison to existing interpolation methods in various vector spaces, and our method has demonstrated excellent accuracy in both KITTI and EuRoC datasets.
翻訳日:2022-10-17 03:35:22 公開日:2020-09-18
# 咬合蓄積に基づく動的環境における視覚オドメトリーのための移動物体検出

Moving object detection for visual odometry in a dynamic environment based on occlusion accumulation ( http://arxiv.org/abs/2009.08746v1 )

ライセンス: Link先を確認
Haram Kim, Pyojin Kim, H. Jin Kim(参考訳) 移動物体の検出は、動的環境を扱う上で必須の能力である。 ほとんどの移動物体検出アルゴリズムは深度のないカラー画像のために設計されている。 リアルタイムのRGB-Dデータが容易に利用できるロボットナビゲーションでは、深度情報の利用は障害物認識に有用である。 本稿では,RGB-D画像を用いたシンプルな移動物体検出アルゴリズムを提案する。 提案アルゴリズムは,背景モデルの推定を必要としない。 代わりに、オクルージョンモデルを使用して、シーンを支配する動くオブジェクトと混同された背景のカメラのポーズを推定します。 提案手法では、移動物体検出と視覚オドメトリ(vo)を分離し、移動物体検出と組み合わせた動的状況において任意のロバストなvo法を用いることができるが、動的環境における他のvoアルゴリズムは分離できない。 本稿では,二乗回帰重み付きVO法として高密度ビジュアルオドメトリー(DVO)を用いる。 実験結果から,DVOのセグメンテーション精度と性能改善が示された。 我々は,我々のアルゴリズムを公開データセットおよび公開アクセス可能なデータセットで検証する。

Detection of moving objects is an essential capability in dealing with dynamic environments. Most moving object detection algorithms have been designed for color images without depth. For robotic navigation where real-time RGB-D data is often readily available, utilization of the depth information would be beneficial for obstacle recognition. Here, we propose a simple moving object detection algorithm that uses RGB-D images. The proposed algorithm does not require estimating a background model. Instead, it uses an occlusion model which enables us to estimate the camera pose on a background confused with moving objects that dominate the scene. The proposed algorithm allows to separate the moving object detection and visual odometry (VO) so that an arbitrary robust VO method can be employed in a dynamic situation with a combination of moving object detection, whereas other VO algorithms for a dynamic environment are inseparable. In this paper, we use dense visual odometry (DVO) as a VO method with a bi-square regression weight. Experimental results show the segmentation accuracy and the performance improvement of DVO in the situations. We validate our algorithm in public datasets and our dataset which also publicly accessible.
翻訳日:2022-10-17 03:35:03 公開日:2020-09-18
# 網膜血管セグメンテーションのための残留空間注意ネットワーク

Residual Spatial Attention Network for Retinal Vessel Segmentation ( http://arxiv.org/abs/2009.08829v1 )

ライセンス: Link先を確認
Changlu Guo, M\'arton Szemenyei, Yugen Yi, Wei Zhou, Haodong Bian(参考訳) 網膜血管の信頼性の高いセグメンテーションは、網膜の血管構造に影響を与えるため、糖尿病や高血圧などの特定の疾患を監視および診断する方法として用いられる。 本研究では網膜血管分割のための残留空間注意ネットワーク(RSAN)を提案する。 RSANはDropBlockを統合した改良された残留ブロック構造を採用しており、深層ネットワークを構築してより複雑な血管の特徴を抽出するだけでなく、オーバーフィッティングを効果的に緩和することができる。 さらに、この改良された残差ブロックに基づいて、ネットワークの表現能力をさらに向上するために、空間注意(SA)を導入し、RSANを構築するための残留空間注意ブロック(RSAB)を提案する。 提案するrsanの評価には, public drive と chase db1 color fundus image datasets を用いた。 実験により, 改良された残留構造と空間的注意が本研究に有効であることが示され, 提案したRSANは最先端の性能を実現する。

Reliable segmentation of retinal vessels can be employed as a way of monitoring and diagnosing certain diseases, such as diabetes and hypertension, as they affect the retinal vascular structure. In this work, we propose the Residual Spatial Attention Network (RSAN) for retinal vessel segmentation. RSAN employs a modified residual block structure that integrates DropBlock, which can not only be utilized to construct deep networks to extract more complex vascular features, but can also effectively alleviate the overfitting. Moreover, in order to further improve the representation capability of the network, based on this modified residual block, we introduce the spatial attention (SA) and propose the Residual Spatial Attention Block (RSAB) to build RSAN. We adopt the public DRIVE and CHASE DB1 color fundus image datasets to evaluate the proposed RSAN. Experiments show that the modified residual structure and the spatial attention are effective in this work, and our proposed RSAN achieves the state-of-the-art performance.
翻訳日:2022-10-17 03:34:47 公開日:2020-09-18
# 深い回帰を伴う単一画像からの光方向と色推定

Light Direction and Color Estimation from Single Image with Deep Regression ( http://arxiv.org/abs/2009.08941v1 )

ライセンス: Link先を確認
Hassan A. Sial, Ramon Baldrich, Maria Vanrell, Dimitris Samaras(参考訳) 本稿では,一つの画像からシーン光源の方向と色を推定する手法を提案する。 私たちの方法は2つの主なアイデアに基づいています (a)SIDデータセットと同様の制約で強い影効果を持つ新しい合成データセットを使用する。 b) シーン光源の方向と色を推定するために,上記データセットに基づいてトレーニングした深層アーキテクチャを定義する。 また,合成画像上での良好な性能を示すこととは別に,多照度データセットの光位置を得るための予備的な手順を提案するとともに,実場面に適用した場合に訓練したモデルが良好な性能が得られることを証明した。

We present a method to estimate the direction and color of the scene light source from a single image. Our method is based on two main ideas: (a) we use a new synthetic dataset with strong shadow effects with similar constraints to the SID dataset; (b) we define a deep architecture trained on the mentioned dataset to estimate the direction and color of the scene light source. Apart from showing good performance on synthetic images, we additionally propose a preliminary procedure to obtain light positions of the Multi-Illumination dataset, and, in this way, we also prove that our trained model achieves good performance when it is applied to real scenes.
翻訳日:2022-10-17 03:34:14 公開日:2020-09-18
# 構成可能なインダクティブプログラミングのためのビジュアル言語

A Visual Language for Composable Inductive Programming ( http://arxiv.org/abs/2009.08700v1 )

ライセンス: Link先を確認
Edward McDaid, Sarah McDaid(参考訳) 本稿では,zoea合成可能なインダクティブプログラミング言語に基づいたビジュアル言語であるzoea visualを提案する。 Zoea Visualは、一連の機能テストケースに似た仕様から直接ソフトウェアを作成することができる。 Zoea Visualを使ったプログラミングには、テストケース入力、オプションの中間値、出力のデータフローモデルの定義が含まれる。 データ要素は視覚的に表現され、複雑な構造を作るために組み合わせることができる。 要素間のデータフローは、zoeaコンパイラが少ない時間でより大きなプログラムを生成するための追加情報を提供する。 本稿では,言語の概要を紹介する。 このアプローチのメリットと将来的な拡張についても論じている。

We present Zoea Visual which is a visual programming language based on the Zoea composable inductive programming language. Zoea Visual allows users to create software directly from a specification that resembles a set of functional test cases. Programming with Zoea Visual involves the definition of a data flow model of test case inputs, optional intermediate values, and outputs. Data elements are represented visually and can be combined to create structures of any complexity. Data flows between elements provide additional information that allows the Zoea compiler to generate larger programs in less time. This paper includes an overview of the language. The benefits of the approach and some possible future enhancements are also discussed.
翻訳日:2022-10-17 03:34:04 公開日:2020-09-18
# エンコーダデコーダニューラルネットワークによる予測時系列

Forecasting time series with encoder-decoder neural networks ( http://arxiv.org/abs/2009.08848v1 )

ライセンス: Link先を確認
Nathawut Phandoidaen, Stefan Richter(参考訳) 本稿では,過去観測の圧縮版から新しい観測結果が生成される高次元定常過程について考察する。 特定の進化はエンコーダ・デコーダ構造によってモデル化される。 エンコーダ・デコーダニューラルネットワークによる進化を推定し、特定の構造的および空間的仮定の下で予測誤差の上限を与える。 結果は, 観測過程の絶対正則混合係数と関数依存測度のいずれかの条件について, それぞれ別々に示される。 定量的シミュレーションでは,ネットワーク推定器の挙動を異なるモデル仮定下で検討する。 我々は、予測温度データを考える実データ例により、我々の理論を裏付ける。

In this paper, we consider high-dimensional stationary processes where a new observation is generated from a compressed version of past observations. The specific evolution is modeled by an encoder-decoder structure. We estimate the evolution with an encoder-decoder neural network and give upper bounds for the expected forecast error under specific structural and sparsity assumptions. The results are shown separately for conditions either on the absolutely regular mixing coefficients or the functional dependence measure of the observed process. In a quantitative simulation we discuss the behavior of the network estimator under different model assumptions. We corroborate our theory by a real data example where we consider forecasting temperature data.
翻訳日:2022-10-17 03:33:53 公開日:2020-09-18
# 音響エコーキャンセラのための個別重み係数をもつスパシティ対応SSAFアルゴリズム

Sparsity-Aware SSAF Algorithm with Individual Weighting Factors for Acoustic Echo Cancellation ( http://arxiv.org/abs/2009.08593v1 )

ライセンス: Link先を確認
Yi Yu, Tao Yang, Hongyang Chen, Rodrigo C. de Lamare, Yingsong Li(参考訳) 本稿では,個々の重み付け係数(s-iwf-ssaf)アルゴリズムを用いたsparsity-aware sign subband adaptive filterの提案と解析を行い,音響エコーキャンセラ(aec)への応用を検討する。 さらに,S-IWF-SSAF性能を収束率と定常状態誤差の観点から向上させるため,ステップサイズとスパーシティペナルティパラメータの組合せ最適化手法を設計する。 理論的解析により、S-IWF-SSAFアルゴリズムは、スパースシナリオにおいて、個別重み付け係数 (IWF-SSAF) アルゴリズムにより、以前の符号サブバンド適応フィルタよりも優れていることが示された。 特に, IWF-SSAFアルゴリズムの既存解析と比較して, 提案手法では, 多数のサブバンド, 長適応フィルタ, パラユニット解析フィルタバンクの仮定を必要とせず, シミュレーション結果とよく一致している。 システム同定とAEC状況のシミュレーションにより,提案アルゴリズムの理論的解析と有効性を示した。

In this paper, we propose and analyze the sparsity-aware sign subband adaptive filtering with individual weighting factors (S-IWF-SSAF) algorithm, and consider its application in acoustic echo cancellation (AEC). Furthermore, we design a joint optimization scheme of the step-size and the sparsity penalty parameter to enhance the S-IWF-SSAF performance in terms of convergence rate and steady-state error. A theoretical analysis shows that the S-IWF-SSAF algorithm outperforms the previous sign subband adaptive filtering with individual weighting factors (IWF-SSAF) algorithm in sparse scenarios. In particular, compared with the existing analysis on the IWF-SSAF algorithm, the proposed analysis does not require the assumptions of large number of subbands, long adaptive filter, and paraunitary analysis filter bank, and matches well the simulated results. Simulations in both system identification and AEC situations have demonstrated our theoretical analysis and the effectiveness of the proposed algorithms.
翻訳日:2022-10-17 03:33:44 公開日:2020-09-18
# モバイルアプリケーション推薦のためのナレッジグラフに基づくアプローチ

A Knowledge Graph based Approach for Mobile Application Recommendation ( http://arxiv.org/abs/2009.08621v1 )

ライセンス: Link先を確認
Mingwei Zhang, Jiawei Zhao, Hai Dong, Ke Deng, and Ying Liu(参考訳) モバイルデバイスの急速な普及とモバイルアプリケーション(apps)の劇的な増殖により、アプリのレコメンデーションは、アプリユーザと株主の両方に利益をもたらす新たなタスクになる。 ユーザやアプリのリッチなサイド情報を効果的に整理し、活用するには、従来のアプローチのスパーシティ問題に対処する上で、重要な課題です。 この課題に対処するため、アプリレコメンデーションのための新しいエンドツーエンドの知識グラフ畳み込み伝播モデル(KGEP)を提案しました。 具体的には,まず,ユーザおよびアプリ側情報をモデル化するナレッジグラフ構築法を考案し,その後,その1次構造に関連するサイド情報の事実三重項中心意味論を捉えたkg埋め込み手法を適用し,最後に,kgの高次構造に関連する推奨中心意味論を捉えた関係重み付き畳み込み伝播モデルを提案した。 実世界のデータセット上で行った広範囲な実験は、最先端の推奨アプローチと比較して提案手法の有効性を検証する。

With the rapid prevalence of mobile devices and the dramatic proliferation of mobile applications (apps), app recommendation becomes an emergent task that would benefit both app users and stockholders. How to effectively organize and make full use of rich side information of users and apps is a key challenge to address the sparsity issue for traditional approaches. To meet this challenge, we proposed a novel end-to-end Knowledge Graph Convolutional Embedding Propagation Model (KGEP) for app recommendation. Specifically, we first designed a knowledge graph construction method to model the user and app side information, then adopted KG embedding techniques to capture the factual triplet-focused semantics of the side information related to the first-order structure of the KG, and finally proposed a relation-weighted convolutional embedding propagation model to capture the recommendation-focused semantics related to high-order structure of the KG. Extensive experiments conducted on a real-world dataset validate the effectiveness of the proposed approach compared to the state-of-the-art recommendation approaches.
翻訳日:2022-10-17 03:33:25 公開日:2020-09-18
# ベイズネットワーク特性を用いたプロジェクト管理の成熟度とプロジェクトの過コストリスクのリンク

Use of Bayesian Network characteristics to link project management maturity and risk of project overcost ( http://arxiv.org/abs/2009.09828v1 )

ライセンス: Link先を確認
Felipe Sanchez (ERPI), Davy Monticolo (ERPI), Eric Bonjour (ERPI), Jean-Pierre Mica\"elli(参考訳) プロジェクト管理の分野には、プロジェクトの成功確率を高めるための義務があります。 専門家はいくつかのプロジェクト管理成熟度モデルを開発し、プロジェクトの結果を改善した。 しかし、現在の文献には、測定された成熟度と期待される成功確率を関連付けるモデルが欠けている。 本稿では,ベイズネットワークの特徴を用いて専門家の知識を定式化し,プロジェクト費用のかかるデータベースから知識を抽出する。 プロジェクト管理の成熟度がプロジェクト過コストのリスクに与える影響を推定する手法を開発する。 一般的な枠組みが提示される。 工業ケースは、その方法の適用を説明するために使用される。

The project management field has the imperative to increase the project probability of success. Experts have developed several project management maturity models to assets and improve the project outcome. However, the current literature lacks of models allowing correlating the measured maturity and the expected probability of success. This paper uses the characteristics of Bayesian networks to formalize experts' knowledge and to extract knowledge from a project overcost database. It develops a method to estimate the impact of project management maturity on the risk of project overcost. A general framework is presented. An industrial case is used to illustrate the application of the method.
翻訳日:2022-10-17 03:26:21 公開日:2020-09-18
# Enterprise AI Canvas - 人工知能をビジネスに統合する

Enterprise AI Canvas -- Integrating Artificial Intelligence into Business ( http://arxiv.org/abs/2009.11190v1 )

ライセンス: Link先を確認
U. Kerzel(参考訳) 人工知能(AI)と機械学習は、ビジネスを変革し、業界全体を破壊する大きな可能性を秘めている。 しかし、アルゴリズム的意思決定を自分たちのものに組み込もうとしている企業は、複数の課題に直面している。 さらに、AIベースのシステムを人間の作業力に統合できるように、組織を変革する必要があります。 さらに、基盤となる機械学習モデルのより技術的な側面は、それらがビジネスのさまざまなユニットにどのように影響するか、という点で議論する必要がある。 エンタープライズAIキャンバスは、データサイエンティストとビジネス専門家をまとめて、AIベースのシステムをデジタルエンタープライズに統合するために、明確化すべきすべての関連する側面を議論し、定義するように設計されている。 第1部はビジネスビューと組織的な側面に焦点を当て、第2部は基盤となる機械学習モデルとそれが使用するデータに焦点を当てている。

Artificial Intelligence (AI) and Machine Learning have enormous potential to transform businesses and disrupt entire industry sectors. However, companies wishing to integrate algorithmic decisions into their face multiple challenges: They have to identify use-cases in which artificial intelligence can create value, as well as decisions that can be supported or executed automatically. Furthermore, the organization will need to be transformed to be able to integrate AI based systems into their human work-force. Furthermore, the more technical aspects of the underlying machine learning model have to be discussed in terms of how they impact the various units of a business: Where do the relevant data come from, which constraints have to be considered, how is the quality of the data and the prediction evaluated? The Enterprise AI canvas is designed to bring Data Scientist and business expert together to discuss and define all relevant aspects which need to be clarified in order to integrate AI based systems into a digital enterprise. It consists of two parts where part one focuses on the business view and organizational aspects, whereas part two focuses on the underlying machine learning model and the data it uses.
翻訳日:2022-10-17 03:26:11 公開日:2020-09-18
# 高速3次元再構成とグレープ品質CNNを用いた6-DoFグラフ計画

6-DoF Grasp Planning using Fast 3D Reconstruction and Grasp Quality CNN ( http://arxiv.org/abs/2009.08618v1 )

ライセンス: Link先を確認
Yahav Avigal, Samuel Paradis, Harry Zhang(参考訳) 最近の家庭用ロボットに対する消費者の需要は、ロボットの把持性能を加速させた。 しかし、知覚パイプラインの重要なコンポーネントである深度カメラはいまだに高価であり、ほとんどの消費者にとってアクセス不能である。 さらに、大規模データセットとクラウドロボティクスを活用し、状態と行動空間を4自由度(DoF)でトップダウングリップに制限することで、グリップ計画が大幅に改善された。 市販のRGBカメラやLearning Stereo Machine (LSM\cite{kar2017learning})のような最先端のアルゴリズムなどの安価な機器を用いて、物体の多視点形状を利用することにより、ロボットは6-DoFで異なる角度からより堅牢なグルーピングを生成することができる。 本稿では,把握可能な物体に対するlsmの修正を行い,把握を評価し,把握品質の高いcnn(gq-cnn\cite{mahler2017dex})に基づく6自由度把握プランナーを開発した。

Recent consumer demand for home robots has accelerated performance of robotic grasping. However, a key component of the perception pipeline, the depth camera, is still expensive and inaccessible to most consumers. In addition, grasp planning has significantly improved recently, by leveraging large datasets and cloud robotics, and by limiting the state and action space to top-down grasps with 4 degrees of freedom (DoF). By leveraging multi-view geometry of the object using inexpensive equipment such as off-the-shelf RGB cameras and state-of-the-art algorithms such as Learn Stereo Machine (LSM\cite{kar2017learning}), the robot is able to generate more robust grasps from different angles with 6-DoF. In this paper, we present a modification of LSM to graspable objects, evaluate the grasps, and develop a 6-DoF grasp planner based on Grasp-Quality CNN (GQ-CNN\cite{mahler2017dex}) that exploits multiple camera views to plan a robust grasp, even in the absence of a possible top-down grasp.
翻訳日:2022-10-17 03:24:29 公開日:2020-09-18
# DeepRemaster: 総合的なビデオエンハンスメントのための時間的ソース参照アテンションネットワーク

DeepRemaster: Temporal Source-Reference Attention Networks for Comprehensive Video Enhancement ( http://arxiv.org/abs/2009.08692v1 )

ライセンス: Link先を確認
Satoshi Iizuka and Edgar Simo-Serra(参考訳) 劣化したフィルム媒体を元の状態に戻すことを目的とした超解像、ノイズ除去、コントラスト増強を含むサブタスクの多様性を含むヴィンテージフィルムのリマスター。 また、当時の技術上の制約により、ほとんどのヴィンテージフィルムは黒と白で記録されるか、質の低い色で彩色する必要がある。 本稿では,リマスタータスク全体を半インタラクティブに扱うためのフレームワークを提案する。 我々の研究は、時間的畳み込みニューラルネットワークをベースとし、データ駆動劣化シミュレーションによるビデオ上での注意機構を訓練した。 提案したソース参照アテンションにより,時間的整合性を維持しつつ,長いビデオの分割を必要とせず,任意の数の参照カラーイメージを扱える。 定量的分析により,既存のアプローチよりもフレームワークの方が優れており,従来のアプローチとは対照的に,長いビデオや参照カラー画像でフレームワークの性能が向上することが示された。

The remastering of vintage film comprises of a diversity of sub-tasks including super-resolution, noise removal, and contrast enhancement which aim to restore the deteriorated film medium to its original state. Additionally, due to the technical limitations of the time, most vintage film is either recorded in black and white, or has low quality colors, for which colorization becomes necessary. In this work, we propose a single framework to tackle the entire remastering task semi-interactively. Our work is based on temporal convolutional neural networks with attention mechanisms trained on videos with data-driven deterioration simulation. Our proposed source-reference attention allows the model to handle an arbitrary number of reference color images to colorize long videos without the need for segmentation while maintaining temporal consistency. Quantitative analysis shows that our framework outperforms existing approaches, and that, in contrast to existing approaches, the performance of our framework increases with longer videos and more reference color images.
翻訳日:2022-10-17 03:24:08 公開日:2020-09-18
# 感情浮き顔表現の学習

Learning Emotional-Blinded Face Representations ( http://arxiv.org/abs/2009.08704v1 )

ライセンス: Link先を確認
Alejandro Pe\~na and Julian Fierrez and Agata Lapedriza and Aythami Morales(参考訳) 感情反応に関連する表情に盲目な2つの顔表現を提案する。 この作業は、個人データ保護に関する新たな国際規則によって動機付けられており、自動処理に関わるあらゆる機密情報を保護するためにデータコントローラを強制している。 Affective Computingの進歩は、人間と機械のインターフェースの改善に寄与しているが、同時に感情的な反応を監視する能力は、公正性とプライバシーの両方の観点から、人間の潜在的なリスクを引き起こす。 これらの表情特徴を学習するための2つの異なる方法を提案する。 感情認識タスクに関する情報を除去することは可能であり、被験者の検証、性別認識、民族分類の性能はわずかに影響を受ける。 また,保護された表情属性に対する魅力分類のケーススタディにおいて,フェアラー分類器を訓練するアプリケーションを提案する。 その結果、他の顔ベース人工知能タスクにおける競合性能を維持しつつ、顔表現における感情情報を低減できることが示されている。

We propose two face representations that are blind to facial expressions associated to emotional responses. This work is in part motivated by new international regulations for personal data protection, which enforce data controllers to protect any kind of sensitive information involved in automatic processes. The advances in Affective Computing have contributed to improve human-machine interfaces but, at the same time, the capacity to monitorize emotional responses triggers potential risks for humans, both in terms of fairness and privacy. We propose two different methods to learn these expression-blinded facial features. We show that it is possible to eliminate information related to emotion recognition tasks, while the performance of subject verification, gender recognition, and ethnicity classification are just slightly affected. We also present an application to train fairer classifiers in a case study of attractiveness classification with respect to a protected facial expression attribute. The results demonstrate that it is possible to reduce emotional information in the face representation while retaining competitive performance in other face-based artificial intelligence tasks.
翻訳日:2022-10-17 03:18:09 公開日:2020-09-18
# 意味セグメンテーション改善のための合成畳み込み特徴

Synthetic Convolutional Features for Improved Semantic Segmentation ( http://arxiv.org/abs/2009.08849v1 )

ライセンス: Link先を確認
Yang He and Bernt Schiele and Mario Fritz(参考訳) 近年,学習に基づく画像合成により,高分解能画像の生成が可能になってきた。 しかし,新たな合成画像を用いた意味セグメンテーション改善のために,合成データを活用することは依然として困難である。 そこで本研究では,中間畳み込み特徴を生成し,その中間畳み込み特徴に対応する最初の合成手法を提案する。 これにより、ラベルマスクから新機能を生成し、それらをトレーニング手順に組み込むことで、セマンティックセグメンテーションの性能を向上させることができる。 Cityscapes と ADE20K の2つの挑戦的なデータセットに関する実験結果と分析により,生成した特徴がセグメンテーションタスクのパフォーマンスを向上させることが示された。

Recently, learning-based image synthesis has enabled to generate high-resolution images, either applying popular adversarial training or a powerful perceptual loss. However, it remains challenging to successfully leverage synthetic data for improving semantic segmentation with additional synthetic images. Therefore, we suggest to generate intermediate convolutional features and propose the first synthesis approach that is catered to such intermediate convolutional features. This allows us to generate new features from label masks and include them successfully into the training procedure in order to improve the performance of semantic segmentation. Experimental results and analysis on two challenging datasets Cityscapes and ADE20K show that our generated feature improves performance on segmentation tasks.
翻訳日:2022-10-17 03:16:48 公開日:2020-09-18
# PMVOS:Pixel-Level Matchingベースのビデオオブジェクトセグメンテーション

PMVOS: Pixel-Level Matching-Based Video Object Segmentation ( http://arxiv.org/abs/2009.08855v1 )

ライセンス: Link先を確認
Suhwan Cho, Heansung Lee, Sungmin Woo, Sungjun Jang, Sangyoun Lee(参考訳) 半教師付きビデオオブジェクトセグメンテーション(VOS)は、初期フレームの真理セグメンテーションマスクが提供されるとき、任意の対象オブジェクトをビデオ内にセグメンテーションすることを目的としている。 対象オブジェクトに関する事前知識を使用するという制限のため、対象オブジェクトを表すテンプレート特徴と入力特徴を比較する機能マッチングは必須のステップである。 近年,テンプレート機能や入力機能の各ピクセルにマッチするピクセルレベルのマッチング (PM) が,高い性能のため,機能マッチングに広く利用されている。 しかし、その効果にもかかわらず、テンプレート機能を構築するのに使用される情報は初期フレームと前フレームに限られる。 我々は,過去の全てのフレームの情報を含む強力なテンプレート機能を構築するPMVOS( Method-PM-based Video Object segmentation)を提案することで,この問題に対処する。 さらに,pm から生成する類似度マップに自己アテンションを適用し,グローバルな依存関係をキャプチャする。 DAVIS 2016の検証セットでは、J&Fスコア85.6%のリアルタイム手法(30fps以上)で新しい最先端性能を実現している。 DAVIS 2017とYouTube-VOSの検証セットのパフォーマンスも印象的であり、それぞれ74.0%と68.2%である。

Semi-supervised video object segmentation (VOS) aims to segment arbitrary target objects in video when the ground truth segmentation mask of the initial frame is provided. Due to this limitation of using prior knowledge about the target object, feature matching, which compares template features representing the target object with input features, is an essential step. Recently, pixel-level matching (PM), which matches every pixel in template features and input features, has been widely used for feature matching because of its high performance. However, despite its effectiveness, the information used to build the template features is limited to the initial and previous frames. We address this issue by proposing a novel method-PM-based video object segmentation (PMVOS)-that constructs strong template features containing the information of all past frames. Furthermore, we apply self-attention to the similarity maps generated from PM to capture global dependencies. On the DAVIS 2016 validation set, we achieve new state-of-the-art performance among real-time methods (> 30 fps), with a J&F score of 85.6%. Performance on the DAVIS 2017 and YouTube-VOS validation sets is also impressive, with J&F scores of 74.0% and 68.2%, respectively.
翻訳日:2022-10-17 03:16:37 公開日:2020-09-18
# 大規模ポイントクラウドセグメンテーションのためのマルチリゾリューショングラフニューラルネットワーク

Multi-Resolution Graph Neural Network for Large-Scale Pointcloud Segmentation ( http://arxiv.org/abs/2009.08924v1 )

ライセンス: Link先を確認
Liuyue Xie, Tomotake Furuhata, Kenji Shimada(参考訳) 本稿では,高密度な大規模クラウドを意味的にセグメント化するためのマルチレゾリューションディープラーニングアーキテクチャを提案する。 高密度なpointcloudデータは、セマンティックセグメンテーションの前に計算コストの高い特徴エンコーディングプロセスを必要とする。 以前の作業では、従来のpointcloudとは大きく異なるアプローチを使用していたため、共通コンピューティングハードウェアを活用できた。 これらの手法は計算負荷をある程度軽減できるが、それでも複数のスキャンで処理能力に制限がある。 大規模なポイントクラウド上でセマンティックセグメンテーションを行うために,メモリ効率のよいエンドツーエンドグラフニューラルネットワークフレームワーク MuGNet を提案する。 我々は、プリフォームされたポイントクラウドグラフ上のグラフニューラルネットワークを利用して計算の需要を減らし、異なる解像度で特徴埋め込みを融合する双方向ネットワークによるセグメンテーションの精度を維持する。 我々のフレームワークは、Stanford Large-Scale 3D Indoor Spaces Dataset(S3DIS)やVirtual KITTI Datasetなどのベンチマークデータセットで検証されている。 我々は、S3DIS上のセグメント化のための他のグラフベースのソリューションを88.5\% (+3\%) の全体的な精度と69.8\% (+7.7\%) mIOU の精度で上回りながら、1つの11GB GPUで最大45個の部屋スキャンを同時に処理できることを実証した。

In this paper, we propose a multi-resolution deep-learning architecture to semantically segment dense large-scale pointclouds. Dense pointcloud data require a computationally expensive feature encoding process before semantic segmentation. Previous work has used different approaches to drastically downsample from the original pointcloud so common computing hardware can be utilized. While these approaches can relieve the computation burden to some extent, they are still limited in their processing capability for multiple scans. We present MuGNet, a memory-efficient, end-to-end graph neural network framework to perform semantic segmentation on large-scale pointclouds. We reduce the computation demand by utilizing a graph neural network on the preformed pointcloud graphs and retain the precision of the segmentation with a bidirectional network that fuses feature embedding at different resolutions. Our framework has been validated on benchmark datasets including Stanford Large-Scale 3D Indoor Spaces Dataset(S3DIS) and Virtual KITTI Dataset. We demonstrate that our framework can process up to 45 room scans at once on a single 11 GB GPU while still surpassing other graph-based solutions for segmentation on S3DIS with an 88.5\% (+3\%) overall accuracy and 69.8\% (+7.7\%) mIOU accuracy.
翻訳日:2022-10-17 03:15:55 公開日:2020-09-18
# NEU at WNUT-2020 Task 2: Data Augmentation to tell BERT that death is not necessary informative。

NEU at WNUT-2020 Task 2: Data Augmentation To Tell BERT That Death Is Not Necessarily Informative ( http://arxiv.org/abs/2009.08590v1 )

ライセンス: Link先を確認
Kumud Chauhan(参考訳) 世界中の何百万人もの人々が、ソーシャルメディアプラットフォームでcovid-19関連の情報を共有しています。 ソーシャルメディア上で共有されるすべての情報は有用ではないため、情報的投稿を識別する機械学習システムは、ユーザーが関連する情報を見つけるのに役立つ。 本稿では,W-NUT2020共有タスク2のBERT分類システムを提案する。 さらに, bert は情報に富むツイートを識別するために簡単な信号を利用し, 不正なツイートに単純なパターンを追加すると, bert のパフォーマンスが著しく低下することを示した。 特に、開発セットのツイートに10件の死者を加えるだけで、BERT F1-スコアが92.63から7.28に減少する。 また,bert分類器のロバスト性と一般化能力を向上させるための簡易データ拡張手法を提案する。

Millions of people around the world are sharing COVID-19 related information on social media platforms. Since not all the information shared on the social media is useful, a machine learning system to identify informative posts can help users in finding relevant information. In this paper, we present a BERT classifier system for W-NUT2020 Shared Task 2: Identification of Informative COVID-19 English Tweets. Further, we show that BERT exploits some easy signals to identify informative tweets, and adding simple patterns to uninformative tweets drastically degrades BERT performance. In particular, simply adding 10 deaths to tweets in dev set, reduces BERT F1- score from 92.63 to 7.28. We also propose a simple data augmentation technique that helps in improving the robustness and generalization ability of the BERT classifier.
翻訳日:2022-10-17 03:15:28 公開日:2020-09-18
# ニューラルネットワークモデルによる全行コード補完に向けて

Towards Full-line Code Completion with Neural Language Models ( http://arxiv.org/abs/2009.08603v1 )

ライセンス: Link先を確認
Wenhan Wang, Sijie Shen, Ge Li, Zhi Jin(参考訳) コード補完システムは、部分的に完成したコードスニペットを開発者に提案する。 コード補完は統合開発環境(IDE)で最も有用な機能の1つである。 現在、ほとんどのコード補完技術は一度にひとつのトークンを予測する。 本稿では,さらに一歩進めて,単一トークンではなく,コード行全体を直接完了する可能性について論じる。 より長いコードシーケンスが開発者の効率をさらに改善できると考えている。 近年のニューラルネットワークモデルは,コード補完に望ましいアプローチとして採用されている。 実世界の2つのピソンコーパスで実験を行い、ソースコードトークンや構文行動に基づいて既存のニューラルモデルを評価する。 結果は、ニューラルネットワークモデルが我々のタスクで許容できる結果を得ることができ、改善の余地があることを示している。

A code completion system suggests future code elements to developers given a partially-complete code snippet. Code completion is one of the most useful features in Integrated Development Environments (IDEs). Currently, most code completion techniques predict a single token at a time. In this paper, we take a further step and discuss the probability of directly completing a whole line of code instead of a single token. We believe suggesting longer code sequences can further improve the efficiency of developers. Recently neural language models have been adopted as a preferred approach for code completion, and we believe these models can still be applied to full-line code completion with a few improvements. We conduct our experiments on two real-world python corpora and evaluate existing neural models based on source code tokens or syntactical actions. The results show that neural language models can achieve acceptable results on our tasks, with significant room for improvements.
翻訳日:2022-10-17 03:15:14 公開日:2020-09-18
# AIシステム評価に用いるドメインの複雑さの測定

Measuring the Complexity of Domains Used to Evaluate AI Systems ( http://arxiv.org/abs/2010.01985v1 )

ライセンス: Link先を確認
Christopher Pereyda, Lawrence Holder(参考訳) 現在、AIシステムを評価するための課題問題、データセットのベンチマーク、アルゴリズム最適化テストが急速に増加している。 しかし、これらの新しく作成されたドメイン間の複雑さを決定する客観的な尺度は存在しない。 この領域横断試験の欠如は、より一般的なAIシステムを効果的に研究する障害を生み出す。 異なる領域間の複雑性を測定するための理論を提案する。 この理論は、ニューラルネットワークベースのAIシステムの集団による近似を用いて評価される。 近似は他のよく知られた標準と比較され、複雑さの直観を満たすことを示す。 この測定の応用は、様々な状況におけるツールとしての有効性を示す。 実験の結果,AIシステム評価を支援する効果的なツールとして,この尺度が期待されている。 本稿では,AIシステムのインテリジェンスを計算するために,このような複雑性メトリクスの今後の利用を提案する。

There is currently a rapid increase in the number of challenge problem, benchmarking datasets and algorithmic optimization tests for evaluating AI systems. However, there does not currently exist an objective measure to determine the complexity between these newly created domains. This lack of cross-domain examination creates an obstacle to effectively research more general AI systems. We propose a theory for measuring the complexity between varied domains. This theory is then evaluated using approximations by a population of neural network based AI systems. The approximations are compared to other well known standards and show it meets intuitions of complexity. An application of this measure is then demonstrated to show its effectiveness as a tool in varied situations. The experimental results show this measure has promise as an effective tool for aiding in the evaluation of AI systems. We propose the future use of such a complexity metric for use in computing an AI system's intelligence.
翻訳日:2022-10-17 03:08:58 公開日:2020-09-18
# 非教師なし領域適応のための高次元非反転音源誘導摂動による一貫性正規化

Consistency Regularization with High-dimensional Non-adversarial Source-guided Perturbation for Unsupervised Domain Adaptation in Segmentation ( http://arxiv.org/abs/2009.08610v1 )

ライセンス: Link先を確認
Kaihong Wang, Chenhongyi Yang, Margrit Betke(参考訳) セマンティックセグメンテーションのための教師なしドメイン適応は、合成データに対するピクセルレベルのアノテーションの低コストのため、集中的に研究されている。 最も一般的なアプローチは、ソースドメインのセマンティックコンテンツを保持しながら、ターゲットドメインの分布を模倣したイメージや特徴を生成して、モデルが後者のアノテーションでトレーニングできるようにします。 しかし、このような手法は、画像翻訳者や特徴抽出器を、敵の訓練を含む精巧なメカニズムで訓練することで、適応プロセスにさらに複雑さと不安定をもたらす。 さらに、これらの手法は主にラベル付きソースデータセットの活用に焦点を当てており、ラベルなしターゲットデータセットは十分に利用されていない。 本稿では,不ラベルな対象領域データセットからの情報を効率的に活用し,単純なニューラルスタイル転送モデルのみを必要とするbisida(bisida)という双方向型ドメイン適応手法を提案する。 bisidaは、ソースイメージをターゲットイメージのスタイルに転送するだけでなく、ターゲットイメージをソースイメージのスタイルに転送して、ラベルなしのターゲットイメージに対して高次元の摂動を実行することによって、ドメインを調整する。 GTA5-to-CityScapesとSynTHIA-to-CityScapesという2つの一般的な合成ドメイン適応ベンチマークに対して,我々のBiSIDAが新たな最先端技術を実現していることを示す。

Unsupervised domain adaptation for semantic segmentation has been intensively studied due to the low cost of the pixel-level annotation for synthetic data. The most common approaches try to generate images or features mimicking the distribution in the target domain while preserving the semantic contents in the source domain so that a model can be trained with annotations from the latter. However, such methods highly rely on an image translator or feature extractor trained in an elaborated mechanism including adversarial training, which brings in extra complexity and instability in the adaptation process. Furthermore, these methods mainly focus on taking advantage of the labeled source dataset, leaving the unlabeled target dataset not fully utilized. In this paper, we propose a bidirectional style-induced domain adaptation method, called BiSIDA, that employs consistency regularization to efficiently exploit information from the unlabeled target domain dataset, requiring only a simple neural style transfer model. BiSIDA aligns domains by not only transferring source images into the style of target images but also transferring target images into the style of source images to perform high-dimensional perturbation on the unlabeled target images, which is crucial to the success in applying consistency regularization in segmentation tasks. Extensive experiments show that our BiSIDA achieves new state-of-the-art on two commonly-used synthetic-to-real domain adaptation benchmarks: GTA5-to-CityScapes and SYNTHIA-to-CityScapes.
翻訳日:2022-10-17 03:08:26 公開日:2020-09-18
# 映像中の自然言語の時間的接地を弱めに監督する強化学習

Reinforcement Learning for Weakly Supervised Temporal Grounding of Natural Language in Untrimmed Videos ( http://arxiv.org/abs/2009.08614v1 )

ライセンス: Link先を確認
Jie Wu, Guanbin Li, Xiaoguang Han, Liang Lin(参考訳) 非トリミングビデオにおける自然言語の時間的基盤化は、マルチメディアの基本的な課題でありながら、メディア間のビジュアルコンテンツ検索を容易にする。 我々は、時間的境界のない粗いビデオレベルの言語記述アノテーションに単にアクセスするだけの、このタスクの弱い教師付き設定に焦点をあてる。 本稿では,強化学習(RL)を活用して時間境界を段階的に洗練する過程をガイドする,emph{Boundary Adaptive Refinement} (BAR) フレームワークを提案する。 我々の知る限りでは、rlを時間的局所化タスクに拡張する最初の試みを、弱い監督で提供します。 一対の粒界問合せアノテーションがない場合、直接的な報酬関数を得るのは自明ではないので、セグメント問合せ対のアライメント度を測定するためにクロスモーダルアライメント評価器を製作し、テーラー設計の報酬を提供する。 この改良は従来のスライディングウィンドウベースのソリューションパターンを完全に放棄し、より効率的で、境界フレキシブルで、コンテンツ対応の接地結果を得るのに役立つ。 Charades-STAとActivityNetの2つの公開ベンチマークに関する大規模な実験は、BARが最先端の弱い教師付き手法よりも優れており、競争力のある完全な教師付きベンチマークよりも優れていることを実証している。

Temporal grounding of natural language in untrimmed videos is a fundamental yet challenging multimedia task facilitating cross-media visual content retrieval. We focus on the weakly supervised setting of this task that merely accesses to coarse video-level language description annotation without temporal boundary, which is more consistent with reality as such weak labels are more readily available in practice. In this paper, we propose a \emph{Boundary Adaptive Refinement} (BAR) framework that resorts to reinforcement learning (RL) to guide the process of progressively refining the temporal boundary. To the best of our knowledge, we offer the first attempt to extend RL to temporal localization task with weak supervision. As it is non-trivial to obtain a straightforward reward function in the absence of pairwise granular boundary-query annotations, a cross-modal alignment evaluator is crafted to measure the alignment degree of segment-query pair to provide tailor-designed rewards. This refinement scheme completely abandons traditional sliding window based solution pattern and contributes to acquiring more efficient, boundary-flexible and content-aware grounding results. Extensive experiments on two public benchmarks Charades-STA and ActivityNet demonstrate that BAR outperforms the state-of-the-art weakly-supervised method and even beats some competitive fully-supervised ones.
翻訳日:2022-10-17 03:08:02 公開日:2020-09-18
# topnet: コンテナツリーの再構築とラベリングのためのメトリックラーニングを保存するトポロジー

TopNet: Topology Preserving Metric Learning for Vessel Tree Reconstruction and Labelling ( http://arxiv.org/abs/2009.08674v1 )

ライセンス: Link先を確認
Deepak Keshwani, Yoshiro Kitamura, Satoshi Ihara, Satoshi Iizuka, Edgar Simo-Serra(参考訳) 造影CTによる門脈および肝静脈の再建は,術前肝手術シミュレーションの必須条件である。 既存のディープラーニングに基づく手法は,血管再建を意味的セグメンテーション問題として扱う。 しかし、肝静脈や門脈のような血管は局所的に非常によく似ており、堅牢なラベル割り当てのためにその源まで追跡する必要がある。 したがって、局所的な3Dパッチによるセマンティックセグメンテーションは、ノイズの多い誤分類をもたらす。 そこで本研究では,容器木再構築のためのマルチタスク深層学習アーキテクチャを提案する。 ネットワークアーキテクチャは、血管中心線(すなわちノード)上のボクセルを検知し、再構築対象のツリー構造における中心ボクセル(エッジ)間の接続を推定するタスクを同時に解決する。 さらに,中心ボクセル対間のクラス間距離とクラス内トポロジカル距離を両立する新しい接続距離について提案する。 最短経路木アルゴリズムを用いて学習された接続距離を用いて血管源から血管木を再構成する。 パブリックIRCADデータセットの徹底的な評価は,提案手法が既存のセマンティックセグメンテーション法よりもかなり優れていることを示している。 我々の知る限りでは、これは画像からマルチラベルツリー構造接続を学習する最初のディープラーニングベースのアプローチである。

Reconstructing Portal Vein and Hepatic Vein trees from contrast enhanced abdominal CT scans is a prerequisite for preoperative liver surgery simulation. Existing deep learning based methods treat vascular tree reconstruction as a semantic segmentation problem. However, vessels such as hepatic and portal vein look very similar locally and need to be traced to their source for robust label assignment. Therefore, semantic segmentation by looking at local 3D patch results in noisy misclassifications. To tackle this, we propose a novel multi-task deep learning architecture for vessel tree reconstruction. The network architecture simultaneously solves the task of detecting voxels on vascular centerlines (i.e. nodes) and estimates connectivity between center-voxels (edges) in the tree structure to be reconstructed. Further, we propose a novel connectivity metric which considers both inter-class distance and intra-class topological distance between center-voxel pairs. Vascular trees are reconstructed starting from the vessel source using the learned connectivity metric using the shortest path tree algorithm. A thorough evaluation on public IRCAD dataset shows that the proposed method considerably outperforms existing semantic segmentation based methods. To the best of our knowledge, this is the first deep learning based approach which learns multi-label tree structure connectivity from images.
翻訳日:2022-10-17 03:07:21 公開日:2020-09-18
# ピラミッドコラム特徴を用いたスタイル転送による顔スケッチ合成

Face Sketch Synthesis with Style Transfer using Pyramid Column Feature ( http://arxiv.org/abs/2009.08679v1 )

ライセンス: Link先を確認
Chaofeng Chen, Xiao Tan, and Kwan-Yee K. Wong(参考訳) 本稿では,写真から顔のスケッチを合成するためのディープニューラルネットワークに基づく新しいフレームワークを提案する。 アーティストがスケッチを描く過程を模倣し、顔のスケッチを逐次的に合成する。 まず、顔の形状と重要な顔の特徴を概観するコンテンツ画像を生成する。 次にテクスチャとシェーディングを追加してスケッチの詳細を豊かにする。 我々は、完全な畳み込みニューラルネットワーク(FCNN)を用いてコンテンツ画像を作成し、新しく提案されたピラミッド列の特徴に基づくテクスチャやシェーディングを導入するスタイル転送手法を提案する。 ピラミッド列の特徴に基づくスタイル転送手法は,一般的なスタイル転送法よりもスケッチの詳細を保存できるだけでなく,従来のパッチベースの手法を超越することを示す。 定量的および定性的な評価は、我々のフレームワークが他の最先端手法よりも優れており、異なるテスト画像によく対応できることを示している。 コードはhttps://github.com/chaofengc/Face-Sketchで入手できる。

In this paper, we propose a novel framework based on deep neural networks for face sketch synthesis from a photo. Imitating the process of how artists draw sketches, our framework synthesizes face sketches in a cascaded manner. A content image is first generated that outlines the shape of the face and the key facial features. Textures and shadings are then added to enrich the details of the sketch. We utilize a fully convolutional neural network (FCNN) to create the content image, and propose a style transfer approach to introduce textures and shadings based on a newly proposed pyramid column feature. We demonstrate that our style transfer approach based on the pyramid column feature can not only preserve more sketch details than the common style transfer method, but also surpasses traditional patch based methods. Quantitative and qualitative evaluations suggest that our framework outperforms other state-of-the-arts methods, and can also generalize well to different test images. Codes are available at https://github.com/chaofengc/Face-Sketch
翻訳日:2022-10-17 03:06:59 公開日:2020-09-18
# 1V全分類器を用いた条件画像生成

Conditional Image Generation with One-Vs-All Classifier ( http://arxiv.org/abs/2009.08688v1 )

ライセンス: Link先を確認
Xiangrui Xu, Yaqin Li, Cao Yuan(参考訳) 本稿では,GAN(Generative Adversarial Networks)に基づくOne-Vs-All分類器を用いた条件付き画像生成について検討する。 バニラGANで使用される実・偽判別器の代わりに、各入力データをカテゴリラベルに識別できるOne-Vs-All分類器(GAN-OVA)に識別器を拡張することを提案する。 具体的には、特定の追加情報を生成器に条件として与え、識別器を1対1の分類器として各条件カテゴリーを識別する。 このモデルは、ジェンセン=シャノンの発散やアース・モーバー距離など、目的関数を定義するのに使用される異なる発散や距離に適用することができる。 我々は,MNIST と CelebA-HQ のデータセット上で GAN-OVA を評価し,実験結果から,GAN-OVA が正規条件付き GAN よりも安定したトレーニングに進むことを示す。 さらに、GAN-OVAは、異なるクラスの生成プロセスを効果的に加速し、生成品質を向上させる。

This paper explores conditional image generation with a One-Vs-All classifier based on the Generative Adversarial Networks (GANs). Instead of the real/fake discriminator used in vanilla GANs, we propose to extend the discriminator to a One-Vs-All classifier (GAN-OVA) that can distinguish each input data to its category label. Specifically, we feed certain additional information as conditions to the generator and take the discriminator as a One-Vs-All classifier to identify each conditional category. Our model can be applied to different divergence or distances used to define the objective function, such as Jensen-Shannon divergence and Earth-Mover (or called Wasserstein-1) distance. We evaluate GAN-OVAs on MNIST and CelebA-HQ datasets, and the experimental results show that GAN-OVAs make progress toward stable training over regular conditional GANs. Furthermore, GAN-OVAs effectively accelerate the generation process of different classes and improves generation quality.
翻訳日:2022-10-17 03:06:43 公開日:2020-09-18
# 量子化ニューラルネットワークにおける低ビットウェイト探索

Searching for Low-Bit Weights in Quantized Neural Networks ( http://arxiv.org/abs/2009.08695v1 )

ライセンス: Link先を確認
Zhaohui Yang, Yunhe Wang, Kai Han, Chunjing Xu, Chao Xu, Dacheng Tao, Chang Xu(参考訳) 低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。 しかし、従来の量子化法で用いられる量子化関数は微分不可能であり、量子化ネットワークの最適化の難しさが増大する。 完全精度パラメータ(例えば32ビット浮動小数点数)と比較すると、より小さな集合から低ビット値が選択される。 例えば、4ビット空間には16の可能性がある。 そこで本研究では,任意の量子化ニューラルネットワークの離散重みを探索可能な変数とみなし,差分法を用いて正確に探索する。 特に、各重みは離散値集合上の確率分布として表される。 トレーニング中に確率を最適化し、最も高い確率の値を選択して所望の量子化ネットワークを確立する。 ベンチマーク実験の結果,提案手法は,画像分類と超解像処理の両方において,最先端手法よりも高い性能を持つ量子化ニューラルネットワークを生成できることが示されている。

Quantized neural networks with low-bit weights and activations are attractive for developing AI accelerators. However, the quantization functions used in most conventional quantization methods are non-differentiable, which increases the optimization difficulty of quantized networks. Compared with full-precision parameters (i.e., 32-bit floating numbers), low-bit values are selected from a much smaller set. For example, there are only 16 possibilities in 4-bit space. Thus, we present to regard the discrete weights in an arbitrary quantized neural network as searchable variables, and utilize a differential method to search them accurately. In particular, each weight is represented as a probability distribution over the discrete value set. The probabilities are optimized during training and the values with the highest probability are selected to establish the desired quantized network. Experimental results on benchmarks demonstrate that the proposed method is able to produce quantized neural networks with higher performance over the state-of-the-art methods on both image classification and super-resolution tasks.
翻訳日:2022-10-17 03:06:24 公開日:2020-09-18
# ルーマニア人BERTの誕生

The birth of Romanian BERT ( http://arxiv.org/abs/2009.08712v1 )

ライセンス: Link先を確認
Stefan Daniel Dumitrescu and Andrei-Marius Avram and Sampo Pyysalo(参考訳) 大規模事前訓練型言語モデルは自然言語処理においてユビキタス化されている。 しかしながら、これらのモデルのほとんどは、高リソース言語、特に英語、あるいは、カバレッジのために個々の言語のパフォーマンスを損なう多言語モデルで利用可能である。 本稿では,ルーマニア語トランスフォーマーを用いた最初の言語モデルであるルーマニア語bertについて述べる。 本稿では,コーパスの構成とクリーニング,モデルトレーニングプロセス,およびルーマニアのさまざまなデータセット上でのモデルの広範な評価について論じる。 我々は、モデル自体だけでなく、コーパスの取得方法、微調整方法、本番環境での使用方法(実例)、評価プロセスの完全な複製方法などの情報を含むリポジトリもオープンソースにしています。

Large-scale pretrained language models have become ubiquitous in Natural Language Processing. However, most of these models are available either in high-resource languages, in particular English, or as multilingual models that compromise performance on individual languages for coverage. This paper introduces Romanian BERT, the first purely Romanian transformer-based language model, pretrained on a large text corpus. We discuss corpus composition and cleaning, the model training process, as well as an extensive evaluation of the model on various Romanian datasets. We open source not only the model itself, but also a repository that contains information on how to obtain the corpus, fine-tune and use this model in production (with practical examples), and how to fully replicate the evaluation process.
翻訳日:2022-10-17 03:00:16 公開日:2020-09-18
# 有限空間における同時翻訳の提示

Presenting Simultaneous Translation in Limited Space ( http://arxiv.org/abs/2009.09016v1 )

ライセンス: Link先を確認
Dominik Mach\'a\v{c}ek, Ond\v{r}ej Bojar(参考訳) 長文音声の自動同時翻訳のいくつかの方法は、出力のリビジョン、低レイテンシのためのトレーディング精度を許容する。 これらのシステムをユーザにデプロイすることは、テレビ画面上の2行など、限られたスペースで字幕を提示する問題に直面している。 字幕は素早く、漸進的に、読みに十分な時間で表示されなければならない。 我々は置換のためのアルゴリズムを提供する。 さらに,テストセットの品質,レイテンシ,安定性を計測することにより,自動翻訳とサブタイトの組み合わせの全体的なユーザビリティを推定する方法を提案し,翻訳レイテンシの測定方法を提案する。

Some methods of automatic simultaneous translation of a long-form speech allow revisions of outputs, trading accuracy for low latency. Deploying these systems for users faces the problem of presenting subtitles in a limited space, such as two lines on a television screen. The subtitles must be shown promptly, incrementally, and with adequate time for reading. We provide an algorithm for subtitling. Furthermore, we propose a way how to estimate the overall usability of the combination of automatic translation and subtitling by measuring the quality, latency, and stability on a test set, and propose an improved measure for translation latency.
翻訳日:2022-10-17 02:59:35 公開日:2020-09-18
# オープンドメイン質問応答における文選択技法のトレードオフ

Tradeoffs in Sentence Selection Techniques for Open-Domain Question Answering ( http://arxiv.org/abs/2009.09120v1 )

ライセンス: Link先を確認
Shih-Ting Lin and Greg Durrett(参考訳) オープンドメイン質問応答(QA)の現在の手法は、通常、関連する文書を検索するパイプラインを使用し、取得したテキストに強力な読解(RC)モデルを適用する。 しかし、現代のRCモデルは複雑で実行に費用がかかるため、検索したテキストの空間を創り出す技術は、このアプローチをスケールするために重要である。 本稿では,この問題に対処するために中間文選択ステップを適用するアプローチに注目し,このアプローチのベストプラクティスを検討する。 文選択のためのモデルの2つのグループについて述べる。QAベースのアプローチは、解答候補を特定するための完全なQAシステムを実行し、検索ベースのモデルは、各質問に特に関連する各節の一部を見つける。 これら2つのアプローチにおいて,処理速度とタスク性能のトレードオフを検証し,この2つのハイブリッドを表すアンサンブルモジュールを実演する。 Open-SQuADとTriviaQAの実験から、非常に軽量なQAモデルがこのタスクでうまく機能することを示したが、検索ベースモデルは高速である。 アンサンブルモジュールは2つのバランスを記述し、よくクロスドメインを一般化する。

Current methods in open-domain question answering (QA) usually employ a pipeline of first retrieving relevant documents, then applying strong reading comprehension (RC) models to that retrieved text. However, modern RC models are complex and expensive to run, so techniques to prune the space of retrieved text are critical to allow this approach to scale. In this paper, we focus on approaches which apply an intermediate sentence selection step to address this issue, and investigate the best practices for this approach. We describe two groups of models for sentence selection: QA-based approaches, which run a full-fledged QA system to identify answer candidates, and retrieval-based models, which find parts of each passage specifically related to each question. We examine trade-offs between processing speed and task performance in these two approaches, and demonstrate an ensemble module that represents a hybrid of the two. From experiments on Open-SQuAD and TriviaQA, we show that very lightweight QA models can do well at this task, but retrieval-based models are faster still. An ensemble module we describe balances between the two and generalizes well cross-domain.
翻訳日:2022-10-17 02:59:12 公開日:2020-09-18
# シーケンス生成のための条件付きハイブリッドGAN

Conditional Hybrid GAN for Sequence Generation ( http://arxiv.org/abs/2009.08616v1 )

ライセンス: Link先を確認
Yi Yu, Abhishek Srivastava, Rajiv Ratn Shah(参考訳) 条件付きシーケンス生成は、自己教師付き学習問題(データ自身からの監督情報を含む教師なし学習の形式)である追加の文脈情報を用いてモデルを条件付けして生成手順を指示することを目的としている。 残念ながら、現在の最先端生成モデルは、複数の属性によるシーケンス生成に制限がある。 本稿では,この問題を解決するための条件付きハイブリッドGAN(C-Hybrid-GAN)を提案する。 三重項属性を持つ離散列は、同じ文脈で条件付けされたときに別々に生成される。 最も重要なことは、関係推論技術は、ジェネレータのトレーニング中に属性の各シーケンス内の依存性だけでなく、識別器のトレーニング中に属性のシーケンス間の一貫性をモデル化するために利用される。 離散データ生成時に発生するGANの非微分可能性問題を回避するために,Gumbel-Softmax手法を用いて,歌詞からメロディ(音符,持続時間,静止時間に関連する)を生成するタスクを評価することにより,提案したC-Hybrid-GANが,文脈条件付き離散値列生成において既存の手法より優れていることを示す。

Conditional sequence generation aims to instruct the generation procedure by conditioning the model with additional context information, which is a self-supervised learning issue (a form of unsupervised learning with supervision information from data itself). Unfortunately, the current state-of-the-art generative models have limitations in sequence generation with multiple attributes. In this paper, we propose a novel conditional hybrid GAN (C-Hybrid-GAN) to solve this issue. Discrete sequence with triplet attributes are separately generated when conditioned on the same context. Most importantly, relational reasoning technique is exploited to model not only the dependency inside each sequence of the attribute during the training of the generator but also the consistency among the sequences of attributes during the training of the discriminator. To avoid the non-differentiability problem in GANs encountered during discrete data generation, we exploit the Gumbel-Softmax technique to approximate the distribution of discrete-valued sequences.Through evaluating the task of generating melody (associated with note, duration, and rest) from lyrics, we demonstrate that the proposed C-Hybrid-GAN outperforms the existing methods in context-conditioned discrete-valued sequence generation.
翻訳日:2022-10-17 02:58:52 公開日:2020-09-18
# TotalBotWar:AIのためのPseudo Real-time Multi-action Game Challengeとコンペティション

TotalBotWar: A New Pseudo Real-time Multi-action Game Challenge and Competition for AI ( http://arxiv.org/abs/2009.08696v1 )

ライセンス: Link先を確認
Alejandro Estaben, C\'esar D\'iaz, Raul Montoliu, Diego P\'erez-Liebana(参考訳) 本稿では、ゲームAIのための新しい擬似リアルタイムマルチアクションチャレンジであるTotalBotWarと、異なるエージェントでフレームワークをベンチマークする初期の実験を紹介する。 このゲームは、対戦相手を倒すための軍隊をプレイヤーが管理する人気のトータルウォーゲームシリーズのリアルタイムバトルに基づいている。 提案されたゲームでは、ターンはユニットを制御する一連の命令から構成される。 順番に行うことができる数と特定の順序は、ゲームの進行の間に異なる。 ゲームの特徴の1つは、特定のユニットがターンで順番を受け取らなければ、前のターンで指定されたアクションを実行し続けることである。 ターンワイズ分岐係数は従来のアルゴリズムでは圧倒的となり、ゲーム状態の部分的可観測性により、提案されたゲームは現代のaiアルゴリズムをテストするための興味深いプラットフォームとなる。

This paper presents TotalBotWar, a new pseudo real-time multi-action challenge for game AI, as well as some initial experiments that benchmark the framework with different agents. The game is based on the real-time battles of the popular TotalWar games series where players manage an army to defeat the opponent's one. In the proposed game, a turn consists of a set of orders to control the units. The number and specific orders that can be performed in a turn vary during the progression of the game. One interesting feature of the game is that if a particular unit does not receive an order in a turn, it will continue performing the action specified in a previous turn. The turn-wise branching factor becomes overwhelming for traditional algorithms and the partial observability of the game state makes the proposed game an interesting platform to test modern AI algorithms.
翻訳日:2022-10-17 02:57:51 公開日:2020-09-18
# 構文誘導合成による機械学習モデルのほぼ正確な説明

Probably Approximately Correct Explanations of Machine Learning Models via Syntax-Guided Synthesis ( http://arxiv.org/abs/2009.08770v1 )

ライセンス: Link先を確認
Daniel Neider and Bishwamittra Ghosh(参考訳) 本稿では、おそらくほぼ正解学習(PAC)と構文誘導合成(SyGuS)という論理推論手法を組み合わせて、複雑な機械学習モデル(ディープニューラルネットワークなど)の意思決定を理解するための新しいアプローチを提案する。 我々のフレームワークは、高い確率でわずかな誤差しか生じず、小さな人間の解釈可能な説明を生成するのに効果的であることを実証する。

We propose a novel approach to understanding the decision making of complex machine learning models (e.g., deep neural networks) using a combination of probably approximately correct learning (PAC) and a logic inference methodology called syntax-guided synthesis (SyGuS). We prove that our framework produces explanations that with a high probability make only few errors and show empirically that it is effective in generating small, human-interpretable explanations.
翻訳日:2022-10-17 02:57:37 公開日:2020-09-18
# IDA:有能な物体検出に応用したデータ拡張

IDA: Improved Data Augmentation Applied to Salient Object Detection ( http://arxiv.org/abs/2009.08845v1 )

ライセンス: Link先を確認
Daniel V. Ruiz and Bruno A. Krinski and Eduardo Todt(参考訳) 本稿では,Salient Object Detection(SOD)に着目した改良型データ拡張(IDA)技術を提案する。 画像クロッピング、回転、フリップ、リサイズなどの文献で提案された標準的なデータ拡張技術は、既存の例のバリエーションのみを生成し、限定的な一般化を提供する。 本手法では,画像インペインティング,アフィン変換,および異なる背景画像の線形結合とラベル付きデータから抽出したサルエントオブジェクトを組み合わせる。 提案手法により,背景情報を保存しながら物体の位置や大きさをより正確に制御できる。 背景選択は画像間最適化に基づいており、オブジェクトサイズは所定の間隔内で均一なランダム分布に従い、オブジェクト位置は画像内最適である。 本手法は,sodフィールドの有名なデータセット上での最先端ニューラルネットワークの訓練において,セグメンテーション品質が向上することを示す。 F測定では0.52%,精度では1.19%で水平フリップなど従来の手法を超えている。 また、7つの異なるSODデータセットで評価を行い、9つの異なる評価指標と評価手法の平均ランク付けを行った。

In this paper, we present an Improved Data Augmentation (IDA) technique focused on Salient Object Detection (SOD). Standard data augmentation techniques proposed in the literature, such as image cropping, rotation, flipping, and resizing, only generate variations of the existing examples, providing a limited generalization. Our method combines image inpainting, affine transformations, and the linear combination of different generated background images with salient objects extracted from labeled data. Our proposed technique enables more precise control of the object's position and size while preserving background information. The background choice is based on an inter-image optimization, while object size follows a uniform random distribution within a specified interval, and the object position is intra-image optimal. We show that our method improves the segmentation quality when used for training state-of-the-art neural networks on several famous datasets of the SOD field. Combining our method with others surpasses traditional techniques such as horizontal-flip in 0.52% for F-measure and 1.19% for Precision. We also provide an evaluation in 7 different SOD datasets, with 9 distinct evaluation metrics and an average ranking of the evaluated methods.
翻訳日:2022-10-17 02:51:26 公開日:2020-09-18
# 自動運転のためのマルチモーダルエキスパートネットワーク

Multi-modal Experts Network for Autonomous Driving ( http://arxiv.org/abs/2009.08876v1 )

ライセンス: Link先を確認
Shihong Fang, Anna Choromanska(参考訳) センサデータからエンドツーエンドの学習は、自動運転の有望な結果を示している。 多くのセンサーを使用することで世界の認識が向上し、自動運転車のより堅牢で信頼性の高い行動につながるが、そのようなネットワークの訓練と展開は困難であり、考慮された環境では少なくとも2つの問題が発生する。 1つ目は、センシングデバイス数の増加による計算複雑性の増加である。 もう1つは、最も単純で最も情報的な入力にネットワークオーバーフィットする現象である。 両課題を,高度に調整されたマルチモーダルネットワークアーキテクチャで解決し,マルチステージトレーニング手法を提案する。 ネットワークは、混合離散連続ポリシーを用いて、各推論時間ステップで最も関連性の高い入力を選択するゲーティング機構を含む。 3台のカメラと1台のLiDARを備えた1/6スケールトラックに提案手法の有効性を示す。

End-to-end learning from sensory data has shown promising results in autonomous driving. While employing many sensors enhances world perception and should lead to more robust and reliable behavior of autonomous vehicles, it is challenging to train and deploy such network and at least two problems are encountered in the considered setting. The first one is the increase of computational complexity with the number of sensing devices. The other is the phenomena of network overfitting to the simplest and most informative input. We address both challenges with a novel, carefully tailored multi-modal experts network architecture and propose a multi-stage training procedure. The network contains a gating mechanism, which selects the most relevant input at each inference time step using a mixed discrete-continuous policy. We demonstrate the plausibility of the proposed approach on our 1/6 scale truck equipped with three cameras and one LiDAR.
翻訳日:2022-10-17 02:51:09 公開日:2020-09-18
# 多種海草の検出と水中画像からの分類

Multi-species Seagrass Detection and Classification from Underwater Images ( http://arxiv.org/abs/2009.09924v1 )

ライセンス: Link先を確認
Scarlett Raine, Ross Marchant, Peyman Moghadam, Frederic Maire, Brett Kettle, Brano Kusy(参考訳) カメラペイロードをカスタマイズしたダイバーやロボットを用いた水中調査は、多数の画像を生成することができる。 生態データを抽出するためのこれらの画像のマニュアルレビューは、時間とコストの観点から禁止されており、機械学習ソリューションを使用してこのプロセスを自動化するための強力なインセンティブを提供する。 本稿では,深層畳み込みニューラルネットワーク(全体の精度92.4%)に基づく海草の多種検出と分類について述べる。 また,画像パッチを半自動でラベル付けする簡単な手法を導入し,手動ラベリングを最小化する。 この研究で収集されたデータセットと、実験を再現するためのコードおよび事前訓練されたモデルについて、公開して公開します。

Underwater surveys conducted using divers or robots equipped with customized camera payloads can generate a large number of images. Manual review of these images to extract ecological data is prohibitive in terms of time and cost, thus providing strong incentive to automate this process using machine learning solutions. In this paper, we introduce a multi-species detector and classifier for seagrasses based on a deep convolutional neural network (achieved an overall accuracy of 92.4%). We also introduce a simple method to semi-automatically label image patches and therefore minimize manual labelling requirement. We describe and release publicly the dataset collected in this study as well as the code and pre-trained models to replicate our experiments at: https://github.com/csiro-robotics/deepseagrass
翻訳日:2022-10-17 02:50:56 公開日:2020-09-18
# ハイブリッド確率的決定論的ミニバッチ近位勾配:ほぼ最適一般化によるシングルパス最適化

Hybrid Stochastic-Deterministic Minibatch Proximal Gradient: Less-Than-Single-Pass Optimization with Nearly Optimal Generalization ( http://arxiv.org/abs/2009.09835v1 )

ライセンス: Link先を確認
Pan Zhou, Xiaotong Yuan(参考訳) 確率分散還元勾配 (svrg) アルゴリズムは, 大規模学習問題の解法として有効であることが示されている。 顕著な成功にもかかわらず、svrg型アルゴリズムの確率的勾配複雑性は通常、データサイズと線形にスケールするので、巨大なデータにはコストがかかる可能性がある。 この欠陥に対処するために,データサイズに依存しない複雑性保証を確実に改善した強凸問題に対して,Hybrid stochastic-Deterministic Minibatch proximal gradient (HSDMPG)アルゴリズムを提案する。 より正確には、$F(\theta)$ of $n$コンポーネントに対して、HSDMPGが$\epsilon$-optimization-error $\mathbb{E}[F(\theta)-F(\theta^*)]\leq\epsilon$ in $\mathcal{O}\Big(\frac{\kappa^{1.5}\epsilon^{0.75}\log^{1.5}(\frac{1}{\epsilon})+1}{\epsilon}\wedge\Big(\kappa \sqrt{n}\log^{1.5}\big(\frac{1}{\epsilon}\big)+n\log(\frac{1}{\epsilon)\big) +n\log(\frac{1}{\epsilon)\big)\big) を満たすことを証明している。 一般の強凸損失関数に対しては、対数係数がわずかに増加するコストで、ほぼ同一の複雑性を証明できる。 大規模学習問題では,従来のSVRGアルゴリズムよりも,データサイズに依存するか否かに関わらず,複雑性境界が優れている。 特に、学習モデルの本質的な過大誤差境界の順であり、一般化に十分である$\epsilon=\mathcal{o}\big(1/\sqrt{n}\big)$の場合、二次損失関数に対するhsdmpgの確率的勾配複雑性境界は、それぞれ$\mathcal{o} (n^{0.875}\log^{1.5}(n))$ と$\mathcal{o} (n^{0.875}\log^{2.25}(n))$であり、我々の知る限りでは、単一のパスオーバデータ未満で最適な一般化を達成することができる。 広範な数値計算結果から,従来のアルゴリズムよりも計算効率が優れていることを示す。

Stochastic variance-reduced gradient (SVRG) algorithms have been shown to work favorably in solving large-scale learning problems. Despite the remarkable success, the stochastic gradient complexity of SVRG-type algorithms usually scales linearly with data size and thus could still be expensive for huge data. To address this deficiency, we propose a hybrid stochastic-deterministic minibatch proximal gradient (HSDMPG) algorithm for strongly-convex problems that enjoys provably improved data-size-independent complexity guarantees. More precisely, for quadratic loss $F(\theta)$ of $n$ components, we prove that HSDMPG can attain an $\epsilon$-optimization-error $\mathbb{E}[F(\theta)-F(\theta^*)]\leq\epsilon$ within $\mathcal{O}\Big(\frac{\kappa^{1.5}\epsilon^{0.75}\log^{1.5}(\frac{1}{\epsilon})+1}{\epsilon}\wedge\Big(\kappa \sqrt{n}\log^{1.5}\big(\frac{1}{\epsilon}\big)+n\log\big(\frac{1}{\epsilon}\big)\Big)\Big)$ stochastic gradient evaluations, where $\kappa$ is condition number. For generic strongly convex loss functions, we prove a nearly identical complexity bound though at the cost of slightly increased logarithmic factors. For large-scale learning problems, our complexity bounds are superior to those of the prior state-of-the-art SVRG algorithms with or without dependence on data size. Particularly, in the case of $\epsilon=\mathcal{O}\big(1/\sqrt{n}\big)$ which is at the order of intrinsic excess error bound of a learning model and thus sufficient for generalization, the stochastic gradient complexity bounds of HSDMPG for quadratic and generic loss functions are respectively $\mathcal{O} (n^{0.875}\log^{1.5}(n))$ and $\mathcal{O} (n^{0.875}\log^{2.25}(n))$, which to our best knowledge, for the first time achieve optimal generalization in less than a single pass over data. Extensive numerical results demonstrate the computational advantages of our algorithm over the prior ones.
翻訳日:2022-10-17 02:50:44 公開日:2020-09-18
# web データの教師なし並列コーパスマイニング

Unsupervised Parallel Corpus Mining on Web Data ( http://arxiv.org/abs/2009.08595v1 )

ライセンス: Link先を確認
Guokun Lai, Zihang Dai, Yiming Yang(参考訳) 大量の並列データによって、ニューラルマシン翻訳システムは、文レベルの翻訳に人間レベルのパフォーマンスを提供することができる。 しかし、人間が大量の並列データをラベル付けするのはコストがかかる。 対照的に、インターネット上には人間が作成した大規模な並列コーパスが存在する。 それらを利用するのが難しいのは、ノイズサイト環境からそれらをフィルタする方法だ。 現在の並列データマイニング手法はすべて、トレーニングソースとしてラベル付き並列データを必要とする。 本稿では,インターネットからの並列コーパスを教師なしでマイニングするためのパイプラインを提案する。 広く使われているWMT'14とWMT'16の英語-ドイツ語ベンチマークでは、パイプラインによって抽出されたデータでトレーニングされた機械翻訳器が教師付き結果に非常に近い性能を達成する。 WMT'16の英語-ルーマニア語とルーマニア語-英語のベンチマークで、我々のシステムは、監督されたアプローチと比較しても、39.81と38.95のBLEUスコアという新しい最先端の結果を生成する。

With a large amount of parallel data, neural machine translation systems are able to deliver human-level performance for sentence-level translation. However, it is costly to label a large amount of parallel data by humans. In contrast, there is a large-scale of parallel corpus created by humans on the Internet. The major difficulty to utilize them is how to filter them out from the noise website environments. Current parallel data mining methods all require labeled parallel data as the training source. In this paper, we present a pipeline to mine the parallel corpus from the Internet in an unsupervised manner. On the widely used WMT'14 English-French and WMT'16 English-German benchmarks, the machine translator trained with the data extracted by our pipeline achieves very close performance to the supervised results. On the WMT'16 English-Romanian and Romanian-English benchmarks, our system produces new state-of-the-art results, 39.81 and 38.95 BLEU scores, even compared with supervised approaches.
翻訳日:2022-10-17 02:49:21 公開日:2020-09-18
# マルチセンテンス言語モデルのための合同トランスフォーマーを用いた階層gpt

Hierarchical GPT with Congruent Transformers for Multi-Sentence Language Models ( http://arxiv.org/abs/2009.08636v1 )

ライセンス: Link先を確認
Jihyeon Roh, Huiseong Gim, Soo-Young Lee(参考訳) GPTに基づく対話生成と文書理解のための多文言語モデルについて報告する。 まず,文符号化ブロック,文生成ブロック,文復号ブロックという3つのブロックからなる階層型GPTを提案する。 文の符号化と復号化は基本的に標準変換器のエンコーダ・デコーダブロックであり、各文は独立して動作する。 符号化ブロックと復号ブロックの間に文生成ブロックを挿入し、前の文埋め込みベクタから次の文埋め込みベクタを生成する。 それは人間が会話し、段落や文書を理解する方法だと信じています。 各文は少ない単語から成り立つので、トランスフォーマーの符号化と復号はより小さな次元の埋め込みベクトルを使用することができる。 第二に、トランスフォーマーの注意は内積類似度尺度を利用する。 したがって、同じ空間内の2つのベクトルを比較するために、クエリとキーの変換行列を同じものに設定する。 そうでなければ、類似性の概念は矛盾する。 この2つの修正により,複数文のタスクに対する言語モデルの性能が向上することを示す実験結果について報告する。

We report a GPT-based multi-sentence language model for dialogue generation and document understanding. First, we propose a hierarchical GPT which consists of three blocks, i.e., a sentence encoding block, a sentence generating block, and a sentence decoding block. The sentence encoding and decoding blocks are basically the encoder-decoder blocks of the standard Transformers, which work on each sentence independently. The sentence generating block is inserted between the encoding and decoding blocks, and generates the next sentence embedding vector from the previous sentence embedding vectors. We believe it is the way human make conversation and understand paragraphs and documents. Since each sentence may consist of fewer words, the sentence encoding and decoding Transformers can use much smaller dimensional embedding vectors. Secondly, we note the attention in the Transformers utilizes the inner-product similarity measure. Therefore, to compare the two vectors in the same space, we set the transform matrices for queries and keys to be the same. Otherwise, the similarity concept is incongruent. We report experimental results to show that these two modifications increase the language model performance for tasks with multiple sentences.
翻訳日:2022-10-17 02:48:44 公開日:2020-09-18
# 畳み込みエンコーダ・デコーダネットワークを用いた熱および赤外線損失解析

Thermal and IR Drop Analysis Using Convolutional Encoder-Decoder Networks ( http://arxiv.org/abs/2009.09009v1 )

ライセンス: Link先を確認
Vidya A. Chhabria, Vipul Ahuja, Ashwath Prabhu, Nikhil Patil, Palkesh Jain, and Sachin S. Sapatnekar(参考訳) IC設計の指針となる設計サイクルには,計算コストの高い温度・電力グリッド解析が必要である。 本稿では,エンコーダ・デコーダに基づく生成(EDGe)ネットワークを用いて,これらの解析結果を高速かつ正確な画像・画像・シーケンス変換タスクにマッピングする。 ネットワークは電力マップを入力として、対応する温度またはirドロップマップを出力する。 2つのネットワークを提案します (i)ThermEDGe:静的かつ動的フルチップ温度推定器、及び (II)IREDGe:入力電力、電力グリッド分布、電力パッド分布パターンに基づくフルチップの静的IRドロップ予測器。 モデルは設計非依存で、特定の技術とパッケージングソリューションのために一度だけトレーニングする必要があります。 サーmedge と iredge はそれぞれ 0.6% と 0.008% の平均誤差を与え、チップ上の温度と ir 滴の輪郭をミリ秒で迅速に予測できることが示されている。

Computationally expensive temperature and power grid analyses are required during the design cycle to guide IC design. This paper employs encoder-decoder based generative (EDGe) networks to map these analyses to fast and accurate image-to-image and sequence-to-sequence translation tasks. The network takes a power map as input and outputs the corresponding temperature or IR drop map. We propose two networks: (i) ThermEDGe: a static and dynamic full-chip temperature estimator and (ii) IREDGe: a full-chip static IR drop predictor based on input power, power grid distribution, and power pad distribution patterns. The models are design-independent and must be trained just once for a particular technology and packaging solution. ThermEDGe and IREDGe are demonstrated to rapidly predict the on-chip temperature and IR drop contours in milliseconds (in contrast with commercial tools that require several hours or more) and provide an average error of 0.6% and 0.008% respectively.
翻訳日:2022-10-17 02:42:02 公開日:2020-09-18
# バリア証明書を用いた安全なニューラルネットワークコントローラの学習

Learning Safe Neural Network Controllers with Barrier Certificates ( http://arxiv.org/abs/2009.09826v1 )

ライセンス: Link先を確認
Hengjun Zhao, Xia Zeng, Taolue Chen, Zhiming Liu and Jim Woodcock(参考訳) 安全特性を制御した非線形連続力学系の制御器を合成する新しい手法を提案する。 コントローラはニューラルネットワーク(NN)に基づいている。 安全性の証明には,NNが表現するバリア関数を利用する。 コントローラ-NNとバリア-NNを同時にトレーニングし、ループ内の検証合成を実現する。 多数のケーススタディを備えたプロトタイプツールのnncontrollerを提供する。 実験の結果,本手法の有効性と有効性を確認した。

We provide a novel approach to synthesize controllers for nonlinear continuous dynamical systems with control against safety properties. The controllers are based on neural networks (NNs). To certify the safety property we utilize barrier functions, which are represented by NNs as well. We train the controller-NN and barrier-NN simultaneously, achieving a verification-in-the-loop synthesis. We provide a prototype tool nncontroller with a number of case studies. The experiment results confirm the feasibility and efficacy of our approach.
翻訳日:2022-10-17 02:41:47 公開日:2020-09-18
# GrateTile: CNN処理のための効率的なスパーステンソルタイリング

GrateTile: Efficient Sparse Tensor Tiling for CNN Processing ( http://arxiv.org/abs/2009.08685v1 )

ライセンス: Link先を確認
Yu-Sheng Lin, Hung Chang Lu, Yang-Bin Tsao, Yi-Min Chih, Wei-Chao Chen, Shao-Yi Chien(参考訳) sparse cnn機能マップ(アクティベーション)のための効率的なハードウェアフレンドリなデータストレージスキームであるgratetileを提案する。 データを不均一なサイズのサブステンサに分割し、小さなインデクシングオーバヘッドで、圧縮され、ランダムにアクセス可能なフォーマットに格納する。 この設計により、現代のCNNアクセラレーターは、タイル状の処理方法でサブテンソルをオンザフライでフェッチし、圧縮することができる。 gratetileはアライン化され、結合されたデータアクセスを好むアーキテクチャに適しているが、全体的なアーキテクチャ設計に最小限の変更しか必要ではない。 我々は、GrateTileを最先端CNNでシミュレートし、インデックス化ストレージでは、機能マップサイズのわずか0.6%を使用しながら、平均55%のDRAM帯域幅削減を示す。

We propose GrateTile, an efficient, hardwarefriendly data storage scheme for sparse CNN feature maps (activations). It divides data into uneven-sized subtensors and, with small indexing overhead, stores them in a compressed yet randomly accessible format. This design enables modern CNN accelerators to fetch and decompressed sub-tensors on-the-fly in a tiled processing manner. GrateTile is suitable for architectures that favor aligned, coalesced data access, and only requires minimal changes to the overall architectural design. We simulate GrateTile with state-of-the-art CNNs and show an average of 55% DRAM bandwidth reduction while using only 0.6% of feature map size for indexing storage.
翻訳日:2022-10-17 02:41:42 公開日:2020-09-18
# Nesterov Accelerated Gradient Momentum Method によるフェデレーション学習

Federated Learning with Nesterov Accelerated Gradient Momentum Method ( http://arxiv.org/abs/2009.08716v1 )

ライセンス: Link先を確認
Zhengjie Yang, Wei Bao, Dong Yuan, Nguyen H. Tran, and Albert Y. Zomaya(参考訳) Federated Learning(FL)は、複数のワーカーが分散データセットに基づいてグローバルモデルをトレーニングできる、迅速な開発技術である。 従来のFLは勾配降下アルゴリズムを採用しており、効率は良くない。 Nesterov Accelerated Gradient (NAG) は集中トレーニング環境においてより有利であることが知られているが、これまでのFLにおけるNAGのメリットを定量化する方法は明らかではない。 本研究では,NAG(FedNAG)に基づくFLのバージョンに着目し,詳細な収束解析を行う。 その結果,勾配降下に基づく従来のFLと比較した。 興味深い結論は、学習ステップのサイズが十分に小さい限り、FedNAGはFedAvgより優れています。 実世界のデータセットに基づく広範な実験を行い,結果の検証を行い,feednagの収束性能の検証を行った。

Federated learning (FL) is a fast-developing technique that allows multiple workers to train a global model based on a distributed dataset. Conventional FL employs gradient descent algorithm, which may not be efficient enough. It is well known that Nesterov Accelerated Gradient (NAG) is more advantageous in centralized training environment, but it is not clear how to quantify the benefits of NAG in FL so far. In this work, we focus on a version of FL based on NAG (FedNAG) and provide a detailed convergence analysis. The result is compared with conventional FL based on gradient descent. One interesting conclusion is that as long as the learning step size is sufficiently small, FedNAG outperforms FedAvg. Extensive experiments based on real-world datasets are conducted, verifying our conclusions and confirming the better convergence performance of FedNAG.
翻訳日:2022-10-17 02:41:11 公開日:2020-09-18
# 最適化のためのクロスエントロピー法変種

Cross-Entropy Method Variants for Optimization ( http://arxiv.org/abs/2009.09043v1 )

ライセンス: Link先を確認
Robert J. Moss(参考訳) クロスエントロピー法(CE法)はその単純さと有効性から最適化の確率的手法として人気がある。 ターゲットイベントの発生確率が比較的小さいレアイベントシミュレーションのために設計されたce手法は、基礎となる分布の最適パラメータを正確に推定するために十分な客観的関数呼び出しに依存する。 ある目的関数は評価に計算的に高価であり、CE-methodは局所的なミニマで立ち往生する可能性がある。 これは、興味のある設計空間をカバーするのに十分広い初期共分散を持つ必要性と重なる。 これらの問題に対処するために, CE-method の新たな変種を導入する。 高価な関数呼び出しを緩和するために、最適化中にすべてのサンプルを使用して、目的関数を近似するサーロゲートモデルを構築します。 代理モデルにより、コストの低い評価で目的関数の信念が強化される。 スパースデータを扱う際に特に有用である予測に不確実性を組み込むために、サロゲートモデルにガウス過程を用いる。 局所的な最小収束に対処するため、ガウス混合モデルを用いて設計空間の探索を促進する。 我々は,共分散が最大である場合の最適化に先立って,真の目的関数呼び出しを再配置するための評価スケジューリング手法を試す。 提案手法をテストするため,多くの局所最小値と1つの大域最小値を持つパラメータ化テスト対象関数を作成した。 我々のテスト機能はミニマの広がりと区別を制御するために調整できる。 実験はクロスエントロピー法の変種を強調するために実施され、サロゲートモデルに基づくアプローチは、同じ数の関数評価を用いて局所最小収束を減少させることを示す。

The cross-entropy (CE) method is a popular stochastic method for optimization due to its simplicity and effectiveness. Designed for rare-event simulations where the probability of a target event occurring is relatively small, the CE-method relies on enough objective function calls to accurately estimate the optimal parameters of the underlying distribution. Certain objective functions may be computationally expensive to evaluate, and the CE-method could potentially get stuck in local minima. This is compounded with the need to have an initial covariance wide enough to cover the design space of interest. We introduce novel variants of the CE-method to address these concerns. To mitigate expensive function calls, during optimization we use every sample to build a surrogate model to approximate the objective function. The surrogate model augments the belief of the objective function with less expensive evaluations. We use a Gaussian process for our surrogate model to incorporate uncertainty in the predictions which is especially helpful when dealing with sparse data. To address local minima convergence, we use Gaussian mixture models to encourage exploration of the design space. We experiment with evaluation scheduling techniques to reallocate true objective function calls earlier in the optimization when the covariance is the largest. To test our approach, we created a parameterized test objective function with many local minima and a single global minimum. Our test function can be adjusted to control the spread and distinction of the minima. Experiments were run to stress the cross-entropy method variants and results indicate that the surrogate model-based approach reduces local minima convergence using the same number of function evaluations.
翻訳日:2022-10-17 02:40:30 公開日:2020-09-18
# PACとRegret Guaranteeによる個人強化学習

Private Reinforcement Learning with PAC and Regret Guarantees ( http://arxiv.org/abs/2009.09052v1 )

ライセンス: Link先を確認
Giuseppe Vietri, Borja Balle, Akshay Krishnamurthy, Zhiwei Steven Wu(参考訳) ユーザ情報が本質的にセンシティブなパーソナライズドメディカル(パーソナライズドメディカル)のような高い意思決定領域を動機として,エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。 まず、各ユーザが独自の出力セット(例えば、ポリシーレコメンデーション)を受け取るような設定において、差分プライバシーの強いバリエーションである連立差分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。 そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベート楽観主義に基づく学習アルゴリズムを開発した。 我々のアルゴリズムは、探索の際のプライバシーコストを適度に抑えるだけであり、非私的境界と比較すると、プライバシーパラメータは下位の条件でのみ現れる。 最後に,JDP を対象とする強化学習において,サンプルの複雑さと後悔の限界を低くする。

Motivated by high-stakes decision-making domains like personalized medicine where user information is inherently sensitive, we design privacy preserving exploration policies for episodic reinforcement learning (RL). We first provide a meaningful privacy formulation using the notion of joint differential privacy (JDP)--a strong variant of differential privacy for settings where each user receives their own sets of output (e.g., policy recommendations). We then develop a private optimism-based learning algorithm that simultaneously achieves strong PAC and regret bounds, and enjoys a JDP guarantee. Our algorithm only pays for a moderate privacy cost on exploration: in comparison to the non-private bounds, the privacy parameter only appears in lower-order terms. Finally, we present lower bounds on sample complexity and regret for reinforcement learning subject to JDP.
翻訳日:2022-10-17 02:40:02 公開日:2020-09-18
# 多変量時系列予測のための局所的説明法の評価

Evaluation of Local Explanation Methods for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2009.09092v1 )

ライセンス: Link先を確認
Ozan Ozyegen and Igor Ilic and Mucahit Cevik(参考訳) 機械学習モデルを解釈できることは、機械学習の多くの応用において重要なタスクである。 具体的には、モデルが特定の予測を行う理由を決定する上で、局所的解釈可能性が重要である。 最近のaiの解釈可能性に焦点が当てられているにもかかわらず、時系列予測のための局所的な解釈可能性の研究が欠如している一方で、既存の解釈可能な手法は、主に時系列分類タスクに焦点を当てているものはほとんどない。 本研究では,時系列予測のための新しい評価指標である回帰摂動曲線上の領域とアブレーション率閾値を提案する。 これら2つの指標は、局所的説明モデルの局所的忠実度を測定することができる。 理論基盤を拡張して,2つの一般的なデータセット, \textit{Rossmann sales} と \textit{electricity} の実験結果を収集する。 両方のメトリクスは、多数のローカルな説明モデルの包括的な比較を可能にし、どのメトリクスがより敏感であるかを見つける。 最後に、この分析にヒューリスティックな推論を提供する。

Being able to interpret a machine learning model is a crucial task in many applications of machine learning. Specifically, local interpretability is important in determining why a model makes particular predictions. Despite the recent focus on AI interpretability, there has been a lack of research in local interpretability methods for time series forecasting while the few interpretable methods that exist mainly focus on time series classification tasks. In this study, we propose two novel evaluation metrics for time series forecasting: Area Over the Perturbation Curve for Regression and Ablation Percentage Threshold. These two metrics can measure the local fidelity of local explanation models. We extend the theoretical foundation to collect experimental results on two popular datasets, \textit{Rossmann sales} and \textit{electricity}. Both metrics enable a comprehensive comparison of numerous local explanation models and find which metrics are more sensitive. Lastly, we provide heuristical reasoning for this analysis.
翻訳日:2022-10-17 02:33:13 公開日:2020-09-18
# 時系列予測のための説明可能ブースト線形回帰

Explainable boosted linear regression for time series forecasting ( http://arxiv.org/abs/2009.09110v1 )

ライセンス: Link先を確認
Igor Ilic and Berk Gorgulu and Mucahit Cevik and Mustafa Gokce Baydogan(参考訳) 時系列予測では、過去の観測を収集し分析し、将来の観測を外挿するモデルを開発する。 将来の出来事の予測は、将来の不確実性を減らすのに寄与するため、意思決定をサポートする多くの分野において重要である。 本稿では,ベースモデルから始まる反復的手法である時系列予測のための説明可能な強化線形回帰(EBLR)アルゴリズムを提案し,回帰木を用いてモデルの誤差を説明する。 各イテレーションでは、最高のエラーにつながるパスがベースモデルに新しい変数として追加されます。 この観点からは、残差説明による非線形特徴を取り入れることができるので、一般的な時系列モデルよりも改善できると考えることができる。 さらに重要なことに、エラーに最も寄与する単一のルールを使用することで、解釈可能な結果が得られます。 提案手法は,経験的誤差分布に基づく予測間隔の生成を通じて確率的予測に拡張する。 EBLRを用いて詳細な数値計算を行い、他の様々な手法と比較する。 EBLRは抽出された特徴によってベースモデルの性能を大幅に改善し、他のよく確立された手法と同等の性能を提供する。 モデル予測の解釈可能性とEBLRの高い予測精度は時系列予測に有望な方法である。

Time series forecasting involves collecting and analyzing past observations to develop a model to extrapolate such observations into the future. Forecasting of future events is important in many fields to support decision making as it contributes to reducing the future uncertainty. We propose explainable boosted linear regression (EBLR) algorithm for time series forecasting, which is an iterative method that starts with a base model, and explains the model's errors through regression trees. At each iteration, the path leading to highest error is added as a new variable to the base model. In this regard, our approach can be considered as an improvement over general time series models since it enables incorporating nonlinear features by residuals explanation. More importantly, use of the single rule that contributes to the error most allows for interpretable results. The proposed approach extends to probabilistic forecasting through generating prediction intervals based on the empirical error distribution. We conduct a detailed numerical study with EBLR and compare against various other approaches. We observe that EBLR substantially improves the base model performance through extracted features, and provide a comparable performance to other well established approaches. The interpretability of the model predictions and high predictive accuracy of EBLR makes it a promising method for time series forecasting.
翻訳日:2022-10-17 02:32:58 公開日:2020-09-18
# $\sigma^2$r 損失:シグモイド関数を用いた乗算因子による重み付き損失

$\sigma^2$R Loss: a Weighted Loss by Multiplicative Factors using Sigmoidal Functions ( http://arxiv.org/abs/2009.08796v1 )

ライセンス: Link先を確認
Riccardo La Grassa, Ignazio Gallo, Nicola Landro(参考訳) ニューラルネットワークでは、損失関数は、最適収束誤差の近似に最適化を導く学習プロセスのコアを表す。 畳み込みニューラルネットワーク(cnn)は、損失関数を監視信号として、深いモデルを訓練し、人工視覚のいくつかの分野における最先端の達成に大きく寄与する。 クロスエントロピーとセンター損失関数は、学習関数の識別能力を高め、モデルの一般化性能を高めるために一般的に用いられる。 中心損失はクラス内の分散を最小化し、同時にクラス内の深い特徴の間の長い距離をペナルティ化する。 しかし、中心損失の総誤差は、ほとんどの事例に大きく影響され、クラス内分散の観点からは、凍結状態につながる可能性がある。 これを解決するために,シグマ二乗還元損失(\sigma^2$R損失)と呼ばれる新たな損失関数を導入する。 我々の損失は直観と幾何学的解釈が明確であり、さらに実験により、クラス内分散の低減と、中心損失とソフト近接関数による結果の克服を示すいくつかのベンチマークデータセットにおいて、提案の有効性を実証した。

In neural networks, the loss function represents the core of the learning process that leads the optimizer to an approximation of the optimal convergence error. Convolutional neural networks (CNN) use the loss function as a supervisory signal to train a deep model and contribute significantly to achieving the state of the art in some fields of artificial vision. Cross-entropy and Center loss functions are commonly used to increase the discriminating power of learned functions and increase the generalization performance of the model. Center loss minimizes the class intra-class variance and at the same time penalizes the long distance between the deep features inside each class. However, the total error of the center loss will be heavily influenced by the majority of the instances and can lead to a freezing state in terms of intra-class variance. To address this, we introduce a new loss function called sigma squared reduction loss ($\sigma^2$R loss), which is regulated by a sigmoid function to inflate/deflate the error per instance and then continue to reduce the intra-class variance. Our loss has clear intuition and geometric interpretation, furthermore, we demonstrate by experiments the effectiveness of our proposal on several benchmark datasets showing the intra-class variance reduction and overcoming the results obtained with center loss and soft nearest neighbour functions.
翻訳日:2022-10-17 02:32:42 公開日:2020-09-18
# アラビア語文字用言語非依存多形ocr

An Efficient Language-Independent Multi-Font OCR for Arabic Script ( http://arxiv.org/abs/2009.09115v1 )

ライセンス: Link先を確認
Hussein Osman, Karim Zaghw, Mostafa Hazem, Seifeldin Elsehely(参考訳) 光文字認識(OCR)は、スキャンされた文書の画像からデジタル化されたテキストを抽出するプロセスである。 OCRシステムは、すでに多くの言語で成熟しているが、アラビア語のような重複する文字を持つカーシブ言語にはまだ欠点がある。 本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。 アラビア語のocrシステムは,前処理,単語レベル特徴抽出,文字分割,文字認識,後処理といったモジュールから構成されている。 本稿では,最先端のセグメンテーションアルゴリズムに勝るフォント非依存文字セグメンテーションアルゴリズムも提案する。 最後に,文字認識タスクのためのニューラルネットワークモデルを提案する。 このシステムは、平均的な文字セグメンテーション精度98.06%、文字認識精度99.89%、そしてシステム全体の精度97.94%のオープンアラビアコーパスデータセットで、最先端のアラビアOCRシステムと比較して優れた結果を得た。

Optical Character Recognition (OCR) is the process of extracting digitized text from images of scanned documents. While OCR systems have already matured in many languages, they still have shortcomings in cursive languages with overlapping letters such as the Arabic language. This paper proposes a complete Arabic OCR system that takes a scanned image of Arabic Naskh script as an input and generates a corresponding digital document. Our Arabic OCR system consists of the following modules: Pre-processing, Word-level Feature Extraction, Character Segmentation, Character Recognition, and Post-processing. This paper also proposes an improved font-independent character segmentation algorithm that outperforms the state-of-the-art segmentation algorithms. Lastly, the paper proposes a neural network model for the character recognition task. The system has experimented on several open Arabic corpora datasets with an average character segmentation accuracy 98.06%, character recognition accuracy 99.89%, and overall system accuracy 97.94% achieving outstanding results compared to the state-of-the-art Arabic OCR systems.
翻訳日:2022-10-17 02:31:27 公開日:2020-09-18
# SpiNNaker 2 プロトタイプによる低消費電力低レイテンシキーワードスポッティングと適応制御と Loihi との比較

Low-Power Low-Latency Keyword Spotting and Adaptive Control with a SpiNNaker 2 Prototype and Comparison with Loihi ( http://arxiv.org/abs/2009.08921v1 )

ライセンス: Link先を確認
Yexin Yan, Terrence C. Stewart, Xuan Choo, Bernhard Vogginger, Johannes Partzsch, Sebastian Hoeppner, Florian Kelber, Chris Eliasmith, Steve Furber, Christian Mayr(参考訳) ニューラルネットワークに基づく2つのベンチマークタスクを,第2世代SpiNNaker(SpiNNaker 2)ニューロモルフィックシステム(キーワードスポッティングと適応ロボット制御)のプロトタイプチップ上に実装した。 キーワードスポッティングは、ウェイクワードを聞くためにスマートスピーカーで一般的に使われ、適応制御は、オンラインの方法で未知のダイナミクスに適応するためにロボットアプリケーションで使用される。 ニューロモルフィックなスパイクコンテキストで使用される場合,レートベース機械学習ネットワークで通常使用されるSpinNNaker 2のプロトタイプにおいて,乗算蓄積(MAC)アレイの利点を強調した。 さらに、同じベンチマークタスクがloihiニューロモルフィックチップに実装されており、消費電力と計算時間について並べて比較されている。 Loihiは、より複雑なベクトル行列乗算が関与しない場合には効率が向上するが、MACアレイでは、SpiNNaker 2のプロトタイプは高次元ベクトル行列乗算が関与する場合には効率が向上する。

We implemented two neural network based benchmark tasks on a prototype chip of the second-generation SpiNNaker (SpiNNaker 2) neuromorphic system: keyword spotting and adaptive robotic control. Keyword spotting is commonly used in smart speakers to listen for wake words, and adaptive control is used in robotic applications to adapt to unknown dynamics in an online fashion. We highlight the benefit of a multiply accumulate (MAC) array in the SpiNNaker 2 prototype which is ordinarily used in rate-based machine learning networks when employed in a neuromorphic, spiking context. In addition, the same benchmark tasks have been implemented on the Loihi neuromorphic chip, giving a side-by-side comparison regarding power consumption and computation time. While Loihi shows better efficiency when less complicated vector-matrix multiplication is involved, with the MAC array, the SpiNNaker 2 prototype shows better efficiency when high dimensional vector-matrix multiplication is involved.
翻訳日:2022-10-17 02:31:10 公開日:2020-09-18
# 意味の主要な構成要素

Principal Components of the Meaning ( http://arxiv.org/abs/2009.08859v1 )

ライセンス: Link先を確認
Neslihan Suzen, Alexander Gorban, Jeremy Levesley, and Evgeny Mirkes(参考訳) 本稿では、科学における(語彙的な)意味が13次元の意味空間で表現できると主張する。 この空間は、単語カテゴリ相対情報ゲインの行列上の主成分分析(特異分解)を用いて構築され、そのカテゴリは、Web of Scienceが使用するもので、その単語は、Web of Scienceのテキストから設定された縮小された単語から取られる。 この単語集合はコーパス中のすべてのテキストを多義的に表現し,主成分分析がコーパスに対して客観的な意味を持つことを示す。 13次元は、科学文献の意味を記述するのに十分であり、主成分の質的な意味についての仮説である。

In this paper we argue that (lexical) meaning in science can be represented in a 13 dimension Meaning Space. This space is constructed using principal component analysis (singular decomposition) on the matrix of word category relative information gains, where the categories are those used by the Web of Science, and the words are taken from a reduced word set from texts in the Web of Science. We show that this reduced word set plausibly represents all texts in the corpus, so that the principal component analysis has some objective meaning with respect to the corpus. We argue that 13 dimensions is adequate to describe the meaning of scientific texts, and hypothesise about the qualitative meaning of the principal components.
翻訳日:2022-10-17 02:25:36 公開日:2020-09-18
# コマンド4 自律走行車(C4AV)ワークショップ概要

Commands 4 Autonomous Vehicles (C4AV) Workshop Summary ( http://arxiv.org/abs/2009.08792v1 )

ライセンス: Link先を確認
Thierry Deruyttere, Simon Vandenhende, Dusan Grujicic, Yu Liu, Luc Van Gool, Matthew Blaschko, Tinne Tuytelaars, Marie-Francine Moens(参考訳) 視覚的な接地作業では、自然言語クエリが与えられた場合、画像内の最も関連する領域やオブジェクトを特定する必要がある。 これまでのところ、このタスクの進捗は、人間が話す言語を常に表しているわけではない、キュレートされたデータセットで測られていた。 本研究では,最近普及したタスク設定から逸脱し,自動運転車のシナリオで問題を検討する。 特に,道路シーンの物体に関連付けられる車両に対して,自由形式の自然言語コマンドを乗客に与えることができる状況について考察する。 このトピックに関する研究を刺激するために、我々は最近の \emph{talk2car} データセット(url: https://www.aicrowd.com/challenges/eccv-2020-commands-4-autonomous-vehicles)に基づく \emph{commands for autonomous vehicles} (c4av) チャレンジを組織した。 本稿では,課題の結果について述べる。 まず、使用済みベンチマークと既存のデータセットを比較して視覚的グラウンド化を行う。 第2に、トップパフォーマンスモデルを成功させる側面を特定し、視覚的な接地のための既存の最先端モデルと関連付けると同時に、慎重に選択されたサブセットを評価して潜在的な障害ケースを検出する。 最後に,今後の作業の可能性について検討する。

The task of visual grounding requires locating the most relevant region or object in an image, given a natural language query. So far, progress on this task was mostly measured on curated datasets, which are not always representative of human spoken language. In this work, we deviate from recent, popular task settings and consider the problem under an autonomous vehicle scenario. In particular, we consider a situation where passengers can give free-form natural language commands to a vehicle which can be associated with an object in the street scene. To stimulate research on this topic, we have organized the \emph{Commands for Autonomous Vehicles} (C4AV) challenge based on the recent \emph{Talk2Car} dataset (URL: https://www.aicrowd.com/challenges/eccv-2020-commands-4-autonomous-vehicles). This paper presents the results of the challenge. First, we compare the used benchmark against existing datasets for visual grounding. Second, we identify the aspects that render top-performing models successful, and relate them to existing state-of-the-art models for visual grounding, in addition to detecting potential failure cases by evaluating on carefully selected subsets. Finally, we discuss several possibilities for future work.
翻訳日:2022-10-17 02:24:50 公開日:2020-09-18
# リカレント相関関連記憶を用いたバイナリ分類器の組合わせ

Ensemble of Binary Classifiers Combined Using Recurrent Correlation Associative Memories ( http://arxiv.org/abs/2009.08578v1 )

ライセンス: Link先を確認
Rodolfo Anibal Lobo and Marcos Eduardo Valle(参考訳) アンサンブル法は、基本分類器のグループを巧みに組み合わせて改良された分類器を生成する。 多数決は、アンサンブル法で分類器を結合する手法の例である。 本稿では,連想記憶モデルを用いて分類器を組み合わせることを提案する。 本稿では,2値分類問題に対する繰り返し相関連想記憶(RCAM)に基づくアンサンブル手法を提案する。 本稿では,RCAMに基づくアンサンブル分類器を,基本分類器と結果のアンサンブル法との類似性に依存する多数決分類器とみなすことができることを示す。 より正確には、RCAMベースのアンサンブルは再帰的なコンサルティングと投票方式を用いて分類器を組み合わせる。 さらに、計算実験により、RCAMに基づくアンサンブル法のバイナリ分類問題への応用の可能性を確認する。

An ensemble method should cleverly combine a group of base classifiers to yield an improved classifier. The majority vote is an example of a methodology used to combine classifiers in an ensemble method. In this paper, we propose to combine classifiers using an associative memory model. Precisely, we introduce ensemble methods based on recurrent correlation associative memories (RCAMs) for binary classification problems. We show that an RCAM-based ensemble classifier can be viewed as a majority vote classifier whose weights depend on the similarity between the base classifiers and the resulting ensemble method. More precisely, the RCAM-based ensemble combines the classifiers using a recurrent consult and vote scheme. Furthermore, computational experiments confirm the potential application of the RCAM-based ensemble method for binary classification problems.
翻訳日:2022-10-17 02:23:25 公開日:2020-09-18
# 各種データを用いた1要素計測モデルの因果クラスタリング

Causal Clustering for 1-Factor Measurement Models on Data with Various Types ( http://arxiv.org/abs/2009.08606v1 )

ライセンス: Link先を確認
Shuyan Wang(参考訳) テトラッド制約は、満足度が共分散部分行列の階数減少を示唆する条件であり、fofcのような潜在(未測定)変数の存在を検出する因果発見アルゴリズムの設計に使用される。 当初そのようなアルゴリズムは、測定変数と潜在変数がすべてガウス型で線形関係を持つ場合のみ動作する(ガウス型-ガウス型の場合)。 一様潜在変数モデル(英: unidimentional latent variable model)は、測定値と潜在変数がすべて二項であるときの四項制約を意味することが示されている(Binary-Binary case)。 本稿では,計測された変数が混合データ型である場合や,測定変数が離散的かつ潜在的な共通原因が連続している場合においても,テトラッド制約が伴うことを証明した。 それぞれのケースは例と証明で示されます。 混合データに対するFOFCの性能はシミュレーション研究によって示され、類似した機能を持つアルゴリズムと比較される。

The tetrad constraint is a condition of which the satisfaction signals a rank reduction of a covariance submatrix and is used to design causal discovery algorithms that detects the existence of latent (unmeasured) variables, such as FOFC. Initially such algorithms only work for cases where the measured and latent variables are all Gaussian and have linear relations (Gaussian-Gaussian Case). It has been shown that a unidimentional latent variable model implies tetrad constraints when the measured and latent variables are all binary (Binary-Binary case). This paper proves that the tetrad constraint can also be entailed when the measured variables are of mixed data types and when the measured variables are discrete and the latent common causes are continuous, which implies that any clustering algorithm relying on this constraint can work on those cases. Each case is shown with an example and a proof. The performance of FOFC on mixed data is shown by simulation studies and is compared with some algorithms with similar functions.
翻訳日:2022-10-17 02:23:13 公開日:2020-09-18
# マルチラベル分類のためのコンパクト学習

Compact Learning for Multi-Label Classification ( http://arxiv.org/abs/2009.08607v1 )

ライセンス: Link先を確認
Jiaqi Lv, Tianran Wu, Chenglun Peng, Yunpeng Liu, Ning Xu, Xin Geng(参考訳) マルチラベル分類(MLC)は、各インスタンスが複数の関連するラベルと関連付けられており、出力空間の指数的な成長につながる問題を研究する。 MLCは、ラベル依存を次元の縮小で捉えるために、ラベル圧縮(LC)と呼ばれる一般的なフレームワークを奨励する。 しかし、既存のLC法のほとんどは、特徴空間の影響を考慮しなかったり、元の問題のある特徴に誤認されたりすることで、性能劣化をもたらす可能性がある。 本稿では,特徴とラベルを同時に埋め込み,相互指導を行うためのコンパクト学習(CL)フレームワークを提案する。 この提案は汎用的な概念であるため、埋め込み方式は任意であり、その後の学習プロセスとは独立である。 両空間のコンパクトな低次元表現を学習するために,CMLL(Compact Multi-label Learning)と呼ばれるシンプルな実装を提案する。 CMLLはラベルと特徴の埋め込み空間間の依存性を最大化し、ラベル空間回復の損失を同時に最小化する。 理論的には、異なる埋め込みメソッドに対する一般的な分析を提供する。 実際,提案手法の有効性を検証するために広範な実験を行った。

Multi-label classification (MLC) studies the problem where each instance is associated with multiple relevant labels, which leads to the exponential growth of output space. MLC encourages a popular framework named label compression (LC) for capturing label dependency with dimension reduction. Nevertheless, most existing LC methods failed to consider the influence of the feature space or misguided by original problematic features, so that may result in performance degeneration. In this paper, we present a compact learning (CL) framework to embed the features and labels simultaneously and with mutual guidance. The proposal is a versatile concept, hence the embedding way is arbitrary and independent of the subsequent learning process. Following its spirit, a simple yet effective implementation called compact multi-label learning (CMLL) is proposed to learn a compact low-dimensional representation for both spaces. CMLL maximizes the dependence between the embedded spaces of the labels and features, and minimizes the loss of label space recovery concurrently. Theoretically, we provide a general analysis for different embedding methods. Practically, we conduct extensive experiments to validate the effectiveness of the proposed method.
翻訳日:2022-10-17 02:22:54 公開日:2020-09-18
# 双方向生成逆数ネットワークによる時系列インプットと予測

Time-series Imputation and Prediction with Bi-Directional Generative Adversarial Networks ( http://arxiv.org/abs/2009.08900v1 )

ライセンス: Link先を確認
Mehak Gupta, Rahmatollah Beheshti(参考訳) 多変量時系列データは多くの分類や回帰予測タスクで使われ、そのようなタスクには反復モデルが広く使われている。 最も一般的なリカレントモデルでは、時系列データ要素は等しい長さであり、順序付けられた観測は一定間隔で記録されると仮定する。 しかし、実世界の時系列データは同様の長さも観測回数も持たない。 エントリも欠落しており、予測タスクのパフォーマンスを阻害している。 本稿では,不規則に観測された時系列データに対する値の予測と予測の複合タスクのためのモデルを提案することにより,これらの問題にアプローチする。 提案モデル (bi-gan) は, 生成的敵意設定において双方向リカレントネットワークを用いる。 ジェネレータは双方向のリカレントネットワークであり、実際の不完全データを受信し、欠落した値をインプットする。 判別器は、生成器の出力における実値と不純値とを判別しようとする。 我々のモデルは、入力時間ステップ(予測)の内側または外側の欠落した要素をインプットする方法を学び、したがって時系列データに有効な任意の時間予測ツールとして機能する。 この分野における最先端手法には3つの利点がある。 (a)単一モデルは、計算処理と予測処理の両方に使用できる。 (b)データ不足を伴う長さの異なる時系列の予測タスクを行うことができる。 (c)長期予測と短期予測の両方に対して柔軟な予測窓を提供する訓練中の観察・予測時間窓を知る必要はない。 本研究では,2つの公開データセットと1つの大規模実世界電子健康記録データセットを用いて,小児の体力指数(bmi)値を推定し,両場面で優れた性能を示す。

Multivariate time-series data are used in many classification and regression predictive tasks, and recurrent models have been widely used for such tasks. Most common recurrent models assume that time-series data elements are of equal length and the ordered observations are recorded at regular intervals. However, real-world time-series data have neither a similar length nor a same number of observations. They also have missing entries, which hinders the performance of predictive tasks. In this paper, we approach these issues by presenting a model for the combined task of imputing and predicting values for the irregularly observed and varying length time-series data with missing entries. Our proposed model (Bi-GAN) uses a bidirectional recurrent network in a generative adversarial setting. The generator is a bidirectional recurrent network that receives actual incomplete data and imputes the missing values. The discriminator attempts to discriminate between the actual and the imputed values in the output of the generator. Our model learns how to impute missing elements in-between (imputation) or outside of the input time steps (prediction), hence working as an effective any-time prediction tool for time-series data. Our method has three advantages to the state-of-the-art methods in the field: (a) single model can be used for both imputation and prediction tasks; (b) it can perform prediction task for time-series of varying length with missing data; (c) it does not require to know the observation and prediction time window during training which provides a flexible length of prediction window for both long-term and short-term predictions. We evaluate our model on two public datasets and on another large real-world electronic health records dataset to impute and predict body mass index (BMI) values in children and show its superior performance in both settings.
翻訳日:2022-10-17 02:22:17 公開日:2020-09-18
# 文脈的意味解釈可能性

Contextual Semantic Interpretability ( http://arxiv.org/abs/2009.08720v1 )

ライセンス: Link先を確認
Diego Marcos, Ruth Fong, Sylvain Lobry, Remi Flamary, Nicolas Courty and Devis Tuia(参考訳) 畳み込みニューラルネットワーク(CNN)は、タスクに関連する概念をキャプチャするイメージ表現を学ぶことで知られているが、ハマースモデル解釈可能性の暗黙的な方法で行う。 しかし、そのような表現はニューロンの中に隠れており、シーンに存在する意味論的に解釈可能な属性を認識するようモデルに教えることによって明確にできると主張することができる。 このような中間層を \emph{semantic bottleneck} と呼ぶ。 属性が学習されると、それらは再結合されて最終決定に達し、正確な予測とCNN決定の背後にある明確な推論の両方を提供する。 本稿では,コンテキストを捉えた意味的ボトルネックについて考察する。我々は属性をいくつかの意味のある要素のグループに配置し,最終決定に共同で参加させたい。 属性を解釈可能なスパースグループに集約する2層セマンティックボトルネックを使用して、コンテキストに応じて最終的な出力に異なるコントリビューションを可能にする。 本研究では,ランドスケープの美しさ推定作業における文脈意味解釈的ボトルネック(CSIB)を検証し,補助データベース(SUN Attributes)を用いて意味解釈的ボトルネックを訓練する。 本モデルでは,Flickr画像の実際のテストセットに適用した場合の,解釈不能なベースラインと同程度の精度で予測を行うとともに,各予測に対して明確かつ解釈可能な説明を提供する。

Convolutional neural networks (CNN) are known to learn an image representation that captures concepts relevant to the task, but do so in an implicit way that hampers model interpretability. However, one could argue that such a representation is hidden in the neurons and can be made explicit by teaching the model to recognize semantically interpretable attributes that are present in the scene. We call such an intermediate layer a \emph{semantic bottleneck}. Once the attributes are learned, they can be re-combined to reach the final decision and provide both an accurate prediction and an explicit reasoning behind the CNN decision. In this paper, we look into semantic bottlenecks that capture context: we want attributes to be in groups of a few meaningful elements and participate jointly to the final decision. We use a two-layer semantic bottleneck that gathers attributes into interpretable, sparse groups, allowing them contribute differently to the final output depending on the context. We test our contextual semantic interpretable bottleneck (CSIB) on the task of landscape scenicness estimation and train the semantic interpretable bottleneck using an auxiliary database (SUN Attributes). Our model yields in predictions as accurate as a non-interpretable baseline when applied to a real-world test set of Flickr images, all while providing clear and interpretable explanations for each prediction.
翻訳日:2022-10-17 02:16:05 公開日:2020-09-18
# ホロスティックグリッド融合に基づく停止線推定

Holistic Grid Fusion Based Stop Line Estimation ( http://arxiv.org/abs/2009.09093v1 )

ライセンス: Link先を確認
Runsheng Xu, Faezeh Tafazzoli, Li Zhang, Timo Rehfeld, Gunther Krehl, Arunava Seal(参考訳) インターセクションシナリオは、自律運転支援システムにおける最も複雑な交通状況を提供する。 交差点で事前に停止する場所を知ることは、車両の長手速度を制御する上で必須のパラメータである。 文献における既存の手法のほとんどは、カメラのみを使用して停止線を検出するが、通常は検出範囲の点で不十分である。 そこで本稿では,ステレオカメラやライダーなどの融合多感データを入力として活用し,ニューラルネットワークアーキテクチャを慎重に設計し,停止線を検出する手法を提案する。 提案手法は, カメラデータのみと比較して検出範囲を改善でき, 接地標識を明示的に観察することなく重閉塞下で動作し, 全車線の停止線を予測でき, 最大50mの距離で検出できることを示す。

Intersection scenarios provide the most complex traffic situations in Autonomous Driving and Driving Assistance Systems. Knowing where to stop in advance in an intersection is an essential parameter in controlling the longitudinal velocity of the vehicle. Most of the existing methods in literature solely use cameras to detect stop lines, which is typically not sufficient in terms of detection range. To address this issue, we propose a method that takes advantage of fused multi-sensory data including stereo camera and lidar as input and utilizes a carefully designed convolutional neural network architecture to detect stop lines. Our experiments show that the proposed approach can improve detection range compared to camera data alone, works under heavy occlusion without observing the ground markings explicitly, is able to predict stop lines for all lanes and allows detection at a distance up to 50 meters.
翻訳日:2022-10-17 02:15:43 公開日:2020-09-18
# 空中光切断による探索と救助

Search and Rescue with Airborne Optical Sectioning ( http://arxiv.org/abs/2009.08835v1 )

ライセンス: Link先を確認
David C. Schedl and Indrajit Kurmi and Oliver Bimber(参考訳) 咬合条件下での自動人物検出は, 分類前の多視点画像を組み合わせることで大幅に改善できることを示す。 そこで我々は,Airborne Optical Sectioning (AOS)による画像統合,すなわちカメラドローンを用いて非構造熱電場を捕捉する合成開口イメージング技術を用いて,96/93%の精度でこれを実現した。 密林で行方不明または負傷者を見つけることは、一般的に熱記録では実現できないが、aos積分画像を用いて実用化される。 我々の研究は、自律航空機や有人航空機と組み合わせて適用可能な、効率的な将来の捜索救助技術の基礎を築いた。 それらはまた、部分的に没頭した人や動物、あるいは物体の不正確な分類に苦しむ他の分野にも有益である。

We show that automated person detection under occlusion conditions can be significantly improved by combining multi-perspective images before classification. Here, we employed image integration by Airborne Optical Sectioning (AOS)---a synthetic aperture imaging technique that uses camera drones to capture unstructured thermal light fields---to achieve this with a precision/recall of 96/93%. Finding lost or injured people in dense forests is not generally feasible with thermal recordings, but becomes practical with use of AOS integral images. Our findings lay the foundation for effective future search and rescue technologies that can be applied in combination with autonomous or manned aircraft. They can also be beneficial for other fields that currently suffer from inaccurate classification of partially occluded people, animals, or objects.
翻訳日:2022-10-17 02:15:29 公開日:2020-09-18
# 目が覚めるのか?

Will it Unblend? ( http://arxiv.org/abs/2009.09123v1 )

ライセンス: Link先を確認
Yuval Pinter, Cassandra L. Jacobs, Jacob Eisenstein(参考訳) 自然言語処理システムは、訓練データには現れない語彙外用語(oov)に苦しむことが多い。 Innoventor"のようなブレンドは、予測不能な方法や度合いで意図された意味に関連する2つ以上のベースを融合することによって形成される、特に難しいOOVのクラスである。 本研究では,BERTのような大規模文脈言語モデルによるブレンドの意味の解釈の難しさを定量化するために,英語 OOV ブレンドの新しいデータセット上で実験を行った。 まず, bert のブレンド処理はコンポーネントの意味を完全にはアクセスせず, 文脈表現は意味的に貧弱であることを示した。 これは主にブレンド形成による文字の喪失によるものである。 そして,異なるモデルがブレンドの構造をいかに容易に認識し,その起源を復元するかを評価し,文脈認識型埋め込みシステムの方がキャラクタレベルや文脈自由な埋め込みよりも優れていることを示した。

Natural language processing systems often struggle with out-of-vocabulary (OOV) terms, which do not appear in training data. Blends, such as "innoventor", are one particularly challenging class of OOV, as they are formed by fusing together two or more bases that relate to the intended meaning in unpredictable manners and degrees. In this work, we run experiments on a novel dataset of English OOV blends to quantify the difficulty of interpreting the meanings of blends by large-scale contextual language models such as BERT. We first show that BERT's processing of these blends does not fully access the component meanings, leaving their contextual representations semantically impoverished. We find this is mostly due to the loss of characters resulting from blend formation. Then, we assess how easily different models can recognize the structure and recover the origin of blends, and find that context-aware embedding systems outperform character-level and context-free embeddings, although their results are still far from satisfactory.
翻訳日:2022-10-17 02:14:22 公開日:2020-09-18
# efficientnetを用いたスマート観光に配慮した画像キャプション

Image Captioning with Attention for Smart Local Tourism using EfficientNet ( http://arxiv.org/abs/2009.08899v1 )

ライセンス: Link先を確認
Dhomas Hatta Fudholi, Yurio Windiatmoko, Nurdi Afrianto, Prastyo Eko Susanto, Magfirah Suyuti, Ahmad Fathan Hidayatullah, Ridho Rahmadi(参考訳) スマートシステムは、さまざまなタスクで人間を助けるために大規模に開発された。 ディープラーニング技術は、データレイクの爆発により、正確なアシスタントシステムの構築をさらに進める。 スマートシステムタスクの1つは、ユーザに必要な情報を広めることです。 これは観光業において、地域観光の振興に不可欠である。 本研究では,地域観光特化画像キャプションのモデルを構築し,様々なユーザを支援するAIシステムの開発を支援する。 このモデルは視覚的注意機構を用いて開発され、最先端の機能抽出アーキテクチャであるEfficientNetを使用している。 地元の観光データセットが収集され、2種類のキャプションとともに研究に使用される。 イメージを文字通り記述するキャプションと、画像を見るときの人間の論理応答を表すキャプション。 これは、補助システムに実装されたキャプションモデルをより人間的にするために行われる。 EfficientNet アーキテクチャ (B0 と B4) と他のよく知られた VGG16 と InceptionV3 を比較した。 最高のBLEUスコアは、トレーニングセットと検証セットそれぞれ73.39と24.51で、EfficientNetB0を使用する。 開発したモデルを用いたキャプション結果から,地域観光関連画像の論理キャプションを生成できることが示された。

Smart systems have been massively developed to help humans in various tasks. Deep Learning technologies push even further in creating accurate assistant systems due to the explosion of data lakes. One of the smart system tasks is to disseminate users needed information. This is crucial in the tourism sector to promote local tourism destinations. In this research, we design a model of local tourism specific image captioning, which later will support the development of AI-powered systems that assist various users. The model is developed using a visual Attention mechanism and uses the state-of-the-art feature extractor architecture EfficientNet. A local tourism dataset is collected and is used in the research, along with two different kinds of captions. Captions that describe the image literally and captions that represent human logical responses when seeing the image. This is done to make the captioning model more humane when implemented in the assistance system. We compared the performance of two different models using EfficientNet architectures (B0 and B4) with other well known VGG16 and InceptionV3. The best BLEU scores we get are 73.39 and 24.51 for the training set and the validation set respectively, using EfficientNetB0. The captioning result using the developed model shows that the model can produce logical caption for local tourism-related images
翻訳日:2022-10-17 02:13:36 公開日:2020-09-18
# Dr. Summarize:局所構造を爆発させることによる医療対話のグローバル要約

Dr. Summarize: Global Summarization of Medical Dialogue by Exploiting Local Structures ( http://arxiv.org/abs/2009.08666v1 )

ライセンス: Link先を確認
Anirudh Joshi, Namit Katariya, Xavier Amatriain, Anitha Kannan(参考訳) 患者と医師の医療会話を理解することは、標準的なオープンエンド会話の要素と専門知識と医学知識を必要とする非常にドメイン固有の要素を組み合わせることで、ユニークな自然言語理解の課題を引き起こす。 医学的会話の要約は、医療的会話理解において特に重要な側面である。医療的出会いの最も重要な側面を捉えて、医療的意思決定やその後のフォローアップに使用できる。 本稿では,患者の医療履歴を収集する際に生成する独特で独立した局所構造を活用した,医療会話要約への新しいアプローチを提案する。 我々のアプローチは、ジェネレータ分布にペナルティを導入し、明示的に否定をモデル化するポインタージェネレータネットワークのバリエーションである。 このモデルは、標準化された医療オントロジーからの医療知識のような医療会話の重要な特性を、これらの概念が明示的に導入される時よりもうまく捉えている。 医師による評価により,本手法は基準ポインタージェネレータモデルの2倍のサマリー数に好適であり,会話の80%で情報の大部分あるいは全部をキャプチャすることで,医療専門家による手作業による要約の現実的な代替となることを示した。

Understanding a medical conversation between a patient and a physician poses a unique natural language understanding challenge since it combines elements of standard open ended conversation with very domain specific elements that require expertise and medical knowledge. Summarization of medical conversations is a particularly important aspect of medical conversation understanding since it addresses a very real need in medical practice: capturing the most important aspects of a medical encounter so that they can be used for medical decision making and subsequent follow ups. In this paper we present a novel approach to medical conversation summarization that leverages the unique and independent local structures created when gathering a patient's medical history. Our approach is a variation of the pointer generator network where we introduce a penalty on the generator distribution, and we explicitly model negations. The model also captures important properties of medical conversations such as medical knowledge coming from standardized medical ontologies better than when those concepts are introduced explicitly. Through evaluation by doctors, we show that our approach is preferred on twice the number of summaries to the baseline pointer generator model and captures most or all of the information in 80% of the conversations making it a realistic alternative to costly manual summarization by medical experts.
翻訳日:2022-10-17 02:06:55 公開日:2020-09-18
# 下流タスクのための文レベルの自然言語推論

Looking Beyond Sentence-Level Natural Language Inference for Downstream Tasks ( http://arxiv.org/abs/2009.09099v1 )

ライセンス: Link先を確認
Anshuman Mishra, Dhruvesh Patel, Aparna Vijayakumar, Xiang Li, Pavan Kapanipathi, Kartik Talamadupula(参考訳) 近年、自然言語推論(nli)タスクは、人間に近いパフォーマンスを達成する新しいデータセットとモデルによって、大きな注目を集めている。 しかし、NLIの完全な約束、特に他の下流のNLPタスクに一般化可能な知識を学ぶことは実現されていない。 本稿では,質問応答(QA)とテキスト要約という2つの下流タスクのレンズから,この未完の約束を考察する。 既存のQAデータセットから新たな長期的NLIデータセットを作成することは、真に一般化可能なNLIモデルをトレーニングするための有望な道である。 提案手法は,QAの課題に対する競争結果を提示し,サマリーの事実的正当性を確認するタスクに関する最良の報告結果を得ることにより,予測を検証した。

In recent years, the Natural Language Inference (NLI) task has garnered significant attention, with new datasets and models achieving near human-level performance on it. However, the full promise of NLI -- particularly that it learns knowledge that should be generalizable to other downstream NLP tasks -- has not been realized. In this paper, we study this unfulfilled promise from the lens of two downstream tasks: question answering (QA), and text summarization. We conjecture that a key difference between the NLI datasets and these downstream tasks concerns the length of the premise; and that creating new long premise NLI datasets out of existing QA datasets is a promising avenue for training a truly generalizable NLI model. We validate our conjecture by showing competitive results on the task of QA and obtaining the best reported results on the task of Checking Factual Correctness of Summaries.
翻訳日:2022-10-17 02:06:33 公開日:2020-09-18
# HTMRL:階層的時間記憶を用いた生物学的に可塑性強化学習

HTMRL: Biologically Plausible Reinforcement Learning with Hierarchical Temporal Memory ( http://arxiv.org/abs/2009.08880v1 )

ライセンス: Link先を確認
Jakob Struye, Kevin Mets, Steven Latr\'e(参考訳) 継続的に進化するタスクに適応できる強化学習(RL)アルゴリズムを構築することは、オープンな研究課題である。 このような非定常入力パターンをうまく扱うことが知られている技術の一つは階層的時空間記憶(htm)であり、ヒト新皮質の汎用的かつ生物学的に妥当な計算モデルである。 RLパラダイムは人間の学習にインスパイアされているため、HTMは非定常環境をサポートするRLアルゴリズムの自然なフレームワークである。 本稿では,HTMベースのRLアルゴリズムであるHTMRLを提案する。 我々は,HTMRLが多くの状態や行動にスケールできることを経験的,統計的に示し,パターンの変化に適応するHTMの能力がRLにまで拡張できることを実証した。 具体的には、HTMRLは750歩の後に10本腕のバンディットでうまく機能するが、突然腕をシャッフルするためには3分の1しか必要としない。 HTMRLは新しいRLアプローチの最初のイテレーションであり、Meta-RLの有能なアルゴリズムに拡張される可能性がある。

Building Reinforcement Learning (RL) algorithms which are able to adapt to continuously evolving tasks is an open research challenge. One technology that is known to inherently handle such non-stationary input patterns well is Hierarchical Temporal Memory (HTM), a general and biologically plausible computational model for the human neocortex. As the RL paradigm is inspired by human learning, HTM is a natural framework for an RL algorithm supporting non-stationary environments. In this paper, we present HTMRL, the first strictly HTM-based RL algorithm. We empirically and statistically show that HTMRL scales to many states and actions, and demonstrate that HTM's ability for adapting to changing patterns extends to RL. Specifically, HTMRL performs well on a 10-armed bandit after 750 steps, but only needs a third of that to adapt to the bandit suddenly shuffling its arms. HTMRL is the first iteration of a novel RL approach, with the potential of extending to a capable algorithm for Meta-RL.
翻訳日:2022-10-17 02:06:08 公開日:2020-09-18
# フェノタイプ特性を用いた確率サンプリング・分光クラスター植物遺伝子型

Probabilistically Sampled and Spectrally Clustered Plant Genotypes using Phenotypic Characteristics ( http://arxiv.org/abs/2009.09028v1 )

ライセンス: Link先を確認
Aditya A. Shastri, Kapil Ahuja, Milind B. Ratnaparkhe, and Yann Busnel(参考訳) 遺伝的特徴に基づくクラスタリング遺伝子型は、育種プログラムに有用な多様な両親の集合を得るために用いられる。 階層クラスタリング(HC)アルゴリズムは、表現型データのクラスタリングにおける現在の標準である。 このアルゴリズムは、低い精度と高い計算複雑性の問題に苦しむ。 この精度問題に対処するために,スペクトルクラスタリング(SC)アルゴリズムを提案する。 アルゴリズムを計算量的に安価にするために,確率に基づくサンプリング,特に重要なサンプリングを用いることを提案する。 表現型データへのサンプリングの適用はあまり検討されていないため、このデータにもVector Quantization (VQ)と呼ばれる別のサンプリング手法が適用されている。 vqは最近、ゲノムデータに有望な結果をもたらした。 Pivotal SmplingアルゴリズムによるSCの新規性は、クラスタリングアルゴリズムの重要な類似性行列を構築し、サンプリング手法の確率を定義することである。 本アルゴリズムはどの植物属にも適用できるが,約2400種の大豆属から得られた表現型データに基づいて検証する。 Pivotal SamplingのSCは、サンプリングアルゴリズム(VQのSC、Pivotal SamplingのHC、VQのHCなど)で提案された他のすべての競合クラスタリングよりも、はるかに精度が高い(Silhouette Valuesの観点では)。 Pivotal SmplingアルゴリズムによるSCの複雑さとこれら3つの変種はほぼ同じです。 さらに、Pivotal SmplingによるSCは、精度と計算の複雑さの両方で標準のHCアルゴリズムより優れています。 クラスタリングの精度では,HCよりも最大45%精度が高いことが実験的に示された。 我々のアルゴリズムの計算の複雑さはhcよりも1桁小さい。

Clustering genotypes based upon their phenotypic characteristics is used to obtain diverse sets of parents that are useful in their breeding programs. The Hierarchical Clustering (HC) algorithm is the current standard in clustering of phenotypic data. This algorithm suffers from low accuracy and high computational complexity issues. To address the accuracy challenge, we propose the use of Spectral Clustering (SC) algorithm. To make the algorithm computationally cheap, we propose using sampling, specifically, Pivotal Sampling that is probability based. Since application of samplings to phenotypic data has not been explored much, for effective comparison, another sampling technique called Vector Quantization (VQ) is adapted for this data as well. VQ has recently given promising results for genome data. The novelty of our SC with Pivotal Sampling algorithm is in constructing the crucial similarity matrix for the clustering algorithm and defining probabilities for the sampling technique. Although our algorithm can be applied to any plant genotypes, we test it on the phenotypic data obtained from about 2400 Soybean genotypes. SC with Pivotal Sampling achieves substantially more accuracy (in terms of Silhouette Values) than all the other proposed competitive clustering with sampling algorithms (i.e. SC with VQ, HC with Pivotal Sampling, and HC with VQ). The complexities of our SC with Pivotal Sampling algorithm and these three variants are almost same because of the involved sampling. In addition to this, SC with Pivotal Sampling outperforms the standard HC algorithm in both accuracy and computational complexity. We experimentally show that we are up to 45% more accurate than HC in terms of clustering accuracy. The computational complexity of our algorithm is more than a magnitude lesser than HC.
翻訳日:2022-10-17 02:05:50 公開日:2020-09-18
# クローズドループ血糖コントロールのための深部強化学習

Deep Reinforcement Learning for Closed-Loop Blood Glucose Control ( http://arxiv.org/abs/2009.09051v1 )

ライセンス: Link先を確認
Ian Fox, Joyce Lee, Rodica Pop-Busui, Jenna Wiens(参考訳) 1型糖尿病(T1D)の患者は、体に必要なインスリンを産生する能力がない。 結果として、血糖値を適切に制御するインスリンの量について、彼らは継続的に決定しなければならない。 連続的なグルコースモニターのようなウェアラブルから取得した縦断データストリームは、これらの個人が健康を管理するのに役立ちますが、現在、決定の重荷の大半はユーザーにかかっています。 この負担を軽減するために、研究者たちは「人工膵」で連続グルコースモニターとインスリンポンプと制御アルゴリズムを組み合わせたクローズドループソリューションに取り組んでいる。 「こうしたシステムは、適切な量のインスリンを見積もって納入することを目的としている。 そこで我々は,自動血糖コントロールのための強化学習(RL)技術を開発した。 一連の実験を通して、異なる深部RLアプローチの性能を非RLアプローチと比較する。 我々は、RLアプローチの柔軟性を強調し、新たな個人にどのように適応できるかを、追加データで示します。 シミュレーションされた30人の患者から得られた2100万時間以上のデータにおいて、我々のRLアプローチはベースライン制御アルゴリズムよりも優れており、中央値の血糖リスクは8.34から4.24に50%近く減少し、合計時間の低血糖は4,610日から6.8%減少する。 さらに、これらのアプローチは、予測可能な食事時間に適応することができる(食事の予測可能性の増加に伴い、平均リスクを24%増加させる)。 この研究は、T1D患者が専門家の知識を必要とせずに血糖値を管理するのに役立つ、深いRLの可能性を示す。 すべてのコードが公開されており、レプリケーションと拡張が可能です。

People with type 1 diabetes (T1D) lack the ability to produce the insulin their bodies need. As a result, they must continually make decisions about how much insulin to self-administer to adequately control their blood glucose levels. Longitudinal data streams captured from wearables, like continuous glucose monitors, can help these individuals manage their health, but currently the majority of the decision burden remains on the user. To relieve this burden, researchers are working on closed-loop solutions that combine a continuous glucose monitor and an insulin pump with a control algorithm in an `artificial pancreas.' Such systems aim to estimate and deliver the appropriate amount of insulin. Here, we develop reinforcement learning (RL) techniques for automated blood glucose control. Through a series of experiments, we compare the performance of different deep RL approaches to non-RL approaches. We highlight the flexibility of RL approaches, demonstrating how they can adapt to new individuals with little additional data. On over 2.1 million hours of data from 30 simulated patients, our RL approach outperforms baseline control algorithms: leading to a decrease in median glycemic risk of nearly 50% from 8.34 to 4.24 and a decrease in total time hypoglycemic of 99.8%, from 4,610 days to 6. Moreover, these approaches are able to adapt to predictable meal times (decreasing average risk by an additional 24% as meals increase in predictability). This work demonstrates the potential of deep RL to help people with T1D manage their blood glucose levels without requiring expert knowledge. All of our code is publicly available, allowing for replication and extension.
翻訳日:2022-10-17 02:05:04 公開日:2020-09-18
# 圧縮模倣学習

Compressed imitation learning ( http://arxiv.org/abs/2009.11697v1 )

ライセンス: Link先を確認
Nathan Zhao, Beicheng Lou(参考訳) 周波数領域のスパース性に関する事前知識からサンプル効率のよい信号再構成を可能にする圧縮センシングの類似性として,occamのカミソリ(policy simplicity, occam's razor)を先行として活用し,サンプル効率のよい模倣学習を可能にする。 まず, 状態値関数を直接サンプリングできる線形ケースにおいて, このスキームの実現可能性を示した。 また,アクションのみを可視化するシナリオと,非線形ネットワークからポリシーが得られたシナリオに拡張した。 この手法は行動のクローン化に対してベンチマークされ、専門家によるデモンストレーションが限定された結果、非常に高いスコアが得られる。

In analogy to compressed sensing, which allows sample-efficient signal reconstruction given prior knowledge of its sparsity in frequency domain, we propose to utilize policy simplicity (Occam's Razor) as a prior to enable sample-efficient imitation learning. We first demonstrated the feasibility of this scheme on linear case where state-value function can be sampled directly. We also extended the scheme to scenarios where only actions are visible and scenarios where the policy is obtained from nonlinear network. The method is benchmarked against behavior cloning and results in significantly higher scores with limited expert demonstrations.
翻訳日:2022-10-17 02:04:36 公開日:2020-09-18
# 説明可能な機械学習の原則と実践

Principles and Practice of Explainable Machine Learning ( http://arxiv.org/abs/2009.11698v1 )

ライセンス: Link先を確認
Vaishak Belle and Ioannis Papantonis(参考訳) 人工知能(AI)は、民間と公共の生活を改善する多くの機会を提供する。 大量のデータを自動で分析するパターンと構造は、データサイエンスのコアコンポーネントであり、現在、計算生物学、法学、財務学などの様々な分野のアプリケーションを駆動している。 しかしながら、このような非常にポジティブな影響は、重要な課題と結び付いている。 システムを信頼するために、これらのシステムによって提案されている決定をどのように理解するか? 本報告では、特に機械学習(ml)とパターン認識モデルによるデータ駆動手法に注目し、文献からの結果と観察を調査・分別する。 このレポートの目的は、MLモデルがより広範囲のビジネスに展開されていることに注目して、特に評価することができる。 しかし、メソッドの普及と複雑さの増加に伴い、少なくともビジネス利害関係者は、モデルの欠点やデータ固有のバイアスなどに関する懸念が高まっている。 同様に、データサイエンスの実践者は、しばしば学術文献から生まれるアプローチを意識していないか、異なる方法の違いを理解するのに苦労しているかもしれないため、shapのような業界標準を使うことになる。 ここでは、業界実践者(データサイエンティストも含む)が説明可能な機械学習の分野をより深く理解し、適切なツールを適用するための調査を実施しました。 後者のセクションでは、データサイエンティストの仮定に関する物語を作り、正しい質問をしてモデルを説明する方法について論じています。

Artificial intelligence (AI) provides many opportunities to improve private and public life. Discovering patterns and structures in large troves of data in an automated manner is a core component of data science, and currently drives applications in diverse areas such as computational biology, law and finance. However, such a highly positive impact is coupled with significant challenges: how do we understand the decisions suggested by these systems in order that we can trust them? In this report, we focus specifically on data-driven methods -- machine learning (ML) and pattern recognition models in particular -- so as to survey and distill the results and observations from the literature. The purpose of this report can be especially appreciated by noting that ML models are increasingly deployed in a wide range of businesses. However, with the increasing prevalence and complexity of methods, business stakeholders in the very least have a growing number of concerns about the drawbacks of models, data-specific biases, and so on. Analogously, data science practitioners are often not aware about approaches emerging from the academic literature, or may struggle to appreciate the differences between different methods, so end up using industry standards such as SHAP. Here, we have undertaken a survey to help industry practitioners (but also data scientists more broadly) understand the field of explainable machine learning better and apply the right tools. Our latter sections build a narrative around a putative data scientist, and discuss how she might go about explaining her models by asking the right questions.
翻訳日:2022-10-17 02:04:25 公開日:2020-09-18