このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200311となっている論文です。

PDF登録状況(公開日: 20200311)

TitleAuthorsAbstract論文公表日・翻訳日
# ハイパースペクトル画像分類における深層学習の統計的損失と解析

Statistical Loss and Analysis for Deep Learning in Hyperspectral Image Classification ( http://arxiv.org/abs/1912.12385v2 )

ライセンス: Link先を確認
Zhiqiang Gong, Ping Zhong, Weidong Hu(参考訳) 現在、深層学習法、特に畳み込みニューラルネットワーク(cnns)は、ハイパースペクトル画像から抽象的かつハイレベルな特徴を抽出することで印象的な性能を示している。 しかしながら、cnnの一般的なトレーニングプロセスは、主にピクセル毎の情報やサンプルの相関を考慮し、ペナリゼーションを定式化する一方で、統計特性、特にハイパースペクトル画像の各クラスのスペクトル変動を無視する。 これらのサンプルに基づくペナル化は、トレーニングサンプルの不均衡と限られた数のトレーニングサンプルによるトレーニングプロセスの不確実性につながる。 この問題を解決するために,高スペクトル画像から各クラスを統計的分布として特徴付け,さらに深層学習用サンプルでは直接ではなく分布による新たな統計的損失を生じさせる。 Fisherの判別基準に基づいて、損失は各クラス分布のサンプル分散をペナルティ化し、トレーニングサンプルのクラス内分散を減少させる。 さらに、異なるクラス分布間のクラス間分散を拡大するために、さらなる多様性促進条件が追加され、ハイパースペクトル画像における異なるクラスからのサンプルの識別がより良くなる。 最後に,多変量統計解析による学習サンプルを用いて,統計的損失の統計的推定形式を開発した。 実世界のハイパースペクトル画像に対する実験は、深層学習において発達した統計的損失の有効性を示す。

Nowadays, deep learning methods, especially the convolutional neural networks (CNNs), have shown impressive performance on extracting abstract and high-level features from the hyperspectral image. However, general training process of CNNs mainly considers the pixel-wise information or the samples' correlation to formulate the penalization while ignores the statistical properties especially the spectral variability of each class in the hyperspectral image. These samples-based penalizations would lead to the uncertainty of the training process due to the imbalanced and limited number of training samples. To overcome this problem, this work characterizes each class from the hyperspectral image as a statistical distribution and further develops a novel statistical loss with the distributions, not directly with samples for deep learning. Based on the Fisher discrimination criterion, the loss penalizes the sample variance of each class distribution to decrease the intra-class variance of the training samples. Moreover, an additional diversity-promoting condition is added to enlarge the inter-class variance between different class distributions and this could better discriminate samples from different classes in hyperspectral image. Finally, the statistical estimation form of the statistical loss is developed with the training samples through multi-variant statistical analysis. Experiments over the real-world hyperspectral images show the effectiveness of the developed statistical loss for deep learning.
翻訳日:2023-01-17 12:53:54 公開日:2020-03-11
# PC および URC 式のサイズに関する境界

Bounds on the size of PC and URC formulas ( http://arxiv.org/abs/2001.00819v3 )

ライセンス: Link先を確認
Petr Ku\v{c}era, Petr Savick\'y(参考訳) 本稿では,CNF式について,各変数の部分的割り当てとともに式が満足できない場合(単位拡散完全あるいはURC式)や,その式が満足できる場合(伝播完全あるいはPC式)にすべてのインプリートリテラルを導出する場合に矛盾を導出するほど,単位伝搬が強いCNF式について検討する。 式が存在量化された補助変数を用いて関数を表す場合、関数のエンコーディングと呼ばれる。 我々はPC と URC の公式とエンコーディングのサイズについていくつかの結果を示した。 そのうちの1つは、異なる種類の式の大きさの分離である。 すなわち, urc 式と pc 式の大きさと, 補助変数と urc 式を用いた pc エンコーディングのサイズとを指数関数的に分離することを示す。 これに加えて、同一関数に対する任意の2つの既約なpc公式のサイズが変数数における係数多項式によって最大に異なることを証明し、同様のステートメントがurc公式に対して真でないことを示す関数の例を示す。 上記の分離の一つは、q-ホルンの公式が URC 公式となるために指数的な数の追加節を必要とする可能性があることを意味する。 一方、任意のq-Horn公式に対して、補助変数を用いて同じ関数の多項式サイズ URC 符号化を行う。 この符号化は一般にq-Hornではない。

In this paper we investigate CNF formulas, for which the unit propagation is strong enough to derive a contradiction if the formula together with a partial assignment of the variables is unsatisfiable (unit refutation complete or URC formulas) or additionally to derive all implied literals if the formula is satisfiable (propagation complete or PC formulas). If a formula represents a function using existentially quantified auxiliary variables, it is called an encoding of the function. We prove several results on the sizes of PC and URC formulas and encodings. One of them are separations between the sizes of formulas of different types. Namely, we prove an exponential separation between the size of URC formulas and PC formulas and between the size of PC encodings using auxiliary variables and URC formulas. Besides of this, we prove that the sizes of any two irredundant PC formulas for the same function differ at most by a factor polynomial in the number of the variables and present an example of a function demonstrating that a similar statement is not true for URC formulas. One of the separations above implies that a q-Horn formula may require an exponential number of additional clauses to become a URC formula. On the other hand, for every q-Horn formula, we present a polynomial size URC encoding of the same function using auxiliary variables. This encoding is not q-Horn in general.
翻訳日:2023-01-14 17:54:34 公開日:2020-03-11
# 談話関係信号検出のためのニューラルアプローチ

A Neural Approach to Discourse Relation Signal Detection ( http://arxiv.org/abs/2001.02380v2 )

ライセンス: Link先を確認
Amir Zeldes and Yang Liu(参考訳) 談話関係信号の種類や分布を調査する従来のデータ駆動型研究は, それぞれの談話関係から, 音声中の信号単語の相対周波数に着目した「ハウエバ」や「結果」などの言論マーカーを含む。 このようなアプローチでは、信号の個々のインスタンスの信号強度(例えば、"and"の談話関連インスタンス)を定量化したり、信号のあいまいさの分布を評価したり、文脈における談話関係の識別を妨げる単語("anti-signals"や"distractors")を識別することはできない。 本稿では,遠隔教師付きニューラルネットワークを用いた信号検出のためのデータ駆動手法を提案し,信号強度を定量化するための指標であるデルタs(delta-softmax)を開発した。 -1 から 1 までの範囲で、文脈化された単語埋め込みの最近の進歩に依存しており、メトリクスは文脈内の特定のインスタンスにおける関係の識別可能性に対する各単語の正または負の貢献を表す。 本分析は,レトリック構造理論と特定のトークンに固定された信号型アノテーションを用いた談話関係に注釈を付した英語コーパスに基づいて,その指標の信頼性,人間の判断と重複し相違する場所,そして,ニューラルネットワークが自動談話関係分類により良い結果をもたらすために必要な特徴を特定することの意味を考察する。

Previous data-driven work investigating the types and distributions of discourse relation signals, including discourse markers such as 'however' or phrases such as 'as a result' has focused on the relative frequencies of signal words within and outside text from each discourse relation. Such approaches do not allow us to quantify the signaling strength of individual instances of a signal on a scale (e.g. more or less discourse-relevant instances of 'and'), to assess the distribution of ambiguity for signals, or to identify words that hinder discourse relation identification in context ('anti-signals' or 'distractors'). In this paper we present a data-driven approach to signal detection using a distantly supervised neural network and develop a metric, Delta s (or 'delta-softmax'), to quantify signaling strength. Ranging between -1 and 1 and relying on recent advances in contextualized words embeddings, the metric represents each word's positive or negative contribution to the identifiability of a relation in specific instances in context. Based on an English corpus annotated for discourse relations using Rhetorical Structure Theory and signal type annotations anchored to specific tokens, our analysis examines the reliability of the metric, the places where it overlaps with and differs from human judgments, and the implications for identifying features that neural models may need in order to perform better on automatic discourse relation classification.
翻訳日:2023-01-13 10:08:37 公開日:2020-03-11
# クラウドカウントのためのマルチストリームネットワークとグラウンドルート生成

Multi-Stream Networks and Ground-Truth Generation for Crowd Counting ( http://arxiv.org/abs/2002.09951v3 )

ライセンス: Link先を確認
Rodolfo Quispe, Darwin Ttito, Ad\'in Ram\'irez Rivera, Helio Pedrini(参考訳) 群衆のシーン分析は、例えば法科学、都市計画、監視、セキュリティなど、様々な応用により、最近多くの注目を集めている。 この文脈では、挑戦的なタスクは群衆カウントと呼ばれ、その主な目的は、1つの画像に存在する人の数を推定することである。 本研究では,画像の入力を受け取り,エンドツーエンドで人々の空間分布を表す密度マップを生成するマルチストリーム畳み込みニューラルネットワークを開発した。 非常に制約のないスケールや視点の変化のような複雑な群衆カウント問題に対処するために、ネットワークアーキテクチャは、ストリームごとに異なるサイズフィルタを持つ受容場を利用する。 さらに,2つの最も一般的な手法が地下真実の生成に与える影響について検討し,小さな顔検出と大規模補間に基づくハイブリッド手法を提案する。 UCF-CC-50とShanghaiTechの2つの挑戦的データセットで行った実験は、地上の真理生成手法が優れた結果をもたらすことを示した。

Crowd scene analysis has received a lot of attention recently due to the wide variety of applications, for instance, forensic science, urban planning, surveillance and security. In this context, a challenging task is known as crowd counting, whose main purpose is to estimate the number of people present in a single image. A Multi-Stream Convolutional Neural Network is developed and evaluated in this work, which receives an image as input and produces a density map that represents the spatial distribution of people in an end-to-end fashion. In order to address complex crowd counting issues, such as extremely unconstrained scale and perspective changes, the network architecture utilizes receptive fields with different size filters for each stream. In addition, we investigate the influence of the two most common fashions on the generation of ground truths and propose a hybrid method based on tiny face detection and scale interpolation. Experiments conducted on two challenging datasets, UCF-CC-50 and ShanghaiTech, demonstrate that using our ground truth generation methods achieves superior results.
翻訳日:2022-12-29 09:45:52 公開日:2020-03-11
# CheXpedition:胸部X線アルゴリズムの臨床応用への一般化課題の検討

CheXpedition: Investigating Generalization Challenges for Translation of Chest X-Ray Algorithms to the Clinical Setting ( http://arxiv.org/abs/2002.11379v2 )

ライセンス: Link先を確認
Pranav Rajpurkar, Anirudh Joshi, Anuj Pareek, Phil Chen, Amirhossein Kiani, Jeremy Irvin, Andrew Y. Ng, Matthew P. Lungren(参考訳) 近年,胸部x線解釈へのディープラーニングアルゴリズムの適用が進んでいるが,胸部x線アルゴリズムを臨床設定に翻訳する上での3つの大きな課題が指摘されている。 1) TB検出, (2) 胸部X線写真における病理検出, (3) 外部機関からのデータに対する病理検出の3つの課題において, トップ10がCheXpertチャレンジリーダーボード上で行うモデルの性能について検討した。 まず、CheXpertコンペティションのトップ10の胸部X線モデルにおいて、トレーニングデータにTBラベルを含まない2つのパブリックTBデータセット上でTBを検出するタスクにおいて、平均0.851のAUCを達成する。 第2に、X線写真におけるモデルの平均性能(AUC = 0.916)は、元の胸部X線画像(AUC = 0.924)と類似している。 第3に、外部データセットでテストされたモデルは、放射線科医の平均性能と同等かそれ以上の性能を持つかのどちらかである。 我々は,ディープラーニングアルゴリズムを安全かつ効果的な臨床意思決定支援ツールに迅速に翻訳し,大きな影響研究や臨床試験で将来的に検証できると考えている。

Although there have been several recent advances in the application of deep learning algorithms to chest x-ray interpretation, we identify three major challenges for the translation of chest x-ray algorithms to the clinical setting. We examine the performance of the top 10 performing models on the CheXpert challenge leaderboard on three tasks: (1) TB detection, (2) pathology detection on photos of chest x-rays, and (3) pathology detection on data from an external institution. First, we find that the top 10 chest x-ray models on the CheXpert competition achieve an average AUC of 0.851 on the task of detecting TB on two public TB datasets without fine-tuning or including the TB labels in training data. Second, we find that the average performance of the models on photos of x-rays (AUC = 0.916) is similar to their performance on the original chest x-ray images (AUC = 0.924). Third, we find that the models tested on an external dataset either perform comparably to or exceed the average performance of radiologists. We believe that our investigation will inform rapid translation of deep learning algorithms to safe and effective clinical decision support tools that can be validated prospectively with large impact studies and clinical trials.
翻訳日:2022-12-28 14:50:59 公開日:2020-03-11
# バイアスドトレーニングによる未バイアスシーングラフ生成

Unbiased Scene Graph Generation from Biased Training ( http://arxiv.org/abs/2002.11949v3 )

ライセンス: Link先を確認
Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi, Hanwang Zhang(参考訳) 今日のシーングラフ生成(SGG)タスクは、主に、多様な「人間がビーチを歩いたり、座ったり、ビーチで横たわったりする」といった厳しい訓練バイアスのために、まだ実用的ではない。 このようなSGGを考えると、VQAのような下流タスクは単なるオブジェクトの袋よりも、より優れたシーン構造を推測することができない。 しかし、SGGにおける嫌悪は、例えば、良い文脈(例えば「食」ではなく「人読み本」)と悪い長い尾のバイアス(例えば「後ろ/前」を支配)の良さと悪いバイアスを区別できないため、自明なものではない。 本稿では,因果推論に基づく新しいSGGフレームワークを提案する。 まず、SGGの因果グラフを構築し、従来のバイアス付きトレーニングをグラフで実施する。 次に, 学習したグラフから反事実因果関係を抽出し, 除去すべき悪いバイアスの影響を推測する。 特に,無バイアスSGGに対する最終述語スコアとしてTotal Direct Effect(TDE)を用いる。 我々のフレームワークはどんなSGGモデルにも依存せず、偏見のない予測を求めるコミュニティにも広く適用できる。 提案手法をsggベンチマークによる視覚的ゲノム解析に応用し,従来の手法と比較して有意な改善がみられた。

Today's scene graph generation (SGG) task is still far from practical, mainly due to the severe training bias, e.g., collapsing diverse "human walk on / sit on / lay on beach" into "human on beach". Given such SGG, the down-stream tasks such as VQA can hardly infer better scene structures than merely a bag of objects. However, debiasing in SGG is not trivial because traditional debiasing methods cannot distinguish between the good and bad bias, e.g., good context prior (e.g., "person read book" rather than "eat") and bad long-tailed bias (e.g., "near" dominating "behind / in front of"). In this paper, we present a novel SGG framework based on causal inference but not the conventional likelihood. We first build a causal graph for SGG, and perform traditional biased training with the graph. Then, we propose to draw the counterfactual causality from the trained graph to infer the effect from the bad bias, which should be removed. In particular, we use Total Direct Effect (TDE) as the proposed final predicate score for unbiased SGG. Note that our framework is agnostic to any SGG model and thus can be widely applied in the community who seeks unbiased predictions. By using the proposed Scene Graph Diagnosis toolkit on the SGG benchmark Visual Genome and several prevailing models, we observed significant improvements over the previous state-of-the-art methods.
翻訳日:2022-12-28 07:56:19 公開日:2020-03-11
# MLモデルのモニタリングと改善のためのモデルアサーション

Model Assertions for Monitoring and Improving ML Models ( http://arxiv.org/abs/2003.01668v3 )

ライセンス: Link先を確認
Daniel Kang, Deepti Raghavan, Peter Bailis, Matei Zaharia(参考訳) MLモデルは、車のような現実世界のインタラクションの設定にますますデプロイされているが、残念ながら、これらのモデルは体系的な方法で失敗する可能性がある。 エラーを防止するため、MLエンジニアリングチームはこれらのモデルを監視し、継続的に改善する。 本稿では,MLモデルの監視と改善を行う手段として,プログラムアサーションの古典的利用に適応した新しい抽象化,モデルアサーションを提案する。 モデルアサーション(英: Model assertions)は、オブジェクトがビデオのクラスを素早く変更した場合にトリガーする関数など、エラーが発生する可能性があることを示すモデルの入力と出力に対する任意の関数である。 本稿では,ランタイム監視,ラベルの検証,MLモデルの継続的な改善など,MLシステムデプロイメントのすべての段階におけるモデルアサーションの使用方法を提案する。 実行時モニタリングでは、モデルアサーションが高い信頼性エラーを見つけ、モデルが間違った出力を高い信頼性で返却し、不確実性に基づくモニタリング技術では検出できないことを示す。 トレーニングにはモデルアサーションを使用する2つの方法を提案する。 まず,アサーションによってフラグ付けされたデータからサンプルを抽出し,従来の不確実性に基づく手法に比べてラベル付けコストを最大40%削減できることを示す。 次に、一貫性アサーションが失敗する入力に対して、一貫性アサーション(例えば、クラス変更例)と弱いラベルを生成するAPIを提案し、これらの弱いラベルが相対モデルの品質を最大46%向上させることができることを示す。 我々は,ビデオ,LIDAR,ECGデータを用いた実世界の4つのタスクにおけるモデルアサーションを評価する。

ML models are increasingly deployed in settings with real world interactions such as vehicles, but unfortunately, these models can fail in systematic ways. To prevent errors, ML engineering teams monitor and continuously improve these models. We propose a new abstraction, model assertions, that adapts the classical use of program assertions as a way to monitor and improve ML models. Model assertions are arbitrary functions over a model's input and output that indicate when errors may be occurring, e.g., a function that triggers if an object rapidly changes its class in a video. We propose methods of using model assertions at all stages of ML system deployment, including runtime monitoring, validating labels, and continuously improving ML models. For runtime monitoring, we show that model assertions can find high confidence errors, where a model returns the wrong output with high confidence, which uncertainty-based monitoring techniques would not detect. For training, we propose two methods of using model assertions. First, we propose a bandit-based active learning algorithm that can sample from data flagged by assertions and show that it can reduce labeling costs by up to 40% over traditional uncertainty-based methods. Second, we propose an API for generating "consistency assertions" (e.g., the class change example) and weak labels for inputs where the consistency assertions fail, and show that these weak labels can improve relative model quality by up to 46%. We evaluate model assertions on four real-world tasks with video, LIDAR, and ECG data.
翻訳日:2022-12-26 21:49:32 公開日:2020-03-11
# ETRI-Activity3D:高齢者の日常活動を認識するロボットのための大規模RGB-Dデータセット

ETRI-Activity3D: A Large-Scale RGB-D Dataset for Robots to Recognize Daily Activities of the Elderly ( http://arxiv.org/abs/2003.01920v2 )

ライセンス: Link先を確認
Jinhyeok Jang, Dohyung Kim, Cheonshu Park, Minsu Jang, Jaeyeon Lee, Jaehong Kim(参考訳) ディープラーニングは、多くの現代的なアルゴリズムに基づいており、データハングリーとして知られている。 特に、対象とするアプリケーションに適したデータセットを得るのが困難である。 この状況に対処するため,ロボットビューにおける高齢者の日常活動に着目したETRI-Activity3Dという新しいデータセットを導入する。 新しいデータセットの主な特徴は次のとおりである。 1)高齢者の日常生活の密接な観察から選択された実践的行動カテゴリー 2) ロボットの作業環境やサービス状況を反映した現実的なデータ収集 3) 現在の3Dアクティビティ分析ベンチマークデータセットの限界を克服する大規模なデータセット。 提案したデータセットには、RGBビデオ、深さマップ、骨格配列を含む112,620のサンプルが含まれている。 データ取得中、100名の被験者に55の日常活動の実施を依頼した。 さらに,4ストリーム適応CNN(FSA-CNN)と呼ばれる新しいネットワークを提案する。 提案するFSA-CNNは,時空間変動に対するロバスト性,入力適応型アクティベーション関数,従来の2ストリームアプローチの拡張の3つの特性を持つ。 実験では,NTU RGB+D と ETRI-Activity3D を用いて提案した FSA-CNN の優位性を確認した。 さらに,両年齢群間のドメイン差を実験的に検証した。 最後に,マルチモーダルデータを扱うためのFSA-CNNの拡張について検討した。

Deep learning, based on which many modern algorithms operate, is well known to be data-hungry. In particular, the datasets appropriate for the intended application are difficult to obtain. To cope with this situation, we introduce a new dataset called ETRI-Activity3D, focusing on the daily activities of the elderly in robot-view. The major characteristics of the new dataset are as follows: 1) practical action categories that are selected from the close observation of the daily lives of the elderly; 2) realistic data collection, which reflects the robot's working environment and service situations; and 3) a large-scale dataset that overcomes the limitations of the current 3D activity analysis benchmark datasets. The proposed dataset contains 112,620 samples including RGB videos, depth maps, and skeleton sequences. During the data acquisition, 100 subjects were asked to perform 55 daily activities. Additionally, we propose a novel network called four-stream adaptive CNN (FSA-CNN). The proposed FSA-CNN has three main properties: robustness to spatio-temporal variations, input-adaptive activation function, and extension of the conventional two-stream approach. In the experiment section, we confirmed the superiority of the proposed FSA-CNN using NTU RGB+D and ETRI-Activity3D. Further, the domain difference between both groups of age was verified experimentally. Finally, the extension of FSA-CNN to deal with the multimodal data was investigated.
翻訳日:2022-12-26 13:36:09 公開日:2020-03-11
# topologygan: 初期領域上の物理場に基づく生成的逆ネットワークを用いたトポロジー最適化

TopologyGAN: Topology Optimization Using Generative Adversarial Networks Based on Physical Fields Over the Initial Domain ( http://arxiv.org/abs/2003.04685v2 )

ライセンス: Link先を確認
Zhenguo Nie, Tong Lin, Haoliang Jiang, Levent Burak Kara(参考訳) ディープラーニングを用いたトポロジー最適化では、ベクトルあるいはスパース行列として表される負荷と境界条件は、設計問題のリッチなビューを符号化する機会を逃し、理想的な一般化結果よりも少ない。 条件付き生成型逆ネットワーク (cgan) の生成元への入力として, 元の非最適化物質領域で計算された様々な物理場を利用する, トポロジーganと呼ばれる新しいデータ駆動トポロジ最適化モデルを提案する。 ベースラインのcGANと比較すると、TopologyGANは平均二乗誤差の約$3\times$と、これまで見つからなかった境界条件を含むテスト上の平均絶対誤差の平均$2.5\times$を下げる。 いくつかの既存ネットワークモデルに基づいて構築され, ジェネレータ用のU-SE(Squeeze-and-Excitation)-ResNetというハイブリッドネットワークを導入し, 全体的な精度を向上させる。 完全な実装とトレーニングされたネットワークを公開しています。

In topology optimization using deep learning, load and boundary conditions represented as vectors or sparse matrices often miss the opportunity to encode a rich view of the design problem, leading to less than ideal generalization results. We propose a new data-driven topology optimization model called TopologyGAN that takes advantage of various physical fields computed on the original, unoptimized material domain, as inputs to the generator of a conditional generative adversarial network (cGAN). Compared to a baseline cGAN, TopologyGAN achieves a nearly $3\times$ reduction in the mean squared error and a $2.5\times$ reduction in the mean absolute error on test problems involving previously unseen boundary conditions. Built on several existing network models, we also introduce a hybrid network called U-SE(Squeeze-and-Excitation)-ResNet for the generator that further increases the overall accuracy. We publicly share our full implementation and trained network.
翻訳日:2022-12-26 07:36:18 公開日:2020-03-11
# 完全畳み込み冗長カウントモデルを用いた脊椎椎間板ラベリング

Spine intervertebral disc labeling using a fully convolutional redundant counting model ( http://arxiv.org/abs/2003.04387v2 )

ライセンス: Link先を確認
Lucas Rouhier, Francisco Perdigon Romero, Joseph Paul Cohen, Julien Cohen-Adad(参考訳) 椎間板のラベリングは、患者の症状(痛み、麻痺)と脊髄損傷の正確なレベルとの関係を臨床医が理解できるようにするために重要である。 しかし、これらのディスクを手動でラベル付けするのは面倒でユーザーバイアスのかかる作業であり、自動メソッドの恩恵を受けるでしょう。 MRIやCTスキャンにはいくつかの自動化手法がすでに存在しているが、公開されていないか、様々な画像コントラストをまたいだ一般化に失敗している。 本稿では,完全畳み込みネットワーク(fcn)とインセプションモジュールを組み合わせることで椎間板の局所化とラベル付けを行う。 マルチセンターおよびマルチコントラストMRIデータベース(n=235例)において,概念実証アプリケーションを実証した。 コードはhttps://github.com/neuropoly/vertebral-labeling-deep-learningで公開されている。

Labeling intervertebral discs is relevant as it notably enables clinicians to understand the relationship between a patient's symptoms (pain, paralysis) and the exact level of spinal cord injury. However manually labeling those discs is a tedious and user-biased task which would benefit from automated methods. While some automated methods already exist for MRI and CT-scan, they are either not publicly available, or fail to generalize across various imaging contrasts. In this paper we combine a Fully Convolutional Network (FCN) with inception modules to localize and label intervertebral discs. We demonstrate a proof-of-concept application in a publicly-available multi-center and multi-contrast MRI database (n=235 subjects). The code is publicly available at https://github.com/neuropoly/vertebral-labeling-deep-learning.
翻訳日:2022-12-25 09:28:27 公開日:2020-03-11
# カスケード型人間-物体間インタラクション認識

Cascaded Human-Object Interaction Recognition ( http://arxiv.org/abs/2003.04262v2 )

ライセンス: Link先を確認
Tianfei Zhou, Wenguan Wang, Siyuan Qi, Haibin Ling, Jianbing Shen(参考訳) 人-物間相互作用(HOI)の認識には急速な進歩が見られたが、既存のモデルのほとんどは単一ステージの推論パイプラインに限られている。 タスクの本質的な複雑さを考慮して,多段階の粗いhoi理解のためのカスケードアーキテクチャを提案する。 各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。 2つのネットワークはそれぞれ、前段で前段と接続され、クロスステージ情報伝達を可能にする。 対話認識ネットワークは、高品質なHOI提案選択のための関係ランキングモジュールと、関係予測のための3ストリーム分類器の2つの重要な部分を有する。 慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。 境界ボックスレベルの関係検出を超越して,より微細な画素ワイド関係セグメンテーションを実現するために,我々のフレームワークを柔軟にする。 我々のアプローチは、ICCV2019 Person in Context Challengeにおいて、関係検出とセグメンテーションの両方のタスクにおいて、$1^{st}$に到達した。 また、V-COCOの有望な結果も示している。

Rapid progress has been witnessed for human-object interaction (HOI) recognition, but most existing models are confined to single-stage reasoning pipelines. Considering the intrinsic complexity of the task, we introduce a cascade architecture for a multi-stage, coarse-to-fine HOI understanding. At each stage, an instance localization network progressively refines HOI proposals and feeds them into an interaction recognition network. Each of the two networks is also connected to its predecessor at the previous stage, enabling cross-stage information propagation. The interaction recognition network has two crucial parts: a relation ranking module for high-quality HOI proposal selection and a triple-stream classifier for relation prediction. With our carefully-designed human-centric relation features, these two modules work collaboratively towards effective interaction understanding. Further beyond relation detection on a bounding-box level, we make our framework flexible to perform fine-grained pixel-wise relation segmentation; this provides a new glimpse into better relation modeling. Our approach reached the $1^{st}$ place in the ICCV2019 Person in Context Challenge, on both relation detection and segmentation tasks. It also shows promising results on V-COCO.
翻訳日:2022-12-25 08:42:15 公開日:2020-03-11
# TEDL:ディープラーニングに基づくテキスト暗号化手法

TEDL: A Text Encryption Method Based on Deep Learning ( http://arxiv.org/abs/2003.04038v2 )

ライセンス: Link先を確認
Xiang Li and Peng Wang(参考訳) 近年,情報セキュリティへの注目が高まり,様々な暗号化手法が提案されている。 しかし、対称暗号法では、よく知られた暗号化技術はセキュリティを保証するために鍵空間に依存し、頻繁に鍵更新に苦しむ。 そこで本研究では,深層学習モデルにおいて,秘密鍵はハイパーパラメータを含み,暗号のコアステップは入力データをハイパーパラメータで訓練された重みに変換する,TEDLと呼ばれる新しいテキスト暗号化手法を提案する。 まず、両方の通信相手は、指定されたハイパーパラメータに従ってディープラーニングモデルをトレーニングすることにより、単語ベクトルテーブルを確立する。 そして、単語ベクトルテーブル上にSHA-256関数などのトリックで自己更新コードブックを構築する。 通信が始まると、暗号化と復号はそれぞれコードブック上のインデックス化と逆インデックス化と等価であり、プレーンテキストと暗号テキスト間の変換を実現している。 実験と関連する分析の結果、tedlはセキュリティ、効率、汎用性に優れており、鍵の再分配の頻度に対する需要は低いことがわかった。 特に、現在の暗号化手法の補足として、コードブックの構築に要する時間を要するプロセスは、通信効率を低下させずに、ブルートフォース攻撃の難しさを増大させる。

Recent years have seen an increasing emphasis on information security, and various encryption methods have been proposed. However, for symmetric encryption methods, the well-known encryption techniques still rely on the key space to guarantee security and suffer from frequent key updating. Aiming to solve those problems, this paper proposes a novel text encryption method based on deep learning called TEDL, where the secret key includes hyperparameters in deep learning model and the core step of encryption is transforming input data into weights trained under hyperparameters. Firstly, both communication parties establish a word vector table by training a deep learning model according to specified hyperparameters. Then, a self-update codebook is constructed on the word vector table with the SHA-256 function and other tricks. When communication starts, encryption and decryption are equivalent to indexing and inverted indexing on the codebook, respectively, thus achieving the transformation between plaintext and ciphertext. Results of experiments and relevant analyses show that TEDL performs well for security, efficiency, generality, and has a lower demand for the frequency of key redistribution. Especially, as a supplement to current encryption methods, the time-consuming process of constructing a codebook increases the difficulty of brute-force attacks while not degrade the communication efficiency.
翻訳日:2022-12-25 08:26:16 公開日:2020-03-11
# 型付き部分関係推論を用いた階層的人間解析

Hierarchical Human Parsing with Typed Part-Relation Reasoning ( http://arxiv.org/abs/2003.04845v2 )

ライセンス: Link先を確認
Wenguan Wang, Hailong Zhu, Jifeng Dai, Yanwei Pang, Jianbing Shen, and Ling Shao(参考訳) 人間の構文解析は、ピクセルワイドな人間の意味理解のためのものである。 人体は階層的に構造されているため、人間の構造をモデル化する方法がこのタスクの中心的なテーマである。 これに着目し,深層グラフネットワークと階層型人体構造の表現能力を同時に活用することを目指す。 特に、以下の2つの貢献がある。 第一に、3種類の部分関係、すなわち分解、構成、依存は、初めて、3つの異なる関係ネットワークによって完全に正確に記述される。 これは、関係の一部だけに焦点を当て、型に依存しない関係モデリング戦略を採用する以前のパーサーとは対照的である。 より表現豊かな関係情報は、関係ネットワーク内のパラメータを明示的に指定することで、異なる関係の特定の特性を満たすことができる。 第2に、従来のパーサーはループ型人間の階層に対する近似アルゴリズムの必要性をほとんど無視するが、代わりに、エッジ型、畳み込み型で汎用的なメッセージパッシングネットワークを同化することにより、反復的な推論プロセスに対処する。 これらの取り組みにより、我々のパーサーは推論のより洗練された柔軟な人間関係パターンの基礎を築いた。 5つのデータセットに関する包括的な実験は、パーサがそれぞれに新しい最先端を設定することを証明します。

Human parsing is for pixel-wise human semantic understanding. As human bodies are underlying hierarchically structured, how to model human structures is the central theme in this task. Focusing on this, we seek to simultaneously exploit the representational capacity of deep graph networks and the hierarchical human structures. In particular, we provide following two contributions. First, three kinds of part relations, i.e., decomposition, composition, and dependency, are, for the first time, completely and precisely described by three distinct relation networks. This is in stark contrast to previous parsers, which only focus on a portion of the relations and adopt a type-agnostic relation modeling strategy. More expressive relation information can be captured by explicitly imposing the parameters in the relation networks to satisfy the specific characteristics of different relations. Second, previous parsers largely ignore the need for an approximation algorithm over the loopy human hierarchy, while we instead address an iterative reasoning process, by assimilating generic message-passing networks with their edge-typed, convolutional counterparts. With these efforts, our parser lays the foundation for more sophisticated and flexible human relation patterns of reasoning. Comprehensive experiments on five datasets demonstrate that our parser sets a new state-of-the-art on each.
翻訳日:2022-12-24 21:21:09 公開日:2020-03-11
# 非定常評価時間を用いた時変ガウス過程バンディット最適化

Time-varying Gaussian Process Bandit Optimization with Non-constant Evaluation Time ( http://arxiv.org/abs/2003.04691v2 )

ライセンス: Link先を確認
Hideaki Imamura, Nontawat Charoenphakdee, Futoshi Futami, Issei Sato, Junya Honda, Masashi Sugiyama(参考訳) ガウス過程バンドイット(gaussian process bandit)は、最小の関数評価数を持つブラックボックス関数の最大値を求める問題である。 ブラックボックス関数が時間によって異なる場合、時変ベイズ最適化は有望なフレームワークである。 しかし、現在の手法の欠点は、観察毎の評価時間が一定であるという仮定であり、レコメンダシステムや環境モニタリングなど、多くの実用的なアプリケーションでは非現実的である。 その結果、現在のメソッドのパフォーマンスは、この仮定に違反した場合に低下する可能性がある。 この問題に対処するために,非定常評価時間を効果的に処理できる,時変ベイズ最適化アルゴリズムを提案する。 さらに、理論的にはアルゴリズムの後悔境界を確立する。 我々の限界は、評価時間列のパターンが問題の難易度に大きな影響を与えることを決定づける。 また,提案手法の有効性を検証するための実験結果も提供する。

The Gaussian process bandit is a problem in which we want to find a maximizer of a black-box function with the minimum number of function evaluations. If the black-box function varies with time, then time-varying Bayesian optimization is a promising framework. However, a drawback with current methods is in the assumption that the evaluation time for every observation is constant, which can be unrealistic for many practical applications, e.g., recommender systems and environmental monitoring. As a result, the performance of current methods can be degraded when this assumption is violated. To cope with this problem, we propose a novel time-varying Bayesian optimization algorithm that can effectively handle the non-constant evaluation time. Furthermore, we theoretically establish a regret bound of our algorithm. Our bound elucidates that a pattern of the evaluation time sequence can hugely affect the difficulty of the problem. We also provide experimental results to validate the practical effectiveness of the proposed method.
翻訳日:2022-12-24 20:46:11 公開日:2020-03-11
# 改良材料特性予測のためのグローバルアテンションに基づくグラフ畳み込みニューラルネットワーク

Global Attention based Graph Convolutional Neural Networks for Improved Materials Property Prediction ( http://arxiv.org/abs/2003.13379v1 )

ライセンス: Link先を確認
Steph-Yves Louis, Yong Zhao, Alireza Nasiri, Xiran Wong, Yuqi Song, Fei Liu, Jianjun Hu(参考訳) 機械学習(ML)手法は、新しい素材の探索と開発で人気が高まっている。 より具体的には、グラフニューラルネットワーク(GNN)が材料特性の予測に応用されている。 本研究では,複数のグラフアテンション層(gat)とグローバルアテンション層からなるグラフニューラルネットワークに基づいて,無機材料特性を予測する新しいモデルgatgnnを開発した。 GAT層の適用により、我々のモデルは各原子の局所近傍の原子間で共有される複雑な結合を効率的に学習することができる。 次に、大域的注意層は、モデルの性能を大幅に改善するために使用される無機結晶材料中の各原子の重量係数を提供する。 特に, GATGNN モデルの開発により, 本手法は, 先行モデルの予測を上回り, 材料の結晶化に関する洞察を与えることができることを示す。

Machine learning (ML) methods have gained increasing popularity in exploring and developing new materials. More specifically, graph neural network (GNN) has been applied in predicting material properties. In this work, we develop a novel model, GATGNN, for predicting inorganic material properties based on graph neural networks composed of multiple graph-attention layers (GAT) and a global attention layer. Through the application of the GAT layers, our model can efficiently learn the complex bonds shared among the atoms within each atom's local neighborhood. Subsequently, the global attention layer provides the weight coefficients of each atom in the inorganic crystal material which are used to considerably improve our model's performance. Notably, with the development of our GATGNN model, we show that our method is able to both outperform the previous models' predictions and provide insight into the crystallization of the material.
翻訳日:2022-12-24 15:58:50 公開日:2020-03-11
# ビジョンとIMUによる移動ロボットハンドアーム遠隔操作システム

A Mobile Robot Hand-Arm Teleoperation System by Vision and IMU ( http://arxiv.org/abs/2003.05212v1 )

ライセンス: Link先を確認
Shuang Li, Jiaxi Jiang, Philipp Ruppel, Hongzhuo Liang, Xiaojian Ma, Norman Hendrich, Fuchun Sun, Jianwei Zhang(参考訳) 本稿では,新しい視覚ベースの手ポーズ回帰ネットワーク(Transteleop)とIMUベースのアームトラッキング方式を組み合わせたマルチモーダル移動遠隔操作システムを提案する。 Transteleopは、低コストの深度カメラを通して人間の手を観察し、画像と画像の変換プロセスを通じて、関節角だけでなく、ペアのロボットハンドの深度画像を生成する。 キーポイントに基づく再構成損失は、人間とロボットの手の外観と解剖の類似性を調べ、再構成画像の局所的特徴を豊かにする。 ウェアラブルカメラホルダは、同時ハンドアーム制御を可能にし、遠隔操作システム全体の移動を容易にする。 テストデータセットのネットワーク評価結果と、単純なピック・アンド・プレイス操作を超える複雑な操作タスクは、我々のマルチモーダル遠隔操作システムの効率と安定性を示している。

In this paper, we present a multimodal mobile teleoperation system that consists of a novel vision-based hand pose regression network (Transteleop) and an IMU-based arm tracking method. Transteleop observes the human hand through a low-cost depth camera and generates not only joint angles but also depth images of paired robot hand poses through an image-to-image translation process. A keypoint-based reconstruction loss explores the resemblance in appearance and anatomy between human and robotic hands and enriches the local features of reconstructed images. A wearable camera holder enables simultaneous hand-arm control and facilitates the mobility of the whole teleoperation system. Network evaluation results on a test dataset and a variety of complex manipulation tasks that go beyond simple pick-and-place operations show the efficiency and stability of our multimodal teleoperation system.
翻訳日:2022-12-24 15:53:24 公開日:2020-03-11
# 農業ビッグデータ統合に基づく作物の知識発見

Crop Knowledge Discovery Based on Agricultural Big Data Integration ( http://arxiv.org/abs/2003.05043v1 )

ライセンス: Link先を確認
Vuong M. Ngo and M-Tahar Kechadi(参考訳) 今日では、農業データはiot(internet of things)、センサー、衛星、気象観測所、ロボット、農業設備、農業研究所、農家、政府機関、アグリビジネスなど、さまざまなソースを通じて生成することができる。 このビッグデータの分析により、農家、企業、農学者は高いビジネスと科学の知識を抽出でき、運用プロセスや製品の品質が向上する。 しかし、このデータを解析する前には、異なるデータソースを正規化し、均質化し、統一されたデータ表現に統合する必要がある。 本稿では,他のデータセットやビッグデータモデルを組み込むのに十分な柔軟性を備えたコンステレーションスキーマを用いた農業データ統合手法を提案する。 また, 作物収量の増大と環境保護の両面から, 土壌特性, 除草剤, 殺虫剤の適切な量の発見を含む, 作物収量の向上の観点から知識を抽出する手法を適用した。

Nowadays, the agricultural data can be generated through various sources, such as: Internet of Thing (IoT), sensors, satellites, weather stations, robots, farm equipment, agricultural laboratories, farmers, government agencies and agribusinesses. The analysis of this big data enables farmers, companies and agronomists to extract high business and scientific knowledge, improving their operational processes and product quality. However, before analysing this data, different data sources need to be normalised, homogenised and integrated into a unified data representation. In this paper, we propose an agricultural data integration method using a constellation schema which is designed to be flexible enough to incorporate other datasets and big data models. We also apply some methods to extract knowledge with the view to improve crop yield; these include finding suitable quantities of soil properties, herbicides and insecticides for both increasing crop yield and protecting the environment.
翻訳日:2022-12-24 15:51:36 公開日:2020-03-11
# 機械学習を使って新しい発見器の研究をスピードアップし、アップグレードする:カロリメータケース

Using machine learning to speed up new and upgrade detector studies: a calorimeter case ( http://arxiv.org/abs/2003.05118v1 )

ライセンス: Link先を確認
F. Ratnikov, D. Derkach, A. Boldyrev, A. Shevelev, P. Fakanov, L. Matyushin(参考訳) 本稿では,先進的な機械学習技術を用いて,物理学者が設計段階における検出器の現実的な動作モードの詳細な研究を行う方法について論じる。 提案されたアプローチは、将来の検出器の設計概念(CDR)と技術設計(TDR)フェーズの両方に適用できる。 機械学習のアプローチは、可能性のある検出器構成の検証を高速化し、多くの散在する研究を伴う検出器r\&d全体を自動化する。 本稿では,lhcb検出器\cite{lhcls3}の電磁熱量計アップグレード計画に着目し,機械学習を用いた検出器r\&dとその最適化サイクルについて述べる。 電磁熱量計の空間再構成と到着時間について検討した。

In this paper, we discuss the way advanced machine learning techniques allow physicists to perform in-depth studies of the realistic operating modes of the detectors during the stage of their design. Proposed approach can be applied to both design concept (CDR) and technical design (TDR) phases of future detectors and existing detectors if upgraded. The machine learning approaches may speed up the verification of the possible detector configurations and will automate the entire detector R\&D, which is often accompanied by a large number of scattered studies. We present the approach of using machine learning for detector R\&D and its optimisation cycle with an emphasis on the project of the electromagnetic calorimeter upgrade for the LHCb detector\cite{lhcls3}. The spatial reconstruction and time of arrival properties for the electromagnetic calorimeter were demonstrated.
翻訳日:2022-12-24 15:51:19 公開日:2020-03-11
# Magic: Gatheringは算術的にも難しい

Magic: the Gathering is as Hard as Arithmetic ( http://arxiv.org/abs/2003.05119v1 )

ライセンス: Link先を確認
Stella Biderman(参考訳) マジック:ザ・ギャザリング』(Magic: the Gathering)は、魔法の戦闘に関するカードゲーム。 近年,chatterjee や ibsen-jensen (2016) や churchill, biderman, herrick (2019) といった著者が,魔法を最適に演奏する計算の複雑さを調査している。 本稿では,マジックの`mate-in-$n$''問題は$\Delta^0_n$-hardであり,マジックの最適プレイは一般に非算術的であることを示す。 これらの結果は、マジックの実際の演奏方法に適用され、標準サイズのトーナメントの法的デッキを使用して達成でき、確率性や隠された情報に依存しない。 私たちの論文は、チャーチル、ビダーマン、ヘリック(2019年)が、この問題が停止問題と同じくらい難しいことを証明した構築の上に構築されています。

Magic: the Gathering is a popular and famously complicated card game about magical combat. Recently, several authors including Chatterjee and Ibsen-Jensen (2016) and Churchill, Biderman, and Herrick (2019) have investigated the computational complexity of playing Magic optimally. In this paper we show that the ``mate-in-$n$'' problem for Magic is $\Delta^0_n$-hard and that optimal play in two-player Magic is non-arithmetic in general. These results apply to how real Magic is played, can be achieved using standard-size tournament legal decks, and do not rely on stochasticity or hidden information. Our paper builds upon the construction that Churchill, Biderman, and Herrick (2019) used to show that this problem was at least as hard as the halting problem.
翻訳日:2022-12-24 15:45:15 公開日:2020-03-11
# インテリジェント光ネットワークのための機械学習:包括的調査

Machine Learning for Intelligent Optical Networks: A Comprehensive Survey ( http://arxiv.org/abs/2003.05290v1 )

ライセンス: Link先を確認
Rentao Gu, Zeyuan Yang, Yuefeng Ji(参考訳) インターネットと通信システムの急速な発展により、サービスと技術の両方において、通信ネットワークは複雑さを増している。 コミュニケーションネットワークにおけるインテリジェンスの改善は必須であり、人工知能(AI)と機械学習(ML)を取り入れている側面もいくつかある。 通信ネットワークにおけるコアネットワークとアクセスネットワークの両方において重要な役割を果たす光ネットワークもまた、システムの複雑さと手動操作の要求という大きな課題に直面している。 現在の限界を克服し、将来の光ネットワークの問題に対処するためには、自律的かつ拡張可能なネットワーク運用を実現するために、より多くのインテリジェンス機能を展開することが不可欠である。 ML技術は複雑な問題を解決する上で優れていることが証明されており、最近では多くの光ネットワークアプリケーションにML技術が使われている。 本稿では,知的光ネットワークにおけるMLの既存応用に関する詳細な調査を行う。 mlの応用は、光ネットワークの制御と資源管理、光ネットワークの監視と生存性に分類されるユースケースによって分類される。 ユースケースは、使用済みのML技術に基づいて分析され、比較される。 さらに、共通MLアルゴリズムの導入、MLのパラダイム、MLの適用動機から、MLアプリケーションのためのチュートリアルが提供される。 最後に、光ネットワークにおけるMLアプリケーションの課題と解決策についても論じており、MLを活用してインテリジェントな光ネットワークを構築するという未来のイノベーションを刺激することを目的としている。

With the rapid development of Internet and communication systems, both in services and technologies, communication networks have been suffering increasing complexity. It is imperative to improve intelligence in communication network, and several aspects have been incorporating with Artificial Intelligence (AI) and Machine Learning (ML). Optical network, which plays an important role both in core and access network in communication networks, also faces great challenges of system complexity and the requirement of manual operations. To overcome the current limitations and address the issues of future optical networks, it is essential to deploy more intelligence capability to enable autonomous and exible network operations. ML techniques are proved to have superiority on solving complex problems; and thus recently, ML techniques have been used for many optical network applications. In this paper, a detailed survey of existing applications of ML for intelligent optical networks is presented. The applications of ML are classified in terms of their use cases, which are categorized into optical network control and resource management, and optical networks monitoring and survivability. The use cases are analyzed and compared according to the used ML techniques. Besides, a tutorial for ML applications is provided from the aspects of the introduction of common ML algorithms, paradigms of ML, and motivations of applying ML. Lastly, challenges and possible solutions of ML application in optical networks are also discussed, which intends to inspire future innovations in leveraging ML to build intelligent optical networks.
翻訳日:2022-12-24 15:42:34 公開日:2020-03-11
# 連続非ガウス属性のためのプライバシ保護アドバイザリアルネットワーク(PPAN)

Privacy-Preserving Adversarial Network (PPAN) for Continuous non-Gaussian Attributes ( http://arxiv.org/abs/2003.05362v1 )

ライセンス: Link先を確認
Mohammadhadi Shateri, Fabrice Labeau(参考訳) ppan(privacy-preserving adversarial network)は、データ共有におけるプライバシの問題に対処するための情報理論的なフレームワークである。 このモデルの主なアイデアは、相互情報をプライバシ尺度として使用し、2つのディープニューラルネットワークの敵対的トレーニングを行った。 離散合成データ, mnist手書き数字, 連続ガウスデータに対するppanモデルの性能を, 解析的最適トレードオフと比較して評価した。 本研究では,プライバシ保存問題の下限と上限が使用される連続非ガウスデータに対するppanモデルを評価する。 これらの境界には、k番目の隣人に基づくエントロピーと相互情報のクラスコフ(KSG)推定が含まれる。 合成データに加えて,スマートメーター読取装置から実際の電力消費を隠蔽する実践事例について検討した。 その結果, 連続的な非ガウスデータに対して, PPANモデルは決定された最適範囲内で動作し, 下位境界に近い値を示した。

A privacy-preserving adversarial network (PPAN) was recently proposed as an information-theoretical framework to address the issue of privacy in data sharing. The main idea of this model was using mutual information as the privacy measure and adversarial training of two deep neural networks, one as the mechanism and another as the adversary. The performance of the PPAN model for the discrete synthetic data, MNIST handwritten digits, and continuous Gaussian data was evaluated compared to the analytically optimal trade-off. In this study, we evaluate the PPAN model for continuous non-Gaussian data where lower and upper bounds of the privacy-preserving problem are used. These bounds include the Kraskov (KSG) estimation of entropy and mutual information that is based on k-th nearest neighbor. In addition to the synthetic data sets, a practical case for hiding the actual electricity consumption from smart meter readings is examined. The results show that for continuous non-Gaussian data, the PPAN model performs within the determined optimal ranges and close to the lower bound.
翻訳日:2022-12-24 15:42:11 公開日:2020-03-11
# フローフュージョン:光学的流れに基づく動的高密度RGB-DSLAM

FlowFusion: Dynamic Dense RGB-D SLAM Based on Optical Flow ( http://arxiv.org/abs/2003.05102v1 )

ライセンス: Link先を確認
Tianwei Zhang, Huayan Zhang, Yang Li, Yoshihiko Nakamura and Lei Zhang(参考訳) 動いた物体が静的な環境特徴を阻害し、間違ったカメラモーション推定につながるため、動的環境は視覚的SLAMでは困難である。 本稿では,動的・静的なセグメンテーションとカメラのエゴモーション推定と静的な背景再構成を同時に行う,新しいRGB-D SLAMソリューションを提案する。 我々は,rgb-d 点群における動的意味論の強調に光学的流れ残差を用い,より高精度で効率的な動的/静的セグメンテーションをカメラ追跡と背景復元に提供している。 パブリックデータセットと実際の動的シーンの高密度な再構成結果から,提案手法は動的および静的な環境において,最先端のアプローチと比較して正確かつ効率的な性能を達成したことが示唆された。

Dynamic environments are challenging for visual SLAM since the moving objects occlude the static environment features and lead to wrong camera motion estimation. In this paper, we present a novel dense RGB-D SLAM solution that simultaneously accomplishes the dynamic/static segmentation and camera ego-motion estimation as well as the static background reconstructions. Our novelty is using optical flow residuals to highlight the dynamic semantics in the RGB-D point clouds and provide more accurate and efficient dynamic/static segmentation for camera tracking and background reconstruction. The dense reconstruction results on public datasets and real dynamic scenes indicate that the proposed approach achieved accurate and efficient performances in both dynamic and static environments compared to state-of-the-art approaches.
翻訳日:2022-12-24 15:36:26 公開日:2020-03-11
# 3次元再構成のためのゲート画像による不確かさ深さ推定

Uncertainty depth estimation with gated images for 3D reconstruction ( http://arxiv.org/abs/2003.05122v1 )

ライセンス: Link先を確認
Stefanie Walz and Tobias Gruber and Werner Ritter and Klaus Dietmayer(参考訳) gated imagingは、悪天候下でも高コントラスト画像を提供する自動運転車用の新しいセンサー技術だ。 この技術は、LiDARシステムに匹敵する精度で高忠実度密度の深度マップを生成できることが示されている。 本研究では,近年のGated2Depthフレームワークを拡張して,深度推定のためのさらなる信頼度測定を行う。 この信頼性は、照明なしで不確定な領域の推定をフィルターするのに役立つ。 さらに,LiDAR深度補完アルゴリズムにより生成された深度マップのトレーニングにより,さらなる性能向上が期待できることを示す。

Gated imaging is an emerging sensor technology for self-driving cars that provides high-contrast images even under adverse weather influence. It has been shown that this technology can even generate high-fidelity dense depth maps with accuracy comparable to scanning LiDAR systems. In this work, we extend the recent Gated2Depth framework with aleatoric uncertainty providing an additional confidence measure for the depth estimates. This confidence can help to filter out uncertain estimations in regions without any illumination. Moreover, we show that training on dense depth maps generated by LiDAR depth completion algorithms can further improve the performance.
翻訳日:2022-12-24 15:36:12 公開日:2020-03-11
# 代数的単語問題からプログラムへ:形式化されたアプローチ

From Algebraic Word Problem to Program: A Formalized Approach ( http://arxiv.org/abs/2003.11517v1 )

ライセンス: Link先を確認
Adam Wiemerslage and Shafiuddin Rehan Ahmed(参考訳) 本稿では,小学校レベルの代数的単語問題を形式的言語処理のプログラムに変換するパイプラインを提案する。 自然言語処理ツールを使用すると、問題を文断片に分解し、それを関数に還元できる。 関数は文の頭動詞とその構造によって分類される(Hosseini et al., 2014)。 関数シグネチャを定義し,その引数を依存構文解析を用いてテキストから抽出する。 パイプライン全体の実行可能な実装は、githubリポジトリにあります。

In this paper, we propose a pipeline to convert grade school level algebraic word problem into program of a formal languageA-IMP. Using natural language processing tools, we break the problem into sentence fragments which can then be reduced to functions. The functions are categorized by the head verb of the sentence and its structure, as defined by (Hosseini et al., 2014). We define the function signature and extract its arguments from the text using dependency parsing. We have a working implementation of the entire pipeline which can be found on our github repository.
翻訳日:2022-12-24 15:26:08 公開日:2020-03-11
# 多次元競争における安定変動

Stable variation in multidimensional competition ( http://arxiv.org/abs/2003.06265v1 )

ライセンス: Link先を確認
Henri Kauhanen(参考訳) 言語変化の基本理論 (Yang, 2000) は、変分学習フレームワークにおける安定な変分の不可能性を示唆しているが、2つの文法的変分が競合する特別な場合のみである。 アドバンテージ行列の概念を導入することで、学習者が2つ以上の文法で生成された入力を受け付ける状況に変分学習を一般化し、二項安定な変分が複数の種類の多重文法システムの本質的特徴であることを示す。 これにより、実験家たちは安定した変動の可能性に真剣に取り組み、それを探すべき場所の1つ、複雑な言語接触の状況を特定することができる。

The Fundamental Theorem of Language Change (Yang, 2000) implies the impossibility of stable variation in the Variational Learning framework, but only in the special case where two, and not more, grammatical variants compete. Introducing the notion of an advantage matrix, I generalize Variational Learning to situations where the learner receives input generated by more than two grammars, and show that diachronically stable variation is an intrinsic feature of several types of such multiple-grammar systems. This invites experimentalists to take the possibility of stable variation seriously and identifies one possible place where to look for it: situations of complex language contact.
翻訳日:2022-12-24 15:24:55 公開日:2020-03-11
# ニューラルグラフフィルタリングによる多様なファッションコロケーションの学習

Learning Diverse Fashion Collocation by Neural Graph Filtering ( http://arxiv.org/abs/2003.04888v1 )

ライセンス: Link先を確認
Xin Liu, Yongbin Sun, Ziwei Liu, and Dahua Lin(参考訳) ファッションレコメンデーションシステムは、服、靴、バッグなどの視覚的に結合したファッションアイテムを見つけることを顧客から要望されている。 既存の手法は有望な結果を示すが、柔軟性や多様性に欠けており、例えば、一定数のアイテムを仮定したり、安全だが退屈なレコメンデーションを好む。 本稿では,グラフニューラルネットワークを用いたフレキシブルなファッションアイテムセットをモデル化する,新しいファッションコロケーションフレームワークであるNeural Graph Filteringを提案する。 具体的には,各衣服の視覚的埋め込みをグラフ内のノードとみなし,ガーメント間の関係をノード間のエッジとして記述する。 エッジベクトルに対称演算を適用することにより、このフレームワークは様々な入力/出力を許容し、それらの順序に不変である。 さらに,focalロスを付加したスタイル分類器も追加して,トレーニングセット内で本質的に不均衡な,極めて多様なスタイルをコロケーション可能にする。 多様なファッションコロケーションに関する包括的な研究を容易にするために,amazonのファッションデータセットを注意深く設計された評価プロトコルで再編成した。 提案手法は,polyvore dataset,polyvore-d dataset,およびamazon fashion datasetの3つのベンチマークで評価した。 広範な実験結果から,本手法は確立したタスクの標準 auc メトリックを10% 以上改善し,最先端手法を著しく上回っていることがわかった。 さらに重要なことに、82.5%のユーザーが、現実世界の知覚研究において、他の選択肢よりも多様なスタイルのレコメンデーションを好む。

Fashion recommendation systems are highly desired by customers to find visually-collocated fashion items, such as clothes, shoes, bags, etc. While existing methods demonstrate promising results, they remain lacking in flexibility and diversity, e.g. assuming a fixed number of items or favoring safe but boring recommendations. In this paper, we propose a novel fashion collocation framework, Neural Graph Filtering, that models a flexible set of fashion items via a graph neural network. Specifically, we consider the visual embeddings of each garment as a node in the graph, and describe the inter-garment relationship as the edge between nodes. By applying symmetric operations on the edge vectors, this framework allows varying numbers of inputs/outputs and is invariant to their ordering. We further include a style classifier augmented with focal loss to enable the collocation of significantly diverse styles, which are inherently imbalanced in the training set. To facilitate a comprehensive study on diverse fashion collocation, we reorganize Amazon Fashion dataset with carefully designed evaluation protocols. We evaluate the proposed approach on three popular benchmarks, the Polyvore dataset, the Polyvore-D dataset, and our reorganized Amazon Fashion dataset. Extensive experimental results show that our approach significantly outperforms the state-of-the-art methods with over 10% improvements on the standard AUC metric on the established tasks. More importantly, 82.5% of the users prefer our diverse-style recommendations over other alternatives in a real-world perception study.
翻訳日:2022-12-24 15:24:11 公開日:2020-03-11
# DeepFake Detection: 現在の課題と次のステップ

DeepFake Detection: Current Challenges and Next Steps ( http://arxiv.org/abs/2003.09234v1 )

ライセンス: Link先を確認
Siwei Lyu(参考訳) ai-algorithms(deep fakes)によって生成された高品質なフェイクビデオとオーディオは、ビデオとオーディオのステータスに、イベントの明確な証拠として挑戦し始めた。 本稿では,これらの課題をいくつか紹介し,研究の機会について考察する。

High quality fake videos and audios generated by AI-algorithms (the deep fakes) have started to challenge the status of videos and audios as definitive evidence of events. In this paper, we highlight a few of these challenges and discuss the research opportunities in this direction.
翻訳日:2022-12-24 15:16:18 公開日:2020-03-11
# Wikipediaリストページからのエンティティ抽出

Entity Extraction from Wikipedia List Pages ( http://arxiv.org/abs/2003.05146v1 )

ライセンス: Link先を確認
Nicolas Heist and Heiko Paulheim(参考訳) 幅広いドメインに関する事実的な知識に関しては、ウィキペディアがWeb上の情報の主要な情報源であることが多い。 DBpediaとYAGOは、大きなドメイン間の知識グラフとして、ウィキペディアの各ページのエンティティを作成し、エッジを介してそれらを接続することで、その知識のサブセットをエンコードする。 しかし、wikipediaベースの知識グラフが完成にはほど遠いことはよく知られている。 特にウィキペディアのポリシーは、特定の人気がある場合にのみ主題に関するページを許可するので、そのようなグラフはあまり知られていないエンティティに関する情報を欠く傾向にある。 これらのエンティティに関する情報はしばしば百科事典で入手できるが、個々のページとして表現されない。 本稿では,ウィキペディアのリストページからエンティティを抽出するための2段階のアプローチを提案する。 第1フェーズでは、カテゴリとリストページからDBpediaをバックボーンとして大規模な分類を構築します。 遠隔監視により,第2フェーズで使用するリストページにおいて,新たなエンティティの識別のためのトレーニングデータを抽出し,分類モデルを訓練する。 このアプローチでは、700万以上の新しいエンティティを抽出し、7.5mの新しい型ステートメントと3.8mの高精度な新しいファクトでdbpediaを拡張します。

When it comes to factual knowledge about a wide range of domains, Wikipedia is often the prime source of information on the web. DBpedia and YAGO, as large cross-domain knowledge graphs, encode a subset of that knowledge by creating an entity for each page in Wikipedia, and connecting them through edges. It is well known, however, that Wikipedia-based knowledge graphs are far from complete. Especially, as Wikipedia's policies permit pages about subjects only if they have a certain popularity, such graphs tend to lack information about less well-known entities. Information about these entities is oftentimes available in the encyclopedia, but not represented as an individual page. In this paper, we present a two-phased approach for the extraction of entities from Wikipedia's list pages, which have proven to serve as a valuable source of information. In the first phase, we build a large taxonomy from categories and list pages with DBpedia as a backbone. With distant supervision, we extract training data for the identification of new entities in list pages that we use in the second phase to train a classification model. With this approach we extract over 700k new entities and extend DBpedia with 7.5M new type statements and 3.8M new facts of high precision.
翻訳日:2022-12-24 15:16:12 公開日:2020-03-11
# VSGNet:グラフ畳み込みを用いた人体インタラクション検出のための空間注意ネットワーク

VSGNet: Spatial Attention Network for Detecting Human Object Interactions Using Graph Convolutions ( http://arxiv.org/abs/2003.05541v1 )

ライセンス: Link先を確認
Oytun Ulutan, A S M Iftekhar, B.S. Manjunath(参考訳) 総合的な視覚的理解には、オブジェクトを個別に分析しながらオブジェクトの相互作用を効果的に学習し活用できる検出フレームワークが必要である。 これは、Human-Object Interaction (HOI) 検出タスクの主目的である。 特に、オブジェクト間の相対的な空間的推論と構造的接続は、視覚空間グラフネットワーク(VSGNet)アーキテクチャによって対処される相互作用を分析するための重要な手がかりである。 VSGNetは、人間とオブジェクトのペアから視覚的特徴を抽出し、ペアの空間的構成で特徴を洗練し、グラフ畳み込みを通じてペア間の構造的接続を利用する。 VSGNetの性能は、COCO(V-COCO)とHICO-DETデータセットのVerbsを用いて徹底的に評価される。 実験結果から,VSGNetはV-COCOでは8%,4mAP,HICO-DETでは16%,3mAPで,最先端のソリューションよりも優れていた。

Comprehensive visual understanding requires detection frameworks that can effectively learn and utilize object interactions while analyzing objects individually. This is the main objective in Human-Object Interaction (HOI) detection task. In particular, relative spatial reasoning and structural connections between objects are essential cues for analyzing interactions, which is addressed by the proposed Visual-Spatial-Graph Network (VSGNet) architecture. VSGNet extracts visual features from the human-object pairs, refines the features with spatial configurations of the pair, and utilizes the structural connections between the pair via graph convolutions. The performance of VSGNet is thoroughly evaluated using the Verbs in COCO (V-COCO) and HICO-DET datasets. Experimental results indicate that VSGNet outperforms state-of-the-art solutions by 8% or 4 mAP in V-COCO and 16% or 3 mAP in HICO-DET.
翻訳日:2022-12-24 15:00:40 公開日:2020-03-11
# ヒトの活動認識と転倒検出のためのフーリエ領域の特徴的アプローチ

A Fourier Domain Feature Approach for Human Activity Recognition & Fall Detection ( http://arxiv.org/abs/2003.05209v1 )

ライセンス: Link先を確認
Asma Khatun and Sk. Golam Sarowar Hossain(参考訳) 高齢者は、年齢、感覚、孤独感、認知の変化のために、日常生活活動(ADL)の生活中に様々な問題を引き起こす。 これはadlにリスクをもたらし、いくつかの転倒を引き起こす。 実際の転倒データを取得することは難しいプロセスであり、シミュレーションされた転倒がユビキタスになり、提案手法を評価する。 文献レビューから, 研究者のほとんどが信号データの生およびエネルギー的特徴(時間領域特徴)を用いており, それらが最も識別されていることが明らかとなった。 しかし、現実の状況では、降下信号は現在のシミュレーションデータよりもうるさい。 したがって、生の機能を使用する結果は、実際のシナリオで使用すると劇的に変化するかもしれない。 本研究は、周波数領域フーリエ係数を用いて、日常生活の様々な人間の活動を区別する。 これらの高速フーリエ変換を用いて構築された特徴ベクトルは、ノイズや回転不変量に対して堅牢である。 方法の評価には、2つの異なる教師付き分類器kNNとSVMを使用する。 ベンチマーク分析には2つの標準公開データセットが使用されている。 本研究では、SVM分類器よりもkNN分類器を用いてより識別結果を得る。 標準精度(SA)、マクロ平均精度(MAA)、感度(SE)、特異性(SP)など、さまざまな標準指標が考慮されている。 いずれの場合も,提案手法はエネルギー特性よりも優れており,一方,競争結果は生の特徴で示される。 また,提案手法は,データ拡張手法が使用されなかった最近の深層学習手法よりも優れていた。

Elder people consequence a variety of problems while living Activities of Daily Living (ADL) for the reason of age, sense, loneliness and cognitive changes. These cause the risk to ADL which leads to several falls. Getting real life fall data is a difficult process and are not available whereas simulated falls become ubiquitous to evaluate the proposed methodologies. From the literature review, it is investigated that most of the researchers used raw and energy features (time domain features) of the signal data as those are most discriminating. However, in real life situations fall signal may be noisy than the current simulated data. Hence the result using raw feature may dramatically changes when using in a real life scenario. This research is using frequency domain Fourier coefficient features to differentiate various human activities of daily life. The feature vector constructed using those Fast Fourier Transform are robust to noise and rotation invariant. Two different supervised classifiers kNN and SVM are used for evaluating the method. Two standard publicly available datasets are used for benchmark analysis. In this research, more discriminating results are obtained applying kNN classifier than the SVM classifier. Various standard measure including Standard Accuracy (SA), Macro Average Accuracy (MAA), Sensitivity (SE) and Specificity (SP) has been accounted. In all cases, the proposed method outperforms energy features whereas competitive results are shown with raw features. It is also noticed that the proposed method performs better than the recently risen deep learning approach in which data augmentation method were not used.
翻訳日:2022-12-24 14:50:39 公開日:2020-03-11
# Keyfilter-Aware Real-Time UAV Object Tracking

Keyfilter-Aware Real-Time UAV Object Tracking ( http://arxiv.org/abs/2003.05218v1 )

ライセンス: Link先を確認
Yiming Li, Changhong Fu, Ziyuan Huang, Yinqiang Zhang, Jia Pan(参考訳) 相関フィルタに基づく追跡は、無人航空機(UAV)に高い効率で広く応用されている。 しかし、2つの欠陥、すなわち境界効果とフィルタの破損がある。 探索領域を拡大するいくつかの方法は境界効果を緩和し、望ましくない背景の注意をそらす。 既存のフレーム・バイ・フレームのコンテキスト学習戦略は、バックグラウンドの邪魔を抑えるが、トラッキング速度を下げる。 キーフレームに基づく同時ローカライゼーションとマッピングにインスパイアされたキーフィルタは、上記の問題を効果的かつ効率的に扱うために、初めて視覚的トラッキングにおいて提案される。 周期的に選択されたキーフレームによって生成されるキーフィルタは、間欠的にコンテキストを学習し、フィルタの学習を抑制するために使用される。 1) 文脈認識は、キーフィルタの制限により全てのフィルタに伝達でき、 2) フィルターの腐敗は抑制できる。 最先端の結果と比較して、我々のトラッカーは、UAVリアルタイムアプリケーションに十分な速度で、2つの挑戦的なベンチマークで性能を向上する。

Correlation filter-based tracking has been widely applied in unmanned aerial vehicle (UAV) with high efficiency. However, it has two imperfections, i.e., boundary effect and filter corruption. Several methods enlarging the search area can mitigate boundary effect, yet introducing undesired background distraction. Existing frame-by-frame context learning strategies for repressing background distraction nevertheless lower the tracking speed. Inspired by keyframe-based simultaneous localization and mapping, keyfilter is proposed in visual tracking for the first time, in order to handle the above issues efficiently and effectively. Keyfilters generated by periodically selected keyframes learn the context intermittently and are used to restrain the learning of filters, so that 1) context awareness can be transmitted to all the filters via keyfilter restriction, and 2) filter corruption can be repressed. Compared to the state-of-the-art results, our tracker performs better on two challenging benchmarks, with enough speed for UAV real-time applications.
翻訳日:2022-12-24 14:50:19 公開日:2020-03-11
# 細粒度画像分類のためのチャネルインタラクションネットワーク

Channel Interaction Networks for Fine-Grained Image Categorization ( http://arxiv.org/abs/2003.05235v1 )

ライセンス: Link先を確認
Yu Gao, Xintong Han, Xun Wang, Weilin Huang, Matthew R. Scott(参考訳) 細粒度の画像分類は,微妙なクラス間差異のため困難であり,チャネル間のリッチな関係を活用すれば,異なるチャネルが異なる意味論に対応するため,そのような差異を捉えることができると考えられる。 本稿では,画像内および画像間のチャネル間相互作用をモデル化するチャネル間相互作用ネットワーク(cin)を提案する。 単一の画像に対して,自己チャネルインタラクション(sci)モジュールを提案し,画像内のチャネル間相関を探索する。 これにより、モデルが相関チャネルから補完的な特徴を学習し、より強力なきめ細かい特徴が得られる。 さらに、画像対が与えられた場合、コントラッシブチャネル相互作用(CCI)モジュールを導入し、メトリック学習フレームワークとのクロスサンプルチャネル相互作用をモデル化し、CINが画像間の微妙な視覚的差異を識別できるようにする。 当社のモデルは,多段階のトレーニングやテストの必要なしに,エンドツーエンドの方法で効率的にトレーニングすることが可能です。 最後に、提案手法は、DFL-CNN (Wang, Morariu, Davis 2018) やNTS (Yang et al. 2018) などの最先端のアプローチを一貫して上回っている。

Fine-grained image categorization is challenging due to the subtle inter-class differences.We posit that exploiting the rich relationships between channels can help capture such differences since different channels correspond to different semantics. In this paper, we propose a channel interaction network (CIN), which models the channel-wise interplay both within an image and across images. For a single image, a self-channel interaction (SCI) module is proposed to explore channel-wise correlation within the image. This allows the model to learn the complementary features from the correlated channels, yielding stronger fine-grained features. Furthermore, given an image pair, we introduce a contrastive channel interaction (CCI) module to model the cross-sample channel interaction with a metric learning framework, allowing the CIN to distinguish the subtle visual differences between images. Our model can be trained efficiently in an end-to-end fashion without the need of multi-stage training and testing. Finally, comprehensive experiments are conducted on three publicly available benchmarks, where the proposed method consistently outperforms the state-of-theart approaches, such as DFL-CNN (Wang, Morariu, and Davis 2018) and NTS (Yang et al. 2018).
翻訳日:2022-12-24 14:50:05 公開日:2020-03-11
# GID-Net:グローバルおよびインスタンス依存によるヒューマンオブジェクトインタラクションの検出

GID-Net: Detecting Human-Object Interaction with Global and Instance Dependency ( http://arxiv.org/abs/2003.05242v1 )

ライセンス: Link先を確認
Dongming Yang, YueXian Zou, Jian Zhang, Ge Li(参考訳) 人間や物体を検知し認識することは、視覚世界を理解するのに不十分であるため、人間が周囲の物体とどのように相互作用するかを学ぶことが、コア技術となる。 しかし、畳み込み操作は、一度に1つのローカル近所を処理するブロックだけを構築するため、インスタンス間の視覚的相互作用を表現するには弱い。 この問題に対処するために,HOIを観察する人間の知覚から学習し,GIDブロックと呼ばれる2段階のトレーニング可能な推論機構を導入する。 GIDブロックは局所的に破られ、グローバルレベルとインスタンスレベルの両方の画素の長距離依存をシーンから捉え、インスタンス間の相互作用を検出する。 さらに、人間の枝、対象枝、相互作用枝からなる人間とオブジェクトの相互作用検出フレームワークであるGID-Netと呼ばれるマルチストリームネットワークを運用する。 グローバルレベルとローカルレベルの意味情報を効率的に推論し、各ブランチに集約する。 我々は,提案したGID-Netを,V-COCOとHICO-DETを含む2つの公開ベンチマーク上で既存の最先端手法と比較した。 その結果、GID-Netは上記の2つのベンチマークにおいて、既存のベストパフォーマンス手法よりも優れており、人間と物体の相互作用を検出する上での有効性が検証された。

Since detecting and recognizing individual human or object are not adequate to understand the visual world, learning how humans interact with surrounding objects becomes a core technology. However, convolution operations are weak in depicting visual interactions between the instances since they only build blocks that process one local neighborhood at a time. To address this problem, we learn from human perception in observing HOIs to introduce a two-stage trainable reasoning mechanism, referred to as GID block. GID block breaks through the local neighborhoods and captures long-range dependency of pixels both in global-level and instance-level from the scene to help detecting interactions between instances. Furthermore, we conduct a multi-stream network called GID-Net, which is a human-object interaction detection framework consisting of a human branch, an object branch and an interaction branch. Semantic information in global-level and local-level are efficiently reasoned and aggregated in each of the branches. We have compared our proposed GID-Net with existing state-of-the-art methods on two public benchmarks, including V-COCO and HICO-DET. The results have showed that GID-Net outperforms the existing best-performing methods on both the above two benchmarks, validating its efficacy in detecting human-object interactions.
翻訳日:2022-12-24 14:49:41 公開日:2020-03-11
# 半局所3次元線検出と不確かさ推定

Semi-Local 3D Lane Detection and Uncertainty Estimation ( http://arxiv.org/abs/2003.05257v1 )

ライセンス: Link先を確認
Netalee Efrat, Max Bluvstein, Noa Garnett, Dan Levi, Shaul Oron, Bat El Shlomo(参考訳) 本研究では,不確実性を考慮した3次元車線検出のためのカメラベースDNN手法を提案する。 本手法は, 半局所的, BEV, タイル表現に基づいて, レーンを単純なレーンセグメントに分解する。 セグメントに対するパラメトリックモデルの学習と、セグメントをフルレーンにまとめるために使用される深い機能埋め込みを組み合わせたものだ。 この組み合わせにより、複素レーントポロジー、曲率、曲面幾何学への一般化が可能となる。 また,レーン検出タスクに対して,学習に基づく不確実性推定を最初に出力する手法である。 提案手法の有効性は, カメラを用いた3次元車線検出の最先端結果を実現するとともに, 複雑なトポロジー, 曲率, 道路地形, および異なるカメラへの一般化能力を示す。 また,不確実性推定と経験的誤差統計との整合を実証し,検出ノイズを十分に校正し,真に反映することを示す。

We propose a novel camera-based DNN method for 3D lane detection with uncertainty estimation. Our method is based on a semi-local, BEV, tile representation that breaks down lanes into simple lane segments. It combines learning a parametric model for the segments along with a deep feature embedding that is then used to cluster segment together into full lanes. This combination allows our method to generalize to complex lane topologies, curvatures and surface geometries. Additionally, our method is the first to output a learning based uncertainty estimation for the lane detection task. The efficacy of our method is demonstrated in extensive experiments achieving state-of-the-art results for camera-based 3D lane detection, while also showing our ability to generalize to complex topologies, curvatures and road geometries as well as to different cameras. We also demonstrate how our uncertainty estimation aligns with the empirical error statistics indicating that it is well calibrated and truly reflects the detection noise.
翻訳日:2022-12-24 14:49:19 公開日:2020-03-11
# リアルタイムUAV物体追跡のためのトレーニングセット蒸留

Training-Set Distillation for Real-Time UAV Object Tracking ( http://arxiv.org/abs/2003.05326v1 )

ライセンス: Link先を確認
Fan Li, Changhong Fu, Fuling Lin, Yiming Li, Peng Lu(参考訳) 相関フィルタ(CF)は近年,無人航空機(UAV)の視覚的物体追跡において有望な性能を示した。 このようなオンライン学習方法は、トレーニングセットの品質に大きく依存するが、閉塞や外見といった複雑な空中シナリオは、信頼性を低下させる可能性がある。 そこで本研究では,新しい時間スロット型蒸留法を提案し,実機におけるトレーニングセットの品質を効率的かつ効果的に最適化する。 履歴サンプルを適応的にスコア付けするために協調エネルギー最小化関数が確立される。 スコアリング処理を高速化するために、トラッキング処理を複数のタイムスロットに分割するキーフレームとして、信頼性の高いトラッキング結果のフレームを用いる。 新しいスロットが確立された後、前のサンプルの重み付けされた融合は、1つのキーサンプルを生成し、得点するサンプルの数を減らす。 また、現在のタイムスロットが最大フレーム数を超えると、最も低いスコアのサンプルを廃棄する。 これにより、トレーニングセットを効率よく確実に蒸留することができる。 2つのよく知られたUAVベンチマークの総合的なテストは、我々の手法が1つのCPU上でリアルタイムな速度で有効であることを証明している。

Correlation filter (CF) has recently exhibited promising performance in visual object tracking for unmanned aerial vehicle (UAV). Such online learning method heavily depends on the quality of the training-set, yet complicated aerial scenarios like occlusion or out of view can reduce its reliability. In this work, a novel time slot-based distillation approach is proposed to efficiently and effectively optimize the training-set's quality on the fly. A cooperative energy minimization function is established to score the historical samples adaptively. To accelerate the scoring process, frames with high confident tracking results are employed as the keyframes to divide the tracking process into multiple time slots. After the establishment of a new slot, the weighted fusion of the previous samples generates one key-sample, in order to reduce the number of samples to be scored. Besides, when the current time slot exceeds the maximum frame number, which can be scored, the sample with the lowest score will be discarded. Consequently, the training-set can be efficiently and reliably distilled. Comprehensive tests on two well-known UAV benchmarks prove the effectiveness of our method with real-time speed on a single CPU.
翻訳日:2022-12-24 14:49:02 公開日:2020-03-11
# 点群における連関とセマンティックセグメンテーションの双方向注意

Bi-Directional Attention for Joint Instance and Semantic Segmentation in Point Clouds ( http://arxiv.org/abs/2003.05420v1 )

ライセンス: Link先を確認
Guangnan Wu and Zhiyi Pan and Peng Jiang and Changhe Tu(参考訳) ポイントクラウドにおけるインスタンスセグメンテーションは、3dシーンを理解する最もきめ細かい方法の1つです。 セマンティクスセグメンテーションとの密接な関係から、これらの2つのタスクを同時にアプローチし、マルチタスク学習の利点を活用している。 しかし、それらのほとんどは要素的特徴融合のような単純な戦略のみを検討しており、相互の促進には繋がらない可能性がある。 本研究では,3次元ポイントクラウド知覚のためのバックボーンニューラルネットワーク上に双方向アテンションモジュールを構築し,あるタスクの特徴から測定した類似度行列を用いて,他のタスクの非ローカル情報を集約し,潜在的な機能排除やタスク競合を回避する。 S3DISデータセットとPartNetデータセットに関する総合実験とアブレーション研究から,本手法の優位性を検証した。 さらに、双方向アテンションモジュールがジョイントインスタンスやセマンティックセグメンテーションに役立つメカニズムも分析した。

Instance segmentation in point clouds is one of the most fine-grained ways to understand the 3D scene. Due to its close relationship to semantic segmentation, many works approach these two tasks simultaneously and leverage the benefits of multi-task learning. However, most of them only considered simple strategies such as element-wise feature fusion, which may not lead to mutual promotion. In this work, we build a Bi-Directional Attention module on backbone neural networks for 3D point cloud perception, which uses similarity matrix measured from features for one task to help aggregate non-local information for the other task, avoiding the potential feature exclusion and task conflict. From comprehensive experiments and ablation studies on the S3DIS dataset and the PartNet dataset, the superiority of our method is verified. Moreover, the mechanism of how bi-directional attention module helps joint instance and semantic segmentation is also analyzed.
翻訳日:2022-12-24 14:48:45 公開日:2020-03-11
# スプリット深さ推定による信頼度誘導ステレオ3次元物体検出

Confidence Guided Stereo 3D Object Detection with Split Depth Estimation ( http://arxiv.org/abs/2003.05505v1 )

ライセンス: Link先を確認
Chengyao Li, Jason Ku and Steven L. Waslander(参考訳) 正確な3Dオブジェクト検出は、安全な自動運転に不可欠である。 近年の進歩にもかかわらず、ステレオ法とLiDAR法のパフォーマンス差は依然として大きい。 高精度深度推定は, ステレオ3次元物体検出法, 特に前景の物体に関連付けられた画素の性能に不可欠である。 さらに,ステレオベース手法では深度推定精度のばらつきがみられ,対象検出パイプラインでは考慮されないことが多い。 そこで本研究では,深度推定時に前景画素と背景画素の分離デコーダを用いた信頼度誘導ステレオ3次元物体検出パイプラインcg-stereoを提案し,深さ推定ネットワークからの信頼度推定を3次元物体検出装置のソフトアテンション機構として活用する。 提案手法は,KITTIベンチマークにおいて,最先端のステレオベース3D検出器よりも優れている。

Accurate and reliable 3D object detection is vital to safe autonomous driving. Despite recent developments, the performance gap between stereo-based methods and LiDAR-based methods is still considerable. Accurate depth estimation is crucial to the performance of stereo-based 3D object detection methods, particularly for those pixels associated with objects in the foreground. Moreover, stereo-based methods suffer from high variance in the depth estimation accuracy, which is often not considered in the object detection pipeline. To tackle these two issues, we propose CG-Stereo, a confidence-guided stereo 3D object detection pipeline that uses separate decoders for foreground and background pixels during depth estimation, and leverages the confidence estimation from the depth estimation network as a soft attention mechanism in the 3D object detector. Our approach outperforms all state-of-the-art stereo-based 3D detectors on the KITTI benchmark.
翻訳日:2022-12-24 14:48:28 公開日:2020-03-11
# ビデオフレーム補間のためのソフトマックススプレイティング

Softmax Splatting for Video Frame Interpolation ( http://arxiv.org/abs/2003.05534v1 )

ライセンス: Link先を確認
Simon Niklaus, Feng Liu(参考訳) 後方ワープの形での異なる画像サンプリングは、深さ推定や光流予測といったタスクに広く採用されている。 対照的に、フォワードワーピングの実行方法には、複数のピクセルを同じターゲットロケーションに微分可能な方法でマッピングするコンフリクトを解決するなど、追加の課題があるため、あまり注目されていない。 本稿では,このパラダイムシフトに対処するソフトマックススプラッティングを提案し,フレーム補間の適用性を示す。 具体的には、2つの入力フレームを与えられた場合、softmax splattingを用いた光学フロー推定に基づいて、フレームとその特徴ピラミッド表現をフォワードウォープする。 そのためにsoftmax splattingは、複数のソースピクセルが同じターゲットロケーションにマップされるケースをシームレスに処理する。 次に合成ネットワークを用いて、歪んだ表現からの補間結果を予測する。 我々のソフトマックススプレイティングは、フレームを任意のタイミングで補間するだけでなく、特徴ピラミッドと光学フローを微調整することを可能にする。 我々は,映像フレーム補間のためのソフトマックススプラッティングによる合成手法により,新しい最先端結果が得られることを示す。

Differentiable image sampling in the form of backward warping has seen broad adoption in tasks like depth estimation and optical flow prediction. In contrast, how to perform forward warping has seen less attention, partly due to additional challenges such as resolving the conflict of mapping multiple pixels to the same target location in a differentiable way. We propose softmax splatting to address this paradigm shift and show its effectiveness on the application of frame interpolation. Specifically, given two input frames, we forward-warp the frames and their feature pyramid representations based on an optical flow estimate using softmax splatting. In doing so, the softmax splatting seamlessly handles cases where multiple source pixels map to the same target location. We then use a synthesis network to predict the interpolation result from the warped representations. Our softmax splatting allows us to not only interpolate frames at an arbitrary time but also to fine tune the feature pyramid and the optical flow. We show that our synthesis approach, empowered by softmax splatting, achieves new state-of-the-art results for video frame interpolation.
翻訳日:2022-12-24 14:48:12 公開日:2020-03-11
# 人的推論研究のデータ関連限界を明らかにする:推薦システムに基づく分析

Uncovering the Data-Related Limits of Human Reasoning Research: An Analysis based on Recommender Systems ( http://arxiv.org/abs/2003.05196v1 )

ライセンス: Link先を確認
Nicolas Riesterer, Daniel Brand, Marco Ragni(参考訳) 人間の推論の基本を理解することは、人間と密接に相互作用するために構築されたシステムの開発の中心である。 認知科学は、説明可能性に強く焦点を合わせ、理論駆動の視点から人間のような知能をモデル化する目標を追求する。 人間の推論研究のコアドメインの1つとしてのシロジック推論は、ここ数年で計算モデルの開発が急増している。 しかし、最近のモデルの性能予測分析により、改善の停滞が明らかになった。 認知科学で遭遇する問題のほとんどは、開発された特定のモデルによるものではなく、代わりに行動データの特異性に遡ることができると考えている。 そこで本研究では,人間と人工的なデータセットのモデル性能を比較することによって,人間の推論研究における潜在的なデータ関連要因について検討する。 特に,データにおける不整合やノイズの逆効果を調査するために協調フィルタリングレコメンダを適用し,高レベルな理論的洞察を得ることを主眼とした研究分野におけるデータ駆動手法の可能性を示す。 私達の仕事は (i)推論データにおける人間の反応から期待される騒音のレベルについての洞察を提供する。 (ii)モデル化作業の延長を求める要求に到達しそうな性能の上限の証拠を明らかにする。 (iii)このツールを導入して、個々の推論者に対する応答予測に着目した推論の調査とモデリングのための新しいパラダイムを開拓するために、最初の結果を提示する。

Understanding the fundamentals of human reasoning is central to the development of any system built to closely interact with humans. Cognitive science pursues the goal of modeling human-like intelligence from a theory-driven perspective with a strong focus on explainability. Syllogistic reasoning as one of the core domains of human reasoning research has seen a surge of computational models being developed over the last years. However, recent analyses of models' predictive performances revealed a stagnation in improvement. We believe that most of the problems encountered in cognitive science are not due to the specific models that have been developed but can be traced back to the peculiarities of behavioral data instead. Therefore, we investigate potential data-related reasons for the problems in human reasoning research by comparing model performances on human and artificially generated datasets. In particular, we apply collaborative filtering recommenders to investigate the adversarial effects of inconsistencies and noise in data and illustrate the potential for data-driven methods in a field of research predominantly concerned with gaining high-level theoretical insight into a domain. Our work (i) provides insight into the levels of noise to be expected from human responses in reasoning data, (ii) uncovers evidence for an upper-bound of performance that is close to being reached urging for an extension of the modeling task, and (iii) introduces the tools and presents initial results to pioneer a new paradigm for investigating and modeling reasoning focusing on predicting responses for individual human reasoners.
翻訳日:2022-12-24 14:42:08 公開日:2020-03-11
# sos:迅速免疫蛍光全スライド画像分類のための選択的客観的スイッチ

SOS: Selective Objective Switch for Rapid Immunofluorescence Whole Slide Image Classification ( http://arxiv.org/abs/2003.05080v1 )

ライセンス: Link先を確認
Sam Maksoud, Kun Zhao, Peter Hobson, Anthony Jennings, and Brian Lovell(参考訳) 臨床顕微鏡におけるギガピクセル全体画像(WSI)の処理の難しさは,コンピュータ支援診断システムの実装において長年の障壁であった。 現代の計算資源はこの極めて大規模な計算を行うことができないため、現状ではパッチベースの処理を用いてWSIの解像度を保っている。 しかし、これらの手法はしばしば資源集約であり、処理時間に重大な妥協をもたらす。 本稿では,高分解能が少数のケースでのみ必要となる特定のwsi分類タスクに対して,従来のパッチベース処理が冗長であることを示す。 これは臨床で見られることを反映しており、病理医は低いパワーの目的を使ってスライドを映し出し、発見が不確かである場合にのみ高いパワーに切り替える。 このような冗長性を排除するため、我々は、スケールダウンしたWSIの予測の信頼性に基づいた高分解能処理の選択的使用法を提案し、これを選択目的スイッチ(SOS)と呼ぶ。 本法は, 自己免疫性肝疾患の診断に日常的に用いられている684 Liver-Kidney-Stomach免疫蛍光WSIを用いて検討した。 低解像度で自信を持って分類できない場合に高分解能処理を限定することにより、推定時間を7.74倍に抑えながら、パッチレベルの解析の精度を維持する。

The difficulty of processing gigapixel whole slide images (WSIs) in clinical microscopy has been a long-standing barrier to implementing computer aided diagnostic systems. Since modern computing resources are unable to perform computations at this extremely large scale, current state of the art methods utilize patch-based processing to preserve the resolution of WSIs. However, these methods are often resource intensive and make significant compromises on processing time. In this paper, we demonstrate that conventional patch-based processing is redundant for certain WSI classification tasks where high resolution is only required in a minority of cases. This reflects what is observed in clinical practice; where a pathologist may screen slides using a low power objective and only switch to a high power in cases where they are uncertain about their findings. To eliminate these redundancies, we propose a method for the selective use of high resolution processing based on the confidence of predictions on downscaled WSIs --- we call this the Selective Objective Switch (SOS). Our method is validated on a novel dataset of 684 Liver-Kidney-Stomach immunofluorescence WSIs routinely used in the investigation of autoimmune liver disease. By limiting high resolution processing to cases which cannot be classified confidently at low resolution, we maintain the accuracy of patch-level analysis whilst reducing the inference time by a factor of 7.74.
翻訳日:2022-12-24 14:41:17 公開日:2020-03-11
# 自動ラベル付きLiDARシークエンスを用いた学習型人間のセグメンテーションと速度推定

Learning-Based Human Segmentation and Velocity Estimation Using Automatic Labeled LiDAR Sequence for Training ( http://arxiv.org/abs/2003.05093v1 )

ライセンス: Link先を確認
Wonjik Kim, Masayuki Tanaka, Masatoshi Okutomi, Yoko Sasaki(参考訳) 本稿では,点雲を用いた人間のセグメンテーションと速度推定のための自動ラベル付き逐次データ生成パイプラインを提案する。 深層ニューラルネットワークの影響を考慮すると、光検出・ランキング(LiDAR)で捉えた点雲を用いた人間の認識のための最先端のネットワークアーキテクチャが提案されている。 しかし、レガシデータセットが重要なラベル情報を提供しずにイメージドメインをカバーできるという欠点があり、この制限は研究の進歩を妨げている。 そこで我々は,画素単位とフレーム単位のグランド真理セグメンテーションと画素単位の速度情報を用いて,任意のパラメータやデータ生成環境を制御できる自動ラベル付き逐次データ生成パイプラインを開発した。 提案手法では,人間の正確なモデルを用いて正確な動きを再現し,リアルな人工データを生成する。 提案したパイプラインによって生成された32フレームからなる7Kビデオシーケンスについて述べる。 提案するシーケンスジェネレータにより,画像領域を使用する場合と比較して,映像領域を使用する場合の人間のセグメンテーション性能が向上することを確認した。 また、異なる条件下で生成されたデータと比較することで、データを評価する。 さらに,提案したパイプラインから生成されたデータのみを利用して,LiDARによる歩行者の速度を推定する。

In this paper, we propose an automatic labeled sequential data generation pipeline for human segmentation and velocity estimation with point clouds. Considering the impact of deep neural networks, state-of-the-art network architectures have been proposed for human recognition using point clouds captured by Light Detection and Ranging (LiDAR). However, one disadvantage is that legacy datasets may only cover the image domain without providing important label information and this limitation has disturbed the progress of research to date. Therefore, we develop an automatic labeled sequential data generation pipeline, in which we can control any parameter or data generation environment with pixel-wise and per-frame ground truth segmentation and pixel-wise velocity information for human recognition. Our approach uses a precise human model and reproduces a precise motion to generate realistic artificial data. We present more than 7K video sequences which consist of 32 frames generated by the proposed pipeline. With the proposed sequence generator, we confirm that human segmentation performance is improved when using the video domain compared to when using the image domain. We also evaluate our data by comparing with data generated under different conditions. In addition, we estimate pedestrian velocity with LiDAR by only utilizing data generated by the proposed pipeline.
翻訳日:2022-12-24 14:40:56 公開日:2020-03-11
# CASIA-SURF CeFA: マルチモーダル・クロスセクニティ・フェイス・スポーフィングのベンチマーク

CASIA-SURF CeFA: A Benchmark for Multi-modal Cross-ethnicity Face Anti-spoofing ( http://arxiv.org/abs/2003.05136v1 )

ライセンス: Link先を確認
Ajian Li, Zichang Tan, Xuan Li, Jun Wan, Sergio Escalera, Guodong Guo, Stan Z. Li(参考訳) 民族バイアスは顔認識システムの性能に悪影響を及ぼすことが証明されており、対スプーフィングにおける研究課題として残されている。 対スプーフィングに対する民族バイアスを研究するために、我々は、最大で最新のcasia-surfクロスエスニシティ・フェイス・アンチスプーフィング(cefa)データセット(cefaと略される)を導入し、3ドルの民族、3ドルのモダリティ、1,607ドルの被験者、2dプラス3d攻撃タイプをカバーする。 クロスエスニック性、未知のスプーフ、あるいはその両方といった様々な評価条件下での影響を測定するために4つのプロトコルが導入されている。 私たちの知る限りでは、cefaは対スプーフィングのための現在の公開/リリースデータセットに明示的な民族ラベルを含む最初のデータセットです。 そこで本研究では,これらのバイアス,すなわち各モード(RGB,深度,赤外画像)に適用される静的核融合機構を緩和する,強力なベースラインとして,新しいマルチモーダル融合法を提案する。 後に、複数のモードから補完的情報を学ぶための部分的共用核融合戦略が提案されている。 提案手法はCASIA-SURF, OULU-NPU, SiW, CeFAデータセットに対して, 最新の結果が得られることを示す。

Ethnic bias has proven to negatively affect the performance of face recognition systems, and it remains an open research problem in face anti-spoofing. In order to study the ethnic bias for face anti-spoofing, we introduce the largest up to date CASIA-SURF Cross-ethnicity Face Anti-spoofing (CeFA) dataset (briefly named CeFA), covering $3$ ethnicities, $3$ modalities, $1,607$ subjects, and 2D plus 3D attack types. Four protocols are introduced to measure the affect under varied evaluation conditions, such as cross-ethnicity, unknown spoofs or both of them. To the best of our knowledge, CeFA is the first dataset including explicit ethnic labels in current published/released datasets for face anti-spoofing. Then, we propose a novel multi-modal fusion method as a strong baseline to alleviate these bias, namely, the static-dynamic fusion mechanism applied in each modality (i.e., RGB, Depth and infrared image). Later, a partially shared fusion strategy is proposed to learn complementary information from multiple modalities. Extensive experiments demonstrate that the proposed method achieves state-of-the-art results on the CASIA-SURF, OULU-NPU, SiW and the CeFA dataset.
翻訳日:2022-12-24 14:39:50 公開日:2020-03-11
# AIモデルトレーニングにおけるメモリスロットネックへの対処

Addressing the Memory Bottleneck in AI Model Training ( http://arxiv.org/abs/2003.08732v1 )

ライセンス: Link先を確認
David Ojika, Bhavesh Patel, G. Anthony Reina, Trent Boyer, Chad Martin, Prashant Shah(参考訳) 大規模システムメモリを備えた第2世代のintel xeonスケーラブルプロセッサを搭載したx86ベースのサーバ上で,メモリ集約型ai/ディープラーニングモデルのトレーニングをスケールアップサーバ構成で実現する。 私たちの研究は、単一ノードサーバ上で大きなメモリフットプリント(約1TB)を持つディープニューラルネットワークの最初のトレーニングであると考えています。 私たちはこの構成を、大規模で最先端のAIモデルを開発したいという科学者や研究者に推奨します。

Using medical imaging as case-study, we demonstrate how Intel-optimized TensorFlow on an x86-based server equipped with 2nd Generation Intel Xeon Scalable Processors with large system memory allows for the training of memory-intensive AI/deep-learning models in a scale-up server configuration. We believe our work represents the first training of a deep neural network having large memory footprint (~ 1 TB) on a single-node server. We recommend this configuration to scientists and researchers who wish to develop large, state-of-the-art AI models but are currently limited by memory.
翻訳日:2022-12-24 14:32:22 公開日:2020-03-11
# 自己学習型文レベルのニューラルマシン翻訳モデルにおける文書コンテキストのキャプチャ

Capturing document context inside sentence-level neural machine translation models with self-training ( http://arxiv.org/abs/2003.05259v1 )

ライセンス: Link先を確認
Elman Mansimov, G\'abor Melis, Lei Yu(参考訳) ニューラルマシン翻訳(NMT)は、文レベルでの訓練と評価において、人間のレベルパリティを確実に達成している。 文書レベルのニューラルマシン翻訳は、文レベルの翻訳よりもあまり注目されず、遅れを取っている。 提案する文書レベルのアプローチの大半は、複数のソースまたはターゲット文にモデルを条件付けして文書コンテキストをキャプチャする方法を調査する。 これらのアプローチでは、並列文書レベルのコーパスをスクラッチから特別なNMTモデルを訓練する必要がある。 本稿では,並列文書レベルのコーパスで特別なモデルを訓練する必要がなく,復号時に訓練された文レベルのNMTモデルに適用する手法を提案する。 文書を左から右に複数回処理し,原文のペアと生成した翻訳に対して文レベルのモデルを自己学習する。 我々のアプローチは、モデルによってなされる選択を強化するので、ドキュメント内の他の文で同じ選択が行われる可能性が高まる。 NIST Chinese- English, WMT'19 Chinese- English, OpenSubtitles English- Russian の3つの文書レベルのデータセットに対するアプローチを評価する。 提案手法はBLEUスコアが高く,ヒトの嗜好がベースラインよりも高いことを示す。 我々のアプローチの質的な分析は、モデルによる選択がドキュメント全体にわたって一貫性があることを示しています。

Neural machine translation (NMT) has arguably achieved human level parity when trained and evaluated at the sentence-level. Document-level neural machine translation has received less attention and lags behind its sentence-level counterpart. The majority of the proposed document-level approaches investigate ways of conditioning the model on several source or target sentences to capture document context. These approaches require training a specialized NMT model from scratch on parallel document-level corpora. We propose an approach that doesn't require training a specialized model on parallel document-level corpora and is applied to a trained sentence-level NMT model at decoding time. We process the document from left to right multiple times and self-train the sentence-level model on pairs of source sentences and generated translations. Our approach reinforces the choices made by the model, thus making it more likely that the same choices will be made in other sentences in the document. We evaluate our approach on three document-level datasets: NIST Chinese-English, WMT'19 Chinese-English and OpenSubtitles English-Russian. We demonstrate that our approach has higher BLEU score and higher human preference than the baseline. Qualitative analysis of our approach shows that choices made by model are consistent across the document.
翻訳日:2022-12-24 14:31:17 公開日:2020-03-11
# ローマ・ウルドゥ感情分析のためのxtreme-multi channel hybrid approach

A Precisely Xtreme-Multi Channel Hybrid Approach For Roman Urdu Sentiment Analysis ( http://arxiv.org/abs/2003.05443v1 )

ライセンス: Link先を確認
Faiza Memood, Muhammad Usman Ghani, Muhammad Ali Ibrahim, Rehab Shehzadi, Muhammad Nabeel Asim(参考訳) ローマン・ウルドゥーの自然言語処理タスクの性能向上のために,この論文はWord2vecやFastText,Gloveといった最も広く使われているアプローチを用いて構築された3つのニューラルワード埋め込みを提供する。 生成した単語埋め込みの完全性は内在的および外在的評価手法を用いて評価される。 公開されているベンチマークデータセットの欠如を考慮すると、ローマ字のurduデータセットが3241の感情からなり、ポジティブな、ネガティブな、中立的なクラスに注釈を付ける。 提示されたデータセットに対するベンチマークベースラインのパフォーマンスを提供するために、多様な機械学習(サポートベクターマシンロジスティック回帰、ナイーブベイズ)、ディープラーニング(畳み込みニューラルネットワーク、リカレントニューラルネットワーク)、ハイブリッドアプローチを適応させる。 生成したニューラルネットワークの埋め込みの有効性は, それぞれ7と5つの特徴表現アプローチを用いて, 機械学習と深層学習の手法の性能を比較して評価する。 最後に,最先端の適応型マシンとディープラーニングのアプローチを9%,f1-scoreでは4%の精度で上回る,高精度なマルチチャネルハイブリッド手法を提案する。 ローマ語ウルドゥー語の感情分析, ローマ語ウルドゥー語, word2vec, glove, fast-textのための事前学習語埋め込み

In order to accelerate the performance of various Natural Language Processing tasks for Roman Urdu, this paper for the very first time provides 3 neural word embeddings prepared using most widely used approaches namely Word2vec, FastText, and Glove. The integrity of generated neural word embeddings is evaluated using intrinsic and extrinsic evaluation approaches. Considering the lack of publicly available benchmark datasets, it provides a first-ever Roman Urdu dataset which consists of 3241 sentiments annotated against positive, negative and neutral classes. To provide benchmark baseline performance over the presented dataset, we adapt diverse machine learning (Support Vector Machine Logistic Regression, Naive Bayes), deep learning (convolutional neural network, recurrent neural network), and hybrid approaches. Effectiveness of generated neural word embeddings is evaluated by comparing the performance of machine and deep learning based methodologies using 7, and 5 distinct feature representation approaches respectively. Finally, it proposes a novel precisely extreme multi-channel hybrid methodology which outperforms state-of-the-art adapted machine and deep learning approaches by the figure of 9%, and 4% in terms of F1-score. Roman Urdu Sentiment Analysis, Pretrain word embeddings for Roman Urdu, Word2Vec, Glove, Fast-Text
翻訳日:2022-12-24 14:30:57 公開日:2020-03-11
# ニューラルネットワークにおける意味的ホロリズムと単語表現

Semantic Holism and Word Representations in Artificial Neural Networks ( http://arxiv.org/abs/2003.05522v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Musil(参考訳) ニューラルネットワークは、自然言語処理における多くの問題に対する最先端のソリューションである。 ニューラルネットワークの表現方法から、言語や意味について何を学ぶことができるのか? word2vecモデルのスキップグラム変種から得られる単語表現は興味深い意味的性質を示す。 これは通常、その単語の意味が発生した文脈によって与えられるという一般分布仮説を参照して説明される。 フレーゲの包括的かつ機能的な意味的アプローチに基づく、より具体的なアプローチを提案する。 ツゲンダットによるフレーゲの著作の形式的再解釈を出発点として、スキップグラムモデルを訓練するプロセスに類似していることを示し、その意味的性質の考えられる説明を提供する。

Artificial neural networks are a state-of-the-art solution for many problems in natural language processing. What can we learn about language and meaning from the way artificial neural networks represent it? Word representations obtained from the Skip-gram variant of the word2vec model exhibit interesting semantic properties. This is usually explained by referring to the general distributional hypothesis, which states that the meaning of the word is given by the contexts where it occurs. We propose a more specific approach based on Frege's holistic and functional approach to meaning. Taking Tugendhat's formal reinterpretation of Frege's work as a starting point, we demonstrate that it is analogical to the process of training the Skip-gram model and offers a possible explanation of its semantic properties.
翻訳日:2022-12-24 14:30:34 公開日:2020-03-11
# キーワード対応型ディープセマンティクスマッチング

Keyword-Attentive Deep Semantic Matching ( http://arxiv.org/abs/2003.11516v1 )

ライセンス: Link先を確認
Changyu Miao, Zhen Cao and Yik-Cheung Tam(参考訳) 深い意味のマッチングは、q&a(qa)のような様々な自然言語処理アプリケーションにおいて重要な要素であり、入力クエリは、関連性の観点からqaコーパスの各候補質問と比較される。 オープンドメインシナリオにおけるクエリクエリペア間の類似性の測定は、クエリクエリペア内のさまざまなワードトークンのために難しい場合がある。 深いセマンティックマッチングを改善するためのキーワード付きアプローチを提案する。 まず、大きなコーパスからのドメインタグを利用して、ドメイン拡張キーワード辞書を生成する。 BERTを基盤として,クエリ・クエクション・ペアにおけるキーワードの重要性を強調するために,キーワードアテンテート・トランスフォーマー層を構築した。 モデル学習中に,入力ペア間のキーワードカバレッジに基づいた新たな負サンプリング手法を提案する。 検索候補の精度やセマンティックマッチングの精度など,さまざまな指標を用いて,中国のQAコーパスに対するアプローチを評価する。 実験によると、我々のアプローチは既存の強力なベースラインよりも優れています。 我々のアプローチは一般的であり、適応の少ない他のテキストマッチングタスクにも適用できる。

Deep Semantic Matching is a crucial component in various natural language processing applications such as question and answering (QA), where an input query is compared to each candidate question in a QA corpus in terms of relevance. Measuring similarities between a query-question pair in an open domain scenario can be challenging due to diverse word tokens in the queryquestion pair. We propose a keyword-attentive approach to improve deep semantic matching. We first leverage domain tags from a large corpus to generate a domain-enhanced keyword dictionary. Built upon BERT, we stack a keyword-attentive transformer layer to highlight the importance of keywords in the query-question pair. During model training, we propose a new negative sampling approach based on keyword coverage between the input pair. We evaluate our approach on a Chinese QA corpus using various metrics, including precision of retrieval candidates and accuracy of semantic matching. Experiments show that our approach outperforms existing strong baselines. Our approach is general and can be applied to other text matching tasks with little adaptation.
翻訳日:2022-12-24 14:30:08 公開日:2020-03-11
# 『イメージは千の価値がある』:インセッション型パーソナライズのためのスケーラブルな製品表現

"An Image is Worth a Thousand Features": Scalable Product Representations for In-Session Type-Ahead Personalization ( http://arxiv.org/abs/2003.07160v1 )

ライセンス: Link先を確認
Bingqing Yu, Jacopo Tagliabue, Ciro Greco and Federico Bianchi(参考訳) 本稿では,通常,バウンス率が高く,利用者の繰り返しが稀なデジタルコマース環境において,クエリ完了をパーソナライズする問題に対処する。 我々は,問合せ時に製品画像から計算された濃密ベクトルを注入することにより,セッション内パーソナライゼーションに着目し,標準ノイズチャネルモデルを改善する。 画像に基づくパーソナライゼーションは、代替案(データ可用性からビジネススケーラビリティまで)よりもいくつかの利点を示し、提案手法の有効性に関する定量的証拠と質的支援を提供する。 最後に、類似店舗間の共有ベクター空間を用いて、サイトを閲覧するユーザのエクスペリエンスを改善する方法を示し、ゼロショット非教師なしパーソナライゼーションを適用してコンバージョンを増加させる可能性を開く。 これは、複数のブランドやウェブサイトを管理する小売グループと、同じ分野の複数のクライアントを提供するマルチテナントSaaSプロバイダに特に関係があることが証明される。

We address the problem of personalizing query completion in a digital commerce setting, in which the bounce rate is typically high and recurring users are rare. We focus on in-session personalization and improve a standard noisy channel model by injecting dense vectors computed from product images at query time. We argue that image-based personalization displays several advantages over alternative proposals (from data availability to business scalability), and provide quantitative evidence and qualitative support on the effectiveness of the proposed methods. Finally, we show how a shared vector space between similar shops can be used to improve the experience of users browsing across sites, opening up the possibility of applying zero-shot unsupervised personalization to increase conversions. This will prove to be particularly relevant to retail groups that manage multiple brands and/or websites and to multi-tenant SaaS providers that serve multiple clients in the same space.
翻訳日:2022-12-24 14:23:11 公開日:2020-03-11
# DataSHIELDにおける深部生成モデル

Deep generative models in DataSHIELD ( http://arxiv.org/abs/2003.07775v1 )

ライセンス: Link先を確認
Stefan Lenz, Harald Binder(参考訳) 医療データから統計を計算する最良の方法は、個々の患者のデータを使用することである。 一部の設定では、プライバシー制限のため、このデータは取得が難しい。 例えば、ドイツでは、患者の同意なしに研究目的で異なる病院からの定期的なデータをプールすることは不可能である。 DataSHIELDソフトウェアは、分散データの共同分析のためのインフラストラクチャと統計手法のセットを提供する。 含まれているアルゴリズムは、個々のデータではなく、参加者のサイトから集約されたデータを扱うように再構成される。 所望のアルゴリズムがDataSHIELDに実装されていない場合や、そのような方法で再構成できない場合、人工データを使用することが代替となる。 我々は,分散患者データから複雑なパターンを保存する人工データを作成するために,DataSHIELD上に構築されたソフトウェア実装とともに方法論を提案する。 このような人工患者のデータセットは、実際の患者とはリンクしないが、共同分析に使用できる。 我々は、データの分布を捉えるための生成モデルとしてディープボルツマンマシン(DBM)を用いる。 この実装では、juliaプログラミング言語のパッケージ"boltzmannmachines"を採用し、rをベースにしたdatashieldでラップし、例えば、遺伝的変異データをシミュレートする合成データセット上でdbmsを用いた分散分析を行う。 仮想患者の階層的クラスタリングを用いて、元のデータからのパターンを人工データに復元し、アプローチの実現可能性を示す。 我々の実装は、DataSHIELDに追加され、様々な分析に使用できる人工データを生成することができる。 g. 深層学習によるパターン認識に役立ちます これはさらに一般的に、R以外の言語からの高度なアルゴリズムで、DataSHIELDを柔軟に拡張する方法を示している。

The best way to calculate statistics from medical data is to use the data of individual patients. In some settings, this data is difficult to obtain due to privacy restrictions. In Germany, for example, it is not possible to pool routine data from different hospitals for research purposes without the consent of the patients. The DataSHIELD software provides an infrastructure and a set of statistical methods for joint analyses of distributed data. The contained algorithms are reformulated to work with aggregated data from the participating sites instead of the individual data. If a desired algorithm is not implemented in DataSHIELD or cannot be reformulated in such a way, using artificial data is an alternative. We present a methodology together with a software implementation that builds on DataSHIELD to create artificial data that preserve complex patterns from distributed individual patient data. Such data sets of artificial patients, which are not linked to real patients, can then be used for joint analyses. We use deep Boltzmann machines (DBMs) as generative models for capturing the distribution of data. For the implementation, we employ the package "BoltzmannMachines" from the Julia programming language and wrap it for use with DataSHIELD, which is based on R. As an exemplary application, we conduct a distributed analysis with DBMs on a synthetic data set, which simulates genetic variant data. Patterns from the original data can be recovered in the artificial data using hierarchical clustering of the virtual patients, demonstrating the feasibility of the approach. Our implementation adds to DataSHIELD the ability to generate artificial data that can be used for various analyses, e. g. for pattern recognition with deep learning. This also demonstrates more generally how DataSHIELD can be flexibly extended with advanced algorithms from languages other than R.
翻訳日:2022-12-24 14:22:28 公開日:2020-03-11
# 時空間データを用いた犯罪予測

Crime Prediction Using Spatio-Temporal Data ( http://arxiv.org/abs/2003.09322v1 )

ライセンス: Link先を確認
Sohrab Hossain, Ahmed Abtahee, Imran Kashem, Mohammed Moshiul Hoque and Iqbal H. Sarker(参考訳) 犯罪は罰的な犯罪であり、個人やその社会にとって有害である。 犯罪行為のパターンを理解して防止することは明らかである。 研究は社会の犯罪活動の防止と解決に役立つ。 調査によると、全犯罪の50%を犯しているのは10%しかいない。 警察チームは、早期情報があれば迅速に対応でき、都市の異なる地点の犯罪活動について事前に知ることができる。 本稿では,教師あり学習技術を用いて,より正確な犯罪予測を行う。 提案システムは,先行した犯罪記録とそのパターンを含むデータセットを分析し,犯罪を予測する。 システムは2つの主要なアルゴリズムの上に立つ。 一 決定木及び決定木 二)kネアレストの隣人。 ランダムフォレストアルゴリズムとAdaboostは予測の精度を高めるために使用される。 最後に、オーバーサンプリングにより精度が向上する。 提案されたシステムは、サンフランシスコ市の12年間の犯罪活動データセットを供給している。

A crime is a punishable offence that is harmful for an individual and his society. It is obvious to comprehend the patterns of criminal activity to prevent them. Research can help society to prevent and solve crime activates. Study shows that only 10 percent offenders commits 50 percent of the total offences. The enforcement team can respond faster if they have early information and pre-knowledge about crime activities of the different points of a city. In this paper, supervised learning technique is used to predict crimes with better accuracy. The proposed system predicts crimes by analyzing data-set that contains records of previously committed crimes and their patterns. The system stands on two main algorithms - i) decision tree, and ii) k-nearest neighbor. Random Forest algorithm and Adaboost are used to increase the accuracy of the prediction. Finally, oversampling is used for better accuracy. The proposed system is feed with a criminal-activity data set of twelve years of San Francisco city.
翻訳日:2022-12-24 14:21:41 公開日:2020-03-11
# 座標的アルミジョ条件:一般の場合

Coordinate-wise Armijo's condition: General case ( http://arxiv.org/abs/2003.05252v1 )

ライセンス: Link先を確認
Tuyen Trung Truong(参考訳) z=(x,y)$ を積空間 $\mathbb{R}^{m_1}\times \mathbb{R}^{m_2}$ の座標とする。 f:\mathbb{R}^{m_1}\times \mathbb{R}^{m_2}\rightarrow \mathbb{R}$を$C^1$関数とし、$\nabla f=(\partial _xf,\partial _yf)$その勾配とする。 0<\alpha <1$ を固定する。 点 $(x,y) \in \mathbb{r}^{m_1}\times \mathbb{r}^{m_2}$, a number $\delta >0$ がarmijoの条件を$(x,y)$ で満たせば、次の不等式が成り立つ: \begin{eqnarray*} f(x-\delta \partial _xf,y-\delta \partial _yf)-f(x,y)\leq -\alpha \delta (||\partial _xf||^2+||\partial _yf|||^2)。 eqnarray*} 前回の論文で、次の {\bf coordinate-wise} armijo条件を提案した。 0<\alpha <1$ を再び固定する。 一対の正数 $\delta _1,\delta _2>0$ がアルミホの条件の座標ワイド変項を $(x,y)$ とする: \begin{eqnarray*} [f(x-\delta _1\partial _xf(x,y), y-\delta _2\partial _y f(x,y)]-[f(x,y)]\leq -\alpha (\delta _1|\partial _xf(x,y)|||^2+\delta _2|\partial _yf(x,y)||^2 を満たす。 \end{eqnarray*} 以前は$f(x,y)=fという形の関数に対してこの条件を適用していました。 (x)+g (y)$であり、様々な収束結果が得られた。 一般的な関数の場合、実際の計算を行えるためには、通常のArmijoの状態のバックトラックのように、Armijoの状態の座標的バージョンを満たす$\delta _1$と$\delta _2$を得るための体系的なアルゴリズムを持つことが不可欠である。 本稿では,このようなアルゴリズムを提案し,収束結果に基づいて証明する。 次に,いくつかの関数(例えば,$f(x,y)=a|x|+y$,$f(x,y)=x^3 sin (1/x) + y^3 sin(1/y)$, rosenbrock関数)について解析し,実験結果を示す。

Let $z=(x,y)$ be coordinates for the product space $\mathbb{R}^{m_1}\times \mathbb{R}^{m_2}$. Let $f:\mathbb{R}^{m_1}\times \mathbb{R}^{m_2}\rightarrow \mathbb{R}$ be a $C^1$ function, and $\nabla f=(\partial _xf,\partial _yf)$ its gradient. Fix $0<\alpha <1$. For a point $(x,y) \in \mathbb{R}^{m_1}\times \mathbb{R}^{m_2}$, a number $\delta >0$ satisfies Armijo's condition at $(x,y)$ if the following inequality holds: \begin{eqnarray*} f(x-\delta \partial _xf,y-\delta \partial _yf)-f(x,y)\leq -\alpha \delta (||\partial _xf||^2+||\partial _yf||^2). \end{eqnarray*} In one previous paper, we proposed the following {\bf coordinate-wise} Armijo's condition. Fix again $0<\alpha <1$. A pair of positive numbers $\delta _1,\delta _2>0$ satisfies the coordinate-wise variant of Armijo's condition at $(x,y)$ if the following inequality holds: \begin{eqnarray*} [f(x-\delta _1\partial _xf(x,y), y-\delta _2\partial _y f(x,y))]-[f(x,y)]\leq -\alpha (\delta _1||\partial _xf(x,y)||^2+\delta _2||\partial _yf(x,y)||^2). \end{eqnarray*} Previously we applied this condition for functions of the form $f(x,y)=f(x)+g(y)$, and proved various convergent results for them. For a general function, it is crucial - for being able to do real computations - to have a systematic algorithm for obtaining $\delta _1$ and $\delta _2$ satisfying the coordinate-wise version of Armijo's condition, much like Backtracking for the usual Armijo's condition. In this paper we propose such an algorithm, and prove according convergent results. We then analyse and present experimental results for some functions such as $f(x,y)=a|x|+y$ (given by Asl and Overton in connection to Wolfe's method), $f(x,y)=x^3 sin (1/x) + y^3 sin(1/y)$ and Rosenbrock's function.
翻訳日:2022-12-24 14:16:04 公開日:2020-03-11
# 確率凸最適化のための進行精度による確率座標最小化

Stochastic Coordinate Minimization with Progressive Precision for Stochastic Convex Optimization ( http://arxiv.org/abs/2003.05482v1 )

ライセンス: Link先を確認
Sudeep Salgia, Qing Zhao, Sattar Vakili(参考訳) 確率凸最適化のための反復座標最小化(CM)に基づくフレームワークを開発した。 目的関数の確率的性質が不明であるため、正確な座標最小化は不可能であることを考えると、最適化アルゴリズムは各反復における最小化精度の最適制御である。 強対流および分離可能な非スムース関数の最適精度制御と秩序-最適後悔性能を確立する。 興味深い発見は、反復による最適精度の進行は、低次元CMルーチンとは独立であり、低次元最適化ルーチンを高次元問題に拡張するための一般的な枠組みが提案されていることである。 提案手法はオンライン実装に適応でき,大規模最適化のためのcmのスケーラビリティと並列性特性を継承する。 メッセージ交換のサブ線形順序のみを必要とするため、座標勾配降下の代替アプローチと比較して分散コンピューティングにも適している。

A framework based on iterative coordinate minimization (CM) is developed for stochastic convex optimization. Given that exact coordinate minimization is impossible due to the unknown stochastic nature of the objective function, the crux of the proposed optimization algorithm is an optimal control of the minimization precision in each iteration. We establish the optimal precision control and the resulting order-optimal regret performance for strongly convex and separably nonsmooth functions. An interesting finding is that the optimal progression of precision across iterations is independent of the low-dimensional CM routine employed, suggesting a general framework for extending low-dimensional optimization routines to high-dimensional problems. The proposed algorithm is amenable to online implementation and inherits the scalability and parallelizability properties of CM for large-scale optimization. Requiring only a sublinear order of message exchanges, it also lends itself well to distributed computing as compared with the alternative approach of coordinate gradient descent.
翻訳日:2022-12-24 14:14:24 公開日:2020-03-11
# 深層信頼ネットワークを用いたアルツハイマー病のプロテオームリスクマーカーの同定

A deep belief network-based method to identify proteomic risk markers for Alzheimer disease ( http://arxiv.org/abs/2003.05776v1 )

ライセンス: Link先を確認
Ning An, Liuqi Jin, Huitong Ding, Jiaoyun Yang, Jing Yuan(参考訳) 多くの研究機関がアポリポ蛋白E(APOE)をアルツハイマー病の主要な遺伝リスクマーカーとして公式に同定しているが、蓄積された証拠は他のリスクマーカーが存在する可能性を裏付けている。 しかし、伝統的なアルツハイマー特異的なシグネチャ解析法は、リッチなタンパク質の発現データ、特に属性間の相互作用を十分に利用できなかった。 プロテオームおよび臨床データを用いてアルツハイマー病の病原性因子を同定する新規な特徴選択法を開発した。 このアプローチでは、ネットワークノードの重みをタンパク質発現値のシグナルの重要順として捉えている。 候補となるサブセットを作成した後、90%以上の精度を達成したタンパク質の最適なサブセットを選択するのに役立ち、アルツハイマー病の診断における従来の機械学習手法よりも優れている。 プロテオームリスクマーカーの同定と代謝危険因子とアルツハイマー病の関連性の向上に加えて,アピドネクチン関連経路が治療薬の標的となる可能性が示唆された。

While a large body of research has formally identified apolipoprotein E (APOE) as a major genetic risk marker for Alzheimer disease, accumulating evidence supports the notion that other risk markers may exist. The traditional Alzheimer-specific signature analysis methods, however, have not been able to make full use of rich protein expression data, especially the interaction between attributes. This paper develops a novel feature selection method to identify pathogenic factors of Alzheimer disease using the proteomic and clinical data. This approach has taken the weights of network nodes as the importance order of signaling protein expression values. After generating and evaluating the candidate subset, the method helps to select an optimal subset of proteins that achieved an accuracy greater than 90%, which is superior to traditional machine learning methods for clinical Alzheimer disease diagnosis. Besides identifying a proteomic risk marker and further reinforce the link between metabolic risk factors and Alzheimer disease, this paper also suggests that apidonectin-linked pathways are a possible therapeutic drug target.
翻訳日:2022-12-24 14:13:12 公開日:2020-03-11
# テンソル化ランダム射影

Tensorized Random Projections ( http://arxiv.org/abs/2003.05101v1 )

ライセンス: Link先を確認
Beheshteh T. Rakhshan and Guillaume Rabusseau(参考訳) 超高次元テンソルの次元を効率的に削減する新しいランダムプロジェクション手法を提案する。 ガウス乱射影とジョンソン・リンデンシュトラウス変換の古典的な結果に基づいて、それぞれテンソルトレイン~(TT)とCP分解形式に依存する2つのテンソル化ランダム射影写像を提案する。 2つのマップはメモリ要件が非常に低く、入力がCPまたはTTフォーマットで与えられる低階テンソルである場合に効率よく適用できる。 理論解析により, jlt 内の密なガウス行列は, 予測された入力のユークリッド距離をほぼ保ちながら, ランダムな因子を持つ圧縮形式で暗黙的に表される低ランクテンソルに置き換えられることが示された。 さらに, この結果から, TTフォーマットは, 同じ歪み比を達成するのに必要なランダム投影の大きさにおいて, CPよりもかなり優れていることがわかった。 合成データを用いた実験は, 理論解析を検証し, tt分解の優性を示す。

We introduce a novel random projection technique for efficiently reducing the dimension of very high-dimensional tensors. Building upon classical results on Gaussian random projections and Johnson-Lindenstrauss transforms~(JLT), we propose two tensorized random projection maps relying on the tensor train~(TT) and CP decomposition format, respectively. The two maps offer very low memory requirements and can be applied efficiently when the inputs are low rank tensors given in the CP or TT format. Our theoretical analysis shows that the dense Gaussian matrix in JLT can be replaced by a low-rank tensor implicitly represented in compressed form with random factors, while still approximately preserving the Euclidean distance of the projected inputs. In addition, our results reveal that the TT format is substantially superior to CP in terms of the size of the random projection needed to achieve the same distortion ratio. Experiments on synthetic data validate our theoretical analysis and demonstrate the superiority of the TT decomposition.
翻訳日:2022-12-24 14:04:09 公開日:2020-03-11
# ランダムに初期化したPointcloud Set関数はどの程度強力か?

How Powerful Are Randomly Initialized Pointcloud Set Functions? ( http://arxiv.org/abs/2003.05410v1 )

ライセンス: Link先を確認
Aditya Sanghi, Pradeep Kumar Jayaraman(参考訳) 学習されていない神経集合関数によって生成されるランダム埋め込みについて検討し、分類などの下流タスクの入力特徴をうまく捉える強力な表現であり、しばしば線形に分離可能であることを示した。 ランダムな集合関数は、完全に訓練されたモデルよりも、ほぼあるいはそれ以上の精度が得られることを示す驚くべき結果が得られる。 このような埋め込みの代表的な力に影響を与える要因を定量的に定性的に検討する。

We study random embeddings produced by untrained neural set functions, and show that they are powerful representations which well capture the input features for downstream tasks such as classification, and are often linearly separable. We obtain surprising results that show that random set functions can often obtain close to or even better accuracy than fully trained models. We investigate factors that affect the representative power of such embeddings quantitatively and qualitatively.
翻訳日:2022-12-24 13:54:08 公開日:2020-03-11
# メタ学習好奇心アルゴリズム

Meta-learning curiosity algorithms ( http://arxiv.org/abs/2003.05325v1 )

ライセンス: Link先を確認
Ferran Alet, Martin F. Schneider, Tomas Lozano-Perez, Leslie Pack Kaelbling(参考訳) 好奇心は進化によって発見されたメカニズムであり、エージェントの人生の初期に有意義な探索を奨励し、その生涯を通じて高い報酬を得ることができる経験にそれを露出させるものであると仮定する。 外部ループはエージェントの報酬信号を動的に適応する好奇性機構の空間を探索し、内部ループは適応された報酬信号を用いて標準的な強化学習を行う。 しかし、ニューラルネットワークの重み移動に基づく現在のメタRL法は、非常に類似したタスク間でのみ一般化されている。 一般化を広めるため、代わりにメタ学習アルゴリズムを提案する。ml論文で人間が設計したものと同じようなコード断片である。 私たちのリッチなプログラム言語は、ニューラルネットワークとバッファ、最も近いモジュール、カスタムロス関数といった他のビルディングブロックを結合します。 本手法の有効性を実証し,画像入力,acrobot,lunar lander,ant,hopperを用いたグリッドナビゲーションと同等の領域で,人間の設計したキュリオシティアルゴリズムと同等以上の性能を持つ2つの新しいキュリオシティアルゴリズムを発見した。

We hypothesize that curiosity is a mechanism found by evolution that encourages meaningful exploration early in an agent's life in order to expose it to experiences that enable it to obtain high rewards over the course of its lifetime. We formulate the problem of generating curious behavior as one of meta-learning: an outer loop will search over a space of curiosity mechanisms that dynamically adapt the agent's reward signal, and an inner loop will perform standard reinforcement learning using the adapted reward signal. However, current meta-RL methods based on transferring neural network weights have only generalized between very similar tasks. To broaden the generalization, we instead propose to meta-learn algorithms: pieces of code similar to those designed by humans in ML papers. Our rich language of programs combines neural networks with other building blocks such as buffers, nearest-neighbor modules and custom loss functions. We demonstrate the effectiveness of the approach empirically, finding two novel curiosity algorithms that perform on par or better than human-designed published curiosity algorithms in domains as disparate as grid navigation with image inputs, acrobot, lunar lander, ant and hopper.
翻訳日:2022-12-24 13:48:30 公開日:2020-03-11
# 深い類似性モデルの構築と解釈

Building and Interpreting Deep Similarity Models ( http://arxiv.org/abs/2003.05431v1 )

ライセンス: Link先を確認
Oliver Eberle, Jochen B\"uttner, Florian Kr\"autli, Klaus-Robert M\"uller, Matteo Valleriani, Gr\'egoire Montavon(参考訳) カーネルマシン、近接する隣人、クラスタリング、異常検出などの多くの学習アルゴリズムは、「距離」や「類似性」の概念に基づいている。 類似性が実際の機械学習モデルのトレーニングに使用される前に、データの有意義なパターンに結び付いていることを確認したいと思います。 本稿では,入力特徴の点から説明することで類似性を解釈する手法を提案する。 我々は,2組の入力特徴に対して類似度スコアを系統的に分解する,スケーラブルで理論的に確立された手法であるBiLRPを開発した。 本手法は,高非線形関数にスケールするために先行研究で示されたlrp説明の合成として表現できる。 広範な実験を通して、BLRPが複雑な類似性モデル、例えばVGG-16のディープニューラルネットワーク機能をベースに構築されていることを実証する。 さらに,この手法をデジタル人文科学におけるオープン問題に適用し,天文表などの歴史的文書間の類似性に関する詳細な評価を行った。 ここでも、BiLRPは洞察を提供し、高度にエンジニアリングされた問題固有の類似性モデルに検証可能性をもたらす。

Many learning algorithms such as kernel machines, nearest neighbors, clustering, or anomaly detection, are based on the concept of 'distance' or 'similarity'. Before similarities are used for training an actual machine learning model, we would like to verify that they are bound to meaningful patterns in the data. In this paper, we propose to make similarities interpretable by augmenting them with an explanation in terms of input features. We develop BiLRP, a scalable and theoretically founded method to systematically decompose similarity scores on pairs of input features. Our method can be expressed as a composition of LRP explanations, which were shown in previous works to scale to highly nonlinear functions. Through an extensive set of experiments, we demonstrate that BiLRP robustly explains complex similarity models, e.g. built on VGG-16 deep neural network features. Additionally, we apply our method to an open problem in digital humanities: detailed assessment of similarity between historical documents such as astronomical tables. Here again, BiLRP provides insight and brings verifiability into a highly engineered and problem-specific similarity model.
翻訳日:2022-12-24 13:47:13 公開日:2020-03-11
# 個人バイアスと不公平に対するMLモデルの検討

Auditing ML Models for Individual Bias and Unfairness ( http://arxiv.org/abs/2003.05048v1 )

ライセンス: Link先を確認
Songkai Xue, Mikhail Yurochkin and Yuekai Sun(参考訳) 個人バイアス/不公平度に対するMLモデル監査の課題を考察する。 最適化問題においてタスクを形式化し,最適値に対する推論ツール群を開発する。 我々のツールは、I型エラー率を正確に制御する漸近的信頼区間と仮説テストを得ることを可能にする。 ツールの有用性を実証するために、northpointeのcompas recidivism prediction instrumentの性別と人種バイアスを明らかにするためにそれらを使用します。

We consider the task of auditing ML models for individual bias/unfairness. We formalize the task in an optimization problem and develop a suite of inferential tools for the optimal value. Our tools permit us to obtain asymptotic confidence intervals and hypothesis tests that cover the target/control the Type I error rate exactly. To demonstrate the utility of our tools, we use them to reveal the gender and racial biases in Northpointe's COMPAS recidivism prediction instrument.
翻訳日:2022-12-24 13:38:24 公開日:2020-03-11
# 多目的変分オートエンコーダのスマートインフラストラクチャメンテナンスへの応用

Multi-Objective Variational Autoencoder: an Application for Smart Infrastructure Maintenance ( http://arxiv.org/abs/2003.05070v1 )

ライセンス: Link先を確認
Ali Anaissi, Seid Miad Zandavi(参考訳) マルチウェイデータ解析は、標準的な双方向分析技術がマルチウェイデータ内の変数間の隠れた相関を見つけられなかった高次データセットの基盤構造を捉える上で必須のツールとなっている。 本稿では,自動エンコーダ深層ニューラルネットワーク(ADNN)の再構成確率に基づいて,多方向センシングデータにおけるスマートインフラストラクチャ損傷検出と診断のための多目的変動型オートエンコーダ(MVA)手法を提案する。 本手法では,複数のセンサからのデータを1つのadnnに融合し,情報的特徴を抽出し,損傷同定に利用する。 損傷を検出するために確率的異常スコアを生成し、その重大度を和らげ、adnnに導入された新しい局在層を介してさらに局所化する。 損傷診断のための構造的健康モニタリング領域におけるマルチウェイデータセットの評価を行った。 データは、西シドニーのケーブル橋に架かるデータ取得システムと、ロスアラモス国立研究所(lanl)から得られた実験室ベースの建物構造から収集したものです。 実験の結果,提案手法は構造損傷を正確に検出できることがわかった。 また、損傷の重大さの異なるレベルを推定し、監視されていない側面で損傷箇所を捉えることもできた。 現状の手法と比較して,本手法は損傷検出と局所化の点で優れた性能を示す。

Multi-way data analysis has become an essential tool for capturing underlying structures in higher-order data sets where standard two-way analysis techniques often fail to discover the hidden correlations between variables in multi-way data. We propose a multi-objective variational autoencoder (MVA) method for smart infrastructure damage detection and diagnosis in multi-way sensing data based on the reconstruction probability of autoencoder deep neural network (ADNN). Our method fuses data from multiple sensors in one ADNN at which informative features are being extracted and utilized for damage identification. It generates probabilistic anomaly scores to detect damage, asses its severity and further localize it via a new localization layer introduced in the ADNN. We evaluated our method on multi-way datasets in the area of structural health monitoring for damage diagnosis purposes. The data was collected from our deployed data acquisition system on a cable-stayed bridge in Western Sydney and from a laboratory based building structure obtained from Los Alamos National Laboratory (LANL). Experimental results show that the proposed method can accurately detect structural damage. It was also able to estimate the different levels of damage severity, and capture damage locations in an unsupervised aspect. Compared to the state-of-the-art approaches, our proposed method shows better performance in terms of damage detection and localization.
翻訳日:2022-12-24 13:38:16 公開日:2020-03-11
# 決定論的モデルにおける精度と校正不確かさの推定

Estimation of Accurate and Calibrated Uncertainties in Deterministic models ( http://arxiv.org/abs/2003.05103v1 )

ライセンス: Link先を確認
Enrico Camporeale and Algo Car\`e(参考訳) 本稿では,連続変数を出力する決定論的モデルにより生成される単一点予測に不確実性を割り当てる問題に焦点をあてる。 この問題は、アンサンブルの実行が容易でない計算コストを持つ最先端の物理学や工学モデルに適用され、単点予測に関連する不確かさを推定する。 基本的に、決定論的予測を確率的予測に容易に変換する手法を考案する。 そこで本研究では,そのような確率モデルの精度と信頼性(因果関係)を妥協する必要があることを示す。 そこで我々は,そのトレードオフを符号化するコスト関数を導入する。 連続ランク確率スコアを用いて精度を計測し,ガウス分布で表される連続スカラー変数の予測において,信頼性に関する解析式を導出する。 新しい精度・信頼性コスト関数は、2目的最適化問題を解くことにより、ブラックボックス平均関数が与えられた入力依存分散を推定するために使用される。 この戦略の背後にある単純な哲学は、推定された分散に基づく予測は正確であるだけでなく、信頼できる(つまり観測と統計的に一致している)べきだというものである。 逆に、負の対数確率密度のような古典的コスト関数の最小化に基づく初期の研究は、精度と信頼性の両方を同時に実施することはできない。 基礎となる隠れたノイズを正確に復元できる合成データと、大規模な実世界のデータセットの両方の例を示す。

In this paper we focus on the problem of assigning uncertainties to single-point predictions generated by a deterministic model that outputs a continuous variable. This problem applies to any state-of-the-art physics or engineering models that have a computational cost that does not readily allow to run ensembles and to estimate the uncertainty associated to single-point predictions. Essentially, we devise a method to easily transform a deterministic prediction into a probabilistic one. We show that for doing so, one has to compromise between the accuracy and the reliability (calibration) of such a probabilistic model. Hence, we introduce a cost function that encodes their trade-off. We use the Continuous Rank Probability Score to measure accuracy and we derive an analytic formula for the reliability, in the case of forecasts of continuous scalar variables expressed in terms of Gaussian distributions. The new Accuracy-Reliability cost function is then used to estimate the input-dependent variance, given a black-box mean function, by solving a two-objective optimization problem. The simple philosophy behind this strategy is that predictions based on the estimated variances should not only be accurate, but also reliable (i.e. statistical consistent with observations). Conversely, early works based on the minimization of classical cost functions, such as the negative log probability density, cannot simultaneously enforce both accuracy and reliability. We show several examples both with synthetic data, where the underlying hidden noise can accurately be recovered, and with large real-world datasets.
翻訳日:2022-12-24 13:37:54 公開日:2020-03-11
# 効率的なネットワーク圧縮のためのカーネル量子化

Kernel Quantization for Efficient Network Compression ( http://arxiv.org/abs/2003.05148v1 )

ライセンス: Link先を確認
Zhongzhi Yu, Yemin Shi, Tiejun Huang, Yizhou Yu(参考訳) 本稿では,事前学習された全精度畳み込みニューラルネットワーク(cnn)モデルを,性能損失を伴わない低精度バージョンに効率的に変換することを目的とした,新しいネットワーク圧縮フレームワークカーネル量子化(kq)を提案する。 重み付きビット長に苦しむ既存の方法とは異なり、KQは畳み込みカーネルを量子化単位として考えることにより圧縮率を改善する可能性がある。 重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。 各重みパラメータを低ビットインデックスで表現するのではなく、カーネルコードブックを学び、畳み込み層のすべてのカーネルを対応する低ビットインデックスで置き換える。 これにより、KQは低ビットのインデックスを持つ畳み込み層の重みテンソルと、サイズが制限されたカーネルコードブックを表現でき、KQは大きな圧縮比を達成することができる。 次に,カーネルコードブック上で6ビットパラメータ量子化を行い,冗長性をさらに低減する。 ImageNet分類タスクの広範な実験により、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表現し、精度の低下を少なくして最先端圧縮比を達成する。

This paper presents a novel network compression framework Kernel Quantization (KQ), targeting to efficiently convert any pre-trained full-precision convolutional neural network (CNN) model into a low-precision version without significant performance loss. Unlike existing methods struggling with weight bit-length, KQ has the potential in improving the compression ratio by considering the convolution kernel as the quantization unit. Inspired by the evolution from weight pruning to filter pruning, we propose to quantize in both kernel and weight level. Instead of representing each weight parameter with a low-bit index, we learn a kernel codebook and replace all kernels in the convolution layer with corresponding low-bit indexes. Thus, KQ can represent the weight tensor in the convolution layer with low-bit indexes and a kernel codebook with limited size, which enables KQ to achieve significant compression ratio. Then, we conduct a 6-bit parameter quantization on the kernel codebook to further reduce redundancy. Extensive experiments on the ImageNet classification task prove that KQ needs 1.05 and 1.62 bits on average in VGG and ResNet18, respectively, to represent each parameter in the convolution layer and achieves the state-of-the-art compression ratio with little accuracy loss.
翻訳日:2022-12-24 13:37:13 公開日:2020-03-11
# 高次元低サンプルサイズ設定におけるガウス図形モデル探索と選択

Gaussian Graphical Model exploration and selection in high dimension low sample size setting ( http://arxiv.org/abs/2003.05169v1 )

ライセンス: Link先を確認
Thomas Lartigue (ARAMIS, CMAP), Simona Bottani (ARAMIS), Stephanie Baron (HEGP), Olivier Colliot (ARAMIS), Stanley Durrleman (ARAMIS), St\'ephanie Allassonni\`ere (CRC (UMR\_S\_1138 / U1138))(参考訳) ガウス図形モデル(GGM)は、乱ベクトルの成分間の条件相関を記述するためにしばしば用いられる。 本稿では,ノードワイズエッジ選択法とペナルティ付き確率最大化法という2種類のggm推定法を比較した。 合成データでは,サンプルサイズが小さい場合には,実データと比較した場合にエッジ数が少なすぎるか,あるいは多すぎるグラフを生成する。 その結果,グラフの族をノード単位の数値スキームで探索し,その中の候補を全体の可能性基準で選択する合成手順を提案する。 観測回数が小さい場合には、この選択法はグラフを真理に近いものにし、実分布に関して他の2つよりも優れたkl発散率を持つ分布に対応する。 最後に,まず脳画像データ,次に生物学的ネフローロジーデータ,という2つの具体例に対するアルゴリズムの関心を示す。 どちらの場合も、我々の結果は各分野における現在の知識と一致している。

Gaussian Graphical Models (GGM) are often used to describe the conditional correlations between the components of a random vector. In this article, we compare two families of GGM inference methods: nodewise edge selection and penalised likelihood maximisation. We demonstrate on synthetic data that, when the sample size is small, the two methods produce graphs with either too few or too many edges when compared to the real one. As a result, we propose a composite procedure that explores a family of graphs with an nodewise numerical scheme and selects a candidate among them with an overall likelihood criterion. We demonstrate that, when the number of observations is small, this selection method yields graphs closer to the truth and corresponding to distributions with better KL divergence with regards to the real distribution than the other two. Finally, we show the interest of our algorithm on two concrete cases: first on brain imaging data, then on biological nephrology data. In both cases our results are more in line with current knowledge in each field.
翻訳日:2022-12-24 13:36:27 公開日:2020-03-11
# 一般化線形文脈バンディットにおける遅延適応学習

Delay-Adaptive Learning in Generalized Linear Contextual Bandits ( http://arxiv.org/abs/2003.05174v1 )

ライセンス: Link先を確認
Jose Blanchet, Renyuan Xu and Zhengyuan Zhou(参考訳) 本稿では,報奨が即時観測されない一般化線形文脈包帯におけるオンライン学習について考察する。 代わりに、報酬は、何らかの遅延の後のみ、意思決定者に提供される。 本稿では,この遅延条件に適応した2つのよく知られたアルゴリズムの性能について検討する。 本稿では,これら2つのアルゴリズムが遅延処理にどのように適応すべきかを考察し,両アルゴリズムに後悔する特徴を与える。 本研究は,両アルゴリズムを遅延に対して頑健なものにすることで,現代のレコメンデーションエンジンに広く展開されるこれら2つのアルゴリズムの実証的成功を明確化し,再確認することによる,文脈的バンディット文学の広い景観に寄与する。

In this paper, we consider online learning in generalized linear contextual bandits where rewards are not immediately observed. Instead, rewards are available to the decision-maker only after some delay, which is unknown and stochastic. We study the performance of two well-known algorithms adapted to this delayed setting: one based on upper confidence bounds, and the other based on Thompson sampling. We describe modifications on how these two algorithms should be adapted to handle delays and give regret characterizations for both algorithms. Our results contribute to the broad landscape of contextual bandits literature by establishing that both algorithms can be made to be robust to delays, thereby helping clarify and reaffirm the empirical success of these two algorithms, which are widely deployed in modern recommendation engines.
翻訳日:2022-12-24 13:36:11 公開日:2020-03-11
# hp-VPINNs: 領域分割を伴う変分物理インフォームドニューラルネットワーク

hp-VPINNs: Variational Physics-Informed Neural Networks With Domain Decomposition ( http://arxiv.org/abs/2003.05385v1 )

ライセンス: Link先を確認
Ehsan Kharazmi, Zhongqiang Zhang, George Em Karniadakis(参考訳) 浅層および深層ニューラルネットワークの非線形近似と,高次多項式空間への領域分解と射影によるhp-refinementに基づくhp-variational physics-informed neural networks(hp-vpinns)の一般的な枠組みを定式化する。 試行空間はニューラルネットワークの空間であり、この空間は計算領域全体にわたってグローバルに定義され、テスト空間はピースワイズ多項式を含む。 具体的には、hp-refinementは、ネットワークパラメータ最適化を効率的にローカライズできる局所学習アルゴリズムによるグローバル近似に対応する。 関数近似と解微分方程式の数値例を数例に,hp-VPINNsの精度と訓練コストの利点を示す。

We formulate a general framework for hp-variational physics-informed neural networks (hp-VPINNs) based on the nonlinear approximation of shallow and deep neural networks and hp-refinement via domain decomposition and projection onto space of high-order polynomials. The trial space is the space of neural network, which is defined globally over the whole computational domain, while the test space contains the piecewise polynomials. Specifically in this study, the hp-refinement corresponds to a global approximation with local learning algorithm that can efficiently localize the network parameter optimization. We demonstrate the advantages of hp-VPINNs in accuracy and training cost for several numerical examples of function approximation and solving differential equations.
翻訳日:2022-12-24 13:30:08 公開日:2020-03-11
# 単純なニューラルネットワークによるBERTのエンティティ知識の探索

Investigating Entity Knowledge in BERT with Simple Neural End-To-End Entity Linking ( http://arxiv.org/abs/2003.05473v1 )

ライセンス: Link先を確認
Samuel Broscheit(参考訳) エンドツーエンドのエンティティリンクシステムのための典型的なアーキテクチャは、3つのステップで構成されている。 本研究では,以下の質問について考察する。 (a)BERT(Devlin et al., 2019)という文脈的テキスト表現モデルと協調してこれらのステップを学ぶことができるか? (b)既に事前訓練されたBERTにどの程度のエンティティ知識が含まれているか? (c)下流タスクにおけるBERTのパフォーマンスは、追加のエンティティ知識によって改善されるか? この目的のために、私たちはエンティティ・リンク・セットアップを極端に単純化し、驚くほどうまく機能し、エンティティ・ボキャブラリ全体(私たちの場合は700K以上のクラス)にトークン単位の分類としてキャストする。 エンティティリンクのベンチマークをお見せします (i)このモデルはプレーンベルト上のエンティティ表現を改善する。 (ii)タスクを別々に最適化するエンティティリンクアーキテクチャを上回っていること、及び (iii)検出とエンティティの曖昧さを共同で言及する現在の最先端技術に次いでいること。 さらに,テキスト理解型ベンチマークGLUEにおけるエンティティ認識トークン表現の有用性や,SQUAD V2およびSWAGに対する質問応答ベンチマーク,EN-DE WMT14機械翻訳ベンチマークについて検討する。 驚いたことに、これらのベンチマークのほとんどは、非常に小さなトレーニングデータを持つタスクであるGLUEのRTEタスクを除いて、追加のエンティティ知識の恩恵を受けていない。

A typical architecture for end-to-end entity linking systems consists of three steps: mention detection, candidate generation and entity disambiguation. In this study we investigate the following questions: (a) Can all those steps be learned jointly with a model for contextualized text-representations, i.e. BERT (Devlin et al., 2019)? (b) How much entity knowledge is already contained in pretrained BERT? (c) Does additional entity knowledge improve BERT's performance in downstream tasks? To this end, we propose an extreme simplification of the entity linking setup that works surprisingly well: simply cast it as a per token classification over the entire entity vocabulary (over 700K classes in our case). We show on an entity linking benchmark that (i) this model improves the entity representations over plain BERT, (ii) that it outperforms entity linking architectures that optimize the tasks separately and (iii) that it only comes second to the current state-of-the-art that does mention detection and entity disambiguation jointly. Additionally, we investigate the usefulness of entity-aware token-representations in the text-understanding benchmark GLUE, as well as the question answering benchmarks SQUAD V2 and SWAG and also the EN-DE WMT14 machine translation benchmark. To our surprise, we find that most of those benchmarks do not benefit from additional entity knowledge, except for a task with very small training data, the RTE task in GLUE, which improves by 2%.
翻訳日:2022-12-24 13:29:22 公開日:2020-03-11
# 保守的場正規化と統合による畳み込みニューラルネットワークの改善

Improving Convolutional Neural Networks Via Conservative Field Regularisation and Integration ( http://arxiv.org/abs/2003.05182v1 )

ライセンス: Link先を確認
Dominique Beaini, Sofiane Achiche, Maxime Raison(参考訳) 畳み込みニューラルネットワーク(CNN)の現在の研究は、主にネットワークのアーキテクチャの変更、ハイパーパラメータの最適化、勾配降下の改善に焦点を当てている。 しかし、ほとんどの作業ではcnn内部の操作、畳み込み、アクティベーション関数、プールの3つの標準ファミリーしか使用していない。 本研究では,ラプラシアンのグリーン関数に基づく新たな演算系を提案する。これはネットワークがラプラシアンを解くことを可能とし,任意のベクトル場を積分し,それを保守的に強制することで場を規則化する。 従って、グリーン関数(GF)は、重みのノルムを正規化するのではなく、保守的かつ物理的に解釈可能であるように強制することによって、2Dまたは3D特徴空間を正則化する最初の演算である。 このような正規化により、ネットワークはより高速に学習でき、よりスムーズなトレーニング曲線を持ち、パラメータを追加せずにより一般化できる。 現在の写本は早期の結果を示し、提案手法のベンチマークにはさらなる作業が必要である。

Current research in convolutional neural networks (CNN) focuses mainly on changing the architecture of the networks, optimizing the hyper-parameters and improving the gradient descent. However, most work use only 3 standard families of operations inside the CNN, the convolution, the activation function, and the pooling. In this work, we propose a new family of operations based on the Green's function of the Laplacian, which allows the network to solve the Laplacian, to integrate any vector field and to regularize the field by forcing it to be conservative. Hence, the Green's function (GF) is the first operation that regularizes the 2D or 3D feature space by forcing it to be conservative and physically interpretable, instead of regularizing the norm of the weights. Our results show that such regularization allows the network to learn faster, to have smoother training curves and to better generalize, without any additional parameter. The current manuscript presents early results, more work is required to benchmark the proposed method.
翻訳日:2022-12-24 13:28:43 公開日:2020-03-11
# 知識組織システム(KOS)の表現性と機械処理性:概念と関係の分析

Expressiveness and machine processability of Knowledge Organization Systems (KOS): An analysis of concepts and relations ( http://arxiv.org/abs/2003.05258v1 )

ライセンス: Link先を確認
Manolis Peponakis, Anna Mastora, Sarantos Kapidakis, Martin Doerr(参考訳) 本研究では,異なるタイプの知識組織システム(KOS)の表現性(表現力または表現力)を考察し,セマンティックウェブの文脈で機械処理可能である可能性について考察する。 この目的のために、KOSの理論的基礎は、Functional Requirements for Subject Authority Data(FRSAD)とSimple Knowledge Organization System(SKOS)によって導入された概念化に基づいてレビューされ、自然言語処理技術も実装されている。 比較分析を適用したデータセットは、シソーラス(Eurovoc)、主観誘導システム(LCSH)、分類スキーム(DDC)から構成される。 これらは概念と関係をどのように定義し扱うかに焦点を当てたオントロジー(CIDOC-CRM)と比較される。 lcsh と ddc は、意味論のモデリングよりも文字列(名詞)の形式化に焦点を当てているのが観察された。 対照的に、thesauriは概念を構成するものに関する一貫性のある定義を持ち、関係のモデリングに体系的なアプローチを適用する。 オントロジーは多種多様な関係を明示的に定義し、その性質上機械処理可能である。 本稿は,各KOSの表現性および機械処理性の両方のポテンシャルが,その構造規則により広範囲に規制されていることを結論付けている。 対象の見出しや分類スキームをノードや弧のセマンティックネットワークとして表現することは困難であり、その表現にシサウリの方が適している。 さらに、概念そのものではなく、概念間の関係のモデル化に焦点を当てたパラダイムシフトが明らかにされる。

This study considers the expressiveness (that is the expressive power or expressivity) of different types of Knowledge Organization Systems (KOS) and discusses its potential to be machine-processable in the context of the Semantic Web. For this purpose, the theoretical foundations of KOS are reviewed based on conceptualizations introduced by the Functional Requirements for Subject Authority Data (FRSAD) and the Simple Knowledge Organization System (SKOS); natural language processing techniques are also implemented. Applying a comparative analysis, the dataset comprises a thesaurus (Eurovoc), a subject headings system (LCSH) and a classification scheme (DDC). These are compared with an ontology (CIDOC-CRM) by focusing on how they define and handle concepts and relations. It was observed that LCSH and DDC focus on the formalism of character strings (nomens) rather than on the modelling of semantics; their definition of what constitutes a concept is quite fuzzy, and they comprise a large number of complex concepts. By contrast, thesauri have a coherent definition of what constitutes a concept, and apply a systematic approach to the modelling of relations. Ontologies explicitly define diverse types of relations, and are by their nature machine-processable. The paper concludes that the potential of both the expressiveness and machine processability of each KOS is extensively regulated by its structural rules. It is harder to represent subject headings and classification schemes as semantic networks with nodes and arcs, while thesauri are more suitable for such a representation. In addition, a paradigm shift is revealed which focuses on the modelling of relations between concepts, rather than the concepts themselves.
翻訳日:2022-12-24 13:27:33 公開日:2020-03-11
# リカレントニューラルネットワークによるステートフルプリミズ選択

Stateful Premise Selection by Recurrent Neural Networks ( http://arxiv.org/abs/2004.08212v1 )

ライセンス: Link先を確認
Bartosz Piotrowski and Josef Urban(参考訳) 本研究では,大規模な形式ライブラリ上での新たな目標の証明において,事実(前提)を選択する学習ベースの手法を開発する。 ランクによって互いに独立して事実の集合を選択する従来の方法とは異なり、新しい方法は、事実の選択が行われる度に更新される \emph{state} という概念を使用する。 我々のステートフルアーキテクチャは、最近言語翻訳のようなステートフルなタスクで成功しているリカレントニューラルネットワークに基づいている。 新しい手法はデータ拡張手法と組み合わせられ、標準的な大規模理論ベンチマークでいくつかの方法で評価され、勾配強化木に基づく最先端の前提手法と比較される。 性能が著しく向上し、多くの新しい問題を解くことが示されている。

In this work, we develop a new learning-based method for selecting facts (premises) when proving new goals over large formal libraries. Unlike previous methods that choose sets of facts independently of each other by their rank, the new method uses the notion of \emph{state} that is updated each time a choice of a fact is made. Our stateful architecture is based on recurrent neural networks which have been recently very successful in stateful tasks such as language translation. The new method is combined with data augmentation techniques, evaluated in several ways on a standard large-theory benchmark, and compared to state-of-the-art premise approach based on gradient boosted trees. It is shown to perform significantly better and to solve many new problems.
翻訳日:2022-12-24 13:20:16 公開日:2020-03-11
# コントラスト推定を用いた変形可能な物体の予測表現の学習

Learning Predictive Representations for Deformable Objects Using Contrastive Estimation ( http://arxiv.org/abs/2003.05436v1 )

ライセンス: Link先を確認
Wilson Yan, Ashwin Vangipuram, Pieter Abbeel, Lerrel Pinto(参考訳) 変形可能なオブジェクト操作のためのビジュアルモデルベースの学習は、複雑な動的モデルとともに計画可能な視覚的表現を学ぶのが困難であるため、難しい。 本研究では,視覚表現モデルとダイナミクスモデルの両方を,コントラスト推定を用いて共同で最適化する新しい学習フレームワークを提案する。 テーブル上の変形可能なオブジェクトをランダムに摂動することで収集したシミュレーションデータを用いて、これらのオブジェクトの潜在力学モデルをオフラインで学習する。 次に,学習モデルを用いて簡易なモデルに基づく計画手法を用いて,ロープや布を広めるなどの変形可能な物体操作課題を解決する。 実験により, ロープや布の操作において, 標準モデルに基づく学習技術よりも性能が大幅に向上した。 最後に、シミュレーションで収集したデータに基づいてトレーニングしたビジュアル操作ポリシーを、ドメインのランダム化を通じて実際のpr2ロボットに転送する。

Using visual model-based learning for deformable object manipulation is challenging due to difficulties in learning plannable visual representations along with complex dynamic models. In this work, we propose a new learning framework that jointly optimizes both the visual representation model and the dynamics model using contrastive estimation. Using simulation data collected by randomly perturbing deformable objects on a table, we learn latent dynamics models for these objects in an offline fashion. Then, using the learned models, we use simple model-based planning to solve challenging deformable object manipulation tasks such as spreading ropes and cloths. Experimentally, we show substantial improvements in performance over standard model-based learning techniques across our rope and cloth manipulation suite. Finally, we transfer our visual manipulation policies trained on data purely collected in simulation to a real PR2 robot through domain randomization.
翻訳日:2022-12-24 13:19:22 公開日:2020-03-11
# 大規模計算機イメージングのためのメモリ効率学習

Memory-efficient Learning for Large-scale Computational Imaging ( http://arxiv.org/abs/2003.05551v1 )

ライセンス: Link先を確認
Michael Kellman, Kevin Zhang, Jon Tamir, Emrah Bostan, Michael Lustig, Laura Waller(参考訳) 実験設計や画像先行といった計算画像システムの重要な側面は、古典的モデルに基づく再構成(終端的な物理に基づくネットワーク)の展開によって形成されたディープネットワークを通じて最適化することができる。 しかし、現実の大規模逆問題では、グラフィック処理ユニットのメモリ制限のため、バックプロパゲーションによる計算勾配は実現不可能である。 本研究では,大規模画像処理システムにおけるデータ駆動設計を実現するために,ネットワークの可逆性を利用したメモリ効率の学習手法を提案する。 提案手法は,小型圧縮センシングの例と,マルチチャネル磁気共鳴イメージングと超高分解能光学顕微鏡の2つの大規模実世界のシステムについて実証する。

Critical aspects of computational imaging systems, such as experimental design and image priors, can be optimized through deep networks formed by the unrolled iterations of classical model-based reconstructions (termed physics-based networks). However, for real-world large-scale inverse problems, computing gradients via backpropagation is infeasible due to memory limitations of graphics processing units. In this work, we propose a memory-efficient learning procedure that exploits the reversibility of the network's layers to enable data-driven design for large-scale computational imaging systems. We demonstrate our method on a small-scale compressed sensing example, as well as two large-scale real-world systems: multi-channel magnetic resonance imaging and super-resolution optical microscopy.
翻訳日:2022-12-24 13:18:17 公開日:2020-03-11
# コンセプタを用いた長期記憶と短期記憶の転送

Transfer between long-term and short-term memory using Conceptors ( http://arxiv.org/abs/2003.11640v1 )

ライセンス: Link先を確認
Anthony Strock (Mnemosyne, LaBRI, IMN), Nicolas Rougier (Mnemosyne, LaBRI, IMN), Xavier Hinaut (Mnemosyne, LaBRI, IMN)(参考訳) 短期成分と長期成分を組み合わせたワーキングメモリのリカレントニューラルネットワークモデルを提案する。 e短期コンポーネントはゲート信号のオン時に入力ストリームから値を保持するように訓練されたゲート貯水池モデルを用いてモデル化される。 eの長期コンポーネントは、内部の時間パターン(値に対応する)を格納するために、概念を使ってモデル化される。 我々は,これら2つのコンポーネントを組み合わせることで,情報を長期記憶から短期記憶へ移行できるモデルを得るとともに,コンセプタの標準的な操作が長期記憶を結合し,短期記憶に与える影響を説明する方法を示す。

We introduce a recurrent neural network model of working memory combining short-term and long-term components. e short-term component is modelled using a gated reservoir model that is trained to hold a value from an input stream when a gate signal is on. e long-term component is modelled using conceptors in order to store inner temporal patterns (that corresponds to values). We combine these two components to obtain a model where information can go from long-term memory to short-term memory and vice-versa and we show how standard operations on conceptors allow to combine long-term memories and describe their effect on short-term memory.
翻訳日:2022-12-24 13:12:28 公開日:2020-03-11
# hurtful words: 臨床的文脈単語埋め込みにおけるバイアスの定量化

Hurtful Words: Quantifying Biases in Clinical Contextual Word Embeddings ( http://arxiv.org/abs/2003.11515v1 )

ライセンス: Link先を確認
Haoran Zhang, Amy X. Lu, Mohamed Abdalla, Matthew McDermott, Marzyeh Ghassemi(参考訳) 本研究は, 組込みが疎外化集団をコードする範囲と, それが臨床タスクにおけるバイアスの持続性やパフォーマンスの悪化につながる可能性について検討する。 本研究は,MIMIC-III病院データセットの医療用ノートに深い埋め込みモデル(BERT)を事前訓練し,2つのアプローチを用いて潜在的な格差を定量化する。 まず、実際の臨床ノートからのテキストとログ確率バイアススコアの定量化を用いて、コンテキスト単語の埋め込みによって捕捉される危険な潜伏関係を同定する。 第2に、急性および慢性の病態の検出を含む50以上の下流臨床予測タスクにおいて、フェアネスの異なる定義間のパフォーマンスギャップを評価する。 BERT表現から訓練された分類器は, 性別, 言語, 民族, 保険状況などにおいて, 統計的に有意なパフォーマンス差を示し, 多数派を好んでいることが判明した。 最後に,文脈的単語埋め込みにおけるサブグループ情報の難読化に逆行脱バイアスを用いることの欠点について検討し,臨床環境における深層埋め込みモデルのベストプラクティスを推奨する。

In this work, we examine the extent to which embeddings may encode marginalized populations differently, and how this may lead to a perpetuation of biases and worsened performance on clinical tasks. We pretrain deep embedding models (BERT) on medical notes from the MIMIC-III hospital dataset, and quantify potential disparities using two approaches. First, we identify dangerous latent relationships that are captured by the contextual word embeddings using a fill-in-the-blank method with text from real clinical notes and a log probability bias score quantification. Second, we evaluate performance gaps across different definitions of fairness on over 50 downstream clinical prediction tasks that include detection of acute and chronic conditions. We find that classifiers trained from BERT representations exhibit statistically significant differences in performance, often favoring the majority group with regards to gender, language, ethnicity, and insurance status. Finally, we explore shortcomings of using adversarial debiasing to obfuscate subgroup information in contextual word embeddings, and recommend best practices for such deep embedding models in clinical settings.
翻訳日:2022-12-24 13:12:03 公開日:2020-03-11