このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220105となっている論文です。

PDF登録状況(公開日: 20220105)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) Auto-ABSA:アスペクトベース感性分析におけるアスペクトの自動検出 [全文訳有]

Auto-ABSA: Automatic Detection of Aspects in Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2202.00484v1 )

ライセンス: CC BY 4.0
Teng Wang(参考訳) トランスが提案された後、多くの事前学習言語モデルが作成され、感情分析(SA)タスクが改善された。 本稿では,感情予測を支援するために,文に含まれる側面に関する補助文を用いた手法を提案する。 ひとつはアスペクト検出で、マルチアスペクト検出モデルを使用して文が持つすべてのアスペクトを予測する。 予測された側面と原文を感情分析モデル(sa)の入力として組み合わせる。 2つ目は、ドメイン外アスペクトベースの感情分析(ABSA)、ある種類のデータセットで感情分類モデルをトレーニングし、別の種類のデータセットでそれを検証することだ。 最後に、感情分類モデルの入力としてアスペクトを使用しない2つのベースラインを作成しました。 2つのベースラインのパフォーマンスを我々のメソッドと比較すると、この方法が本当に理にかなっていることが分かりました。

After transformer is proposed, lots of pre-trained language models have been come up with and sentiment analysis (SA) task has been improved. In this paper, we proposed a method that uses an auxiliary sentence about aspects that the sentence contains to help sentiment prediction. The first is aspect detection, which uses a multi-aspects detection model to predict all aspects that the sentence has. Combining the predicted aspects and the original sentence as Sentiment Analysis (SA) model's input. The second is to do out-of-domain aspect-based sentiment analysis(ABSA), train sentiment classification model with one kind of dataset and validate it with another kind of dataset. Finally, we created two baselines, they use no aspect and all aspects as sentiment classification model's input, respectively. Compare two baselines performance to our method, found that our method really makes sense.
翻訳日:2022-02-06 13:11:10 公開日:2022-01-05
# (参考訳) RabindraNet - Rabindranath Tagoreのスタイルによる文学作品の作成 [全文訳有]

RabindraNet, Creating Literary Works in the Style of Rabindranath Tagore ( http://arxiv.org/abs/2202.00481v1 )

ライセンス: CC BY 4.0
Asadullah Al Galib(参考訳) ベンガル文学は数百年の歴史があり、ラビンドラナト・タゴールやカジ・ナズル・イスラムのような輝かしい人物がいる。 しかし、NLPの最新の進歩を含む分析研究は、言語作者の収集した膨大な量の著作物を利用して表面をほとんど傷つけていない。 ベンガルの作家の著作を扱った分析研究や、既存の文学スタイルにおけるテキスト生成の先駆者となるために、ラビンドラネット(rabindranet)を紹介し、ラビンドラナト・タゴール(rabindranath tagore)の著作に基づいて訓練されたスタック化されたlstm層を持つ文字レベルのrnnモデルを紹介し、多ジャンルの文学作品を生み出している。 私たちはまた、信頼できるオンラインソースからRabindranath Tagoreのデジタル化された作品をコンパイルして、広範なデータセットを作成しました。

Bengali literature has a rich history of hundreds of years with luminary figures such as Rabindranath Tagore and Kazi Nazrul Islam. However, analytical works involving the most recent advancements in NLP have barely scratched the surface utilizing the enormous volume of the collected works from the writers of the language. In order to bring attention to the analytical study involving the works of Bengali writers and spearhead the text generation endeavours in the style of existing literature, we are introducing RabindraNet, a character level RNN model with stacked-LSTM layers trained on the works of Rabindranath Tagore to produce literary works in his style for multiple genres. We created an extensive dataset as well by compiling the digitized works of Rabindranath Tagore from authentic online sources and published as open source dataset on data science platform Kaggle.
翻訳日:2022-02-06 13:03:11 公開日:2022-01-05
# (参考訳) 多層繰り返しスパイクニューラルネットワークの可視性伝播へのSTDPの適用

Including STDP to eligibility propagation in multi-layer recurrent spiking neural networks ( http://arxiv.org/abs/2201.07602v1 )

ライセンス: CC BY 4.0
Werner van der Veen(参考訳) ニューロモルフィックシステムにおけるニューラルネットワーク(SNN)のスパイクは、ディープラーニングベースの手法よりもエネルギー効率が高いが、そのようなSNNを訓練するための明確な競合学習アルゴリズムはない。 E-propは、低消費電力のニューロモルフィックハードウェアで競合する再帰性SNNを訓練する、効率的で生物学的に妥当な方法を提供する。 本稿では,音声分類タスクにおける以前のe-propの性能を再現し,STDP様の動作を含む影響を分析する。 alifニューロンモデルへのstdpを含むと分類性能は向上するが、izhikevich e-propニューロンではそうではない。 最後に、単層繰り返しSNNで実装されたe-propは、連続的にマルチ層変異よりも優れていることがわかった。

Spiking neural networks (SNNs) in neuromorphic systems are more energy efficient compared to deep learning-based methods, but there is no clear competitive learning algorithm for training such SNNs. Eligibility propagation (e-prop) offers an efficient and biologically plausible way to train competitive recurrent SNNs in low-power neuromorphic hardware. In this report, previous performance of e-prop on a speech classification task is reproduced, and the effects of including STDP-like behavior are analyzed. Including STDP to the ALIF neuron model improves the classification performance, but this is not the case for the Izhikevich e-prop neuron. Finally, it was found that e-prop implemented in a single-layer recurrent SNN consistently outperforms a multi-layer variant.
翻訳日:2022-01-23 21:57:16 公開日:2022-01-05
# (参考訳) オンライン広告のための通信効率の良いテラバイトスケールモデルトレーニングフレームワーク [全文訳有]

Communication-Effici ent TeraByte-Scale Model Training Framework for Online Advertising ( http://arxiv.org/abs/2201.05500v1 )

ライセンス: CC BY 4.0
Weijie Zhao, Xuewu Jiao, Mingqing Hu, Xiaoyun Li, Xiangyu Zhang, Ping Li(参考訳) CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。 パーソナライズされたCTR予測を生成するために、業界レベルのCTR予測モデルは、通常、高次元(例えば100から1000億のフィーチャ)のスパースベクトル(クエリキーワード、ユーザポートレートなどからエンコードされる)を入力として取り込む。 結果として、モデルは高次元入力を埋め込むためにテラバイトスケールパラメータを必要とする。 cpuメインメモリとssdをセカンダリストレージとして活用することにより、メモリに制限のあるgpuによる大規模ネットワークのトレーニングを可能にするために階層型分散gpuパラメータサーバが提案されている。 我々は、大規模広告モデルのための既存のgpuトレーニングフレームワークにおける2つの主要な課題を特定し、これらの課題に取り組むための最適化の集まりを提案する。 (a)GPU、CPU、SSDは、トレーニング中に互いに急速に通信します。 GPUとCPUの接続は、ハードウェアトポロジのため一様ではない。 データ通信経路はハードウェアトポロジに従って最適化されるべきである。 b) 異なる計算ノードのGPUは、しばしばパラメータを同期するために通信します。 分散システムがスケーラブルになるためには、通信を最適化する必要がある。 本稿では,ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。 計算ノード間の広範な通信を減らすため,人気のあるadamオプティマイザに対して,k$-stepモデルマージアルゴリズムを導入し,非凸最適化においてその収束率を提供する。 我々の知る限り、これは産業レベルのCTRモデルトレーニングにおける$k$-step適応最適化法の最初の応用である。 実世界のデータにおける数値結果から、最適化されたシステム設計は、精度を損なうことなく、大規模モデルのトレーニング時間を著しく短縮することを確認した。

Click-Through Rate (CTR) prediction is a crucial component in the online advertising industry. In order to produce a personalized CTR prediction, an industry-level CTR prediction model commonly takes a high-dimensional (e.g., 100 or 1000 billions of features) sparse vector (that is encoded from query keywords, user portraits, etc.) as input. As a result, the model requires Terabyte scale parameters to embed the high-dimensional input. Hierarchical distributed GPU parameter server has been proposed to enable GPU with limited memory to train the massive network by leveraging CPU main memory and SSDs as secondary storage. We identify two major challenges in the existing GPU training framework for massive-scale ad models and propose a collection of optimizations to tackle these challenges: (a) the GPU, CPU, SSD rapidly communicate with each other during the training. The connections between GPUs and CPUs are non-uniform due to the hardware topology. The data communication route should be optimized according to the hardware topology; (b) GPUs in different computing nodes frequently communicates to synchronize parameters. We are required to optimize the communications so that the distributed system can become scalable. In this paper, we propose a hardware-aware training workflow that couples the hardware topology into the algorithm design. To reduce the extensive communication between computing nodes, we introduce a $k$-step model merging algorithm for the popular Adam optimizer and provide its convergence rate in non-convex optimization. To the best of our knowledge, this is the first application of $k$-step adaptive optimization method in industrial-level CTR model training. The numerical results on real-world data confirm that the optimized system design considerably reduces the training time of the massive model, with essentially no loss in accuracy.
翻訳日:2022-01-23 21:56:12 公開日:2022-01-05
# (参考訳) ハードウェアベースのサイバーセキュリティ対策のための機械学習アルゴリズムの包括的効率解析

Comprehensive Efficiency Analysis of Machine Learning Algorithms for Developing Hardware-Based Cybersecurity Countermeasures ( http://arxiv.org/abs/2201.07654v1 )

ライセンス: CC BY 4.0
Darren Cobian(参考訳) 現代のコンピュータシステムにより、サイバー攻撃者たちは、テクノロジーの初期の時代よりも高度なマルウェアを作り出すようになった。 署名ベースの手法に基づくアンチウイルスソフトウェア(AVS)のような古い検出技術は、コンピュータシステムに必要な要求に追随することができなかった。 現代のマルウェアの複雑さは、悪意のあるソフトウェアの検出率を高めるために機械学習分野とハードウェアを使用する現代の検出技術の開発につながった。 これらの新しい技術は、ハードウェアパフォーマンスカウンタ(hpcs)を使用して、一種のデジタルシグネチャを形成する。 モデルがトレーニングデータを入力した後、彼らはこれらのHPCを参照してゼロデイマルウェアサンプルを分類することができる。 HPC値に匹敵しないマルウェアがこれらの新しい手法に接触すると問題が発生する。 ゼロデイサンプルを実行する機械学習およびディープラーニングモデルの分析を行い、ハードウェア実装を開始するのに使用されるハードウェア記述言語(hdl)へのc++アルゴリズムの変換の結果を評価する。 その結果,ゼロデイマルウェアデータを最高検出率である決定木として実行した場合のモデルからの精度の欠如は,91.2% の精度に留まり,決定木という形で f1-score は91.5% であった。 次に、受信者演算曲線(ROC)とエリアアンダー・ザ・カーブ(AUC)を通し、最大のAUCが0.819であったため、アルゴリズムが大きなロバスト性を示しなかったことも決定できる。 さらに,アンサンブル学習アルゴリズムのオーバーヘッドは,86.3%の精度と86%のf1-scoreのみであった。 最後に,1ルールアルゴリズムを多くのルールに適合させて,マルウェア分類を日常的に理解できるようにし,比較的高い精度を維持しながら規則を閲覧できるようにした。

Modern computing systems have led cyber adversaries to create more sophisticated malware than was previously available in the early days of technology. Dated detection techniques such as Anti-Virus Software (AVS) based on signature-based methods could no longer keep up with the demand that computer systems required of them. The complexity of modern malware has led to the development of contemporary detection techniques that use the machine learning field and hardware to boost the detection rates of malicious software. These new techniques use Hardware Performance Counters (HPCs) that form a digital signature of sorts. After the models are fed training data, they can reference these HPCs to classify zero-day malware samples. A problem emerges when malware with no comparable HPC values comes into contact with these new techniques. We provide an analysis of several machine learning and deep learning models that run zero-day samples and evaluate the results from the conversion of C++ algorithms to a hardware description language (HDL) used to begin a hardware implementation. Our results present a lack of accuracy from the models when running zero-day malware data as our highest detector, decision tree, was only able to reach 91.2% accuracy and had an F1-Score of 91.5% in the form of a decision tree. Next, through the Receiver Operating Curve (ROC) and area-under-the-curve (AUC), we can also determine that the algorithms did not present significant robustness as the largest AUC was only 0.819. In addition, we viewed relatively high overhead for our ensemble learning algorithm while also only having an 86.3% accuracy and 86% F1-Score. Finally, as an additional task, we adapted the one rule algorithm to fit many rules to make malware classification understandable to everyday users by allowing them to view the regulations while maintaining relatively high accuracy.
翻訳日:2022-01-23 21:19:29 公開日:2022-01-05
# (参考訳) スマートチェアを用いた健康着座姿勢予測 [全文訳有]

Posture Prediction for Healthy Sitting using a Smart Chair ( http://arxiv.org/abs/2201.02615v1 )

ライセンス: CC BY 4.0
Tariku Adane Gelaw, Misgina Tsighe Hagos(参考訳) 筋骨格障害や腰痛、特に高齢者、障害者、オフィスワーカーの腰痛のリスクファクターとして、低座りの習慣が特定されている。 現在のコンピュータ化された世界では、余暇や仕事活動に関わったとしても、人々はほとんどの時間をコンピューターの机に座って過ごす傾向にある。 これは脊髄の痛みと関連する問題を引き起こす。 したがって、座る習慣を人々に思い出させ、身体的な運動などのバランスを崩すためのレコメンデーションを提供する手段が重要である。 座位姿勢に対する姿勢認識には十分な注意が払われていない。 文献では、ウェアラブルセンサー、圧力または力センサー、ビデオと画像が姿勢認識に使用された。 本研究の目的は,シートレストに32×32の圧力センサを配置した椅子から収集したデータを解析することにより,人の座位姿勢を分類するための機械学習モデルを構築することである。 モデルはRandom Forest (RF), Gaussian Na\"ive Bayes, Logistic Regression, Support Vector Machine, Deep Neural Network (DNN)の5つのアルゴリズムを使用して構築された。 全てのモデルはKFoldクロスバリデーション技術を用いて評価される。 本稿では, 2つのデータセットを分離して, 制御可能かつ現実的な実験を行い, 6つの座位姿勢を分類し, 結果について考察する。 平均分類精度は, 制御されたデータセットと現実的なデータセットで98%, 97%であった。

Poor sitting habits have been identified as a risk factor to musculoskeletal disorders and lower back pain especially on the elderly, disabled people, and office workers. In the current computerized world, even while involved in leisure or work activity, people tend to spend most of their days sitting at computer desks. This can result in spinal pain and related problems. Therefore, a means to remind people about their sitting habits and provide recommendations to counterbalance, such as physical exercise, is important. Posture recognition for seated postures have not received enough attention as most works focus on standing postures. Wearable sensors, pressure or force sensors, videos and images were used for posture recognition in the literature. The aim of this study is to build Machine Learning models for classifying sitting posture of a person by analyzing data collected from a chair platted with two 32 by 32 pressure sensors at its seat and backrest. Models were built using five algorithms: Random Forest (RF), Gaussian Na\"ive Bayes, Logistic Regression, Support Vector Machine and Deep Neural Network (DNN). All the models are evaluated using KFold cross-validation technique. This paper presents experiments conducted using the two separate datasets, controlled and realistic, and discusses results achieved at classifying six sitting postures. Average classification accuracies of 98% and 97% were achieved on the controlled and realistic datasets, respectively.
翻訳日:2022-01-16 16:40:48 公開日:2022-01-05
# BITES:生存データに対するバランス付き個別治療効果

BITES: Balanced Individual Treatment Effect for Survival data ( http://arxiv.org/abs/2201.03448v1 )

ライセンス: Link先を確認
Stefan Schrod, Andreas Sch\"afer, Stefan Solbrig, Robert Lohmayer, Wolfram Gronwald, Peter J. Oefner, Tim Bei{\ss}barth, Rainer Spang, Helena U. Zacharias, Michael Altenbuchinger(参考訳) 患者予後に対する介入の効果を推定することは、パーソナライズされた医療の重要な側面の一つである。 それらの推測は、訓練データが治療結果のみを含み、代替治療(いわゆる偽善的結果)には含まれないという事実によってしばしば疑問視される。 このシナリオでは、連続変数とバイナリ変数の両方に対して、介入がランダムに適用されないデータなど、観測データに基づいていくつかの方法が提案されている。 しかし、観測期間内にイベントが発生しない場合の右室イベント時間を含む、時間と時間のデータで患者結果が記録されることが多い。 その重要性は大きいが、処理最適化に時間からイベントまでのデータが使われることは滅多にない。 我々は,治療に特有の半パラメトリックなcox損失と,治療バランスの深いディープニューラルネットワークを組み合わせたbites (balanced individual treatment effect for survival data) というアプローチを提案する。 シミュレーション研究では、このアプローチが芸術の状態を上回っていることを示します。 さらに, 乳癌患者のコホートに対して, 6つの日常的パラメータに基づいてホルモン治療を最適化できることを示す。 我々はこの発見を独立したコホートで検証した。 BITESは使いやすいpython実装として提供されている。

Estimating the effects of interventions on patient outcome is one of the key aspects of personalized medicine. Their inference is often challenged by the fact that the training data comprises only the outcome for the administered treatment, and not for alternative treatments (the so-called counterfactual outcomes). Several methods were suggested for this scenario based on observational data, i.e.~data where the intervention was not applied randomly, for both continuous and binary outcome variables. However, patient outcome is often recorded in terms of time-to-event data, comprising right-censored event times if an event does not occur within the observation period. Albeit their enormous importance, time-to-event data is rarely used for treatment optimization. We suggest an approach named BITES (Balanced Individual Treatment Effect for Survival data), which combines a treatment-specific semi-parametric Cox loss with a treatment-balanced deep neural network; i.e.~we regularize differences between treated and non-treated patients using Integral Probability Metrics (IPM). We show in simulation studies that this approach outperforms the state of the art. Further, we demonstrate in an application to a cohort of breast cancer patients that hormone treatment can be optimized based on six routine parameters. We successfully validated this finding in an independent cohort. BITES is provided as an easy-to-use python implementation.
翻訳日:2022-01-16 16:04:15 公開日:2022-01-05
# (参考訳) 電子インテリジェンスシステム [全文訳有]

The E-Intelligence System ( http://arxiv.org/abs/2201.02590v1 )

ライセンス: CC BY 4.0
Vibhor Gautam, Vikalp Shishodia(参考訳) エレクトロニック・インテリジェンス(Electronic Intelligence, ELINT)は、電子センサーによって得られるインテリジェンスである。 個人通信以外では、ELINTインテリジェンスは通常取得される。 目標は通常、レーダー配置のような目標の能力を決定することである。 アクティブまたはパッシブセンサーを使用してデータを収集できる。 提供信号を分析して、認識信号種別収集データと対比する。 情報は、信号タイプが検出されたときに格納され、一致が見つからなかった場合は、新しいものと分類することができる。 ELINTはデータを収集し分類する。 軍事的な状況(ビジネスなど、その使用法を採用した人たち)では、知性は、組織が競争に対して戦略的優位性を与える決定を下すのを手助けします。 インテル」という言葉はしばしば短縮される。 signal intelligence (sigint) の2つの主要なサブフィールドは elint and communications intelligence (comint) である。 アメリカ国防総省は用語を指定し、諜報機関は世界中でレビューされたデータのカテゴリを使用する。

Electronic Intelligence (ELINT), often known as E-Intelligence, is intelligence obtained through electronic sensors. Other than personal communications, ELINT intelligence is usually obtained. The goal is usually to determine a target's capabilities, such as radar placement. Active or passive sensors can be employed to collect data. A provided signal is analyzed and contrasted to collected data for recognized signal types. The information may be stored if the signal type is detected; it can be classed as new if no match is found. ELINT collects and categorizes data. In a military setting (and others that have adopted the usage, such as a business), intelligence helps an organization make decisions that can provide them a strategic advantage over the competition. The term "intel" is frequently shortened. The two main subfields of signals intelligence (SIGINT) are ELINT and Communications Intelligence (COMINT). The US Department of Defense specifies the terminologies, and intelligence communities use the categories of data reviewed worldwide.
翻訳日:2022-01-10 23:15:43 公開日:2022-01-05
# (参考訳) ポリフォニックコントラスト学習による音楽信号の自己監督型ビート追跡

Self-Supervised Beat Tracking in Musical Signals with Polyphonic Contrastive Learning ( http://arxiv.org/abs/2201.01771v1 )

ライセンス: CC BY 4.0
Dorian Desblancs(参考訳) 音楽のビートに注釈をつけるのは、非常に長い退屈なプロセスです。 そこで本研究では,ビート追跡とダウンビート推定のための自己教師付き学習プリテキストタスクを提案する。 このタスクでは、オーディオソース分離モデルであるspleeterを使用して、歌のドラムを他の信号から分離する。 最初の信号セットは、対照的な学習事前学習のために、正および拡張負として使用される。 一方、ドラムレス信号はアンカーとして使用される。 このプリテキストタスクを用いて、完全畳み込みおよび繰り返しモデルを事前学習すると、オンセット関数が学習される。 場合によっては、この機能は歌の周期要素にマッピングされることが判明した。 その結果、ビートトラッキングトレーニングセットが極端に小さい場合(10例未満)、事前学習モデルはランダムに初期化モデルより優れていた。 そうではない場合、事前トレーニングは学習のスピードアップにつながり、モデルがトレーニングセットに過度に適合するようになった。 より一般に、本書は音楽の自己監督学習の領域における新しい視点を定義する。 これは、オーディオソース分離をセルフスーパービジョンの基本コンポーネントとして使う最初の作品の1つである。

Annotating musical beats is a very long in tedious process. In order to combat this problem, we present a new self-supervised learning pretext task for beat tracking and downbeat estimation. This task makes use of Spleeter, an audio source separation model, to separate a song's drums from the rest of its signal. The first set of signals are used as positives, and by extension negatives, for contrastive learning pre-training. The drum-less signals, on the other hand, are used as anchors. When pre-training a fully-convolutional and recurrent model using this pretext task, an onset function is learned. In some cases, this function was found to be mapped to periodic elements in a song. We found that pre-trained models outperformed randomly initialized models when a beat tracking training set was extremely small (less than 10 examples). When that was not the case, pre-training led to a learning speed-up that caused the model to overfit to the training set. More generally, this work defines new perspectives in the realm of musical self-supervised learning. It is notably one of the first works to use audio source separation as a fundamental component of self-supervision.
翻訳日:2022-01-07 23:32:55 公開日:2022-01-05
# (参考訳) KUDO Interpreter Assist: リモート解釈のためのリアルタイム自動サポート [全文訳有]

KUDO Interpreter Assist: Automated Real-time Support for Remote Interpretation ( http://arxiv.org/abs/2201.01800v1 )

ライセンス: CC BY 4.0
Claudio Fantinuoli, Giulia Marchesini, David Landan, Lukas Horak(参考訳) 高品質な人間の解釈には言語的および事実的な準備と、リアルタイムで情報を取得する能力が必要である。 この状況は、時間とイベントが短いリモート同時解釈(RSI)の文脈で特に重要になり、プロの通訳に新たな課題をもたらし、高品質なサービスの提供を約束する。 これらの課題を軽減するために,我々は,RSIシナリオの統合に特化したコンピュータ支援型解釈ツールであるInterpreter Assistを提案する。 Interpreter Assistには、自動用語作成ツールとリアルタイム提案システムという2つの主要な機能セットがある。 本稿では,ツールの全体的な設計,一般的なRSIワークフローへの統合,および用語集作成の質と妥当性の両面でのベンチマークテストの結果,およびリアルタイム提案機能の精度とリコールについて述べる。

High-quality human interpretation requires linguistic and factual preparation as well as the ability to retrieve information in real-time. This situation becomes particularly relevant in the context of remote simultaneous interpreting (RSI) where time-to-event may be short, posing new challenges to professional interpreters and their commitment to delivering high-quality services. In order to mitigate these challenges, we present Interpreter Assist, a computer-assisted interpreting tool specifically designed for the integration in RSI scenarios. Interpreter Assist comprises two main feature sets: an automatic glossary creation tool and a real-time suggestion system. In this paper, we describe the overall design of our tool, its integration into the typical RSI workflow, and the results achieved on benchmark tests both in terms of quality and relevance of glossary creation as well as in precision and recall of the real-time suggestion feature.
翻訳日:2022-01-07 23:31:45 公開日:2022-01-05
# (参考訳) 教師なし領域適応のための深部部分空間アライメントの再検討 [全文訳有]

Revisiting Deep Subspace Alignment for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2201.01806v1 )

ライセンス: CC BY-SA 4.0
Kowshik Thopalli, Jayaraman J Thiagarajan, Rushil Anirudh, and Pavan K Turaga(参考訳) Unsupervised domain adapt (UDA) は、ラベル付きソースドメインからラベル付きターゲットドメインへの知識の転送と適応を目的としている。 伝統的に、部分空間ベースのメソッドはこの問題に対する重要な解のクラスを形成する。 数学的エレガンスとトラクタビリティにもかかわらず、これらの手法は複雑な実世界のデータセットでドメイン不変の特徴を生成できないことがしばしば見出される。 深層ネットワークを用いた表現学習の最近の進歩に触発されて,UDAにおける部分空間アライメントの利用を再考し,一貫した一般化につながる新しい適応アルゴリズムを提案する。 本手法は,既存の逆行訓練に基づくDA手法とは対照的に,特徴学習と分散アライメントのステップを分離し,ドメイン不変性やモデル忠実性の目的を効果的にバランスさせるために一次最適化戦略を利用する。 ターゲットデータと計算要求を大幅に削減する一方で、我々のサブスペースベースのDAは競争力が高く、時にはいくつかの標準UDAベンチマークにおける最先端のアプローチよりも優れています。 さらに、部分空間アライメントは、挑戦的な部分DA設定においても強い一般化を示す固有的によく規則化されたモデルをもたらす。 最後に、UDAフレームワークの設計は、スクラッチからモデルを再トレーニングすることなく、テスト時に新しいターゲットドメインへのプログレッシブ適応を本質的にサポートしています。 要約すると、強力な特徴学習者と効果的な最適化戦略を駆使して、サブスペースベースのDAを視覚認識の高効率なアプローチとして確立する。

Unsupervised domain adaptation (UDA) aims to transfer and adapt knowledge from a labeled source domain to an unlabeled target domain. Traditionally, subspace-based methods form an important class of solutions to this problem. Despite their mathematical elegance and tractability, these methods are often found to be ineffective at producing domain-invariant features with complex, real-world datasets. Motivated by the recent advances in representation learning with deep networks, this paper revisits the use of subspace alignment for UDA and proposes a novel adaptation algorithm that consistently leads to improved generalization. In contrast to existing adversarial training-based DA methods, our approach isolates feature learning and distribution alignment steps, and utilizes a primary-auxiliary optimization strategy to effectively balance the objectives of domain invariance and model fidelity. While providing a significant reduction in target data and computational requirements, our subspace-based DA performs competitively and sometimes even outperforms state-of-the-art approaches on several standard UDA benchmarks. Furthermore, subspace alignment leads to intrinsically well-regularized models that demonstrate strong generalization even in the challenging partial DA setting. Finally, the design of our UDA framework inherently supports progressive adaptation to new target domains at test-time, without requiring retraining of the model from scratch. In summary, powered by powerful feature learners and an effective optimization strategy, we establish subspace-based DA as a highly effective approach for visual recognition.
翻訳日:2022-01-07 23:22:09 公開日:2022-01-05
# (参考訳) hidden agenda: 多様な学習均衡を持つ社会的推論ゲーム [全文訳有]

Hidden Agenda: a Social Deduction Game with Diverse Learned Equilibria ( http://arxiv.org/abs/2201.01816v1 )

ライセンス: CC BY 4.0
Kavya Kopparapu, Edgar A. Du\'e\~nez-Guzm\'an, Jayd Matyas, Alexander Sasha Vezhnevets, John P. Agapiou, Kevin R. McKee, Richard Everett, Janusz Marecki, Joel Z. Leibo, Thore Graepel(参考訳) マルチエージェント協調の研究における重要な課題は、個々のエージェントが効果的に協力するだけでなく、誰と協力するかを決める必要があることである。 これは、他のエージェントが隠され、おそらく不整合のモチベーションと目標を持つ状況において特に重要である。 社会的推論ゲームは、個人が他人に関する潜在的に信頼できない情報を合成し、真の動機を解明する方法を学ぶための手段を提供する。 本研究では,未知のチームアライメントのシナリオにおいて,学習エージェントを研究するための2D環境を提供する2チームソーシャル推論ゲームであるHidden Agendaを紹介する。 環境は両方のチームにとって豊富な戦略の集合を認めます。 Hidden Agendaで訓練された強化学習エージェントは、自然言語でのコミュニケーションを必要とせずに、協力や投票など、さまざまな行動を学ぶことができる。

A key challenge in the study of multiagent cooperation is the need for individual agents not only to cooperate effectively, but to decide with whom to cooperate. This is particularly critical in situations when other agents have hidden, possibly misaligned motivations and goals. Social deduction games offer an avenue to study how individuals might learn to synthesize potentially unreliable information about others, and elucidate their true motivations. In this work, we present Hidden Agenda, a two-team social deduction game that provides a 2D environment for studying learning agents in scenarios of unknown team alignment. The environment admits a rich set of strategies for both teams. Reinforcement learning agents trained in Hidden Agenda show that agents can learn a variety of behaviors, including partnering and voting without need for communication in natural language.
翻訳日:2022-01-07 23:03:01 公開日:2022-01-05
# (参考訳) グラフベース機械学習を用いて高密度乱数グラフに植木したDenseサブグラフを検索する [全文訳有]

Planted Dense Subgraphs in Dense Random Graphs Can Be Recovered using Graph-based Machine Learning ( http://arxiv.org/abs/2201.01825v1 )

ライセンス: CC BY-SA 4.0
Itay Levinas and Yoram Louzoun(参考訳) ランダムな高密度な$G(n, p)$グラフにおいて、植込みされた高密度部分グラフに属する頂点を見つけるための複数の方法が提案され、植込みされた斜めに重点を置いている。 そのような方法は、植込まれた部分グラフを多項式時間で識別できるが、全ていくつかの部分グラフ構造に限定される。 本稿では,グラフニューラルネットワークに基づくアルゴリズムであるPYGONについて述べる。 これは、高度な学習ツールを使って高密度サブグラフを復元する最初のアルゴリズムである。 PYGONは、背景グラフのサイズである$\Theta\left(\sqrt{n}\right)$を復元できることを示す。 また,同じアルゴリズムが,有向グラフと無向グラフの両方において,複数の植込み部分グラフに対して$\theta\left(\sqrt{n}\right)$を回収できることも示す。 我々は、多項式時間PAC学習アルゴリズムが$O\left(\sqrt{n}\right)$より小さい植込み高密度部分グラフを検出できないという予想を、原理上は対数サイズの高密度部分グラフを見つけることができたとしても提案する。

Multiple methods of finding the vertices belonging to a planted dense subgraph in a random dense $G(n, p)$ graph have been proposed, with an emphasis on planted cliques. Such methods can identify the planted subgraph in polynomial time, but are all limited to several subgraph structures. Here, we present PYGON, a graph neural network-based algorithm, which is insensitive to the structure of the planted subgraph. This is the first algorithm that uses advanced learning tools for recovering dense subgraphs. We show that PYGON can recover cliques of sizes $\Theta\left(\sqrt{n}\right)$, where $n$ is the size of the background graph, comparable with the state of the art. We also show that the same algorithm can recover multiple other planted subgraphs of size $\Theta\left(\sqrt{n}\right)$, in both directed and undirected graphs. We suggest a conjecture that no polynomial time PAC-learning algorithm can detect planted dense subgraphs with size smaller than $O\left(\sqrt{n}\right)$, even if in principle one could find dense subgraphs of logarithmic size.
翻訳日:2022-01-07 22:50:08 公開日:2022-01-05
# (参考訳) FLAIR画像における注意型CNNを用いた多発性硬化病変の分離 [全文訳有]

Multiple Sclerosis Lesions Segmentation using Attention-Based CNNs in FLAIR Images ( http://arxiv.org/abs/2201.01832v1 )

ライセンス: CC0 1.0
Mehdi SadeghiBakhi, Hamidreza Pourreza, Hamidreza Mahyar(参考訳) 目的: 多発性硬化症(ms)は自己免疫疾患であり、中枢神経系の病変につながる脱髄性疾患である。 この疾患はMRI(Magnetic Resonance Imaging)を用いて追跡診断できる。 これまでのマルチモダリティ自動バイオメディカルアプローチは、コスト、時間、使用性の観点から患者にとって有益でない病変を分割するために用いられてきた。 本論文の著者らは,MS病変を正確に分類するために,1つのモダリティ(FLAIR画像)のみを用いる手法を提案する。 方法: パッチベースの畳み込みニューラルネットワーク(CNN)は、3D-ResNetと空間チャネルアテンションモジュールにインスパイアされて設計され、MS病変を分断する。 提案手法は,(1)原画像にコントラスト制限適応ヒストグラム等化(clahe)を施し,抽出されたエッジに連結して4d画像を作成する,(2)4d画像から大きさ80×80×80*2のパッチをランダムに選択する,(3)切除されたパッチを注意に基づくcnnに通過させる,の3段階からなる。 最後に,提案手法を同一データセットの先行研究と比較した。 結果: 本研究は, isibチャレンジデータのテストセットを用いて, モデルを評価する。 実験の結果,提案法が従来の方法を大幅に超えていることが明らかとなったが,提案法では病変の分節に1モード性(flair)のみを用いる。 結論: 著者らは、入力として少なくとも2つのモダリティに基づく病変を分割する自動アプローチを導入した。 提案するアーキテクチャは,コンボリューション,デコンボリューション,sca-voxresモジュールをアテンションモジュールとして構成する。 その結果,提案手法は他の手法と比較して優れていた。

Objective: Multiple Sclerosis (MS) is an autoimmune, and demyelinating disease that leads to lesions in the central nervous system. This disease can be tracked and diagnosed using Magnetic Resonance Imaging (MRI). Up to now a multitude of multimodality automatic biomedical approaches is used to segment lesions which are not beneficial for patients in terms of cost, time, and usability. The authors of the present paper propose a method employing just one modality (FLAIR image) to segment MS lesions accurately. Methods: A patch-based Convolutional Neural Network (CNN) is designed, inspired by 3D-ResNet and spatial-channel attention module, to segment MS lesions. The proposed method consists of three stages: (1) the contrast-limited adaptive histogram equalization (CLAHE) is applied to the original images and concatenated to the extracted edges in order to create 4D images; (2) the patches of size 80 * 80 * 80 * 2 are randomly selected from the 4D images; and (3) the extracted patches are passed into an attention-based CNN which is used to segment the lesions. Finally, the proposed method was compared to previous studies of the same dataset. Results: The current study evaluates the model, with a test set of ISIB challenge data. Experimental results illustrate that the proposed approach significantly surpasses existing methods in terms of Dice similarity and Absolute Volume Difference while the proposed method use just one modality (FLAIR) to segment the lesions. Conclusions: The authors have introduced an automated approach to segment the lesions which is based on, at most, two modalities as an input. The proposed architecture is composed of convolution, deconvolution, and an SCA-VoxRes module as an attention module. The results show, the proposed method outperforms well compare to other methods.
翻訳日:2022-01-07 22:26:50 公開日:2022-01-05
# (参考訳) フレームシフト予測 [全文訳有]

Frame Shift Prediction ( http://arxiv.org/abs/2201.01837v1 )

ライセンス: CC BY 4.0
Zheng-Xin Yong, Patrick D. Watson, Tiago Timponi Torrent, Oliver Czulo, Collin F. Baker(参考訳) フレームシフト(英: frame shift)は、翻訳における言語横断現象であり、異なるフレームを誘発する言語資料の対に対応する。 フレームシフトを予測する機能により、アノテーションプロジェクションによる多言語FrameNetの自動生成が可能になる。 本稿では,フレームシフト予測タスクを提案し,グラフアテンションネットワークと補助訓練を組み合わせることで,相互言語的フレーム間対応を学習し,フレームシフトを予測できることを示す。

Frame shift is a cross-linguistic phenomenon in translation which results in corresponding pairs of linguistic material evoking different frames. The ability to predict frame shifts enables automatic creation of multilingual FrameNets through annotation projection. Here, we propose the Frame Shift Prediction task and demonstrate that graph attention networks, combined with auxiliary training, can learn cross-linguistic frame-to-frame correspondence and predict frame shifts.
翻訳日:2022-01-07 22:05:27 公開日:2022-01-05
# (参考訳) 胸部X線画像を用いた腰椎骨密度推定:解剖学的注意多量ROIモデリング [全文訳有]

Lumbar Bone Mineral Density Estimation from Chest X-ray Images: Anatomy-aware Attentive Multi-ROI Modeling ( http://arxiv.org/abs/2201.01838v1 )

ライセンス: CC BY 4.0
Fakai Wang, Kang Zheng, Le Lu, Jing Xiao, Min Wu, Chang-Fu Kuo and Shun Miao(参考訳) 骨粗しょう症(英: osteoporosis)は、骨密度(英語版)(BMD)検査へのアクセスが制限されているため、しばしば診断され治療されていない慢性骨疾患である。 本稿では,Chest X-ray(CXR)からBMDを予測する手法を提案する。 本手法はまず,CXRから局所的および大域的骨構造の関心領域(ROI)を自動的に検出する。 次に, 変圧器エンコーダを用いたマルチROIディープモデルを開発し, 胸部X線画像の局所的情報と大域的情報の両方を利用して正確なBMD推定を行う。 本法はCXR患者13719例を対象に,金標準DXAによるBMDスコアを測定した。 予測モデルでは,BMDは基底真理と強い相関関係を持つ(Pearson correlation coefficient 0.889 on lumbar 1)。 オステオポローシススクリーニングに応用すると、高い分類性能(腰椎1のauc 0.963)が得られる。 CXRスキャンを用いてBMDを予測する最初の試みとして,提案アルゴリズムは早期骨粗しょう症スクリーニングや公衆衛生の促進に強い可能性を秘めている。

Osteoporosis is a common chronic metabolic bone disease that is often under-diagnosed and under-treated due to the limited access to bone mineral density (BMD) examinations, e.g. via Dual-energy X-ray Absorptiometry (DXA). In this paper, we propose a method to predict BMD from Chest X-ray (CXR), one of the most commonly accessible and low-cost medical imaging examinations. Our method first automatically detects Regions of Interest (ROIs) of local and global bone structures from the CXR. Then a multi-ROI deep model with transformer encoder is developed to exploit both local and global information in the chest X-ray image for accurate BMD estimation. Our method is evaluated on 13719 CXR patient cases with their ground truth BMD scores measured by gold-standard DXA. The model predicted BMD has a strong correlation with the ground truth (Pearson correlation coefficient 0.889 on lumbar 1). When applied for osteoporosis screening, it achieves a high classification performance (AUC 0.963 on lumbar 1). As the first effort in the field using CXR scans to predict the BMD, the proposed algorithm holds strong potential in early osteoporosis screening and public health promotion.
翻訳日:2022-01-07 21:51:11 公開日:2022-01-05
# (参考訳) クロス言語的低リソース形態素セグメンテーションにおけるデータ駆動モデル一般化可能性 [全文訳有]

Data-driven Model Generalizability in Crosslinguistic Low-resource Morphological Segmentation ( http://arxiv.org/abs/2201.01845v1 )

ライセンス: CC BY 4.0
Zoey Liu, Emily Prud'hommeaux(参考訳) モデル評価の一般的な設計は、通常、モノリンガルの設定に焦点を合わせ、それぞれのモデルのパフォーマンスに応じて、目の前のタスクに可能なすべてのデータを表すと仮定された単一のデータセットで異なるモデルを比較する。 これは大規模なデータセットにとって合理的かもしれないが、データ収集のアーティファクトが異常値であるデータセットを生成できる低リソースのシナリオでは、この仮定を維持するのは難しい。 これらの問題に対処するため,クロス言語的低リソースシナリオにおけるモデル一般化可能性について検討する。 実験ケースとして形態素セグメンテーションを用い、6つの言語ファミリーの11言語からデータを抽出し、パラメータ化の異なる3種類のモデルを比較した。 各実験環境では,1次データセット上の全てのモデルを評価し,同じサイズでランダムにサンプリングされた新しいデータセットを導入する場合と,異なるサイズのテストセットにトレーニングされたモデルを適用する場合のパフォーマンスの整合性を検討する。 その結果、モデル一般化の程度はデータセットの特性に依存することが示され、必ずしもデータセットのサイズに大きく依存するとは限らない。 研究した特徴のうち, 形態素の重なりと, 単語毎のモルヒム数の平均数は, トレーニングセットとテストセットの2つが最も顕著な要因である。 本研究は, モデル評価についてより責任ある主張を行うために, 異なる大きさのデータセットを構築するために, ランダムサンプリングを採用することを示唆している。

Common designs of model evaluation typically focus on monolingual settings, where different models are compared according to their performance on a single data set that is assumed to be representative of all possible data for the task at hand. While this may be reasonable for a large data set, this assumption is difficult to maintain in low-resource scenarios, where artifacts of the data collection can yield data sets that are outliers, potentially making conclusions about model performance coincidental. To address these concerns, we investigate model generalizability in crosslinguistic low-resource scenarios. Using morphological segmentation as the test case, we compare three broad classes of models with different parameterizations, taking data from 11 languages across 6 language families. In each experimental setting, we evaluate all models on a first data set, then examine their performance consistency when introducing new randomly sampled data sets with the same size and when applying the trained models to unseen test sets of varying sizes. The results demonstrate that the extent of model generalization depends on the characteristics of the data set, and does not necessarily rely heavily on the data set size. Among the characteristics that we studied, the ratio of morpheme overlap and that of the average number of morphemes per word between the training and test sets are the two most prominent factors. Our findings suggest that future work should adopt random sampling to construct data sets with different sizes in order to make more responsible claims about model evaluation.
翻訳日:2022-01-07 21:26:22 公開日:2022-01-05
# (参考訳) CFU Playground:FPGA上でのTiny Machine Learning(tinyML)アクセラレーションのためのフルスタックオープンソースフレームワーク [全文訳有]

CFU Playground: Full-Stack Open-Source Framework for Tiny Machine Learning (tinyML) Acceleration on FPGAs ( http://arxiv.org/abs/2201.01863v1 )

ライセンス: CC BY 4.0
Shvetank Prakash, Tim Callahan, Joseph Bushagour, Colby Banbury, Alan V. Green, Pete Warden, Tim Ansell, Vijay Janapa Reddi(参考訳) 組み込みMLシステムのための機械学習アクセラレータ(ML)の迅速かつ反復的な設計を可能にする,フルスタックのオープンソースフレームワークであるCFU Playgroundを提案する。 我々のツールチェーンは、オープンソースソフトウェア、RTLジェネレータ、FPGAツールを緊密に統合し、合成、場所、ルートを調整します。 このフルスタック開発フレームワークは、組み込みML用にカスタマイズされ、共同最適化された、ベスポークアーキテクチャをエンジニアが探索することを可能にする。 迅速なデプロイの最適化フィードバックループにより、MLハードウェアとソフトウェア開発者は、カスタマイズに対する比較的小さな投資から大きなリターンを得られる。 CFU Playgroundの設計ループを用いて、CPUとアクセラレーションの間の大幅なスピードアップ(55x-75x)と設計空間探索を示す。

We present CFU Playground, a full-stack open-source framework that enables rapid and iterative design of machine learning (ML) accelerators for embedded ML systems. Our toolchain tightly integrates open-source software, RTL generators, and FPGA tools for synthesis, place, and route. This full-stack development framework gives engineers access to explore bespoke architectures that are customized and co-optimized for embedded ML. The rapid, deploy-profile-optim ization feedback loop lets ML hardware and software developers achieve significant returns out of a relatively small investment in customization. Using CFU Playground's design loop, we show substantial speedups (55x-75x) and design space exploration between the CPU and accelerator.
翻訳日:2022-01-07 21:03:49 公開日:2022-01-05
# プライバシフレンドリーなピアツーピアエネルギー取引:ゲーム理論的アプローチ

Privacy-Friendly Peer-to-Peer Energy Trading: A Game Theoretical Approach ( http://arxiv.org/abs/2201.01810v1 )

ライセンス: Link先を確認
Kamil Erdayandi, Amrit Paudel, Lucas Cordeiro, Mustafa A. Mustafa(参考訳) 本稿では,ゲーム理論的なアプローチ,特にstackelbergコンペティションに基づいて,集中型,プライバシフレンドリーなエネルギー取引プラットフォーム(pfet)を提案する。 既存の取引方式とは異なり、PFETは競争に基づいて価格と需要が決定される競争市場を提供し、計算は信頼できる第三者に依存しない分散的な方法で行われる。 同型暗号化暗号システムを使用して、買い手や売り手の機密情報を暗号化し、売り手$'$価格と買い手$'$需要を暗号化する。 買い手は、暗号化されたデータを用いて特定の売り手に対する総需要を算出し、敏感な買い手プロファイルデータを売り手から隠蔽する。 したがって、売り手と買い手の双方のプライバシーは保持される。 プライバシ分析と性能評価により,PFETはユーザのプライバシーを効率的に保存することを示す。

In this paper, we propose a decentralized, privacy-friendly energy trading platform (PFET) based on game theoretical approach - specifically Stackelberg competition. Unlike existing trading schemes, PFET provides a competitive market in which prices and demands are determined based on competition, and computations are performed in a decentralized manner which does not rely on trusted third parties. It uses homomorphic encryption cryptosystem to encrypt sensitive information of buyers and sellers such as sellers$'$ prices and buyers$'$ demands. Buyers calculate total demand on particular seller using an encrypted data and sensitive buyer profile data is hidden from sellers. Hence, privacy of both sellers and buyers is preserved. Through privacy analysis and performance evaluation, we show that PFET preserves users$'$ privacy in an efficient manner.
翻訳日:2022-01-07 15:47:24 公開日:2022-01-05
# 協調フィルタリングのための生成型adversarial networkの評価研究

An Evaluation Study of Generative Adversarial Networks for Collaborative Filtering ( http://arxiv.org/abs/2201.01815v1 )

ライセンス: Link先を確認
Fernando Benjam\'in P\'erez Maurera, Maurizio Ferrari Dacrema, Paolo Cremonesi(参考訳) 本研究はCFGANの再現性について考察する。 CFGANとそのモデル群(TagRec、MTPR、CRGAN)は、以前のインタラクションを使用してトップNレコメンデーションに対する好みのパーソナライズされた、偽の、現実的なランキングを生成する。 本研究は、原論文で発表された結果の再現に成功し、CFGANフレームワークと原評価で使用されるモデルとの相違が与える影響について論じる。 ランダムノイズの欠如と条件ベクトルとしての実際のユーザプロファイルの使用は、出力ベクトルが入力ベクトルと同一である縮退解を学習する傾向があるため、基本的には単純なオートエンコーダとして振る舞う。 この研究は、CFGANと単純でよく知られた適切に最適化されたベースラインの選択を比較した実験分析をさらに拡張し、CFGANは高い計算コストにもかかわらず、それらに対して一貫して競合しないことを示した。 これらの分析の再現性を確保するため、実験手法を記述し、すべてのデータセットとソースコードを公開する。

This work explores the reproducibility of CFGAN. CFGAN and its family of models (TagRec, MTPR, and CRGAN) learn to generate personalized and fake-but-realistic rankings of preferences for top-N recommendations by using previous interactions. This work successfully replicates the results published in the original paper and discusses the impact of certain differences between the CFGAN framework and the model used in the original evaluation. The absence of random noise and the use of real user profiles as condition vectors leaves the generator prone to learn a degenerate solution in which the output vector is identical to the input vector, therefore, behaving essentially as a simple autoencoder. The work further expands the experimental analysis comparing CFGAN against a selection of simple and well-known properly optimized baselines, observing that CFGAN is not consistently competitive against them despite its high computational cost. To ensure the reproducibility of these analyses, this work describes the experimental methodology and publishes all datasets and source code.
翻訳日:2022-01-07 15:46:19 公開日:2022-01-05
# 二元分類のためのハイブリッド量子古典型ニューラルネットワークアーキテクチャ

A Hybrid Quantum-Classical Neural Network Architecture for Binary Classification ( http://arxiv.org/abs/2201.01820v1 )

ライセンス: Link先を確認
Davis Arthur and Prasanna Date(参考訳) ディープラーニングは、現在機械学習で使われている最も成功し、広範囲にわたる戦略の1つです。 しかし、ニューラルネットワークのスケールと有用性は、トレーニングに使用される現在のハードウェアによって依然として大幅に制限されている。 これらの懸念は、従来のコンピュータが今後数年でパフォーマンス改善を遅らせる物理的制限に素早くアプローチするにつれ、ますます強まりつつある。 これらの理由から、科学者たちはニューラルネットワークをトレーニングするための量子コンピュータのような代替コンピューティングプラットフォームを探求し始めた。 近年、変分量子回路はノイズの多い中間量子デバイス上での量子深層学習において最も成功したアプローチの1つである。 本稿では,各ニューロンが変動量子回路であるハイブリッド量子古典ニューラルネットワークアーキテクチャを提案する。 本研究では,このハイブリッドニューラルネットワークの性能を,シミュレートされたユニバーサル量子コンピュータとartユニバーサル量子コンピュータを用いて,一連のバイナリ分類データセット上で実験的に解析する。 シミュレーションハードウェアでは、ハイブリッドニューラルネットワークは、個々の変動量子回路よりも約10%高い分類精度とコストの20%の最小化を実現している。 量子ハードウェアでは、量子ビットとゲート数が十分に小さい場合にのみ、各モデルがうまく機能することを観測する。

Deep learning is one of the most successful and far-reaching strategies used in machine learning today. However, the scale and utility of neural networks is still greatly limited by the current hardware used to train them. These concerns have become increasingly pressing as conventional computers quickly approach physical limitations that will slow performance improvements in years to come. For these reasons, scientists have begun to explore alternative computing platforms, like quantum computers, for training neural networks. In recent years, variational quantum circuits have emerged as one of the most successful approaches to quantum deep learning on noisy intermediate scale quantum devices. We propose a hybrid quantum-classical neural network architecture where each neuron is a variational quantum circuit. We empirically analyze the performance of this hybrid neural network on a series of binary classification data sets using a simulated universal quantum computer and a state of the art universal quantum computer. On simulated hardware, we observe that the hybrid neural network achieves roughly 10% higher classification accuracy and 20% better minimization of cost than an individual variational quantum circuit. On quantum hardware, we observe that each model only performs well when the qubit and gate count is sufficiently small.
翻訳日:2022-01-07 15:46:00 公開日:2022-01-05
# マスキングマルチモーダルクラスタ予測による視聴覚表現の学習

Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction ( http://arxiv.org/abs/2201.02184v1 )

ライセンス: Link先を確認
Bowen Shi and Wei-Ning Hsu and Kushal Lakhotia and Abdelrahman Mohamed(参考訳) 音声の映像記録は、音声と視覚の相関情報を含み、話者の唇運動と生成された音からの音声表現学習のための強い信号を提供する。 本稿では,マルチストリーム映像入力を隠蔽し,自動検出および繰り返し修正されたマルチモーダル隠れユニットを予測する,音声視覚音声の自己教師型表現学習フレームワークであるAudio-Visual Hidden Unit BERT (AV-HuBERT)を紹介する。 AV-HuBERTは、唇読解と自動音声認識の両方に有効な強力な音声・視覚音声表現を学習する。 LRS3 (433時間)では、AV-HuBERTは30時間のラベル付きデータで32.5%のWERを達成し、1000倍の転写されたビデオデータ(31K時間)でトレーニングされた以前の最先端のアプローチ(33.6%)を上回った。 lrs3から463時間のラベル付きデータをすべて使用し、自己学習と組み合わせると、さらに26.9%に短縮される。 音声のみの音声認識で同じベンチマークでの音声視覚表現を使用することで、最先端の性能(1.3%対2.3%)に対して40%の相対的なWER削減が達成される。 私たちのコードとモデルはhttps://github.com/f acebookresearch/av_h ubertで利用可能です。

Video recordings of speech contain correlated audio and visual information, providing a strong signal for speech representation learning from the speaker's lip movements and the produced sound. We introduce Audio-Visual Hidden Unit BERT (AV-HuBERT), a self-supervised representation learning framework for audio-visual speech, which masks multi-stream video input and predicts automatically discovered and iteratively refined multimodal hidden units. AV-HuBERT learns powerful audio-visual speech representation benefiting both lip-reading and automatic speech recognition. On the largest public lip-reading benchmark LRS3 (433 hours), AV-HuBERT achieves 32.5% WER with only 30 hours of labeled data, outperforming the former state-of-the-art approach (33.6%) trained with a thousand times more transcribed video data (31K hours). The lip-reading WER is further reduced to 26.9% when using all 433 hours of labeled data from LRS3 and combined with self-training. Using our audio-visual representation on the same benchmark for audio-only speech recognition leads to a 40% relative WER reduction over the state-of-the-art performance (1.3% vs 2.3%). Our code and models are available at https://github.com/f acebookresearch/av_h ubert
翻訳日:2022-01-07 15:43:37 公開日:2022-01-05
# 機械学習による時空の分類

Machine-Learning the Classification of Spacetimes ( http://arxiv.org/abs/2201.01644v1 )

ライセンス: Link先を確認
Yang-Hui He, Juan Manuel P\'erez Ipi\~na(参考訳) 一般相対性理論における長い間確立されてきた分類問題について,機械学習や現代データサイエンスによる実りある手法を採用することにより,新しい視点を採る。 特に、ペトロフの時空分類をモデル化し、フィードフォワードニューラルネットワークが高い成功率を達成可能であることを示す。 また,次元化によるデータ可視化手法は,様々な時空の構造の基盤となるパターンを分析するのにどのように役立つかを示す。

On the long-established classification problems in general relativity we take a novel perspective by adopting fruitful techniques from machine learning and modern data-science. In particular, we model Petrov's classification of spacetimes, and show that a feed-forward neural network can achieve high degree of success. We also show how data visualization techniques with dimensionality reduction can help analyze the underlying patterns in the structure of the different types of spacetimes.
翻訳日:2022-01-07 15:43:13 公開日:2022-01-05
# インバージョンのためのニューラルアーキテクチャ探索

Neural Architecture Search for Inversion ( http://arxiv.org/abs/2201.01772v1 )

ライセンス: Link先を確認
Cheng Zhan, Licheng Zhang, Xin Zhao, Chang-Chun Lee, Shujiao Huang(参考訳) 長年にわたり、ディープラーニングを使って反転問題に取り組んできた。このフレームワークは、記録ウェーブフィールドとvelocity(yang et al., 2016)の関係を構築するために適用されてきた。 ここでは、画像構造を特徴付けるのにピクセル2ピクセル比較が最適ではないため、より適切な損失関数を導出する2つの視点から作業を拡張するとともに、高次特徴をキャプチャしてモデル性能を高めるためにコスト関数を構築する方法について詳しく述べる。 もう1つの次元は、さらに大きな画像のサブセットであるより適切なニューラルネットワーク(automatic machine learning、automl)の探索である。 U-net、ResNet (He et al., 2016)、DenseNet (Huang et al., 2017) といった有名なネットワークがあり、特定の問題に対して驚くべき結果をもたらすが、特定の空間内で徹底的に検索することなく、倒立問題に最適であると主張するのは難しい。 ここでは、inversionのアーキテクチャ検索結果を示します。

Over the year, people have been using deep learning to tackle inversion problems, and we see the framework has been applied to build relationship between recording wavefield and velocity (Yang et al., 2016). Here we will extend the work from 2 perspectives, one is deriving a more appropriate loss function, as we now, pixel-2-pixel comparison might not be the best choice to characterize image structure, and we will elaborate on how to construct cost function to capture high level feature to enhance the model performance. Another dimension is searching for the more appropriate neural architecture, which is a subset of an even bigger picture, the automatic machine learning, or AutoML. There are several famous networks, U-net, ResNet (He et al., 2016) and DenseNet (Huang et al., 2017), and they achieve phenomenal results for certain problems, yet it's hard to argue they are the best for inversion problems without thoroughly searching within certain space. Here we will be showing our architecture search results for inversion.
翻訳日:2022-01-07 15:16:42 公開日:2022-01-05
# リードラググラフの深層融合:暗号通貨への応用

Deep Fusion of Lead-lag Graphs:Application to Cryptocurrencies ( http://arxiv.org/abs/2201.02040v1 )

ライセンス: Link先を確認
Hugo Schnoering and Hugo Inzirillo(参考訳) 時系列の研究は、特に多変量分析の分野で多くの研究者を動機付けてきた。 ランダム変数間のコムーブメントと依存性の研究は、資産間の既存の接続を記述するためのメトリクスの開発につながる。 最もよく使われるのは相関と因果関係である。 文学の発達にもかかわらず、いくつかのつながりはいまだに発見されていない。 本研究の目的は,同期性と非同期性を組み合わせた表現学習アルゴリズムを提案することである。

The study of time series has motivated many researchers, particularly on the area of multivariate-analysi s. The study of co-movements and dependency between random variables leads us to develop metrics to describe existing connection between assets. The most commonly used are correlation and causality. Despite the growing literature, some connections remained still undetected. The objective of this paper is to propose a new representation learning algorithm capable to integrate synchronous and asynchronous relationships.
翻訳日:2022-01-07 15:15:16 公開日:2022-01-05
# パネルデータに対するグループ構造推定 --一般アプローチ-

Group structure estimation for panel data -- a general approach ( http://arxiv.org/abs/2201.01793v1 )

ライセンス: Link先を確認
Lu Yu, Jiaying Gu, Stanislav Volgushev(参考訳) 個人に対する繰り返し観察が可能なパネルデータセットを考えてみましょう。 観察された特徴の類似した効果を共有できる個体群が存在すると仮定するのは理にかなっているが、そのグループ化は概して事前に不明である。 一般的なパネルデータモデルに対する観測不能なグループ化を推定するための新しい手法を提案する。 本手法は,個々のパラメータ推定の不確かさを明示的に説明し,多数の個人に対して計算可能であり,かつ,各個人に対して繰り返し測定を行う。 開発したアイデアは、個々のレベルデータが利用できない場合でも適用でき、パラメータ推定と不確実性の定量化が研究者に与えられる。

Consider a panel data setting where repeated observations on individuals are available. Often it is reasonable to assume that there exist groups of individuals that share similar effects of observed characteristics, but the grouping is typically unknown in advance. We propose a novel approach to estimate such unobserved groupings for general panel data models. Our method explicitly accounts for the uncertainty in individual parameter estimates and remains computationally feasible with a large number of individuals and/or repeated measurements on each individual. The developed ideas can be applied even when individual-level data are not available and only parameter estimates together with some quantification of uncertainty are given to the researcher.
翻訳日:2022-01-07 15:13:10 公開日:2022-01-05
# ゼロショット学習のための意味的曖昧さの学習

Learning Semantic Ambiguities for Zero-Shot Learning ( http://arxiv.org/abs/2201.01823v1 )

ライセンス: Link先を確認
Celina Hanouti and Herv\'e Le Borgne(参考訳) Zero-shot Learning (ZSL)は、トレーニング時に視覚的なサンプルが利用できないクラスを認識することを目的としている。 この問題に対処するために、各クラスのセマンティック記述に頼ることができる。 典型的なZSLモデルは、テスト時に見えないクラスで同じことをするために、見たクラスのビジュアルサンプルと対応するセマンティック記述の間のマッピングを学習する。 最先端技術アプローチは、クラスのプロトタイプから視覚的特徴を合成する生成モデルに依存しており、分類器を教師付きで学習することができる。 しかしながら、これらのアプローチは通常、視覚的なインスタンスが与えられたクラスのプロトタイプにマッチできる唯一のクラスであるようなクラスに偏っている。 本稿では,任意の条件生成型ZSL法に適用可能な正規化手法を提案する。 それは、訓練時に使用できない可能性のある意味的記述のために、識別的特徴を合成することを学ぶ。 このアプローチは、インダクティブとトランスダクティブのいずれにおいても、文献で一般的に使用される4つのデータセット上でzslとgzslで評価され、その結果は、アートアプローチのほぼあるいはその上で行われる。

Zero-shot learning (ZSL) aims at recognizing classes for which no visual sample is available at training time. To address this issue, one can rely on a semantic description of each class. A typical ZSL model learns a mapping between the visual samples of seen classes and the corresponding semantic descriptions, in order to do the same on unseen classes at test time. State of the art approaches rely on generative models that synthesize visual features from the prototype of a class, such that a classifier can then be learned in a supervised manner. However, these approaches are usually biased towards seen classes whose visual instances are the only one that can be matched to a given class prototype. We propose a regularization method that can be applied to any conditional generative-based ZSL method, by leveraging only the semantic class prototypes. It learns to synthesize discriminative features for possible semantic description that are not available at training time, that is the unseen ones. The approach is evaluated for ZSL and GZSL on four datasets commonly used in the literature, either in inductive and transductive settings, with results on-par or above state of the art approaches.
翻訳日:2022-01-07 15:12:06 公開日:2022-01-05
# Eye Know You Too: 眼球運動によるエンドツーエンドの生体認証のためのDenseNetアーキテクチャ

Eye Know You Too: A DenseNet Architecture for End-to-end Biometric Authentication via Eye Movements ( http://arxiv.org/abs/2201.02110v1 )

ライセンス: Link先を確認
Dillon Lohr, Oleg V Komogortsev(参考訳) plain convolutional neural networks (cnns) は、眼球運動による生体認証を含む、過去数年間に様々な領域で最先端のパフォーマンスを達成するために用いられてきた。 残余ネットワーク(ResNets)や密結合畳み込みネットワーク(DenseNets)など、比較的最近の一般的なCNNの改善が数多く行われている。 これらのネットワークは主に画像処理領域をターゲットにしているが、時系列データを扱うように容易に修正できる。 我々は、眼球運動によるエンドツーエンドの生体認証にDenseNetアーキテクチャを使用している。 私たちのモデルは、現在の最先端を含む最も関連する先行作品と比較します。 本モデルでは,学習条件やデータセットのすべてについて,最先端のパフォーマンスを実現する。

Plain convolutional neural networks (CNNs) have been used to achieve state-of-the-art performance in various domains in the past years, including biometric authentication via eye movements. There have been many relatively recent improvements to plain CNNs, including residual networks (ResNets) and densely connected convolutional networks (DenseNets). Although these networks primarily target image processing domains, they can be easily modified to work with time series data. We employ a DenseNet architecture for end-to-end biometric authentication via eye movements. We compare our model against the most relevant prior works including the current state-of-the-art. We find that our model achieves state-of-the-art performance for all considered training conditions and data sets.
翻訳日:2022-01-07 15:11:12 公開日:2022-01-05
# 高精度物体検出のためのマルチグリッド冗長境界ボックスアノテーション

Multi-Grid Redundant Bounding Box Annotation for Accurate Object Detection ( http://arxiv.org/abs/2201.01857v1 )

ライセンス: Link先を確認
Solomon Negussie Tesema, El-Bay Bourennane(参考訳) 現代のリードオブジェクト検出器は、ディープCNNベースのバックボーン分類器ネットワークから再利用可能な2段階または1段階のネットワークである。 YOLOv3は、入力画像を取り込んで同じ大きさのグリッドマトリックスに分割する、非常によく知られた最先端のワンショット検出器である。 オブジェクトの中心を持つグリッドセルは、特定のオブジェクトを検出する責任がある。 本稿では,オブジェクト毎に複数のグリッドを割り当て,厳密な境界ボックス予測を行う数学的手法を提案する。 また,オブジェクト検出のための効果的なオフラインコピーペーストデータ拡張を提案する。 提案手法は, 現状の物体検出器よりも大幅に優れており, さらなる性能向上が期待できる。

Modern leading object detectors are either two-stage or one-stage networks repurposed from a deep CNN-based backbone classifier network. YOLOv3 is one such very-well known state-of-the-art one-shot detector that takes in an input image and divides it into an equal-sized grid matrix. The grid cell having the center of an object is the one responsible for detecting the particular object. This paper presents a new mathematical approach that assigns multiple grids per object for accurately tight-fit bounding box prediction. We also propose an effective offline copy-paste data augmentation for object detection. Our proposed method significantly outperforms some current state-of-the-art object detectors with a prospect for further better performance.
翻訳日:2022-01-07 14:53:11 公開日:2022-01-05
# 既往の点雲の現実的対称性に基づく完備化に向けて

Towards realistic symmetry-based completion of previously unseen point clouds ( http://arxiv.org/abs/2201.01858v1 )

ライセンス: Link先を確認
Taras Rumezhak, Oles Dobosevych, Rostyslav Hryniv, Vladyslav Selotkin, Volodymyr Karpiv, Mykola Maksymenko(参考訳) 3dスキャンは複雑な多段階のプロセスであり、通常、咬合、反射、影、スキャナの動き、物体表面の特定の特性、不完全な再構成アルゴリズムなどによる損傷部分を含む物体の点雲を生成する。 ポイントクラウドの補完は、オブジェクトの欠落部分を埋め、高品質な3D表現を得るように設計されている。 既存の補完アプローチは、事前に定義されたオブジェクトクラスと非常に特定のタイプの欠陥を持つ学術データセットでうまく機能するが、それらのパフォーマンスは現実世界の設定において著しく低下し、これまで見つからなかったオブジェクトクラスではさらに低下する。 本稿では,人工環境においてユビキタスな対称オブジェクトに対して,うまく機能する新しいフレームワークを提案する。 学習ベースのアプローチとは異なり、提案されたフレームワークはトレーニングデータを必要としないため、kinect、飛行時間、構造化光スキャナなどを使用して、顧客の3dスキャンプロセスで発生する重要でない損傷を完了することができる。 詳細な実験により,提案するフレームワークが実世界の顧客スキャンのポイントクラウド完了において最先端の効率を達成することを示す。 既存の学術データセットを適切に拡張し、様々なオブジェクトの実際の3Dスキャンを行うことで、フレームワークのパフォーマンスをベンチマークする。

3D scanning is a complex multistage process that generates a point cloud of an object typically containing damaged parts due to occlusions, reflections, shadows, scanner motion, specific properties of the object surface, imperfect reconstruction algorithms, etc. Point cloud completion is specifically designed to fill in the missing parts of the object and obtain its high-quality 3D representation. The existing completion approaches perform well on the academic datasets with a predefined set of object classes and very specific types of defects; however, their performance drops significantly in the real-world settings and degrades even further on previously unseen object classes. We propose a novel framework that performs well on symmetric objects, which are ubiquitous in man-made environments. Unlike learning-based approaches, the proposed framework does not require training data and is capable of completing non-critical damages occurring in customer 3D scanning process using e.g. Kinect, time-of-flight, or structured light scanners. With thorough experiments, we demonstrate that the proposed framework achieves state-of-the-art efficiency in point cloud completion of real-world customer scans. We benchmark the framework performance on two types of datasets: properly augmented existing academic dataset and the actual 3D scans of various objects.
翻訳日:2022-01-07 14:53:01 公開日:2022-01-05
# NumHTML:マルチタスク財務予測のための数値指向階層型トランスフォーマモデル

NumHTML: Numeric-Oriented Hierarchical Transformer Model for Multi-task Financial Forecasting ( http://arxiv.org/abs/2201.01770v1 )

ライセンス: Link先を確認
Linyi Yang, Jiazheng Li, Ruihai Dong, Yue Zhang, Barry Smyth(参考訳) 金融予測は機械学習研究の重要かつ活発な分野であり、その課題と、予測の正確性や予測の微妙な改善が伴う潜在的な報酬がある。 伝統的に、金融予測は構造化された財務諸表に由来する定量的指標と指標に大きく依存してきた。 テキストや音声を含む決算会議通話データは、非構造化データの重要な情報源であり、深層採得と関連するアプローチを用いて様々な予測タスクに使用されている。 しかし、現在のディープラーニングベースの方法は数値データを扱う方法で制限されており、数値は基礎となる数値構造を生かさずに平文トークンとして扱われる。 本稿では,株価収益予測のための数値指向階層的トランスフォーマーモデルと,複数のモーダルアライン決算電話データを用いた金融リスクについて,数値の異なるカテゴリ(収益,時間的,割合など)とその大きさを生かして述べる。 実世界の公開データセットを用いて,いくつかの最先端ベースラインに対するNumHTMLの総合評価結果を示す。 以上の結果から,NumHTMLはさまざまな評価指標において,現在の最先端を著しく上回り,実践的な取引状況において大きな経済的利益をもたらす可能性が示唆された。

Financial forecasting has been an important and active area of machine learning research because of the challenges it presents and the potential rewards that even minor improvements in prediction accuracy or forecasting may entail. Traditionally, financial forecasting has heavily relied on quantitative indicators and metrics derived from structured financial statements. Earnings conference call data, including text and audio, is an important source of unstructured data that has been used for various prediction tasks using deep earning and related approaches. However, current deep learning-based methods are limited in the way that they deal with numeric data; numbers are typically treated as plain-text tokens without taking advantage of their underlying numeric structure. This paper describes a numeric-oriented hierarchical transformer model to predict stock returns, and financial risk using multi-modal aligned earnings calls data by taking advantage of the different categories of numbers (monetary, temporal, percentages etc.) and their magnitude. We present the results of a comprehensive evaluation of NumHTML against several state-of-the-art baselines using a real-world publicly available dataset. The results indicate that NumHTML significantly outperforms the current state-of-the-art across a variety of evaluation metrics and that it has the potential to offer significant financial gains in a practical trading context.
翻訳日:2022-01-07 14:41:26 公開日:2022-01-05
# 量子カプセルネットワーク

Quantum Capsule Networks ( http://arxiv.org/abs/2201.01778v1 )

ライセンス: Link先を確認
Zidu Liu, Pei-Xin Shen, Weikang Li, L.-M. Duan, Dong-Ling Deng(参考訳) 接続主義と象徴主義のパラダイムを取り入れたカプセルネットワークは、人工知能に新たな洞察をもたらした。 カプセルはカプセルネットワークの構成要素として、物体の異なる特徴をエンコードするベクターによって表されるニューロンのグループである。 情報はルーティングアルゴリズムによってカプセル層を通して階層的に抽出される。 本稿では,量子カプセルネットワーク(qcapsnet)と量子動的ルーティングアルゴリズムについて紹介する。 我々のモデルは動的ルーティングプロセスにおいて指数的なスピードアップを享受し、表現力の増強を示す。 qcapsnetの性能をベンチマークするために,手書き桁と対称性保護位相位相の分類に関する広範な数値シミュレーションを行い,qcapsnetが最先端の精度を達成し,従来の量子分類器を明らかに上回っていることを示す。 さらに出力カプセル状態を解き、そのサブスペースが入力データの人間の理解可能な特徴に対応し、そのようなネットワークの潜在的な説明可能性を示す。 我々の研究は、量子機械学習における量子カプセルネットワークの興味深い展望を明らかにし、説明可能な量子人工知能への貴重なガイドを提供するかもしれない。

Capsule networks, which incorporate the paradigms of connectionism and symbolism, have brought fresh insights into artificial intelligence. The capsule, as the building block of capsule networks, is a group of neurons represented by a vector to encode different features of an entity. The information is extracted hierarchically through capsule layers via routing algorithms. Here, we introduce a quantum capsule network (dubbed QCapsNet) together with a quantum dynamic routing algorithm. Our model enjoys an exponential speedup in the dynamic routing process and exhibits an enhanced representation power. To benchmark the performance of the QCapsNet, we carry out extensive numerical simulations on the classification of handwritten digits and symmetry-protected topological phases, and show that the QCapsNet can achieve the state-of-the-art accuracy and outperforms conventional quantum classifiers evidently. We further unpack the output capsule state and find that a particular subspace may correspond to a human-understandable feature of the input data, which indicates the potential explainability of such networks. Our work reveals an intriguing prospect of quantum capsule networks in quantum machine learning, which may provide a valuable guide towards explainable quantum artificial intelligence.
翻訳日:2022-01-07 14:37:41 公開日:2022-01-05
# POCO:表面再構成のためのポイントコンボリューション

POCO: Point Convolution for Surface Reconstruction ( http://arxiv.org/abs/2201.01831v1 )

ライセンス: Link先を確認
Alexandre Boulch, Renaud Marlet(参考訳) 入射ニューラルネットワークは点雲からの表面再構成に成功している。 しかし、それらの多くは、オブジェクトやシーン全体のisosurface関数を単一の潜在ベクトルにエンコードするため、スケーラビリティの問題に直面している。 この制限を克服するために、粗い正規3Dグリッドや3Dパッチ上の潜伏ベクトルを推論し、それらを補間して占有クエリに応答する。 そうすることで、オブジェクトの表面でサンプリングされた入力ポイントとの直接接続を緩め、最も重要な場所、すなわち表面近傍の場所よりも、空間内で情報を均一にアタッチする。 さらに、固定パッチサイズに依存するには、離散化チューニングが必要になる可能性がある。 これらの問題に対処するために,各入力点における点雲畳み込みと潜在ベクトルの計算を提案する。 次に,推定重みを用いた学習ベースの補間を行う。 オブジェクトとシーンの両方のデータセットにおける実験により、我々のアプローチは、ほとんどの古典的メトリクスの他のメソッドを大きく上回り、より詳細な詳細を生成し、より薄いボリュームを再構築する。 コードはhttps://github.com/v aleoai/pocoで入手できる。

Implicit neural networks have been successfully used for surface reconstruction from point clouds. However, many of them face scalability issues as they encode the isosurface function of a whole object or scene into a single latent vector. To overcome this limitation, a few approaches infer latent vectors on a coarse regular 3D grid or on 3D patches, and interpolate them to answer occupancy queries. In doing so, they loose the direct connection with the input points sampled on the surface of objects, and they attach information uniformly in space rather than where it matters the most, i.e., near the surface. Besides, relying on fixed patch sizes may require discretization tuning. To address these issues, we propose to use point cloud convolutions and compute latent vectors at each input point. We then perform a learning-based interpolation on nearest neighbors using inferred weights. Experiments on both object and scene datasets show that our approach significantly outperforms other methods on most classical metrics, producing finer details and better reconstructing thinner volumes. The code is available at https://github.com/v aleoai/POCO.
翻訳日:2022-01-07 14:37:22 公開日:2022-01-05
# DeepMLS: 幾何学的制御点変形

DeepMLS: Geometry-Aware Control Point Deformation ( http://arxiv.org/abs/2201.01873v1 )

ライセンス: Link先を確認
Meitar Shechter, Rana Hanocka, Gal Metzer, Raja Giryes, Daniel Cohen-Or(参考訳) 本稿では,空間に基づく変形手法であるdeepmlsについて,一組の変位制御点を導出して紹介する。 ニューラルネットワークのパワーを利用して,変形パラメータに基礎となる形状形状を注入する。 本技術の目的は,現実的で直感的な形状変形を可能にすることである。 本手法は,与えられた制御点変位の重み付き和を最小にするため,移動最小二乗法(mls)に基づいて構成する。 伝統的に、空間の各点(すなわち重み付け関数)に対する各制御点の影響は、逆距離ヒューリスティックスを用いて定義される。 本研究では,ニューラルネットワークを1つの入力形状から制御点に訓練することで,重み付け関数を学習し,ニューラルネットワークの固有な滑らかさを生かして学習する。 形状認識制御点変形は表面表現や品質に依存せず、非マニフォールドや断線した表面スープを含む点雲やメッシュに適用することができる。 本手法は直感的に滑らかな変形をしやすくし, 製造物に適していることを示す。 我々は,既存の表面および空間に基づく変形技術と比較して,定量的かつ定性的にアプローチの利点を示す。

We introduce DeepMLS, a space-based deformation technique, guided by a set of displaced control points. We leverage the power of neural networks to inject the underlying shape geometry into the deformation parameters. The goal of our technique is to enable a realistic and intuitive shape deformation. Our method is built upon moving least-squares (MLS), since it minimizes a weighted sum of the given control point displacements. Traditionally, the influence of each control point on every point in space (i.e., the weighting function) is defined using inverse distance heuristics. In this work, we opt to learn the weighting function, by training a neural network on the control points from a single input shape, and exploit the innate smoothness of neural networks. Our geometry-aware control point deformation is agnostic to the surface representation and quality; it can be applied to point clouds or meshes, including non-manifold and disconnected surface soups. We show that our technique facilitates intuitive piecewise smooth deformations, which are well suited for manufactured objects. We show the advantages of our approach compared to existing surface and space-based deformation techniques, both quantitatively and qualitatively.
翻訳日:2022-01-07 14:37:04 公開日:2022-01-05
# 自律走行のためのリアルタイム意味セグメンテーションモデルの実世界対向ロバスト性について

On the Real-World Adversarial Robustness of Real-Time Semantic Segmentation Models for Autonomous Driving ( http://arxiv.org/abs/2201.01850v1 )

ライセンス: Link先を確認
Giulio Rossolini, Federico Nesti, Gianluca D'Amico, Saasha Nair, Alessandro Biondi and Giorgio Buttazzo(参考訳) 現実世界の敵対的な例(一般的にパッチの形で)の存在は、自動運転における視覚認識のような安全クリティカルなコンピュータビジョンタスクにおけるディープラーニングモデルの使用に深刻な脅威をもたらす。 本稿では,デジタル,シミュレート,物理など,異なるタイプの敵パッチを攻撃した場合のセグメンテーションモデルのロバスト性について広範囲に評価する。 画素の誤分類を誘発する攻撃者の能力を改善するために,新たな損失関数を提案する。 また,シーンにパッチを配置するトランスフォーメーションメソッドに対する期待を改善するために,新たな攻撃戦略を提案する。 最後に, 直感的セグメンテーションモデルに対処するために, 直感的パッチ検出のための最先端手法をまず拡張し, 実世界のシナリオで評価した。 実験の結果、デジタルと現実世界の両方のアタックで逆効果が見えても、その影響はパッチ周辺の領域に空間的に限定されることが判明した。 これにより、リアルタイムセマンティックセグメンテーションモデルの空間的堅牢性に関するさらなる疑問が開かれる。

The existence of real-world adversarial examples (commonly in the form of patches) poses a serious threat for the use of deep learning models in safety-critical computer vision tasks such as visual perception in autonomous driving. This paper presents an extensive evaluation of the robustness of semantic segmentation models when attacked with different types of adversarial patches, including digital, simulated, and physical ones. A novel loss function is proposed to improve the capabilities of attackers in inducing a misclassification of pixels. Also, a novel attack strategy is presented to improve the Expectation Over Transformation method for placing a patch in the scene. Finally, a state-of-the-art method for detecting adversarial patch is first extended to cope with semantic segmentation models, then improved to obtain real-time performance, and eventually evaluated in real-world scenarios. Experimental results reveal that, even though the adversarial effect is visible with both digital and real-world attacks, its impact is often spatially confined to areas of the image around the patch. This opens to further questions about the spatial robustness of real-time semantic segmentation models.
翻訳日:2022-01-07 14:08:00 公開日:2022-01-05
# 価値学習のための一般化ブートストラップターゲット : 価値予測と特徴予測を効率的に組み合わせて

A Generalized Bootstrap Target for Value-Learning, Efficiently Combining Value and Feature Predictions ( http://arxiv.org/abs/2201.01836v1 )

ライセンス: Link先を確認
Anthony GX-Chen, Veronica Chelu, Blake A. Richards, Joelle Pineau(参考訳) 値関数の推定は強化学習アルゴリズムのコアコンポーネントである。 時間差(TD)学習アルゴリズムはブートストラップ(ブートストラップ)を用いる。 あるいは、後継特徴(sf)-ポリシー依存モデル--を別々に予測し、それらを即時報酬と線形に組み合わせて構築した学習目標に向けて値関数を更新することができる。 我々は、値関数の推定に使用されるターゲットのブートストラップに焦点をあて、新しいバックアップターゲットである$\eta$-returnmixを提案し、これは、(TDメソッドで使用される)値予測の知識と(successor)機能予測の知識を暗黙的に組み合わせ、パラメータ$$\eta$で、それぞれにどれだけ依存するかをキャプチャする。 予測的知識を$\eta\gamma$-discoun tedsfモデルで組み込むことで、サンプル化された経験をより効率的に利用することができることを示す。 本稿では, この手法が, 拡張性と汎用性を示す表や非線形関数近似に対して, より高速なポリシー評価と制御性能の向上につながることを実証的に示す。

Estimating value functions is a core component of reinforcement learning algorithms. Temporal difference (TD) learning algorithms use bootstrapping, i.e. they update the value function toward a learning target using value estimates at subsequent time-steps. Alternatively, the value function can be updated toward a learning target constructed by separately predicting successor features (SF)--a policy-dependent model--and linearly combining them with instantaneous rewards. We focus on bootstrapping targets used when estimating value functions, and propose a new backup target, the $\eta$-return mixture, which implicitly combines value-predictive knowledge (used by TD methods) with (successor) feature-predictive knowledge--with a parameter $\eta$ capturing how much to rely on each. We illustrate that incorporating predictive knowledge through an $\eta\gamma$-discoun ted SF model makes more efficient use of sampled experience, compared to either extreme, i.e. bootstrapping entirely on the value function estimate, or bootstrapping on the product of separately estimated successor features and instantaneous reward models. We empirically show this approach leads to faster policy evaluation and better control performance, for tabular and nonlinear function approximations, indicating scalability and generality.
翻訳日:2022-01-07 14:07:43 公開日:2022-01-05
# 分布シフトを伴う解釈可能な連続学習のための基礎の混合

Mixture of basis for interpretable continual learning with distribution shifts ( http://arxiv.org/abs/2201.01853v1 )

ライセンス: Link先を確認
Mengda Xu, Sumitra Ganesh, Pranay Pasula(参考訳) データ分散が変化する環境での継続的学習は、いくつかの実世界のアプリケーションでは難しい問題である。 本稿では、データ分散(タスク)が突然シフトし、これらのシフトのタイミングが不明な設定について考察する。 さらに,学習アルゴリズムがタスクセグメントデータと無セグメントデータの両方にアクセスしてオフライントレーニングを行う半教師なしのタスク非依存設定を考える。 本稿では,この問題に対処するための新しい手法としてmixed of basismodels (mob)を提案する。 中心となる考え方は、ベースモデルの小さなセットを学び、現在のタスクを予測するためにモデルの動的なタスク依存の混合を構築することである。 また,既存のベースモデルに対する分布外な観測を検知し,必要に応じて新しいモデルをインスタンス化する手法を提案する。 複数のドメインでこのアプローチをテストした結果、ほとんどのケースで既存のメソッドよりも優れた予測エラーが得られ、他の複数のモデルアプローチよりも少ないモデルを用いています。 さらに,モブが学習した潜在タスク表現を分析し,類似したタスクが潜在空間でクラスタ化され,タスクが異なっても潜在タスク表現がタスク境界でシフトすることを示す。

Continual learning in environments with shifting data distributions is a challenging problem with several real-world applications. In this paper we consider settings in which the data distribution(task) shifts abruptly and the timing of these shifts are not known. Furthermore, we consider a semi-supervised task-agnostic setting in which the learning algorithm has access to both task-segmented and unsegmented data for offline training. We propose a novel approach called mixture of Basismodels (MoB) for addressing this problem setting. The core idea is to learn a small set of basis models and to construct a dynamic, task-dependent mixture of the models to predict for the current task. We also propose a new methodology to detect observations that are out-of-distribution with respect to the existing basis models and to instantiate new models as needed. We test our approach in multiple domains and show that it attains better prediction error than existing methods in most cases while using fewer models than other multiple model approaches. Moreover, we analyze the latent task representations learned by MoB and show that similar tasks tend to cluster in the latent space and that the latent representation shifts at the task boundaries when tasks are dissimilar.
翻訳日:2022-01-07 14:07:20 公開日:2022-01-05
# エンティティ抽象化は生成トランスフォーマーの推論に役立つか?

Does entity abstraction help generative Transformers reason? ( http://arxiv.org/abs/2201.01787v1 )

ライセンス: Link先を確認
Nicolas Gontier, Siva Reddy, Christopher Pal(参考訳) 事前訓練された言語モデル(LM)は、しばしば論理的に論理的に、あるいは構成的に一般化するのに苦労する。 最近の研究は、外部エンティティ知識を取り入れることで、LMの推論と一般化能力を向上させることを示唆している。 しかし、特に最近の研究では、事前学習されたLMが既にその知識のいくつかをそれらのパラメータにエンコードしていることを示唆している。 本研究では,(1)テキストベース関係推論を用いた合成言語理解(CLUTRR),(2)帰納的推論(ProofWriter),(3)マルチホップ質問応答(HotpotQA),(4)対話型質問応答(CoQA)の4つのNLPタスクに対して,エンティティ型抽象化を事前学習したトランスフォーマに組み込むことの有用性を検討した。 このような抽象化を追加する3つの方法を提案し、実証的に検討する。 (i)追加入力埋め込み (ii)エンコードするための別個の配列として、及び (iii)モデルの補助予測タスクとして。 全体としては、抽象的な実体知識を持つモデルは、それなしでは機能しないことを示す。 しかし,本実験では,その効果は使用する技術と作業に強く依存することを示した。 最高の抽象化対応モデルは、CLUTRR と ProofWriter でそれぞれ 62.3% と 89.8% のベースラインモデルと比較して 88.8% と 91.8% の精度を達成した。 さらに、抽象認識モデルでは補間と補間の両方において合成一般化が改善された。 しかし,HotpotQAとCoQAでは,F1スコアは平均0.5%向上した。 以上の結果から,形式的論理構造を欠くnlpタスクにとって,明示的抽象化の利点は,多くの推論ホップを必要とする形式的論理推論設定において重要であることが示唆された。

Pre-trained language models (LMs) often struggle to reason logically or generalize in a compositional fashion. Recent work suggests that incorporating external entity knowledge can improve LMs' abilities to reason and generalize. However, the effect of explicitly providing entity abstraction remains unclear, especially with recent studies suggesting that pre-trained LMs already encode some of that knowledge in their parameters. We study the utility of incorporating entity type abstractions into pre-trained Transformers and test these methods on four NLP tasks requiring different forms of logical reasoning: (1) compositional language understanding with text-based relational reasoning (CLUTRR), (2) abductive reasoning (ProofWriter), (3) multi-hop question answering (HotpotQA), and (4) conversational question answering (CoQA). We propose and empirically explore three ways to add such abstraction: (i) as additional input embeddings, (ii) as a separate sequence to encode, and (iii) as an auxiliary prediction task for the model. Overall, our analysis demonstrates that models with abstract entity knowledge performs better than without it. However, our experiments also show that the benefits strongly depend on the technique used and the task at hand. The best abstraction aware models achieved an overall accuracy of 88.8% and 91.8% compared to the baseline model achieving 62.3% and 89.8% on CLUTRR and ProofWriter respectively. In addition, abstraction-aware models showed improved compositional generalization in both interpolation and extrapolation settings. However, for HotpotQA and CoQA, we find that F1 scores improve by only 0.5% on average. Our results suggest that the benefit of explicit abstraction is significant in formally defined logical reasoning settings requiring many reasoning hops, but point to the notion that it is less beneficial for NLP tasks having less formal logical structure.
翻訳日:2022-01-07 13:51:31 公開日:2022-01-05
# CausalSim: ネットワークプロトコルのための因果データ駆動シミュレータを目指して

CausalSim: Toward a Causal Data-Driven Simulator for Network Protocols ( http://arxiv.org/abs/2201.01811v1 )

ライセンス: Link先を確認
Abdullah Alomar, Pouya Hamadanian, Arash Nasr-Esfahany, Anish Agarwal, Mohammad Alizadeh, Devavrat Shah(参考訳) ネットワークプロトコルの実際の性能を評価することは難しい。 ランダム化制御試験(RCT)は、多くの研究者にとって高価でアクセスできないが、専門家が設計したシミュレータは実際のネットワークで複雑な振る舞いを捉えることができない。 この課題に対処するネットワークプロトコルのためのデータ駆動シミュレータCausalSimを提案する。 観測データからネットワーク行動を学ぶのは、データ収集に使用されるプロトコルがもたらすバイアスのため複雑である。 CausalSimは、一連のプロトコルの下で初期RTTからのトレースを使用して因果ネットワークモデルを学び、データに存在するバイアスを効果的に除去する。 このモデルを用いて、CausalSimは任意のプロトコルを同じトレース上でシミュレートすることができる。 CausalSimの鍵となるのは、RCTから得られるトレーニングデータによって存在する分散不変性を活用する、対向ニューラルネットワークトレーニングの新たな使用である。 実データと合成データの両方に対するCausalSimの広範な評価と、Pufferビデオストリーミングシステムからの9ヶ月以上の実際のデータを含む2つのユースケースにより、正確な偽造予測を提供し、専門家が設計した標準教師付き学習ベースラインと比較して平均44%と53%の予測誤差を低減した。

Evaluating the real-world performance of network protocols is challenging. Randomized control trials (RCT) are expensive and inaccessible to most researchers, while expert-designed simulators fail to capture complex behaviors in real networks. We present CausalSim, a data-driven simulator for network protocols that addresses this challenge. Learning network behavior from observational data is complicated due to the bias introduced by the protocols used during data collection. CausalSim uses traces from an initial RCT under a set of protocols to learn a causal network model, effectively removing the biases present in the data. Using this model, CausalSim can then simulate any protocol over the same traces (i.e., for counterfactual predictions). Key to CausalSim is the novel use of adversarial neural network training that exploits distributional invariances that are present due to the training data coming from an RCT. Our extensive evaluation of CausalSim on both real and synthetic datasets and two use cases, including more than nine months of real data from the Puffer video streaming system, shows that it provides accurate counterfactual predictions, reducing prediction error by 44% and 53% on average compared to expert-designed and standard supervised learning baselines.
翻訳日:2022-01-07 13:50:56 公開日:2022-01-05
# ニューラルネットワークを用いたグラフィカルオープンエンド応答の自動スコアリング

Automated Scoring of Graphical Open-Ended Responses Using Artificial Neural Networks ( http://arxiv.org/abs/2201.01783v1 )

ライセンス: Link先を確認
Matthias von Davier, Lillian Tyack, Lale Khorramdel(参考訳) フリードローイングや画像の回答による自動スコアリングは,学生の成果の大規模評価にはまだ活用されていない。 本研究では,コンピュータベースの国際数学・科学アセスメントから,これらのグラフィカル応答を分類する人工ニューラルネットワークを提案する。 畳み込み法とフィードフォワード法の分類精度を比較した。 その結果、畳み込みニューラルネットワーク(CNN)は、損失と精度の両方でフィードフォワードニューラルネットワークを上回っていることがわかった。 CNNモデルは、画像応答の97.71%までを適切な評価カテゴリーに分類した。 これらの知見は、最も正確なCNNモデルが、ヒトのラッカーによって誤って測定された画像応答を正しく分類しているという観察によってさらに強化された。 追加のイノベーションとして,アイテム応答理論に基づく期待応答関数の適用に基づいて,トレーニングサンプルに対する評価応答を選択する手法について概説する。 本稿では,CNNによる画像応答の自動評価は,大規模評価のための第2のレーダの作業負荷とコストに取って代わる可能性があり,複雑な構成対応項目の妥当性と可視性を向上させることができる,と論じる。

Automated scoring of free drawings or images as responses has yet to be utilized in large-scale assessments of student achievement. In this study, we propose artificial neural networks to classify these types of graphical responses from a computer based international mathematics and science assessment. We are comparing classification accuracy of convolutional and feedforward approaches. Our results show that convolutional neural networks (CNNs) outperform feedforward neural networks in both loss and accuracy. The CNN models classified up to 97.71% of the image responses into the appropriate scoring category, which is comparable to, if not more accurate, than typical human raters. These findings were further strengthened by the observation that the most accurate CNN models correctly classified some image responses that had been incorrectly scored by the human raters. As an additional innovation, we outline a method to select human rated responses for the training sample based on an application of the expected response function derived from item response theory. This paper argues that CNN-based automated scoring of image responses is a highly accurate procedure that could potentially replace the workload and cost of second human raters for large scale assessments, while improving the validity and comparability of scoring complex constructed-response items.
翻訳日:2022-01-07 13:50:33 公開日:2022-01-05
# 芸術の形式的分析:スタイルから言語モデルへの視覚概念のプロキシ学習

Formal Analysis of Art: Proxy Learning of Visual Concepts from Style Through Language Models ( http://arxiv.org/abs/2201.01819v1 )

ライセンス: Link先を確認
Diana Kim, Ahmed Elgammal, Marian Mazzone(参考訳) 本稿では,美術の視覚要素と原理のセットを用いて美術絵画を定量化できる機械学習システムを提案する。 この形式的分析は、芸術を理解するのに基本的なものであるが、そのようなシステムの開発は困難である。 絵画は視覚の複雑さが高いが、直接ラベルで十分なトレーニングデータを集めるのも困難である。 これらの実用上の限界を解決するために,絵画における視覚的概念を学習する,プロキシラーニングと呼ばれる新しいメカニズムを導入する。 このフレームワークはビジュアルアノテーションを必要としないが、スタイルラベルとビジュアル概念とスタイル間の一般的な関係のみを使用する。 本稿では,新しいプロキシモデルを提案し,既存の4つの手法をプロキシ学習の文脈で再構成する。 定量的および質的な比較を通じて,これらの手法を評価し,言語モデル,GloVe や BERT で一般的な関係を推定する芸術的視覚概念の定量化における有効性を比較する。 言語モデリングは、ラベル付けを必要としない実用的なスケーラブルなソリューションであるが、必然的に不完全である。 新しいプロキシモデルが不完全性に対して堅牢であるのに対して、他のモデルはその影響を敏感に受けています。

We present a machine learning system that can quantify fine art paintings with a set of visual elements and principles of art. This formal analysis is fundamental for understanding art, but developing such a system is challenging. Paintings have high visual complexities, but it is also difficult to collect enough training data with direct labels. To resolve these practical limitations, we introduce a novel mechanism, called proxy learning, which learns visual concepts in paintings though their general relation to styles. This framework does not require any visual annotation, but only uses style labels and a general relationship between visual concepts and style. In this paper, we propose a novel proxy model and reformulate four pre-existing methods in the context of proxy learning. Through quantitative and qualitative comparison, we evaluate these methods and compare their effectiveness in quantifying the artistic visual concepts, where the general relationship is estimated by language models; GloVe or BERT. The language modeling is a practical and scalable solution requiring no labeling, but it is inevitably imperfect. We demonstrate how the new proxy model is robust to the imperfection, while the other models are sensitively affected by it.
翻訳日:2022-01-07 13:50:14 公開日:2022-01-05
# GLAN: グラフベースの線形アサインメントネットワーク

GLAN: A Graph-based Linear Assignment Network ( http://arxiv.org/abs/2201.02057v1 )

ライセンス: Link先を確認
He Liu, Tao Wang, Congyan Lang, Songhe Feng, Yi Jin and Yidong Li(参考訳) 近年、線形代入問題(LAP)に対する微分可能解法は、学習フレームワークにコンポーネントとして組み込まれているため、多くの研究が注目されている。 しかしながら、学習戦略の有無に関わらず、従来のアルゴリズムは、通常、問題サイズの増大に伴う最適性の低下に悩まされる。 本稿では,ディープグラフネットワークに基づく学習可能な線形代入問題の解法を提案する。 具体的には,まずコスト行列を二部グラフに変換し,構築したグラフから信頼できるエッジを選択する問題に代入タスクを変換する。 その後、ノードとエッジの機能を集約して更新するディープグラフネットワークが開発された。 最後に、ネットワークは、割り当て関係を示す各エッジのラベルを予測する。 合成データセットを用いた実験結果から,本手法は最先端のベースラインを上回り,問題サイズの増大とともに一貫した精度を実現していることがわかった。 さらに,提案手法を最先端のベースラインソルバと比較して,一般的なマルチオブジェクトトラッキング(MOT)フレームワークに組み込んで,エンド・ツー・エンドでトラッカーをトレーニングする。 MOTベンチマークの実験結果から,提案したLAPソルバはトラッカーを最大マージンで改善することが示された。

Differentiable solvers for the linear assignment problem (LAP) have attracted much research attention in recent years, which are usually embedded into learning frameworks as components. However, previous algorithms, with or without learning strategies, usually suffer from the degradation of the optimality with the increment of the problem size. In this paper, we propose a learnable linear assignment solver based on deep graph networks. Specifically, we first transform the cost matrix to a bipartite graph and convert the assignment task to the problem of selecting reliable edges from the constructed graph. Subsequently, a deep graph network is developed to aggregate and update the features of nodes and edges. Finally, the network predicts a label for each edge that indicates the assignment relationship. The experimental results on a synthetic dataset reveal that our method outperforms state-of-the-art baselines and achieves consistently high accuracy with the increment of the problem size. Furthermore, we also embed the proposed solver, in comparison with state-of-the-art baseline solvers, into a popular multi-object tracking (MOT) framework to train the tracker in an end-to-end manner. The experimental results on MOT benchmarks illustrate that the proposed LAP solver improves the tracker by the largest margin.
翻訳日:2022-01-07 13:49:56 公開日:2022-01-05
# (参考訳) ゼロショット学習問題への自己教師ありアプローチ [全文訳有]

Self-Supervised Approach to Addressing Zero-Shot Learning Problem ( http://arxiv.org/abs/2201.01391v1 )

ライセンス: CC BY 4.0
Ademola Okerinde and Sam Hoggatt and Divya Vani Lakkireddy and Nolan Brubaker and William Hsu and Lior Shamir and Brian Spiseman(参考訳) 近年,コンピュータビジョンや自然言語処理の応用において,自己教師あり学習が大きな成功を収めている。 このパフォーマンス向上には,プリテキストタスクのタイプが重要である。 一般的な前提課題は、画像のペア間の類似性と相似性の尺度である。 このシナリオでは、負のペアを構成する2つの画像は、人間と視覚的に異なる。 しかし、昆虫学では種はほとんど区別がつかないため区別が難しい。 本研究では,類似する種の組み合わせを分離し,類似した組込みをまとめる学習により,対照的な損失を生かしたシアムニューラルネットの性能について検討した。 実験の結果,ゼロショットインスタンスではf1-scoreが61%,トレーニングセットと交点を共有するクラスのサンプルでは11%改善した。

In recent years, self-supervised learning has had significant success in applications involving computer vision and natural language processing. The type of pretext task is important to this boost in performance. One common pretext task is the measure of similarity and dissimilarity between pairs of images. In this scenario, the two images that make up the negative pair are visibly different to humans. However, in entomology, species are nearly indistinguishable and thus hard to differentiate. In this study, we explored the performance of a Siamese neural network using contrastive loss by learning to push apart embeddings of bumblebee species pair that are dissimilar, and pull together similar embeddings. Our experimental results show a 61% F1-score on zero-shot instances, a performance showing 11% improvement on samples of classes that share intersections with the training set.
翻訳日:2022-01-06 18:42:42 公開日:2022-01-05
# (参考訳) データの不正化による欺きの摂動除去--システムロバスト性向上のための前処理法 [全文訳有]

Corrupting Data to Remove Deceptive Perturbation: Using Preprocessing Method to Improve System Robustness ( http://arxiv.org/abs/2201.01399v1 )

ライセンス: CC BY 4.0
Hieu Le, Hans Walker, Dung Tran, Peter Chin(参考訳) ディープニューラルネットワークは分類タスクにおいて優れた性能を発揮してきたが、最近の研究では、十分に訓練されたネットワークは微妙なノイズを加えることで騙されることが示された。 本稿では,自然学習型分類器上にリカバリ処理を適用することにより,ニューラルネットワークの堅牢性を改善する新しい手法を提案する。 このアプローチでは、画像は意図的に重要なオペレータによって破壊され、分類器を通過する前に復元される。 SARGAN - GAN(Generative Adversarial Networks)の拡張機能で、レーダー信号を識別することができる。 本稿では,SARGANが逆効果を取り除き,劣化画像の復元も可能であることを示す。 本研究では,本手法が自然学習ネットワークの性能を向上させることを示す。

Although deep neural networks have achieved great performance on classification tasks, recent studies showed that well trained networks can be fooled by adding subtle noises. This paper introduces a new approach to improve neural network robustness by applying the recovery process on top of the naturally trained classifier. In this approach, images will be intentionally corrupted by some significant operator and then be recovered before passing through the classifiers. SARGAN -- an extension on Generative Adversarial Networks (GAN) is capable of denoising radar signals. This paper will show that SARGAN can also recover corrupted images by removing the adversarial effects. Our results show that this approach does improve the performance of naturally trained networks.
翻訳日:2022-01-06 18:36:47 公開日:2022-01-05
# (参考訳) スケールにおける非構造媒体からの逆薬物反応のマイニング [全文訳有]

Mining Adverse Drug Reactions from Unstructured Mediums at Scale ( http://arxiv.org/abs/2201.01405v1 )

ライセンス: CC BY 4.0
Hasham Ul Haq Veysel Kocaman David Talby(参考訳) 逆薬物反応/事象(ADR/ADE)は、患者の健康と医療費に大きな影響を及ぼす。 できるだけ早くadrを検出し、規制当局、製薬会社、医療提供者と共有することは、致死を防ぎ、多くの命を救える。 たいていのADRは、正式なチャンネルを通しては報告されていないが、患者によるソーシャルメディア投稿、カスタマーサポート電話の書き起こし、医療提供者と製薬販売担当者の会議のCRMノートなど、様々な非構造化の会話に記録されていることが多い。この記事では、そのような非構造化の会話の中でADRを検出する自然言語処理(NLP)ソリューションを提案し、3つの方法で改善する。 まず、新しい名前付きエンティティ認識(ner)モデルは、ade、cadec、smm4hベンチマークデータセット(それぞれ91.75%、78.76%、83.41%のf1スコア)でadrおよび薬物エンティティ抽出のための新しい最先端精度を得る。 第2に、BioBERTに基づいて2つの新しいリレーショナル抽出(RE)モデルを導入し、もう1つは、Fully Connected Neural Network(FCNN)よりも工芸的な特徴を活用して、既存の最先端モデルと同等に実行し、補助的なクリニック注釈REデータセットでトレーニングした場合に、それらを上回るパフォーマンスを示す。 第3に、会話にADRが含まれているかどうかを決定するための新しいテキスト分類モデルがCADECデータセット(86.69% F1スコア)で新しい最先端の精度を得る。 完全なソリューションは、Apache Spark上に構築されたプロダクショングレードライブラリに統一されたNLPパイプラインとして実装されている。

Adverse drug reactions / events (ADR/ADE) have a major impact on patient health and health care costs. Detecting ADR's as early as possible and sharing them with regulators, pharma companies, and healthcare providers can prevent morbidity and save many lives. While most ADR's are not reported via formal channels, they are often documented in a variety of unstructured conversations such as social media posts by patients, customer support call transcripts, or CRM notes of meetings between healthcare providers and pharma sales reps. In this paper, we propose a natural language processing (NLP) solution that detects ADR's in such unstructured free-text conversations, which improves on previous work in three ways. First, a new Named Entity Recognition (NER) model obtains new state-of-the-art accuracy for ADR and Drug entity extraction on the ADE, CADEC, and SMM4H benchmark datasets (91.75%, 78.76%, and 83.41% F1 scores respectively). Second, two new Relation Extraction (RE) models are introduced - one based on BioBERT while the other utilizing crafted features over a Fully Connected Neural Network (FCNN) - are shown to perform on par with existing state-of-the-art models, and outperform them when trained with a supplementary clinician-annotated RE dataset. Third, a new text classification model, for deciding if a conversation includes an ADR, obtains new state-of-the-art accuracy on the CADEC dataset (86.69% F1 score). The complete solution is implemented as a unified NLP pipeline in a production-grade library built on top of Apache Spark, making it natively scalable and able to process millions of batch or streaming records on commodity clusters.
翻訳日:2022-01-06 18:28:00 公開日:2022-01-05
# (参考訳) 画像を用いた屋内位置推定のためのFusing Convolutional Neural Networkと幾何学的制約 [全文訳有]

Fusing Convolutional Neural Network and Geometric Constraint for Image-based Indoor Localization ( http://arxiv.org/abs/2201.01408v1 )

ライセンス: CC BY 4.0
Jingwei Song, Mitesh Patel, and Maani Ghaffari(参考訳) 本稿では,畳み込みニューラルネットワーク(cnn)と逐次画像の幾何制約を用いて,カメラ/ロボットを明示的にローカライズする新しい画像ベースローカライズフレームワークを提案する。 カメラは、観察された1つまたは少数の画像と6自由度ポーズラベルのトレーニング画像を使用してローカライズされる。 画像ディスクリプタネットワークをトレーニングするためにシームズネットワーク構造を採用し、トレーニングセット内の視覚的に類似した候補画像を検索して、テストイメージを幾何学的にローカライズする。 一方、確率的動きモデルは、一定速度の仮定に基づいてポーズを予測する。 2つの推定されたポーズは、その不確実性を用いて最終的に融合され、正確なポーズ予測が得られる。 この方法は幾何学的不確実性を利用し、拡散照明が支配する屋内シナリオに適用できる。 シミュレーションと実データを用いた実験により,提案手法の有効性を示す。 さらに,CNNをベースとしたフレームワークと幾何学的制約を組み合わせることで,特にトレーニングデータサイズが小さい場合には,CNNのみの手法と比較して精度が向上することを示した。

This paper proposes a new image-based localization framework that explicitly localizes the camera/robot by fusing Convolutional Neural Network (CNN) and sequential images' geometric constraints. The camera is localized using a single or few observed images and training images with 6-degree-of-freedom pose labels. A Siamese network structure is adopted to train an image descriptor network, and the visually similar candidate image in the training set is retrieved to localize the testing image geometrically. Meanwhile, a probabilistic motion model predicts the pose based on a constant velocity assumption. The two estimated poses are finally fused using their uncertainties to yield an accurate pose prediction. This method leverages the geometric uncertainty and is applicable in indoor scenarios predominated by diffuse illumination. Experiments on simulation and real data sets demonstrate the efficiency of our proposed method. The results further show that combining the CNN-based framework with geometric constraint achieves better accuracy when compared with CNN-only methods, especially when the training data size is small.
翻訳日:2022-01-06 18:16:36 公開日:2022-01-05
# (参考訳) フェデレーションラーニングにおける品質課題の理解に向けて--ロバストネスのレンズからの一考察

Towards Understanding Quality Challenges of the Federated Learning: A First Look from the Lens of Robustness ( http://arxiv.org/abs/2201.01409v1 )

ライセンス: CC BY 4.0
Amin Eslami Abyane, Derui Zhu, Roberto Medeiros de Souza, Lei Ma, Hadi Hemmati(参考訳) フェデレーテッド・ラーニング(FL)は、実践的に広く採用されている分散学習パラダイムであり、すべての参加者のデータセット全体をトレーニングに活用しながら、ユーザのデータのプライバシを保護することを目的としている。 FLでは、複数のモデルをユーザで独立してトレーニングし、集中的に集約することで、グローバルモデルを反復的なプロセスで更新する。 このアプローチは設計によるプライバシ保護に優れているが、FLは依然として攻撃やビザンチン障害などの品質問題に悩まされる傾向にある。 FLのロバストアグリゲーション技術におけるこのような品質問題に対処するための最近の試みがある。 しかし,SOTA(State-of-the-a rt FL)技術の有効性はいまだ不明であり,総合的な研究がない。 そこで本研究では,SOTA FL技術の攻撃・障害発生における現状と課題をよりよく理解するために,複数の攻撃角度からSOTA FLの品質,(突然変異演算子による)模擬故障,および凝集(防御)手法を大規模に検討した。 特に, 2つの汎用画像データセットと, 実世界連合医療画像データセットについて検討を行った。 また,ユーザに対する攻撃・攻撃の分布と,データセットごとの独立・同一分散(IID)要因がロバスト性に与える影響を系統的に検討した。 496構成の大規模解析を行った結果,各ユーザ毎のミュータが最終モデルに無視できる影響があることが判明した。 さらに、最も堅牢なflアグリゲータの選択は、アタックとデータセットに依存する。 最後に、アグリゲータの単純なアンサンブルモデルを用いて、すべてのアグリゲータと構成上の単一のアグリゲータとほぼ同等、あるいはそれ以上に機能するジェネリックソリューションを実現できることを示す。

Federated learning (FL) is a widely adopted distributed learning paradigm in practice, which intends to preserve users' data privacy while leveraging the entire dataset of all participants for training. In FL, multiple models are trained independently on the users and aggregated centrally to update a global model in an iterative process. Although this approach is excellent at preserving privacy by design, FL still tends to suffer from quality issues such as attacks or byzantine faults. Some recent attempts have been made to address such quality challenges on the robust aggregation techniques for FL. However, the effectiveness of state-of-the-art (SOTA) robust FL techniques is still unclear and lacks a comprehensive study. Therefore, to better understand the current quality status and challenges of these SOTA FL techniques in the presence of attacks and faults, in this paper, we perform a large-scale empirical study to investigate the SOTA FL's quality from multiple angles of attacks, simulated faults (via mutation operators), and aggregation (defense) methods. In particular, we perform our study on two generic image datasets and one real-world federated medical image dataset. We also systematically investigate the effect of the distribution of attacks/faults over users and the independent and identically distributed (IID) factors, per dataset, on the robustness results. After a large-scale analysis with 496 configurations, we find that most mutators on each individual user have a negligible effect on the final model. Moreover, choosing the most robust FL aggregator depends on the attacks and datasets. Finally, we illustrate that it is possible to achieve a generic solution that works almost as well or even better than any single aggregator on all attacks and configurations with a simple ensemble model of aggregators.
翻訳日:2022-01-06 17:58:47 公開日:2022-01-05
# (参考訳) 視覚自己愛のためのテンソル変換の合成 [全文訳有]

Synthesizing Tensor Transformations for Visual Self-attention ( http://arxiv.org/abs/2201.01410v1 )

ライセンス: CC BY 4.0
Xian Wei, Xihao Wang, Hai Lan, JiaMing Lei, Yanhui Huang, Hui Yu, Jian Yang(参考訳) 自己注意は、画像分類や画像キャプションなどの視覚タスクにおけるパフォーマンスを高めながら、長距離関係の獲得に優れた能力を示している。 しかし、自己注意モジュールは、問合せキー値の特徴間のドット積乗法と次元アライメントに強く依存しており、(1)ドット積乗法は徹底的かつ冗長な計算をもたらす。 2)多次元テンソルとしてしばしば現れる視覚特徴マップのため、次元アライメントに対応するためにテンソル特徴のスケールを再構成することは、テンソル特徴マップの内部構造を破壊する可能性がある。 これらの問題に対処するため,画像テンソル特徴を直接処理するための自己アテンション型プラグインモジュールであるSynthesizing Tensor Transformations (STT)を提案する。 問合せキー値間のドット積乗算を計算せずに、基本STTはテンソル変換からなり、視覚情報から合成注意重みを学習する。 STTシリーズの有効性を画像分類と画像キャプションで検証した。 実験により,提案したSTTは,視覚上のタスクに基づく自己注意よりも頑健性を維持しつつ,競争性能を向上することが示された。

Self-attention shows outstanding competence in capturing long-range relationships while enhancing performance on vision tasks, such as image classification and image captioning. However, the self-attention module highly relies on the dot product multiplication and dimension alignment among query-key-value features, which cause two problems: (1) The dot product multiplication results in exhaustive and redundant computation. (2) Due to the visual feature map often appearing as a multi-dimensional tensor, reshaping the scale of the tensor feature to adapt to the dimension alignment might destroy the internal structure of the tensor feature map. To address these problems, this paper proposes a self-attention plug-in module with its variants, namely, Synthesizing Tensor Transformations (STT), for directly processing image tensor features. Without computing the dot-product multiplication among query-key-value, the basic STT is composed of the tensor transformation to learn the synthetic attention weight from visual information. The effectiveness of STT series is validated on the image classification and image caption. Experiments show that the proposed STT achieves competitive performance while keeping robustness compared to self-attention based above vision tasks.
翻訳日:2022-01-06 17:57:34 公開日:2022-01-05
# (参考訳) ニューラルネットワークにおける問題依存的注意と努力 : 画像分解への応用 [全文訳有]

Problem-dependent attention and effort in neural networks with an application to image resolution ( http://arxiv.org/abs/2201.01415v1 )

ライセンス: CC BY 4.0
Chris Rohlfs(参考訳) 本稿では,人間と動物が,その困難度に応じて問題に投じる注意と努力のレベルを変える生物学的現象に触発された,ニューラルネットワークに基づく新しい推定手法を提案する。 提案手法は、代替モデルの内部信頼度を自分自身の投射に活用する。 もし最もコストのかかるモデルがその分類に自信を持っているなら、それは使用される分類であり、そうでなければ、次の最低の実装コストのモデルが実行される、などである。 この連続的な複雑なモデルの使用は、モデルの内部適合度スコアとともに、正しい可能性を評価することで、分類精度の高い標準を維持しながら、リソースの使用を大幅に削減することができる。 このアプローチは、GoogleのStreet View House Numbersデータセットの数値認識問題に適用され、Digital Imageの高解像度および低解像度バージョンでトレーニングされたMultilayer Perceptron(MLP)ニューラルネットワークを使用する。 アルゴリズムはまず低解像度画像を調べ、初期低解像度パスからの分類が高い信頼性を持っていない場合にのみ高解像度画像に移行する。 ここで検討したMLPに対して、このシーケンシャルアプローチは、分類精度を犠牲にすることなく、50\%以上のリソース使用量の削減を可能にする。

This paper introduces a new neural network-based estimation approach that is inspired by the biological phenomenon whereby humans and animals vary the levels of attention and effort that they dedicate to a problem depending upon its difficulty. The proposed approach leverages alternate models' internal levels of confidence in their own projections. If the least costly model is confident in its classification, then that is the classification used; if not, the model with the next lowest cost of implementation is run, and so on. This use of successively more complex models -- together with the models' internal propensity scores to evaluate their likelihood of being correct -- makes it possible to substantially reduce resource use while maintaining high standards for classification accuracy. The approach is applied to the digit recognition problem from Google's Street View House Numbers dataset, using Multilayer Perceptron (MLP) neural networks trained on high- and low-resolution versions of the digit images. The algorithm examines the low-resolution images first, only moving to higher resolution images if the classification from the initial low-resolution pass does not have a high degree of confidence. For the MLPs considered here, this sequential approach enables a reduction in resource usage of more than 50\% without any sacrifice in classification accuracy.
翻訳日:2022-01-06 17:44:33 公開日:2022-01-05
# (参考訳) 災害対応ドローンの物体検出・多目的追跡・再同定の改善

Improving Object Detection, Multi-object Tracking, and Re-Identification for Disaster Response Drones ( http://arxiv.org/abs/2201.01494v1 )

ライセンス: CC BY 4.0
Chongkeun Paik, Hyunwoo J. Kim(参考訳) 我々は,災害対応ドローンの複数のカメラとコンピュータビジョンを用いて,複数の物体を検出し,識別することを目指している。 主な課題は、検出エラーの回避、ID切り替えとフラグメンテーションの解決、マルチスケール機能への適応、グローバルカメラモーションによる複数のビューである。 これらの問題を解決するために2つの簡単なアプローチが提案されている。 1つは、トラックレットアソシエーションを追加した高速マルチカメラシステムで、もう1つは、制限を解決するために高性能検出器とトラッカーを組み込んでいる。 (...) 最初のアプローチ(85.71%)の精度は、検証データセットのベースラインであるFairMOT(85.44%)と比べてわずかに改善されている。 L2-ノルム誤差に基づいて計算された最終的な結果では、ベースラインは48.1であり、提案されたモデルの組み合わせは34.9であり、誤差を27.4%削減する。 第2のアプローチでは、ハードウェアと時間制限のため、DeepSORTは全フレームの4分の1しか処理しないが、DeepSORT (42.9%) のモデルはリコールの点でFairMOT (71.4%) を上回っている。 両モデルはそれぞれ、2020年と2021年に韓国科学省とICTが主催した「AIグランドチャレンジ」で第2位と第3位にランクインした。 ソースコードはこれらのURLで公開されている(github.com/mlvlab/d rone_ai_challenge, github.com/mlvlab/Dr one_Task1, github.com/mlvlab/Ro ny2_task3, github.com/mlvlab/Dr one_task4)。

We aim to detect and identify multiple objects using multiple cameras and computer vision for disaster response drones. The major challenges are taming detection errors, resolving ID switching and fragmentation, adapting to multi-scale features and multiple views with global camera motion. Two simple approaches are proposed to solve these issues. One is a fast multi-camera system that added a tracklet association, and the other is incorporating a high-performance detector and tracker to resolve restrictions. (...) The accuracy of our first approach (85.71%) is slightly improved compared to our baseline, FairMOT (85.44%) in the validation dataset. In the final results calculated based on L2-norm error, the baseline was 48.1, while the proposed model combination was 34.9, which is a great reduction of error by a margin of 27.4%. In the second approach, although DeepSORT only processes a quarter of all frames due to hardware and time limitations, our model with DeepSORT (42.9%) outperforms FairMOT (71.4%) in terms of recall. Both of our models ranked second and third place in the `AI Grand Challenge' organized by the Korean Ministry of Science and ICT in 2020 and 2021, respectively. The source codes are publicly available at these URLs (github.com/mlvlab/d rone_ai_challenge, github.com/mlvlab/Dr one_Task1, github.com/mlvlab/Ro ny2_task3, github.com/mlvlab/Dr one_task4).
翻訳日:2022-01-06 17:34:22 公開日:2022-01-05
# (参考訳) 多視点ステレオにおける深度推定の再考:統一表現と焦点損失 [全文訳有]

Rethinking Depth Estimation for Multi-View Stereo: A Unified Representation and Focal Loss ( http://arxiv.org/abs/2201.01501v1 )

ライセンス: CC BY 4.0
Rui Peng, Rongjie Wang, Zhenyu Wang, Yawen Lai, Ronggang Wang(参考訳) 既存学習型多視点ステレオ手法の回帰・分類問題として深さ推定を解く。 これらの2つの表現は、最近は優れた性能を示しているが、間接学習コストボリュームによって回帰法が過剰に適合する傾向があり、分類法がその離散的な予測のために正確な深さを直接推測することはできないなど、依然として明らかな欠点がある。 本稿では、回帰と分類の利点を統一するために、統一と呼ばれる新しい表現を提案する。 分類法のようなコスト容積を直接制約することができるが、回帰法のようなサブピクセル深度予測も実現できる。 統一化の可能性を明らかにするため, 標本不均衡の課題に対処するために, より均一で合理的な新しい損失関数Unified Focal Lossを設計した。 これら2つの非バーデントモジュールを組み合わせることで、UniMVSNetと呼ばれる粗大なフレームワークを提供する。 DTU と Tanks and Temples のベンチマークで最初にランク付けした結果は、我々のモデルが最高の性能を発揮するだけでなく、最高の一般化能力を持っていることを確認する。

Depth estimation is solved as a regression or classification problem in existing learning-based multi-view stereo methods. Although these two representations have recently demonstrated their excellent performance, they still have apparent shortcomings, e.g., regression methods tend to overfit due to the indirect learning cost volume, and classification methods cannot directly infer the exact depth due to its discrete prediction. In this paper, we propose a novel representation, termed Unification, to unify the advantages of regression and classification. It can directly constrain the cost volume like classification methods, but also realize the sub-pixel depth prediction like regression methods. To excavate the potential of unification, we design a new loss function named Unified Focal Loss, which is more uniform and reasonable to combat the challenge of sample imbalance. Combining these two unburdened modules, we present a coarse-to-fine framework, that we call UniMVSNet. The results of ranking first on both DTU and Tanks and Temples benchmarks verify that our model not only performs the best but also has the best generalization ability.
翻訳日:2022-01-06 17:33:08 公開日:2022-01-05
# (参考訳) 学習静的インデックス作成における標準Vs一様二項探索とその変数--Sorted Data Benchmarking Software Platform上での検索を事例として [全文訳有]

Standard Vs Uniform Binary Search and Their Variants in Learned Static Indexing: The Case of the Searching on Sorted Data Benchmarking Software Platform ( http://arxiv.org/abs/2201.01554v1 )

ライセンス: CC BY 4.0
Domenico Amato, Giosu\`e Lo Bosco, Raffaele Giancarlo(参考訳) The Searching on Sorted Data(略して{\bf SOSD)は、機械学習技術と古典的なアルゴリズムを組み合わせることで、ソートされたテーブルで検索する方法を新しく、非常に効果的な提案である学習インデックスをベンチマークするための高度に設計されたソフトウェアプラットフォームである。 このようなプラットフォームと関連するベンチマーク実験では、自然で直感的な選択に従って、最終探索段階は標準 (textbook) バイナリサーチによって実行される。 しかし、機械学習の予測を使用しない最近の研究は、主ループで \vir{branching} を避けるために合理化されている統一バイナリ検索が、L1 や L2 キャッシュに適合するなど、検索対象のテーブルが比較的小さい場合、その標準よりも性能が優れていることを示している。 k-ary Searchの結果は、大きなテーブルでも参照できる。 Learned Indexesに類似した振る舞いが期待できる。 最先端技術(State of the Art)に忠実な一連の実験により、学習指標(Learnered Indexes)に対して、標準ルーチン(バイナリまたはk-ary Search)の使用は、すべての内部メモリレベルにおいて、Uniformよりも優れていることを示す。 この事実は、これまでの自然選択を定量的に正当化する。 また,一様二項探索とk-ary Searchは,学習インデックスにおける空間の保存に有効であり,時間的性能も良好であることを示す。 本研究は,この新規かつ急速に成長する領域の方法論的意義と,アプリケーションドメイン,例えばデータベースや検索エンジンにおける学習指標の利用に関心のある実践者への情報提供について考察した。

The Searching on Sorted Data ({\bf SOSD}, in short) is a highly engineered software platform for benchmarking Learned Indexes, those latter being a novel and quite effective proposal of how to search in a sorted table by combining Machine Learning techniques with classic Algorithms. In such a platform and in the related benchmarking experiments, following a natural and intuitive choice, the final search stage is performed via the Standard (textbook) Binary Search procedure. However, recent studies, that do not use Machine Learning predictions, indicate that Uniform Binary Search, streamlined to avoid \vir{branching} in the main loop, is superior in performance to its Standard counterpart when the table to be searched into is relatively small, e.g., fitting in L1 or L2 cache. Analogous results hold for k-ary Search, even on large tables. One would expect an analogous behaviour within Learned Indexes. Via a set of extensive experiments, coherent with the State of the Art, we show that for Learned Indexes, and as far as the {\bf SOSD} software is concerned, the use of the Standard routine (either Binary or k-ary Search) is superior to the Uniform one, across all the internal memory levels. This fact provides a quantitative justification of the natural choice made so far. Our experiments also indicate that Uniform Binary and k-ary Search can be advantageous to use in order to save space in Learned Indexes, while granting a good performance in time. Our findings are of methodological relevance for this novel and fast-growing area and informative to practitioners interested in using Learned Indexes in application domains, e.g., Data Bases and Search Engines.
翻訳日:2022-01-06 17:19:43 公開日:2022-01-05
# (参考訳) ガンマ線照射によるシステムオンチップの異常検出のための機械学習 [全文訳有]

Using Machine Learning for Anomaly Detection on a System-on-Chip under Gamma Radiation ( http://arxiv.org/abs/2201.01588v1 )

ライセンス: CC BY 4.0
Eduardo Weber Wachter, Server Kasap, Sefki Kolozali, Xiaojun Zhai, Shoaib Ehsan, Klaus McDonald-Maier(参考訳) 新しいナノスケール技術の出現により、放射線環境における信頼性の高い電子システムの設計に重大な課題が生じた。 TID(Total Ionizing Dose)効果のようないくつかの放射線は、ナノスケールの電子機器に永続的な損傷を与えることが多く、TIDに取り組むための最先端技術は高価な放射線硬化装置を使用する。 本稿では、消費者電子レベルにおける機械学習アルゴリズムを用いて、TID効果に対処し、動作停止前に置き換えるよう監視する、新しい、異なるアプローチに焦点を当てる。 この条件は、基板がtid効果によって完全に故障した場合に予測する研究課題を有する。 我々は,ガンマ線照射下でFPGA基板の内部測定を行い,ガンマ線照射環境におけるセンサ計測の異常を検出するために3種類の機械学習アルゴリズムを用いた。 その結果,ガンマ線被曝レベルと基板測定値との間に有意な相関が認められた。 さらに, この異常検出結果から, 放射基底関数カーネル付きワンクラスサポートベクトルマシンの平均リコールスコアは0.95であることがわかった。 また、ボードが動作しなくなる前にすべての異常を検出することもできる。

The emergence of new nanoscale technologies has imposed significant challenges to designing reliable electronic systems in radiation environments. A few types of radiation like Total Ionizing Dose (TID) effects often cause permanent damages on such nanoscale electronic devices, and current state-of-the-art technologies to tackle TID make use of expensive radiation-hardened devices. This paper focuses on a novel and different approach: using machine learning algorithms on consumer electronic level Field Programmable Gate Arrays (FPGAs) to tackle TID effects and monitor them to replace before they stop working. This condition has a research challenge to anticipate when the board results in a total failure due to TID effects. We observed internal measurements of the FPGA boards under gamma radiation and used three different anomaly detection machine learning (ML) algorithms to detect anomalies in the sensor measurements in a gamma-radiated environment. The statistical results show a highly significant relationship between the gamma radiation exposure levels and the board measurements. Moreover, our anomaly detection results have shown that a One-Class Support Vector Machine with Radial Basis Function Kernel has an average Recall score of 0.95. Also, all anomalies can be detected before the boards stop working.
翻訳日:2022-01-06 17:09:01 公開日:2022-01-05
# (参考訳) 説明可能なAI技術を用いた銀河外超コンパクトドワーフと球状クラスターの検出 [全文訳有]

Detection of extragalactic Ultra-Compact Dwarfs and Globular Clusters using Explainable AI techniques ( http://arxiv.org/abs/2201.01604v1 )

ライセンス: CC BY 4.0
Mohammad Mohammadi, Jarvin Mutatiina, Teymoor Saifollahi, Kerstin Bune(参考訳) 銀河を取り巻く超コンパクト小星(UCD)や球状星団(GC)のような小さな恒星系は、これらの銀河を形成する融合現象のトレーサーとして知られている。 したがって、そのような系を特定することで銀河の集団形成、形成、進化を研究することができる。 しかし、画像データを用いたutds/gcsを検出する分光情報の欠如は極めて不確かである。 ここでは,これらの天体を前景の星や背景銀河から切り離すための機械学習モデルを,U,g,r,i,J,Ksという6つのフィルタでFornax銀河団のマルチ波長イメージングデータを用いて訓練することを目的とする。 オブジェクトのクラスは非常に不均衡であり、多くの自動分類技術に問題がある。 したがって、トレーニングデータの不均衡を処理するために、Synthetic Minority Over-Samplingを採用している。 次に,局所一般化行列学習ベクトル量子化(LGMLVQ)とランダムフォレスト(RF)の2つの分類器を比較した。 どちらの方法も精度と93パーセント以上のリコールでucds/gcsを識別でき、分類における各特徴次元%(色と角の大きさ)の重要性を反映した関連性を提供する。 どちらの方法も、この分類問題の重要なマーカーとして角の大きさを検出する。 u-i と i-Ks の色指数が最も重要な色であることは天文学的に予測されているが、我々は g-r などの色がより有益であることを示す。 優れた性能に加えて、lgmlvq法は、各クラス、クラス毎の代表サンプル、およびこのコントリビューションで示されているようにデータの非線形可視化を可能にすることで、さらなる解釈を可能にしている。 我々は、ucds/gcsを識別するために機械学習技術を使うことは、有望な結果につながると結論づける。

Compact stellar systems such as Ultra-compact dwarfs (UCDs) and Globular Clusters (GCs) around galaxies are known to be the tracers of the merger events that have been forming these galaxies. Therefore, identifying such systems allows to study galaxies mass assembly, formation and evolution. However, in the lack of spectroscopic information detecting UCDs/GCs using imaging data is very uncertain. Here, we aim to train a machine learning model to separate these objects from the foreground stars and background galaxies using the multi-wavelength imaging data of the Fornax galaxy cluster in 6 filters, namely u, g, r, i, J and Ks. The classes of objects are highly imbalanced which is problematic for many automatic classification techniques. Hence, we employ Synthetic Minority Over-sampling to handle the imbalance of the training data. Then, we compare two classifiers, namely Localized Generalized Matrix Learning Vector Quantization (LGMLVQ) and Random Forest (RF). Both methods are able to identify UCDs/GCs with a precision and a recall of >93 percent and provide relevances that reflect the importance of each feature dimension %(colors and angular sizes) for the classification. Both methods detect angular sizes as important markers for this classification problem. While it is astronomical expectation that color indices of u-i and i-Ks are the most important colors, our analysis shows that colors such as g-r are more informative, potentially because of higher signal-to-noise ratio. Besides the excellent performance the LGMLVQ method allows further interpretability by providing the feature importance for each individual class, class-wise representative samples and the possibility for non-linear visualization of the data as demonstrated in this contribution. We conclude that employing machine learning techniques to identify UCDs/GCs can lead to promising results.
翻訳日:2022-01-06 16:43:34 公開日:2022-01-05
# (参考訳) ブリッジと非定常マルチアームバンド [全文訳有]

Bridging Adversarial and Nonstationary Multi-armed Bandit ( http://arxiv.org/abs/2201.01628v1 )

ライセンス: CC BY 4.0
Ningyuan Chen, Shuoguang Yang(参考訳) マルチアームのバンディットフレームワークでは、時変報酬分布を扱うために一般的に使われる2つの定式化がある: 逆バンディットと非定常バンディットである。 本論文では, オーラクル, アルゴリズム, 後悔分析の相違について述べるが, この2つを特殊ケースとしてスムーズにブリッジする統一的な定式化について述べる。 この定式化は、タイムウインドウ内で最高の固定アームを取るオラクルを使用します。 ウィンドウサイズによっては、非定常バンディットの逆バンディットと動的オラクルにおいて後からオラクルになる。 我々は、一致する下限で最適な後悔を得るアルゴリズムを提供する。

In the multi-armed bandit framework, there are two formulations that are commonly employed to handle time-varying reward distributions: adversarial bandit and nonstationary bandit. Although their oracles, algorithms, and regret analysis differ significantly, we provide a unified formulation in this paper that smoothly bridges the two as special cases. The formulation uses an oracle that takes the best-fixed arm within time windows. Depending on the window size, it turns into the oracle in hindsight in the adversarial bandit and dynamic oracle in the nonstationary bandit. We provide algorithms that attain the optimal regret with the matching lower bound.
翻訳日:2022-01-06 16:21:44 公開日:2022-01-05
# (参考訳) データストリーム進化のための適応型オンラインインクリメンタル学習

Adaptive Online Incremental Learning for Evolving Data Streams ( http://arxiv.org/abs/2201.01633v1 )

ライセンス: CC BY 4.0
Si-si Zhang, Jian-wei Liu, Xin Zuo(参考訳) 近年、オンラインインクリメンタル学習への関心が高まっている。 しかし、この分野には3つの大きな課題がある。 最初の大きな困難はコンセプトドリフトであり、つまり、ストリーミングデータの確率分布はデータが到着するにつれて変化する。 第2の難題は、新しい知識を学ぶ際に私たちが学んだことを忘れてしまう壊滅的な難しさです。 私たちがよく無視する最後のものは、潜在表現の学習です。 優れた潜在表現だけがモデルの予測精度を向上させることができる。 我々の研究はこの観察に基づいており、これらの困難を克服しようと試みている。 そこで本研究では,進化するデータストリーム(aoil)のための適応型オンラインインクリメンタル学習を提案する。 一方、メモリモジュールを用いたオートエンコーダでは、メモリモジュールによるオートエンコーダの再構成損失により、メモリモジュールによるオートエンコーダの遅延特性が得られ、概念ドリフトの存在を検知し、更新機構を起動し、モデルパラメータを時間内に調整することができた。 さらに,隠れたレイヤの活性化から派生した特徴を,共通の特徴とプライベートな特徴をそれぞれ抽出するために使用される2つの部分に分割する。 このアプローチによって、モデルが新しいインスタンスのプライベート機能を学ぶことはできますが、私たちが過去に学んだこと(共有機能)を忘れないでください。 同時に、融合特徴ベクトルを得るために、自己認識機構を用いて抽出した特徴を効果的に融合させ、潜在表現学習をさらに改善する。

Recent years have witnessed growing interests in online incremental learning. However, there are three major challenges in this area. The first major difficulty is concept drift, that is, the probability distribution in the streaming data would change as the data arrives. The second major difficulty is catastrophic forgetting, that is, forgetting what we have learned before when learning new knowledge. The last one we often ignore is the learning of the latent representation. Only good latent representation can improve the prediction accuracy of the model. Our research builds on this observation and attempts to overcome these difficulties. To this end, we propose an Adaptive Online Incremental Learning for evolving data streams (AOIL). We use auto-encoder with the memory module, on the one hand, we obtained the latent features of the input, on the other hand, according to the reconstruction loss of the auto-encoder with memory module, we could successfully detect the existence of concept drift and trigger the update mechanism, adjust the model parameters in time. In addition, we divide features, which are derived from the activation of the hidden layers, into two parts, which are used to extract the common and private features respectively. By means of this approach, the model could learn the private features of the new coming instances, but do not forget what we have learned in the past (shared features), which reduces the occurrence of catastrophic forgetting. At the same time, to get the fusion feature vector we use the self-attention mechanism to effectively fuse the extracted features, which further improved the latent representation learning.
翻訳日:2022-01-06 16:00:44 公開日:2022-01-05
# (参考訳) 生物医学文献からの知識グラフ作成のための関係抽出 [全文訳有]

Relationship extraction for knowledge graph creation from biomedical literature ( http://arxiv.org/abs/2201.01647v1 )

ライセンス: CC BY-SA 4.0
Nikola Milosevic, Wolfgang Thielemann(参考訳) 生物医学の研究は指数関数的なペースで成長しており、科学者、研究者、実践者はドメイン内の出版文献の量に対処できない。 文献で提示される知識は、主張や仮説を容易に見つけ、アクセスし、検証できる方法で体系化する必要がある。 知識グラフは、文献から意味的知識を表現するためのフレームワークを提供することができる。 しかし, 知識グラフを構築するためには, バイオメディカルエンティティ間の関係の形で知識を抽出し, 実体と関係型の両方を正規化する必要がある。 本稿では、バイオメディカル文献からのスケーラブルな関係抽出手法として、ルールベースと機械学習ベース(ナイーブベイズ、ランダムフォレスト、現代の深層学習の例としてT5ベースのモデル)を、知識グラフに統合するために提示し、比較する。 T5モデルは、大きなC4データセットとバランスの取れていないデータで事前トレーニングされているため、小さなデータセットの両方をうまく扱えることを示す。 最高のパフォーマンスモデルはバランスの取れたデータに基づいて微調整されたT5モデルで、F1スコアは0.88である。

Biomedical research is growing in such an exponential pace that scientists, researchers and practitioners are no more able to cope with the amount of published literature in the domain. The knowledge presented in the literature needs to be systematized in such a ways that claims and hypothesis can be easily found, accessed and validated. Knowledge graphs can provide such framework for semantic knowledge representation from literature. However, in order to build knowledge graph, it is necessary to extract knowledge in form of relationships between biomedical entities and normalize both entities and relationship types. In this paper, we present and compare few rule-based and machine learning-based (Naive Bayes, Random Forests as examples of traditional machine learning methods and T5-based model as an example of modern deep learning) methods for scalable relationship extraction from biomedical literature for the integration into the knowledge graphs. We examine how resilient are these various methods to unbalanced and fairly small datasets, showing that T5 model handles well both small datasets, due to its pre-training on large C4 dataset as well as unbalanced data. The best performing model was T5 model fine-tuned on balanced data, with reported F1-score of 0.88.
翻訳日:2022-01-06 15:59:14 公開日:2022-01-05
# (参考訳) 確率的ブロック最大化最小化の収束と複雑性

Convergence and Complexity of Stochastic Block Majorization-Minimiz ation ( http://arxiv.org/abs/2201.01652v1 )

ライセンス: CC BY 4.0
Hanbaek Lyu(参考訳) Stochastic Majorization-minimiz ation (SMM) は、固定データ分布からデータポイントをサンプリングし、目的関数の再帰的に定義されたMajorization surrogateを最小化する古典的なMajorization-minimiz ationのオンライン拡張である。 本稿では,サロゲートが多重凸のみをブロックし,単一ブロックが縮小半径内で一度に最適化される確率的ブロック偏化最小化を提案する。 SMMにおけるサロゲートの標準凸性要件を緩和し、オンラインCANDECOMP/PARAFAC(CP )辞書学習を含む幅広い適用性を提供し、特に問題次元が大きい場合の計算効率を向上する。 提案手法は,データサンプルに対する標準i.i.d.仮定を緩和し,潜在的に依存するデータストリームを導出する。 提案アルゴリズムは,実験損失関数に対して$O((\log n)^{1+\eps}/n^{1/2})$,期待損失関数に対して$O((\log n)^{1+\eps}/n^{1/4})$で制約の下で,非凸対象の定常点の集合にほぼ確実に収束することを示す。 追加の仮定の下では、後者の収束率は$o((\log n)^{1+\eps}/n^{1/2})$に改善できる。 本研究では,オンライン行列およびテンソル分解アルゴリズムに対して,一般マルコフデータ設定下で最初の収束率境界を与える。

Stochastic majorization-minimiz ation (SMM) is an online extension of the classical principle of majorization-minimiz ation, which consists of sampling i.i.d. data points from a fixed data distribution and minimizing a recursively defined majorizing surrogate of an objective function. In this paper, we introduce stochastic block majorization-minimiz ation, where the surrogates can now be only block multi-convex and a single block is optimized at a time within a diminishing radius. Relaxing the standard strong convexity requirements for surrogates in SMM, our framework gives wider applicability including online CANDECOMP/PARAFAC (CP) dictionary learning and yields greater computational efficiency especially when the problem dimension is large. We provide an extensive convergence analysis on the proposed algorithm, which we derive under possibly dependent data streams, relaxing the standard i.i.d. assumption on data samples. We show that the proposed algorithm converges almost surely to the set of stationary points of a nonconvex objective under constraints at a rate $O((\log n)^{1+\eps}/n^{1/2})$ for the empirical loss function and $O((\log n)^{1+\eps}/n^{1/4})$ for the expected loss function, where $n$ denotes the number of data samples processed. Under some additional assumption, the latter convergence rate can be improved to $O((\log n)^{1+\eps}/n^{1/2})$. Our results provide first convergence rate bounds for various online matrix and tensor decomposition algorithms under a general Markovian data setting.
翻訳日:2022-01-06 15:43:40 公開日:2022-01-05
# (参考訳) 線形二次ガウス系学習における後悔下限

Regret Lower Bounds for Learning Linear Quadratic Gaussian Systems ( http://arxiv.org/abs/2201.01680v1 )

ライセンス: CC BY 4.0
Ingvar Ziemann, Henrik Sandberg(参考訳) 本稿では,LQG系を適応的に制御するための局所的ミニマックス後悔低境界について述べる。 我々は、スムーズなパラメトリズドインスタンスを検討し、問題構造を考慮するのに十分なインスタンス固有かつ柔軟な対数的後悔がいつ不可能かを理解する。 この理解は2つの重要な概念に依存している: 局所的不定形性; 最適ポリシーが最適ポリシーの識別に十分な励起を提供しておらず、縮退したフィッシャー情報行列を与えるとき; および、ポリシーに依存した情報行列の小さな固有値が、そのポリシーの後悔の点において有界であるときの情報-相対有界性(information-regret- boundedness)である。 ベイズ推定への還元とヴァン・ツリーの不等式の適用と合わせて、これら2つの条件は時間地平線において等級$\sqrt{T}$の後悔境界を証明するのに十分である。 この方法は、厳密な次元依存を示す下界を導き、制御理論問題定数で自然にスケールする。 例えば、限界安定性に近いシステムの動作は、基本的に制御の習得が難しいことを証明できます。 さらに、これらの条件を満たすシステムの大規模なクラス、中でも$A$-および$B$-matricesが不明な状態フィードバックシステムを示す。 最も重要なことは、本質的に過飽和な部分可観測系の非自明なクラスがこれらの条件を満たすこと、従って、$\sqrt{T}$下界が部分可観測系にも有効であることを示すことである。 最後に、我々の下界が古典的な制御理論の直観を捉えていることを示す2つの単純な例に目を向ける。

This paper presents local minimax regret lower bounds for adaptively controlling linear-quadratic-Gau ssian (LQG) systems. We consider smoothly parametrized instances and provide an understanding of when logarithmic regret is impossible which is both instance specific and flexible enough to take problem structure into account. This understanding relies on two key notions: That of local-uninformativen ess; when the optimal policy does not provide sufficient excitation for identification of the optimal policy, and yields a degenerate Fisher information matrix; and that of information-regret-b oundedness, when the small eigenvalues of a policy-dependent information matrix are boundable in terms of the regret of that policy. Combined with a reduction to Bayesian estimation and application of Van Trees' inequality, these two conditions are sufficient for proving regret bounds on order of magnitude $\sqrt{T}$ in the time horizon, $T$. This method yields lower bounds that exhibit tight dimensional dependencies and scale naturally with control-theoretic problem constants. For instance, we are able to prove that systems operating near marginal stability are fundamentally hard to learn to control. We further show that large classes of systems satisfy these conditions, among them any state-feedback system with both $A$- and $B$-matrices unknown. Most importantly, we also establish that a nontrivial class of partially observable systems, essentially those that are over-actuated, satisfy these conditions, thus providing a $\sqrt{T}$ lower bound also valid for partially observable systems. Finally, we turn to two simple examples which demonstrate that our lower bound captures classical control-theoretic intuition: our lower bounds diverge for systems operating near marginal stability or with large filter gain -- these can be arbitrarily hard to (learn to) control.
翻訳日:2022-01-06 15:42:25 公開日:2022-01-05
# (参考訳) 機械学習学習作業負荷に対する動的GPUエネルギー最適化 [全文訳有]

Dynamic GPU Energy Optimization for Machine Learning Training Workloads ( http://arxiv.org/abs/2201.01684v1 )

ライセンス: CC BY 4.0
Farui Wang, Weizhe Zhang, Shichao Lai, Meng Hao, Zheng Wang(参考訳) GPUは機械学習ワークロードのトレーニングを加速するために広く使用されている。 現代の機械学習モデルがますます大きくなるにつれて、トレーニングに長い時間を要するようになり、GPUエネルギー消費が増加する。 本稿では、機械学習トレーニングワークロードのためのオンラインGPUエネルギー最適化フレームワークGPOEOを提案する。 GPOEOは、オンライン計測、多目的予測モデリング、探索最適化のための新しい手法を用いて、最適エネルギー構成を動的に決定する。 ターゲットのワークロードの挙動を特徴付けるために、GPOEOはGPUパフォーマンスカウンタを使用している。 性能カウンタのプロファイリングオーバーヘッドを低減するため、解析モデルを用いてトレーニングイテレーションの変更を検出し、イテレーションシフトを検出した場合にのみパフォーマンスカウンタデータを収集する。 GPOEOは勾配向上に基づく多目的モデルと局所探索アルゴリズムを用いて実行時間とエネルギー消費のトレードオフを求める。 NVIDIA RTX3080Ti GPU上で動作する2つのAIベンチマークスイートから、71の機械学習ワークロードに適用することにより、GPOEOを評価する。 NVIDIAのデフォルトのスケジューリング戦略と比較すると、GPOEOは平均エネルギーを16.2%削減し、平均実行時間は5.1%増加した。

GPUs are widely used to accelerate the training of machine learning workloads. As modern machine learning models become increasingly larger, they require a longer time to train, leading to higher GPU energy consumption. This paper presents GPOEO, an online GPU energy optimization framework for machine learning training workloads. GPOEO dynamically determines the optimal energy configuration by employing novel techniques for online measurement, multi-objective prediction modeling, and search optimization. To characterize the target workload behavior, GPOEO utilizes GPU performance counters. To reduce the performance counter profiling overhead, it uses an analytical model to detect the training iteration change and only collects performance counter data when an iteration shift is detected. GPOEO employs multi-objective models based on gradient boosting and a local search algorithm to find a trade-off between execution time and energy consumption. We evaluate the GPOEO by applying it to 71 machine learning workloads from two AI benchmark suites running on an NVIDIA RTX3080Ti GPU. Compared with the NVIDIA default scheduling strategy, GPOEO delivers a mean energy saving of 16.2% with a modest average execution time increase of 5.1%.
翻訳日:2022-01-06 15:41:00 公開日:2022-01-05
# (参考訳) コメント・サブ記事の効果的なデジタル化戦略--テクスチュアル・ヒストリーの構築に向けて [全文訳有]

Strategies of Effective Digitization of Commentaries and Sub-commentaries: Towards the Construction of Textual History ( http://arxiv.org/abs/2201.01693v1 )

ライセンス: CC BY 4.0
Diptesh Kanojia, Malhar Kulkarni, Sayali Ghodekar, Eivind Kahrs, Pushpak Bhattacharyya(参考訳) 本稿では,「テキスト歴史ツール」と呼ばれるデジタルツールについて述べる。 文献学者がテキスト上で注釈やサブ記事のデジタル化に役立てるかもしれない特徴に特化して、その多彩な特徴について述べる。 このツールは、様々な時間段階を通してテキストの歴史的進化を捉え、様々な種類の関連テキストから得られた相互関連データをキャプチャする。 我々は、K\=a\'sik\=avrtti(KV)のテキストをサンプルテキストとして使用し、文献学者の助けを借りて、利用可能な注釈をデジタル化する。 我々は、Ny\=asa (Ny)、Padama\~njar\=i (Pm)、およびTantraprad\=ipa (Tp)、Makaranda (Mk)として知られるKVテキストのサブコメンタをデジタル化する。 各論点と副論点を機能単位に分割し,機能単位分割の背後にある方法論と動機を説明する。 我々の機能単位は、ツールに入力されたデータを用いた距離法に基づいて、テキストのより正確な系統木を生成するのに役立ちます。

This paper describes additional aspects of a digital tool called the 'Textual History Tool'. We describe its various salient features with special reference to those of its features that may help the philologist digitize commentaries and sub-commentaries on a text. This tool captures the historical evolution of a text through various temporal stages, and interrelated data culled from various types of related texts. We use the text of the K\=a\'sik\=avrtti (KV) as a sample text, and with the help of philologists, we digitize the commentaries available to us. We digitize the Ny\=asa (Ny), the Padama\~njar\=i (Pm) and sub commentaries on the KV text known as the Tantraprad\=ipa (Tp), and the Makaranda (Mk). We divide each commentary and sub-commentary into functional units and describe the methodology and motivation behind the functional unit division. Our functional unit division helps generate more accurate phylogenetic trees for the text, based on distance methods using the data entered in the tool.
翻訳日:2022-01-06 15:13:42 公開日:2022-01-05
# (参考訳) ベン・フォードの法則の発散と機械学習による指紋画像の分離性の検討 [全文訳有]

An Investigation Of Ben-ford's Law Divergence And Machine Learning Techniques For Separability Of Fingerprint Images ( http://arxiv.org/abs/2201.01699v1 )

ライセンス: CC BY 4.0
Aamo Iorliam, Orgem Emmanuel, and Yahaya I. Shehu(参考訳) 指紋データベースを攻撃者から守ることは、偽の受け入れ率や偽の拒絶率から保護するために非常に重要である。 指紋画像の識別における重要な特徴は、これらの異なる種類の指紋画像の特徴を利用することである。 本論文の目的は,指紋画像の分類を行うことである。

Protecting a fingerprint database against attackers is very vital in order to protect against false acceptance rate or false rejection rate. A key property in distinguishing fingerprint images is by exploiting the characteristics of these different types of fingerprint images. The aim of this paper is to perform the classification of fingerprint images.
翻訳日:2022-01-06 15:07:29 公開日:2022-01-05
# (参考訳) カラカヨガタの捕獲戦略 : アパダナを中心に [全文訳有]

Some Strategies to Capture Karaka-Yogyata with Special Reference to apadana ( http://arxiv.org/abs/2201.01700v1 )

ライセンス: CC BY 4.0
Swaraja Salaskar, Diptesh Kanojia, Malhar Kulkarni(参考訳) 今日のデジタルワールド言語技術は重要になっている。 いくつかのソフトウェアが開発され、計算言語学の分野で利用可能である。 このようなツールは、古典語テキストを容易にアクセスできるようにする上で重要な役割を果たす。 インド哲学のいくつかの学派は、文章を正しく分析するための言語認知の様々な技術に寄与している。 これらの理論は、word sense disambiguation (wsd) のための計算ツールを構築するのに使うことができる。 WSDがなければ、適切な言語認知を持つことはできない。 これらの理論は「ヨージャト=a」の概念を言語認知の欠かせない原因とみなした。 そこで本研究では,これらの理論に基づいて,Yogyat\=a 個の単語をキャプチャするツールの開発について考察する。 テキストにおける曖昧さの問題を記述し、Yogyat\=a の助けを借りて計算的に解決する方法を提案する。 ここでは、Ny\=ayaとVy\=akaranaの2校のみが検討されている。 本論文は,本分野におけるツール作成の意義を示すものである。 また,このツールには,「オントロジータグセット」の作成や,レキシコンのマークアップ戦略も含んでいる。 本論文ではアブレーションの初回説明についても述べる。 このような戦略といくつかのケーススタディは、私たちの論文の中核を形成します。

In today's digital world language technology has gained importance. Several softwares, have been developed and are available in the field of computational linguistics. Such tools play a crucial role in making classical language texts easily accessible. Some Indian philosophical schools have contributed towards various techniques of verbal cognition to analyze sentences correctly. These theories can be used to build computational tools for word sense disambiguation (WSD). In the absence of WSD, one cannot have proper verbal cognition. These theories considered the concept of 'Yogyat\=a' (congruity or compatibility) as the indispensable cause of verbal cognition. In this work, we come up with some insights on the basis of these theories to create a tool that will capture Yogyat\=a of words. We describe the problem of ambiguity in a text and present a method to resolve it computationally with the help of Yogyat\=a. Here, only two major schools i.e. Ny\=aya and Vy\=akarana are considered. Our paper attempts to show the implication of the creation of our tool in this area. Also, our tool involves the creation of an 'ontological tag-set' as well as strategies to mark up the lexicon. The introductory description of ablation is also covered in this paper. Such strategies and some case studies shall form the core of our paper.
翻訳日:2022-01-06 15:02:28 公開日:2022-01-05
# (参考訳) 交叉確率:確率間隔の賭け

The intersection probability: betting with probability intervals ( http://arxiv.org/abs/2201.01729v1 )

ライセンス: CC BY-SA 4.0
Fabio Cuzzolin(参考訳) 確率間隔は不確実性の下で推論するための魅力的なツールである。 しかし、信念関数とは異なり、それらは実用理論の枠組みにおける決定に使用される自然な確率変換を欠いている。 本稿では,不確実性に対する幾何学的アプローチの枠組みにおいて,元来は信念関数に導かれる交叉確率を最も自然な変換として用いることを提案する。 その理論と定義を想起し、確率区間の体系の他の候補表現と比較し、確率シンプレックスにおける一対の単純さの焦点としてその決定的合理性について議論し、信念関数の伝達可能信念モデルに類似した確率区間の意思決定枠組みを概説する。

Probability intervals are an attractive tool for reasoning under uncertainty. Unlike belief functions, though, they lack a natural probability transformation to be used for decision making in a utility theory framework. In this paper we propose the use of the intersection probability, a transform derived originally for belief functions in the framework of the geometric approach to uncertainty, as the most natural such transformation. We recall its rationale and definition, compare it with other candidate representives of systems of probability intervals, discuss its credal rationale as focus of a pair of simplices in the probability simplex, and outline a possible decision making framework for probability intervals, analogous to the Transferable Belief Model for belief functions.
翻訳日:2022-01-06 14:57:17 公開日:2022-01-05
# 画素単位残留収縮ネットワークを用いたロバスト光子効率イメージング

Robust photon-efficient imaging using a pixel-wise residual shrinkage network ( http://arxiv.org/abs/2201.01453v1 )

ライセンス: Link先を確認
Gongxin Yao, Yiwei Chen, Yong Liu, Xiaomin Hu and Yu Pan(参考訳) 単一光子光検出・測位(lidar)は困難なシナリオで3dイメージングに広く応用されている。 しかし、限られた信号光子数と収集データ中の高ノイズは、深度画像を正確に予測する上で大きな課題となっている。 本稿では,各画素の最適なしきい値を適応的に生成し,ソフトしきい値により中間特性を解消する高ノイズデータからの光子効率イメージングのための画素単位残差縮小ネットワークを提案する。 さらに、最適化対象を画素単位の分類として再定義することで、既存の研究と比較した場合、確実かつ正確な深度推定が可能である。 シミュレーションと実世界の両方のデータセットで実施された総合的な実験により、提案モデルは最先端技術より優れ、1:100の極端ケースを含む異なる信号対雑音比で堅牢な撮像性能を維持することが示された。

Single-photon light detection and ranging (LiDAR) has been widely applied to 3D imaging in challenging scenarios. However, limited signal photon counts and high noises in the collected data have posed great challenges for predicting the depth image precisely. In this paper, we propose a pixel-wise residual shrinkage network for photon-efficient imaging from high-noise data, which adaptively generates the optimal thresholds for each pixel and denoises the intermediate features by soft thresholding. Besides, redefining the optimization target as pixel-wise classification provides a sharp advantage in producing confident and accurate depth estimation when compared with existing research. Comprehensive experiments conducted on both simulated and real-world datasets demonstrate that the proposed model outperforms the state-of-the-arts and maintains robust imaging performance under different signal-to-noise ratios including the extreme case of 1:100.
翻訳日:2022-01-06 14:56:25 公開日:2022-01-05
# 逆拡張カルマンフィルタ

Inverse Extended Kalman Filter ( http://arxiv.org/abs/2201.01539v1 )

ライセンス: Link先を確認
Himali Singh, Arpan Chattopadhyay and Kumar Vijay Mishra(参考訳) 近年の対逆系の進歩は、ベイズの観点からの逆フィルタリングに大きな研究関心を集めている。 例えば、敵のカルマンフィルタを推定することへの関心は、敵の将来のステップを予測する目的で追跡された推定を追跡することとなり、最近の逆カルマンフィルタ (i-kf) の定式化に繋がった。 この逆フィルタの文脈では、逆拡張カルマンフィルタ(I-EKF)を提案し、非線形プロセスダイナミクスと未知のフォワードフィルタへの入力の重要な課題に対処する。 我々は、前方および逆状態空間モデルにおける非線形性を考慮し、未知の入力を伴わないI-EKFを導出する。 この過程では、I-KF-with-unknown-in putも得られる。 次に, 有界非線形性と未知行列法の両方を用いて, 理論的安定性を保証する。 さらにこれらの定式化を一般化し、高次、ガウススム、およびディザードI-EKFの場合に結果を与える。 再帰的クラム・ラーオ下界をベンチマークとして, 様々な逆フィルタの数値実験を行った。

Recent advances in counter-adversarial systems have garnered significant research interest in inverse filtering from a Bayesian perspective. For example, interest in estimating the adversary's Kalman filter tracked estimate with the purpose of predicting the adversary's future steps has led to recent formulations of inverse Kalman filter (I-KF). In this context of inverse filtering, we address the key challenges of nonlinear process dynamics and unknown input to the forward filter by proposing inverse extended Kalman filter (I-EKF). We derive I-EKF with and without an unknown input by considering nonlinearity in both forward and inverse state-space models. In the process, I-KF-with-unknown-in put is also obtained. We then provide theoretical stability guarantees using both bounded nonlinearity and unknown matrix approaches. We further generalize these formulations and results to the case of higher-order, Gaussian-sum, and dithered I-EKFs. Numerical experiments validate our methods for various proposed inverse filters using the recursive Cram\'er-Rao lower bound as a benchmark.
翻訳日:2022-01-06 14:56:09 公開日:2022-01-05
# RL支援インセンティブスキームによるオフセット不等競争

Offsetting Unequal Competition through RL-assisted Incentive Schemes ( http://arxiv.org/abs/2201.01450v1 )

ライセンス: Link先を確認
Paramita Koley, Aurghya Maiti, Sourangshu Bhattacharya, and Niloy Ganguly(参考訳) 本稿では,不平等な専門知識を持つ組織間の競争のダイナミクスについて検討する。 マルチエージェント強化学習は、このような不平等を相殺するために設計された様々なインセンティブスキームの影響をシミュレートし、理解するために使われてきた。 このゲームでは、不平等だがスキルレベルが変化している2つのチーム(弱く強い)が互いに競い合う。 そこで,本研究では,マルチエージェント強化学習アルゴリズム \our\ を提案する。これは,各エージェントにポリシーのアンサンブルを付与するとともに,サンプル空間を選択的に分割することで,チームメート間のインテリジェントなロール分割を誘発する教師付きコントローラである。 C-MADDPGを基盤となるフレームワークとして、両チームの最終的な報酬が同じになるように、弱いチームのためのインセンティブスキームを提案する。 インセンティブにもかかわらず、弱いチームの最終的な報酬は、強いチームから外れていることに気付きます。 検査では、弱いチームの全体的なインセンティブスキームが、そのチーム内の弱いエージェントに学習と改善のインセンティブを与えないことに気付きました。 これを相殺するため、我々は、より弱いプレイヤーに学習のインセンティブを与え、その結果、初期段階を超えて弱いチームがより強いチームと同等のパフォーマンスを発揮することを観察する。 論文の最終目標は、2つのチームの報酬を継続的にバランスをとる動的インセンティブスキームを策定することであった。 これは環境から最小限の情報を取得するrlエージェントを富んだインセンティブスキームを考案することで実現される。

This paper investigates the dynamics of competition among organizations with unequal expertise. Multi-agent reinforcement learning has been used to simulate and understand the impact of various incentive schemes designed to offset such inequality. We design Touch-Mark, a game based on well-known multi-agent-particle -environment, where two teams (weak, strong) with unequal but changing skill levels compete against each other. For training such a game, we propose a novel controller assisted multi-agent reinforcement learning algorithm \our\, which empowers each agent with an ensemble of policies along with a supervised controller that by selectively partitioning the sample space, triggers intelligent role division among the teammates. Using C-MADDPG as an underlying framework, we propose an incentive scheme for the weak team such that the final rewards of both teams become the same. We find that in spite of the incentive, the final reward of the weak team falls short of the strong team. On inspecting, we realize that an overall incentive scheme for the weak team does not incentivize the weaker agents within that team to learn and improve. To offset this, we now specially incentivize the weaker player to learn and as a result, observe that the weak team beyond an initial phase performs at par with the stronger team. The final goal of the paper has been to formulate a dynamic incentive scheme that continuously balances the reward of the two teams. This is achieved by devising an incentive scheme enriched with an RL agent which takes minimum information from the environment.
翻訳日:2022-01-06 14:55:39 公開日:2022-01-05
# 準閉位相前方線形予測解析とディープニューラルネットワークを用いたフォルマント追跡

Formant Tracking Using Quasi-Closed Phase Forward-Backward Linear Prediction Analysis and Deep Neural Networks ( http://arxiv.org/abs/2201.01525v1 )

ライセンス: Link先を確認
Dhananjaya Gowda, Bajibabu Bollepalli, Sudarsana Reddy Kadiri, Paavo Alku(参考訳) 本研究では,動的プログラミング(DP)とディープニューラルネット(DNN)に基づくトラッカーを用いてホルマント追跡を行う。 dp法を用いて6つのフォルマント推定法を最初に比較した。 6つの手法は線形予測(LP)アルゴリズム、重み付きLPアルゴリズム、最近開発された準閉相フォワード(QCP-FB)法である。 QCP-FBは比較で最高の性能を示した。 そこで,QCP-FBに基づく深層学習と信号処理の利点を組み合わせた新しいフォルマント追跡手法を提案する。 本手法では,同一フレームからQCP-FBによって計算された全極スペクトルのピークを用いて,音声フレームからDNNベースのトラッカーによって予測されるフォルマントを改良する。 その結果,提案したDNNトラッカーは,基準ホルマントトラッカーと比較して,最低3ホルマント検出率と推定誤差の両方が良好であった。 例えば、人気のあるwaveurferと比較すると、提案されているトラッカーは、最低3つのフォルマントに対する推定誤差が29%、48%、35%減少している。

Formant tracking is investigated in this study by using trackers based on dynamic programming (DP) and deep neural nets (DNNs). Using the DP approach, six formant estimation methods were first compared. The six methods include linear prediction (LP) algorithms, weighted LP algorithms and the recently developed quasi-closed phase forward-backward (QCP-FB) method. QCP-FB gave the best performance in the comparison. Therefore, a novel formant tracking approach, which combines benefits of deep learning and signal processing based on QCP-FB, was proposed. In this approach, the formants predicted by a DNN-based tracker from a speech frame are refined using the peaks of the all-pole spectrum computed by QCP-FB from the same frame. Results show that the proposed DNN-based tracker performed better both in detection rate and estimation error for the lowest three formants compared to reference formant trackers. Compared to the popular Wavesurfer, for example, the proposed tracker gave a reduction of 29%, 48% and 35% in the estimation error for the lowest three formants, respectively.
翻訳日:2022-01-06 14:55:12 公開日:2022-01-05
# 大規模集合データセットを用いた深層学習によるCoughからのCOVID-19分類

Using Deep Learning with Large Aggregated Datasets for COVID-19 Classification from Cough ( http://arxiv.org/abs/2201.01669v1 )

ライセンス: Link先を確認
Esin Darici, Nicholas Rasmussen, Jennifer Ranjani J., Jaclyn Xiao, Gunvant Chaudhari, Akanksha Rajput, Praveen Govindan, Minami Yamaura, Laura Gomezjurado, Amil Khanzada, Mert Pilanci(参考訳) コビッドウイルスのパンデミックは、世界中で500万人以上の人々が暮らしていると主張し、人類を苦しめている。 ワクチンは世界中で配布されているが、従来の医療にアクセスできない地域向けに安価なスクリーニング技術が必要であることは明らかである。 人工知能は、粗音を主スクリーニングモードとして利用するソリューションを提供することができる。 本稿では,現在学術文献で提示されている最大の評価データセットにおいて,比較的高いパーフォーマンスを達成した複数のモデルを提案する。 さらに、トレーニングデータサイズによってパフォーマンスが向上し、非伝統的な手段でCovid-19パンデミックと戦うために、世界中のデータ収集の必要性が示される。

The Covid-19 pandemic has been a scourge upon humanity, claiming the lives of more than 5 million people worldwide. Although vaccines are being distributed worldwide, there is an apparent need for affordable screening techniques to serve parts of the world that do not have access to traditional medicine. Artificial Intelligence can provide a solution utilizing cough sounds as the primary screening mode. This paper presents multiple models that have achieved relatively respectable perfor mance on the largest evaluation dataset currently presented in academic literature. Moreover, we also show that performance increases with training data size, showing the need for the world wide collection of data to help combat the Covid-19 pandemic with non-traditional means.
翻訳日:2022-01-06 14:54:55 公開日:2022-01-05
# (参考訳) Atomized Search長: ユーザモデルを超えて [全文訳有]

Atomized Search Length: Beyond User Models ( http://arxiv.org/abs/2201.01745v1 )

ライセンス: CC BY 4.0
John Alex, Keith Hall, Donald Metzler(参考訳) ユーザエクスペリエンスの最適化をモデルとした現在のIRメトリクスは、IR空間のごく一部を計測しすぎている、と我々は主張する。 IRシステムが弱い場合、これらのメトリクスは、改善が必要なより深いドキュメントをアンサンプまたは完全にフィルタリングする。 irシステムが比較的強力な場合、これらのメトリクスはより深い関連文書のサンプルとなり、より強力なirシステムを支える可能性がある。 我々は過去28年間に70以上のtrecトラックを再分析し、上位の文書の約半分と下位の文書のほぼすべてを示した。 2020年のDeep Learningのトラックでは、ニューラルネットワークが最上位のドキュメントでほぼ最適であったのに対し、尾のドキュメントではBM25よりもわずかに向上していた。 我々の分析は,任意の深さですべての関連文書を正確に均一に測定できる,単純なシステム指向の基準である「原子探索長」に基づいている。

We argue that current IR metrics, modeled on optimizing user experience, measure too narrow a portion of the IR space. If IR systems are weak, these metrics undersample or completely filter out the deeper documents that need improvement. If IR systems are relatively strong, these metrics undersample deeper relevant documents that could underpin even stronger IR systems, ones that could present content from tens or hundreds of relevant documents in a user-digestible hierarchy or text summary. We reanalyze over 70 TREC tracks from the past 28 years, showing that roughly half undersample top ranked documents and nearly all undersample tail documents. We show that in the 2020 Deep Learning tracks, neural systems were actually near-optimal at top-ranked documents, compared to only modest gains over BM25 on tail documents. Our analysis is based on a simple new systems-oriented metric, 'atomized search length', which is capable of accurately and evenly measuring all relevant documents at any depth.
翻訳日:2022-01-06 14:53:07 公開日:2022-01-05
# 可変次元変換に基づく3次元事前トレーニングによる3次元医用画像解析の促進

Advancing 3D Medical Image Analysis with Variable Dimension Transform based Supervised 3D Pre-training ( http://arxiv.org/abs/2201.01426v1 )

ライセンス: Link先を確認
Shu Zhang, Zihao Li, Hong-Yu Zhou, Jiechao Ma, Yizhou Yu(参考訳) データ取得とアノテーションの両面での困難さは、3次元医用イメージングアプリケーションのためのトレーニングデータセットのサンプルサイズを著しく制限する。 その結果、十分な事前学習パラメータがない場合、スクラッチから高性能な3D畳み込みニューラルネットワークを構築することは難しい課題である。 従来の3D事前学習の取り組みは、予測的あるいはコントラスト的な学習をラベルのないデータに用い、不変な3D表現を構築する自己教師型アプローチにしばしば依存していた。 しかし、大規模な監視情報の入手が不可能なため、これらの学習フレームワークから意味的不変性と識別的表現を得ることは依然として問題である。 本稿では,大規模な2次元自然画像データセットからのセマンティックインテリジェンスを活用するために,革新的でシンプルな3Dネットワーク事前学習フレームワークを再考する。 再設計された3Dネットワークアーキテクチャにより、データ不足の問題に対処し、強力な3D表現を開発するために、修正された自然画像が使用される。 4つのベンチマークデータセットの総合的な実験により、提案した事前学習モデルが収束を効果的に加速し、分類、セグメンテーション、検出などの様々な3D医療画像タスクの精度を向上させることが示されている。 さらに、スクラッチからのトレーニングと比較して、最大60%のアノテーションの労力を節約できます。 nih deeplesionデータセット上でも同様に最先端検出性能を達成し、以前の自己教師付き、完全に教師付き事前トレーニングアプローチよりも優れており、スクラッチからトレーニングを行う方法も備えている。 3D医療モデルのさらなる開発を容易にするため,我々のコードと事前学習モデルウェイトはhttps://github.com/u rmagicsmine/CSPRで公開されている。

The difficulties in both data acquisition and annotation substantially restrict the sample sizes of training datasets for 3D medical imaging applications. As a result, constructing high-performance 3D convolutional neural networks from scratch remains a difficult task in the absence of a sufficient pre-training parameter. Previous efforts on 3D pre-training have frequently relied on self-supervised approaches, which use either predictive or contrastive learning on unlabeled data to build invariant 3D representations. However, because of the unavailability of large-scale supervision information, obtaining semantically invariant and discriminative representations from these learning frameworks remains problematic. In this paper, we revisit an innovative yet simple fully-supervised 3D network pre-training framework to take advantage of semantic supervisions from large-scale 2D natural image datasets. With a redesigned 3D network architecture, reformulated natural images are used to address the problem of data scarcity and develop powerful 3D representations. Comprehensive experiments on four benchmark datasets demonstrate that the proposed pre-trained models can effectively accelerate convergence while also improving accuracy for a variety of 3D medical imaging tasks such as classification, segmentation and detection. In addition, as compared to training from scratch, it can save up to 60% of annotation efforts. On the NIH DeepLesion dataset, it likewise achieves state-of-the-art detection performance, outperforming earlier self-supervised and fully-supervised pre-training approaches, as well as methods that do training from scratch. To facilitate further development of 3D medical models, our code and pre-trained model weights are publicly available at https://github.com/u rmagicsmine/CSPR.
翻訳日:2022-01-06 14:38:51 公開日:2022-01-05
# RGBDセマンティックセグメンテーションのためのアテンションベースデュアルスーパービジョンデコーダ

Attention-based Dual Supervised Decoder for RGBD Semantic Segmentation ( http://arxiv.org/abs/2201.01427v1 )

ライセンス: Link先を確認
Yang Zhang, Yang Yang, Chenyun Xiong, Guodong Sun, Yanwen Guo(参考訳) エンコーダ-デコーダモデルはrgbdセマンティクスセグメンテーションで広く使われており、そのほとんどは2ストリームネットワークで設計されている。 一般に、rgbdから色と幾何学的情報を共同推論することは意味セグメンテーションに有用である。 しかし、既存のほとんどのアプローチは、エンコーダとデコーダの両方で総合的にマルチモーダル情報を利用できない。 本稿では,rgbd意味セグメンテーションのための注意に基づく2重教師付きデコーダを提案する。 エンコーダでは,マルチレベル対の補完情報を深く抽出・融合するための,単純かつ効果的な注意に基づくマルチモーダル融合モジュールを設計した。 より堅牢な深層表現とリッチなマルチモーダル情報を得るために、異なるタスクの相関と補完的手がかりを効果的に活用するデュアルブランチデコーダを導入する。 NYUDv2とSUN-RGBDデータセットの大規模な実験により,本手法が最先端の手法に対して優れた性能を発揮することが示された。

Encoder-decoder models have been widely used in RGBD semantic segmentation, and most of them are designed via a two-stream network. In general, jointly reasoning the color and geometric information from RGBD is beneficial for semantic segmentation. However, most existing approaches fail to comprehensively utilize multimodal information in both the encoder and decoder. In this paper, we propose a novel attention-based dual supervised decoder for RGBD semantic segmentation. In the encoder, we design a simple yet effective attention-based multimodal fusion module to extract and fuse deeply multi-level paired complementary information. To learn more robust deep representations and rich multi-modal information, we introduce a dual-branch decoder to effectively leverage the correlations and complementary cues of different tasks. Extensive experiments on NYUDv2 and SUN-RGBD datasets demonstrate that our method achieves superior performance against the state-of-the-art methods.
翻訳日:2022-01-06 14:38:25 公開日:2022-01-05
# Cross-SRN: クロスコンボリューションによる構造保存型スーパーリゾリューションネットワーク

Cross-SRN: Structure-Preserving Super-Resolution Network with Cross Convolution ( http://arxiv.org/abs/2201.01458v1 )

ライセンス: Link先を確認
Yuqing Liu, Qi Jia, Xin Fan, Shanshe Wang, Siwei Ma, Wen Gao(参考訳) 低解像度 (LR) 画像から高解像度 (SR) 画像への復元は, 正確かつ明確である。 既存のディープラーニングは、SR結果の視覚的知覚において重要な役割を果たす画像の構造情報をほとんど無視している。 本稿では,マルチスケールな特徴融合方式で構造情報の探索と保存を行う階層的特徴利用ネットワークを設計する。 まず,従来のエッジ検出器を用いたクロス畳み込みを提案し,エッジ特徴の局所化と表現を行う。 次に,クロス畳み込みブロック (CCB) を特徴正規化とチャネルアテンションを用いて設計し,特徴の固有相関を考察する。 最後に,MFFG(Multi-scale feature fusion group)を利用して,クロス畳み込みブロックを埋め込み,階層的に異なるスケールの構造的特徴の関係を発達させ,クロス-SRNと呼ばれる軽量な構造保存ネットワークを呼び起こす。 実験の結果, クロスsrnは, 構造的詳細が明確で, 最先端の手法に対して, 競争力や優れた修復性能を発揮できることが示されている。 さらに,構造テクスチャの豊富な画像を選択するための基準を設定する。 提案したCross-SRNは、選択したベンチマークで最先端の手法よりも優れており、ネットワークがエッジを保存する上で大きな優位性を持っていることを示す。

It is challenging to restore low-resolution (LR) images to super-resolution (SR) images with correct and clear details. Existing deep learning works almost neglect the inherent structural information of images, which acts as an important role for visual perception of SR results. In this paper, we design a hierarchical feature exploitation network to probe and preserve structural information in a multi-scale feature fusion manner. First, we propose a cross convolution upon traditional edge detectors to localize and represent edge features. Then, cross convolution blocks (CCBs) are designed with feature normalization and channel attention to consider the inherent correlations of features. Finally, we leverage multi-scale feature fusion group (MFFG) to embed the cross convolution blocks and develop the relations of structural features in different scales hierarchically, invoking a lightweight structure-preserving network named as Cross-SRN. Experimental results demonstrate the Cross-SRN achieves competitive or superior restoration performances against the state-of-the-art methods with accurate and clear structural details. Moreover, we set a criterion to select images with rich structural textures. The proposed Cross-SRN outperforms the state-of-the-art methods on the selected benchmark, which demonstrates that our network has a significant advantage in preserving edges.
翻訳日:2022-01-06 14:38:07 公開日:2022-01-05
# FAVER:可変フレームレートビデオのブラインド品質予測

FAVER: Blind Quality Prediction of Variable Frame Rate Videos ( http://arxiv.org/abs/2201.01492v1 )

ライセンス: Link先を確認
Qi Zheng, Zhengzhong Tu, Pavan C. Madhusudana, Xiaoyang Zeng, Alan C. Bovik, Yibo Fan(参考訳) ビデオ品質アセスメント(VQA)は、最も大規模な多くのアプリケーションに影響を与える重要かつ困難な問題である。 近年のモバイルデバイスやクラウドコンピューティング技術の進歩により、インターネット上の高解像度、高フレームレート(HFR)ビデオをほぼ瞬時にキャプチャ、処理、共有することが可能になった。 ストリーミングビデオの品質をモニタし、コントロールできることで、より楽しいコンテンツの配信が可能になり、パーセプティブに最適化されたレートコントロールが可能になる。 したがって、大規模なデプロイが可能なVQAモデルを開発する必要がある。 近年、可変フレームレートとHFRビデオ品質のフル参照(FR)解析にいくつかの効果が適用されているが、フレームレートの変動をターゲットとしたノン参照(NR)VQAアルゴリズムの開発はほとんど研究されていない。 本稿では、フレームレート・アウェア・ビデオ評価器w/o参照(FAVER)をダブした、HFRビデオの評価のための第1種ブラインドVQAモデルを提案する。 FAVERは、時空のウェーブレット分解ビデオ信号を含む空間自然界統計の拡張モデルを用いて、効率的なフレームレートの感度の高い品質予測を行う。 いくつかのHFRビデオ品質データセットに対する広範な実験により、FAVERは他の盲点VQAアルゴリズムよりも高い計算コストで性能を発揮することが示された。 再現可能な研究と公開評価を容易にするため、FAVERの実装はオンラインで無料で利用可能になっている。

Video quality assessment (VQA) remains an important and challenging problem that affects many applications at the widest scales. Recent advances in mobile devices and cloud computing techniques have made it possible to capture, process, and share high resolution, high frame rate (HFR) videos across the Internet nearly instantaneously. Being able to monitor and control the quality of these streamed videos can enable the delivery of more enjoyable content and perceptually optimized rate control. Accordingly, there is a pressing need to develop VQA models that can be deployed at enormous scales. While some recent effects have been applied to full-reference (FR) analysis of variable frame rate and HFR video quality, the development of no-reference (NR) VQA algorithms targeting frame rate variations has been little studied. Here, we propose a first-of-a-kind blind VQA model for evaluating HFR videos, which we dub the Framerate-Aware Video Evaluator w/o Reference (FAVER). FAVER uses extended models of spatial natural scene statistics that encompass space-time wavelet-decomposed video signals, to conduct efficient frame rate sensitive quality prediction. Our extensive experiments on several HFR video quality datasets show that FAVER outperforms other blind VQA algorithms at a reasonable computational cost. To facilitate reproducible research and public evaluation, an implementation of FAVER is being made freely available online: \url{https://github.com/u niqzheng/HFR-BVQA}.
翻訳日:2022-01-06 14:37:47 公開日:2022-01-05
# 特徴保存点クラウドフィルタリングにおける一様点分布に向けて

Towards Uniform Point Distribution in Feature-preserving Point Cloud Filtering ( http://arxiv.org/abs/2201.01503v1 )

ライセンス: Link先を確認
Shuaijun Chen, Jinxi Wang, Wei Pan, Shang Gao, Meili Wang, Xuequan Lu(参考訳) 3dデータの一般的な表現として、point cloudにはノイズが含まれており、使用前にフィルタリングする必要がある。 既存の点雲フィルタリング手法は、シャープな特徴を保存できないか、フィルタされた出力に不均一な点分布をもたらす。 この問題に対処するため,本稿では,点分布と特徴保存の両方を考慮したポイントクラウドフィルタリング手法を提案する。 鍵となる考え方は、エネルギー最小化においてデータ項に反発項を組み込むことである。 反発項は点分布に責任を持ち、データ項は幾何学的特徴を保ちながらノイズ表面を近似する。 この方法は、細かな特徴と鋭い特徴を持つモデルを扱うことができる。 実験により,より均一な点分布(平均で5.8\times10^{-5}$ Chamfer Distance)を数秒で得られることがわかった。

As a popular representation of 3D data, point cloud may contain noise and need to be filtered before use. Existing point cloud filtering methods either cannot preserve sharp features or result in uneven point distribution in the filtered output. To address this problem, this paper introduces a point cloud filtering method that considers both point distribution and feature preservation during filtering. The key idea is to incorporate a repulsion term with a data term in energy minimization. The repulsion term is responsible for the point distribution, while the data term is to approximate the noisy surfaces while preserving the geometric features. This method is capable of handling models with fine-scale features and sharp features. Extensive experiments show that our method yields better results with a more uniform point distribution ($5.8\times10^{-5}$ Chamfer Distance on average) in seconds.
翻訳日:2022-01-06 14:37:21 公開日:2022-01-05
# 生成的adversarial networkを用いた文化から文化への画像翻訳

Culture-to-Culture Image Translation with Generative Adversarial Networks ( http://arxiv.org/abs/2201.01565v1 )

ライセンス: Link先を確認
Giulia Zaino, Carmine Tommaso Recchiuto, and Antonio Sgorbissa(参考訳) 本論では, イメージ「文化化」の概念,すなわち, 「文化的特徴のブラシストローク」を変容させる過程として定義し, その機能を維持しつつ, 特定の文化に属するものとして認識される物体を創出する。 まず,GAN(Generative Adversarial Networks)に基づいて,オブジェクトのイメージをソースから対象の文化的領域に翻訳するパイプラインを提案する。 そこで,我々は,異なる文化に属する対象や環境に対するイタリア人の嗜好に関する4つの仮説を,オンラインアンケートを通じて収集した。 予想通り、結果は個人の嗜好と好みに依存する:しかし、ロボットや他の知的システムとのインタラクション中に、文化領域が文化的背景に適合するように修正されたイメージを示すのが好まれるかもしれないという我々の推測と一致している。

This article introduces the concept of image "culturization", i.e., defined as the process of altering the "brushstroke of cultural features" that make objects perceived as belonging to a given culture while preserving their functionalities. First, we propose a pipeline for translating objects' images from a source to a target cultural domain based on Generative Adversarial Networks (GAN). Then, we gather data through an online questionnaire to test four hypotheses concerning the preferences of Italian participants towards objects and environments belonging to different cultures. As expected, results depend on individual tastes and preference: however, they are in line with our conjecture that some people, during the interaction with a robot or another intelligent system, might prefer to be shown images whose cultural domain has been modified to match their cultural background.
翻訳日:2022-01-06 14:37:08 公開日:2022-01-05
# エンドツーエンド画像圧縮のための真の速度歪み最適化の学習

Learning True Rate-Distortion-Opti mization for End-To-End Image Compression ( http://arxiv.org/abs/2201.01586v1 )

ライセンス: Link先を確認
Fabian Brand, Kristian Fischer, Alexander Kopte, Andr\'e Kaup(参考訳) 速度歪みの最適化は従来の画像圧縮とビデオ圧縮の重要な部分であるが、この概念をエンドツーエンドのイメージ圧縮に転送するアプローチは多くはない。 ほとんどのフレームワークには、トレーニング後に修正される静的圧縮と減算モデルが含まれているため、効率的なレート分散最適化は不可能である。 本稿では,HEVCにおける適応ブロック分割に匹敵するRDOアプローチを実現するRDONetを提案する。 本稿では,RDO結果の低複雑さ推定をトレーニングに導入することにより,トレーニングの強化を図る。 さらに,高速かつ高速なRDO推論モードを提案する。 新たなトレーニング手法により、従来のRDONetモデルと比較して、MS-SSIMの平均保存率19.6%を達成し、従来のディープイメージコーダに比べて27.3%の削減率を実現した。

Even though rate-distortion optimization is a crucial part of traditional image and video compression, not many approaches exist which transfer this concept to end-to-end-trained image compression. Most frameworks contain static compression and decompression models which are fixed after training, so efficient rate-distortion optimization is not possible. In a previous work, we proposed RDONet, which enables an RDO approach comparable to adaptive block partitioning in HEVC. In this paper, we enhance the training by introducing low-complexity estimations of the RDO result into the training. Additionally, we propose fast and very fast RDO inference modes. With our novel training method, we achieve average rate savings of 19.6% in MS-SSIM over the previous RDONet model, which equals rate savings of 27.3% over a comparable conventional deep image coder.
翻訳日:2022-01-06 14:36:53 公開日:2022-01-05
# 深層学習に基づく頭頸部臓器分節のクラス不均衡問題への対処

Tackling the Class Imbalance Problem of Deep Learning Based Head and Neck Organ Segmentation ( http://arxiv.org/abs/2201.01636v1 )

ライセンス: Link先を確認
Elias Tappeiner, Martin Welk and Rainer Schubert(参考訳) リスクのある臓器の分節化(OAR)は、画像誘導放射線治療によるがん治療の前提条件である。 したがって、セグメンテーションタスクの自動化は、高い臨床関連性を持つ。 深層学習(DL)に基づく医用画像分割は、現在最も成功したアプローチであるが、背景階級の過剰発現と解剖学的に与えられた臓器の大きさ差に悩まされており、頭頸部(HAN)領域では最も重篤である。 ハンエリア固有のクラス不均衡問題に取り組むため,我々はまず,導入したクラス不均衡測定に基づくnnu-netという汎用セグメンテーションフレームワークのパッチサイズを最適化し,次に,高度不均衡設定を補償するためにクラス適応ダイスロスを導入する。 パッチサイズと損失関数の両方がクラス不均衡に直接影響するパラメータであり、それらの最適化はダイススコアを3\%増加させ、95%ハウスドルフ距離をベースラインと比較すると22%減少させ、最終的に単一の単純なニューラルネットワークを用いて7つの漢器官をセグメンテーションするために0.8\pm0.15$と3.17\pm1.7$mmに達する。 パッチサイズ最適化とクラス適応Dice損失はどちらも、現在のDLベースのセグメンテーションアプローチで単純に統合可能であり、クラス不均衡セグメンテーションタスクのパフォーマンスを向上させることができる。

The segmentation of organs at risk (OAR) is a required precondition for the cancer treatment with image guided radiation therapy. The automation of the segmentation task is therefore of high clinical relevance. Deep Learning (DL) based medical image segmentation is currently the most successful approach, but suffers from the over-presence of the background class and the anatomically given organ size difference, which is most severe in the head and neck (HAN) area. To tackle the HAN area specific class imbalance problem we first optimize the patch-size of the currently best performing general purpose segmentation framework, the nnU-Net, based on the introduced class imbalance measurement, and second, introduce the class adaptive Dice loss to further compensate for the highly imbalanced setting. Both the patch-size and the loss function are parameters with direct influence on the class imbalance and their optimization leads to a 3\% increase of the Dice score and 22% reduction of the 95% Hausdorff distance compared to the baseline, finally reaching $0.8\pm0.15$ and $3.17\pm1.7$ mm for the segmentation of seven HAN organs using a single and simple neural network. The patch-size optimization and the class adaptive Dice loss are both simply integrable in current DL based segmentation approaches and allow to increase the performance for class imbalanced segmentation tasks.
翻訳日:2022-01-06 14:36:37 公開日:2022-01-05
# グラフニューラルネットワークを用いたマルチロボット協調知覚

Multi-Robot Collaborative Perception with Graph Neural Networks ( http://arxiv.org/abs/2201.01760v1 )

ライセンス: Link先を確認
Yang Zhou, Jiuhong Xiao, Yue Zhou, and Giuseppe Loianno(参考訳) 空飛ぶロボットの群れのようなマルチロボットシステムは、エージェント間の協調を可能にすることで、複数のタスクに対して柔軟性、レジリエンス、堅牢性を提供するのに自然に適している。 自律型ロボット意思決定プロセスと状況認識を強化するために、マルチロボットシステムは、文脈に合った情報を正確に取得したり、センサノイズや故障に対する反発力を得るために、エージェント間の環境情報を収集、共有、融合するための認識能力を調整する必要がある。 本稿では,マルチロボット認識タスク,単一ロボットの推論知覚精度,センサ故障や障害に対するレジリエンスの向上を主目的とした汎用グラフニューラルネットワーク(GNN)を提案する。 提案手法は,単眼深度推定やセマンティックセグメンテーションなどの多視点視覚認識問題に対処できることを示す。 複数の空中ロボットの視点から収集したフォトリアリスティックと実データを用いたいくつかの実験は、重騒音やカメラのオクルージョンや故障などの画像を含む推論条件に挑戦する手法の有効性を示している。

Multi-robot systems such as swarms of aerial robots are naturally suited to offer additional flexibility, resilience, and robustness in several tasks compared to a single robot by enabling cooperation among the agents. To enhance the autonomous robot decision-making process and situational awareness, multi-robot systems have to coordinate their perception capabilities to collect, share, and fuse environment information among the agents in an efficient and meaningful way such to accurately obtain context-appropriate information or gain resilience to sensor noise or failures. In this paper, we propose a general-purpose Graph Neural Network (GNN) with the main goal to increase, in multi-robot perception tasks, single robots' inference perception accuracy as well as resilience to sensor failures and disturbances. We show that the proposed framework can address multi-view visual perception problems such as monocular depth estimation and semantic segmentation. Several experiments both using photo-realistic and real data gathered from multiple aerial robots' viewpoints show the effectiveness of the proposed approach in challenging inference conditions including images corrupted by heavy noise and camera occlusions or failures.
翻訳日:2022-01-06 14:35:48 公開日:2022-01-05
# 非接触容量センシングに基づくモーションジェスチャ認識を用いたリアルタイムインタフェース制御

Real-time Interface Control with Motion Gesture Recognition based on Non-contact Capacitive Sensing ( http://arxiv.org/abs/2201.01755v1 )

ライセンス: Link先を確認
Hunmin Lee, Jaya Krishna Mandivarapu, Nahom Ogbazghi, Yingshu Li(参考訳) 容量センシング(capacitive sensing)は、既存のセンシングシステムよりも高速な認識速度で、コスト効率が高く低消費電力な技術である。 これらの利点から, タッチセンシング, 局所化, 存在検出, ヒューマン・コンピュータ・インタラクションなどの接触センシングインタフェースの分野で, 容量センシングが広く研究され, 商業化されている。 しかし、非接触近接センシング方式は周辺物体や周辺機器の乱れの影響を受けやすいため、接触センシングよりも相当な感度のデータ処理が必要となり、さらなる利用が制限される。 本稿では、原信号処理による非接触手の動き認識に基づくリアルタイムインタフェース制御フレームワークを提案し、適応しきい値を用いて、静電容量センサ近傍のハンドジェスチャー動作によって引き起こされる電界乱を検知し、有意な信号フレームを98.8%の検出率と98.4%のフレーム補正率でカバーする。 抽出した信号フレームを用いて学習したGRUモデルを用いて,手の動きのジェスチャータイプを98.79%の精度で分類する。 フレームワークは分類結果を送信し、入力に応じて前景プロセスのインターフェースを操作します。 本研究は,人間と機械とのフレキシブルな相互作用を自然ユーザインタフェースと類似し得る直感的インタフェース技術の実現可能性を示し,非接触近接センシング技術による電界乱測定に基づく商業化の可能性を高めることを提案する。

Capacitive sensing is a prominent technology that is cost-effective and low power consuming with fast recognition speed compared to existing sensing systems. On account of these advantages, Capacitive sensing has been widely studied and commercialized in the domains of touch sensing, localization, existence detection, and contact sensing interface application such as human-computer interaction. However, as a non-contact proximity sensing scheme is easily affected by the disturbance of peripheral objects or surroundings, it requires considerable sensitive data processing than contact sensing, limiting the use of its further utilization. In this paper, we propose a real-time interface control framework based on non-contact hand motion gesture recognition through processing the raw signals, detecting the electric field disturbance triggered by the hand gesture movements near the capacitive sensor using adaptive threshold, and extracting the significant signal frame, covering the authentic signal intervals with 98.8% detection rate and 98.4% frame correction rate. Through the GRU model trained with the extracted signal frame, we classify the 10 hand motion gesture types with 98.79% accuracy. The framework transmits the classification result and maneuvers the interface of the foreground process depending on the input. This study suggests the feasibility of intuitive interface technology, which accommodates the flexible interaction between human to machine similar to Natural User Interface, and uplifts the possibility of commercialization based on measuring the electric field disturbance through non-contact proximity sensing which is state-of-the-art sensing technology.
翻訳日:2022-01-06 14:35:32 公開日:2022-01-05
# 経験的ネットワークにおける確率的ブロックモデルの適合性に関する体系的評価

Systematic assessment of the quality of fit of the stochastic block model for empirical networks ( http://arxiv.org/abs/2201.01658v1 )

ライセンス: Link先を確認
Felipe Vaca-Ram\'irez, Tiago P. Peixoto(参考訳) 広い範囲のドメインと大きさのオーダーにまたがる275の経験的ネットワークに対して,確率的ブロックモデル(sbm)の適合性に関する体系的分析を行う。 ネットワーク記述子の集合によれば, 推定されたモデルが生成するネットワークと経験的ネットワークを比較することで, 適合性の質を評価する基準として後方予測モデルチェックを用いる。 我々は,SBMが考慮されているネットワークの大部分に対して正確な記述を提供することができるが,すべてのモデリング要件を飽和させるには至っていないことを観察する。 特に、大きな直径と遅い混合ランダムウォークを持つネットワークは、SBMによってひどく説明される傾向がある。 しかし、しばしば想定されることとは対照的に、三角形の豊富なネットワークは多くの場合、sbmによってよく説明できる。 我々は、単純なネットワーク記述子を用いて、sbmが十分に正確な表現を提供できるかどうかを評価できることを実証し、このタイプのモデルの表現性を体系的に改善できるモデル拡張の可能性を示す。

We perform a systematic analysis of the quality of fit of the stochastic block model (SBM) for 275 empirical networks spanning a wide range of domains and orders of size magnitude. We employ posterior predictive model checking as a criterion to assess the quality of fit, which involves comparing networks generated by the inferred model with the empirical network, according to a set of network descriptors. We observe that the SBM is capable of providing an accurate description for the majority of networks considered, but falls short of saturating all modeling requirements. In particular, networks possessing a large diameter and slow-mixing random walks tend to be badly described by the SBM. However, contrary to what is often assumed, networks with a high abundance of triangles can be well described by the SBM in many cases. We demonstrate that simple network descriptors can be used to evaluate whether or not the SBM can provide a sufficiently accurate representation, potentially pointing to possible model extensions that can systematically improve the expressiveness of this class of models.
翻訳日:2022-01-06 14:35:05 公開日:2022-01-05
# balsa: エキスパートデモなしでクエリオプティマイザを学ぶ

Balsa: Learning a Query Optimizer Without Expert Demonstrations ( http://arxiv.org/abs/2201.01441v1 )

ライセンス: Link先を確認
Zongheng Yang, Wei-Lin Chiang, Sifei Luan, Gautam Mittal, Michael Luo, Ion Stoica(参考訳) クエリオプティマイザは、すべてのデータベースシステムにおけるパフォーマンスクリティカルなコンポーネントである。 その複雑さのため、オプティマイザは専門家が書くのに数ヶ月、洗練するのに何年もかかります。 本研究では,エキスパートオプティマイザから学ぶことなく,クエリを最適化する学習が可能かつ効率的であることを初めて実証する。 深層強化学習によって構築されたクエリオプティマイザであるbalsaを提案する。 Balsa氏はまず、シンプルな環境に依存しないシミュレータから基本的な知識を学び、続いて実行時に安全な学習を行う。 Join Order Benchmarkでは、Balsaはオープンソースと商用の2つの専門家クエリオプティマイザのパフォーマンスを2時間の学習で比較し、さらに数時間後にワークロードランタイムで最大2.8$\times$をパフォーマンスで上回る。 このようにbalsaは、エキスパートが設計したオプティマイザが存在しない未来の計算環境において、自動的に学習して最適化する可能性を開く。

Query optimizers are a performance-critical component in every database system. Due to their complexity, optimizers take experts months to write and years to refine. In this work, we demonstrate for the first time that learning to optimize queries without learning from an expert optimizer is both possible and efficient. We present Balsa, a query optimizer built by deep reinforcement learning. Balsa first learns basic knowledge from a simple, environment-agnostic simulator, followed by safe learning in real execution. On the Join Order Benchmark, Balsa matches the performance of two expert query optimizers, both open-source and commercial, with two hours of learning, and outperforms them by up to 2.8$\times$ in workload runtime after a few more hours. Balsa thus opens the possibility of automatically learning to optimize in future compute environments where expert-designed optimizers do not exist.
翻訳日:2022-01-06 14:34:50 公開日:2022-01-05
# マルチエージェントゲームのための条件付き模倣学習

Conditional Imitation Learning for Multi-Agent Games ( http://arxiv.org/abs/2201.01448v1 )

ライセンス: Link先を確認
Andy Shih and Stefano Ermon and Dorsa Sadigh(参考訳) マルチエージェント学習の進歩により、ますます複雑なエージェントのトレーニングが可能になる一方で、既存の技術の多くは、新しいパートナーの戦略に適応するように設計されていない最終的なポリシーを生み出している。 しかし、私たちのAIエージェントは、周囲の戦略に基づいて戦略を調整することを望んでいます。 本研究では、条件付きマルチエージェント模倣学習の課題について検討し、トレーニング時に共同軌道デモにアクセスでき、テスト時に新しいパートナーと対話し、適応する必要がある。 この設定は、新しいパートナーの戦略を推測し、その戦略にポリシーを適用する必要があるため、環境報酬やダイナミクスの知識がなければ、難しい。 本稿では,条件付きマルチエージェント模倣学習の問題を定式化し,スケーラビリティとデータ不足の難しさに対処するための新しい手法を提案する。 私たちの重要な洞察は、マルチエージェントゲームにおけるパートナー間のバリエーションは、しばしば高度に構造化され、低ランクサブスペースを介して表現できるということです。 テンソル分解からツールを活用することで,egoおよびパートナーエージェント戦略よりも低ランクのサブスペースを学習し,サブスペースを補間することにより,新たなパートナー戦略を推論し,適応する。 我々は,包帯,粒子およびハナビ環境を含む協調作業の混合実験を行った。 さらに,オーバークッキングゲームにおけるユーザスタディにおいて,実際の人間パートナーに対する条件付きポリシーをテストする。 我々のモデルは、ベースラインよりも新しいパートナに適応し、個別/連続的なアクションからAI/ヒューマンパートナーによる静的/オンライン評価まで、さまざまな設定を堅牢に処理します。

While advances in multi-agent learning have enabled the training of increasingly complex agents, most existing techniques produce a final policy that is not designed to adapt to a new partner's strategy. However, we would like our AI agents to adjust their strategy based on the strategies of those around them. In this work, we study the problem of conditional multi-agent imitation learning, where we have access to joint trajectory demonstrations at training time, and we must interact with and adapt to new partners at test time. This setting is challenging because we must infer a new partner's strategy and adapt our policy to that strategy, all without knowledge of the environment reward or dynamics. We formalize this problem of conditional multi-agent imitation learning, and propose a novel approach to address the difficulties of scalability and data scarcity. Our key insight is that variations across partners in multi-agent games are often highly structured, and can be represented via a low-rank subspace. Leveraging tools from tensor decomposition, our model learns a low-rank subspace over ego and partner agent strategies, then infers and adapts to a new partner strategy by interpolating in the subspace. We experiments with a mix of collaborative tasks, including bandits, particle, and Hanabi environments. Additionally, we test our conditional policies against real human partners in a user study on the Overcooked game. Our model adapts better to new partners compared to baselines, and robustly handles diverse settings ranging from discrete/continuous actions and static/online evaluation with AI/human partners.
翻訳日:2022-01-06 14:34:34 公開日:2022-01-05
# 境界フリートサイズでCVRPを解くための教師付き置換不変ネットワーク

Supervised Permutation Invariant Networks for Solving the CVRP with Bounded Fleet Size ( http://arxiv.org/abs/2201.01529v1 )

ライセンス: Link先を確認
Daniela Thyssens, Jonas Falkner and Lars Schmidt-Thieme(参考訳) 車両経路問題のような組合せ最適化問題を解くための学習は、古典的な操作研究の解法やヒューリスティックスよりも優れた計算上の利点を提供する。 最近開発された深層強化学習アプローチは、最初に与えられたソリューションを反復的に改善するか、個別のツアーを順次構築するかのどちらかである。 しかし、既存の学習ベースのアプローチのほとんどは、一定数の車両で動作できないため、顧客の複雑な割り当て問題を、利用可能な車両の数が与えられたアプリオリにバイパスする。 一方で、多くのロジスティックサービスプロバイダは、特定の境界付けられたフリートサイズのソリューションに依存しており、車両数を短期的に変更することができないため、実際のアプリケーションには適していない。 対照的に,アプリオリ固定数の車両を尊重しながら,スクラッチから完全なツアー計画を構築する強力な教師付きディープラーニングフレームワークを提案する。 効率的な後処理方式と組み合わせることで,より高速かつ容易に訓練できるだけでなく,車両コストの実用的側面を組み込んだ競争的な結果が得られる。 厳密な制御実験では,本手法を複数の最先端手法と比較し,安定した性能を示すとともに,車種を少なくし,関連する実験プロトコルにおける既存の矛盾点に光を当てる。

Learning to solve combinatorial optimization problems, such as the vehicle routing problem, offers great computational advantages over classical operations research solvers and heuristics. The recently developed deep reinforcement learning approaches either improve an initially given solution iteratively or sequentially construct a set of individual tours. However, most of the existing learning-based approaches are not able to work for a fixed number of vehicles and thus bypass the complex assignment problem of the customers onto an apriori given number of available vehicles. On the other hand, this makes them less suitable for real applications, as many logistic service providers rely on solutions provided for a specific bounded fleet size and cannot accommodate short term changes to the number of vehicles. In contrast we propose a powerful supervised deep learning framework that constructs a complete tour plan from scratch while respecting an apriori fixed number of available vehicles. In combination with an efficient post-processing scheme, our supervised approach is not only much faster and easier to train but also achieves competitive results that incorporate the practical aspect of vehicle costs. In thorough controlled experiments we compare our method to multiple state-of-the-art approaches where we demonstrate stable performance, while utilizing less vehicles and shed some light on existent inconsistencies in the experimentation protocols of the related work.
翻訳日:2022-01-06 14:34:08 公開日:2022-01-05
# ROOM: リアルタイム制約下での敵機械学習攻撃

ROOM: Adversarial Machine Learning Attacks Under Real-Time Constraints ( http://arxiv.org/abs/2201.01621v1 )

ライセンス: Link先を確認
Amira Guesmi, Khaled N. Khasawneh, Nael Abu-Ghazaleh, Ihsen Alouani(参考訳) ディープラーニングの進歩は、幅広い有望なアプリケーションを可能にした。 しかし、これらのシステムは、AML(Adversarial Machine Learning)攻撃に弱い。 いくつかの最先端の敵攻撃は、これらの攻撃を重大な脅威にしている分類器を確実に騙すことができることを示した。 敵攻撃生成アルゴリズムは、主に成功例の作成に焦点を合わせ、ノイズの大きさと分布を制御し、検出をより困難にする。 これらの攻撃の根底にある前提は、敵のノイズがオフラインで発生し、実行時間が二次的考慮となることである。 しかし、近年、攻撃者が日和見的に敵の例をオンザフライで生成するジャスト・イン・タイムの敵攻撃が可能になっている。 本稿では,このようなリアルタイム対向攻撃を支援するために,リアルタイム制約下で対向雑音を生成する方法を提案する。 この問題を理解することで、これらの攻撃がリアルタイムシステムにもたらす脅威の理解が向上し、将来の防衛のためのセキュリティ評価ベンチマークを提供する。 そこで我々はまず,逆生成アルゴリズムのランタイム解析を行う。 ユニバーサルアタックは、オンラインオーバーヘッドのない一般的なアタックをオフラインで生成し、任意の入力に適用することができるが、その一般性のためにその成功率は制限されている。 対照的に、特定の入力を扱うオンラインアルゴリズムは計算コストが高く、時間制約下での操作には不適当である。 そこで我々は,オフラインコンポーネントがオンラインアルゴリズムのウォームアップに役立ち,時間制約下で高い攻撃を発生させることができる新しいリアルタイムオンライン・オフライン攻撃構築モデルであるROOMを提案する。

Advances in deep learning have enabled a wide range of promising applications. However, these systems are vulnerable to Adversarial Machine Learning (AML) attacks; adversarially crafted perturbations to their inputs could cause them to misclassify. Several state-of-the-art adversarial attacks have demonstrated that they can reliably fool classifiers making these attacks a significant threat. Adversarial attack generation algorithms focus primarily on creating successful examples while controlling the noise magnitude and distribution to make detection more difficult. The underlying assumption of these attacks is that the adversarial noise is generated offline, making their execution time a secondary consideration. However, recently, just-in-time adversarial attacks where an attacker opportunistically generates adversarial examples on the fly have been shown to be possible. This paper introduces a new problem: how do we generate adversarial noise under real-time constraints to support such real-time adversarial attacks? Understanding this problem improves our understanding of the threat these attacks pose to real-time systems and provides security evaluation benchmarks for future defenses. Therefore, we first conduct a run-time analysis of adversarial generation algorithms. Universal attacks produce a general attack offline, with no online overhead, and can be applied to any input; however, their success rate is limited because of their generality. In contrast, online algorithms, which work on a specific input, are computationally expensive, making them inappropriate for operation under time constraints. Thus, we propose ROOM, a novel Real-time Online-Offline attack construction Model where an offline component serves to warm up the online algorithm, making it possible to generate highly successful attacks under time constraints.
翻訳日:2022-01-06 14:33:46 公開日:2022-01-05
# PET画像再構成に先立って深部係数を持つカーネル手法Neural KEM

Neural KEM: A Kernel Method with Deep Coefficient Prior for PET Image Reconstruction ( http://arxiv.org/abs/2201.01443v1 )

ライセンス: Link先を確認
Siqi Li, Kuang Gong, Ramsey D. Badawi, Edward J. Kim, Jinyi Qi, and Guobao Wang(参考訳) PET(low-count positron emission tomography)データの再構成は困難である。 カーネル手法は、反復PET画像再構成の前方モデルに画像先行情報を組み込むことによって、この問題に対処する。 カーネル化された期待最大化(KEM)アルゴリズムが開発され,実装が容易であることが実証された。 カーネル法をさらに改善するための一般的なアプローチは、明示的な正規化を追加することであるが、複雑な最適化問題に繋がる。 本稿では,畳み込みニューラルネットワークを用いたpetフォワードモデルにおいて,カーネル係数画像を表すディープ係数プリアーを用いて,カーネル法の暗黙的正則化を提案する。 ニューラルネットワークに基づく最大値再構成問題を解くために、最適化転送の原理を適用し、ニューラルKEMアルゴリズムを導出する。 アルゴリズムの各イテレーションは、投影データからのイメージ更新のためのKEMステップと、ニューラルネットワークを用いてカーネル係数画像を更新するイメージ領域のディープラーニングステップの2つの別々のステップで構成される。 この最適化アルゴリズムはデータ可能性の単調な増大を保証する。 コンピュータシミュレーションと実際の患者データの結果から、ニューラルKEMは既存のKEMおよびディープイメージ先行法より優れていることが示されている。

Image reconstruction of low-count positron emission tomography (PET) data is challenging. Kernel methods address the challenge by incorporating image prior information in the forward model of iterative PET image reconstruction. The kernelized expectation-maximiza tion (KEM) algorithm has been developed and demonstrated to be effective and easy to implement. A common approach for a further improvement of the kernel method would be adding an explicit regularization, which however leads to a complex optimization problem. In this paper, we propose an implicit regularization for the kernel method by using a deep coefficient prior, which represents the kernel coefficient image in the PET forward model using a convolutional neural-network. To solve the maximum-likelihood neural network-based reconstruction problem, we apply the principle of optimization transfer to derive a neural KEM algorithm. Each iteration of the algorithm consists of two separate steps: a KEM step for image update from the projection data and a deep-learning step in the image domain for updating the kernel coefficient image using the neural network. This optimization algorithm is guaranteed to monotonically increase the data likelihood. The results from computer simulations and real patient data have demonstrated that the neural KEM can outperform existing KEM and deep image prior methods.
翻訳日:2022-01-06 14:33:19 公開日:2022-01-05
# (参考訳) 単語埋め込みを用いた半自動ワードネットリンク [全文訳有]

Semi-automatic WordNet Linking using Word Embeddings ( http://arxiv.org/abs/2201.01747v1 )

ライセンス: CC BY 4.0
Kevin Patel, Diptesh Kanojia, Pushpak Bhattacharyya(参考訳) ワードネットは豊富なレキシコ・セマンティクス資源である。 linked wordnets は wordnet の拡張であり、異なる言語の wordnet で同様の概念をリンクする。 このようなリソースは多くの自然言語処理(NLP)アプリケーションで非常に有用であり、主に知識に基づくアプローチに基づいている。 このようなアプローチでは、これらのリソースはゴールドスタンダード/オラクルとみなされる。 したがって、これらの資源が正しい情報を持っていることが重要である。 したがって、人間の専門家によって創造される。 しかし、こうした資源を手動で管理するのは面倒で費用がかかる。 したがって、専門家を助ける技術が望ましい。 本稿では,ワードネットをリンクする手法を提案する。 ソース言語のシンセットが与えられると、このアプローチは、人間の専門家が正しいシンセットを選択できるターゲット言語における潜在的なシンセットのランクリストを返す。 本手法は,全シンセットの60%と名詞シンセットの70%で上位10位にランクインした勝者シンセットを検索できる。

Wordnets are rich lexico-semantic resources. Linked wordnets are extensions of wordnets, which link similar concepts in wordnets of different languages. Such resources are extremely useful in many Natural Language Processing (NLP) applications, primarily those based on knowledge-based approaches. In such approaches, these resources are considered as gold standard/oracle. Thus, it is crucial that these resources hold correct information. Thereby, they are created by human experts. However, manual maintenance of such resources is a tedious and costly affair. Thus techniques that can aid the experts are desirable. In this paper, we propose an approach to link wordnets. Given a synset of the source language, the approach returns a ranked list of potential candidate synsets in the target language from which the human expert can choose the correct one(s). Our technique is able to retrieve a winner synset in the top 10 ranked list for 60% of all synsets and 70% of noun synsets.
翻訳日:2022-01-06 14:31:58 公開日:2022-01-05
# 胃腸異形成症診断のための深層学習に基づくスライス全スライド画像解析

Deep Learning-Based Sparse Whole-Slide Image Analysis for the Diagnosis of Gastric Intestinal Metaplasia ( http://arxiv.org/abs/2201.01449v1 )

ライセンス: Link先を確認
Jon Braatz, Pranav Rajpurkar, Stephanie Zhang, Andrew Y. Ng, Jeanne Shen(参考訳) 近年,診断病理学における多種多様なタスクの自動化にディープラーニングが応用されている。 しかし、小型領域(ROI)の高速かつ信頼性の高いローカライゼーションは重要な課題であり、識別的形態的特徴がギガピクセル規模の全スライディング画像(WSI)のごく一部を占めることが多い。 本稿では,WSIレベル分類のための高出力ROIの迅速同定のための疎WSI分析手法を提案する。 本研究では, 診断性能と推定時間とのトレードオフを定量化するために, 初期分類文献に触発された評価フレームワークを開発した。 本手法は, 内視鏡的生検標本から, ヘマトキシリンおよびエオシン含有スライド上での胃腸転移 (GIM) の診断法である。 gimは胃癌発生の経路に沿ったよく知られた前駆病変である。 提案手法は, 受信動作特性曲線(AUC)0.98, 平均精度(AP)0.95のWSIレベルの分類領域を有する全正のWSIにおいて, GIM検出に成功していることがわかった。 さらに,本手法は標準CPU上で1分以内で測定値が得られることを示す。 以上より,wsiの小型形態学的特徴の早期発見と診断を支援するために,臨床設定に容易に展開可能なニューラルネットワークの開発を目標とする。

In recent years, deep learning has successfully been applied to automate a wide variety of tasks in diagnostic histopathology. However, fast and reliable localization of small-scale regions-of-interest (ROI) has remained a key challenge, as discriminative morphologic features often occupy only a small fraction of a gigapixel-scale whole-slide image (WSI). In this paper, we propose a sparse WSI analysis method for the rapid identification of high-power ROI for WSI-level classification. We develop an evaluation framework inspired by the early classification literature, in order to quantify the tradeoff between diagnostic performance and inference time for sparse analytic approaches. We test our method on a common but time-consuming task in pathology - that of diagnosing gastric intestinal metaplasia (GIM) on hematoxylin and eosin (H&E)-stained slides from endoscopic biopsy specimens. GIM is a well-known precursor lesion along the pathway to development of gastric cancer. We performed a thorough evaluation of the performance and inference time of our approach on a test set of GIM-positive and GIM-negative WSI, finding that our method successfully detects GIM in all positive WSI, with a WSI-level classification area under the receiver operating characteristic curve (AUC) of 0.98 and an average precision (AP) of 0.95. Furthermore, we show that our method can attain these metrics in under one minute on a standard CPU. Our results are applicable toward the goal of developing neural networks that can easily be deployed in clinical settings to support pathologists in quickly localizing and diagnosing small-scale morphologic features in WSI.
翻訳日:2022-01-06 14:25:26 公開日:2022-01-05
# 頑健な自己監督型音声認識

Robust Self-Supervised Audio-Visual Speech Recognition ( http://arxiv.org/abs/2201.01763v1 )

ライセンス: Link先を確認
Bowen Shi and Wei-Ning Hsu and Abdelrahman Mohamed(参考訳) 音声に基づく自動音声認識(ASR)は、ノイズの多い環境で著しく劣化し、どの話者を転写するか決定できないため、特に音声の干渉に弱い。 音声-視覚音声認識(AVSR)システムは、ノイズに不変な視覚情報とオーディオストリームを補完することにより堅牢性を向上し、モデルが所望の話者に焦点を合わせるのに役立つ。 しかし、以前のAVSRの研究は教師付き学習装置のみに重点を置いていたため、ラベル付きデータの量によって進行が妨げられた。 本研究では,最先端の音声視覚表現学習モデルであるAudio-Visual HuBERT (AV-HuBERT) に基づく自己教師型AVSRフレームワークを提案する。 利用可能な最大のAVSRベンチマークデータセットであるRS3では、バブルノイズの存在下でラベル付きデータ(433hr vs. 30hr)の10%未満(28.0% vs. 14.1%)を使用し、平均75%(25.8% vs. 5.8%)以上のオーディオベースモデルのWERを削減した。

Audio-based automatic speech recognition (ASR) degrades significantly in noisy environments and is particularly vulnerable to interfering speech, as the model cannot determine which speaker to transcribe. Audio-visual speech recognition (AVSR) systems improve robustness by complementing the audio stream with the visual information that is invariant to noise and helps the model focus on the desired speaker. However, previous AVSR work focused solely on the supervised learning setup; hence the progress was hindered by the amount of labeled data available. In this work, we present a self-supervised AVSR framework built upon Audio-Visual HuBERT (AV-HuBERT), a state-of-the-art audio-visual speech representation learning model. On the largest available AVSR benchmark dataset LRS3, our approach outperforms prior state-of-the-art by ~50% (28.0% vs. 14.1%) using less than 10% of labeled data (433hr vs. 30hr) in the presence of babble noise, while reducing the WER of an audio-based model by over 75% (25.8% vs. 5.8%) on average.
翻訳日:2022-01-06 14:24:57 公開日:2022-01-05
# グラフ表現学習を用いた意味駆動生成型逆ネットワークによる二相性顔写真スケッチ合成

Biphasic Face Photo-Sketch Synthesis via Semantic-Driven Generative Adversarial Network with Graph Representation Learning ( http://arxiv.org/abs/2201.01592v1 )

ライセンス: Link先を確認
Xingqun Qi, Muyi Sun, Qi Li, Caifeng Shan(参考訳) 近年,GAN (Generative Adversarial Network) の開発により, 顔の2相合成において顕著な進歩を遂げている。 両顔写真スケッチ合成は、デジタルエンターテイメントや法執行機関といった幅広い分野に適用できる。 しかし、写実的な写真や異なるスケッチを作成することは、実際のシーンにおけるスケッチの質の低さと複雑な写真のバリエーションのために大きな困難に直面している。 そこで本研究では,上記の問題に対処するために,グラフ表現学習と協調して,新たな意味駆動生成型逆ネットワークを提案する。 具体的には,ジェネレータにクラスワイドなセマンティックレイアウトを注入し,合成顔写真やスケッチのためのスタイルベースの空間監視を行う。 さらに, 生成した結果の忠実性を向上させるために, 意味レイアウトを用いて, 合成画像のクラス内意味特徴とクラス間構造特徴を示す2種類の表現グラフを構築する。 さらに,提案した表現グラフに基づく2種類の制約を設計し,生成した顔写真やスケッチの詳細な保存を容易にする。 さらに, 合成画像の知覚的品質をさらに高めるため, 反復サイクルトレーニングによる生成結果の洗練を目的とした, 新たな二相学習戦略を提案する。 cufsとcufsfデータセットについて広範な実験を行い,最先端性能を実現するための提案手法の著明な性能を示す。

In recent years, significant progress has been achieved in biphasic face photo-sketch synthesis with the development of Generative Adversarial Network (GAN). Biphasic face photo-sketch synthesis could be applied in wide-ranging fields such as digital entertainment and law enforcement. However, generating realistic photos and distinct sketches suffers from great challenges due to the low quality of sketches and complex photo variations in the real scenes. To this end, we propose a novel Semantic-Driven Generative Adversarial Network to address the above issues, cooperating with the Graph Representation Learning. Specifically, we inject class-wise semantic layouts into the generator to provide style-based spatial supervision for synthesized face photos and sketches. In addition, to improve the fidelity of the generated results, we leverage the semantic layouts to construct two types of Representational Graphs which indicate the intra-class semantic features and inter-class structural features of the synthesized images. Furthermore, we design two types of constraints based on the proposed Representational Graphs which facilitate the preservation of the details in generated face photos and sketches. Moreover, to further enhance the perceptual quality of synthesized images, we propose a novel biphasic training strategy which is dedicated to refine the generated results through Iterative Cycle Training. Extensive experiments are conducted on CUFS and CUFSF datasets to demonstrate the prominent ability of our proposed method which achieves the state-of-the-art performance.
翻訳日:2022-01-06 14:21:32 公開日:2022-01-05
# 深い確率的グラフマッチング

Deep Probabilistic Graph Matching ( http://arxiv.org/abs/2201.01603v1 )

ライセンス: Link先を確認
He Liu, Tao Wang, Yidong Li, Congyan Lang, Songhe Feng, and Haibin Ling(参考訳) 従来の学習ベースのグラフマッチングアルゴリズムは、マッチング制約の1つ以上を解き、緩和された代入解法を採用して、準最適対応を求めることで、 \textit{quadratic assignment problem} (QAP) を解く。 このような緩和は、実際のグラフマッチング問題を弱め、結果としてマッチング性能を損なう可能性がある。 本稿では,マッチング制約を補うことなく,元のQAPに適合する深層学習ベースのグラフマッチングフレームワークを提案する。 特に,親和性の予測ネットワークを設計し,相似親和性の学習とノード割り当ての推定を行い,その相似親和性の確率論的視点に着想を得た相似解法を開発する。 より良いマッチング結果を得るために、確率的ソルバは、推定された割り当てを反復的に洗練し、離散的および一対一のマッチング制約を課す。 提案手法は,3つのベンチマーク (pascal voc, willow object, spair-71k) で評価され,すべてのベンチマークで従来より優れている。

Most previous learning-based graph matching algorithms solve the \textit{quadratic assignment problem} (QAP) by dropping one or more of the matching constraints and adopting a relaxed assignment solver to obtain sub-optimal correspondences. Such relaxation may actually weaken the original graph matching problem, and in turn hurt the matching performance. In this paper we propose a deep learning-based graph matching framework that works for the original QAP without compromising on the matching constraints. In particular, we design an affinity-assignment prediction network to jointly learn the pairwise affinity and estimate the node assignments, and we then develop a differentiable solver inspired by the probabilistic perspective of the pairwise affinities. Aiming to obtain better matching results, the probabilistic solver refines the estimated assignments in an iterative manner to impose both discrete and one-to-one matching constraints. The proposed method is evaluated on three popularly tested benchmarks (Pascal VOC, Willow Object and SPair-71k), and it outperforms all previous state-of-the-arts on all benchmarks.
翻訳日:2022-01-06 14:21:10 公開日:2022-01-05
# lawin transformer: 大きなウィンドウアテンションによるマルチスケール表現によるセマンティクスセグメンテーショントランスフォーマの改善

Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention ( http://arxiv.org/abs/2201.01615v1 )

ライセンス: Link先を確認
Haotian Yan and Chuang Zhang and Ming Wu(参考訳) マルチスケール表現はセマンティックセグメンテーションに不可欠である。 コミュニティは、マルチスケールな文脈情報を利用するセマンティックセグメンテーション畳み込みニューラルネットワーク(cnn)の隆盛を目撃している。 視覚変換器 (ViT) は画像分類において強力であり, セマンティックセグメンテーション (セマンティックセグメンテーション) も近年提案されている。 本稿では,ウィンドウアテンション機構によるセマンティックセグメンテーション ViT へのマルチスケール表現の導入に成功し,性能と効率をさらに向上する。 この目的のために、ローカルウィンドウがより広い範囲のコンテキストウインドウを、ほんの少しの計算オーバーヘッドでクエリできるような、大きなウィンドウアテンションを導入する。 コンテクスト領域とクエリ領域の比率を調整することにより、大きなウィンドウアテンションが複数のスケールでコンテキスト情報をキャプチャすることを可能にする。 さらに、空間ピラミッドプーリングの枠組みは、大きな窓の注意と協調するために採用され、意味的セグメンテーションのための大きな窓の注意空間ピラミッドプーリング(LawinASPP)と呼ばれる新しいデコーダが提示される。 得られたViTであるLawin Transformerは、エンコーダとして効率的な階層型視覚変換器(HVT)、デコーダとしてLawinASPPから構成される。 実験の結果, ローリン変圧器は従来の方法よりも効率が良くなることがわかった。 Lawin Transformerはさらに、Cityscapes(84.4\% mIoU)、ADE20K(56.2\% mIoU)、COCO-Stuffデータセットに、最先端のパフォーマンスを新たに設定する。 コードはhttps://github.com/y an-hao-tian/lawinでリリースされる。

Multi-scale representations are crucial for semantic segmentation. The community has witnessed the flourish of semantic segmentation convolutional neural networks (CNN) exploiting multi-scale contextual information. Motivated by that the vision transformer (ViT) is powerful in image classification, some semantic segmentation ViTs are recently proposed, most of them attaining impressive results but at a cost of computational economy. In this paper, we succeed in introducing multi-scale representations into semantic segmentation ViT via window attention mechanism and further improves the performance and efficiency. To this end, we introduce large window attention which allows the local window to query a larger area of context window at only a little computation overhead. By regulating the ratio of the context area to the query area, we enable the large window attention to capture the contextual information at multiple scales. Moreover, the framework of spatial pyramid pooling is adopted to collaborate with the large window attention, which presents a novel decoder named large window attention spatial pyramid pooling (LawinASPP) for semantic segmentation ViT. Our resulting ViT, Lawin Transformer, is composed of an efficient hierachical vision transformer (HVT) as encoder and a LawinASPP as decoder. The empirical results demonstrate that Lawin Transformer offers an improved efficiency compared to the existing method. Lawin Transformer further sets new state-of-the-art performance on Cityscapes (84.4\% mIoU), ADE20K (56.2\% mIoU) and COCO-Stuff datasets. The code will be released at https://github.com/y an-hao-tian/lawin.
翻訳日:2022-01-06 14:20:49 公開日:2022-01-05
# TableParser:スプレッドシートからの弱スーパービジョンを備えたテーブルパース

TableParser: Automatic Table Parsing with Weak Supervision from Spreadsheets ( http://arxiv.org/abs/2201.01654v1 )

ライセンス: Link先を確認
Susie Xi Rao, Johannes Rausch, Peter Egger, Ce Zhang(参考訳) テーブルは、データを保存するための既存の構造です。 表データを物理的に保存するアプローチは、現在さまざまなものがある。 PDF、画像、スプレッドシート、CSVなどが主要な例である。 テーブル構造を解析し、これらの構造に縛られたコンテンツを抽出できることは多くのアプリケーションにおいて非常に重要である。 本稿では,tableparserを開発した。tableparserは,ネイティブpdfとスキャン画像の両方のテーブルを高精度に解析できるシステムである。 このようなツールの開発において,ドメイン適応の有効性を示す大規模な実験を行った。 さらに、表解析を可能にするためのスプレッドシートベースの弱監督機構とパイプラインを構成するTableAnnotatorとExcelAnnotatorを作成する。 我々はこれらの資源を研究コミュニティと共有し、この興味深い方向へのさらなる研究を促進する。

Tables have been an ever-existing structure to store data. There exist now different approaches to store tabular data physically. PDFs, images, spreadsheets, and CSVs are leading examples. Being able to parse table structures and extract content bounded by these structures is of high importance in many applications. In this paper, we devise TableParser, a system capable of parsing tables in both native PDFs and scanned images with high precision. We have conducted extensive experiments to show the efficacy of domain adaptation in developing such a tool. Moreover, we create TableAnnotator and ExcelAnnotator, which constitute a spreadsheet-based weak supervision mechanism and a pipeline to enable table parsing. We share these resources with the research community to facilitate further research in this interesting direction.
翻訳日:2022-01-06 14:20:16 公開日:2022-01-05
# 組込みGPUプラットフォームにおける熱画像の評価と車両支援への応用

Evaluation of Thermal Imaging on Embedded GPU Platforms for Application in Vehicular Assistance Systems ( http://arxiv.org/abs/2201.01661v1 )

ライセンス: Link先を確認
Muhammad Ali Farooq, Waseem Shariff, Peter Corcoran(参考訳) 本研究は、車載センサスイートテストのためのGPUおよびシングルボードEDGE-GPUコンピューティングプラットフォーム上にトレーニングされたネットワークをデプロイすることにより、スマートで安全な車両システムに対する熱物体検出のリアルタイム性能を評価することに焦点を当てた。 35,000以上の異なるフレームからなる新しい大規模熱データセットを、厳しい気象や環境シナリオで取得、処理、オープンソース化する。 このデータセットは、安価で効果的に冷却されていないLWIR熱カメラから記録され、スタンドアローンと電気自動車に搭載され、機械的振動を最小限に抑える。 最新のYOLO-V5ネットワークは、4つの異なる公開データセットと、SGDオプティマイザを用いてDNNの最適な一般化のための新たに取得したローカルデータセットを用いて訓練されている。 トレーニングされたネットワークの有効性は、精度、リコール曲線、平均精度、フレーム毎秒を含む様々な定量的指標を用いて、広範囲なテストデータで検証される。 YOLOのより小さなネットワーク版は、TensorRT推論アクセラレータを使って、毎秒フレームを明示的に増やすように最適化されている。 最適化されたネットワークエンジンは、低消費電力エッジデバイスでテストすると、毎秒3.5倍のフレームを増大させ、Nvidia Jetson Nanoで11fps、Nvidia Xavier NX開発ボードで60fpsを達成する。

This study is focused on evaluating the real-time performance of thermal object detection for smart and safe vehicular systems by deploying the trained networks on GPU & single-board EDGE-GPU computing platforms for onboard automotive sensor suite testing. A novel large-scale thermal dataset comprising of > 35,000 distinct frames is acquired, processed, and open-sourced in challenging weather and environmental scenarios. The dataset is a recorded from lost-cost yet effective uncooled LWIR thermal camera, mounted stand-alone and on an electric vehicle to minimize mechanical vibrations. State-of-the-art YOLO-V5 networks variants are trained using four different public datasets as well newly acquired local dataset for optimal generalization of DNN by employing SGD optimizer. The effectiveness of trained networks is validated on extensive test data using various quantitative metrics which include precision, recall curve, mean average precision, and frames per second. The smaller network variant of YOLO is further optimized using TensorRT inference accelerator to explicitly boost the frames per second rate. Optimized network engine increases the frames per second rate by 3.5 times when testing on low power edge devices thus achieving 11 fps on Nvidia Jetson Nano and 60 fps on Nvidia Xavier NX development boards.
翻訳日:2022-01-06 14:20:04 公開日:2022-01-05
# 制御可能な3次元人体合成のための表面配向ニューラルラジアンス場

Surface-Aligned Neural Radiance Fields for Controllable 3D Human Synthesis ( http://arxiv.org/abs/2201.01683v1 )

ライセンス: Link先を確認
Tianhan Xu, Yasuhiro Fujita, Eiichi Matsumoto(参考訳) 本稿では,多視点RGBビデオから制御可能な暗黙的3次元モデルを再構築する手法を提案する。 本手法は,人体メッシュの表面から,メッシュ表面点と署名された距離のニューラルシーン表現を定義する。 我々は3次元空間の点がメッシュ上の最も近い表面点にマッピングされ、表面整列型ニューラルネットワークシーン表現を学習する際に生じる不明瞭な問題を特定する。 この問題に対処するために,修正頂点正規度を用いたバリ中心補間を用いたメッシュ表面に点を投影することを提案する。 ZJU-MoCapおよびHuman3.6Mデータセットを用いた実験により,本手法は既存手法よりも新規な視点と新規な目的の合成において高い品質を実現することが示された。 また,本手法は体型や衣服の制御を容易に支援できることを実証する。

We propose a new method for reconstructing controllable implicit 3D human models from sparse multi-view RGB videos. Our method defines the neural scene representation on the mesh surface points and signed distances from the surface of a human body mesh. We identify an indistinguishability issue that arises when a point in 3D space is mapped to its nearest surface point on a mesh for learning surface-aligned neural scene representation. To address this issue, we propose projecting a point onto a mesh surface using a barycentric interpolation with modified vertex normals. Experiments with the ZJU-MoCap and Human3.6M datasets show that our approach achieves a higher quality in a novel-view and novel-pose synthesis than existing methods. We also demonstrate that our method easily supports the control of body shape and clothes.
翻訳日:2022-01-06 14:19:40 公開日:2022-01-05
# 類似性を考慮した時系列分類に向けて

Towards Similarity-Aware Time-Series Classification ( http://arxiv.org/abs/2201.01413v1 )

ライセンス: Link先を確認
Daochen Zha, Kwei-Herng Lai, Kaixiong Zhou, Xia Hu(参考訳) 時系列データマイニングの基本課題である時系列分類(TSC)について検討する。 先行研究は,(1)近接する隣人に基づいて時系列を分類する類似性に基づく手法,(2)データ駆動方式で分類表現を直接学習する深層学習モデル,の2つの方向からTSCにアプローチしてきた。 これら2つの研究ラインで異なる作業メカニズムによって動機付けられ、時系列の類似性を共同でモデル化し、表現を学習することを目的としている。 類似情報を効率的に活用する方法が不明確であるため、これは難しい課題です。 この課題を解決するために,グラフニューラルネットワーク(GNN)を用いて類似情報をモデル化する概念的にシンプルで一般的なフレームワークであるSimTSCを提案する。 具体的には、ノードが時系列に対応し、リンクがペアワイズ類似性に対応するグラフにおいて、TSCをノード分類問題として定式化する。 さらに,グラフ構築戦略と負サンプリングによるバッチ学習アルゴリズムを設計し,学習効率を向上させる。 我々はSimTSCをResNetをバックボーンとし、Dynamic Time Warping(DTW)を類似度尺度としてインスタンス化する。 ucrデータセットと複数の多変量データセットに関する広範な実験は、教師付きと半教師付きの両方の設定でディープラーニングモデルに類似性情報を組み込む効果を示している。 私たちのコードはhttps://github.com/d aochenzha/SimTSCで利用可能です。

We study time-series classification (TSC), a fundamental task of time-series data mining. Prior work has approached TSC from two major directions: (1) similarity-based methods that classify time-series based on the nearest neighbors, and (2) deep learning models that directly learn the representations for classification in a data-driven manner. Motivated by the different working mechanisms within these two research lines, we aim to connect them in such a way as to jointly model time-series similarities and learn the representations. This is a challenging task because it is unclear how we should efficiently leverage similarity information. To tackle the challenge, we propose Similarity-Aware Time-Series Classification (SimTSC), a conceptually simple and general framework that models similarity information with graph neural networks (GNNs). Specifically, we formulate TSC as a node classification problem in graphs, where the nodes correspond to time-series, and the links correspond to pair-wise similarities. We further design a graph construction strategy and a batch training algorithm with negative sampling to improve training efficiency. We instantiate SimTSC with ResNet as the backbone and Dynamic Time Warping (DTW) as the similarity measure. Extensive experiments on the full UCR datasets and several multivariate datasets demonstrate the effectiveness of incorporating similarity information into deep learning models in both supervised and semi-supervised settings. Our code is available at https://github.com/d aochenzha/SimTSC
翻訳日:2022-01-06 14:19:25 公開日:2022-01-05
# ヘテロジニアスクライアント上での効率的なフェデレーション学習のための期限制御によるサンプル選択

Sample Selection with Deadline Control for Efficient Federated Learning on Heterogeneous Clients ( http://arxiv.org/abs/2201.01601v1 )

ライセンス: Link先を確認
Jaemin Shin, Yuanchun Li, Yunxin Liu, Sung-Ju Lee(参考訳) Federated Learning (FL)は、個々のデータを公開せずに、分散クライアント上で機械学習モデルをトレーニングする。 通常、慎重に整理されたデータに基づく集中型トレーニングとは異なり、FLはデバイス上のデータを扱う。 その結果、全てのデータを均等に扱う従来のFLトレーニングプロトコルは、ローカルな計算資源の無駄を招き、グローバルな学習プロセスを遅くする。 この目的のために,クライアントのトレーニングサンプルを積極的に選択する体系的FLフレームワークであるFedBalancerを提案する。 当社のサンプル選択戦略は,クライアントのプライバシと計算能力を尊重しながら,より"情報的"なデータを優先する。 さらに,グローバルトレーニングを高速化するために,各ラウンド毎の最適期限を様々なクライアントトレインデータで予測する適応期限制御方式を導入する。 既存のFLアルゴリズムと期限設定法を比較すると,FedBalancerは1.22~4.62倍の精度向上を実現し,モデルの精度は1.0~3.3%向上した。 また,3つの異なるflアルゴリズムと協調して動作した場合の収束速度と精度が向上することを示すことにより,他のflアプローチにも容易に適用できることを示す。

Federated Learning (FL) trains a machine learning model on distributed clients without exposing individual data. Unlike centralized training that is usually based on carefully-organized data, FL deals with on-device data that are often unfiltered and imbalanced. As a result, conventional FL training protocol that treats all data equally leads to a waste of local computational resources and slows down the global learning process. To this end, we propose FedBalancer, a systematic FL framework that actively selects clients' training samples. Our sample selection strategy prioritizes more "informative" data while respecting privacy and computational capabilities of clients. To better utilize the sample selection to speed up global training, we further introduce an adaptive deadline control scheme that predicts the optimal deadline for each round with varying client train data. Compared with existing FL algorithms with deadline configuration methods, our evaluation on five datasets from three different domains shows that FedBalancer improves the time-to-accuracy performance by 1.22~4.62x while improving the model accuracy by 1.0~3.3%. We also show that FedBalancer is readily applicable to other FL approaches by demonstrating that FedBalancer improves the convergence speed and accuracy when operating jointly with three different FL algorithms.
翻訳日:2022-01-06 14:17:57 公開日:2022-01-05
# (参考訳) 表情認識におけるモデル圧縮が公平性に及ぼす影響 [全文訳有]

The Effect of Model Compression on Fairness in Facial Expression Recognition ( http://arxiv.org/abs/2201.01709v1 )

ライセンス: CC BY 4.0
Samuil Stoychev and Hatice Gunes(参考訳) ディープニューラルネットワークは大きな成功を収め、さまざまなタスクで人間のようなパフォーマンスを達成しています。 しかし、それらもまた計算コストが高く、深層学習モデルに関連する資源消費を減らすモデル圧縮技術の開発を動機付けている。 しかしながら、近年の研究はモデル圧縮がアルゴリズムの公平性に悪影響を及ぼす可能性を示唆しており、機械学習モデルの既存のバイアスを増幅している。 このプロジェクトでは、これらの研究を表情認識の文脈に拡張することを目指している。 そこで我々は,表情認識を行うニューラルネットワーク分類器を設置し,その上に複数のモデル圧縮手法を実装した。 次に,拡張cohn-kanadeデータセット(ck+db)とreal-world affective facesデータベース(raf-db)という2つの顔表情データセットで実験を行い,圧縮技術がモデルサイズ,精度,公平性に与える影響について検討した。 私たちの実験結果は 一 CK+DB及びRAF-DBの総合的精度に最小限の影響を及ぼすことなく、圧縮及び量子化によりモデルサイズが大幅に減少する。 (ii)モデル精度の面では、RAF-DBで訓練・試験された分類器はCK+ DBに比べて圧縮性が高い。 (iii)raf-dbでは、異なる圧縮戦略は、性別、人種、年齢の繊細な属性における予測性能の差を増加させていないように思われる。 結果を分析し,その結果の潜在的原因について考察する。

Deep neural networks have proved hugely successful, achieving human-like performance on a variety of tasks. However, they are also computationally expensive, which has motivated the development of model compression techniques which reduce the resource consumption associated with deep learning models. Nevertheless, recent studies have suggested that model compression can have an adverse effect on algorithmic fairness, amplifying existing biases in machine learning models. With this project we aim to extend those studies to the context of facial expression recognition. To do that, we set up a neural network classifier to perform facial expression recognition and implement several model compression techniques on top of it. We then run experiments on two facial expression datasets, namely the Extended Cohn-Kanade Dataset (CK+DB) and the Real-World Affective Faces Database (RAF-DB), to examine the individual and combined effect that compression techniques have on the model size, accuracy and fairness. Our experimental results show that: (i) Compression and quantisation achieve significant reduction in model size with minimal impact on overall accuracy for both CK+DB and RAF-DB; (ii) in terms of model accuracy, the classifier trained and tested on RAF-DB seems more robust to compression compared to the CK+ DB; (iii) for RAF-DB, the different compression strategies do not seem to increase the gap in predictive performance across the sensitive attributes of gender, race and age which is in contrast with the results on the CK+DB, where compression seems to amplify existing biases for gender. We analyse the results and discuss the potential reasons for our findings.
翻訳日:2022-01-06 14:14:53 公開日:2022-01-05
# 不確実性推定による高効率深層強化学習

Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation ( http://arxiv.org/abs/2201.01666v1 )

ライセンス: Link先を確認
Vincent Mai, Kaustubh Mani and Liam Paull(参考訳) モデルフリー深部強化学習(RL)アルゴリズムでは、ノイズ値推定を用いて政策評価と最適化を監督し、サンプル効率を損なう。 このノイズは不均質であるため、最適化過程における不確実性に基づく重み付けによりその効果を緩和することができる。 従来の方法はサンプルアンサンブルに依存しており、不確実性の全ての側面を捉えていない。 そこで本研究では, rl において発生する雑音下での不確かさの原因を体系的に解析し, 確率的アンサンブルとバッチ逆分散重み付けを組み合わせたベイズ的枠組みである逆分散 rl を導入する。 本稿では,2つの相補的不確実性推定手法がQ値と環境確率の両方を考慮し,ノイズ管理の負の影響を緩和する手法を提案する。 その結果,離散的および連続的な制御タスクにおいて,サンプル効率が大幅に向上した。

In model-free deep reinforcement learning (RL) algorithms, using noisy value estimates to supervise policy evaluation and optimization is detrimental to the sample efficiency. As this noise is heteroscedastic, its effects can be mitigated using uncertainty-based weights in the optimization process. Previous methods rely on sampled ensembles, which do not capture all aspects of uncertainty. We provide a systematic analysis of the sources of uncertainty in the noisy supervision that occurs in RL, and introduce inverse-variance RL, a Bayesian framework which combines probabilistic ensembles and Batch Inverse Variance weighting. We propose a method whereby two complementary uncertainty estimation methods account for both the Q-value and the environment stochasticity to better mitigate the negative impacts of noisy supervision. Our results show significant improvement in terms of sample efficiency on discrete and continuous control tasks.
翻訳日:2022-01-06 13:54:07 公開日:2022-01-05
# $\ell_2$正規化ネットワーク埋め込みの漸近

Asymptotics of $\ell_2$ Regularized Network Embeddings ( http://arxiv.org/abs/2201.01689v1 )

ライセンス: Link先を確認
Andrew Davison(参考訳) 大きなネットワーク上のノード分類やリンク予測のようなタスクを解決する一般的なアプローチは、通常の機械学習手法が適用可能なネットワークのノードのユークリッド埋め込みを学習することから始まる。 DeepWalkやnode2vecのような教師なしのランダムウォークメソッドでは、損失に埋め込みベクトルに$\ell_2$ペナルティを追加することで、ダウンストリームタスクのパフォーマンスが向上する。 本稿では,この正規化の効果について検討し,グラフ上の交換可能性仮定の下で漸近的に核ノルム型陰極化グラフを学習することを証明する。 特に、ペナルティの正確な形は、埋め込みを学ぶために確率勾配降下で使用されるサブサンプリング方法の選択に依存する。 また,ノード共変分を$\ell_2$正規化ノード2vecの埋め込みに分解すると,ノード共変分とネットワーク構造を非線形に組み込む手法の性能が同等であることを示す。

A common approach to solving tasks, such as node classification or link prediction, on a large network begins by learning a Euclidean embedding of the nodes of the network, from which regular machine learning methods can be applied. For unsupervised random walk methods such as DeepWalk and node2vec, adding a $\ell_2$ penalty on the embedding vectors to the loss leads to improved downstream task performance. In this paper we study the effects of this regularization and prove that, under exchangeability assumptions on the graph, it asymptotically leads to learning a nuclear-norm-type penalized graphon. In particular, the exact form of the penalty depends on the choice of subsampling method used within stochastic gradient descent to learn the embeddings. We also illustrate empirically that concatenating node covariates to $\ell_2$ regularized node2vec embeddings leads to comparable, if not superior, performance to methods which incorporate node covariates and the network structure in a non-linear manner.
翻訳日:2022-01-06 13:53:53 公開日:2022-01-05
# 非対称数値システム(ANS)によるエントロピー符号化の理解 : 統計学者の視点から

Understanding Entropy Coding With Asymmetric Numeral Systems (ANS): a Statistician's Perspective ( http://arxiv.org/abs/2201.01741v1 )

ライセンス: Link先を確認
Robert Bamler(参考訳) エントロピー符号化はバックボーンデータ圧縮である。 新しい機械学習ベースの圧縮手法は、しばしばAsymmetric Numeral Systems (ANS) [Duda et al., 2015]と呼ばれる新しいエントロピーコーダを使用し、最適なビットレートに非常に近づき、[Townsend et al., 2019]ビットバックコーディングのような高度な圧縮テクニックを単純化する。 しかし、機械学習のバックグラウンドを持つ研究者たちは、ANSがどのように機能するかを理解するのに苦労することが多い。 本論文は,潜在変数モデルといわゆるbits-backの新たな視点から,AISをより親しみやすくするための教育資源として意図されている。 読者は、Pythonプログラミング言語におけるANSの完全な実装にステップバイステップでガイドし、さらに高度なユースケースに対して一般化する。 また,研究用および生産用の両方に設計された様々なエントロピーコーダのオープンソースライブラリを提示し,実証的に評価した。 関連する教育ビデオや問題セットはオンラインで公開されている。

Entropy coding is the backbone data compression. Novel machine-learning based compression methods often use a new entropy coder called Asymmetric Numeral Systems (ANS) [Duda et al., 2015], which provides very close to optimal bitrates and simplifies [Townsend et al., 2019] advanced compression techniques such as bits-back coding. However, researchers with a background in machine learning often struggle to understand how ANS works, which prevents them from exploiting its full versatility. This paper is meant as an educational resource to make ANS more approachable by presenting it from a new perspective of latent variable models and the so-called bits-back trick. We guide the reader step by step to a complete implementation of ANS in the Python programming language, which we then generalize for more advanced use cases. We also present and empirically evaluate an open-source library of various entropy coders designed for both research and production use. Related teaching videos and problem sets are available online.
翻訳日:2022-01-06 13:53:14 公開日:2022-01-05
# (参考訳) TryOnGANの探索 [全文訳有]

Probing TryOnGAN ( http://arxiv.org/abs/2201.01703v1 )

ライセンス: CC BY 4.0
Saurabh Kumar, Nishant Sinha(参考訳) TryOnGANは最近の仮想試行アプローチで、非常にリアルなイメージを生成し、これまでのアプローチよりも優れています。 本稿では,trionganの実装を再現し,伝達学習の影響,ポーズ付き条件付き画像生成の変種,潜在空間補間の性質など,様々な角度から検証する。 これらの面のいくつかは、以前に文献で研究されたことがない。 移行は最初はトレーニングに役立つが、モデルのトレーニングが長くなり、結合による条件付けが向上するにつれて、利益は失われる。 潜在空間はポーズとスタイルの特徴を自己区別し、ポーズ間のスタイル転送を可能にする。 私たちのコードとモデルはオープンソースで利用可能です。

TryOnGAN is a recent virtual try-on approach, which generates highly realistic images and outperforms most previous approaches. In this article, we reproduce the TryOnGAN implementation and probe it along diverse angles: impact of transfer learning, variants of conditioning image generation with poses and properties of latent space interpolation. Some of these facets have never been explored in literature earlier. We find that transfer helps training initially but gains are lost as models train longer and pose conditioning via concatenation performs better. The latent space self-disentangles the pose and the style features and enables style transfer across poses. Our code and models are available in open source.
翻訳日:2022-01-06 13:50:05 公開日:2022-01-05
# 手話生産に必要なものすべて

All You Need In Sign Language Production ( http://arxiv.org/abs/2201.01609v1 )

ライセンス: Link先を確認
Razieh Rastgoo, Kourosh Kiani, Sergio Escalera, Vassilis Athitsos, Mohammad Sabokrou(参考訳) 手話は、聴覚障害と聴覚障害のコミュニティで使われるコミュニケーション言語の主要な形態である。 難聴者と難聴者コミュニティとのコミュニケーションが容易かつ相互に行えるようにし、音声言語を手話に翻訳できるロバストなシステムを構築することが基本である。 この目的のために、手話認識と生産は、このような双方向システムを作るのに必要な2つの部分である。 言語認識と生産はいくつかの重要な課題に対処する必要がある。 本稿では,手話生成(SLP)とその関連分野の最近の進歩を,ディープラーニングを用いて概観する。 手話にもっと現実的な視点を持たせるために,聴覚障害者文化,聴覚障害者センター,手話の心理的視点,話し言葉と手話の主な違いについて紹介する。 さらに,本稿では,双方向手話翻訳システムの基本コンポーネントを紹介し,この分野の主な課題について述べる。 また、SLPのバックボーンアーキテクチャや手法を簡潔に紹介し、SLPの分類について提案する。 最後に、SLPと性能評価のための一般的なフレームワーク、およびSLPの最近の発展、利点、限界に関する議論について、今後の研究の行程についてコメントする。

Sign Language is the dominant form of communication language used in the deaf and hearing-impaired community. To make an easy and mutual communication between the hearing-impaired and the hearing communities, building a robust system capable of translating the spoken language into sign language and vice versa is fundamental. To this end, sign language recognition and production are two necessary parts for making such a two-way system. Sign language recognition and production need to cope with some critical challenges. In this survey, we review recent advances in Sign Language Production (SLP) and related areas using deep learning. To have more realistic perspectives to sign language, we present an introduction to the Deaf culture, Deaf centers, psychological perspective of sign language, the main differences between spoken language and sign language. Furthermore, we present the fundamental components of a bi-directional sign language translation system, discussing the main challenges in this area. Also, the backbone architectures and methods in SLP are briefly introduced and the proposed taxonomy on SLP is presented. Finally, a general framework for SLP and performance evaluation, and also a discussion on the recent developments, advantages, and limitations in SLP, commenting on possible lines for future research are presented.
翻訳日:2022-01-06 13:45:33 公開日:2022-01-05
# オートエンコーダを用いた遅延ベクトル拡張による異常検出

Latent Vector Expansion using Autoencoder for Anomaly Detection ( http://arxiv.org/abs/2201.01416v1 )

ライセンス: Link先を確認
UJu Gim, YeongHyeon Park(参考訳) ディープラーニング手法は、画像、言語、音声などの様々な非構造化データを入力データとして分類することができる。 実世界では,異常の分類が重要になるにつれて,実世界で収集されたデータを用いた深層学習の分類方法が数多く存在する。 実世界では,異常の分類が重要になるにつれて,実世界で収集されたデータを用いて深層学習を用いて分類する方法は様々である。 各種手法のうち,本手法は,事前学習したモデルから遷移モデルに基づいて主特徴を抽出・学習する方法であり,正規データのみを用いてオートエンコーダ構造を学習し,しきい値を通じて異常に分類する方法である。 しかし、データセットが不均衡であれば、最先端のモデルでさえ性能が良くない。 これは、バランスのとれないデータの正常な特徴と異常な特徴を、強い区別を持つ特徴として増やすことで対処できる。 低次元から高次元の潜在ベクトルを訓練するためにオートエンコーダの特徴を用いる。 不均衡なデータの特徴を強く区別する特徴として,正常なデータと異常なデータを訓練する。 不均衡なデータの分類性能を向上させる潜在ベクトル展開オートエンコーダモデルを提案する。 提案手法は,不均衡なデータセットを用いた基本オートエンコーダと比較して性能改善を示す。

Deep learning methods can classify various unstructured data such as images, language, and voice as input data. As the task of classifying anomalies becomes more important in the real world, various methods exist for classifying using deep learning with data collected in the real world. As the task of classifying anomalies becomes more important in the real world, there are various methods for classifying using deep learning with data collected in the real world. Among the various methods, the representative approach is a method of extracting and learning the main features based on a transition model from pre-trained models, and a method of learning an autoencoderbased structure only with normal data and classifying it as abnormal through a threshold value. However, if the dataset is imbalanced, even the state-of-the-arts models do not achieve good performance. This can be addressed by augmenting normal and abnormal features in imbalanced data as features with strong distinction. We use the features of the autoencoder to train latent vectors from low to high dimensionality. We train normal and abnormal data as a feature that has a strong distinction among the features of imbalanced data. We propose a latent vector expansion autoencoder model that improves classification performance at imbalanced data. The proposed method shows performance improvement compared to the basic autoencoder using imbalanced anomaly dataset.
翻訳日:2022-01-06 13:45:15 公開日:2022-01-05
# 識別型・比較可能な1クラス分類器による模範学習

Exemplar-free Class Incremental Learning via Discriminative and Comparable One-class Classifiers ( http://arxiv.org/abs/2201.01488v1 )

ライセンス: Link先を確認
Wenju Sun, Qingyong Li, Jing Zhang, Danyu Wang, Wen Wang, Yangli-ao Geng(参考訳) exemplar-freeクラスインクリメンタル学習は、古いサンプルを保持せずに新しいクラス知識をインクリメンタルに学習する分類モデルを必要とする。 近年,各カテゴリごとに個別に1クラス分類器(occ)を訓練する並列型1クラス分類器(poc)に基づくフレームワークが注目されている。 しかしPOCは、異なるOOCに対する独立したトレーニング戦略のために、差別性とコンパラビリティに悩まされている。 この課題に対処するため,DisCOIL (Distriminative and Comparable One-class Classificationifiers for Incremental Learning) という新しいフレームワークを提案する。 DisCOILはPOCの基本原理に従っているが、訓練されたVAEがクラスに属する入力サンプルの確率を識別できるだけでなく、新しいタスクの学習を支援するためにクラスの擬似サンプルを生成するため、他の確立した1クラス分類器(ディープSVDDなど)の代わりに変分自動エンコーダ(VAE)を採用する。 この利点により、discoilは旧型のvaeとは対照的に新級vaeを訓練し、新級vaeは新級サンプルをより良く再構築するが、旧級疑似サンプルでは悪化し、互換性が向上した。 さらに、DisCOILは、識別性を確保するためにヒンジ復元損失を導入する。 提案手法はMNIST, CIFAR10, Tiny-ImageNetで広く評価されている。 実験の結果,DisCOILは最先端の性能を達成できた。

The exemplar-free class incremental learning requires classification models to learn new class knowledge incrementally without retaining any old samples. Recently, the framework based on parallel one-class classifiers (POC), which trains a one-class classifier (OCC) independently for each category, has attracted extensive attention, since it can naturally avoid catastrophic forgetting. POC, however, suffers from weak discriminability and comparability due to its independent training strategy for different OOCs. To meet this challenge, we propose a new framework, named Discriminative and Comparable One-class classifiers for Incremental Learning (DisCOIL). DisCOIL follows the basic principle of POC, but it adopts variational auto-encoders (VAE) instead of other well-established one-class classifiers (e.g. deep SVDD), because a trained VAE can not only identify the probability of an input sample belonging to a class but also generate pseudo samples of the class to assist in learning new tasks. With this advantage, DisCOIL trains a new-class VAE in contrast with the old-class VAEs, which forces the new-class VAE to reconstruct better for new-class samples but worse for the old-class pseudo samples, thus enhancing the comparability. Furthermore, DisCOIL introduces a hinge reconstruction loss to ensure the discriminability. We evaluate our method extensively on MNIST, CIFAR10, and Tiny-ImageNet. The experimental results show that DisCOIL achieves state-of-the-art performance.
翻訳日:2022-01-06 13:44:55 公開日:2022-01-05
# (参考訳) 複数文書読解の理解 [全文訳有]

Multi Document Reading Comprehension ( http://arxiv.org/abs/2201.01706v1 )

ライセンス: CC BY 4.0
Avi Chawla(参考訳) Reading Comprehension (RC) とは、ある節または一組の節から質問に答えるタスクである。 複数の節がある場合、その質問に対する最良の答えを見つけることが課題である。 自然言語処理(nlp)の分野での最近の試みと実験により、機械は、文章の処理だけでなく、文章から質問に答える意味を理解することができるだけでなく、スタンフォードの質問応答データセット(squad)のような多くのデータセットで人間のパフォーマンスを上回ることができることが証明された。 本稿では,過去数十年にわたる自然言語処理における読解とその進化について考察する。 また,複数文書読解システムのためのビルディングブロックとして,単一文書読解システムがどのように機能するかについても検討する。 論文の後半では、最近提案されているマルチドキュメント読解モデルについて検討します。re3qaは、読み手、検索者、そして、与えられた一節から最善の回答を得るための再ランク付けベースのネットワークで構成されています。

Reading Comprehension (RC) is a task of answering a question from a given passage or a set of passages. In the case of multiple passages, the task is to find the best possible answer to the question. Recent trials and experiments in the field of Natural Language Processing (NLP) have proved that machines can be provided with the ability to not only process the text in the passage and understand its meaning to answer the question from the passage, but also can surpass the Human Performance on many datasets such as Standford's Question Answering Dataset (SQuAD). This paper presents a study on Reading Comprehension and its evolution in Natural Language Processing over the past few decades. We shall also study how the task of Single Document Reading Comprehension acts as a building block for our Multi-Document Reading Comprehension System. In the latter half of the paper, we'll be studying about a recently proposed model for Multi-Document Reading Comprehension - RE3QA that is comprised of a Reader, Retriever, and a Re-ranker based network to fetch the best possible answer from a given set of passages.
翻訳日:2022-01-06 13:42:17 公開日:2022-01-05
# ゼロショット・セミスーパービジョン学習のための自然不均衡な擬似ラベルからのデバイアスドラーニング

Debiased Learning from Naturally Imbalanced Pseudo-Labels for Zero-Shot and Semi-Supervised Learning ( http://arxiv.org/abs/2201.01490v1 )

ライセンス: Link先を確認
Xudong Wang, Zhirong Wu, Long Lian, Stella X. Yu(参考訳) 本研究は,先行研究によって見過ごされる自然現象である疑似ラベルのバイアス問題を研究する。 ソースデータで訓練された分類器がラベルなしのターゲットデータに転送されると、擬似ラベルが生成される。 半教師付き学習モデルフィクスマッチがラベルなしデータセットのラベルを予測した場合、ラベルなしデータのバランスが保たれている場合でも、重長い尾付き擬似ラベルを観測する。 介入なしに、トレーニングモデルは擬似ラベルからバイアスを継承し、最終的には準最適となる。 モデルバイアスを排除するため,適応型デバイアスモジュールと適応型限界損失からなる,単純で効果的なデバイアスマッチング法を提案する。 オンライン更新キューを利用することで、デバイアスの強度とマージンのサイズを自動的に調整することができる。 imagenet-1kでベンチマークしたdebiasmatchは、半教師付き学習(0.2%の注釈付きデータ)とゼロショット学習タスクにおいて、以前の最先端を26%以上、8.7%を大きく上回っている。

This work studies the bias issue of pseudo-labeling, a natural phenomenon that widely occurs but often overlooked by prior research. Pseudo-labels are generated when a classifier trained on source data is transferred to unlabeled target data. We observe heavy long-tailed pseudo-labels when a semi-supervised learning model FixMatch predicts labels on the unlabeled set even though the unlabeled data is curated to be balanced. Without intervention, the training model inherits the bias from the pseudo-labels and end up being sub-optimal. To eliminate the model bias, we propose a simple yet effective method DebiasMatch, comprising of an adaptive debiasing module and an adaptive marginal loss. The strength of debiasing and the size of margins can be automatically adjusted by making use of an online updated queue. Benchmarked on ImageNet-1K, DebiasMatch significantly outperforms previous state-of-the-arts by more than 26% and 8.7% on semi-supervised learning (0.2% annotated data) and zero-shot learning tasks respectively.
翻訳日:2022-01-06 13:28:02 公開日:2022-01-05
# 人工知能の課題 --機械学習とコンピュータビジョンから感情知へ-

Challenges of Artificial Intelligence -- From Machine Learning and Computer Vision to Emotional Intelligence ( http://arxiv.org/abs/2201.01466v1 )

ライセンス: Link先を確認
Matti Pietik\"ainen, Olli Silven(参考訳) 人工知能(AI)は日々の会話や生活の一部になっている。 それは世界を変える新しい電気だと考えられている。 AIは産業とアカデミーの両方に多大な投資をしている。 しかし、現在のAIに関する議論には、多くの誇大宣伝がある。 いわゆるディープラーニングに基づくAIは多くの問題で目覚ましい結果を得たが、その限界はすでに見えている。 aiは1940年代から研究が続けられており、業界は過剰な期待とそれに伴う失望によって、多くの上昇と低下を経験している。 この本の目的は、AI、その歴史、その可能性、限界の現実的なイメージを提供することである。 AIは人間の支配者ではなく支援者だと考えている。 AIとは何か、どのように進化してきたのかを説明することから始めます。 基礎研究の後、人工知能の現在の主流における大量のデータの重要性を説明します。 AI、メソッド、機械学習の最も一般的な表現がカバーされている。 また、主なアプリケーション領域も導入されている。 コンピュータビジョンはAIの開発の中心となっている。 この本はコンピュータビジョンの一般的な紹介を提供し、我々の研究の結果と応用への露出を含んでいる。 感情は人間の知性の中心であるが、AIではほとんど使われていない。 我々は、感情知性の基礎と、そのトピックに関する独自の研究を紹介する。 我々は、人間の理解を超越する超知能について論じ、その成果が現在の知識に基づいて不可能に思える理由と、AIをどのように改善できるかを説明する。 最後に、現在のaiの現状と将来何をすべきかを要約する。 付録では、特に私たちの大学におけるコンテンツの観点から、ai教育の発展を考察する。

Artificial intelligence (AI) has become a part of everyday conversation and our lives. It is considered as the new electricity that is revolutionizing the world. AI is heavily invested in both industry and academy. However, there is also a lot of hype in the current AI debate. AI based on so-called deep learning has achieved impressive results in many problems, but its limits are already visible. AI has been under research since the 1940s, and the industry has seen many ups and downs due to over-expectations and related disappointments that have followed. The purpose of this book is to give a realistic picture of AI, its history, its potential and limitations. We believe that AI is a helper, not a ruler of humans. We begin by describing what AI is and how it has evolved over the decades. After fundamentals, we explain the importance of massive data for the current mainstream of artificial intelligence. The most common representations for AI, methods, and machine learning are covered. In addition, the main application areas are introduced. Computer vision has been central to the development of AI. The book provides a general introduction to computer vision, and includes an exposure to the results and applications of our own research. Emotions are central to human intelligence, but little use has been made in AI. We present the basics of emotional intelligence and our own research on the topic. We discuss super-intelligence that transcends human understanding, explaining why such achievement seems impossible on the basis of present knowledge,and how AI could be improved. Finally, a summary is made of the current state of AI and what to do in the future. In the appendix, we look at the development of AI education, especially from the perspective of contents at our own university.
翻訳日:2022-01-06 13:27:43 公開日:2022-01-05
# TensorFlowオブジェクト検出APIを用いた手話認識システム

Sign Language Recognition System using TensorFlow Object Detection API ( http://arxiv.org/abs/2201.01486v1 )

ライセンス: Link先を確認
Sharvani Srivastava, Amisha Gangwar, Richa Mishra, Sudhakar Singh(参考訳) コミュニケーションとは、情報、アイデア、感情を共有し、交換する行為である。 2人のコミュニケーションを確立するためには、共通の言語に関する知識と理解が必要である。 しかし、聴覚障害者や愚かな人々の場合、コミュニケーションの手段は異なります。 聴覚障害者は聞き取れず、愚か者は話すことができない。 彼らは手話を使って普通の人と意思疎通するが、普通の人は手話の重要性を真剣に受け止めない。 誰もが普通の人と聴覚障害と愚かな人とのコミュニケーションを難しくする手話の知識と理解を持っているわけではない。 この障壁を克服するために、機械学習に基づいたモデルを構築することができる。 モデルは手話の異なるジェスチャーを認識し、それらを英語に翻訳するように訓練することができる。 これは、多くの人々が聴覚障害者と会話したり会話したりするのに役立ちます。 既存のインド歌言語認識システムは、シングルハンドとダブルハンドのジェスチャーを持つ機械学習アルゴリズムを用いて設計されているが、リアルタイムではない。 本稿では、Webカメラを用いてインド手話データセットを作成し、次に転送学習を用いて、TensorFlowモデルを訓練してリアルタイム手話認識システムを構築する方法を提案する。 システムは、限られたサイズのデータセットでも良好な精度を達成する。

Communication is defined as the act of sharing or exchanging information, ideas or feelings. To establish communication between two people, both of them are required to have knowledge and understanding of a common language. But in the case of deaf and dumb people, the means of communication are different. Deaf is the inability to hear and dumb is the inability to speak. They communicate using sign language among themselves and with normal people but normal people do not take seriously the importance of sign language. Not everyone possesses the knowledge and understanding of sign language which makes communication difficult between a normal person and a deaf and dumb person. To overcome this barrier, one can build a model based on machine learning. A model can be trained to recognize different gestures of sign language and translate them into English. This will help a lot of people in communicating and conversing with deaf and dumb people. The existing Indian Sing Language Recognition systems are designed using machine learning algorithms with single and double-handed gestures but they are not real-time. In this paper, we propose a method to create an Indian Sign Language dataset using a webcam and then using transfer learning, train a TensorFlow model to create a real-time Sign Language Recognition system. The system achieves a good level of accuracy even with a limited size dataset.
翻訳日:2022-01-06 13:27:23 公開日:2022-01-05
# 自然言語理解におけるドメイン分類のためのハイパーパラメータフリー連続学習

Hyperparameter-free Continuous Learning for Domain Classification in Natural Language Understanding ( http://arxiv.org/abs/2201.01420v1 )

ライセンス: Link先を確認
Ting Hua, Yilin Shen, Changsheng Zhao, Yen-Chang Hsu, Hongxia Jin(参考訳) ドメイン分類は自然言語理解(NLU)の基本課題であり、しばしば新しい領域への高速な調節を必要とする。 この制約により、たとえ新しいモデルにアクセスできるとしても、以前のすべてのドメインを再トレーニングすることは不可能である。 既存の継続的学習アプローチの多くは、特に古いデータと新しいデータの分布が著しく異なる場合、低い精度とパフォーマンスのゆらぎに苦しむ。 実際、重要な現実の問題は、古いデータがないことではなく、古いデータセットでモデルを再トレーニングする非効率である。 ハイパーパラメータを余分に導入することなく、古いデータを利用して高い精度と安定したパフォーマンスを維持する可能性はあるか? 本稿では,様々な環境下で安定してハイパフォーマンスを実現するテキストデータのためのハイパーパラメータフリー連続学習モデルを提案する。 具体的には,フィッシャー情報を用いて原モデルのキー情報を「記録」できる例題を選定する。 また,リトレイン過程におけるハイパーパラメータフリー学習を可能にするために,動的重み統合と呼ばれる新しい手法を提案する。 広範な実験により、ベースラインは変動するパフォーマンスに苦しむため、実際には役に立たないことが示された。 一方,提案したCCFIモデルでは,平均精度が最大20%向上し,CCFIの各コンポーネントが全体の性能に効果的に寄与する。

Domain classification is the fundamental task in natural language understanding (NLU), which often requires fast accommodation to new emerging domains. This constraint makes it impossible to retrain all previous domains, even if they are accessible to the new model. Most existing continual learning approaches suffer from low accuracy and performance fluctuation, especially when the distributions of old and new data are significantly different. In fact, the key real-world problem is not the absence of old data, but the inefficiency to retrain the model with the whole old dataset. Is it potential to utilize some old data to yield high accuracy and maintain stable performance, while at the same time, without introducing extra hyperparameters? In this paper, we proposed a hyperparameter-free continual learning model for text data that can stably produce high performance under various environments. Specifically, we utilize Fisher information to select exemplars that can "record" key information of the original model. Also, a novel scheme called dynamical weight consolidation is proposed to enable hyperparameter-free learning during the retrain process. Extensive experiments demonstrate that baselines suffer from fluctuated performance and therefore useless in practice. On the contrary, our proposed model CCFI significantly and consistently outperforms the best state-of-the-art method by up to 20% in average accuracy, and each component of CCFI contributes effectively to overall performance.
翻訳日:2022-01-06 13:27:08 公開日:2022-01-05
# 自動情報抽出によるエネルギー動向のモニタリング

Monitoring Energy Trends through Automatic Information Extraction ( http://arxiv.org/abs/2201.01559v1 )

ライセンス: Link先を確認
Dilek K\"u\c{c}\"uk(参考訳) エネルギー研究は重要な公共的重要性を持つが、自動テキスト処理やエネルギー領域のデータ管理といったコンピュータ科学技術の使用はいまだに稀である。 エネルギー領域におけるこれらの技術の利用は、'`bioinformatics'の学際領域における関連する進歩と同様に、'`エネルギー情報学'の学際的なトピックに重要な貢献をする。 本稿では,Web上で利用可能な多種多様なメディアから抽出される自動的,連続的,ガイド的情報を用いて,最新のエネルギー動向をモニタリングするEneMonIE(Energy Monitoring through Information extract)というWebベースのセマンティックシステムのアーキテクチャを提案する。 このシステムによって処理されるメディアには、オンラインのニュース記事、ソーシャルメディアのテキスト、オンラインのニュースビデオ、オープンアクセスの学術論文や技術レポート、エネルギー機関が公開する様々な数値エネルギーデータが含まれる。 このシステムはエネルギーに関するオントロジーを利用して貢献し、その最終形は構成要素を構成する。 (i)テキスト分類、 (ii)エンティティ認識 (iii)時間表現抽出、 (iv)イベント抽出 (v)ソーシャルネットワークの構築 (vi)感情分析。 (vii)情報融合及び要約 (viii)メディアの相互リンク、及び (ix) Web ベースの情報検索と可視化。 EneMonIEは、エネルギー生成、送信、流通システムオペレーター、エネルギー研究センター、関連投資家や起業家、研究者、学生、その他エネルギーイベントや技術のペースに関心のある個人など、意思決定者にとって、多種多様なデータソース、自動テキスト処理機能、そしてパブリック利用のためのプレゼンテーション施設を提供する。

Energy research is of crucial public importance but the use of computer science technologies like automatic text processing and data management for the energy domain is still rare. Employing these technologies in the energy domain will be a significant contribution to the interdisciplinary topic of ``energy informatics", just like the related progress within the interdisciplinary area of ``bioinformatics". In this paper, we present the architecture of a Web-based semantic system called EneMonIE (Energy Monitoring through Information Extraction) for monitoring up-to-date energy trends through the use of automatic, continuous, and guided information extraction from diverse types of media available on the Web. The types of media handled by the system will include online news articles, social media texts, online news videos, and open-access scholarly papers and technical reports as well as various numeric energy data made publicly available by energy organizations. The system will utilize and contribute to the energy-related ontologies and its ultimate form will comprise components for (i) text categorization, (ii) named entity recognition, (iii) temporal expression extraction, (iv) event extraction, (v) social network construction, (vi) sentiment analysis, (vii) information fusion and summarization, (viii) media interlinking, and (ix) Web-based information retrieval and visualization. Wits its diverse data sources, automatic text processing capabilities, and presentation facilities open for public use; EneMonIE will be an important source of distilled and concise information for decision-makers including energy generation, transmission, and distribution system operators, energy research centres, related investors and entrepreneurs as well as for academicians, students, other individuals interested in the pace of energy events and technologies.
翻訳日:2022-01-06 13:26:48 公開日:2022-01-05
# smdt:選択的記憶提示ニューラルドキュメント翻訳

SMDT: Selective Memory-Augmented Neural Document Translation ( http://arxiv.org/abs/2201.01631v1 )

ライセンス: Link先を確認
Xu Zhang, Jian Yang, Haoyang Huang, Shuming Ma, Dongdong Zhang, Jinlong Li, Furu Wei(参考訳) 既存の文書レベルのニューラルネットワーク翻訳(NMT)モデルでは、ターゲット生成のためのガイダンスを提供するために、コンテキスト設定が十分に検討されている。 しかし,より多様な文脈情報の提供にはほとんど注意が払われていない。 本稿では,文脈の大きな仮説空間を含む文書を扱うために,選択的メモリ拡張ニューラル文書翻訳モデルを提案する。 具体的には、トレーニングコーパスから類似したバイリンガル文ペアを検索し、グローバルコンテキストを拡大し、2ストリームアテンションモデルを拡張し、ローカルコンテキストと多様なグローバルコンテキストをキャプチャする選択的なメカニズムで拡張する。 この統一的なアプローチにより、我々のモデルは3つの公開文書レベルの機械翻訳データセットでエレガントに訓練され、従来の文書レベルのNMTモデルよりも大幅に向上する。

Existing document-level neural machine translation (NMT) models have sufficiently explored different context settings to provide guidance for target generation. However, little attention is paid to inaugurate more diverse context for abundant context information. In this paper, we propose a Selective Memory-augmented Neural Document Translation model to deal with documents containing large hypothesis space of the context. Specifically, we retrieve similar bilingual sentence pairs from the training corpus to augment global context and then extend the two-stream attention model with selective mechanism to capture local context and diverse global contexts. This unified approach allows our model to be trained elegantly on three publicly document-level machine translation datasets and significantly outperforms previous document-level NMT models.
翻訳日:2022-01-06 13:26:21 公開日:2022-01-05
# 凝縮物質系における一般化力場機械学習モデルの記述子

Descriptors for Machine Learning Model of Generalized Force Field in Condensed Matter Systems ( http://arxiv.org/abs/2201.00798v2 )

ライセンス: Link先を確認
Puhan Zhang, Sheng Zhang, Gia-Wei Chern(参考訳) 本稿では, 凝縮物系の多スケール力学モデリングのための機械学習(ml)手法の汎用フレームワーク, 特に強相関電子モデルについて概説する。 これらの系における複雑な空間的時間的挙動は、準粒子と局所格子歪み、スピン、秩序パラメータのような創発的な動的古典的自由度との相互作用から生じることが多い。 提案手法の中心となるのがMLエネルギーモデルであり、時間を要する電子構造計算をうまくエミュレートすることで、中間領域の古典場に基づいて局所エネルギーを正確に予測することができる。 電子ハミルトニアンの対称性を適切に含むために、MLエネルギーモデルの重要な構成要素は、近傍の配置を学習モデルに入力される不変な特徴変数に変換する記述子である。 古典体の記述子の一般的な理論が定式化され、2種類のモデルが古典体の内部対称性の有無によって区別される。 古典体の記述子に対するいくつかの具体的なアプローチが提示される。 双スペクトル係数に基づく不変量を計算するための体系的かつ厳密なアプローチを提供する群論的手法に着目した。 本稿では,参照既約表現の概念に基づくbispectrum法の効率的な実装を提案する。 最後に、様々な記述子の実装をよく知られた電子格子モデルで示す。

We outline the general framework of machine learning (ML) methods for multi-scale dynamical modeling of condensed matter systems, and in particular of strongly correlated electron models. Complex spatial temporal behaviors in these systems often arise from the interplay between quasi-particles and the emergent dynamical classical degrees of freedom, such as local lattice distortions, spins, and order-parameters. Central to the proposed framework is the ML energy model that, by successfully emulating the time-consuming electronic structure calculation, can accurately predict a local energy based on the classical field in the intermediate neighborhood. In order to properly include the symmetry of the electron Hamiltonian, a crucial component of the ML energy model is the descriptor that transforms the neighborhood configuration into invariant feature variables, which are input to the learning model. A general theory of the descriptor for the classical fields is formulated, and two types of models are distinguished depending on the presence or absence of an internal symmetry for the classical field. Several specific approaches to the descriptor of the classical fields are presented. Our focus is on the group-theoretical method that offers a systematic and rigorous approach to compute invariants based on the bispectrum coefficients. We propose an efficient implementation of the bispectrum method based on the concept of reference irreducible representations. Finally, the implementations of the various descriptors are demonstrated on well-known electronic lattice models.
翻訳日:2022-01-06 11:49:29 公開日:2022-01-05
# (参考訳) 進化遺伝的アルゴリズムにおけるガウス変異の自己適応への応用

Applications of Gaussian Mutation for Self Adaptation in Evolutionary Genetic Algorithms ( http://arxiv.org/abs/2201.00285v2 )

ライセンス: CC BY-SA 4.0
Okezue Bell(参考訳) 近年,より強力な計算手法の必要性から,最適化問題の一般化が進んでいる。 人工知能などの技術が最近出現するにつれて、古典的なアルゴリズムの能力を高める新しいメタヒューリスティックが求められている。 近年、研究者はチャールズ・ダーウィンの自然選択と進化の理論を、機械学習を用いた現在のアプローチを強化する手段として研究している。 1960年、ジョン・ホランドとその学生によって最初の遺伝的アルゴリズムが開発された。 ガウス突然変異を用いて進化可能な発展系における遺伝的アルゴリズムの数学的直観と最適化問題の解法におけるその意味について検討する。

In recent years, optimization problems have become increasingly more prevalent due to the need for more powerful computational methods. With the more recent advent of technology such as artificial intelligence, new metaheuristics are needed that enhance the capabilities of classical algorithms. More recently, researchers have been looking at Charles Darwin's theory of natural selection and evolution as a means of enhancing current approaches using machine learning. In 1960, the first genetic algorithm was developed by John H. Holland and his student. We explore the mathematical intuition of the genetic algorithm in developing systems capable of evolving using Gaussian mutation, as well as its implications in solving optimization problems.
翻訳日:2022-01-06 10:38:14 公開日:2022-01-05
# (参考訳) 筋電図に基づく生体認証のためのオープンアクセスデータセット [全文訳有]

Open Access Dataset for Electromyography based Multi-code Biometric Authentication ( http://arxiv.org/abs/2201.01051v2 )

ライセンス: CC BY 4.0
Ashirbad Pradhan, Jiayuan He, Ning Jiang(参考訳) 近年、表面筋電図 (emg) は、スプーフィングや活力といった現在の生体計測のいくつかの重要な制限に対処するための新しい生体計測特性として提案されている。 EMG信号は個人(バイオメトリックス)と本質的に異なる特徴を持ち、マルチ長のコードやパスワード(例えば、異なるジェスチャーを実行することで)を実現するようにカスタマイズできる。 しかし、現在のEMGベースの生体計測研究には2つの限界がある。 1)他のより確立された生体特性と比較して小さな被験者プール 2) シングルセッションまたはシングルデイデータセットに限定される。 本研究は,手指と手首のジェスチャーをしながら,3日間にわたり3つの異なる被験者から前腕筋電図と手首筋電図を収集した。 複数日間の生体認証の結果、前腕のEERは0.017、手首のEERは0.025となり、整合性のある生体認証特性に匹敵する性能を示した。 提示された大規模マルチデイデータセットと知見は、emgベースのバイオメトリックスや他のジェスチャー認識に基づくアプリケーションに関するさらなる研究を促進することができる。

Recently, surface electromyogram (EMG) has been proposed as a novel biometric trait for addressing some key limitations of current biometrics, such as spoofing and liveness. The EMG signals possess a unique characteristic: they are inherently different for individuals (biometrics), and they can be customized to realize multi-length codes or passwords (for example, by performing different gestures). However, current EMG-based biometric research has two critical limitations: 1) a small subject pool, compared to other more established biometric traits, and 2) limited to single-session or single-day data sets. In this study, forearm and wrist EMG data were collected from 43 participants over three different days with long separation while they performed static hand and wrist gestures. The multi-day biometric authentication resulted in a median EER of 0.017 for the forearm setup and 0.025 for the wrist setup, comparable to well-established biometric traits suggesting consistent performance over multiple days. The presented large-sample multi-day data set and findings could facilitate further research on EMG-based biometrics and other gesture recognition-based applications.
翻訳日:2022-01-06 10:37:27 公開日:2022-01-05
# (参考訳) MoCoPnet:赤外小ターゲット超解法における局所運動とコントラスト先行の探索

MoCoPnet: Exploring Local Motion and Contrast Priors for Infrared Small Target Super-Resolution ( http://arxiv.org/abs/2201.01014v2 )

ライセンス: CC BY 4.0
Xinyi Ying, Yingqian Wang, Longguang Wang, Weidong Sheng, Li Liu, Zaipin Lin, Shilin Zhou(参考訳) 赤外線小型ターゲットスーパーレゾリューション(sr)は、低レゾリューションのターゲットから高コントラストのターゲットで信頼性と詳細な高解像度画像を回収することを目的としている。 赤外線小ターゲットには色や微細な構造情報がないため、シーケンス画像間の補足情報を利用してターゲットを強化することが重要である。 本稿では,赤外小ターゲットのドメイン知識を深層ネットワークに統合し,赤外小ターゲットの固有の特徴不足を軽減するために,ローカルモーションとコントラスト事前駆動深層ネットワーク(MoCoPnet)と呼ばれる最初の赤外小ターゲットSR手法を提案する。 具体的には、時空間次元に先立つ局所運動に動機づけられ、暗黙的なフレームアライメントを行い、局所時空間情報を取り込んで局所的特徴(特に小さな対象)を高める局所時空間アライメントモジュールを提案する。 空間次元に先行する局所的コントラストに動機づけられ,中心的差分畳み込みを特徴抽出バックボーンに組み込む中心的差分残差群を提案する。 広範な実験により,本手法が正確な空間依存性を回復し,目標コントラストを改善することを実証した。 比較の結果,MoCoPnetは,SR性能と目標拡張の両面から,最先端ビデオSRと単一画像SR法より優れていた。 SRの結果から,赤外線小目標検出におけるSRの影響についてさらに検討し,MoCoPnetが検出性能を向上させることを示す実験結果を得た。 コードはhttps://github.com/x inyiying/mocopnetで入手できる。

Infrared small target super-resolution (SR) aims to recover reliable and detailed high-resolution image with highcontrast targets from its low-resolution counterparts. Since the infrared small target lacks color and fine structure information, it is significant to exploit the supplementary information among sequence images to enhance the target. In this paper, we propose the first infrared small target SR method named local motion and contrast prior driven deep network (MoCoPnet) to integrate the domain knowledge of infrared small target into deep network, which can mitigate the intrinsic feature scarcity of infrared small targets. Specifically, motivated by the local motion prior in the spatio-temporal dimension, we propose a local spatiotemporal attention module to perform implicit frame alignment and incorporate the local spatio-temporal information to enhance the local features (especially for small targets). Motivated by the local contrast prior in the spatial dimension, we propose a central difference residual group to incorporate the central difference convolution into the feature extraction backbone, which can achieve center-oriented gradient-aware feature extraction to further improve the target contrast. Extensive experiments have demonstrated that our method can recover accurate spatial dependency and improve the target contrast. Comparative results show that MoCoPnet can outperform the state-of-the-art video SR and single image SR methods in terms of both SR performance and target enhancement. Based on the SR results, we further investigate the influence of SR on infrared small target detection and the experimental results demonstrate that MoCoPnet promotes the detection performance. The code is available at https://github.com/X inyiYing/MoCoPnet.
翻訳日:2022-01-06 10:18:12 公開日:2022-01-05
# (参考訳) 遠隔ネットワーク監視によるツイートの半教師付き姿勢検出

Semi-supervised Stance Detection of Tweets Via Distant Network Supervision ( http://arxiv.org/abs/2201.00614v2 )

ライセンス: CC BY 4.0
Subhabrata Dutta, Samiya Caur, Soumen Chakrabarti, Tanmoy Chakraborty(参考訳) ソーシャルメディアテキスト中のスタンスの検出とラベル付けは、ヘイトスピーチの検出、ポーリング予測、エンゲージメント予測、および協調プロパガンダ検出によって強く動機付けられている。 ソーシャルメディアのテキストが急速に変化する状況と、ユーザーがオペインする問題を考えると、今日の最高のニューラルネットワーク検出には大量のトレーニングデータが必要です。 ソーシャルネットワーク上のホモフィリーな特性は、粗いユーザーレベルのスタンスを示す強いシグナルを与える。 しかし、ツイートレベルのスタンス検出のための半教師付きアプローチは、ホモフィリーを適切に活用できない。 そこで我々は,新しい半教師付き姿勢検出器SANDSを提案する。 SANDSはラベル付きツイートから始まる。 ツイートの複数の深い機能ビューを構築する。 また、ソーシャルネットワークから離れた監視信号を使用して、コンポーネント学習者に代理的損失信号を提供する。 8万7000人を超えるユーザーが投稿した2つの人口統計(米国とインド)から23万6000以上の政治的に色付けされたツイート、フォロワーフォローグラフ、言語学者が注釈付けした8000以上のツイートからなる、新しいツイートデータセットを2つ用意する。 SANDSは、米国(インド)ベースのデータセットで0.55(0.49)のマクロF1スコアを達成し、17のベースライン(SANDSの変種を含む)を大幅に上回っている。 SANDSにおける多数のアブレーション実験は、テキスト信号とネットワークプロパゲート信号の力学を乱す。

Detecting and labeling stance in social media text is strongly motivated by hate speech detection, poll prediction, engagement forecasting, and concerted propaganda detection. Today's best neural stance detectors need large volumes of training data, which is difficult to curate given the fast-changing landscape of social media text and issues on which users opine. Homophily properties over the social network provide strong signal of coarse-grained user-level stance. But semi-supervised approaches for tweet-level stance detection fail to properly leverage homophily. In light of this, We present SANDS, a new semi-supervised stance detector. SANDS starts from very few labeled tweets. It builds multiple deep feature views of tweets. It also uses a distant supervision signal from the social network to provide a surrogate loss signal to the component learners. We prepare two new tweet datasets comprising over 236,000 politically tinted tweets from two demographics (US and India) posted by over 87,000 users, their follower-followee graph, and over 8,000 tweets annotated by linguists. SANDS achieves a macro-F1 score of 0.55 (0.49) on US (India)-based datasets, outperforming 17 baselines (including variants of SANDS) substantially, particularly for minority stance labels and noisy text. Numerous ablation experiments on SANDS disentangle the dynamics of textual and network-propagated stance signals.
翻訳日:2022-01-06 10:16:41 公開日:2022-01-05
# Cement: 長期ラベルによる不完全なマルチビュー弱ラベル学習

CEMENT: Incomplete Multi-View Weak-Label Learning with Long-Tailed Labels ( http://arxiv.org/abs/2201.01079v2 )

ライセンス: Link先を確認
Zhiwei Li, Lu Sun(参考訳) 様々な現代的なアプリケーションがマルチビューのマルチラベル学習を示しており、各サンプルにはマルチビュー機能があり、複数のラベルは共通のビューで関連付けられている。 近年、この問題に対処し、多くの成功を収める方法が提案されているが、それでも2つの大きな問題に悩まされている。 1) 不完全な多視点弱ラベルデータを扱う能力が欠如しており,各サンプルに特徴及びラベルのサブセットのみが提供される。 2) 現実問題に通常発生するノイズの多いビューやテールラベルの存在を無視する。 本稿では,その限界を克服するために,Cementという新しい手法を提案する。 1) セメントは不完全なビューと弱いラベルをそれぞれ異なる低次元部分空間に埋め込み、ヒルベルト・シュミット独立基準 (hsic) によってそれらを関連付ける。 例えば、CEMEMTは、ノイズの多いビューをキャプチャするための埋め込みの重みを適応的に学習し、テールラベルをモデル化するための余分なコンポーネントを探索し、低ランクをマルチラベル設定で利用できるようにする。 提案する最適化問題を解くための交互アルゴリズムを開発した。 7つの実世界のデータセットにおける実験結果は,提案手法の有効性を示している。

A variety of modern applications exhibit multi-view multi-label learning, where each sample has multi-view features, and multiple labels are correlated via common views. In recent years, several methods have been proposed to cope with it and achieved much success, but still suffer from two key problems: 1) lack the ability to deal with the incomplete multi-view weak-label data, in which only a subset of features and labels are provided for each sample; 2) ignore the presence of noisy views and tail labels usually occurring in real-world problems. In this paper, we propose a novel method, named CEMENT, to overcome the limitations. For 1), CEMENT jointly embeds incomplete views and weak labels into distinct low-dimensional subspaces, and then correlates them via Hilbert-Schmidt Independence Criterion (HSIC). For 2), CEMEMT adaptively learns the weights of embeddings to capture noisy views, and explores an additional sparse component to model tail labels, making the low-rankness available in the multi-label setting. We develop an alternating algorithm to solve the proposed optimization problem. Experimental results on seven real-world datasets demonstrate the effectiveness of the proposed method.
翻訳日:2022-01-06 10:14:49 公開日:2022-01-05