このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220116となっている論文です。

PDF登録状況(公開日: 20220116)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 相互作用知識伝達による薬物親和性予測における冷間開始問題の緩和 [全文訳有]

Mitigating cold start problems in drug-target affinity prediction with interaction knowledge transferring ( http://arxiv.org/abs/2202.01195v1 )

ライセンス: CC BY 4.0
Tri Minh Nguyen, Thin Nguyen, Truyen Tran(参考訳) 動機: 薬物と標的の相互作用を予測することは、薬物の発見だけでなく、薬物の再生産にも不可欠である。 機械学習は、薬物標的親和性(dta)問題で一般的に用いられる。 しかし、機械学習モデルは、新しい薬物や標的の相互作用を予測する際にモデルのパフォーマンスが低下するコールドスタート問題に直面している。 これまでの研究は、教師なし学習を用いて薬物や標的表現を学習することで、コールドスタート問題を解決することを試みる。 薬物や標的の表現は教師なしの方法で学べるが、それでも薬物と標的の相互作用において重要な相互作用情報を欠いている。 結果: 相互作用情報を薬物とタンパク質の相互作用に組み込むために, 化学化学相互作用(CCI)とタンパク質-タンパク質相互作用(PPI)タスクから薬物-標的相互作用への変換学習を用いた。 CCIタスクとPPIタスクによって学習された表現は、タスクの類似性のため、DTAタスクにスムーズに転送することができる。 薬物標的親和性データセットの結果,提案手法はDTAタスクにおける他の事前学習法と比較して利点があることがわかった。

Motivation: Predicting the drug-target interaction is crucial for drug discovery as well as drug repurposing. Machine learning is commonly used in drug-target affinity (DTA) problem. However, machine learning model faces the cold-start problem where the model performance drops when predicting the interaction of a novel drug or target. Previous works try to solve the cold start problem by learning the drug or target representation using unsupervised learning. While the drug or target representation can be learned in an unsupervised manner, it still lacks the interaction information, which is critical in drug-target interaction. Results: To incorporate the interaction information into the drug and protein interaction, we proposed using transfer learning from chemical-chemical interaction (CCI) and protein-protein interaction (PPI) task to drug-target interaction task. The representation learned by CCI and PPI tasks can be transferred smoothly to the DTA task due to the similar nature of the tasks. The result on the drug-target affinity datasets shows that our proposed method has advantages compared to other pretraining methods in the DTA task.
翻訳日:2022-02-06 11:52:47 公開日:2022-01-16
# (参考訳) 例から規則へ:情報抽出のためのニューラルガイドルール合成 [全文訳有]

From Examples to Rules: Neural Guided Rule Synthesis for Information Extraction ( http://arxiv.org/abs/2202.00475v1 )

ライセンス: CC BY 4.0
Robert Vacareanu, Marco A. Valenzuela-Escarcega , George C. G. Barbosa, Rebecca Sharp, Mihai Surdeanu(参考訳) 情報抽出に対するディープラーニングアプローチは多くの成功をおさめているが、ニーズの変化に応じて強化や維持は困難である。 一方、ルールベースのメソッドは、より簡単に修正できる。 しかし、造語規則は言語学や関心領域の専門知識を必要とするため、ほとんどのユーザーにとって実現不可能である。 ここでは,これら2つの方向の利点を組み合わせるとともに,その欠点を緩和する。 我々は,プログラム合成の分野から情報抽出,提供例からのルール合成へ,最近の進歩を適応させる。 我々は、列挙型検索を導くためにトランスフォーマーベースのアーキテクチャを使用し、ルールが見つかる前に探索すべきステップの数を減少させることを示す。 さらに,特定の領域で合成アルゴリズムを訓練しなければ,関係分類のためのマイトショット学習と5ショットシナリオにおける競合性能に注目したタスクの1ショットシナリオにおいて,合成ルールが最先端のパフォーマンスを実現することを示す。

While deep learning approaches to information extraction have had many successes, they can be difficult to augment or maintain as needs shift. Rule-based methods, on the other hand, can be more easily modified. However, crafting rules requires expertise in linguistics and the domain of interest, making it infeasible for most users. Here we attempt to combine the advantages of these two directions while mitigating their drawbacks. We adapt recent advances from the adjacent field of program synthesis to information extraction, synthesizing rules from provided examples. We use a transformer-based architecture to guide an enumerative search, and show that this reduces the number of steps that need to be explored before a rule is found. Further, we show that without training the synthesis algorithm on the specific domain, our synthesized rules achieve state-of-the-art performance on the 1-shot scenario of a task that focuses on few-shot learning for relation classification, and competitive performance in the 5-shot scenario.
翻訳日:2022-02-06 11:40:25 公開日:2022-01-16
# (参考訳) 作家識別のためのグローバルレギュラーネットワーク [全文訳有]

Global Regular Network for Writer Identification ( http://arxiv.org/abs/2201.05951v1 )

ライセンス: CC BY 4.0
Shiyu Wang(参考訳) 作家識別は偽造検知と法医学に実用的応用がある。 ディープニューラルネットワークに基づくほとんどのモデルは、ページ領域画像に含まれる特徴を無視した文字画像または文字画像のサブ領域から特徴を抽出する。 提案するグローバルレギュラーネットワーク(GRN)は,これらの特徴に注目している。 GRNネットワークは,グローバルな特徴を抽出するための入力としてページ手書きを,ローカル特徴を抽出するための入力としてワード手書きを,という2つのブランチで構成されている。 グローバルな機能とローカルな機能は、グローバルな残留的な方法でマージされ、手書きの全体的な機能を形成する。 提案したGRNには2つの属性がある。1つはページに含まれる特徴を抽出するためにブランチを追加し、もう1つはローカル特徴を抽出するために残留注意ネットワークを使用している。 実験は両方の戦略の有効性を示す。 cvlデータセットでは,トレーニング時間の短縮とネットワークパラメータの削減により,top-1精度99.98%,top-5精度100%を達成している。 この実験は、著者識別分野におけるネットワークの強力な能力を示す。 ソースコードはhttps://github.com/w angshiyu001/grnで入手できる。

Writer identification has practical applications for forgery detection and forensic science. Most models based on deep neural networks extract features from character image or sub-regions in character image, which ignoring features contained in page-region image. Our proposed global regular network (GRN) pays attention to these features. GRN network consists of two branches: one branch takes page handwriting as input to extract global features, and the other takes word handwriting as input to extract local features. Global features and local features merge in a global residual way to form overall features of the handwriting. The proposed GRN has two attributions: one is adding a branch to extract features contained in page; the other is using residual attention network to extract local feature. Experiments demonstrate the effectiveness of both strategies. On CVL dataset, our models achieve impressive 99.98% top-1 accuracy and 100% top-5 accuracy with shorter training time and fewer network parameters, which exceeded the state-of-the-art structure. The experiment shows the powerful ability of the network in the field of writer identification. The source code is available at https://github.com/w angshiyu001/GRN.
翻訳日:2022-01-22 08:58:36 公開日:2022-01-16
# (参考訳) WANLI: 自然言語推論データセット作成のための作業者とAIコラボレーション [全文訳有]

WANLI: Worker and AI Collaboration for Natural Language Inference Dataset Creation ( http://arxiv.org/abs/2201.05955v1 )

ライセンス: CC BY 4.0
Alisa Liu, Swabha Swayamdipta, Noah A. Smith, Yejin Choi(参考訳) nlpデータセットを大規模にクラウドソーシングすることの繰り返しの課題は、人間が例を作る際に繰り返しパターンに依存することが少なく、言語多様性の欠如につながる。 我々は,人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入し,言語モデルの生成的強みと人間の評価的強みを組み合わせる。 既存のデータセットであるMultiNLIから,本手法では,挑戦的な推論パターンを示すサンプルを自動的に識別し,GPT-3に同様のパターンで新しいサンプルを作成するように指示する。 マシン生成のサンプルは自動的にフィルタリングされ、最終的に品質を確保するために人間の群衆によって改訂されラベル付けされる。 得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例で構成され、既存のNLIデータセットに対してユニークな経験的強みを示す。 注目すべきは、MNLI(これは4倍大きい)の代わりにWANLIでモデルをトレーニングすることで、HANSで11%、Adversarial NLIで9%を含む7つのドメイン外のテストセットのパフォーマンスが向上することです。 さらに、MNLIとWANLIを組み合わせることは、導入された他の拡張セットと組み合わせるよりも効果的である。 本研究は,自然言語生成手法が品質と多様性を高めるnlpデータセットをキュレートする可能性を示す。

A recurring challenge of crowdsourcing NLP datasets at scale is that human writers often rely on repetitive patterns when crafting examples, leading to a lack of linguistic diversity. We introduce a novel paradigm for dataset creation based on human and machine collaboration, which brings together the generative strength of language models and the evaluative strength of humans. Starting with an existing dataset, MultiNLI, our approach uses dataset cartography to automatically identify examples that demonstrate challenging reasoning patterns, and instructs GPT-3 to compose new examples with similar patterns. Machine generated examples are then automatically filtered, and finally revised and labeled by human crowdworkers to ensure quality. The resulting dataset, WANLI, consists of 108,357 natural language inference (NLI) examples that present unique empirical strengths over existing NLI datasets. Remarkably, training a model on WANLI instead of MNLI (which is 4 times larger) improves performance on seven out-of-domain test sets we consider, including by 11% on HANS and 9% on Adversarial NLI. Moreover, combining MNLI with WANLI is more effective than combining with other augmentation sets that have been introduced. Our results demonstrate the potential of natural language generation techniques to curate NLP datasets of enhanced quality and diversity.
翻訳日:2022-01-22 08:45:01 公開日:2022-01-16
# (参考訳) 表情認識のためのクロスセンターリップルパターン [全文訳有]

Cross-Centroid Ripple Pattern for Facial Expression Recognition ( http://arxiv.org/abs/2201.05958v1 )

ライセンス: CC BY 4.0
Monu Verma, Prafulla Saxena, Santosh Kumar Vipparthi, Girdhari Singh(参考訳) 本稿では,表情認識のための特徴記述子であるクロスセントロイド・リップルパターン(CRIP)を提案する。 CRIPは、半径r1とr2の2つのリップル間のクロスセントロイド関係をそれぞれ組み込むことで、表情の遷移パターンを符号化する。 これらのリップルは、地域地域をサブリージョンに分割することで生成される。 このように、cripは、マクロおよびマイクロ構造の変化を広範囲に保持する能力を有しており、サイドビューや自発的な表現を扱うことができる。 さらに、クロスセントロイドリップル間の勾配情報は、異なる表情間の差を定義する目、鼻、口といったアクティブパッチの顕著なエッジ特徴を捉えるためのストレンゲットを提供する。 クロスセントロイド情報は不規則照明に対する堅牢性も提供する。 さらに、cripはサブリージョンにおけるピクセル平均化挙動を利用し、ノイズの多い状況に対処するロバスト性をもたらす。 提案する記述子の性能は, 年齢, ポーズ, 民族性, 照明など, 困難な条件からなる7つの包括的表現データセット上で評価される。 実験結果から,我々の記述子は既存の最先端手法に比べて精度が良いことがわかった。

In this paper, we propose a new feature descriptor Cross-Centroid Ripple Pattern (CRIP) for facial expression recognition. CRIP encodes the transitional pattern of a facial expression by incorporating cross-centroid relationship between two ripples located at radius r1 and r2 respectively. These ripples are generated by dividing the local neighborhood region into subregions. Thus, CRIP has ability to preserve macro and micro structural variations in an extensive region, which enables it to deal with side views and spontaneous expressions. Furthermore, gradient information between cross centroid ripples provides strenght to captures prominent edge features in active patches: eyes, nose and mouth, that define the disparities between different facial expressions. Cross centroid information also provides robustness to irregular illumination. Moreover, CRIP utilizes the averaging behavior of pixels at subregions that yields robustness to deal with noisy conditions. The performance of proposed descriptor is evaluated on seven comprehensive expression datasets consisting of challenging conditions such as age, pose, ethnicity and illumination variations. The experimental results show that our descriptor consistently achieved better accuracy rate as compared to existing state-of-art approaches.
翻訳日:2022-01-22 08:22:07 公開日:2022-01-16
# (参考訳) ニューラルネットワーク機械学習アルゴリズムを用いた医療データパフォーマンス指標の強化 [全文訳有]

Enhancement of Healthcare Data Performance Metrics using Neural Network Machine Learning Algorithms ( http://arxiv.org/abs/2201.05962v1 )

ライセンス: CC BY-SA 4.0
Qi An, Patryk Szewczyk, Michael N Johnstone, James Jin Kang(参考訳) 患者はしばしば、健康データのリモート収集と監視にウェアラブルデバイスを使うことを推奨される。 このウェアラブルの採用は、収集および送信されるデータの量を大幅に増加させる。 そして、デバイスの高い処理要件により、デバイスのバッテリー寿命が急速に減少する。 医療データに付随する重要性を考えると、送信されたデータはすべて厳密な整合性と可用性要件に従うことが必須である。 ネットワーク伝送のための医療データの量を減らすことで、精度を損なうことなくセンサーのバッテリー寿命を改善することができる。 サンプリングレートと送信レートを調整することで制御できる効率と精度のトレードオフがある。 本稿では,機械学習を用いて,データ伝送の正確性と効率といった複雑な健康データ指標を分析し,トレードオフ問題を克服できることを実証する。 この研究では、時系列の非線形自己回帰ニューラルネットワークアルゴリズムを使用して、送信するサンプルを少なくすることで、両方のデータメトリクスを強化する。 アルゴリズムは標準心拍数データセットでテストされ、精度と効率を比較した。 その結果、レベンベリー=マーカルトアルゴリズムは効率が3.33で精度が79.17%で、他のアルゴリズムの精度は似ているが効率は向上した。 これにより、機械学習は、既存の方法に比べて高い効率でメトリクスを犠牲にすることなく改善できることが証明される。

Patients are often encouraged to make use of wearable devices for remote collection and monitoring of health data. This adoption of wearables results in a significant increase in the volume of data collected and transmitted. The battery life of the devices is then quickly diminished due to the high processing requirements of the devices. Given the importance attached to medical data, it is imperative that all transmitted data adhere to strict integrity and availability requirements. Reducing the volume of healthcare data for network transmission may improve sensor battery life without compromising accuracy. There is a trade-off between efficiency and accuracy which can be controlled by adjusting the sampling and transmission rates. This paper demonstrates that machine learning can be used to analyse complex health data metrics such as the accuracy and efficiency of data transmission to overcome the trade-off problem. The study uses time series nonlinear autoregressive neural network algorithms to enhance both data metrics by taking fewer samples to transmit. The algorithms were tested with a standard heart rate dataset to compare their accuracy and efficiency. The result showed that the Levenbery-Marquardt algorithm was the best performer with an efficiency of 3.33 and accuracy of 79.17%, which is similar to other algorithms accuracy but demonstrates improved efficiency. This proves that machine learning can improve without sacrificing a metric over the other compared to the existing methods with high efficiency.
翻訳日:2022-01-22 08:02:59 公開日:2022-01-16
# (参考訳) 糖尿病網膜症スクリーニングにおける網膜イメージベース抽出のための残留エンコーダデコーダネットワーク [全文訳有]

A Residual Encoder-Decoder Network for Segmentation of Retinal Image-Based Exudates in Diabetic Retinopathy Screening ( http://arxiv.org/abs/2201.05963v1 )

ライセンス: CC BY 4.0
Malik A. Manan, Tariq M. Khan, Ahsan Saadat, Muhammad Arsalan, and Syed S. Naqvi(参考訳) 糖尿病網膜症(英: diabetes retinopathy)は、糖尿病によって引き起こされる網膜の病態であり、世界における予防可能な盲目の原因の1つである。 糖尿病網膜症の早期発見は、連続スクリーニングと治療による視力障害を避けるために重要である。 従来の臨床実践では、手動で眼底写真を用いて病変が検出される。 しかし、この作業は面倒で時間がかかるため、病変の大きさが小さく、画像のコントラストが低いため、多大な労力を要する。 近年,赤い病変の検出による糖尿病網膜症のコンピュータ診断が盛んに行われている。 本稿では,網膜画像におけるエキデントのセグメンテーションのための残差スキップ接続を有する畳み込みニューラルネットワークを提案する。 ネットワークアーキテクチャの性能を向上させるために、適切な画像拡張技術を用いる。 提案するネットワークは,糖尿病網膜症スクリーニングに適した精度でロバストにセグメント化することができる。 HEI-MED、E-ophtha、DiaretDB1の3つのベンチマークデータベースの比較性能解析を行った。 提案手法は,E-ophtha,HEI-MED,Di aReTDB1の精度 (0.98, 0.99, 0.98) と感度 (0.97, 0.92, 0.95) を実現する。

Diabetic retinopathy refers to the pathology of the retina induced by diabetes and is one of the leading causes of preventable blindness in the world. Early detection of diabetic retinopathy is critical to avoid vision problem through continuous screening and treatment. In traditional clinical practice, the involved lesions are manually detected using photographs of the fundus. However, this task is cumbersome and time-consuming and requires intense effort due to the small size of lesion and low contrast of the images. Thus, computer-assisted diagnosis of diabetic retinopathy based on the detection of red lesions is actively being explored recently. In this paper, we present a convolutional neural network with residual skip connection for the segmentation of exudates in retinal images. To improve the performance of network architecture, a suitable image augmentation technique is used. The proposed network can robustly segment exudates with high accuracy, which makes it suitable for diabetic retinopathy screening. Comparative performance analysis of three benchmark databases: HEI-MED, E-ophtha, and DiaretDB1 is presented. It is shown that the proposed method achieves accuracy (0.98, 0.99, 0.98) and sensitivity (0.97, 0.92, and 0.95) on E-ophtha, HEI-MED, and DiaReTDB1, respectively.
翻訳日:2022-01-22 07:51:25 公開日:2022-01-16
# (参考訳) UnifiedSKG:テキスト-テキスト言語モデルによる構造化知識の統一とマルチタスク化

UnifiedSKG: Unifying and Multi-Tasking Structured Knowledge Grounding with Text-to-Text Language Models ( http://arxiv.org/abs/2201.05966v1 )

ライセンス: CC BY 4.0
Tianbao Xie, Chen Henry Wu, Peng Shi, Ruiqi Zhong, Torsten Scholak, Michihiro Yasunaga, Chien-Sheng Wu, Ming Zhong, Pengcheng Yin, Sida I. Wang, Victor Zhong, Bailin Wang, Chengzu Li, Connor Boyle, Ansong Ni, Ziyu Yao, Dragomir Radev, Caiming Xiong, Lingpeng Kong, Rui Zhang, Noah A. Smith, Luke Zettlemoyer, Tao Yu(参考訳) structured knowledge grounding (skg) は構造化知識を活用して、データベース上の意味解析や知識ベースに対する質問応答など、ユーザからの要求を完結させる。 SKGタスクの入力と出力は異種であるため、異なるコミュニティで個別に研究され、SKGの体系的および互換性のある研究が制限されている。 本稿では、21個のskgタスクをテキストからテキストへのフォーマットに統一するskgフレームワークを提案し、単一のタスク、ドメイン、データセットのみではなく、体系的なskg研究を促進することにより、この制限を克服する。 私たちはunifiedskgを使って、異なるサイズでt5をベンチマークし、必要に応じて簡単な修正を加えることで、t5が21のタスクのほとんどすべてで最先端のパフォーマンスを達成できることを示した。 さらにマルチタスクプレフィックスチューニングによって,ほとんどのタスクのパフォーマンスが向上し,全体的なパフォーマンスが向上することを示す。 また,UnifiedSKGはゼロショット学習や少数ショット学習にも役立ち,T0,GPT-3,Codexはゼロショット学習と少数ショット学習に苦戦していることを示す。 また,skgタスクにまたがる構造的知識エンコーディングの変種について,一連の制御実験を行うためにunifiedskgを用いる。 UnifiedSKGは、多くのタスクに対して容易に拡張可能であり、https://github.com/h kunlp/unifiedskgでオープンソース化されている。

Structured knowledge grounding (SKG) leverages structured knowledge to complete user requests, such as semantic parsing over databases and question answering over knowledge bases. Since the inputs and outputs of SKG tasks are heterogeneous, they have been studied separately by different communities, which limits systematic and compatible research on SKG. In this paper, we overcome this limitation by proposing the SKG framework, which unifies 21 SKG tasks into a text-to-text format, aiming to promote systematic SKG research, instead of being exclusive to a single task, domain, or dataset. We use UnifiedSKG to benchmark T5 with different sizes and show that T5, with simple modifications when necessary, achieves state-of-the-art performance on almost all of the 21 tasks. We further demonstrate that multi-task prefix-tuning improves the performance on most tasks, largely improving the overall performance. UnifiedSKG also facilitates the investigation of zero-shot and few-shot learning, and we show that T0, GPT-3, and Codex struggle in zero-shot and few-shot learning for SKG. We also use UnifiedSKG to conduct a series of controlled experiments on structured knowledge encoding variants across SKG tasks. UnifiedSKG is easily extensible to more tasks, and it is open-sourced at https://github.com/h kunlp/unifiedskg; latest collections at https://unifiedskg.c om.
翻訳日:2022-01-22 07:31:06 公開日:2022-01-16
# (参考訳) 効率的なLiDARパノプティブセグメンテーションのためのスパースクロススケールアテンションネットワーク [全文訳有]

Sparse Cross-scale Attention Network for Efficient LiDAR Panoptic Segmentation ( http://arxiv.org/abs/2201.05972v1 )

ライセンス: CC BY 4.0
Shuangjie Xu, Rui Wan, Maosheng Ye, Xiaoyi Zou, Tongyi Cao(参考訳) 3D LiDAR Panoptic Segmentation (PS) の2つの大きな課題は、オブジェクトの点雲が表面集約され、特に大きなインスタンスに対して長距離依存をモデル化することが困難であり、オブジェクトが互いに近すぎることである。 近年の文献では、これらの問題を2重クラスタリング、平均シフトオフセットなどの時間を要するグループ化プロセスや、幾何学を軽視する鳥眼ビュー(BEV)密度セントロイド表現によって解決している。 しかし, 長射程幾何学関係は, 上記の手法による局所的特徴学習では十分にモデル化されていない。 そこで本稿では,マルチスケールなスパース機能をグローバルvoxelエンコードした注意と整合させ,インスタンスコンテキストの長距離関係を捉えるための,新たなスパースクロススケールアテンションネットワークであるscanを提案する。 表面凝集点に対して、SCANはインスタンスセントロイドのスパースクラス非依存表現を採用しており、これは小さなオブジェクトのアンダーセグメンテーションを解決するために整列した特徴の空間を維持できるだけでなく、スパース畳み込みによるネットワークの計算量を削減することができる。 提案手法は,3次元PSタスクにおいて,SemanticKITTIデータセットの大きなマージンで従来の手法よりも優れ,リアルタイム推論速度で1位となる。

Two major challenges of 3D LiDAR Panoptic Segmentation (PS) are that point clouds of an object are surface-aggregated and thus hard to model the long-range dependency especially for large instances, and that objects are too close to separate each other. Recent literature addresses these problems by time-consuming grouping processes such as dual-clustering, mean-shift offsets, etc., or by bird-eye-view (BEV) dense centroid representation that downplays geometry. However, the long-range geometry relationship has not been sufficiently modeled by local feature learning from the above methods. To this end, we present SCAN, a novel sparse cross-scale attention network to first align multi-scale sparse features with global voxel-encoded attention to capture the long-range relationship of instance context, which can boost the regression accuracy of the over-segmented large objects. For the surface-aggregated points, SCAN adopts a novel sparse class-agnostic representation of instance centroids, which can not only maintain the sparsity of aligned features to solve the under-segmentation on small objects, but also reduce the computation amount of the network through sparse convolution. Our method outperforms previous methods by a large margin in the SemanticKITTI dataset for the challenging 3D PS task, achieving 1st place with a real-time inference speed.
翻訳日:2022-01-22 07:29:50 公開日:2022-01-16
# (参考訳) フラクショナルSDE-Net:長期記憶を用いた時系列データ生成 [全文訳有]

Fractional SDE-Net: Generation of Time Series Data with Long-term Memory ( http://arxiv.org/abs/2201.05974v1 )

ライセンス: CC BY 4.0
Kohei Hayashi and Kei Nakagawa(参考訳) 本稿では,ニューラルネットワークを用いた時系列データの生成に注目する。 入力時系列データ、特に実際の金融市場から採取されたデータは不規則にサンプリングされ、そのノイズ構造はi.d.タイプよりも複雑であることが多い。 このような特性を持つ時系列を生成するために, fsde-net: neural fractional stochastic differential equation networkを提案する。 ハースト指数が半分より大きい分数的なブラウン運動を用いて、長期記憶特性を示すニューラルネットワークSDEモデルを一般化する。 我々はfSDE-Netの解法を導出し、fSDE-Netに対する解の存在と一意性を理論的に分析する。 実験により,fSDE-Netモデルは分布特性をよく再現できることを示した。

In this paper, we focus on generation of time-series data using neural networks. It is often the case that input time-series data, especially taken from real financial markets, is irregularly sampled, and its noise structure is more complicated than i.i.d. type. To generate time series with such a property, we propose fSDE-Net: neural fractional Stochastic Differential Equation Network. It generalizes the neural SDE model by using fractional Brownian motion with Hurst index larger than half, which exhibits long-term memory property. We derive the solver of fSDE-Net and theoretically analyze the existence and uniqueness of the solution to fSDE-Net. Our experiments demonstrate that the fSDE-Net model can replicate distributional properties well.
翻訳日:2022-01-22 07:14:02 公開日:2022-01-16
# 携帯型ウェアラブルにおける適応型エネルギー管理

Adaptive Energy Management for Self-Sustainable Wearables in Mobile Health ( http://arxiv.org/abs/2201.07888v1 )

ライセンス: Link先を確認
Dina Hussein, Ganapati Bhat, Janardhan Rao Doppa(参考訳) 複数のセンサー、プロセッサ、通信技術を統合するウェアラブルデバイスは、健康パラメータのリモート監視のためにモバイルの健康を変革する可能性がある。 しかし、ウェアラブルデバイスの小さなフォームファクターは、バッテリーサイズと運用寿命を制限している。 結果として、デバイスは頻繁なリチャージを必要とし、普及を制限している。 エネルギー収穫はウェアラブル機器の持続可能な運用に有効な方法として現れてきた。 残念ながら、エネルギー収穫だけではウェアラブルデバイスのエネルギー要求を満たすには不十分だ。 本稿では, 蓄電池エネルギーを補充し, ユーザによる手動充電を減らすことで, 自己維持可能なウェアラブルを目標とする適応型エネルギー管理の新たな課題について検討する。 そこで本研究では,AdaEMと呼ばれるアルゴリズムを提案する。 AdaEMには2つの重要なアイデアがあります。 まず、機械学習(ML)手法を使用して、ユーザアクティビティとエネルギー使用パターンの予測モデルを学ぶ。 これらのモデルにより,1日当たりのエネルギー収穫ポテンシャルをユーザ活動の関数として推定することができる。 第2に、動的ロバスト最適化(DyRO)を用いたエネルギー管理決定を最適化するために、MLモデルからの予測と推定の不確かさを理由とする。 我々は,DyROの実用的ニーズを満たす軽量なソリューションを提案する。 実際のユーザ活動データを用いて太陽エネルギーと運動エネルギーの回収を行うウェアラブルデバイスプロトタイプに対するAdaEMアプローチの有効性を検証する。 実験の結果、AdaEMは最適の5%以内のソリューションを0.005%の実行時間とエネルギーオーバーヘッドで達成している。

Wearable devices that integrate multiple sensors, processors, and communication technologies have the potential to transform mobile health for remote monitoring of health parameters. However, the small form factor of the wearable devices limits the battery size and operating lifetime. As a result, the devices require frequent recharging, which has limited their widespread adoption. Energy harvesting has emerged as an effective method towards sustainable operation of wearable devices. Unfortunately, energy harvesting alone is not sufficient to fulfill the energy requirements of wearable devices. This paper studies the novel problem of adaptive energy management towards the goal of self-sustainable wearables by using harvested energy to supplement the battery energy and to reduce manual recharging by users. To solve this problem, we propose a principled algorithm referred as AdaEM. There are two key ideas behind AdaEM. First, it uses machine learning (ML) methods to learn predictive models of user activity and energy usage patterns. These models allow us to estimate the potential of energy harvesting in a day as a function of the user activities. Second, it reasons about the uncertainty in predictions and estimations from the ML models to optimize the energy management decisions using a dynamic robust optimization (DyRO) formulation. We propose a light-weight solution for DyRO to meet the practical needs of deployment. We validate the AdaEM approach on a wearable device prototype consisting of solar and motion energy harvesting using real-world data of user activities. Experiments show that AdaEM achieves solutions that are within 5% of the optimal with less than 0.005% execution time and energy overhead.
翻訳日:2022-01-21 13:57:51 公開日:2022-01-16
# 時間的知識グラフの完成:調査

Temporal Knowledge Graph Completion: A Survey ( http://arxiv.org/abs/2201.08236v1 )

ライセンス: Link先を確認
Borui Cai, Yong Xiang, Longxiang Gao, He Zhang, Yunfeng Li, Jianxin Li(参考訳) 知識グラフ補完(kgc)は、欠落したリンクを予測でき、現実世界の知識グラフにとって重要である。 KGC法は知識グラフが静的であると仮定するが、知識グラフの多くの事実が時間とともに変化するため、不正確な予測結果につながる可能性がある。 近年,事象のタイムスタンプ,すなわち時間知識グラフ補完(TKGC)を更に取り入れることで,予測結果が改善されている。 この時間的情報により、TKGC法は、KGC法が捕捉できない知識グラフの動的進化を学習することができる。 本稿では,TKGC研究の最近の進歩を初めて要約する。 まず、問題定義、ベンチマークデータセット、評価指標を含むTKGCの背景について詳述する。 次に,時間的ダイナミクスを捉えるために,事象のタイムスタンプがどのように使われるかに基づいて,既存のtkgc手法を要約する。 最後に,TKGCの論文と今後の研究方向性について述べる。

Knowledge graph completion (KGC) can predict missing links and is crucial for real-world knowledge graphs, which widely suffer from incompleteness. KGC methods assume a knowledge graph is static, but that may lead to inaccurate prediction results because many facts in the knowledge graphs change over time. Recently, emerging methods have shown improved predictive results by further incorporating the timestamps of facts; namely, temporal knowledge graph completion (TKGC). With this temporal information, TKGC methods can learn the dynamic evolution of the knowledge graph that KGC methods fail to capture. In this paper, for the first time, we summarize the recent advances in TKGC research. First, we detail the background of TKGC, including the problem definition, benchmark datasets, and evaluation metrics. Then, we summarize existing TKGC methods based on how timestamps of facts are used to capture the temporal dynamics. Finally, we conclude the paper and present future research directions of TKGC.
翻訳日:2022-01-21 13:27:56 公開日:2022-01-16
# (参考訳) 指紋と虹彩を用いたマルチモーダルバイオメトリックのハードウェア実装 [全文訳有]

Hardware Implementation of Multimodal Biometric using Fingerprint and Iris ( http://arxiv.org/abs/2201.05996v1 )

ライセンス: CC BY 4.0
Tariq M Khan(参考訳) 本稿では,マルチモーダルバイオメトリックシステムのハードウェアアーキテクチャとして,本質的並列性を大規模に活用する手法を提案する。 提案システムは,指紋と虹彩の2つの生体特性を用いた複数生体融合に基づく。 各バイオメトリック特性は、farやfrrに直接影響を及ぼす問題に対処することで、まずソフトウェアレベルで最適化される。 次に、両方の生体特性のためのハードウェアアーキテクチャを示し、次に最終的なマルチモーダルハードウェアアーキテクチャを示す。 著者の知る限りでは、これら2つの特徴を使ったFPGAベースのデザインエグジットは他にない。

In this paper, a hardware architecture of a multimodal biometric system is presented that massively exploits the inherent parallelism. The proposed system is based on multiple biometric fusion that uses two biometric traits, fingerprint and iris. Each biometric trait is first optimised at the software level, by addressing some of the issues that directly affect the FAR and FRR. Then the hardware architectures for both biometric traits are presented, followed by a final multimodal hardware architecture. To the best of the author's knowledge, no other FPGA-based design exits that used these two traits.
翻訳日:2022-01-21 12:58:16 公開日:2022-01-16
# (参考訳) ストリームパイプラインを用いたオンデバイスAIからのデバイス間AIの実現に向けて [全文訳有]

Toward Among-Device AI from On-Device AI with Stream Pipelines ( http://arxiv.org/abs/2201.06026v1 )

ライセンス: CC BY-SA 4.0
MyungJoo Ham, Sangjung Woo, Jaeyun Jung, Wook Song, Gichan Jang, Yongjoo Ahn, Hyoung Joo Ahn(参考訳) 現代の消費者向け電子機器は、ディープニューラルネットワークを用いたインテリジェンスサービスを提供することが多い。 私たちは、インテリジェンスサービスのコンピューティングロケーションを、クラウドサーバ(従来のAIシステム)から対応するデバイス(オンデバイスAIシステム)に移行し始めました。 オンデバイスAIシステムは一般的に、プライバシの保護、ネットワークレイテンシの削除、クラウドコストの削減といったメリットがある。 デバイス上のAIシステムは比較的低い計算能力を持つため、不整合で多様なハードウェアリソースと能力は困難を伴う。 作者のアフィリエイトは、オンデバイスAIシステムにストリームパイプラインフレームワークNNStreamerを適用し、開発コストとハードウェアリソースを節約し、パフォーマンスを改善した。 私たちは、デバイスとアプリケーションの種類を、デバイス上のAIサービス製品で拡張したいと考えています。 私たちはまた、各aiサービスをアトミックで再デプロイ可能にし、任意のベンダのコネクテッドデバイス間で共有できるようにしたいと考えています。 の新たな要件には、AIパイプライン間の接続が含まれており、ベンダーやメーカーに関わらず、幅広いデバイスでコンピューティングリソースとハードウェア能力を共有することができる。 我々は、NNStreamerがデバイス間AI機能を提供するように、オンデバイスAIのためのストリームパイプラインフレームワークNNStreamerの拡張を提案する。 この作業はLinux Foundation(LF AI and Data)オープンソースプロジェクトであり、一般大衆からのコントリビューションを受け入れている。

Modern consumer electronic devices often provide intelligence services with deep neural networks. We have started migrating the computing locations of intelligence services from cloud servers (traditional AI systems) to the corresponding devices (on-device AI systems). On-device AI systems generally have the advantages of preserving privacy, removing network latency, and saving cloud costs. With the emergent of on-device AI systems having relatively low computing power, the inconsistent and varying hardware resources and capabilities pose difficulties. Authors' affiliation has started applying a stream pipeline framework, NNStreamer, for on-device AI systems, saving developmental costs and hardware resources and improving performance. We want to expand the types of devices and applications with on-device AI services products of both the affiliation and second/third parties. We also want to make each AI service atomic, re-deployable, and shared among connected devices of arbitrary vendors; we now have yet another requirement introduced as it always has been. The new requirement of "among-device AI" includes connectivity between AI pipelines so that they may share computing resources and hardware capabilities across a wide range of devices regardless of vendors and manufacturers. We propose extensions of the stream pipeline framework, NNStreamer, for on-device AI so that NNStreamer may provide among-device AI capability. This work is a Linux Foundation (LF AI and Data) open source project accepting contributions from the general public.
翻訳日:2022-01-21 12:45:38 公開日:2022-01-16
# (参考訳) アフィン再構成からユークリッド再構成までの光学衛星画像を用いた3次元シーン構造 [全文訳有]

Pursuing 3D Scene Structures with Optical Satellite Images from Affine Reconstruction to Euclidean Reconstruction ( http://arxiv.org/abs/2201.06037v1 )

ライセンス: CC BY 4.0
Pinhe Wang, Limin Shi, Bao Chen, Zhanyi Hu, Qiulei Dong and Jianzhong Qiao(参考訳) 複数の光学衛星画像を用いて3Dシーン構造を復元する方法は、リモートセンシング分野において困難かつ重要な問題である。 文献における既存の手法の多くは、少なくとも39のGCP(地上制御点)を必要とする古典的なRPCモデルに基づいて検討されてきたが、多くの実シーンにおいてそのような多くのGCPを得るのは容易ではない。 そこで本研究では,4個のgcpを必要とする複数の衛星画像に基づく階層的再構成フレームワークを提案する。 affine-to-euclidean upgrade stage: affine-to-euclidean upgrade stage: affine-to-euclidean dense reconstruction stageでは、入力された衛星画像からgcpを使わずに3dアフィンシーン構造を追求するアフィン密度再構成アプローチが検討されている。 そして、アフィンからユークリッドへのアップグレード段階で、得られた3次元アフィン構造を4つのGCPを有するユークリッド構造にアップグレードする。 2つの公開データセットによる実験結果から,提案手法は3つの最先端手法を大幅に上回っていることがわかった。

How to use multiple optical satellite images to recover the 3D scene structure is a challenging and important problem in the remote sensing field. Most existing methods in literature have been explored based on the classical RPC (rational polynomial camera) model which requires at least 39 GCPs (ground control points), however, it is not trivial to obtain such a large number of GCPs in many real scenes. Addressing this problem, we propose a hierarchical reconstruction framework based on multiple optical satellite images, which needs only 4 GCPs. The proposed framework is composed of an affine dense reconstruction stage and a followed affine-to-Euclidean upgrading stage: At the affine dense reconstruction stage, an affine dense reconstruction approach is explored for pursuing the 3D affine scene structure without any GCP from input satellite images. Then at the affine-to-Euclidean upgrading stage, the obtained 3D affine structure is upgraded to a Euclidean one with 4 GCPs. Experimental results on two public datasets demonstrate that the proposed method significantly outperforms three state-of-the-art methods in most cases.
翻訳日:2022-01-21 12:28:22 公開日:2022-01-16
# (参考訳) CISRNet:圧縮画像超解像ネットワーク [全文訳有]

CISRNet: Compressed Image Super-Resolution Network ( http://arxiv.org/abs/2201.06045v1 )

ライセンス: CC BY 4.0
Agus Gunawan, Sultan Rizky Hikmawan Madjid(参考訳) 近年,Single Image Super-Resolution (SISR) の研究が盛んに行われている。 しかし、私たちの知る限りでは、これらの研究のほとんどが圧縮画像に焦点を当てている。 複雑な圧縮アーティファクトのような問題は、その高い実用的価値にもかかわらず、この研究の進展を妨げる。 この問題を解決するために,主に圧縮画像超解問題に最適化された2段階の粗度学習フレームワークを用いたCISRNetを提案する。 具体的には、CISRNetは2つの主要なサブネットワーク、粗いネットワークと洗練ネットワークで構成され、これら2つのネットワークでそれぞれ再帰学習と残留学習が使用される。 大規模な実験により、CISRNetは慎重に設計することで、圧縮画像超解法において競合する単一画像超解法に対して好意的に機能することが示された。

In recent years, tons of research has been conducted on Single Image Super-Resolution (SISR). However, to the best of our knowledge, few of these studies are mainly focused on compressed images. A problem such as complicated compression artifacts hinders the advance of this study in spite of its high practical values. To tackle this problem, we proposed CISRNet; a network that employs a two-stage coarse-to-fine learning framework that is mainly optimized for Compressed Image Super-Resolution Problem. Specifically, CISRNet consists of two main subnetworks; the coarse and refinement network, where recursive and residual learning is employed within these two networks respectively. Extensive experiments show that with a careful design choice, CISRNet performs favorably against competing Single-Image Super-Resolution methods in the Compressed Image Super-Resolution tasks.
翻訳日:2022-01-21 12:08:33 公開日:2022-01-16
# (参考訳) 深部ニューラルネットワークにおけるフラットミニマ検出のための近隣領域平滑化 [全文訳有]

Neighborhood Region Smoothing Regularization for Finding Flat Minima In Deep Neural Networks ( http://arxiv.org/abs/2201.06064v1 )

ライセンス: CC BY 4.0
Yang Zhao and Hao Zhang(参考訳) 重度の過パラメータ化を伴うディープニューラルネットワーク(DNN)の多様なアーキテクチャのため、巨大な仮説空間における最適解を見つけるには正規化技術が不可欠である。 本稿では,NRS(Neighborhood Region Smoothing)と呼ばれる効果的な正規化手法を提案する。 NRSはモデルが平らなミニマへの収束の恩恵を受けることを発見し、重量空間の近傍領域を規則化して近似出力を得る。 具体的には、周辺地域のモデルの出力間のギャップを、Kulback-Leiblerの発散に基づく定義された計量で測定する。 この計量は、平坦なミニマを解釈する上での最小記述長原理で同様の洞察を与える。 このばらつきと経験的損失を最小化することで、NRSはオプティマイザをフラットなミニマに収束させるように明示的に駆動することができた。 一般化能力が普遍的に向上できるcifarやimagenetなどの一般的なデータセット上で,幅広いモデルアーキテクチャにわたって画像分類タスクを行うことで,nrsの有効性を確認した。 また, nrs が発見した最小値は, 平らな最小値の証拠と考えられる従来の方法に比べ, 比較的小さいヘッセン固有値を持つことを実証的に示した。

Due to diverse architectures in deep neural networks (DNNs) with severe overparameterization , regularization techniques are critical for finding optimal solutions in the huge hypothesis space. In this paper, we propose an effective regularization technique, called Neighborhood Region Smoothing (NRS). NRS leverages the finding that models would benefit from converging to flat minima, and tries to regularize the neighborhood region in weight space to yield approximate outputs. Specifically, gap between outputs of models in the neighborhood region is gauged by a defined metric based on Kullback-Leibler divergence. This metric provides similar insights with the minimum description length principle on interpreting flat minima. By minimizing both this divergence and empirical loss, NRS could explicitly drive the optimizer towards converging to flat minima. We confirm the effectiveness of NRS by performing image classification tasks across a wide range of model architectures on commonly-used datasets such as CIFAR and ImageNet, where generalization ability could be universally improved. Also, we empirically show that the minima found by NRS would have relatively smaller Hessian eigenvalues compared to the conventional method, which is considered as the evidence of flat minima.
翻訳日:2022-01-21 11:55:43 公開日:2022-01-16
# (参考訳) オープン無線アクセスネットワークにおける機械学習の脅威分析 [全文訳有]

Adversarial Machine Learning Threat Analysis in Open Radio Access Networks ( http://arxiv.org/abs/2201.06093v1 )

ライセンス: CC BY 4.0
Ron Bitton, Dan Avraham, Eitan Klevansky, Dudu Mimran, Oleg Brodt, Heiko Lehmann, Yuval Elovici, and Asaf Shabtai(参考訳) Open Radio Access Network (O-RAN) は、新しい、オープンで適応的でインテリジェントなRANアーキテクチャである。 o-ranは、他のドメインでの人工知能の成功に動機付けられ、機械学習(ml)を活用して、トラフィックステアリング、エクスペリエンスの質予測、異常検出など、さまざまなユースケースにおけるネットワークリソースの自動的かつ効率的な管理に取り組んでいる。 残念ながら、MLベースのシステムは脆弱性がないわけではない。特に、学習アルゴリズム固有の制限から生じる特別なタイプの論理的脆弱性に悩まされている。 これらの脆弱性を悪用するために、敵は敵機械学習(AML)と呼ばれる攻撃テクニックを利用することができる。 これらの特殊な攻撃はすでに最近の研究で実証されている。 本稿では,O-RANに対する体系的AML脅威解析を提案する。 まず、関連するMLユースケースをレビューし、O-RANのさまざまなMLワークフローデプロイメントシナリオを分析します。 そして、脅威モデルを定義し、潜在的な敵を識別し、敵の能力を列挙し、主要な目標を解析する。 最後に、O-RANにおける様々なAML脅威を調査し、これらの脅威を具体化し、トラフィックステアリングモデルに対するAML攻撃を実証するために実行できる多数の攻撃をレビューする。

The Open Radio Access Network (O-RAN) is a new, open, adaptive, and intelligent RAN architecture. Motivated by the success of artificial intelligence in other domains, O-RAN strives to leverage machine learning (ML) to automatically and efficiently manage network resources in diverse use cases such as traffic steering, quality of experience prediction, and anomaly detection. Unfortunately, ML-based systems are not free of vulnerabilities; specifically, they suffer from a special type of logical vulnerabilities that stem from the inherent limitations of the learning algorithms. To exploit these vulnerabilities, an adversary can utilize an attack technique referred to as adversarial machine learning (AML). These special type of attacks has already been demonstrated in recent researches. In this paper, we present a systematic AML threat analysis for the O-RAN. We start by reviewing relevant ML use cases and analyzing the different ML workflow deployment scenarios in O-RAN. Then, we define the threat model, identifying potential adversaries, enumerating their adversarial capabilities, and analyzing their main goals. Finally, we explore the various AML threats in the O-RAN and review a large number of attacks that can be performed to materialize these threats and demonstrate an AML attack on a traffic steering model.
翻訳日:2022-01-21 11:43:39 公開日:2022-01-16
# (参考訳) more with less: cross-region transfer による poi 推奨データ不足の克服 [全文訳有]

Doing More with Less: Overcoming Data Scarcity for POI Recommendation via Cross-Region Transfer ( http://arxiv.org/abs/2201.06095v1 )

ライセンス: CC BY 4.0
Vinayak Gupta and Srikanta Bedathur(参考訳) 地域ごとのソーシャルアプリ利用のばらつきは、収集されたチェックインデータの量と品質のスキュー化をもたらすため、効果的な位置情報レコメンデータシステムにとって課題となる。 本稿では,データ量の多い領域で学習した位置選好モデルから,データ収集領域におけるレコメンデーションの質を大幅に向上させる新しい手法であるaxolotl(automated cross location-network transfer learning)を提案する。 Axolotlは,(1)位置推薦と社会的予測を用いて学習したメタラーニングに基づく手順,(2)ユーザと位置をまたいだ軽量なクラスタベースのトランスファー,という2つの情報伝達のチャネルを主に展開する。 両者は相乗的に協力して、重複するユーザや最小の微調整を必要とせずに、データ収集領域におけるレコメンデーションの精度を向上させる。 各領域のユーザモビリティグラフにおけるユーザおよびロケーションコンディショニングの影響を捉えるために,2つのグラフアテンションニューラルネットワークモデル上にaxolotlを構築する。 我々は,米国,日本,ドイツにおける12のユーザモビリティデータセットに対して,ソースリージョンとして3つ,ターゲットリージョンとして9つ(あまり記録されていないモビリティデータ)を用いて広範な実験を行った。 経験的に、Axolotlはすべてのメトリクスで既存の最先端メソッドよりも最大18%優れたレコメンデーションパフォーマンスを実現している。

Variability in social app usage across regions results in a high skew of the quantity and the quality of check-in data collected, which in turn is a challenge for effective location recommender systems. In this paper, we present Axolotl (Automated cross Location-network Transfer Learning), a novel method aimed at transferring location preference models learned in a data-rich region to significantly boost the quality of recommendations in a data-scarce region. Axolotl predominantly deploys two channels for information transfer, (1) a meta-learning based procedure learned using location recommendation as well as social predictions, and (2) a lightweight unsupervised cluster-based transfer across users and locations with similar preferences. Both of these work together synergistically to achieve improved accuracy of recommendations in data-scarce regions without any prerequisite of overlapping users and with minimal fine-tuning. We build Axolotl on top of a twin graph-attention neural network model used for capturing the user- and location-conditioned influences in a user-mobility graph for each region. We conduct extensive experiments on 12 user mobility datasets across the U.S., Japan, and Germany, using 3 as source regions and 9 of them (that have much sparsely recorded mobility data) as target regions. Empirically, we show that Axolotl achieves up to 18% better recommendation performance than the existing state-of-the-art methods across all metrics.
翻訳日:2022-01-21 11:06:23 公開日:2022-01-16
# (参考訳) エッジマップに基づくストリーム中の水位検出のためのアンサンブルソリューション [全文訳有]

An Edge Map based Ensemble Solution to Detect Water Level in Stream ( http://arxiv.org/abs/2201.06098v1 )

ライセンス: CC BY 4.0
Pratool Bharti, Priyanjani Chandra, Michael. E. Papka and David Koop(参考訳) 洪水は今日最も危険な天候の1つである。 平均で2015-2019ドルの間、アメリカだけでも毎年130ドル(約1万3000円)以上の死者が出ている。 洪水の破壊的な性質は、洪水を検知するために河川や河川の水位を継続的に監視する必要がある。 本研究では,河川の水位を連続的に検出する効率的な視覚ベースアンサンブルソリューションの設計と実装を行った。 提案手法は,エッジマップを利用してテンプレートマッチングアルゴリズムを用いて関心領域を抽出し,水位同定に2つの並列アプローチを組み合わせる。 第1のアプローチはエッジマップの線形回帰モデルに適合し、水線を識別するが、第2のアプローチではスプリットスライディングウィンドウを使用して水面を求めるピクセル強度の2乗差の和を計算する。 提案システムは,2019年10月3日から12月18日までに収集された4,306ドルの画像に対して,10ドル毎の1ドル画像の頻度で評価した。 システムは、MAE、MAPE、R^2$の評価基準でそれぞれ$4.8$、$3.1\%、$0.92$を達成し、低いエラー率を示した。 提案手法は広く普及し,正確であり,水域に追加のインフラを設置する必要がなく,他の場所に容易に適用できるため,非常に実用的であると考えられる。

Flooding is one of the most dangerous weather events today. Between $2015-2019$, on average, flooding has caused more than $130$ deaths every year in the USA alone. The devastating nature of flood necessitates the continuous monitoring of water level in the rivers and streams to detect the incoming flood. In this work, we have designed and implemented an efficient vision-based ensemble solution to continuously detect the water level in the creek. Our solution adapts template matching algorithm to find the region of interest by leveraging edge maps, and combines two parallel approach to identify the water level. While first approach fits a linear regression model in edge map to identify the water line, second approach uses a split sliding window to compute the sum of squared difference in pixel intensities to find the water surface. We evaluated the proposed system on $4306$ images collected between $3$rd October and $18$th December in 2019 with the frequency of $1$ image in every $10$ minutes. The system exhibited low error rate as it achieved $4.8$, $3.1\%$ and $0.92$ scores for MAE, MAPE and $R^2$ evaluation metrics, respectively. We believe the proposed solution is very practical as it is pervasive, accurate, doesn't require installation of any additional infrastructure in the water body and can be easily adapted to other locations.
翻訳日:2022-01-21 10:36:36 公開日:2022-01-16
# (参考訳) グラフに基づくディープバイアフィン注意モデルによる時間関係抽出 [全文訳有]

Temporal Relation Extraction with a Graph-Based Deep Biaffine Attention Model ( http://arxiv.org/abs/2201.06125v1 )

ライセンス: CC BY 4.0
Bo-Ying Su, Shang-Ling Hsu, Kuan-Yin Lai, Amarnath Gupta(参考訳) 時間情報抽出は自然言語理解において重要な役割を果たす。 従来のシステムは高度なニューラルネットワークモデルを導入し、時間情報抽出タスクの精度を向上した。 しかし、これらのシステムには2つの大きな欠点がある。 まず、予測において時間関係の両側的性質を利用することができない。 第2に、非並列化可能なパイプラインを推論プロセスに含み、パフォーマンスがほとんど向上しない。 そこで本研究では,非構造化テキストにおける事象間の時間関係を効率的かつ正確に抽出するために,深いバイアフィンの注意に基づく時間情報抽出モデルを提案する。 我々は,関係抽出の前提条件としてイベントアノテーションを考慮せずに,関係抽出タスクを直接実行する。 さらに,マルチレイヤ・パーセプトロン (MLP) を用いて,時間的関係の両面の性質を利用した関係検出精度を向上し,アークと関係ラベルを別々に予測する。 本研究では,時間的関係抽出における最先端性能を実証した。

Temporal information extraction plays a critical role in natural language understanding. Previous systems have incorporated advanced neural language models and have successfully enhanced the accuracy of temporal information extraction tasks. However, these systems have two major shortcomings. First, they fail to make use of the two-sided nature of temporal relations in prediction. Second, they involve non-parallelizable pipelines in inference process that bring little performance gain. To this end, we propose a novel temporal information extraction model based on deep biaffine attention to extract temporal relationships between events in unstructured text efficiently and accurately. Our model is performant because we perform relation extraction tasks directly instead of considering event annotation as a prerequisite of relation extraction. Moreover, our architecture uses Multilayer Perceptrons (MLP) with biaffine attention to predict arcs and relation labels separately, improving relation detecting accuracy by exploiting the two-sided nature of temporal relationships. We experimentally demonstrate that our model achieves state-of-the-art performance in temporal relation extraction.
翻訳日:2022-01-21 10:24:56 公開日:2022-01-16
# (参考訳) 第9回コグニティブ・システムズ(acs)会議

The Ninth Advances in Cognitive Systems (ACS) Conference ( http://arxiv.org/abs/2201.06134v1 )

ライセンス: CC BY 4.0
Mark Burstein, Mohan Sridharan, David McDonald(参考訳) ACSは、人工知能と認知科学の初期目標に関する研究のための年次会合であり、計算用語で心を説明し、人工物における人間の認知能力の全範囲を再現することを目的としている。 多くの研究者がこの当初のビジョンにコミットし続けており、認知システムの進歩は最近の結果を提示し、この分野に新たな課題をもたらす場所を提供する。 会議は、人間レベルの知性、複雑な認知、統合された知的システム、認知アーキテクチャ、および関連するトピックに関心を持つ研究者を集結させる。

ACS is an annual meeting for research on the initial goals of artificial intelligence and cognitive science, which aimed to explain the mind in computational terms and to reproduce the entire range of human cognitive abilities in computational artifacts. Many researchers remain committed to this original vision, and Advances in Cognitive Systems provides a place to present recent results and pose new challenges for the field. The meetings bring together researchers with interests in human-level intelligence, complex cognition, integrated intelligent systems, cognitive architectures, and related topics.
翻訳日:2022-01-21 10:14:34 公開日:2022-01-16
# (参考訳) サンプル効率の過度パラメータ化メタラーニングに向けて [全文訳有]

Towards Sample-efficient Overparameterized Meta-learning ( http://arxiv.org/abs/2201.06142v1 )

ライセンス: CC BY 4.0
Yue Sun and Adhyyan Narang and Halil Ibrahim Gulluk and Samet Oymak and Maryam Fazel(参考訳) 機械学習の全体的な目標は、サンプル数が少ない一般化されたモデルを構築することだ。 この目的のために、データセットのサイズがモデルのサイズよりも小さい場合でも、過剰パラメータ化はディープネットの一般化能力を説明するための大きな関心の対象となっている。 従来の文献では古典的な教師付き設定に焦点が当てられていたが,メタラーニングにおける過度パラメータ化のデミスト化が目的であった。 ここでは,リニアリグレッシブタスクのシーケンスを示し,(1)前回のタスクが与えられた場合,新しい下流タスクの特徴の最適線形表現とは何か? そして、(2)この表現を構築するのにいくつのサンプルが必要か? この研究は、これらの基本的なメタ学習問題に対する自然な答えとして、驚くほど過度なパラメータ化が生じることを示している。 具体的には,(1)における最適表現の学習は,帰納的バイアスを促進するタスク認識正規化の設計の問題と一致することを示す。 この帰納的バイアスを利用して,ダウンストリームタスクが過パラメータ化によって実際にどのようなメリットがあるのかを説明する。 そこで,(2)自由度以下では,特徴共分散が暗黙的にサンプル複雑性の低減に寄与し,推定誤差が小さいことを説明する理論を考案する。 そして、これらの知見を統合し、メタ学習アルゴリズムの全体的な性能保証を得る。 実データおよび合成データの数値実験は、過パラメータ化メタラーニングについての洞察を検証する。

An overarching goal in machine learning is to build a generalizable model with few samples. To this end, overparameterization has been the subject of immense interest to explain the generalization ability of deep nets even when the size of the dataset is smaller than that of the model. While the prior literature focuses on the classical supervised setting, this paper aims to demystify overparameterization for meta-learning. Here we have a sequence of linear-regression tasks and we ask: (1) Given earlier tasks, what is the optimal linear representation of features for a new downstream task? and (2) How many samples do we need to build this representation? This work shows that surprisingly, overparameterization arises as a natural answer to these fundamental meta-learning questions. Specifically, for (1), we first show that learning the optimal representation coincides with the problem of designing a task-aware regularization to promote inductive bias. We leverage this inductive bias to explain how the downstream task actually benefits from overparameterization , in contrast to prior works on few-shot learning. For (2), we develop a theory to explain how feature covariance can implicitly help reduce the sample complexity well below the degrees of freedom and lead to small estimation error. We then integrate these findings to obtain an overall performance guarantee for our meta-learning algorithm. Numerical experiments on real and synthetic data verify our insights on overparameterized meta-learning.
翻訳日:2022-01-21 10:13:45 公開日:2022-01-16
# (参考訳) あなたは10647回しか見えません [全文訳有]

You only look 10647 times ( http://arxiv.org/abs/2201.06159v1 )

ライセンス: CC BY 4.0
Christian Limberg, Andrew Melnik, Augustin Harter, Helge Ritter(参考訳) この研究で、我々は10647の固定領域提案の並列分類として、"You Only Look Once" (YOLO)シングルステージオブジェクト検出アプローチを説明しています。 我々は、各YOLO出力ピクセルが、ローカル領域の提案に匹敵する、前のレイヤの特定のサブリージョンに注意を払っていることを示し、この見解を支持する。 この理解により、YOLOのような単一ステージオブジェクト検出モデル、RCNNのような2段階領域提案モデル、ResNetのようなイメージ分類モデルの間の概念的ギャップが軽減される。 さらに私たちは、YOLO情報処理ストリームをよりビジュアルに理解するためのインタラクティブな探索ツールを作成しました。

With this work we are explaining the "You Only Look Once" (YOLO) single-stage object detection approach as a parallel classification of 10647 fixed region proposals. We support this view by showing that each of YOLOs output pixel is attentive to a specific sub-region of previous layers, comparable to a local region proposal. This understanding reduces the conceptual gap between YOLO-like single-stage object detection models, RCNN-like two-stage region proposal based models, and ResNet-like image classification models. In addition, we created interactive exploration tools for a better visual understanding of the YOLO information processing streams: https://limchr.githu b.io/yolo_visualizat ion
翻訳日:2022-01-21 09:33:45 公開日:2022-01-16
# ゼロ次元の詐欺を検知する「do not rug on me」

Do not rug on me: Zero-dimensional Scam Detection ( http://arxiv.org/abs/2201.07220v1 )

ライセンス: Link先を確認
Bruno Mazorra, Victor Adan, Vanesa Daza(参考訳) Uniswapは、他のDEXと同様、ユーザーが信頼できる第三者なしでデジタル資産を取引できる、非合法かつ公に検証可能な取引所であるため、今年は注目を集めている。 しかし、その単純さと規制の欠如により、価値のないトークンをリストアップすることで、初期通貨発行詐欺の実行も容易になる。 この詐欺行為の方法は、従来の金融業界にはすでに存在していたが、DeFiではより関係が深いルーグプルとして知られている。 例えば[34,37]のようなさまざまなプロジェクトは、EVM互換チェーンにおけるラグプルの検出に寄与している。 しかし, ユニスワップにおける詐欺トークンの検出・特徴化の第1段階は [44] であった。 著者らはUnixwap V2交換に関するすべてのトランザクションを収集し、トークンを詐欺としてラベル付ける機械学習アルゴリズムを提案した。 しかし,このアルゴリズムは,実行後の詐欺を正確に検出するためにのみ有用である。 本稿では,20kトークンのデータセットを増加させ,トークンを詐欺としてラベル付ける新しい手法を提案する。 データを手動で解析した後、Unixwapプロトコルにおける様々な悪意ある操作の理論的分類を考案した。 本稿では,トークンの伝播とスマートコントラクトヒューリスティックに関連する新しい特徴を持つ機械学習に基づくアルゴリズムを提案する。 一般に、提案されたモデルは同様の結果を得た。 最良のモデルは0.9936の精度、0.9540のリコール、そして悪意のないトークンと不正な操作前の詐欺を区別する精度0.9838の精度を得た。

Uniswap, like other DEXs, has gained much attention this year because it is a non-custodial and publicly verifiable exchange that allows users to trade digital assets without trusted third parties. However, its simplicity and lack of regulation also makes it easy to execute initial coin offering scams by listing non-valuable tokens. This method of performing scams is known as rug pull, a phenomenon that already existed in traditional finance but has become more relevant in DeFi. Various projects such as [34,37] have contributed to detecting rug pulls in EVM compatible chains. However, the first longitudinal and academic step to detecting and characterizing scam tokens on Uniswap was made in [44]. The authors collected all the transactions related to the Uniswap V2 exchange and proposed a machine learning algorithm to label tokens as scams. However, the algorithm is only valuable for detecting scams accurately after they have been executed. This paper increases their data set by 20K tokens and proposes a new methodology to label tokens as scams. After manually analyzing the data, we devised a theoretical classification of different malicious maneuvers in Uniswap protocol. We propose various machine-learning-bas ed algorithms with new relevant features related to the token propagation and smart contract heuristics to detect potential rug pulls before they occur. In general, the models proposed achieved similar results. The best model obtained an accuracy of 0.9936, recall of 0.9540, and precision of 0.9838 in distinguishing non-malicious tokens from scams prior to the malicious maneuver.
翻訳日:2022-01-20 15:26:56 公開日:2022-01-16
# 心エコー画像における左室分画に対するコントラスト学習は適切か?

Is Contrastive Learning Suitable for Left Ventricular Segmentation in Echocardiographic Images? ( http://arxiv.org/abs/2201.07219v1 )

ライセンス: Link先を確認
Mohamed Saeed, Rand Muhtaseb, Mohammad Yaqub(参考訳) 対照的な学習は、ラベル付きデータへのアクセスが制限される多くのアプリケーションで有用であることが証明されている。 臨床専門家が大量のデータを手動でアノテートすることは困難であるため、医用画像のセグメンテーションでは特に問題となる。 そのような課題の1つは、心臓の超音波画像における心臓構造のセグメンテーションである。 本稿では,心エコー画像における左心室の分画にコントラスト前訓練が有効であるか否かを論じる。 さらに,この2つのセグメンテーションネットワークであるDeepLabV3と,一般的に使用されているセグメンテーションネットワークであるUNetについて検討した。 以上の結果から,特にアノテートデータが少ない場合には,左室セグメンテーションの性能向上に寄与することが示唆された。 自己教師ありの方法でモデルをトレーニングし、わずか5%のデータを微調整すると、最先端の完全教師付きアルゴリズムに匹敵する結果を得る方法を示す。 また、当社のソリューションは、大規模な公開データセット(EchoNet-Dynamic)で現在公開されているものよりも優れた結果が得られることを示し、また、別の小さなデータセット(CAMUS)でもソリューションのパフォーマンスを比較します。

Contrastive learning has proven useful in many applications where access to labelled data is limited. The lack of annotated data is particularly problematic in medical image segmentation as it is difficult to have clinical experts manually annotate large volumes of data. One such task is the segmentation of cardiac structures in ultrasound images of the heart. In this paper, we argue whether or not contrastive pretraining is helpful for the segmentation of the left ventricle in echocardiography images. Furthermore, we study the effect of this on two segmentation networks, DeepLabV3, as well as the commonly used segmentation network, UNet. Our results show that contrastive pretraining helps improve the performance on left ventricle segmentation, particularly when annotated data is scarce. We show how to achieve comparable results to state-of-the-art fully supervised algorithms when we train our models in a self-supervised fashion followed by fine-tuning on just 5% of the data. We also show that our solution achieves better results than what is currently published on a large public dataset (EchoNet-Dynamic) and we compare the performance of our solution on another smaller dataset (CAMUS) as well.
翻訳日:2022-01-20 14:00:23 公開日:2022-01-16
# 総合的なシーン理解に向けて:セマンティックセグメンテーションとその先

Towards holistic scene understanding: Semantic segmentation and beyond ( http://arxiv.org/abs/2201.07734v1 )

ライセンス: Link先を確認
Panagiotis Meletis(参考訳) この論文は視覚的なシーン理解に対処し、セグメンテーション性能と一般化、ネットワークのトレーニング効率、全体的理解を高める。 まず,街路シーンの文脈におけるセマンティックセグメンテーションと,各種データセットの組み合わせによるセマンティックセグメンテーションネットワークについて検討する。 第2章では、単一の畳み込みバックボーン上の階層型分類器のフレームワークを設計し、ピクセルラベル付きデータセットの組み合わせでエンドツーエンドにトレーニングし、一般化性と認識可能な意味概念の数を改善する。 第3章は, セマンティックセグメンテーションを弱監督で強化することに焦点を当て, ボックスレベルと画像レベルのバウンディングによるトレーニングを, ピクセル単位の監督でのみ行うのではなく, 弱監督するアルゴリズムを提案する。 第4章では、複数のデータセットの同時トレーニングから生じるメモリおよび計算負荷の問題に対処する。 本稿では,ネットワークの生態的フットプリントを損なうことなく,データから情報的および多様なサンプルを選択するための2つの手法を提案する。 第5章では、メモリと計算効率の要求により、異種データセットの同時トレーニングを再考し、普遍的なセマンティックセグメンテーションフレームワークを提案する。 このフレームワークは、様々なシーン理解データセットを活用することで、パフォーマンスメトリクスとセマンティックナレッジビリティの一貫性の向上を実現する。 第6章では,部分認識パンオプティカルセグメンテーション(part-aware panoptic segmentation)の新たなタスクを紹介します。 このタスクはシーンと部分レベルのセマンティクスとインスタンスレベルのオブジェクト検出を組み合わせる。 結論として、私たちの貢献は、畳み込み型ネットワークアーキテクチャ、弱い教師付き学習、パートセグメンテーションとパンオプティカルセグメンテーションにまたがり、総合的でリッチで持続可能な視覚シーン理解への道を開いた。

This dissertation addresses visual scene understanding and enhances segmentation performance and generalization, training efficiency of networks, and holistic understanding. First, we investigate semantic segmentation in the context of street scenes and train semantic segmentation networks on combinations of various datasets. In Chapter 2 we design a framework of hierarchical classifiers over a single convolutional backbone, and train it end-to-end on a combination of pixel-labeled datasets, improving generalizability and the number of recognizable semantic concepts. Chapter 3 focuses on enriching semantic segmentation with weak supervision and proposes a weakly-supervised algorithm for training with bounding box-level and image-level supervision instead of only with per-pixel supervision. The memory and computational load challenges that arise from simultaneous training on multiple datasets are addressed in Chapter 4. We propose two methodologies for selecting informative and diverse samples from datasets with weak supervision to reduce our networks' ecological footprint without sacrificing performance. Motivated by memory and computation efficiency requirements, in Chapter 5, we rethink simultaneous training on heterogeneous datasets and propose a universal semantic segmentation framework. This framework achieves consistent increases in performance metrics and semantic knowledgeability by exploiting various scene understanding datasets. Chapter 6 introduces the novel task of part-aware panoptic segmentation, which extends our reasoning towards holistic scene understanding. This task combines scene and parts-level semantics with instance-level object detection. In conclusion, our contributions span over convolutional network architectures, weakly-supervised learning, part and panoptic segmentation, paving the way towards a holistic, rich, and sustainable visual scene understanding.
翻訳日:2022-01-20 13:31:27 公開日:2022-01-16
# チューニング機械学習手法ハイパーパラメータの離散シミュレーション最適化

Discrete Simulation Optimization for Tuning Machine Learning Method Hyperparameters ( http://arxiv.org/abs/2201.05978v1 )

ライセンス: Link先を確認
Varun Ramamohan, Shobhit Singhal, Aditya Raj Gupta, Nomesh B Bolia(参考訳) 機械学習の手法は、画像認識、製品推奨、財務分析、医療診断、予測メンテナンスなど、ほとんどの技術領域でますます使われている。 問題に対する私たちの要求に応じて、学習プロセスをどのように制御すればよいのか? ハイパーパラメータチューニングは、モデルの学習過程を制御するために最適なハイパーパラメータセットを選択するために使用される。 適切なハイパーパラメータの選択は、モデルのパフォーマンス測定に直接影響します。 我々は、KN法や確率的定規法などの離散探索法(R&S)とハイパーパラメータ最適化のバリエーションを用いたシミュレーション最適化を用いて、一般的なR&S法を適用する理論的基礎を開発した。 KN法は、統計的保証と確率的定規法が漸近的に最適解に収束し、計算的に非常に効率的である最良のシステムを見つける。 私たちはまた、hyperopt$や$mango$のような最先端のハイパーパラメータ最適化ライブラリでベンチマークを行い、knと確率的定規は$hyperopt~rand$と確率的定規は、プロのパッケージと比較してまだ最適化されていない場合でも、ほとんどのケースで$hyperopt~tpe$と同等に効率的であることを見出しました。

Machine learning methods are being increasingly used in most technical areas such as image recognition, product recommendation, financial analysis, medical diagnosis, and predictive maintenance. The key question that arises is: how do we control the learning process according to our requirement for the problem? Hyperparameter tuning is used to choose the optimal set of hyperparameters for controlling the learning process of a model. Selecting the appropriate hyperparameters directly impacts the performance measure a model. We have used simulation optimization using discrete search methods like ranking and selection (R&S) methods such as the KN method and stochastic ruler method and its variations for hyperparameter optimization and also developed the theoretical basis for applying common R&S methods. The KN method finds the best possible system with statistical guarantee and stochastic ruler method asymptotically converges to the optimal solution and is also computationally very efficient. We also benchmarked our results with state of art hyperparameter optimization libraries such as $hyperopt$ and $mango$ and found KN and stochastic ruler to be performing consistently better than $hyperopt~rand$ and stochastic ruler to be equally efficient in comparison with $hyperopt~tpe$ in most cases, even when our computational implementations are not yet optimized in comparison to professional packages.
翻訳日:2022-01-19 18:58:02 公開日:2022-01-16
# 状態制御メディアのあいまいな影響の顕在化--引用伝播によるメディア間の影響の因果的推定

Exposing the Obscured Influence of State-Controlled Media: A Causal Estimation of Influence Between Media Outlets Via Quotation Propagation ( http://arxiv.org/abs/2201.05985v1 )

ライセンス: Link先を確認
Joseph Schlessinger, Richard Bennet, Jacob Coakwell, Steven T. Smith, Edward K. Kao(参考訳) 本研究では,ネットワークやトランスフォーマー言語モデルに因果効果を推定する手法を適用し,メディア間の影響を定量化する。 我々は、2018年5月から2019年10月にかけて、ヨーロッパおよびロシアの伝統メディアが発行した1万以上の記事から引用された膨大なデータセットを分析して、他のメディアに対する国が管理するアウトレットの影響の曖昧さを実証する。 この分析は、異なる地政界の出口を結ぶ顕著な橋として機能するニュースワイヤーサービスによる影響のネットワーク構造を図示する。 全体として、このアプローチは特定のトピックに対するメディア間アジェンダの設定における影響のチャネルを特定し、定量化する能力を示す。

This study quantifies influence between media outlets by applying a novel methodology that uses causal effect estimation on networks and transformer language models. We demonstrate the obscured influence of state-controlled outlets over other outlets, regardless of orientation, by analyzing a large dataset of quotations from over 100 thousand articles published by the most prominent European and Russian traditional media outlets, appearing between May 2018 and October 2019. The analysis maps out the network structure of influence with news wire services serving as prominent bridges that connect outlets in different geo-political spheres. Overall, this approach demonstrates capabilities to identify and quantify the channels of influence in intermedia agenda setting over specific topics.
翻訳日:2022-01-19 18:57:37 公開日:2022-01-16
# 待機ベースデッドロック回避方法 待機ベースデッドロック回避方法 マルチエージェントピックアップ・デリバリータスク

Standby-Base Deadlock Avoidance Method Standby-Based Deadlock Avoidance Method for Multi-Agent Pickup and Delivery Tasks ( http://arxiv.org/abs/2201.06014v1 )

ライセンス: Link先を確認
Tomoki Yamauchi, Yuki Miyashita and Toshiharu Sugawara(参考訳) 複数のエージェントが衝突せずに反復的に材料を運ぶマルチエージェントピックアップ・アンド・デリバリー(MAPD)問題に注目が集まっている。 しかし、従来のMAPDアルゴリズムの多くは、自動倉庫など、特定の設計のグリッドのような環境を前提としている。 そのため、長い期間エージェントが滞在できるピックアップと配送の場所が多く、またグリッド内の移動の自由による衝突を避けるために多くの回り道がある。 対照的に、捜索救助や建設現場のような迷路のような環境は、ピックアップ/配達の場所が少なく、その数は不均衡である可能性があるため、多くのエージェントはそのような場所に集中し、効率の悪さを招き、しばしば立ち往生またはデッドロックされる。 そこで我々は,迷路型制限環境においても輸送効率を向上させるために,スタンバイベースデッドロック回避(SBDA)と呼ばれるデッドロック回避手法を提案する。 SBDAは調音点探索アルゴリズムを用いてリアルタイムに決定された待機ノードを使用し、エージェントは有限時間滞在することが保証される。 提案手法が従来の手法より優れていることを示す。 また,待機ノード選択のパラメータが性能に与える影響についても検討した。

The multi-agent pickup and delivery (MAPD) problem, in which multiple agents iteratively carry materials without collisions, has received significant attention. However, many conventional MAPD algorithms assume a specifically designed grid-like environment, such as an automated warehouse. Therefore, they have many pickup and delivery locations where agents can stay for a lengthy period, as well as plentiful detours to avoid collisions owing to the freedom of movement in a grid. By contrast, because a maze-like environment such as a search-and-rescue or construction site has fewer pickup/delivery locations and their numbers may be unbalanced, many agents concentrate on such locations resulting in inefficient operations, often becoming stuck or deadlocked. Thus, to improve the transportation efficiency even in a maze-like restricted environment, we propose a deadlock avoidance method, called standby-based deadlock avoidance (SBDA). SBDA uses standby nodes determined in real-time using the articulation-point-f inding algorithm, and the agent is guaranteed to stay there for a finite amount of time. We demonstrated that our proposed method outperforms a conventional approach. We also analyzed how the parameters used for selecting standby nodes affect the performance.
翻訳日:2022-01-19 18:44:27 公開日:2022-01-16
# オンライン2部マッチングにおけるrawlsian fairness:2面,グループ,個人

Rawlsian Fairness in Online Bipartite Matching: Two-sided, Group, and Individual ( http://arxiv.org/abs/2201.06021v1 )

ライセンス: Link先を確認
Seyed A. Esmaeili, Sharmila Duppala, Vedant Nanda, Aravind Srinivasan, and John P. Dickerson(参考訳) オンラインの双方向マッチングプラットフォームはユビキタスであり、クラウドソーシングやライドシェアリングといった重要な分野のアプリケーションを見つける。 最も一般的な形式では、プラットフォームはマッチする2つの側面とマッチングを決定するプラットフォームオペレータの3つのエンティティで構成される。 このようなプラットフォームのためのアルゴリズムの設計は、伝統的にオペレーターの(予想される)利益に焦点を当ててきた。 最近の報告では、一部の人口集団は純利益の最大化の下で優遇を受けない可能性がある。 その結果、オペレータの利益の低下を犠牲にして、市場の片側に対して公平な待遇を保証するオンラインマッチングアルゴリズムのコレクションが開発された。 本稿では,既存の業務を一般化し,市場双方に公平な治療保証を同時に提供し,オペレーター利益への最悪の下降を計算した。 グループおよび個人Rawlsianの公正度基準を検討する。 さらに、我々のアルゴリズムは理論的な保証があり、三辺のユーティリティ間のトレードオフのバランスをとるために調整可能なパラメータを持つ。 また,任意のアルゴリズムの性能に対して高い上限を与える硬度結果も導出する。

Online bipartite-matching platforms are ubiquitous and find applications in important areas such as crowdsourcing and ridesharing. In the most general form, the platform consists of three entities: two sides to be matched and a platform operator that decides the matching. The design of algorithms for such platforms has traditionally focused on the operator's (expected) profit. Recent reports have shown that certain demographic groups may receive less favorable treatment under pure profit maximization. As a result, a collection of online matching algorithms have been developed that give a fair treatment guarantee for one side of the market at the expense of a drop in the operator's profit. In this paper, we generalize the existing work to offer fair treatment guarantees to both sides of the market simultaneously, at a calculated worst case drop to operator profit. We consider group and individual Rawlsian fairness criteria. Moreover, our algorithms have theoretical guarantees and have adjustable parameters that can be tuned as desired to balance the trade-off between the utilities of the three sides. We also derive hardness results that give clear upper bounds over the performance of any algorithm.
翻訳日:2022-01-19 18:44:06 公開日:2022-01-16
# ベイズが約束する説得:情報燃焼を伴う動的前方型マルチエージェント代表団

Bayesian Promised Persuasion: Dynamic Forward-Looking Multiagent Delegation with Informational Burning ( http://arxiv.org/abs/2201.06081v1 )

ライセンス: Link先を確認
Tao Zhang, Quanyan Zhu(参考訳) 本研究は,主要因が金銭移動や燃焼を伴わない私的情報伝達エージェント群に決定を委譲する動的機構設計問題を研究する。 校長は、国家移行に関する完全な知識を私的に持っており、情報燃焼による代表団のインセンティブ整合を支援するために、どのように私的な観察を利用できるかを研究している。 委譲機構は、エージェントが説得によって信念階層を形成し、動的ベイズゲームを行うように定式化される。 我々は,将来の代表団の説得と約束によって周期的インセンティブの互換性が保証される,bayesian promised delegate (bpd) と呼ばれる新しいランダム化機構を提案する。 bpdは,定常マルコフ完全ベイズ均衡における本来のメカニズムと同じ最適な社会福祉を実現することができることを示した。 エージェントの局所的BPD機構のランダム化とパースを関連づけることで, 信念階層による説得が, 将来の約束の直接の推薦として実現可能であることを示すために, 啓示原理のような設計体制が確立されている。

This work studies a dynamic mechanism design problem in which a principal delegates decision makings to a group of privately-informed agents without the monetary transfer or burning. We consider that the principal privately possesses complete knowledge about the state transitions and study how she can use her private observation to support the incentive compatibility of the delegation via informational burning, a process we refer to as the looking-forward persuasion. The delegation mechanism is formulated in which the agents form belief hierarchies due to the persuasion and play a dynamic Bayesian game. We propose a novel randomized mechanism, known as Bayesian promised delegation (BPD), in which the periodic incentive compatibility is guaranteed by persuasions and promises of future delegations. We show that the BPD can achieve the same optimal social welfare as the original mechanism in stationary Markov perfect Bayesian equilibria. A revelation-principle -like design regime is established to show that the persuasion with belief hierarchies can be fully characterized by correlating the randomization of the agents' local BPD mechanisms with the persuasion as a direct recommendation of the future promises.
翻訳日:2022-01-19 18:43:49 公開日:2022-01-16
# inventory-dynamics-i nformed neural networkによる在庫管理問題を解決する

Solving Inventory Management Problems with Inventory-dynamics-i nformed Neural Networks ( http://arxiv.org/abs/2201.06126v1 )

ライセンス: Link先を確認
Lucas B\"ottcher and Thomas Asikis and Ioannis Fragkos(参考訳) 在庫管理における重要な課題は、複数のサプライヤーから在庫を最適に補充する政策を特定することである。 このような最適化問題を解決するためには、在庫管理担当者は、在庫と未完の発注を考慮し、各サプライヤから何の注文をするかを決定する必要がある。 在庫管理問題は60年以上にわたって広く研究されてきたが、高価なサプライヤーからの注文が通常のサプライヤーからの注文よりも早く届くという基本的な二重ソーシング問題でさえも、一般的な形では難解なままである。 本研究では、ニューラルネットワークに基づく最適化レンズからデュアルソーシングにアプローチする。 インベントリダイナミクスをニューラルネットワークの設計に組み込むことで、一般的な使用インスタンスの最適に近いポリシを、通常のパーソナルコンピュータ上で数分以内に学習することが可能になります。 そこで本研究では,インベントリダイナミクスを応用したニューラルネットワークの汎用性を示すために,経験的需要分布を用いてインベントリダイナミクスを制御できることを示す。

A key challenge in inventory management is to identify policies that optimally replenish inventory from multiple suppliers. To solve such optimization problems, inventory managers need to decide what quantities to order from each supplier, given the on-hand inventory and outstanding orders, so that the expected backlogging, holding, and sourcing costs are jointly minimized. Inventory management problems have been studied extensively for over 60 years, and yet even basic dual sourcing problems, in which orders from an expensive supplier arrive faster than orders from a regular supplier, remain intractable in their general form. In this work, we approach dual sourcing from a neural-network-based optimization lens. By incorporating inventory dynamics into the design of neural networks, we are able to learn near-optimal policies of commonly used instances within a few minutes of CPU time on a regular personal computer. To demonstrate the versatility of inventory-dynamics-i nformed neural networks, we show that they are able to control inventory dynamics with empirical demand distributions that are challenging to tackle effectively using alternative, state-of-the-art approaches.
翻訳日:2022-01-19 18:35:41 公開日:2022-01-16
# グラフマッチングに基づく軽量オブジェクトレベルのトポロジカルセマンティックマッピングと長期グローバルローカライゼーション

Lightweight Object-level Topological Semantic Mapping and Long-term Global Localization based on Graph Matching ( http://arxiv.org/abs/2201.05977v1 )

ライセンス: Link先を確認
Fan Wang, Chaofan Zhang, Fulin Tang, Hongkui Jiang, Yihong Wu, and Yong Liu(参考訳) マッピングとローカライゼーションは、現実のアプリケーションにおいて、モバイルロボットにとって重要な2つのタスクである。 しかし、大規模でダイナミックなシーンは、現在のほとんどの成熟したソリューションの正確性と堅牢性に挑戦している。 計算資源が限られると、この状況はさらに悪化する。 本稿では,高精度でロバストな,軽量なオブジェクトレベルのマッピングとローカライズ手法を提案する。 従来の方法とは異なり,事前構築された正確な幾何写像は必要とせず,特に大規模ナビゲーションにおいてストレージの負担を大幅に軽減する。 環境のランドマークをモデル化するために,意味情報と幾何学情報の両方を持つオブジェクトレベルの特徴を用いる。 特に、学習トポロジカルプリミティブが最初に提案され、オブジェクトレベルのランドマークを効率的に取得し、整理する。 これに基づいて,ロボット中心のマッピングフレームワークを用いて,環境を意味トポロジグラフとして表現し,同時にグローバル一貫性を維持することの負担を緩和する。 また、計算資源の少ないオンラインマッピングの効率を向上させるために階層的メモリ管理機構が導入された。 提案したマップに基づいて,新たな局所的なシーングラフ記述子を構築し,シーンの類似性を比較するためにマルチ制約グラフマッチングを実行することで,ロバストなローカライゼーションを実現する。 最後に,提案手法を低コストな組込みプラットフォーム上でテストし,その利点を実証する。 大規模かつマルチセッションな実環境における実験結果から,提案手法は軽量で堅牢性に優れることがわかった。

Mapping and localization are two essential tasks for mobile robots in real-world applications. However, largescale and dynamic scenes challenge the accuracy and robustness of most current mature solutions. This situation becomes even worse when computational resources are limited. In this paper, we present a novel lightweight object-level mapping and localization method with high accuracy and robustness. Different from previous methods, our method does not need a prior constructed precise geometric map, which greatly releases the storage burden, especially for large-scale navigation. We use object-level features with both semantic and geometric information to model landmarks in the environment. Particularly, a learning topological primitive is first proposed to efficiently obtain and organize the object-level landmarks. On the basis of this, we use a robot-centric mapping framework to represent the environment as a semantic topology graph and relax the burden of maintaining global consistency at the same time. Besides, a hierarchical memory management mechanism is introduced to improve the efficiency of online mapping with limited computational resources. Based on the proposed map, the robust localization is achieved by constructing a novel local semantic scene graph descriptor, and performing multi-constraint graph matching to compare scene similarity. Finally, we test our method on a low-cost embedded platform to demonstrate its advantages. Experimental results on a large scale and multi-session real-world environment show that the proposed method outperforms the state of arts in terms of lightweight and robustness.
翻訳日:2022-01-19 17:50:22 公開日:2022-01-16
# 動的畳み込みカーネルを用いた音声駆動型顔映像生成

Audio-Driven Talking Face Video Generation with Dynamic Convolution Kernels ( http://arxiv.org/abs/2201.05986v1 )

ライセンス: Link先を確認
Zipeng Ye, Mengfei Xia, Ran Yi, Juyong Zhang, Yu-Kun Lai, Xuwei Huang, Guoxin Zhang, Yong-jin Liu(参考訳) 本稿では,畳み込みニューラルネットワークのための動的畳み込みカーネル(DCK)戦略を提案する。 提案するdckと完全畳み込みネットワークを用いて,マルチモーダル音源(例えば不一致音声とビデオ)から高品質な対話映像をリアルタイムで生成し,訓練したモデルは異なるアイデンティティ,頭部姿勢,入力音声に対して頑健である。 提案するDCKは,音声駆動による音声音声合成に特化して設計されており,シンプルで効果的なエンドツーエンドシステムを実現している。 また、DCKがなぜ機能するのかを理論的に解析する。 実験の結果,60fpsで高品質な対話型ビデオを生成することができた。 本手法と最先端手法の比較と評価は,本手法の優位性を示している。

In this paper, we present a dynamic convolution kernel (DCK) strategy for convolutional neural networks. Using a fully convolutional network with the proposed DCKs, high-quality talking-face video can be generated from multi-modal sources (i.e., unmatched audio and video) in real time, and our trained model is robust to different identities, head postures, and input audios. Our proposed DCKs are specially designed for audio-driven talking face video generation, leading to a simple yet effective end-to-end system. We also provide a theoretical analysis to interpret why DCKs work. Experimental results show that our method can generate high-quality talking-face video with background at 60 fps. Comparison and evaluation between our method and the state-of-the-art methods demonstrate the superiority of our method.
翻訳日:2022-01-19 17:49:59 公開日:2022-01-16
# 深層学習モデルを用いた脳腫瘍mri画像からのmgmtプロモーターメチル化の予測は可能か?

Is it Possible to Predict MGMT Promoter Methylation from Brain Tumor MRI Scans using Deep Learning Models? ( http://arxiv.org/abs/2201.06086v1 )

ライセンス: Link先を確認
Numan Saeed, Shahad Hardan, Kudaibergen Abutalip and Mohammad Yaqub(参考訳) グリオ芽腫(Glioblastoma)は、高齢者に発生する一般的な脳腫瘍であり、ほぼ常に致死性である。 ほとんどのがんに対する標準的な治療である化学療法の有効性は、mgmtプロモーターとして知られる腫瘍の特定の遺伝子配列がメチル化されると改善される。 しかし、MGMTプロモーターの状態を特定するために、従来のアプローチは遺伝子解析のための生検を行うことであり、それは時間と労力を要する。 最近のいくつかの出版物は、MGMTプロモーター状態と腫瘍のMRIスキャンの関連性を提案し、この目的のためにディープラーニングモデルを使用することを提案した。 そこで本研究では、最も広範なデータセットであるBraTS 2021を用いて、2Dおよび3D CNNモデルやビジョントランスフォーマーなど、ディープラーニングソリューションの利用の可能性を研究する。 モデルの性能を徹底的に分析した結果,MRIスキャンとMGMTプロモーターの状態との間には関連性がないことが判明した。

Glioblastoma is a common brain malignancy that tends to occur in older adults and is almost always lethal. The effectiveness of chemotherapy, being the standard treatment for most cancer types, can be improved if a particular genetic sequence in the tumor known as MGMT promoter is methylated. However, to identify the state of the MGMT promoter, the conventional approach is to perform a biopsy for genetic analysis, which is time and effort consuming. A couple of recent publications proposed a connection between the MGMT promoter state and the MRI scans of the tumor and hence suggested the use of deep learning models for this purpose. Therefore, in this work, we use one of the most extensive datasets, BraTS 2021, to study the potency of employing deep learning solutions, including 2D and 3D CNN models and vision transformers. After conducting a thorough analysis of the models' performance, we concluded that there seems to be no connection between the MRI scans and the state of the MGMT promoter.
翻訳日:2022-01-19 17:49:45 公開日:2022-01-16
# 超音波画像のロバスト散乱器数密度分割

Robust Scatterer Number Density Segmentation of Ultrasound Images ( http://arxiv.org/abs/2201.06143v1 )

ライセンス: Link先を確認
Ali K. Z. Tehrani, Ivan M. Rosado-Mendez, and Hassan Rivaz(参考訳) 定量的超音波(qus)は臨床用スキャナーからの後方散乱エコー信号を用いて組織微細構造に関する情報を明らかにすることを目的としている。 異なるQUSパラメータの中で、散乱器数密度は他のQUSパラメータの推定に影響を及ぼす重要な特性である。 散乱体数密度は、高いあるいは低い散乱体密度に分類される。 解像度セル内に10以上の散乱器がある場合、封筒データはFully Developed Speckle (FDS)とみなされ、そうでなければUnder Developed Speckle (UDS)とみなされる。 従来の方法では、エンベロープデータは小さな重なり合う窓(ここではパッチと呼ばれる戦略)に分割され、各エンベロープデータのパッチを分類するためにsnrやスキューネスなどの統計パラメータが用いられる。 しかし、これらのパラメータはシステム依存であり、その分布は画像設定とパッチサイズによって変化する可能性がある。 したがって、散乱数密度が分かっている参照ファントムを同じ撮像設定で撮像し、システムの依存性を緩和する。 本稿では,超音波データの領域をパッチなしで分割することを目的とする。 高速なシミュレーション手法を用いて、散乱器数密度と平均散乱器振幅の異なる形状の大規模データセットを生成する。 セグメンテーションタスクには畳み込みニューラルネットワーク(CNN)を使用し、異なる画像設定の異なるデータセット上でネットワークをテストした場合のドメインシフトの影響を調べる。 中上パラメトリック画像を用いてマルチタスク学習を行い,その性能向上を図る。 さらに、QUSの参照ファントム法にヒントを得て、FDSとUDSの2フレームのデータのみを必要とするドメイン適応ステージを提案する。 実験ファントムとin vivoデータを用いて実験ファントムの評価を行った。

Quantitative UltraSound (QUS) aims to reveal information about the tissue microstructure using backscattered echo signals from clinical scanners. Among different QUS parameters, scatterer number density is an important property that can affect estimation of other QUS parameters. Scatterer number density can be classified into high or low scatterer densities. If there are more than 10 scatterers inside the resolution cell, the envelope data is considered as Fully Developed Speckle (FDS) and otherwise, as Under Developed Speckle (UDS). In conventional methods, the envelope data is divided into small overlapping windows (a strategy here we refer to as patching), and statistical parameters such as SNR and skewness are employed to classify each patch of envelope data. However, these parameters are system dependent meaning that their distribution can change by the imaging settings and patch size. Therefore, reference phantoms which have known scatterer number density are imaged with the same imaging settings to mitigate system dependency. In this paper, we aim to segment regions of ultrasound data without any patching. A large dataset is generated which has different shapes of scatterer number density and mean scatterer amplitude using a fast simulation method. We employ a convolutional neural network (CNN) for the segmentation task and investigate the effect of domain shift when the network is tested on different datasets with different imaging settings. Nakagami parametric image is employed for the multi-task learning to improve the performance. Furthermore, inspired by the reference phantom methods in QUS, A domain adaptation stage is proposed which requires only two frames of data from FDS and UDS classes. We evaluate our method for different experimental phantoms and in vivo data.
翻訳日:2022-01-19 17:49:28 公開日:2022-01-16
# テストケース優先のための情報属性の分類:適用性、機械学習

A Taxonomy of Information Attributes for Test Case Prioritisation: Applicability, Machine Learning ( http://arxiv.org/abs/2201.06044v1 )

ライセンス: Link先を確認
Aurora Ram\'irez, Robert Feldt, Jos\'e Ra\'ul Romero(参考訳) ほとんどのソフトウェア企業は広範なテストスイートを持ち、その一部を継続的に再実行することで、最近の変更が悪影響を及ぼさないようにしている。 テストスイートの実行にはコストがかかるため、業界ではテストケース優先順位付け(TCP)の方法が必要である。 近年,テスト対象システム(SUT)とそのテストケースに関する情報を活用するために,機械学習(ML)が使用されている。 しかし、MLベースのTCPメソッドで付加される価値は、情報収集のコストに関して批判的に評価されるべきである。 本稿では,20年間のTCP研究を解析し,これまで使用されてきた91の情報属性の分類について述べる。 属性は、その情報ソースとその抽出プロセスの特徴について分類される。 この分類に基づいて、産業データで検証されたTCP法とMLを適用したTCP法は、MLに適したデータ特徴の可用性、属性の組み合わせ、定義の観点から分析される。 MLベースのTCPの産業的適用性を阻害する可能性のある要因として、SUTコードへの容易にアクセスと簡易なテスト環境を仮定して、多くの情報属性を考慮に入れている。 TePIA分類は、情報属性の費用対効果を考慮して、用語を統一し、代替品を評価するための参照フレームワークを提供する。

Most software companies have extensive test suites and re-run parts of them continuously to ensure recent changes have no adverse effects. Since test suites are costly to execute, industry needs methods for test case prioritisation (TCP). Recently, TCP methods use machine learning (ML) to exploit the information known about the system under test (SUT) and its test cases. However, the value added by ML-based TCP methods should be critically assessed with respect to the cost of collecting the information. This paper analyses two decades of TCP research, and presents a taxonomy of 91 information attributes that have been used. The attributes are classified with respect to their information sources and the characteristics of their extraction process. Based on this taxonomy, TCP methods validated with industrial data and those applying ML are analysed in terms of information availability, attribute combination and definition of data features suitable for ML. Relying on a high number of information attributes, assuming easy access to SUT code and simplified testing environments are identified as factors that might hamper industrial applicability of ML-based TCP. The TePIA taxonomy provides a reference framework to unify terminology and evaluate alternatives considering the cost-benefit of the information attributes.
翻訳日:2022-01-19 17:07:27 公開日:2022-01-16
# GearNet: 弱修正ドメイン適応のためのステップワイドデュアルラーニング

GearNet: Stepwise Dual Learning for Weakly Supervised Domain Adaptation ( http://arxiv.org/abs/2201.06001v1 )

ライセンス: Link先を確認
Renchunzi Xie, Hongxin Wei, Lei Feng and Bo An(参考訳) 本稿では、ノイズラベル付きソースドメインのみにアクセス可能な、弱教師付きドメイン適応(WSDA)問題について検討し、未ラベルのターゲットドメインに有用な情報を転送する必要がある。 この問題に関する研究はいくつかあるが、そのほとんどはソースドメインからターゲットドメインへの一方向関係のみを利用する。 本稿では,2つのドメイン間の相互関係を利用するGearNetというユニバーサルパラダイムを提案する。 具体的には、2つのドメインを異なる入力として2つのモデルを交互に訓練し、同じドメイン内の2つのモデルの予測を選択的にマッチングするために非対称のKulback-Leibler損失を用いる。 この対話型学習スキーマは、暗黙のラベルノイズキャンセリングを可能にし、ソースとターゲットドメイン間の相関を利用する。 したがって、GearNetは、広範囲の既存のWSDLメソッドのパフォーマンスを向上する大きな可能性を秘めています。 総合的な実験結果から,GearNetを組み込むことで,既存手法の性能を大幅に向上できることが示された。

This paper studies weakly supervised domain adaptation(WSDA) problem, where we only have access to the source domain with noisy labels, from which we need to transfer useful information to the unlabeled target domain. Although there have been a few studies on this problem, most of them only exploit unidirectional relationships from the source domain to the target domain. In this paper, we propose a universal paradigm called GearNet to exploit bilateral relationships between the two domains. Specifically, we take the two domains as different inputs to train two models alternately, and asymmetrical Kullback-Leibler loss is used for selectively matching the predictions of the two models in the same domain. This interactive learning schema enables implicit label noise canceling and exploits correlations between the source and target domains. Therefore, our GearNet has the great potential to boost the performance of a wide range of existing WSDL methods. Comprehensive experimental results show that the performance of existing methods can be significantly improved by equipping with our GearNet.
翻訳日:2022-01-19 16:45:46 公開日:2022-01-16
# ビデオトランスフォーマー:調査

Video Transformers: A Survey ( http://arxiv.org/abs/2201.05991v1 )

ライセンス: Link先を確認
Javier Selva, Anders S. Johansen, Sergio Escalera, Kamal Nasrollahi, Thomas B. Moeslund and Albert Clap\'es(参考訳) トランスフォーマーモデルは長距離相互作用のモデル化に成功している。 それでも、入力長と帰納バイアスの欠如で2次的にスケールする。 これらの制限は、ビデオの高次元性を扱う際にさらに悪化させることができる。 数秒から数時間に及ぶビデオの適切なモデリングには、長距離インタラクションを扱う必要がある。 これにより、トランスフォーマーはビデオ関連のタスクを解決する有望なツールになるが、いくつかの適応が必要となる。 視覚タスクのためのトランスフォーマーの進歩を研究する先行研究は存在するが、ビデオ特有のデザインの詳細な分析に焦点を絞ったものはない。 本研究では,トランスフォーマーをビデオデータに適応させるための主な貢献と動向を分析し,まとめる。 具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンを使って次元を減らし、パッチやフレームをトークンとして優位に立たせています。 さらに,Transformer層がより長いシーケンスを処理するために,単一注意操作におけるトークン数を減らすことで,どのように調整されているかを検討する。 また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。 最後に、他のモダリティがビデオとどのように統合されているかを検討し、ビデオトランスフォーマーの最も一般的なベンチマーク(アクション分類)で性能比較を行い、等価なFLOPと有意なパラメータ増加を伴わない3D CNNよりも優れていることを示す。

Transformer models have shown great success modeling long-range interactions. Nevertheless, they scale quadratically with input length and lack inductive biases. These limitations can be further exacerbated when dealing with the high dimensionality of video. Proper modeling of video, which can span from seconds to hours, requires handling long-range interactions. This makes Transformers a promising tool for solving video related tasks, but some adaptations are required. While there are previous works that study the advances of Transformers for vision tasks, there is none that focus on in-depth analysis of video-specific designs. In this survey we analyse and summarize the main contributions and trends for adapting Transformers to model video data. Specifically, we delve into how videos are embedded and tokenized, finding a very widspread use of large CNN backbones to reduce dimensionality and a predominance of patches and frames as tokens. Furthermore, we study how the Transformer layer has been tweaked to handle longer sequences, generally by reducing the number of tokens in single attention operation. Also, we analyse the self-supervised losses used to train Video Transformers, which to date are mostly constrained to contrastive approaches. Finally, we explore how other modalities are integrated with video and conduct a performance comparison on the most common benchmark for Video Transformers (i.e., action classification), finding them to outperform 3D CNN counterparts with equivalent FLOPs and no significant parameter increase.
翻訳日:2022-01-19 15:52:44 公開日:2022-01-16
# マルチレゾリューションハッシュ符号化を用いたインスタントニューラルネットワークプリミティブ

Instant Neural Graphics Primitives with a Multiresolution Hash Encoding ( http://arxiv.org/abs/2201.05989v1 )

ライセンス: Link先を確認
Thomas M\"uller, Alex Evans, Christoph Schied, Alexander Keller(参考訳) 完全に接続されたニューラルネットワークによってパラメータ化されるニューラルネットワークプリミティブは、トレーニングと評価にコストがかかる。 我々は、このコストを、品質を犠牲にすることなく小さなネットワークを使用できる汎用的な新しい入力エンコーディングで削減し、それによって浮動小数点数とメモリアクセス操作を著しく削減する: 小さなニューラルネットワークは、確率勾配勾配により値が最適化される訓練可能な特徴ベクトルの多重分解能ハッシュテーブルによって拡張される。 マルチレゾリューション構造により、ネットワークはハッシュ衝突を曖昧にすることができ、現代的なGPU上での並列化が容易な単純なアーキテクチャを実現する。 完全に融合したCUDAカーネルを用いてシステム全体を実装することで,この並列性を活用する。 我々は、数桁のスピードアップを実現し、高品質のニューラルグラフィックスプリミティブを数秒でトレーニングし、数ミリ秒で解像度${1920\! タイムズ! 1080}$.

Neural graphics primitives, parameterized by fully connected neural networks, can be costly to train and evaluate. We reduce this cost with a versatile new input encoding that permits the use of a smaller network without sacrificing quality, thus significantly reducing the number of floating point and memory access operations: a small neural network is augmented by a multiresolution hash table of trainable feature vectors whose values are optimized through stochastic gradient descent. The multiresolution structure allows the network to disambiguate hash collisions, making for a simple architecture that is trivial to parallelize on modern GPUs. We leverage this parallelism by implementing the whole system using fully-fused CUDA kernels with a focus on minimizing wasted bandwidth and compute operations. We achieve a combined speedup of several orders of magnitude, enabling training of high-quality neural graphics primitives in a matter of seconds, and rendering in tens of milliseconds at a resolution of ${1920\!\times\!1080}$.
翻訳日:2022-01-19 15:09:19 公開日:2022-01-16
# 胸部x線診断の課題 : 問題データか非効率アプローチか?

Challenges in COVID-19 Chest X-Ray Classification: Problematic Data or Ineffective Approaches? ( http://arxiv.org/abs/2201.06052v1 )

ライセンス: Link先を確認
Muhammad Ridzuan, Ameera Ali Bawazir, Ivo Gollini Navarette, Ibrahim Almakky and Mohammad Yaqub(参考訳) 迅速で正確で自信のある診断の価値は、特に重篤な症例に対する新型コロナウイルス感染の影響を軽減するために損なわれない。 胸部X線写真から新型コロナウイルスの感染を分類・検出する深層学習手法の開発に多くの努力が払われている。 しかし,近年,その臨床的有効性や有効性に関する疑問が提起されている。 本研究では,大規模covid-19胸部x線データセットに関する広範な実験を行い,データと機械学習の両方の観点から信頼性の高いaiソリューションを作成する際の課題について検討する。 そこで我々は,胸部x線新型コロナウイルスの分類に関連する深層学習アーキテクチャが直面する課題について,詳細な議論を行う。 最後に, 臨床現場で使用するモデルとデータの性能を向上させるための, 考えられる方向と考慮事項について述べる。

The value of quick, accurate, and confident diagnoses cannot be undermined to mitigate the effects of COVID-19 infection, particularly for severe cases. Enormous effort has been put towards developing deep learning methods to classify and detect COVID-19 infections from chest radiography images. However, recently some questions have been raised surrounding the clinical viability and effectiveness of such methods. In this work, we carry out extensive experiments on a large COVID-19 chest X-ray dataset to investigate the challenges faced with creating reliable AI solutions from both the data and machine learning perspectives. Accordingly, we offer an in-depth discussion into the challenges faced by some widely-used deep learning architectures associated with chest X-Ray COVID-19 classification. Finally, we include some possible directions and considerations to improve the performance of the models and the data for use in clinical settings.
翻訳日:2022-01-19 15:09:02 公開日:2022-01-16
# SNCSE:ソフトネガティブサンプルを用いた教師なし文のコントラスト学習

SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with Soft Negative Samples ( http://arxiv.org/abs/2201.05979v1 )

ライセンス: Link先を確認
Hao Wang, Yangguang Li, Zhen Huang, Yong Dou, Lingpeng Kong, Jing Shao(参考訳) 教師なし文の埋め込みは、文の意味を反映する最も適切な埋め込みを得ることを目的としている。 対照的な学習は注目を浴びている。 文に対して、現在のモデルは様々なデータ拡張法を用いて正のサンプルを生成する一方、他の独立した文を負のサンプルとみなす。 その後、正のペアの埋め込みを引っ張り、負のペアの埋め込みを分散させるためにインフォデンスロスを採用する。 これらのモデルは文の埋め込みに大きな進歩をもたらしたが、機能抑制に悩まされる可能性がある。 モデルはテキストの類似性とセマンティックな類似性を区別し分離することができない。 そして、実際の意味の違いにかかわらず、類似したテキストを持つ任意のペアの意味的類似性を過大評価することができる。 これは、教師なしのコントラスト学習における正のペアは、データ拡張によって同じテキストでも類似しているためである。 特徴抑圧を緩和するために,ソフト・ネガティブ・サンプル(SNCSE)を組み込んだ教師なし文のコントラスト学習を提案する。 ソフトな負のサンプルは、非常に類似したテキストを共有しているが、明らかに元のサンプルと異なる意味を持っている。 具体的には、原文の否定をソフトな負のサンプルとみなし、正と負のサンプルのみを含む従来のコントラスト学習フレームワークにそれらを導入するために、双方向マージン損失(BML)を提案する。 実験の結果,sncseは,平均スピアマン相関係数78.97%,ロバータベース79.23%で意味的テキスト類似性(sts)タスクの最先端性能を得ることができた。 さらに,SNCSEの弱点を検出するために,ランクに基づく誤り解析手法を採用した。

Unsupervised sentence embedding aims to obtain the most appropriate embedding for a sentence to reflect its semantic. Contrastive learning has been attracting developing attention. For a sentence, current models utilize diverse data augmentation methods to generate positive samples, while consider other independent sentences as negative samples. Then they adopt InfoNCE loss to pull the embeddings of positive pairs gathered, and push those of negative pairs scattered. Although these models have made great progress on sentence embedding, we argue that they may suffer from feature suppression. The models fail to distinguish and decouple textual similarity and semantic similarity. And they may overestimate the semantic similarity of any pairs with similar textual regardless of the actual semantic difference between them. This is because positive pairs in unsupervised contrastive learning come with similar and even the same textual through data augmentation. To alleviate feature suppression, we propose contrastive learning for unsupervised sentence embedding with soft negative samples (SNCSE). Soft negative samples share highly similar textual but have surely and apparently different semantic with the original samples. Specifically, we take the negation of original sentences as soft negative samples, and propose Bidirectional Margin Loss (BML) to introduce them into traditional contrastive learning framework, which merely involves positive and negative samples. Our experimental results show that SNCSE can obtain state-of-the-art performance on semantic textual similarity (STS) task with average Spearman's correlation coefficient of 78.97% on BERTbase and 79.23% on RoBERTabase. Besides, we adopt rank-based error analysis method to detect the weakness of SNCSE for future study.
翻訳日:2022-01-19 15:03:30 公開日:2022-01-16
# 正確な質問回答のための二重検索とランク付け

Double Retrieval and Ranking for Accurate Question Answering ( http://arxiv.org/abs/2201.05981v1 )

ライセンス: Link先を確認
Zeyu Zhang, Thuy Vu, Alessandro Moschitti(参考訳) 近年の研究では、トランスフォーマティブな回答選択モデルに導入された回答検証ステップによって、質問応答におけるアートの状態を著しく改善できることが示されている。 このステップは、トップ$k$の回答候補の埋め込みを集約して、ターゲットの回答の検証をサポートする。 アプローチは直感的で、音にはまだ2つの制限がある。 (i)支持候補は、質問の関連度に応じてのみランク付けされ、回答がない。 2)他の回答候補が提供したサポートは、対象回答とは独立して検索されるため、最適以下である。 本稿では,提案手法による両欠点に対処する。 (i)各回答に対して最良のサポートを選択する二重再ランキングモデル (ii)質問と回答のペアをクエリとして符号化するために設計された第2のニューラルネットワーク検索ステージ。 AS2のためのよく知られた3つのデータセットの結果は、最先端の一貫性と大幅な改善を示している。

Recent work has shown that an answer verification step introduced in Transformer-based answer selection models can significantly improve the state of the art in Question Answering. This step is performed by aggregating the embeddings of top $k$ answer candidates to support the verification of a target answer. Although the approach is intuitive and sound still shows two limitations: (i) the supporting candidates are ranked only according to the relevancy with the question and not with the answer, and (ii) the support provided by the other answer candidates is suboptimal as these are retrieved independently of the target answer. In this paper, we address both drawbacks by proposing (i) a double reranking model, which, for each target answer, selects the best support; and (ii) a second neural retrieval stage designed to encode question and answer pair as the query, which finds more specific verification information. The results on three well-known datasets for AS2 show consistent and significant improvement of the state of the art.
翻訳日:2022-01-19 15:03:00 公開日:2022-01-16
# web スケールでのin situ answer 文選択

In Situ Answer Sentence Selection at Web-scale ( http://arxiv.org/abs/2201.05984v1 )

ライセンス: Link先を確認
Zeyu Zhang, Thuy Vu, Alessandro Moschitti(参考訳) オープンドメイン質問応答(ODQA)に適用された現在回答文選択(AS2)は、検索されたテキストから抽出された文の大量の候補をランク付けして回答を選択する。 本稿では,Webスケール設定に最適化されたAS2の新しい設計であるPassage-based Extracting Answer Sentence In-place (PEASI)を提案する。 具体的には、共同でトランスフォーマーベースのフレームワークを設計する。 (i)質問のために検索されたパスを再引用し、 (ii)最上段から可能な回答を識別する。 PEASIをマルチタスク学習フレームワークでトレーニングし,各コンポーネント間の特徴共有を促進する。 開発を容易にするため,6万以上の質問に対して800,000以上のラベル付きパス/文からなるWebソースによる大規模QAデータセットを構築した。 実験により,提案手法は,as2,すなわち,単語を独立にランク付けするためのポイントワイズモデルに対して,48.86%から55.37%の精度で6.51%の精度で効果的に実現可能であることが示された。 加えて、PEASIは解答文の計算において非常に効率的であり、標準設定、すなわち全ての候補を再ランク付けするよりも20%程度の推論しか必要としない。 我々は、データセットと提案した設計の両方であるPEASIのリリースが、Webスケールで質問応答サービスをデプロイする研究と開発に貢献できると考えている。

Current answer sentence selection (AS2) applied in open-domain question answering (ODQA) selects answers by ranking a large set of possible candidates, i.e., sentences, extracted from the retrieved text. In this paper, we present Passage-based Extracting Answer Sentence In-place (PEASI), a novel design for AS2 optimized for Web-scale setting, that, instead, computes such answer without processing each candidate individually. Specifically, we design a Transformer-based framework that jointly (i) reranks passages retrieved for a question and (ii) identifies a probable answer from the top passages in place. We train PEASI in a multi-task learning framework that encourages feature sharing between the components: passage reranker and passage-based answer sentence extractor. To facilitate our development, we construct a new Web-sourced large-scale QA dataset consisting of 800,000+ labeled passages/sentences for 60,000+ questions. The experiments show that our proposed design effectively outperforms the current state-of-the-art setting for AS2, i.e., a point-wise model for ranking sentences independently, by 6.51% in accuracy, from 48.86% to 55.37%. In addition, PEASI is exceptionally efficient in computing answer sentences, requiring only ~20% inferences compared to the standard setting, i.e., reranking all possible candidates. We believe the release of PEASI, both the dataset and our proposed design, can contribute to advancing the research and development in deploying question answering services at Web scale.
翻訳日:2022-01-19 15:02:46 公開日:2022-01-16
# メモリ支援プロンプト編集によるデプロイ後のGPT-3の改善

Memory-assisted prompt editing to improve GPT-3 after deployment ( http://arxiv.org/abs/2201.06009v1 )

ライセンス: Link先を確認
Aman Madaan, Niket Tandon, Peter Clark, Yiming Yang(参考訳) GPT-3のような大型のLMは、強いがミスには免疫がなく、再訓練には著しくコストがかかる。 障害モードの1つは、ユーザの指示を誤解することである(例えば、gpt-3 は "what word is similar to good?" を同義語として解釈するが、ユーザは同義語を意図している)。 私たちの目標は、ユーザがそのようなエラーをリトレーニングすることなく、インタラクションを通じて直接修正できるようにすることです。 提案手法は,モデルがユーザの意図を誤解し,フィードバックを提供し,指示を明確にするケースの記憶とgpt-3を組み合わせる。 新しいクエリが与えられた場合、メモリ強化GPT-3は、同じような以前のクエリからのフィードバックを使ってプロンプトを強化します。 単純な概念実証実験を通じて、(シミュレーションされた)ユーザがデプロイされたgpt-3を対話的に教える方法を示し、ユーザが異なる新しい(しばしば誤解される)方法でクエリする基本的な語彙的タスク(例えば同義語を生成する)の精度を2倍にする。 このようなシナリオでは、メモリは同様の過去のミスを繰り返すのを避けるのに役立つ。 私たちのシンプルなアイデアは、デプロイされたモデルを強化するための第一歩です。 すべてのコードとデータはhttps://github.com/m adaan/mempromptで入手できる。

Large LMs such as GPT-3, while powerful, are not immune to mistakes, but are prohibitively costly to retrain. One failure mode is misinterpreting a user's instruction (e.g., GPT-3 interpreting "What word is similar to good?" to mean a homonym, while the user intended a synonym). Our goal is to allow users to correct such errors directly through interaction -- without retraining. Our approach pairs GPT-3 with a growing memory of cases where the model misunderstood the user's intent and was provided with feedback, clarifying the instruction. Given a new query, our memory-enhanced GPT-3 uses feedback from similar, prior queries to enrich the prompt. Through simple proof-of-concept experiments, we show how a (simulated) user can interactively teach a deployed GPT-3, doubling its accuracy on basic lexical tasks (e.g., generate a synonym) where users query in different, novel (often misunderstood) ways. In such scenarios, memory helps avoid repeating similar past mistakes. Our simple idea is a first step towards strengthening deployed models, potentially broadening their utility. All the code and data is available at https://github.com/m adaan/memprompt.
翻訳日:2022-01-19 15:02:20 公開日:2022-01-16
# 確率的自己注意による逐次勧告

Sequential Recommendation via Stochastic Self-Attention ( http://arxiv.org/abs/2201.06035v1 )

ライセンス: Link先を確認
Ziwei Fan, Zhiwei Liu, Yu Wang, Alice Wang, Zahra Nazari, Lei Zheng, Hao Peng, Philip S. Yu(参考訳) 逐次レコメンデーションは、次の項目を予測するために、ユーザの以前の動作のダイナミクスをモデル化し、多くの注目を集めている。 アイテムをベクトルとして埋め込んでドット積の自己アテンションを用いてアイテム間の関係を計測するトランスフォーマーベースのアプローチは、既存のシーケンシャルメソッド間に優れた機能を示す。 しかし、ユーザの実世界のシーケンシャルな振る舞いは決定論的ではなく、 \textit{\textbf{uncertain}} である。 さらに,dot-product-basedアプローチでは,シーケンス内の項目-item遷移から導出され,コールドスタート項目に有益である \textit{\textbf{collaborative transitivity}} を完全にキャプチャできないことを示唆する。 さらに,BPRの損失は正および正の負の項目に制約がなく,最適化を誤解させる。 本稿では,これらの問題を克服するために,新しい \textbf{STO}chastic \textbf{S}elf-\textbf{A}ttention~(STOSA)を提案する。 特に、ストサは各項目を確率的ガウス分布として埋め込み、その共分散は不確かさを符号化する。 我々は,不確かさをモデルトレーニングに効果的に組み込むような系列における項目-項目間関係を特徴付ける,新しいワッサースタイン自己アテンションモジュールを考案する。 ワッサースタインはまた、三角不等式を満たす共同推移性学習を啓蒙している。 さらに,正の項目と負の項目の相似性を保証し,ランキング損失に対して新たな正規化用語を導入する。 5つの実世界のベンチマークデータセットに対する大規模な実験は、提案モデルが最先端のベースライン、特にコールドスタートアイテムよりも優れていることを示す。 コードは \url{https://github.com/z fan20/stosa} で利用可能である。

Sequential recommendation models the dynamics of a user's previous behaviors in order to forecast the next item, and has drawn a lot of attention. Transformer-based approaches, which embed items as vectors and use dot-product self-attention to measure the relationship between items, demonstrate superior capabilities among existing sequential methods. However, users' real-world sequential behaviors are \textit{\textbf{uncertain}} rather than deterministic, posing a significant challenge to present techniques. We further suggest that dot-product-based approaches cannot fully capture \textit{\textbf{collaborative transitivity}}, which can be derived in item-item transitions inside sequences and is beneficial for cold start items. We further argue that BPR loss has no constraint on positive and sampled negative items, which misleads the optimization. We propose a novel \textbf{STO}chastic \textbf{S}elf-\textbf{A}ttention~(STOSA) to overcome these issues. STOSA, in particular, embeds each item as a stochastic Gaussian distribution, the covariance of which encodes the uncertainty. We devise a novel Wasserstein Self-Attention module to characterize item-item position-wise relationships in sequences, which effectively incorporates uncertainty into model training. Wasserstein attentions also enlighten the collaborative transitivity learning as it satisfies triangle inequality. Moreover, we introduce a novel regularization term to the ranking loss, which assures the dissimilarity between positive and the negative items. Extensive experiments on five real-world benchmark datasets demonstrate the superiority of the proposed model over state-of-the-art baselines, especially on cold start items. The code is available in \url{https://github.com/z fan20/STOSA}.
翻訳日:2022-01-19 14:49:06 公開日:2022-01-16
# deepcreativity:深層学習技術による創造性の測定

DeepCreativity: Measuring Creativity with Deep Learning Techniques ( http://arxiv.org/abs/2201.06118v1 )

ライセンス: Link先を確認
Giorgio Franceschelli, Mirco Musolesi(参考訳) 機械の創造性を測定することは、人工知能の最も魅力的な課題の1つだ。 本稿では,創造性の自動評価に生成学習技術を用いることの可能性を検討する。 提案手法は人間の判断を伴わず,モジュール構造であり,汎用性を有する。 我々は、価値、ノベルティ、サプライズによって構成される創造性の定義に基づいて、DeepCreativityという新しい尺度を導入する。 本手法(および関連する尺度)は,19世紀のアメリカの詩の世代を事例として評価し,その効果と表現性を示した。

Measuring machine creativity is one of the most fascinating challenges in Artificial Intelligence. This paper explores the possibility of using generative learning techniques for automatic assessment of creativity. The proposed solution does not involve human judgement, it is modular and of general applicability. We introduce a new measure, namely DeepCreativity, based on Margaret Boden's definition of creativity as composed by value, novelty and surprise. We evaluate our methodology (and related measure) considering a case study, i.e., the generation of 19th century American poetry, showing its effectiveness and expressiveness.
翻訳日:2022-01-19 14:48:34 公開日:2022-01-16
# 深部生成モデルを用いた不完全山火事データの再構成

Reconstruction of Incomplete Wildfire Data using Deep Generative Models ( http://arxiv.org/abs/2201.06153v1 )

ライセンス: Link先を確認
Tomislav Ivek and Domagoj Vlah(参考訳) 本稿では,不足データの時空間における山火事頻度と大きさの分布を正確に予測するExtreme Value Analysis 2021 Data Challengeに提案する。 本コンペティションのために,条件付き欠落データImportance-Weighted Autoencoder (CMIWAE) と呼ばれる,強力な変分オートエンコーダモデルを開発した。 我々の深層潜伏変数生成モデルは機能エンジニアリングをほとんど必要とせず、必ずしもデータチャレンジのスコアの特異性に依存していません。 不完全なデータに基づいて完全に訓練され、観測されたワイルドファイア情報のログライク度を最大化することを目的としている。 変動的潜在変数分布から確率的サンプリングを行うことで、比較的少ないトレーニングサンプルの効果を軽減し、与えられたデータの異なる分割に基づいて訓練および検証された一連のcmiwaeモデルをセンセンシングする。 提示されたアプローチはドメイン固有ではなく、補助情報に基づく表や画像のような情報を持つ他の欠落データリカバリタスクのアプリケーションに適している。

We present our submission to the Extreme Value Analysis 2021 Data Challenge in which teams were asked to accurately predict distributions of wildfire frequency and size within spatio-temporal regions of missing data. For the purpose of this competition we developed a variant of the powerful variational autoencoder models dubbed the Conditional Missing data Importance-Weighted Autoencoder (CMIWAE). Our deep latent variable generative model requires little to no feature engineering and does not necessarily rely on the specifics of scoring in the Data Challenge. It is fully trained on incomplete data, with the single objective to maximize log-likelihood of the observed wildfire information. We mitigate the effects of the relatively low number of training samples by stochastic sampling from a variational latent variable distribution, as well as by ensembling a set of CMIWAE models trained and validated on different splits of the provided data. The presented approach is not domain-specific and is amenable to application in other missing data recovery tasks with tabular or image-like information conditioned on auxiliary information.
翻訳日:2022-01-19 14:43:35 公開日:2022-01-16
# GradTail: 勾配ベースのサンプル重み付けによる長期学習

GradTail: Learning Long-Tailed Data Using Gradient-based Sample Weighting ( http://arxiv.org/abs/2201.05938v1 )

ライセンス: Link先を確認
Zhao Chen, Vincent Casser, Henrik Kretzschmar, Dragomir Anguelov(参考訳) 長文トレーニングデータ分布に直面するモデル性能を改善するために勾配を用いたアルゴリズムであるgradtailを提案する。 収束した、おそらく過適合なモデルで動作する従来のロングテール分類器とは異なり、勾配ドット製品契約に基づくアプローチは、モデルトレーニング中に早期にロングテールデータを分離し、そのデータに対して高いサンプル重量を動的に取り込むことで、性能を向上させることができることを示す。 このような重み付けは分類モデルと回帰モデルの両方にモデル改善をもたらし、後者はロングテールの文献では比較的未検討であり、勾配アライメントによって発見されたロングテールの例は、私たちの意味的期待と一致していることを示している。

We propose GradTail, an algorithm that uses gradients to improve model performance on the fly in the face of long-tailed training data distributions. Unlike conventional long-tail classifiers which operate on converged - and possibly overfit - models, we demonstrate that an approach based on gradient dot product agreement can isolate long-tailed data early on during model training and improve performance by dynamically picking higher sample weights for that data. We show that such upweighting leads to model improvements for both classification and regression models, the latter of which are relatively unexplored in the long-tail literature, and that the long-tail examples found by gradient alignment are consistent with our semantic expectations.
翻訳日:2022-01-19 14:24:59 公開日:2022-01-16
# 非教師型・弱監視型・地域監視型変更検出のためのジェネレーティブ・ディバイザ・ネットワークを用いた完全畳み込み変化検出フレームワーク

Fully Convolutional Change Detection Framework with Generative Adversarial Network for Unsupervised, Weakly Supervised and Regional Supervised Change Detection ( http://arxiv.org/abs/2201.06030v1 )

ライセンス: Link先を確認
Chen Wu, Bo Du, and Liangpei Zhang(参考訳) 変化検出のためのディープラーニングは、リモートセンシングの分野で現在のホットトピックの1つだ。 しかし、ほとんどのエンドツーエンドネットワークは教師付き変更検出のために提案されており、教師なし変更検出モデルは従来の事前検出方法に依存する。 そこで本稿では,教師なし,弱教師付き,地域教師付き,完全教師付き変更検出タスクをひとつのフレームワークにまとめるために,生成的敵ネットワークを用いた完全な畳み込み変化検出フレームワークを提案する。 変化検出マップを得るために基本Unetセグメンタを用い、マルチテンポラリ画像間のスペクトルと空間の変動をモデル化するイメージ・ツー・イメージ・ジェネレータを実装し、弱く局所的に監督された変化検出タスクにおける意味変化をモデル化するための変化・変化の識別器を提案する。 セグメンタとジェネレータの反復最適化により、教師なしの変更検出のためのエンドツーエンドネットワークを構築することができ、セグメンタとディミネータ間の敵対的プロセスにより、弱く地域的に監督された変更検出のためのソリューションを提供できる。 実験は,非教師なし,弱教師なし,局所教師なし変化検出における提案フレームワークの有効性を示す。 本稿では,非教師なし,弱教師なし,局所教師なし変化検出タスクの理論的な定義と,リモートセンシング変化検出のためのエンドツーエンドネットワーク探索における大きな可能性を示す。

Deep learning for change detection is one of the current hot topics in the field of remote sensing. However, most end-to-end networks are proposed for supervised change detection, and unsupervised change detection models depend on traditional pre-detection methods. Therefore, we proposed a fully convolutional change detection framework with generative adversarial network, to conclude unsupervised, weakly supervised, regional supervised, and fully supervised change detection tasks into one framework. A basic Unet segmentor is used to obtain change detection map, an image-to-image generator is implemented to model the spectral and spatial variation between multi-temporal images, and a discriminator for changed and unchanged is proposed for modeling the semantic changes in weakly and regional supervised change detection task. The iterative optimization of segmentor and generator can build an end-to-end network for unsupervised change detection, the adversarial process between segmentor and discriminator can provide the solutions for weakly and regional supervised change detection, the segmentor itself can be trained for fully supervised task. The experiments indicate the effectiveness of the propsed framework in unsupervised, weakly supervised and regional supervised change detection. This paper provides theorical definitions for unsupervised, weakly supervised and regional supervised change detection tasks, and shows great potentials in exploring end-to-end network for remote sensing change detection.
翻訳日:2022-01-19 14:20:03 公開日:2022-01-16
# ユニバーサルオンライン学習:楽観的に普遍的な学習ルール

Universal Online Learning: an Optimistically Universal Learning Rule ( http://arxiv.org/abs/2201.05947v1 )

ライセンス: Link先を確認
Mo\"ise Blanchard(参考訳) 本研究では,非i.d.プロセスを用いたユニバーサルオンライン学習の課題について検討する。 普遍的に一貫した学習の概念は、最小限の仮定の下で学習理論を研究するためにハンネケによって定義された。 我々は、学習が可能なプロセスと、そのような学習が可能な唯一の前提から、普遍的に一貫性のある学習ルールが存在するかどうかを特徴付けることに興味を持っている。 学習可能な過程は、ほぼ確実に有限個の点を訪問し、その結果、単純な記憶は楽観的に普遍的であるからである。 境界設定に注目し,強みと弱みを持つ普遍的学習を認めるプロセスの完全な特徴付けを行う。 さらに,k-nearest neighbor algorithm (knn) は楽観的普遍的ではなく,強い設定と弱い設定の両方において一般入力と値空間に対して楽観的に普遍的な1nnの新しい変種を示す。 これは、hanneke氏がuniversal online learningで提起したすべてのcolt 2021オープン問題を閉じるものだ。

We study the subject of universal online learning with non-i.i.d. processes for bounded losses. The notion of an universally consistent learning was defined by Hanneke in an effort to study learning theory under minimal assumptions, where the objective is to obtain low long-run average loss for any target function. We are interested in characterizing processes for which learning is possible and whether there exist learning rules guaranteed to be universally consistent given the only assumption that such learning is possible. The case of unbounded losses is very restrictive, since the learnable processes almost surely visit a finite number of points and as a result, simple memorization is optimistically universal. We focus on the bounded setting and give a complete characterization of the processes admitting strong and weak universal learning. We further show that k-nearest neighbor algorithm (kNN) is not optimistically universal and present a novel variant of 1NN which is optimistically universal for general input and value spaces in both strong and weak setting. This closes all COLT 2021 open problems posed by Hanneke on universal online learning.
翻訳日:2022-01-19 14:03:03 公開日:2022-01-16
# PETS-SWINF:2021年カグルコンペティション「PetFinder.my」におけるPawpularity予測のためのメタデータベースニューラルネットワークを用いた画像の回帰手法

PETS-SWINF: A regression method that considers images with metadata based Neural Network for pawpularity prediction on 2021 Kaggle Competition "PetFinder.my" ( http://arxiv.org/abs/2201.06061v1 )

ライセンス: Link先を確認
Yizheng Wang, Yinghua Liu(参考訳) 何百万もの野良動物が路上で苦しむか、世界中に毎日避難所で感染している。 野良動物をよりよく採用するためには、野良動物の尾状度(切断性)を評価することが非常に重要であるが、動物の尾状度を評価することは非常に労働集約的である。 その結果,動物の耳障り性を評価するアルゴリズムの開発が急激な関心を集めている。 しかし、Kaggleのデータセットには画像だけでなく、画像を記述するメタデータもある。 たいていの手法は、近年では最も高度な画像回帰法にフォーカスしているが、画像のメタデータを扱う良い方法はない。 上記の課題に対処するため,画像のメタデータを考慮したPETS-SWINFという画像回帰モデルを提案する。 PetFinder.my" というKaggleのコンペティションのデータセットから得られた結果から,PETS-SWINF が画像モデルのみに対して優位であることが分かる。 実験結果から,提案モデルにおけるRMSEの損失は17.71876,17.76449であった。 提案手法の利点は,PETS-SWINFがメタデータの低次特徴と高次特徴の両方を考慮し,画像モデルとメタデータモデルの重みを適応的に調整できることである。 トップボードスコアは3545チーム中15位(金メダル)で、現在"PetFinder.my"というチャレンジで2021年のKaggleコンペティションに出場している。

Millions of stray animals suffer on the streets or are euthanized in shelters every day around the world. In order to better adopt stray animals, scoring the pawpularity (cuteness) of stray animals is very important, but evaluating the pawpularity of animals is a very labor-intensive thing. Consequently, there has been an urgent surge of interest to develop an algorithm that scores pawpularity of animals. However, the dataset in Kaggle not only has images, but also metadata describing images. Most methods basically focus on the most advanced image regression methods in recent years, but there is no good method to deal with the metadata of images. To address the above challenges, the paper proposes an image regression model called PETS-SWINF that considers metadata of the images. Our results based on a dataset of Kaggle competition, "PetFinder.my", show that PETS-SWINF has an advantage over only based images models. Our results shows that the RMSE loss of the proposed model on the test dataset is 17.71876 but 17.76449 without metadata. The advantage of the proposed method is that PETS-SWINF can consider both low-order and high-order features of metadata, and adaptively adjust the weights of the image model and the metadata model. The performance is promising as our leadboard score is ranked 15 out of 3545 teams (Gold medal) currently for 2021 Kaggle competition on the challenge "PetFinder.my".
翻訳日:2022-01-19 13:30:57 公開日:2022-01-16
# ALA:自然度認識規則化による逆光度攻撃

ALA: Adversarial Lightness Attack via Naturalness-aware Regularizations ( http://arxiv.org/abs/2201.06070v1 )

ライセンス: Link先を確認
Liangru Sun, Felix Juefei-Xu, Yihao Huang, Qing Guo, Jiayi Zhu, Jincao Feng, Yang Liu, Geguang Pu(参考訳) ほとんどの研究者は、DNNの脆弱性を特殊な逆の例で明らかにし、修復することで、ディープニューラルネットワーク(DNN)の堅牢性を高めようとした。 攻撃例の一部にはLpノルムに制限された知覚できない摂動がある。 しかし、その高周波特性のため、逆の例は通常転送性が悪く、消音法によって防御できる。 欠陥を避けるために、いくつかの作品によっては摂動を制限せず、より堅牢で転送性が向上している。 しかし、これらの例は通常不自然に見え、警備員に警告する。 本稿では,高画質かつ高い転送性を有する非制限対向例を生成するために,画像の明度変更に焦点をあてたホワイトボックス非制限対向攻撃であるAdversarial Lightness Attack (ALA)を提案する。 人間の知覚に不可欠なサンプルの形状と色は、ほとんど影響を受けない。 画像品質の高い逆例を得るため,自然性認識正規化を行う。 移動性を高めるために,攻撃手順におけるランダム初期化とノンストップ攻撃戦略を提案する。 画像分類のためのImageNetとシーン認識のためのPlaces-365の2つの一般的なデータセットに対するALAの有効性を検証する。 実験の結果, 生成した逆方向の例は, 強い伝達性と高い画質を有することがわかった。 さらに、敵の例は、輝度の破損を保護するためにトレーニングされた標準のResNet50を改善するのにも役立ちます。

Most researchers have tried to enhance the robustness of deep neural networks (DNNs) by revealing and repairing the vulnerability of DNNs with specialized adversarial examples. Parts of the attack examples have imperceptible perturbations restricted by Lp norm. However, due to their high-frequency property, the adversarial examples usually have poor transferability and can be defensed by denoising methods. To avoid the defects, some works make the perturbations unrestricted to gain better robustness and transferability. However, these examples usually look unnatural and alert the guards. To generate unrestricted adversarial examples with high image quality and good transferability, in this paper, we propose Adversarial Lightness Attack (ALA), a white-box unrestricted adversarial attack that focuses on modifying the lightness of the images. The shape and color of the samples, which are crucial to human perception, are barely influenced. To obtain adversarial examples with high image quality, we craft a naturalness-aware regularization. To achieve stronger transferability, we propose random initialization and non-stop attack strategy in the attack procedure. We verify the effectiveness of ALA on two popular datasets for different tasks (i.e., ImageNet for image classification and Places-365 for scene recognition). The experiments show that the generated adversarial examples have both strong transferability and high image quality. Besides, the adversarial examples can also help to improve the standard trained ResNet50 on defending lightness corruption.
翻訳日:2022-01-19 13:30:29 公開日:2022-01-16
# Plug & Play の先行値と確率勾配勾配による最大余律推定について

On Maximum-a-Posteriori estimation with Plug & Play priors and stochastic gradient descent ( http://arxiv.org/abs/2201.06133v1 )

ライセンス: Link先を確認
R\'emi Laumont and Valentin de Bortoli and Andr\'es Almansa and Julie Delon and Alain Durmus and Marcelo Pereyra(参考訳) 画像逆問題を解くベイズ法は、通常、明示的なデータ度関数と、解の期待される性質を明示的にモデル化する事前分布を結合する。 局所的な性質を表現する単純なものから、非局所的なスケールで画像冗長性を利用するものまで、多くの先行研究が文献で研究されている。 明示的なモデリングから離れて、画像復調アルゴリズムによって定義された暗黙の先行値の使用について、いくつかの最近の研究が提案されている。 このアプローチは一般にPlug & Play(PnP)正規化と呼ばれ、特に畳み込みニューラルネットワークに基づく最先端のデノイザと組み合わせることで、極めて正確な結果が得られる。 しかし、pnpベイズモデルとアルゴリズムの理論的解析は困難であり、この話題に取り組むことはしばしば像デノイザーの性質に非現実的な仮定に依存する。 本稿では,PnP先行値を持つベイズモデルのMAP推定について検討する。 まず,PnP確率勾配勾配勾配(PnP-SGD)によるMAP計算の収束証明について,実測的な仮定で検討する。 我々は、pnp-sgdを実証する画像実験と、他のpnpスキームとの比較について報告する。

Bayesian methods to solve imaging inverse problems usually combine an explicit data likelihood function with a prior distribution that explicitly models expected properties of the solution. Many kinds of priors have been explored in the literature, from simple ones expressing local properties to more involved ones exploiting image redundancy at a non-local scale. In a departure from explicit modelling, several recent works have proposed and studied the use of implicit priors defined by an image denoising algorithm. This approach, commonly known as Plug & Play (PnP) regularisation, can deliver remarkably accurate results, particularly when combined with state-of-the-art denoisers based on convolutional neural networks. However, the theoretical analysis of PnP Bayesian models and algorithms is difficult and works on the topic often rely on unrealistic assumptions on the properties of the image denoiser. This papers studies maximum-a-posteriori (MAP) estimation for Bayesian models with PnP priors. We first consider questions related to existence, stability and well-posedness, and then present a convergence proof for MAP computation by PnP stochastic gradient descent (PnP-SGD) under realistic assumptions on the denoiser used. We report a range of imaging experiments demonstrating PnP-SGD as well as comparisons with other PnP schemes.
翻訳日:2022-01-19 13:14:04 公開日:2022-01-16
# COLD:中国の攻撃的言語検出のためのベンチマーク

COLD: A Benchmark for Chinese Offensive Language Detection ( http://arxiv.org/abs/2201.06025v1 )

ライセンス: Link先を確認
Jiawen Deng, Jingyan Zhou, Hao Sun, Fei Mi, Minlie Huang(参考訳) 健全な社会プラットフォームと安全な言語モデルの配置を維持するために、攻撃的な言語検出と予防が重要になる。 NLPにおける有毒で攻撃的な言語問題に関する多くの研究にもかかわらず、既存の研究は主に英語に焦点を当てている。 中国語攻撃言語の検出とモデル評価を容易にするために,37kの注釈文を含む中国語攻撃言語データセットであるcoldatasetを収集する。 この高品質なデータセットでは,攻撃的言語検出に81%の精度を持つ,強力なベースライン分類器colldetectorを提供する。 さらに,提案した「textsc{COLDetector}」を用いて,中国語モデル(CDialGPT,CPM)の出力攻撃性について検討する。 その結果,(1)cpmはcdialgptよりも攻撃的なアウトプットを生じやすい傾向にあり,(2)抗バイアス文のように攻撃的なアウトプットを誘発しやすいプロンプトが存在することがわかった。 disclaimer: この論文には、粗野、粗悪、または不快と見なすことができる例データが含まれている。

Offensive language detection and prevention becomes increasing critical for maintaining a healthy social platform and the safe deployment of language models. Despite plentiful researches on toxic and offensive language problem in NLP, existing studies mainly focus on English, while few researches involve Chinese due to the limitation of resources. To facilitate Chinese offensive language detection and model evaluation, we collect COLDataset, a Chinese offensive language dataset containing 37k annotated sentences. With this high-quality dataset, we provide a strong baseline classifier, COLDetector, with 81% accuracy for offensive language detection. Furthermore, we also utilize the proposed \textsc{COLDetector} to study output offensiveness of popular Chinese language models (CDialGPT and CPM). We find that (1) CPM tends to generate more offensive output than CDialGPT, and (2) certain type of prompts, like anti-bias sentences, can trigger offensive outputs more easily.Altogether, our resources and analyses are intended to help detoxify the Chinese online communities and evaluate the safety performance of generative language models. Disclaimer: The paper contains example data that may be considered profane, vulgar, or offensive.
翻訳日:2022-01-19 13:13:16 公開日:2022-01-16
# 文構成の探索による自然言語の推論

Natural Language Deduction through Search over Statement Compositions ( http://arxiv.org/abs/2201.06028v1 )

ライセンス: Link先を確認
Kaj Bostrom, Zayne Sprague, Swarat Chaudhuri and Greg Durrett(参考訳) 事実チェックから質問応答まで、私たちはしばしば、証拠の集合が仮説を必要とするかどうかを知りたがっています。 既存の手法では、主にこのタスクのエンドツーエンドの識別バージョンに焦点を当てているが、モデルが仮説を導出するために関連するステートメントの空間を探索する生成バージョンを扱う作業は少ない。 そこで本研究では,最初期の探索によってタスクを別々のステップに分解し,システムの推論過程を忠実に反映する中間的な結論のツリーを生成する自然言語推論システムを提案する。 本実験は,検証可能な仮説と検証不能仮説を区別し,エンドツーエンドのt5モデルが生成する仮説よりも内部一貫性のある自然言語説明を生成できることを実証する。

In settings from fact-checking to question answering, we frequently want to know whether a collection of evidence entails a hypothesis. Existing methods primarily focus on end-to-end discriminative versions of this task, but less work has treated the generative version in which a model searches over the space of entailed statements to derive the hypothesis. We propose a system for natural language deduction that decomposes the task into separate steps coordinated by best-first search, producing a tree of intermediate conclusions that faithfully reflects the system's reasoning process. Our experiments demonstrate that the proposed system can better distinguish verifiable hypotheses from unverifiable ones and produce natural language explanations that are more internally consistent than those produced by an end-to-end T5 model.
翻訳日:2022-01-19 13:12:55 公開日:2022-01-16