このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220103となっている論文です。

PDF登録状況(公開日: 20220103)

TitleAuthorsAbstract論文公表日・翻訳日
# 適応対称性の破れからの複雑さ:ディープニューラルネットワークの統計力学における大域最小化

Complexity from Adaptive-Symmetries Breaking: Global Minima in the Statistical Mechanics of Deep Neural Networks ( http://arxiv.org/abs/2201.07934v1 )

ライセンス: Link先を確認
Shawn W. M. Li(参考訳) 深層ニューラルネットワーク(DNN)を理解するために、物理における保守対称性への適応対称性というアンチセティカル概念を提案する。 生物系はフィードバック信号がない場合に同じ確率で進化の異なる経路を探索し、複雑な機能構造はフィードバック信号に応答して適応対称性の破れを定量的に蓄積することによって生じる。 理論的および実験的に、DNNシステムの最適化過程を拡張適応対称性破砕過程として特徴づける。 1つの顕著な発見は、階層的に大きなDNNは適応対称性の大きな貯水池を持ち、貯水池の情報容量がデータセットの複雑さを超えると、システムはサンプルの摂動をすべて吸収し、特定の代理リスクによって測定されたゼロトレーニングエラーの関数構造に自己組織化する。 より具体的には、この過程は統計力学モデルによって特徴づけられ、統計物理学をDNNの体系化された複雑系に一般化し、高次元における正則性を特徴づける。 モデルはボルツマン分布(英語版)、イジングモデル(英語版)、保守対称性(英語版)の3つの構成から成り、(1)多層確率的グラフィカルモデルであるDNNの確率的定義・解釈、(2)生物学的計算を行う回路の定式化、(3)顕微鏡とマクロ的適応性の間の自己相似性を示す回路対称性である。 このモデルは、DNNにおける不均一な階層的多体相互作用の粗粒度挙動(対称性群)を解析する統計組立法と呼ばれる手法を用いて解析される。

An antithetical concept, adaptive symmetry, to conservative symmetry in physics is proposed to understand the deep neural networks (DNNs). It characterizes the invariance of variance, where a biotic system explores different pathways of evolution with equal probability in absence of feedback signals, and complex functional structure emerges from quantitative accumulation of adaptive-symmetries breaking in response to feedback signals. Theoretically and experimentally, we characterize the optimization process of a DNN system as an extended adaptive-symmetry-br eaking process. One particular finding is that a hierarchically large DNN would have a large reservoir of adaptive symmetries, and when the information capacity of the reservoir exceeds the complexity of the dataset, the system could absorb all perturbations of the examples and self-organize into a functional structure of zero training errors measured by a certain surrogate risk. More specifically, this process is characterized by a statistical-mechanic al model that could be appreciated as a generalization of statistics physics to the DNN organized complex system, and characterizes regularities in higher dimensionality. The model consists of three constitutes that could be appreciated as the counterparts of Boltzmann distribution, Ising model, and conservative symmetry, respectively: (1) a stochastic definition/interpret ation of DNNs that is a multilayer probabilistic graphical model, (2) a formalism of circuits that perform biological computation, (3) a circuit symmetry from which self-similarity between the microscopic and the macroscopic adaptability manifests. The model is analyzed with a method referred as the statistical assembly method that analyzes the coarse-grained behaviors (over a symmetry group) of the heterogeneous hierarchical many-body interaction in DNNs.
翻訳日:2022-01-23 18:26:42 公開日:2022-01-03
# (参考訳) BiLSTMを用いた構造的ストーリー分類器のロバスト性検証 [全文訳有]

Testing the Robustness of a BiLSTM-based Structural Story Classifier ( http://arxiv.org/abs/2201.02733v1 )

ライセンス: CC BY 4.0
Aftab Hussain and Sai Durga Prasad Nanduri and Sneha Seenuvasavarathan(参考訳) インターネット上の偽ニュースの増加は、機械学習コミュニティにおけるフェイクニュースの迅速かつスケーラブルな検出に対する大きな関心を喚起している。 この目的のためにいくつかの機械学習技術が登場したが、ノイズがニュース記事が偽物(あるいは本物)と誤ってラベル付けされている場合、ノイズがこれらの技術のパフォーマンスに与える影響を評価する必要がある。 本研究では, 偽ニュース検出のためのBiLSTM(Bidirectional Long-Short Term Model), カリミと唐によるフェイクニュース検出のための階層的談話レベル構造に基づく, 最先端構造モデルに対するノイズの影響について検討する(参照番号9)。

The growing prevalence of counterfeit stories on the internet has fostered significant interest towards fast and scalable detection of fake news in the machine learning community. While several machine learning techniques for this purpose have emerged, we observe that there is a need to evaluate the impact of noise on these techniques' performance, where noise constitutes news articles being mistakenly labeled as fake (or real). This work takes a step in that direction, where we examine the impact of noise on a state-of-the-art, structural model based on BiLSTM (Bidirectional Long-Short Term Model) for fake news detection, Hierarchical Discourse-level Structure for Fake News Detection by Karimi and Tang (Reference no. 9).
翻訳日:2022-01-16 17:20:17 公開日:2022-01-03
# (参考訳) 体積データからのiso-surface抽出のための2つの方法とその比較 [全文訳有]

Two Methods for Iso-Surface Extraction from Volumetric Data and Their Comparison ( http://arxiv.org/abs/2201.03446v1 )

ライセンス: CC BY 4.0
Vaclav Skala, Alex Brusi(参考訳) 体積データからiso表面を抽出する方法は様々である。 マーチング立方体、テトラヘドラまたはレイトレーシング法が主に用いられる。 計算速度の向上やメモリ要件の削減には,具体的なテクニックが数多くある。 等表面抽出の精度は非常に重要であるが、通常は言及されない。 選択された方法の比較は,iso-surface抽出過程時間,生成する三角形の数,半径の推定,面積,体積誤差など,球面の近似に基づいて異なる側面で行った。 驚くべきことに, 抽出されたiso-surfaceの精度と人間の知覚には直接関係がないことが実証された。

There are various methods for extracting iso-surfaces from volumetric data. Marching cubes or tetrahedra or raytracing methods are mostly used. There are many specific techniques to increase speed of computation and decrease memory requirements. Although a precision of iso-surface extraction is very important, too, it is not mentioned usually. A comparison of the selected methods was made in different aspects: iso-surface extraction process time, number of triangles generated and estimation of radius, area and volume errors based on approximation of a sphere. Surprisingly, experiments proved that there is no direct relation between precision of extracted and human perception of the extracted iso-surface
翻訳日:2022-01-16 17:12:27 公開日:2022-01-03
# (参考訳) 機械学習による乱流パラメータの推定 [全文訳有]

Inferring Turbulent Parameters via Machine Learning ( http://arxiv.org/abs/2201.00732v1 )

ライセンス: CC BY 4.0
Michele Buzzicotti, Fabio Bonaccorso and Luca Biferale(参考訳) 我々は,工学から地球観測,天体物理学に至るまで,多くの理論および応用分野において,乱流の観測から物理パラメータを推定する一般的な問題を解決するための機械学習手法を設計する。 本研究では,3次元領域から抽出した2次元平面上での流れの速度振幅の観測から,フローの基準フレームの回転周波数を回帰させるように機械学習システムを訓練する。 機械学習アプローチは、コンピュータビジョンで開発されたのと同じ種類のディープ畳み込みニューラルネットワーク(DCNN)で構成されている。 トレーニングと検証データセットは、完全に解決された直接数値シミュレーションによって生成される。 本研究は2つの異なる視点から興味深い結果を示す。 機械学習の観点から見れば、それはDCNNの可能性を示し、人間のビジョンの限界を超えた、特に複雑な問題に関して良い結果を得る。 第二に、物理学の観点からは、データ分析において機械学習をどのように活用して、アクセス不能な情報を推測するかの例を提供する。 実際、DCNNと他のベイズ的アプローチを比較することで、すべての検査例において、DCNNの方がはるかに高い推論精度が得られることが分かる。

We design a machine learning technique to solve the general problem of inferring physical parameters from the observation of turbulent flows, a relevant exercise in many theoretical and applied fields, from engineering to earth observation and astrophysics. Our approach is to train the machine learning system to regress the rotation frequency of the flow's reference frame, from the observation of the flow's velocity amplitude on a 2d plane extracted from the 3d domain. The machine learning approach consists of a Deep Convolutional Neural Network (DCNN) of the same kind developed in computer vision. The training and validation datasets are produced by means of fully resolved direct numerical simulations. This study shows interesting results from two different points of view. From the machine learning point of view it shows the potential of DCNN, reaching good results on such a particularly complex problem that goes well outside the limits of human vision. Second, from the physics point of view, it provides an example on how machine learning can be exploited in data analysis to infer information that would be inaccessible otherwise. Indeed, by comparing DCNN with the other possible Bayesian approaches, we find that DCNN yields to a much higher inference accuracy in all the examined cases.
翻訳日:2022-01-16 17:05:04 公開日:2022-01-03
# (参考訳) 口腔液滴の分析とマスクの有効性の定量化のためのホームビルトメトロロジー [全文訳有]

A Novel Home-Built Metrology to Analyze Oral Fluid Droplets and Quantify the Efficacy of Masks ( http://arxiv.org/abs/2201.03993v1 )

ライセンス: CC BY 4.0
Ava Tan Bhowmik(参考訳) マスクを着用することは、特に新型コロナウイルスのパンデミックの中で、病原性のある液滴の拡散を防ぐために不可欠である。 しかし、全てのフェイスカバーが等しく効果的である訳ではなく、マスクの有効性を評価するほとんどの実験は非常に高価で操作が複雑である。 本研究では, 口内生成液滴を可視化する新しい, 自家製, 低コスト, 高精度な計測法を開発した。 プロジェクトにはセットアップの最適化、データ収集、データ分析、アプリケーションが含まれる。 最終的な素材はキニーネ含有トニック水、397-402nm波長の紫外線管ライト、iphoneと三脚、ストリング、スプレーボトルであった。 実験は暗い背景のある暗いクローゼットで行われた。 データ収集中、被験者はまず、摂取可能な蛍光液体(音波水)で口を湿らせて、紫外線の暗い光の下で話す、くしゃみをする。 発生したトニック水滴からの蛍光は、iphone 8+のカメラでslo-mo (240 fps) で記録され、分析することができる。 VLCはフレーム分離に使われ、Fiji/ImageJは画像処理と解析に使われている。 口腔液滴の発生と伝播の異なるフェノニクスに対する依存性, 音声のラウドネス, 呼気イベントの種類について詳細に検討し, メトロロジーを用いて確立した。 異なるタイプのマスクの有効性を評価し,布のミクロ組織と相関した。 すべてのマスクは、液滴をある程度ブロックした。 より小さな孔とより厚い物質を持つマスクは、最も小さな滴をブロックする。 この安価な技術は、総コストが50ドル未満の材料を使って、家庭で簡単に構築できる。 最小のコストにもかかわらず、この手法は非常に正確であり、データは定量化できる。

Wearing masks is crucial to preventing the spread of potentially pathogen-containing droplets, especially amidst the COVID-19 pandemic. However, not all face coverings are equally effective and most experiments evaluating mask efficacy are very expensive and complex to operate. In this work, a novel, home-built, low-cost, and accurate metrology to visualize orally-generated fluid droplets has been developed. The project includes setup optimization, data collection, data analysis, and applications. The final materials chosen were quinine-containing tonic water, 397-402 nm wavelength UV tube lights, an iPhone and tripod, string, and a spray bottle. The experiment took place in a dark closet with a dark background. During data collection, the test subject first wets their mouth with an ingestible fluorescent liquid (tonic water) and speaks, sneezes, or coughs under UV darklight. The fluorescence from the tonic water droplets generated can be visualized, recorded by an iPhone 8+ camera in slo-mo (240 fps), and analyzed. The software VLC is used for frame separation and Fiji/ImageJ is used for image processing and analysis. The dependencies of oral fluid droplet generation and propagation on different phonics, the loudness of speech, and the type of expiratory event were studied in detail and established using the metrology developed. The efficacy of different types of masks was evaluated and correlated with fabric microstructures. All masks blocked droplets to varying extent. Masks with smaller-sized pores and thicker material were found to block the most droplets. This low-cost technique can be easily constructed at home using materials that total to a cost of less than $50. Despite the minimal cost, the method is very accurate and the data is quantifiable.
翻訳日:2022-01-16 16:48:35 公開日:2022-01-03
# (参考訳) 自然言語処理における注視行動の活用に関する調査 [全文訳有]

A Survey on Using Gaze Behaviour for Natural Language Processing ( http://arxiv.org/abs/2112.15471v2 )

ライセンス: CC BY 4.0
Sandeep Mathias, Diptesh Kanojia, Abhijit Mishra, Pushpak Bhattacharyya(参考訳) 視線行動は、長年にわたって認知情報を集める手段として用いられてきた。 本稿では,自然言語処理(NLP)における異なるタスクをテスト時に記録することなく,目視行動を用いて解く方法について論じる。 これは、視線行動の収集が時間とお金の両面でコストのかかる作業であるからである。 そこで本稿では,実時間における視線動作記録の必要性を緩和する研究に焦点をあてる。 我々はまた、現在利用可能であり、自然言語処理で使用できる複数の言語で異なる視線追跡コーパスについても言及している。 本稿は、ドメイン — 教育 — における応用と、複雑な単語識別と自動エッセイグレーディングの課題を解決する上で、視線行動の学習がどのように役立つかを論じる。

Gaze behaviour has been used as a way to gather cognitive information for a number of years. In this paper, we discuss the use of gaze behaviour in solving different tasks in natural language processing (NLP) without having to record it at test time. This is because the collection of gaze behaviour is a costly task, both in terms of time and money. Hence, in this paper, we focus on research done to alleviate the need for recording gaze behaviour at run time. We also mention different eye tracking corpora in multiple languages, which are currently available and can be used in natural language processing. We conclude our paper by discussing applications in a domain - education - and how learning gaze behaviour can help in solving the tasks of complex word identification and automatic essay grading.
翻訳日:2022-01-09 15:37:36 公開日:2022-01-03
# インド総選挙ツイートの感性分析とサーカスム検出

Sentiment Analysis and Sarcasm Detection of Indian General Election Tweets ( http://arxiv.org/abs/2201.02127v1 )

ライセンス: Link先を確認
Arpit Khare, Amisha Gangwar, Sudhakar Singh, Shiv Prakash(参考訳) ソーシャルメディアの利用は、今日のデジタル世界では最高水準まで増加している。 人口の大多数は、ソーシャルメディアツール(Twitter、Facebook、YouTubeなど)を使って、自分の考えや経験をコミュニティと共有している。 市民の感情や意見を分析することは、政府とビジネス関係者の両方にとって非常に重要である。 各種の世論調査を行う選挙期間中に多くのメディア機関が活発に活動する背景には、このような理由がある。 本稿では,2019年のロクサバ総選挙におけるインド国民の感情の分析に,その期間のTwitterデータを用いて取り組んできた。 我々は、転送学習技術を用いて、この問題の教師なしの性質を処理する自動ツイート分析器を構築した。 我々は、線形サポートベクトル分類法を機械学習モデル、また、ツイートのテキストデータを扱うためにTF-IDF(Term Frequency Inverse Document Frequency)方法論にも用いている。 さらに、一部のユーザーが投稿した皮肉なツイートに対処するためのモデルの能力も向上しましたが、このドメインの研究者たちはまだ検討していません。

Social Media usage has increased to an all-time high level in today's digital world. The majority of the population uses social media tools (like Twitter, Facebook, YouTube, etc.) to share their thoughts and experiences with the community. Analysing the sentiments and opinions of the common public is very important for both the government and the business people. This is the reason behind the activeness of many media agencies during the election time for performing various kinds of opinion polls. In this paper, we have worked towards analysing the sentiments of the people of India during the Lok Sabha election of 2019 using the Twitter data of that duration. We have built an automatic tweet analyser using the Transfer Learning technique to handle the unsupervised nature of this problem. We have used the Linear Support Vector Classifiers method in our Machine Learning model, also, the Term Frequency Inverse Document Frequency (TF-IDF) methodology for handling the textual data of tweets. Further, we have increased the capability of the model to address the sarcastic tweets posted by some of the users, which has not been yet considered by the researchers in this domain.
翻訳日:2022-01-07 14:20:17 公開日:2022-01-03
# 無限方針空間を用いたガウス過程による運転者インタラクションのモデル化

Modeling Human Driver Interactions Using an Infinite Policy Space Through Gaussian Processes ( http://arxiv.org/abs/2201.01733v1 )

ライセンス: Link先を確認
Cem Okan Yaldiz and Yildiray Yildiz(参考訳) 本稿では,複数出力ガウス過程に依存するヒューマンドライバインタラクションのモデル化手法を提案する。 提案手法は,従来の行動の離散レベルをエージェントに割り当てる「レベルk推論」と呼ばれるゲーム理論的階層的推論手法の改良として開発された。 効果的なモデリングツールであることが示されているが、レベルk推論アプローチは、抽出するドライバーポリシーの限られた数(通常2または3)による人間の意思決定を予測するために望ましくない制約をもたらす可能性がある。 提案手法は、無限のポリシー空間を可能にする連続的なドメインフレームワークを導入することで、文献のこのギャップを埋めるものである。 本論文で示したアプローチを用いることで、より正確な運転モデルが得られるようになり、自動運転車制御アルゴリズムの検証のために高忠実度シミュレーションプラットフォームを作成することができる。 提案手法は,実際のトラヒックデータセット上で検証され,従来のlevel-kアプローチと比較してその貢献と意義を示す。

This paper proposes a method for modeling human driver interactions that relies on multi-output gaussian processes. The proposed method is developed as a refinement of the game theoretical hierarchical reasoning approach called "level-k reasoning" which conventionally assigns discrete levels of behaviors to agents. Although it is shown to be an effective modeling tool, the level-k reasoning approach may pose undesired constraints for predicting human decision making due to a limited number (usually 2 or 3) of driver policies it extracts. The proposed approach is put forward to fill this gap in the literature by introducing a continuous domain framework that enables an infinite policy space. By using the approach presented in this paper, more accurate driver models can be obtained, which can then be employed for creating high fidelity simulation platforms for the validation of autonomous vehicle control algorithms. The proposed method is validated on a real traffic dataset and compared with the conventional level-k approach to demonstrate its contributions and implications.
翻訳日:2022-01-06 14:23:12 公開日:2022-01-03
# Open Geometry Prover Community Project

Open Geometry Prover Community Project ( http://arxiv.org/abs/2201.01375v1 )

ライセンス: Link先を確認
Nuno Baeta (University of Coimbra, Portugal), Pedro Quaresma (CISUC, Department of Mathematics, University of Coimbra, Portugal)(参考訳) 数学的証明は間違いなく数学の基礎である。 近年、計算ツールや推論ツール、特に自動幾何学定理(automated geometry theorem provers)の出現は、数学の経験を大いに豊かにしている。 異なる努力を避けるため、open geometry prover community projectは、共通の「umbrella」の下で、幾何自動定理プロバーの開発のための異なる取り組みを統合することを目的としている。 本稿では、そのような統合に必要なステップを定義し、これらのステップの現在の実装について述べる。

Mathematical proof is undoubtedly the cornerstone of mathematics. The emergence, in the last years, of computing and reasoning tools, in particular automated geometry theorem provers, has enriched our experience with mathematics immensely. To avoid disparate efforts,the Open Geometry Prover Community Project aims at the integration of the different efforts for the development of geometry automated theorem provers, under a common "umbrella". In this article the necessary steps to such integration are specified and the current implementation of some of those steps is described.
翻訳日:2022-01-06 14:17:07 公開日:2022-01-03
# (参考訳) Graph Neural Networks: バイオメトリックスの概要

Graph Neural Networks: a bibliometrics overview ( http://arxiv.org/abs/2201.01188v1 )

ライセンス: CC BY 4.0
Abdalsamad Keramatfar, Mohadeseh Rafiee, Hossein Amirkhani(参考訳) 近年、グラフニューラルネットワークは機械学習コミュニティでホットな話題となっている。 本稿では,2004年にGNN論文が最初に発表されて以来の,スコパスに基づくGNN研究の概要について述べる。 本研究は,GNN研究の動向を定量的かつ質的に評価することを目的とする。 我々は、研究の動向、主題の分布、活発で影響力のある著者や機関、出版元、最も引用された文書、ホットトピックを提供する。 本研究は, コンピュータ科学, 工学, 電気通信, 言語学, 運用研究と経営科学, 情報科学と図書館科学, ビジネスと経済学, 自動化と制御システム, ロボット工学, 社会科学など, この分野で最も多い分野であることを示す。 さらに、GNN出版物の最も活発な情報源はコンピュータ科学における講義ノートである。 アメリカ、中国、カナダでは最も多産または影響の大きい機関が発見されている。 論文や今後の方向性も提供します。 最後に、グラフ畳み込みネットワークとアテンション機構の適用は、現在GNN研究のホットトピックとなっている。

Recently, graph neural networks have become a hot topic in machine learning community. This paper presents a Scopus based bibliometric overview of the GNNs research since 2004, when GNN papers were first published. The study aims to evaluate GNN research trend, both quantitatively and qualitatively. We provide the trend of research, distribution of subjects, active and influential authors and institutions, sources of publications, most cited documents, and hot topics. Our investigations reveal that the most frequent subject categories in this field are computer science, engineering, telecommunications, linguistics, operations research and management science, information science and library science, business and economics, automation and control systems, robotics, and social sciences. In addition, the most active source of GNN publications is Lecture Notes in Computer Science. The most prolific or impactful institutions are found in the United States, China, and Canada. We also provide must read papers and future directions. Finally, the application of graph convolutional networks and attention mechanism are now among hot topics of GNN research.
翻訳日:2022-01-05 22:54:16 公開日:2022-01-03
# (参考訳) 小型データセットを用いた人物認識改善のための適応型テンプレート拡張 [全文訳有]

Adaptive Template Enhancement for Improved Person Recognition using Small Datasets ( http://arxiv.org/abs/2201.01218v1 )

ライセンス: CC BY 4.0
Su Yang, Sanaul Hoque and Farzin Deravi(参考訳) そこで本論文では,脳電図(eeg)信号の新たなインスタンスベース分類法を提案し,その評価を行った。 本研究は、脳波信号の非定常的性質と、限られたトレーニングデータによるパターン認識の要求課題と、潜在的にノイズの多い信号取得条件とを組み合わせることで、研究の動機となった。 提案した適応テンプレート拡張機構は,各特徴次元を別々に扱うことで特徴レベルのインスタンスを変換し,クラス分離の改善とクエリクラスマッチングの改善を実現する。 提案するインスタンスベース学習アルゴリズムは,いくつかのシナリオで関連するアルゴリズムと比較される。 単乾式センサを用いた低コストシステムを用いて得られた低品質(高雑音レベル)脳波データベースとともに,臨床グレード64電極脳波データベースを用いて生体認証の評価を行った。 提案手法は,識別シナリオと検証シナリオの両方において,分類精度を大幅に向上させる。 特に, この手法は, ノイズの多い脳波データに対して優れた分類性能を提供し, 幅広いアプリケーションに適用可能な可能性を示している。

A novel instance-based method for the classification of electroencephalograp hy (EEG) signals is presented and evaluated in this paper. The non-stationary nature of the EEG signals, coupled with the demanding task of pattern recognition with limited training data as well as the potentially noisy signal acquisition conditions, have motivated the work reported in this study. The proposed adaptive template enhancement mechanism transforms the feature-level instances by treating each feature dimension separately, hence resulting in improved class separation and better query-class matching. The proposed new instance-based learning algorithm is compared with a few related algorithms in a number of scenarios. A clinical grade 64-electrode EEG database, as well as a low-quality (high-noise level) EEG database obtained with a low-cost system using a single dry sensor have been used for evaluations in biometric person recognition. The proposed approach demonstrates significantly improved classification accuracy in both identification and verification scenarios. In particular, this new method is seen to provide a good classification performance for noisy EEG data, indicating its potential suitability for a wide range of applications.
翻訳日:2022-01-05 22:53:03 公開日:2022-01-03
# (参考訳) 圧縮センシングによる低線量3次元蛍光顕微鏡イメージング [全文訳有]

Low dosage 3D volume fluorescence microscopy imaging using compressive sensing ( http://arxiv.org/abs/2201.00820v1 )

ライセンス: CC BY 4.0
Varun Mannam, Jacob Brandt, Cody J. Smith, and Scott Howard(参考訳) 蛍光顕微鏡は、長期にわたる胚(in vivo)の成長を観察するための重要なツールである。 しかし、累積曝露はそのような敏感なライブサンプルに対して光毒性がある。 光シート蛍光顕微鏡(lsfm)のような技術は露光を減らすことができるが、深部イメージングモデルには適さない。 他の計算技術は計算コストが高く、しばしば修復品質に欠ける。 この課題に対処するために、軸方向数スライス(z軸)を用いて3次元ボリューム再構成を実現するために開発された様々な低線量イメージング技術を用いることができるが、復元品質に欠けることが多い。 また、軸方向の高密度画像を(小さなステップで)取得するには計算コストがかかる。 この課題に対処するために, 圧縮センシング(CS)に基づく3次元ボリュームを, 励起量の半分未満の信号対雑音比(SNR)で完全に再構成する手法を提案する。 理論を提示し,そのアプローチを実験的に検証する。 本手法を実証するために,ゼブラフィッシュ胚脊髄のRFP標識ニューロンの3次元体積(30um厚)を,共焦点顕微鏡を用いて0.1umの軸方向サンプリングにより捉えた。 以上の結果から,CSに基づくアプローチは,スタック全体の20%未満の光区間から正確な3次元ボリューム再構成を実現する。 この研究で開発されたCSベースの手法は、2光子や光シート顕微鏡などの他の深部イメージングに容易に適用でき、サンプル光毒性の低減は重要な課題である。

Fluorescence microscopy has been a significant tool to observe long-term imaging of embryos (in vivo) growth over time. However, cumulative exposure is phototoxic to such sensitive live samples. While techniques like light-sheet fluorescence microscopy (LSFM) allow for reduced exposure, it is not well suited for deep imaging models. Other computational techniques are computationally expensive and often lack restoration quality. To address this challenge, one can use various low-dosage imaging techniques that are developed to achieve the 3D volume reconstruction using a few slices in the axial direction (z-axis); however, they often lack restoration quality. Also, acquiring dense images (with small steps) in the axial direction is computationally expensive. To address this challenge, we present a compressive sensing (CS) based approach to fully reconstruct 3D volumes with the same signal-to-noise ratio (SNR) with less than half of the excitation dosage. We present the theory and experimentally validate the approach. To demonstrate our technique, we capture a 3D volume of the RFP labeled neurons in the zebrafish embryo spinal cord (30um thickness) with the axial sampling of 0.1um using a confocal microscope. From the results, we observe the CS-based approach achieves accurate 3D volume reconstruction from less than 20% of the entire stack optical sections. The developed CS-based methodology in this work can be easily applied to other deep imaging modalities such as two-photon and light-sheet microscopy, where reducing sample photo-toxicity is a critical challenge.
翻訳日:2022-01-05 22:39:51 公開日:2022-01-03
# (参考訳) 車輪型移動ロボットの適応モデル予測制御 [全文訳有]

Adaptive Model Predictive Control of Wheeled Mobile Robots ( http://arxiv.org/abs/2201.00863v1 )

ライセンス: CC BY 4.0
Nikhil Potu Surya Prakash, Tamara Perreault, Trevor Voth and Zejun Zhong(参考訳) 本稿では、適応モデル予測制御(AMPC)フレームワークを用いて、未知の慣性を持つ二輪移動ロボットを所望の点と向きに誘導する制御アルゴリズムを提案する。 この二輪移動ロボットは、ナイフエッジまたは非ホロノミックキネマティック制約付きスケートとしてモデル化され、ラグランジアンアプローチを用いて動的方程式を導出する。 瞬時に入力はモデル予測制御(MPC)から取得され、再帰的最小二乗アルゴリズムを用いて更新される一連の名目パラメータを持つ。 このアルゴリズムの有効性は,論文の終わりに数値シミュレーションにより実証された。

In this paper, a control algorithm for guiding a two wheeled mobile robot with unknown inertia to a desired point and orientation using an Adaptive Model Predictive Control (AMPC) framework is presented. The two wheeled mobile robot is modeled as a knife edge or a skate with nonholonomic kinematic constraints and the dynamical equations are derived using the Lagrangian approach. The inputs at every time instant are obtained from Model Predictive Control (MPC) with a set of nominal parameters which are updated using a recursive least squares algorithm. The efficacy of the algorithm is demonstrated through numerical simulations at the end of the paper.
翻訳日:2022-01-05 22:30:53 公開日:2022-01-03
# (参考訳) 射影追跡によるバイアス付き仮説形成 [全文訳有]

Biased Hypothesis Formation From Projection Pursuit ( http://arxiv.org/abs/2201.00889v1 )

ライセンス: CC BY-SA 4.0
John Patterson, Chris Avery, Tyler Grear, Donald J. Jacobs(参考訳) バイアスが仮説形成に及ぼす影響は、データストリームのバイナリ分類の特徴を抽出・選択する自動データ駆動投影追従ニューラルネットワークによって特徴づけられる。 このインテリジェント探索プロセスは、完全ベクトル状態空間を解離部分空間に分割し、ラベル付きデータストリームの2つのグループ間で観測された類似性と差によって定量化された作用仮説を生成する。 データストリームは通常、時系列化され、複雑な時空間パターンを示す。 例えば、分子動力学シミュレーションの原子軌道を考えると、この機械の任務はタンパク質変異体を比較することによって機能を促進する動的なメカニズムを定量化することである。 機能的および非機能的タンパク質のダイナミクスを模倣する合成2次元分子を用いて、機械学習モデルと異なるコンテキスト下で選択されたトレーニングデータの両方においてバイアスを特定し制御する。 作業仮説の精細化は、文脈依存的な視点に基づくデータの統計的にロバストな多変量知覚に収束する。 データ探索中の多様な視点を含めると、類似性と相違の多変量キャラクタリゼーションの解釈性が向上する。

The effect of bias on hypothesis formation is characterized for an automated data-driven projection pursuit neural network to extract and select features for binary classification of data streams. This intelligent exploratory process partitions a complete vector state space into disjoint subspaces to create working hypotheses quantified by similarities and differences observed between two groups of labeled data streams. Data streams are typically time sequenced, and may exhibit complex spatio-temporal patterns. For example, given atomic trajectories from molecular dynamics simulation, the machine's task is to quantify dynamical mechanisms that promote function by comparing protein mutants, some known to function while others are nonfunctional. Utilizing synthetic two-dimensional molecules that mimic the dynamics of functional and nonfunctional proteins, biases are identified and controlled in both the machine learning model and selected training data under different contexts. The refinement of a working hypothesis converges to a statistically robust multivariate perception of the data based on a context-dependent perspective. Including diverse perspectives during data exploration enhances interpretability of the multivariate characterization of similarities and differences.
翻訳日:2022-01-05 22:23:27 公開日:2022-01-03
# (参考訳) 高次および連続性B-スプライン基底関数を持つ物理学の滑らかな近似のためのディープニューラルネットワーク

Deep neural networks for smooth approximation of physics with higher order and continuity B-spline base functions ( http://arxiv.org/abs/2201.00904v1 )

ライセンス: CC BY 4.0
Kamil Doleg{\l}o, Anna Paszy\'nska, Maciej Paszy\'nski, Leszek Demkowicz(参考訳) 本稿では,以下の重要な研究課題を扱う。 伝統的に、ニューラルネットワークは、与えられた物理的現象を近似するために線形作用素と連結された非線形活性化関数を用いる。 活性化関数と線形作用素の結合で「空間を満たし」、それらの係数を調整して物理現象を近似する。 我々は, 平滑な高次b-スプライン基本関数の線形結合を等geometric analysisで採用し, ニューラルネットワークを用いて線形結合係数を調整した方がよいと主張する。 言い換えると、b-スプライン基底関数の係数を近似し、解を直接近似するためにニューラルネットワークを使用する可能性を評価する。 ニューラルネットワークを用いた微分方程式の解法は、2017年にMaziar Raissi氏らによって、物理インフォームドニューラルネットワーク(PINN)を導入して提案されている。 関数を入力として使う係数の近似は、普遍関数近似器であるニューラルネットワークのよく知られた能力を利用する。 本質的には、PINNアプローチでは、ネットワークは所定の点における与えられたフィールドの値を近似する。 本稿では,B-スプライン基底関数の線形結合として物理量を近似し,B-スプラインの係数をニューラルネットワークで近似する手法を提案する。 本研究では,B-スプライン基底関数の線形結合係数をDNNで近似し,DNNで直接近似した結果と比較する。 滑らかな物理場を近似する場合、我々のアプローチは安価で正確であることを示します。

This paper deals with the following important research question. Traditionally, the neural network employs non-linear activation functions concatenated with linear operators to approximate a given physical phenomenon. They "fill the space" with the concatenations of the activation functions and linear operators and adjust their coefficients to approximate the physical phenomena. We claim that it is better to "fill the space" with linear combinations of smooth higher-order B-splines base functions as employed by isogeometric analysis and utilize the neural networks to adjust the coefficients of linear combinations. In other words, the possibilities of using neural networks for approximating the B-spline base functions' coefficients and by approximating the solution directly are evaluated. Solving differential equations with neural networks has been proposed by Maziar Raissi et al. in 2017 by introducing Physics-informed Neural Networks (PINN), which naturally encode underlying physical laws as prior information. Approximation of coefficients using a function as an input leverages the well-known capability of neural networks being universal function approximators. In essence, in the PINN approach the network approximates the value of the given field at a given point. We present an alternative approach, where the physcial quantity is approximated as a linear combination of smooth B-spline basis functions, and the neural network approximates the coefficients of B-splines. This research compares results from the DNN approximating the coefficients of the linear combination of B-spline basis functions, with the DNN approximating the solution directly. We show that our approach is cheaper and more accurate when approximating smooth physical fields.
翻訳日:2022-01-05 22:12:48 公開日:2022-01-03
# (参考訳) 偽ニュース検出モデルの逆ベンチマーク [全文訳有]

An Adversarial Benchmark for Fake News Detection Models ( http://arxiv.org/abs/2201.00912v1 )

ライセンス: CC BY 4.0
Lorenzo Jaime Yu Flores, Yiding Hao(参考訳) オンライン誤報の拡散に伴い、偽ニュース検出は人工知能コミュニティにおいて重要になっている。 本稿では,偽ニュース検知器が実世界の事実を判断する能力をテストする,逆境ベンチマークを提案する。 我々は、構成意味論、語彙関係、修飾子に対する感受性の3つの側面を標的とした敵攻撃を定式化する。 我々は、LIAR arXiv:arch-ive/17056 48データセットとKaggle Fake-Newsデータセットで微調整されたBERT分類器を用いてベンチマークテストを行い、両モデルが構成的および語彙的意味の変化に反応しないことを示す。 この結果から,他の事実チェック手法と併用して使用するモデルの必要性が高まった。

With the proliferation of online misinformation, fake news detection has gained importance in the artificial intelligence community. In this paper, we propose an adversarial benchmark that tests the ability of fake news detectors to reason about real-world facts. We formulate adversarial attacks that target three aspects of "understanding": compositional semantics, lexical relations, and sensitivity to modifiers. We test our benchmark using BERT classifiers fine-tuned on the LIAR arXiv:arch-ive/17056 48 and Kaggle Fake-News datasets, and show that both models fail to respond to changes in compositional and lexical meaning. Our results strengthen the need for such models to be used in conjunction with other fact checking methods.
翻訳日:2022-01-05 22:11:15 公開日:2022-01-03
# local quadruple pattern: 顔画像認識と検索のための新しいディスクリプタ

Local Quadruple Pattern: A Novel Descriptor for Facial Image Recognition and Retrieval ( http://arxiv.org/abs/2201.01275v1 )

ライセンス: Link先を確認
Soumendu Chakraborty, Satish Kumar Singh, and Pavan Chakraborty(参考訳) 本稿では,顔画像の認識と検索のために手作り局所四重項パターン(LQPAT)を提案する。 既存の手作りのディスクリプタのほとんどは、近隣の限られた数のピクセルしかエンコードしていない。 制約のない環境では、これらの記述子の性能は劇的に低下する傾向がある。 近隣地域を増加させる上での大きな問題は、ディスクリプタの機能長を増加させることである。 提案する記述子は、最適な特徴長を持つ効率的な符号化構造を定義することにより、これらの問題を克服しようとする。 提案するディスクリプタは四重項空間内の近傍間の関係を符号化する。 局所的な関係から2つのマイクロパターンが計算され、ディスクリプタが形成される。 提案する記述子の検索と認識精度は,Caltech-face,LFW,Co lour-FERET,CASIA-fac e-v5といったベンチマークデータベース上の手作り記述子の状態と比較された。 結果分析の結果,提案する記述子はポーズ,照明,背景,表現の制御不能な変動の下でよく機能することがわかった。

In this paper a novel hand crafted local quadruple pattern (LQPAT) is proposed for facial image recognition and retrieval. Most of the existing hand-crafted descriptors encodes only a limited number of pixels in the local neighbourhood. Under unconstrained environment the performance of these descriptors tends to degrade drastically. The major problem in increasing the local neighbourhood is that, it also increases the feature length of the descriptor. The proposed descriptor try to overcome these problems by defining an efficient encoding structure with optimal feature length. The proposed descriptor encodes relations amongst the neighbours in quadruple space. Two micro patterns are computed from the local relationships to form the descriptor. The retrieval and recognition accuracies of the proposed descriptor has been compared with state of the art hand crafted descriptors on bench mark databases namely; Caltech-face, LFW, Colour-FERET, and CASIA-face-v5. Result analysis shows that the proposed descriptor performs well under uncontrolled variations in pose, illumination, background and expressions.
翻訳日:2022-01-05 14:18:36 公開日:2022-01-03
# 局所方向勾配パターン:顔認識のための局所記述子

Local Directional Gradient Pattern: A Local Descriptor for Face Recognition ( http://arxiv.org/abs/2201.01276v1 )

ライセンス: Link先を確認
Soumendu Chakraborty, Satish Kumar Singh, and Pavan Chakraborty(参考訳) 本稿では,高次微分空間における局所パターン記述子を顔認識のために提案する。 提案する局所方向勾配パターン (LDGP) は, 基準画素の高次微分と4つの異なる方向の関係を符号化して計算した1次元局所パターンである。 提案するディスクリプタは、参照画素の高次導関数間の4つの異なる方向の関係を識別し、局所的な特徴に対応するマイクロパターンを計算する。 提案するディスクリプタはマイクロパターンの長さを大幅に削減し,認識率を維持しながら抽出時間とマッチング時間を短縮する。 ベンチマークデータベースAT&T,Extended Yale B, CMU-PIEで行った大規模な実験の結果, 提案する記述子は, 認識速度が既存の技術手法とほぼ類似している間に, 抽出時間とマッチング時間を著しく短縮することがわかった。

In this paper a local pattern descriptor in high order derivative space is proposed for face recognition. The proposed local directional gradient pattern (LDGP) is a 1D local micropattern computed by encoding the relationships between the higher order derivatives of the reference pixel in four distinct directions. The proposed descriptor identifies the relationship between the high order derivatives of the referenced pixel in four different directions to compute the micropattern which corresponds to the local feature. Proposed descriptor considerably reduces the length of the micropattern which consequently reduces the extraction time and matching time while maintaining the recognition rate. Results of the extensive experiments conducted on benchmark databases AT&T, Extended Yale B and CMU-PIE show that the proposed descriptor significantly reduces the extraction as well as matching time while the recognition rate is almost similar to the existing state of the art methods.
翻訳日:2022-01-05 14:18:19 公開日:2022-01-03
# アクタ-クリティックベース制御センシングの監視と異常検出

Monitoring and Anomaly Detection Actor-Critic Based Controlled Sensing ( http://arxiv.org/abs/2201.00879v1 )

ライセンス: Link先を確認
Geethu Joseph, M. Cenk Gursoy, Pramod K. Varshney(参考訳) 本稿では,連立確率過程群を監視し,それらの異常数がしきい値を超えると警告を発する問題に対処する。 このため、意思決定者はプロセスのサブセットを選択して調査し、その状態(通常または異常)のノイズの見積もりを得る。 受信した観測に基づいて、意思決定者はまず、異常数が閾値を超えたことを宣言するか、観察を続けるかを判断する。 決定が継続されると、次のタイミングで観測を収集するか、後で延期するかが決定される。 観測収集を選択した場合には、さらに調査対象のプロセスのサブセットを決定する。 この3段階の逐次決定過程を考案するために、ベイズ式を用いて、プロセスの状態に関する後続確率を学習する。 後方確率を用いてマルコフ決定過程を構築し,深層アクタ-クリティック強化学習を用いて解く。 数値実験により,従来のモデルに基づくアルゴリズムと比較して,アルゴリズムの優れた性能を示す。

We address the problem of monitoring a set of binary stochastic processes and generating an alert when the number of anomalies among them exceeds a threshold. For this, the decision-maker selects and probes a subset of the processes to obtain noisy estimates of their states (normal or anomalous). Based on the received observations, the decisionmaker first determines whether to declare that the number of anomalies has exceeded the threshold or to continue taking observations. When the decision is to continue, it then decides whether to collect observations at the next time instant or defer it to a later time. If it chooses to collect observations, it further determines the subset of processes to be probed. To devise this three-step sequential decision-making process, we use a Bayesian formulation wherein we learn the posterior probability on the states of the processes. Using the posterior probability, we construct a Markov decision process and solve it using deep actor-critic reinforcement learning. Via numerical experiments, we demonstrate the superior performance of our algorithm compared to the traditional model-based algorithms.
翻訳日:2022-01-05 14:16:07 公開日:2022-01-03
# aiと人種平等: 犯罪司法システムにおける感情分析、人工知能、データセキュリティ、システム理論の理解

AI & Racial Equity: Understanding Sentiment Analysis Artificial Intelligence, Data Security, and Systemic Theory in Criminal Justice Systems ( http://arxiv.org/abs/2201.00855v1 )

ライセンス: Link先を確認
Alia Abbas(参考訳) 人種的体系的不正を悪化または減少させる人工知能の様々な形態が、この応用研究で研究されている。 システム問題を特定し、分析し、議論する各テーマ領域は、人種的に敏感な環境で人間の意思決定を自動化するためにアルゴリズムを使用することの利点と欠点を調査するために利用されてきた。 それは、歴史的体系的パターン、暗黙のバイアス、既存のアルゴリズム的リスク、およびリスク評価ツールのような自然言語処理ベースのaiが人種的に異なる結果をもたらす法的影響の分析を通して主張されている。 その結果, 社内機関や企業がアルゴリズム, プライバシー, セキュリティのリスク, 監査要件をどのように活用するかを規制し, 規制するために, より多くの訴訟政策が求められた。

Various forms of implications of artificial intelligence that either exacerbate or decrease racial systemic injustice have been explored in this applied research endeavor. Taking each thematic area of identifying, analyzing, and debating an systemic issue have been leveraged in investigating merits and drawbacks of using algorithms to automate human decision making in racially sensitive environments. It has been asserted through the analysis of historical systemic patterns, implicit biases, existing algorithmic risks, and legal implications that natural language processing based AI, such as risk assessment tools, have racially disparate outcomes. It is concluded that more litigative policies are needed to regulate and restrict how internal government institutions and corporations utilize algorithms, privacy and security risks, and auditing requirements in order to diverge from racially injustice outcomes and practices of the past.
翻訳日:2022-01-05 14:02:17 公開日:2022-01-03
# グラフニューラルネットワークを用いた多変量時系列回帰

Multivariate Time Series Regression with Graph Neural Networks ( http://arxiv.org/abs/2201.00818v1 )

ライセンス: Link先を確認
Stefan Bloemheuvel and Jurgen van den Hoogen and Dario Jozinovi\'c and Alberto Michelini and Martin Atzmueller(参考訳) ディープラーニングの進歩と共に機械学習は、過去に時系列を分析する大きな可能性を示している。 しかし、多くのシナリオでは、学習手法に組み込むことで、予測を改善する可能性のある追加情報が得られる。 これはセンサ位置に関する情報を含むセンサネットワークから発生するデータにとって重要である。 そして、このような空間情報は、逐次(時間)情報とともに、グラフ構造を介してモデル化することで活用することができる。 グラフにディープラーニングを適用する最近の進歩は、さまざまなグラフ関連のタスクに有望な可能性を示している。 しかし,これらの手法は時系列関連タスクにはあまり適用されていない。 具体的には、ほとんどの試みは、小さなシーケンス長の時系列予測のための空間時間グラフニューラルネットワークを中心に統合されている。 一般に、これらのアーキテクチャは、大量のデータ列を含む回帰や分類タスクには適していない。 そこで本研究では,グラフニューラルネットワークの利点を生かして,これらの長いシーケンスを多変量時系列回帰タスクで処理できるアーキテクチャを提案する。 本モデルでは,地震波形を含む2つの地震データセットを用いて実験を行い,一組の基地局における地盤揺動の強度測定の予測を目標とした。 以上の結果から,本アプローチの有望な結果が得られ,追加のアブレーション研究により深く議論された。

Machine learning, with its advances in Deep Learning has shown great potential in analysing time series in the past. However, in many scenarios, additional information is available that can potentially improve predictions, by incorporating it into the learning methods. This is crucial for data that arises from e.g., sensor networks that contain information about sensor locations. Then, such spatial information can be exploited by modeling it via graph structures, along with the sequential (time) information. Recent advances in adapting Deep Learning to graphs have shown promising potential in various graph-related tasks. However, these methods have not been adapted for time series related tasks to a great extent. Specifically, most attempts have essentially consolidated around Spatial-Temporal Graph Neural Networks for time series forecasting with small sequence lengths. Generally, these architectures are not suited for regression or classification tasks that contain large sequences of data. Therefore, in this work, we propose an architecture capable of processing these long sequences in a multivariate time series regression task, using the benefits of Graph Neural Networks to improve predictions. Our model is tested on two seismic datasets that contain earthquake waveforms, where the goal is to predict intensity measurements of ground shaking at a set of stations. Our findings demonstrate promising results of our approach, which are discussed in depth with an additional ablation study.
翻訳日:2022-01-05 14:02:01 公開日:2022-01-03
# 3d頭頸部癌ct画像における頭蓋外拡張同定のための勾配マッピング誘導型深層ニューラルネットワーク

A Gradient Mapping Guided Explainable Deep Neural Network for Extracapsular Extension Identification in 3D Head and Neck Cancer Computed Tomography Images ( http://arxiv.org/abs/2201.00895v1 )

ライセンス: Link先を確認
Yibin Wang, Abdur Rahman, W. Neil. Duggar, P. Russell Roberts, Toms V. Thomas, Linkan Bian, Haifeng Wang(参考訳) 頭頸部扁平上皮癌(hnscc)の診断と治療管理は、日常的診断頭頸部ctスキャンにより誘導され、腫瘍とリンパ節の特徴を同定する。 上腕骨外伸展(ECE)はHNSCCによる生存率の強い予測因子である。 患者のステージングと管理を変えるため,ECEの発生を検出することが不可欠である。 現在のECE検出は、放射線技師による視覚的同定と病理診断に依存している。 機械学習(ML)に基づくCE診断は近年高い可能性を示している。 しかし、現在のMLベースのECE診断研究の多くにおいて、リンパ節領域のマニュアルアノテーションはデータ前処理のステップである。 さらに、この手動アノテーションプロセスは、時間がかかり、労力が集中し、エラーが発生しやすい。 そこで本稿では,アノテートリンパ節領域情報を必要とせず,eceの自動識別を行うための勾配マッピング誘導説明ネットワーク(gmgenet)フレームワークを提案する。 勾配重み付きクラスアクティベーションマッピング(Grad-CAM)技術は、ディープラーニングアルゴリズムを誘導し、ECEと関連性の高い領域に焦点を合わせるために提案される。 ラベル付きリンパ節領域情報なしで情報量(VOI)を抽出する。 評価では, クロスバリデーションを用いて, 試験精度90.2%, 91.1%のAUCを良好に評価し, 評価を行った。 ECEの有無は, 金の標準病理組織学的所見と相関する。

Diagnosis and treatment management for head and neck squamous cell carcinoma (HNSCC) is guided by routine diagnostic head and neck computed tomography (CT) scans to identify tumor and lymph node features. Extracapsular extension (ECE) is a strong predictor of patients' survival outcomes with HNSCC. It is essential to detect the occurrence of ECE as it changes staging and management for the patients. Current clinical ECE detection relies on visual identification and pathologic confirmation conducted by radiologists. Machine learning (ML)-based ECE diagnosis has shown high potential in the recent years. However, manual annotation of lymph node region is a required data preprocessing step in most of the current ML-based ECE diagnosis studies. In addition, this manual annotation process is time-consuming, labor-intensive, and error-prone. Therefore, in this paper, we propose a Gradient Mapping Guided Explainable Network (GMGENet) framework to perform ECE identification automatically without requiring annotated lymph node region information. The gradient-weighted class activation mapping (Grad-CAM) technique is proposed to guide the deep learning algorithm to focus on the regions that are highly related to ECE. Informative volumes of interest (VOIs) are extracted without labeled lymph node region information. In evaluation, the proposed method is well-trained and tested using cross validation, achieving test accuracy and AUC of 90.2% and 91.1%, respectively. The presence or absence of ECE has been analyzed and correlated with gold standard histopathological findings.
翻訳日:2022-01-05 14:01:07 公開日:2022-01-03
# 回転アフィン変換に対する一般ベクトル関数のガウス-ハーマイトモーメント不変量

Gaussian-Hermite Moment Invariants of General Vector Functions to Rotation-Affine Transform ( http://arxiv.org/abs/2201.00877v1 )

ライセンス: Link先を確認
Hanlin Mo, Hua Li, Guoying Zhao(参考訳) データ取得技術の発展により、マルチチャネルデータは収集され、多くの分野で広く使われている。 それらの多くは様々な種類のベクトル関数として表現できる。 特定の関心のパターンを特定するベクトル関数の特徴抽出は、重要だが難しい課題である。 本稿では,一般ベクトル関数のモーメント不変量の構築に焦点をあてる。 具体的には、一般ベクトル関数の実変形を記述するために回転アフィン変換を定義し、この変換モデルにガウス・ハーマイトモーメント不変量を生成する構造フレームを設計する。 一般ベクトル関数の直交モーメント不変量を構成するために一様フレームが文献で提案されたのはこれが初めてである。 マルチチャネルデータの種類が与えられた場合,新しい手法を用いて可能な不変量をすべて導出し,それら間の様々な依存を排除する方法を示す。 RGB画像に対し、2次元および3次元のフロー場は、低次かつ低次な不変量の完全かつ独立な集合を得る。 ベクトル値データの合成および一般的なデータセットに基づいて、これらの不変量の安定性と判別性、および雑音に対するロバスト性を評価する実験を行った。 その結果,RGB画像分類,2次元ベクトル場における渦検出,3次元流れ場に対するテンプレートマッチングなどにおいて,従来使用されていたベクトル関数のモーメント不変量よりも優れた性能を示した。

With the development of data acquisition technology, multi-channel data is collected and widely used in many fields. Most of them can be expressed as various types of vector functions. Feature extraction of vector functions for identifying certain patterns of interest is a critical but challenging task. In this paper, we focus on constructing moment invariants of general vector functions. Specifically, we define rotation-affine transform to describe real deformations of general vector functions, and then design a structural frame to systematically generate Gaussian-Hermite moment invariants to this transform model. This is the first time that a uniform frame has been proposed in the literature to construct orthogonal moment invariants of general vector functions. Given a certain type of multi-channel data, we demonstrate how to utilize the new method to derive all possible invariants and to eliminate various dependences among them. For RGB images, 2D and 3D flow fields, we obtain the complete and independent sets of the invariants with low orders and low degrees. Based on synthetic and popular datasets of vector-valued data, the experiments are carried out to evaluate the stability and discriminability of these invariants, and also their robustness to noise. The results clearly show that the moment invariants proposed in our paper have better performance than other previously used moment invariants of vector functions in RGB image classification, vortex detection in 2D vector fields and template matching for 3D flow fields.
翻訳日:2022-01-05 13:47:44 公開日:2022-01-03
# 注意型ニューラルネットワークとベイズ最適化を用いたイネ病の検出と分類

Rice Diseases Detection and Classification Using Attention Based Neural Network and Bayesian Optimization ( http://arxiv.org/abs/2201.00893v1 )

ライセンス: Link先を確認
Yibin Wang, Haifeng Wang, Zhaohua Peng(参考訳) 本研究では,米葉画像からイネ病を検出し分類するために,ベイズ最適化(ADSNN-BO)を用いた注意型深度分離型ニューラルネットワークを提案する。 米の病気はしばしば20から40%のコーポレーション生産の損失を生じさせ、世界経済と密接に関連している。 迅速な疾患の特定は、迅速に治療を計画し、コーポレーションの損失を減らすために重要である。 水稲病の診断は現在でも主に手動で行われている。 迅速かつ正確な疾患検出を実現するために,モバイルネット構造と注意力増強機構に基づくadsnn-boモデルを提案した。 さらに,モデルのハイパーパラメータをチューニングするためにベイズ最適化法を適用した。 4つのカテゴリーからなる公的なイネ病データセットに基づいて,クロスバリデーション分類実験を行った。 実験の結果、モバイル対応adsnn-boモデルは94.65\%の精度を達成し、テストされたすべての最新モデルを上回ることがわかった。 提案モデルの解釈可能性を確認するため,アクティベーションマップやフィルタ可視化手法などの特徴解析も行った。 提案手法は,ADSNN-BOモデルによりより効果的に情報的特徴を学習できることを示す。 本研究の成果は、農業分野における植物病の迅速な診断と制御のための人工知能の実施を促進する。

In this research, an attention-based depthwise separable neural network with Bayesian optimization (ADSNN-BO) is proposed to detect and classify rice disease from rice leaf images. Rice diseases frequently result in 20 to 40 \% corp production loss in yield and is highly related to the global economy. Rapid disease identification is critical to plan treatment promptly and reduce the corp losses. Rice disease diagnosis is still mainly performed manually. To achieve AI assisted rapid and accurate disease detection, we proposed the ADSNN-BO model based on MobileNet structure and augmented attention mechanism. Moreover, Bayesian optimization method is applied to tune hyper-parameters of the model. Cross-validated classification experiments are conducted based on a public rice disease dataset with four categories in total. The experimental results demonstrate that our mobile compatible ADSNN-BO model achieves a test accuracy of 94.65\%, which outperforms all of the state-of-the-art models tested. To check the interpretability of our proposed model, feature analysis including activation map and filters visualization approach are also conducted. Results show that our proposed attention-based mechanism can more effectively guide the ADSNN-BO model to learn informative features. The outcome of this research will promote the implementation of artificial intelligence for fast plant disease diagnosis and control in the agricultural field.
翻訳日:2022-01-05 13:47:22 公開日:2022-01-03
# 2レベルグラフニューラルネットワーク

Two-level Graph Neural Network ( http://arxiv.org/abs/2201.01190v1 )

ライセンス: Link先を確認
Xing Ai, Chengyu Sun, Zhihong Zhang, Edwin R Hancock(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの処理のためのニューラルネットワーク構造である。 近隣の集約戦略が採用されているため、既存のGNNはノードレベルの情報の取得と高レベルの情報の無視に重点を置いている。 既存のGNNは、LPI(Local Permutation Invariance)問題によって引き起こされる表現制限に悩まされる。 これらの制限を克服し、GNNが捉えた機能を充実させるため、2レベルGNN(TL-GNN)と呼ばれる新しいGNNフレームワークを提案する。 これはサブグラフレベルの情報とノードレベルの情報をマージする。 さらに,LPI問題の数学的解析を行い,LPIに関連する問題を克服する上で,サブグラフレベルの情報が有用であることを示す。 動的プログラミングアルゴリズムに基づく部分グラフカウント法も提案され、時間複雑性は O(n^3) であり、n はグラフのノード数である。 実験により、TL-GNNは既存のGNNよりも優れ、最先端の性能を達成することが示された。

Graph Neural Networks (GNNs) are recently proposed neural network structures for the processing of graph-structured data. Due to their employed neighbor aggregation strategy, existing GNNs focus on capturing node-level information and neglect high-level information. Existing GNNs therefore suffer from representational limitations caused by the Local Permutation Invariance (LPI) problem. To overcome these limitations and enrich the features captured by GNNs, we propose a novel GNN framework, referred to as the Two-level GNN (TL-GNN). This merges subgraph-level information with node-level information. Moreover, we provide a mathematical analysis of the LPI problem which demonstrates that subgraph-level information is beneficial to overcoming the problems associated with LPI. A subgraph counting method based on the dynamic programming algorithm is also proposed, and this has time complexity is O(n^3), n is the number of nodes of a graph. Experiments show that TL-GNN outperforms existing GNNs and achieves state-of-the-art performance.
翻訳日:2022-01-05 13:41:10 公開日:2022-01-03
# 生成モデルからの判別分類器の導出

Deriving discriminative classifiers from generative models ( http://arxiv.org/abs/2201.00844v1 )

ライセンス: Link先を確認
Elie Azeraf, Emmanuel Monfrini, Wojciech Pieczynski(参考訳) 我々はベイズ族と差別的分類器を扱う。 モデル分布 $p(x, y)$ を観測値 $y$ と目標値 $x$ で与えると、最初に $p(x, y)$ を考え、次にベイズ則を使って $p(x | y)$ を計算する。 判別モデルは、判別分類子を計算するために使用される$p(x | y)$によって直接与えられる。 しかし、近年の研究では、ネイブベイズ (NB) またはハイデンマルコフ・チェイン (HMC) から定義されるベイジアン最大後分類器が、どちらの生成モデルも識別的分類器の定義と一致することを示した。 したがって、分類器を「生成的」と「差別的」に分ける状況はやや誤解を招く。 実際、このような区別は分類器自体ではなく、分類器の計算方法に関係している。 本稿では、生成モデルから誘導される生成的分類器が、同じモデルから判別的に計算できることを示す一般的な理論的結果を示す。 NB と HMC の例は、NB の2つの元の拡張と HMC の2つの拡張に適用し、そのうちの1つは元の拡張である。 最後に、自然言語処理(NLP)フレームワークにおいて、分類器を識別する新たな方法に興味を示す。

We deal with Bayesian generative and discriminative classifiers. Given a model distribution $p(x, y)$, with the observation $y$ and the target $x$, one computes generative classifiers by firstly considering $p(x, y)$ and then using the Bayes rule to calculate $p(x | y)$. A discriminative model is directly given by $p(x | y)$, which is used to compute discriminative classifiers. However, recent works showed that the Bayesian Maximum Posterior classifier defined from the Naive Bayes (NB) or Hidden Markov Chain (HMC), both generative models, can also match the discriminative classifier definition. Thus, there are situations in which dividing classifiers into "generative" and "discriminative" is somewhat misleading. Indeed, such a distinction is rather related to the way of computing classifiers, not to the classifiers themselves. We present a general theoretical result specifying how a generative classifier induced from a generative model can also be computed in a discriminative way from the same model. Examples of NB and HMC are found again as particular cases, and we apply the general result to two original extensions of NB, and two extensions of HMC, one of which being original. Finally, we shortly illustrate the interest of the new discriminative way of computing classifiers in the Natural Language Processing (NLP) framework.
翻訳日:2022-01-05 13:40:19 公開日:2022-01-03
# 多エージェント強化学習における国家批判の深い理解

A Deeper Understanding of State-Based Critics in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2201.01221v1 )

ライセンス: Link先を確認
Xueguang Lyu, Andrea Baisero, Yuchen Xiao, Christopher Amato(参考訳) 集中型オフラインでトレーニングを行う分散実行のための集中型トレーニングは、マルチエージェント強化学習において一般的なソリューションパラダイムとなっている。 集中型トレーニングは、実行時に利用できないにもかかわらず、トレーニング中に有用である真のシステム状態へのアクセスを可能にするためである。 国家ベースの批評家は、理論上の正当化や分析が限られているにもかかわらず、共通の経験的選択となっている。 本稿では,国家に基づく批判者が政策勾配推定にバイアスを導入する可能性を示し,アルゴリズムの漸近的保証を損なう可能性がある。 また、州ベースの批判者が偏見を示さないとしても、共通の直観とは対照的に、大きな勾配のばらつきをもたらす可能性があることも示している。 最後に,様々な形態の中央集権的評論家を幅広い共通ベンチマークで比較し,様々な環境特性が様々なタイプの批判者の有効性にどのように関係しているかを詳述する。

Centralized Training for Decentralized Execution, where training is done in a centralized offline fashion, has become a popular solution paradigm in Multi-Agent Reinforcement Learning. Many such methods take the form of actor-critic with state-based critics, since centralized training allows access to the true system state, which can be useful during training despite not being available at execution time. State-based critics have become a common empirical choice, albeit one which has had limited theoretical justification or analysis. In this paper, we show that state-based critics can introduce bias in the policy gradient estimates, potentially undermining the asymptotic guarantees of the algorithm. We also show that, even if the state-based critics do not introduce any bias, they can still result in a larger gradient variance, contrary to the common intuition. Finally, we show the effects of the theories in practice by comparing different forms of centralized critics on a wide range of common benchmarks, and detail how various environmental properties are related to the effectiveness of different types of critics.
翻訳日:2022-01-05 13:36:18 公開日:2022-01-03
# 深層強化学習を用いた多元経済シミュレーションにおける一般均衡の発見

Finding General Equilibria in Many-Agent Economic Simulations Using Deep Reinforcement Learning ( http://arxiv.org/abs/2201.01163v1 )

ライセンス: Link先を確認
Michael Curry, Alexander Trott, Soham Phade, Yu Bai, Stephan Zheng(参考訳) リアルエコノミーは、消費者、企業、政府など、さまざまなタイプの戦略エージェントと相互作用する、多種多様な不完全な情報の連続的なゲームと見なすことができる。 動的一般均衡モデルは、そのようなシステムの経済活動、相互作用、成果をモデル化するための一般的な経済ツールである。 しかし、既存の分析的・計算的手法は、全てのエージェントが戦略的かつ相互作用するときに明らかな平衡を見つけるのに苦労する。 とりわけ重要な理由は、ある経済代理人の行動が他のエージェントの報酬関数(例えば、企業が価格を変えたり、政府が税金を変えたりするときに消費者の使い捨て所得が変わる)を変更する可能性があることである。 マルチエージェント深部強化学習 (RL) は, 構造化学習カリキュラムとGPUのみの効率的なシミュレーションとトレーニングを用いて, 多くのエージェントによる経済シミュレーションにおいて, エプシロン・ナッシュ均衡である安定解を発見することができることを示す。 概念的には、我々のアプローチはより柔軟であり、分析的トラクタビリティに一般的に使用される市場クリアリングのような非現実的な仮定を必要としない。 当社のGPU実装では,適切な時間枠内で多数のエージェントで経済をトレーニングし,分析することが可能です。 当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。 学習したメタゲーム epsilon-nash equilibria を最良応答解析により検証し,rl 政策が経済直観と整合することを示すとともに,オープン rbc モデルにおけるメタゲーム epsilon-nash equilibria のスペクトルを明示的に学習することにより,構成的アプローチを示す。

Real economies can be seen as a sequential imperfect-informatio n game with many heterogeneous, interacting strategic agents of various agent types, such as consumers, firms, and governments. Dynamic general equilibrium models are common economic tools to model the economic activity, interactions, and outcomes in such systems. However, existing analytical and computational methods struggle to find explicit equilibria when all agents are strategic and interact, while joint learning is unstable and challenging. Amongst others, a key reason is that the actions of one economic agent may change the reward function of another agent, e.g., a consumer's expendable income changes when firms change prices or governments change taxes. We show that multi-agent deep reinforcement learning (RL) can discover stable solutions that are epsilon-Nash equilibria for a meta-game over agent types, in economic simulations with many agents, through the use of structured learning curricula and efficient GPU-only simulation and training. Conceptually, our approach is more flexible and does not need unrealistic assumptions, e.g., market clearing, that are commonly used for analytical tractability. Our GPU implementation enables training and analyzing economies with a large number of agents within reasonable time frames, e.g., training completes within a day. We demonstrate our approach in real-business-cycle models, a representative family of DGE models, with 100 worker-consumers, 10 firms, and a government who taxes and redistributes. We validate the learned meta-game epsilon-Nash equilibria through approximate best-response analyses, show that RL policies align with economic intuitions, and that our approach is constructive, e.g., by explicitly learning a spectrum of meta-game epsilon-Nash equilibria in open RBC models.
翻訳日:2022-01-05 13:33:54 公開日:2022-01-03
# ドローンインターネットにおける画像自動認識のためのロバスト半教師付きフェデレーション学習

Robust Semi-supervised Federated Learning for Images Automatic Recognition in Internet of Drones ( http://arxiv.org/abs/2201.01230v1 )

ライセンス: Link先を確認
Zhe Zhang, Shiyao Ma, Zhaohui Yang, Zehui Xiong, Jiawen Kang, Yi Wu, Kejia Zhang and Dusit Niyato(参考訳) エアアクセスネットワークは、様々なモノのインターネット(IoT)サービスやアプリケーションの重要なドライバとして認識されている。 特に、IoT(Internet of Drones)を中心とした航空コンピューティングネットワークのインフラは、画像の自動認識に革命を起こした。 この新たな技術は、無人航空機群(uav)間で地上の真実をラベル付けしたデータを共有し、高品質の自動画像認識モデルを訓練する。 しかし、このアプローチはデータのプライバシとデータ可用性の課題をもたらす。 これらの問題に対処するため,我々はまず,プライバシー保全型uav画像認識のための半教師付き連合学習(ssfl)フレームワークを提案する。 具体的には,フェデレート混合 (federated mixing, fedmix) と呼ばれる2つの現実的なシナリオ (labels-at-client と labels-at-server) において, fl と半教師付き学習手法のネーティブな組み合わせを改善するためのモデルパラメータ混合戦略を提案する。 さらに、異なる環境、すなわち統計的不均一性において異なるカメラモジュールを用いてUAVが収集したローカルデータの数、特徴、分布に有意な違いがある。 統計的不均一性問題を解決するため,我々は,クライアントの学習参加頻度に基づく集約ルール,すなわち,対応する局所モデルの重みをその頻度に応じて調整できるfeedfreq集約ルールを提案する。 その結果,提案手法の性能は現在のベースラインよりも著しく向上し,非iidレベルの異なるクライアントデータに対して頑健であることが判明した。

Air access networks have been recognized as a significant driver of various Internet of Things (IoT) services and applications. In particular, the aerial computing network infrastructure centered on the Internet of Drones has set off a new revolution in automatic image recognition. This emerging technology relies on sharing ground truth labeled data between Unmanned Aerial Vehicle (UAV) swarms to train a high-quality automatic image recognition model. However, such an approach will bring data privacy and data availability challenges. To address these issues, we first present a Semi-supervised Federated Learning (SSFL) framework for privacy-preserving UAV image recognition. Specifically, we propose model parameters mixing strategy to improve the naive combination of FL and semi-supervised learning methods under two realistic scenarios (labels-at-client and labels-at-server), which is referred to as Federated Mixing (FedMix). Furthermore, there are significant differences in the number, features, and distribution of local data collected by UAVs using different camera modules in different environments, i.e., statistical heterogeneity. To alleviate the statistical heterogeneity problem, we propose an aggregation rule based on the frequency of the client's participation in training, namely the FedFreq aggregation rule, which can adjust the weight of the corresponding local model according to its frequency. Numerical results demonstrate that the performance of our proposed method is significantly better than those of the current baseline and is robust to different non-IID levels of client data.
翻訳日:2022-01-05 13:05:38 公開日:2022-01-03
# (参考訳) グラフアウェア強化学習を用いた外交ゲームにおける勝利戦略の同定(学生抽象) [全文訳有]

Using Graph-Aware Reinforcement Learning to Identify Winning Strategies in Diplomacy Games (Student Abstract) ( http://arxiv.org/abs/2112.15331v2 )

ライセンス: CC BY 4.0
Hansin Ahuja, Lynnette Hui Xian Ng, Kokil Jaidka(参考訳) 本稿では,オンライン政治戦略ゲームにおける多人数談話における複雑な社会現象の検出とモデル化の目標指向モデルへのアプローチを提案する。 まず,社会言語学的行動を言語的特徴としてエンコードし,強化学習を用いてプレイヤーに与える利点を推定する2層アプローチを開発した。 第1段階において、他者に影響を与えるために話者が使用する社会言語的行動は、同時二者対話において各プレイヤーが適用する説得的戦略を特定するために言語的特徴として符号化される。 第2層では、強化学習手法を用いて、グラフ認識報酬関数を推定し、この多人数構成において、各プレイヤーに与えられる利点を定量化する。 78人のユーザ間で15,000以上のメッセージを交換するデータセットを用いて,この手法をゲーム外交に適用する。 我々のグラフ認識アプローチは、コンテキストに依存しないセットアップに比べて堅牢なパフォーマンスを示している。

This abstract proposes an approach towards goal-oriented modeling of the detection and modeling complex social phenomena in multiparty discourse in an online political strategy game. We developed a two-tier approach that first encodes sociolinguistic behavior as linguistic features then use reinforcement learning to estimate the advantage afforded to any player. In the first tier, sociolinguistic behavior, such as Friendship and Reasoning, that speakers use to influence others are encoded as linguistic features to identify the persuasive strategies applied by each player in simultaneous two-party dialogues. In the second tier, a reinforcement learning approach is used to estimate a graph-aware reward function to quantify the advantage afforded to each player based on their standing in this multiparty setup. We apply this technique to the game Diplomacy, using a dataset comprising of over 15,000 messages exchanged between 78 users. Our graph-aware approach shows robust performance compared to a context-agnostic setup.
翻訳日:2022-01-05 11:48:49 公開日:2022-01-03
# (参考訳) SLICO超画素制約下での対色色対のLTPテクスチャ特性による局所物体検出 [全文訳有]

Salient Object Detection by LTP Texture Characterization on Opposing Color Pairs under SLICO Superpixel Constraint ( http://arxiv.org/abs/2201.00439v1 )

ライセンス: CC BY 4.0
Didier Ndayikengurukiye and Max Mignotte(参考訳) 人間によるサルエント物体の無力な検出は、多くの応用があるため、コンピュータビジョンを含むいくつかの分野の研究の対象となっている。 しかし、色やテクスチャ画像を扱う多くのコンピュータモデルにとって、サルエント物体検出は依然として課題である。 そこで本研究では,自然画像に対してロバストなサリエンシーマップを生成する,内部パラメータをほとんど含まない単純なモデルによる新しい効率的な戦略を提案する。 この戦略は、色情報を局所的なテクスチャパターンに統合し、色のマイクロテクスチャを特徴付ける。 色とテクスチャの特徴を使用する文学のほとんどのモデルは、それらを別々に扱う。 我々の場合、色空間の反対色対に適用されるシンプルで強力なLTPテクスチャ記述子であり、この目的を達成することができる。 各色マイクロテクスチャは、単純で高速で最先端のバウンダリ接着を示すslico(simple linear iterative clustering with zero parameter)アルゴリズムによって得られたスーパーピクセルからコンポーネントが生成されるベクトルによって表現される。 MDS(Multi-dimensiona l Scaling)の高速バージョンであるFastMap法では,各色のマイクロテクスチャ間の相違度を計算し,その距離を保ちながら色のマイクロテクスチャの非線形性を考慮した。 これらの相似性の次数は、RGB, HSL, LUV, CMYの各色空間に対する中間正則写像を与える。 最後のサリエンシマップは、それぞれの強さを利用するための組み合わせである。 MAE(Mean Absolute Error)とF$_{\beta}は、複雑なECSSDデータセット上で、我々のモデルは単純かつ効率的であり、最先端のモデルよりも優れていることを示している。

The effortless detection of salient objects by humans has been the subject of research in several fields, including computer vision as it has many applications. However, salient object detection remains a challenge for many computer models dealing with color and textured images. Herein, we propose a novel and efficient strategy, through a simple model, almost without internal parameters, which generates a robust saliency map for a natural image. This strategy consists of integrating color information into local textural patterns to characterize a color micro-texture. Most models in the literature that use the color and texture features treat them separately. In our case, it is the simple, yet powerful LTP (Local Ternary Patterns) texture descriptor applied to opposing color pairs of a color space that allows us to achieve this end. Each color micro-texture is represented by vector whose components are from a superpixel obtained by SLICO (Simple Linear Iterative Clustering with zero parameter) algorithm which is simple, fast and exhibits state-of-the-art boundary adherence. The degree of dissimilarity between each pair of color micro-texture is computed by the FastMap method, a fast version of MDS (Multi-dimensional Scaling), that considers the color micro-textures non-linearity while preserving their distances. These degrees of dissimilarity give us an intermediate saliency map for each RGB, HSL, LUV and CMY color spaces. The final saliency map is their combination to take advantage of the strength of each of them. The MAE (Mean Absolute Error) and F$_{\beta}$ measures of our saliency maps, on the complex ECSSD dataset show that our model is both simple and efficient, outperforming several state-of-the-art models.
翻訳日:2022-01-04 19:53:44 公開日:2022-01-03
# (参考訳) Computed Tomography Scan(LOTUS)ベンチマークによる肺摘出腫瘍切除 [全文訳有]

Lung-Originated Tumor Segmentation from Computed Tomography Scan (LOTUS) Benchmark ( http://arxiv.org/abs/2201.00458v1 )

ライセンス: CC BY 4.0
Parnian Afshar, Arash Mohammadi, Konstantinos N. Plataniotis, Keyvan Farahani, Justin Kirby, Anastasia Oikonomou, Amir Asif, Leonard Wee, Andre Dekker, Xin Wu, Mohammad Ariful Haque, Shahruk Hossain, Md. Kamrul Hasan, Uday Kamal, Winston Hsu, Jhih-Yuan Lin, M. Sohel Rahman, Nabil Ibtehaz, Sh. M. Amir Foisol, Kin-Man Lam, Zhong Guang, Runze Zhang, Sumohana S. Channappayya, Shashank Gupta, Chander Dev(参考訳) 肺癌は最も致命的ながんの1つであり、その効果的な診断と治療は腫瘍の正確な脱線に依存する。 現在最も一般的なアプローチである人間中心のセグメンテーションは、専門家だけがアノテーションを提供することができるという事実を考慮すると、オブザーバ間変動の対象となるだけでなく、時間もかかる。 自動および半自動腫瘍分割法は近年,有望な結果を示している。 しかしながら、さまざまな研究者がさまざまなデータセットとパフォーマンスメトリクスを使用してアルゴリズムを検証しているため、これらの手法を確実に評価することは依然として難しい課題である。 Computed Tomography Scan (LOTUS)ベンチマークによるLung-Originated tumor Segmentationの目標は、2018年のIEEE Video and Image Processing (VIP) Cupコンペティションを通じて作成された、独自のデータセットと事前定義されたメトリクスを提供することである。 2018年のVIPカップは、42か国から競争データにアクセスするための世界的な参加から始まった。 登録段階では、10か国から28チームに129人が集結し、そのうち9チームが最終ステージに進み、6チームが必要なすべてのタスクを完遂した。 簡単に言えば、競争中に提案されたアルゴリズムはすべて、偽陽性還元手法と組み合わせたディープラーニングモデルに基づいている。 3人のファイナリストによって開発された方法は、腫瘍の分画に有望な結果を示すが、偽陽性率の低減にもっと努力する必要がある。 本論文は,提案したアルゴリズムと結果とともに,VIP-Cupチャレンジの概要を示す。

Lung cancer is one of the deadliest cancers, and in part its effective diagnosis and treatment depend on the accurate delineation of the tumor. Human-centered segmentation, which is currently the most common approach, is subject to inter-observer variability, and is also time-consuming, considering the fact that only experts are capable of providing annotations. Automatic and semi-automatic tumor segmentation methods have recently shown promising results. However, as different researchers have validated their algorithms using various datasets and performance metrics, reliably evaluating these methods is still an open challenge. The goal of the Lung-Originated Tumor Segmentation from Computed Tomography Scan (LOTUS) Benchmark created through 2018 IEEE Video and Image Processing (VIP) Cup competition, is to provide a unique dataset and pre-defined metrics, so that different researchers can develop and evaluate their methods in a unified fashion. The 2018 VIP Cup started with a global engagement from 42 countries to access the competition data. At the registration stage, there were 129 members clustered into 28 teams from 10 countries, out of which 9 teams made it to the final stage and 6 teams successfully completed all the required tasks. In a nutshell, all the algorithms proposed during the competition, are based on deep learning models combined with a false positive reduction technique. Methods developed by the three finalists show promising results in tumor segmentation, however, more effort should be put into reducing the false positive rate. This competition manuscript presents an overview of the VIP-Cup challenge, along with the proposed algorithms and results.
翻訳日:2022-01-04 19:38:26 公開日:2022-01-03
# (参考訳) 教師なし異常検出のための自己学習型適応記憶ネットワーク [全文訳有]

Adaptive Memory Networks with Self-supervised Learning for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2201.00464v1 )

ライセンス: CC BY 4.0
Yuxin Zhang, Jindong Wang, Yiqiang Chen, Han Yu, Tao Qin(参考訳) 教師なし異常検出(unsupervised anomaly detection)は、通常のデータのみをトレーニングすることで、見えない異常を効果的に検出するモデルを構築することを目的としている。 従来の再建法は実りある進歩を遂げたものの,2つの重要な課題があるため,その一般化能力は限られている。 まず、トレーニングデータセットは通常のパターンのみを含み、モデルの一般化能力を制限する。 第二に、既存のモデルによって学習される特徴表現は、通常パターンの多様性を保つ能力を妨げる代表性に欠けることが多い。 本稿では、これらの課題に対処し、教師なし異常検出における一般化能力を高めるために、AMSL(Adaptive Memory Network)と呼ばれる新しいアプローチを提案する。 AMSLは、畳み込みオートエンコーダ構造に基づいて、一般的な正規パターンを学習するための自己教師付き学習モジュールと、リッチな特徴表現を学習するための適応メモリ融合モジュールを組み込んでいる。 4つの公開多変量時系列データセットの実験により、AMSLは他の最先端の手法に比べて性能が大幅に向上することが示された。 特に、9億のサンプルを持つ最大のキャップスリープステージ検出データセットでは、amslは精度とf1スコアの両方において2番目に優れたベースラインである \textbf{4}\%+ を上回る。 一般化能力の強化とは別に、AMSLは入力ノイズに対してより堅牢である。

Unsupervised anomaly detection aims to build models to effectively detect unseen anomalies by only training on the normal data. Although previous reconstruction-based methods have made fruitful progress, their generalization ability is limited due to two critical challenges. First, the training dataset only contains normal patterns, which limits the model generalization ability. Second, the feature representations learned by existing models often lack representativeness which hampers the ability to preserve the diversity of normal patterns. In this paper, we propose a novel approach called Adaptive Memory Network with Self-supervised Learning (AMSL) to address these challenges and enhance the generalization ability in unsupervised anomaly detection. Based on the convolutional autoencoder structure, AMSL incorporates a self-supervised learning module to learn general normal patterns and an adaptive memory fusion module to learn rich feature representations. Experiments on four public multivariate time series datasets demonstrate that AMSL significantly improves the performance compared to other state-of-the-art methods. Specifically, on the largest CAP sleep stage detection dataset with 900 million samples, AMSL outperforms the second-best baseline by \textbf{4}\%+ in both accuracy and F1 score. Apart from the enhanced generalization ability, AMSL is also more robust against input noise.
翻訳日:2022-01-04 19:08:35 公開日:2022-01-03
# (参考訳) 深層強化学習と注意機構を用いた動的ジョブショップスケジューリングのためのハイブリッドインテリジェンス [全文訳有]

Hybrid intelligence for dynamic job-shop scheduling with deep reinforcement learning and attention mechanism ( http://arxiv.org/abs/2201.00548v1 )

ライセンス: CC BY 4.0
Yunhui Zeng, Zijun Liao, Yuanzhi Dai, Rong Wang, Xiu Li, Bo Yuan(参考訳) 動的ジョブショップスケジューリング問題(dynamic job-shop scheduling problem, djsp)は、現実的なスマート製造環境での注文要求の変更や機械の故障など、本質的に不確実性を考慮したスケジューリングタスクのクラスである。 従来の手法では環境の乱れに直面して効果的なスケジューリング戦略を動的に生成できないため、DJSPをマルコフ決定過程(MDP)として定式化し、強化学習(RL)に対処する。 そこで本研究では,分割グラフを状態とするフレキシブルなハイブリッドフレームワークと,最小の事前ドメイン知識を持つアクション空間としての一般ディスパッチルールの集合を提案する。 このアテンション機構は、状態の特徴抽出のためのグラフ表現学習(GRL)モジュールとして使用され、各状態を最も適切なディスパッチルールにマッピングするために、優先リプレイとノイズネットワーク(D3QPN)を備えたダブルデュエルディープQネットワークが使用される。 さらに、有名なOR-Libraryに基づく公開ベンチマークであるGymjspを紹介し、RLおよびDJSP研究コミュニティのための標準化されたオフザシェルフ施設を提供する。 各種DJSPインスタンスの総合的な実験により,提案するフレームワークは,全インスタンスにまたがるスムスパンの少ないベースラインアルゴリズムよりも優れており,ハイブリッドフレームワークにおける各種コンポーネントの有効性を実証的に正当化できることを確認した。

The dynamic job-shop scheduling problem (DJSP) is a class of scheduling tasks that specifically consider the inherent uncertainties such as changing order requirements and possible machine breakdown in realistic smart manufacturing settings. Since traditional methods cannot dynamically generate effective scheduling strategies in face of the disturbance of environments, we formulate the DJSP as a Markov decision process (MDP) to be tackled by reinforcement learning (RL). For this purpose, we propose a flexible hybrid framework that takes disjunctive graphs as states and a set of general dispatching rules as the action space with minimum prior domain knowledge. The attention mechanism is used as the graph representation learning (GRL) module for the feature extraction of states, and the double dueling deep Q-network with prioritized replay and noisy networks (D3QPN) is employed to map each state to the most appropriate dispatching rule. Furthermore, we present Gymjsp, a public benchmark based on the well-known OR-Library, to provide a standardized off-the-shelf facility for RL and DJSP research communities. Comprehensive experiments on various DJSP instances confirm that our proposed framework is superior to baseline algorithms with smaller makespan across all instances and provide empirical justification for the validity of the various components in the hybrid framework.
翻訳日:2022-01-04 18:40:33 公開日:2022-01-03
# (参考訳) 知覚課題における深部ニューラルネットワークのファジィ論理検証のための概念埋め込み [全文訳有]

Concept Embeddings for Fuzzy Logic Verification of Deep Neural Networks in Perception Tasks ( http://arxiv.org/abs/2201.00572v1 )

ライセンス: CC BY-SA 4.0
Gesina Schwalbe, Christian Wirth, Ute Schmid(参考訳) センシティブなアプリケーションドメインで使用するディープニューラルネットワーク(DNN)の大きな欠点のひとつは、そのブラックボックスの性質にある。 これにより、複雑なシンボリック要件の検証や監視が困難になります。 本研究では、訓練された畳み込みニューラルネットワーク(CNN)が特定の記号的背景知識を尊重するかどうかを検証するための、単純で効果的なアプローチを提案する。 知識はファジィ述語論理規則から成りうる。 まず、概念埋め込み分析を用いて、コンピュータビジョンCNNの出力は概念出力によって強化され、第2に、先行知識からの論理ルールはファジィ化され、概念出力の連続値関数として機能する。 これらは計算オーバーヘッドが少なく評価できる。 本手法の最先端オブジェクト検出器における多種多様な利用例として,コーナーケースの発見,実行中のDNN誤動作の検出と局所化のルールの利用,DNNの論理的整合性の比較,の3つを挙げる。 後者は、EfficientDet D1とMask R-CNNオブジェクト検出器間の関連する差異を見つけるために用いられる。 このアプローチはファジィ性と概念出力の校正の恩恵を受けていることを示す。

One major drawback of deep neural networks (DNNs) for use in sensitive application domains is their black-box nature. This makes it hard to verify or monitor complex, symbolic requirements. In this work, we present a simple, yet effective, approach to verify whether a trained convolutional neural network (CNN) respects specified symbolic background knowledge. The knowledge may consist of any fuzzy predicate logic rules. For this, we utilize methods from explainable artificial intelligence (XAI): First, using concept embedding analysis, the output of a computer vision CNN is post-hoc enriched by concept outputs; second, logical rules from prior knowledge are fuzzified to serve as continuous-valued functions on the concept outputs. These can be evaluated with little computational overhead. We demonstrate three diverse use-cases of our method on stateof-the-art object detectors: Finding corner cases, utilizing the rules for detecting and localizing DNN misbehavior during runtime, and comparing the logical consistency of DNNs. The latter is used to find related differences between EfficientDet D1 and Mask R-CNN object detectors. We show that this approach benefits from fuzziness and calibrating the concept outputs.
翻訳日:2022-01-04 18:18:16 公開日:2022-01-03
# (参考訳) ゼロショット学習のための逐次接地型ビジュアル埋め込み [全文訳有]

Semantically Grounded Visual Embeddings for Zero-Shot Learning ( http://arxiv.org/abs/2201.00577v1 )

ライセンス: CC BY 4.0
Shah Nawaz, Jacopo Cavazza, Alessio Del Bue(参考訳) ゼロショット学習法は、独立した視覚と言語モデルから抽出された固定された視覚と意味の埋め込みに依存し、どちらも他の大規模タスクのために事前訓練されている。 これは、現在のゼロショット学習フレームワークの弱点であり、このような非結合な埋め込みは、視覚的およびテキスト的情報を共有セマンティックコンテンツと適切に関連付けることができない。 そこで本稿では,プロキシタスク上で2ストリームネットワークを用いた共同画像とテキストモデルを計算し,セマンティックグラウンドとリッチな視覚情報について学習する。 属性によって提供される画像とテキストの表現のアライメントを改善するために,アシラリーキャプションを活用し,基礎となるセマンティック情報を提供する。 提案手法は, ゼロショット学習のためのジョイント埋め込みをいくつかのベンチマークデータセットで評価し, 既存の最先端手法を標準で+1.6$\%(aPYで+2.6\%, FLOで$2.1\%) と一般化した+2.1\%(AWAで+2.2\%, CUBで$2.2\%) の両方で評価した。

Zero-shot learning methods rely on fixed visual and semantic embeddings, extracted from independent vision and language models, both pre-trained for other large-scale tasks. This is a weakness of current zero-shot learning frameworks as such disjoint embeddings fail to adequately associate visual and textual information to their shared semantic content. Therefore, we propose to learn semantically grounded and enriched visual information by computing a joint image and text model with a two-stream network on a proxy task. To improve this alignment between image and textual representations, provided by attributes, we leverage ancillary captions to provide grounded semantic information. Our method, dubbed joint embeddings for zero-shot learning is evaluated on several benchmark datasets, improving the performance of existing state-of-the-art methods in both standard ($+1.6$\% on aPY, $+2.6\%$ on FLO) and generalized ($+2.1\%$ on AWA$2$, $+2.2\%$ on CUB) zero-shot recognition.
翻訳日:2022-01-04 17:49:17 公開日:2022-01-03
# (参考訳) 「動き続ける」 -- 教師付き学習による発明者の民族起源の調査

'Moving On' -- Investigating Inventors' Ethnic Origins Using Supervised Learning ( http://arxiv.org/abs/2201.00578v1 )

ライセンス: CC BY-SA 4.0
Matthias Niggli(参考訳) 特許データは技術発明に関する豊富な情報を提供するが、発明者の民族的起源を開示していない。 本稿では,教師あり学習技術を用いてその情報を推測する。 そのために、95'202ラベル付き名前のデータセットを構築し、長期記憶(LSTM)を用いた人工的リカレントニューラルネットワークをトレーニングし、名前に基づいて民族起源を予測する。 訓練されたネットワークは17の民族で91%のパフォーマンスを達成した。 私はこのモデルを用いて、268万人の発明家の民族起源を分類・調査し、その民族起源の構成に関する新しい記述的証拠を国や技術分野にわたって提供します。 グローバルな民族起源の組成はここ数十年で多様化しており、主にアジア起源の発明者が相対的に増加したためである。 さらに、外国のオリジン発明家の普及率は特に米国において高いが、他の高所得経済においても増加している。 この増加は、主に非西洋の発明家がアメリカの新興ハイテク分野に流入することによるものであったが、他の高所得国はそうではなかった。

Patent data provides rich information about technical inventions, but does not disclose the ethnic origin of inventors. In this paper, I use supervised learning techniques to infer this information. To do so, I construct a dataset of 95'202 labeled names and train an artificial recurrent neural network with long-short-term memory (LSTM) to predict ethnic origins based on names. The trained network achieves an overall performance of 91% across 17 ethnic origins. I use this model to classify and investigate the ethnic origins of 2.68 million inventors and provide novel descriptive evidence regarding their ethnic origin composition over time and across countries and technological fields. The global ethnic origin composition has become more diverse over the last decades, which was mostly due to a relative increase of Asian origin inventors. Furthermore, the prevalence of foreign-origin inventors is especially high in the USA, but has also increased in other high-income economies. This increase was mainly driven by an inflow of non-western inventors into emerging high-technology fields for the USA, but not for other high-income countries.
翻訳日:2022-01-04 17:33:42 公開日:2022-01-03
# (参考訳) 遺伝的鯨最適化アルゴリズムとサンプル分類を用いた特徴選択に基づく侵入検知システム [全文訳有]

Feature Selection-based Intrusion Detection System Using Genetic Whale Optimization Algorithm and Sample-based Classification ( http://arxiv.org/abs/2201.00584v1 )

ライセンス: CC BY 4.0
Amir Mojtahedi, Farid Sorouri, Alireza Najafi Souha, Aidin Molazadeh, Saeedeh Shafaei Mehr(参考訳) 無線ネットワークへの侵入や攻撃の防止と検出は、重要かつ深刻な課題となっている。 一方、無線ノードの資源が限られているため、無線センサネットワークにおける侵入や攻撃を防止・検出するために、恒久的な監視のために監視ノードを使用することは事実上存在しない。 そのため、この問題を解決するための解決策は遠隔制御システムの議論であり、様々な分野の関心事の一つとなっている。 無線センサネットワークにおけるノードのパフォーマンスと動作のリモート監視,ネットワーク内の悪意のあるノードの検出に加えて,将来的な悪意のあるノード動作の予測も可能になる。 本研究では,クジラ最適化アルゴリズム (woa) と遺伝的アルゴリズム (ga) の組み合わせとサンプルベース分類を組み合わせた特徴選択を用いたネットワーク侵入検出システムを提案する。 本研究では,ネットワーク内の攻撃のタイプに基づいて,健康ノードや悪意のあるノードの種類に関する特徴を格納する標準データセットであるkddcup1999を用いている。 提案手法は,Whale最適化アルゴリズムと遺伝的アルゴリズムを組み合わせた特徴選択と,KNN分類を精度基準として組み合わせ,他の手法よりも優れた結果が得られる。 このことから、鯨の最適化アルゴリズムと遺伝的アルゴリズムは、クラスラベルに関する特徴をよく抽出し、kn法は無線ネットワークに設定された侵入検出データの不正なノードを適切に検出することができたと言える。

Preventing and detecting intrusions and attacks on wireless networks has become an important and serious challenge. On the other hand, due to the limited resources of wireless nodes, the use of monitoring nodes for permanent monitoring in wireless sensor networks in order to prevent and detect intrusion and attacks in this type of network is practically non-existent. Therefore, the solution to overcome this problem today is the discussion of remote-control systems and has become one of the topics of interest in various fields. Remote monitoring of node performance and behavior in wireless sensor networks, in addition to detecting malicious nodes within the network, can also predict malicious node behavior in future. In present research, a network intrusion detection system using feature selection based on a combination of Whale optimization algorithm (WOA) and genetic algorithm (GA) and sample-based classification is proposed. In this research, the standard data set KDDCUP1999 has been used in which the characteristics related to healthy nodes and types of malicious nodes are stored based on the type of attacks in the network. The proposed method is based on the combination of feature selection based on Whale optimization algorithm and genetic algorithm with KNN classification in terms of accuracy criteria, has better results than other previous methods. Based on this, it can be said that the Whale optimization algorithm and the genetic algorithm have extracted the features related to the class label well, and the KNN method has been able to well detect the misconduct nodes in the intrusion detection data set in wireless networks.
翻訳日:2022-01-04 17:32:41 公開日:2022-01-03
# (参考訳) 多言語性ソーシャルメディアコンテンツに対する毒性検出 [全文訳有]

Toxicity Detection for Indic Multilingual Social Media Content ( http://arxiv.org/abs/2201.00598v1 )

ライセンス: CC BY 4.0
Manan Jhaveri, Devanshu Ramaiya, Harveen Singh Chadha(参考訳) トックスコンテンツは、今日のソーシャルメディアプラットフォームにとって最も重要な問題の一つだ。 2020年にはインドだけで5億1800万人のソーシャルメディアユーザーがいた。 コンテンツクリエイターとそのオーディエンスに良い体験を提供するには、有害なコメントとそれを投稿するユーザーにフラグを付けることが不可欠である。 しかし、大きな課題は、同じテキストの複数の表現が存在するため、低資源のindic言語の毒性を特定することである。 さらに、ソーシャルメディア上の投稿/投稿は、特定の形式、文法、文構造に準拠せず、多言語ソーシャルメディアプラットフォームでは、乱用検出のタスクがさらに困難になる。 本稿では,ShareChat/Mojのデータを用いて,チーム 'Moj Masti' が提案するシステムについて述べる。 我々は、多言語トランスフォーマーに基づく事前訓練および微調整モデルを用いて、コード混在/コード切替型分類タスクにアプローチする方法に焦点をあてる。 我々の最高の演奏システムはXLM-RoBERTaとMuRILのアンサンブルであり、テストデータ/リーダーボードで平均F-1スコアが0.9に達した。 また,文字変換データの追加による性能向上も観察した。 さらに,弱いメタデータやセンシムリング,ポストプロセッシング技術を用いることで,システムの性能が向上し,リーダボードに第1位が配置された。

Toxic content is one of the most critical issues for social media platforms today. India alone had 518 million social media users in 2020. In order to provide a good experience to content creators and their audience, it is crucial to flag toxic comments and the users who post that. But the big challenge is identifying toxicity in low resource Indic languages because of the presence of multiple representations of the same text. Moreover, the posts/comments on social media do not adhere to a particular format, grammar or sentence structure; this makes the task of abuse detection even more challenging for multilingual social media platforms. This paper describes the system proposed by team 'Moj Masti' using the data provided by ShareChat/Moj in \emph{IIIT-D Multilingual Abusive Comment Identification} challenge. We focus on how we can leverage multilingual transformer based pre-trained and fine-tuned models to approach code-mixed/code-swit ched classification tasks. Our best performing system was an ensemble of XLM-RoBERTa and MuRIL which achieved a Mean F-1 score of 0.9 on the test data/leaderboard. We also observed an increase in the performance by adding transliterated data. Furthermore, using weak metadata, ensembling and some post-processing techniques boosted the performance of our system, thereby placing us 1st on the leaderboard.
翻訳日:2022-01-04 17:20:23 公開日:2022-01-03
# (参考訳) fixmatchを用いた半教師付き学習におけるラベル付きデータのオーバーサンプリング分析 [全文訳有]

An analysis of over-sampling labeled data in semi-supervised learning with FixMatch ( http://arxiv.org/abs/2201.00604v1 )

ライセンス: CC BY 4.0
Miquel Mart\'i i Rabad\'an, Sebastian Bujwid, Alessandro Pieropan, Hossein Azizpour, Atsuto Maki(参考訳) ほとんどの半教師付き学習手法は、ミニバッチを訓練する際にラベルをオーバーサンプルする。 本稿では,この実践が学習と方法を改善するかどうかを考察する。 各ミニバッチは、ラベル付けの有無に関わらず、トレーニングデータから一様にサンプリングされ、典型的な低ラベル方式における真のラベルからの直接的な監督を大幅に削減する、という代替設定と比較する。 しかし、この単純な設定は、ラベル付きデータのオーバーサンプリングが困難になるマルチタスク問題において、より一般的で必要であると見なすこともできる。 FixMatch を用いた半教師付き CIFAR-10 画像分類実験は,ラベル付きデータの量やトレーニング時間の増加に伴って低下する一様サンプリング手法を用いて,性能低下を示す。 さらに,ラベル付きデータのオーバーサンプリングと一様サンプリングの比較を理解するために,トレーニングダイナミクスを分析した。 我々の主な発見は、オーバーサンプリングはトレーニングの初期段階では特に有益であるが、偽ラベルがより正しくなると、後期では重要度が低下することです。 それにもかかわらず、偽ラベルの確認誤りの蓄積を避けるために、真のラベルを保持することは依然として重要である。

Most semi-supervised learning methods over-sample labeled data when constructing training mini-batches. This paper studies whether this common practice improves learning and how. We compare it to an alternative setting where each mini-batch is uniformly sampled from all the training data, labeled or not, which greatly reduces direct supervision from true labels in typical low-label regimes. However, this simpler setting can also be seen as more general and even necessary in multi-task problems where over-sampling labeled data would become intractable. Our experiments on semi-supervised CIFAR-10 image classification using FixMatch show a performance drop when using the uniform sampling approach which diminishes when the amount of labeled data or the training time increases. Further, we analyse the training dynamics to understand how over-sampling of labeled data compares to uniform sampling. Our main finding is that over-sampling is especially beneficial early in training but gets less important in the later stages when more pseudo-labels become correct. Nevertheless, we also find that keeping some true labels remains important to avoid the accumulation of confirmation errors from incorrect pseudo-labels.
翻訳日:2022-01-04 17:14:49 公開日:2022-01-03
# (参考訳) GAT-CADNet:CAD描画におけるパノプティカルシンボルスポッティングのためのグラフ注意ネットワーク [全文訳有]

GAT-CADNet: Graph Attention Network for Panoptic Symbol Spotting in CAD Drawings ( http://arxiv.org/abs/2201.00625v1 )

ライセンス: CC BY 4.0
Zhaohua Zheng, Jianfang Li(参考訳) コンピュータ支援設計(cad)の図面からグラフィカルシンボルを見つけることは、多くの産業応用に不可欠である。 ラスター画像と異なり、cad描画はセグメント、弧、円といった幾何学的プリミティブからなるベクトルグラフィックスである。 本稿では,各CAD図面をグラフとして扱うことにより,GAT-CADNetという新しいグラフアテンションネットワークを提案し,GATブランチから派生した頂点特徴をセマンティックラベルにマッピングし,注目スコアをカスケードしてインスタンス予測にマッピングする。 私たちの重要な貢献は3倍です。 1) インスタンスシンボルスポッティングタスクは,サブグラフ検出問題として定式化し,隣接行列を予測して解決する。 2 相対空間符号化(RSE)モジュールは、頂点の相対的な位置及び幾何学的関係を明示的に符号化し、頂点の注意を高める。 3)カスケードエッジ符号化(CEE)モジュールは,GATの複数の段階から頂点注意を抽出し,それをエッジ符号化として扱い,隣接行列を予測する。 提案したGAT-CADNetは直感的だが有効であり, 一つの統合ネットワークにおける汎視的シンボルスポッティング問題を解決する。 公開ベンチマークにおける広範な実験とアブレーションの研究は、グラフベースのアプローチが既存の最先端の手法を大きく上回っていることを示している。

Spotting graphical symbols from the computer-aided design (CAD) drawings is essential to many industrial applications. Different from raster images, CAD drawings are vector graphics consisting of geometric primitives such as segments, arcs, and circles. By treating each CAD drawing as a graph, we propose a novel graph attention network GAT-CADNet to solve the panoptic symbol spotting problem: vertex features derived from the GAT branch are mapped to semantic labels, while their attention scores are cascaded and mapped to instance prediction. Our key contributions are three-fold: 1) the instance symbol spotting task is formulated as a subgraph detection problem and solved by predicting the adjacency matrix; 2) a relative spatial encoding (RSE) module explicitly encodes the relative positional and geometric relation among vertices to enhance the vertex attention; 3) a cascaded edge encoding (CEE) module extracts vertex attentions from multiple stages of GAT and treats them as edge encoding to predict the adjacency matrix. The proposed GAT-CADNet is intuitive yet effective and manages to solve the panoptic symbol spotting problem in one consolidated network. Extensive experiments and ablation studies on the public benchmark show that our graph-based approach surpasses existing state-of-the-art methods by a large margin.
翻訳日:2022-01-04 16:34:47 公開日:2022-01-03
# (参考訳) 微調整画像ネットモデルによる病理画像の特徴抽出の改善 [全文訳有]

Improving Feature Extraction from Histopathological Images Through A Fine-tuning ImageNet Model ( http://arxiv.org/abs/2201.00636v1 )

ライセンス: CC BY 4.0
Xingyu Li, Min Cen, Jinfeng Xu, Hong Zhang, Xu Steven Xu(参考訳) デジタル病理学の分野において、情報伝達学習が主流であり、imagenetデータベースに基づく事前学習されたニューラルネットワークは、「棚から」特徴を抽出するためによく用いられ、組織の種類、分子的特徴、臨床結果などの予測に大きな成功を収めている。 We hypothesize that fine-tuning the pre-trained models using histopathological images could further improve feature extraction, and downstream prediction performance.We used 100,000 annotated HE image patches for colorectal cancer (CRC) to finetune a pretrained Xception model via a twostep approach.The features extracted from finetuned Xception (FTX2048) model and Imagepretrained (IMGNET2048) model were compared through: (1) tissue classification for HE images from CRC, same image type that was used for finetuning; (2) prediction of immunerelated gene expression and (3) gene mutations for lung adenocarcinoma (LUAD). 5倍のクロス検証をモデル性能評価に用いた。 微細構造FTX2048から抽出した特徴は,ImageNetデータベースをベースとしたXceptionの市販品と比べ,CRCの歯列型を予測する精度が有意に高かった。 特にFTX2048はストローマの精度を87%から94%に改善した。 同様に、FTX2048の特徴は、LUADにおける免疫関連遺伝子の転写学的発現の予測を促進させた。 画像フェチュアと有意な関係を持つ遺伝子について、fgromの微調整モデルの特徴は、ほとんどの遺伝子に対する予測を妨げた。 FTX2048の胎児は、LUADで最も頻繁に変異される遺伝子9つのうち5つの変異の予測を改善した。

Due to lack of annotated pathological images, transfer learning has been the predominant approach in the field of digital pathology.Pre-traine d neural networks based on ImageNet database are often used to extract "off the shelf" features, achieving great success in predicting tissue types, molecular features, and clinical outcomes, etc. We hypothesize that fine-tuning the pre-trained models using histopathological images could further improve feature extraction, and downstream prediction performance.We used 100,000 annotated HE image patches for colorectal cancer (CRC) to finetune a pretrained Xception model via a twostep approach.The features extracted from finetuned Xception (FTX2048) model and Imagepretrained (IMGNET2048) model were compared through: (1) tissue classification for HE images from CRC, same image type that was used for finetuning; (2) prediction of immunerelated gene expression and (3) gene mutations for lung adenocarcinoma (LUAD).Fivefold cross validation was used for model performance evaluation. The extracted features from the finetuned FTX2048 exhibited significantly higher accuracy for predicting tisue types of CRC compared to the off the shelf feature directly from Xception based on ImageNet database. Particularly, FTX2048 markedly improved the accuracy for stroma from 87% to 94%. Similarly, features from FTX2048 boosted the prediction of transcriptomic expression of immunerelated genesin LUAD. For the genes that had signigicant relationships with image fetures, the features fgrom the finetuned model imprroved the prediction for the majority of the genes. Inaddition, fetures from FTX2048 improved prediction of mutation for 5 out of 9 most frequently mutated genes in LUAD.
翻訳日:2022-01-04 16:03:17 公開日:2022-01-03
# 凝縮物質系における一般化力場機械学習モデルの記述子

Descriptors for Machine Learning Model of Generalized Force Field in Condensed Matter Systems ( http://arxiv.org/abs/2201.00798v1 )

ライセンス: Link先を確認
Puhan Zhang, Sheng Zhang, Gia-Wei Chern(参考訳) 本稿では, 凝縮物系の多スケール力学モデリングのための機械学習(ml)手法の汎用フレームワーク, 特に強相関電子モデルについて概説する。 これらの系における複雑な空間的時間的挙動は、準粒子と局所格子歪み、スピン、秩序パラメータのような創発的な動的古典的自由度との相互作用から生じることが多い。 提案手法の中心となるのがMLエネルギーモデルであり、時間を要する電子構造計算をうまくエミュレートすることで、中間領域の古典場に基づいて局所エネルギーを正確に予測することができる。 電子ハミルトニアンの対称性を適切に含むために、MLエネルギーモデルの重要な構成要素は、近傍の配置を学習モデルに入力される不変な特徴変数に変換する記述子である。 古典体の記述子の一般的な理論が定式化され、2種類のモデルが古典体の内部対称性の有無によって区別される。 古典体の記述子に対するいくつかの具体的なアプローチが提示される。 双スペクトル係数に基づく不変量を計算するための体系的かつ厳密なアプローチを提供する群論的手法に着目した。 本稿では,参照既約表現の概念に基づくbispectrum法の効率的な実装を提案する。 最後に、様々な記述子の実装をよく知られた電子格子モデルで示す。

We outline the general framework of machine learning (ML) methods for multi-scale dynamical modeling of condensed matter systems, and in particular of strongly correlated electron models. Complex spatial temporal behaviors in these systems often arise from the interplay between quasi-particles and the emergent dynamical classical degrees of freedom, such as local lattice distortions, spins, and order-parameters. Central to the proposed framework is the ML energy model that, by successfully emulating the time-consuming electronic structure calculation, can accurately predict a local energy based on the classical field in the intermediate neighborhood. In order to properly include the symmetry of the electron Hamiltonian, a crucial component of the ML energy model is the descriptor that transforms the neighborhood configuration into invariant feature variables, which are input to the learning model. A general theory of the descriptor for the classical fields is formulated, and two types of models are distinguished depending on the presence or absence of an internal symmetry for the classical field. Several specific approaches to the descriptor of the classical fields are presented. Our focus is on the group-theoretical method that offers a systematic and rigorous approach to compute invariants based on the bispectrum coefficients. We propose an efficient implementation of the bispectrum method based on the concept of reference irreducible representations. Finally, the implementations of the various descriptors are demonstrated on well-known electronic lattice models.
翻訳日:2022-01-04 15:54:21 公開日:2022-01-03
# 非定常帯域を用いた反復クールノーゲームにおける学習

Using Non-Stationary Bandits for Learning in Repeated Cournot Games with Non-Stationary Demand ( http://arxiv.org/abs/2201.00486v1 )

ライセンス: Link先を確認
Kshitija Taywade, Brent Harrison, Judy Goldsmith(参考訳) 繰り返し行われるクールノットゲームのモデリングの試みの多くは、需要が静止していると仮定している。 これは、無数の理由で製品の寿命にわたって市場要求が進化できる現実のシナリオとは一致しない。 本稿では,非定常的需要を伴うCournotゲームを繰り返しモデル化し,企業/エージェントが非定常的マルチアームバンディット問題の個別の事例に直面した。 エージェントが選択できる武器/アクションのセットは、個別の生産量を表しており、ここではアクション空間を順序付けする。 エージェントは独立し、自律的であり、環境から何も観察できない。アクションを行った後、自分達の報酬しか見えず、これらの報酬を最大化するためにのみ働く。 本稿では,よく知られた$\epsilon$-greedyアプローチに基づく,新しいアルゴリズム"Adaptive with Weighted Exploration (AWE) $\epsilon$-greedy&qu ot;を提案する。 このアルゴリズムは、市場需要の変化による報酬の変化を検出し、定量化し、需要の変化の程度に応じて学習率と探索率を変化させる。 効率的な探索のためには、順序付けられたアクション空間を利用するアクションの重み付け機構も展開する。 市場における様々な均衡の出現をシミュレーションで研究する。 さらに,本手法のスケーラビリティを,システム内の総エージェント数と行動空間の大きさの観点から検討した。 モデルには対称型と非対称型の両方を考慮する。 提案手法により,エージェントは需要の変化に応じて迅速に行動経路を変化させることができ,多くのシミュレーションにおいて協調行動にも関与することがわかった。

Many past attempts at modeling repeated Cournot games assume that demand is stationary. This does not align with real-world scenarios in which market demands can evolve over a product's lifetime for a myriad of reasons. In this paper, we model repeated Cournot games with non-stationary demand such that firms/agents face separate instances of non-stationary multi-armed bandit problem. The set of arms/actions that an agent can choose from represents discrete production quantities; here, the action space is ordered. Agents are independent and autonomous, and cannot observe anything from the environment; they can only see their own rewards after taking an action, and only work towards maximizing these rewards. We propose a novel algorithm 'Adaptive with Weighted Exploration (AWE) $\epsilon$-greedy&#x 27; which is remotely based on the well-known $\epsilon$-greedy approach. This algorithm detects and quantifies changes in rewards due to varying market demand and varies learning rate and exploration rate in proportion to the degree of changes in demand, thus enabling agents to better identify new optimal actions. For efficient exploration, it also deploys a mechanism for weighing actions that takes advantage of the ordered action space. We use simulations to study the emergence of various equilibria in the market. In addition, we study the scalability of our approach in terms number of total agents in the system and the size of action space. We consider both symmetric and asymmetric firms in our models. We found that using our proposed method, agents are able to swiftly change their course of action according to the changes in demand, and they also engage in collusive behavior in many simulations.
翻訳日:2022-01-04 15:54:00 公開日:2022-01-03
# (参考訳) 異方性および空間変動型定位雑音を伴う多視点点雲登録 [全文訳有]

Multiview point cloud registration with anisotropic and space-varying localization noise ( http://arxiv.org/abs/2201.00708v1 )

ライセンス: CC BY 4.0
Denis Fortun, Etienne Baudrier, Fabian Zwettler, Markus Sauer and Sylvain Faisan(参考訳) 本稿では,高異方性定位雑音で劣化した複数点の雲を登録する問題に対処する。 提案手法は,予測最大化(EM)アルゴリズムを用いたガウス混合モデル(GMM)再構成の広く用いられている枠組みに従う。 既存の手法は空間不変同型ガウス雑音の暗黙の仮定に基づいている。 しかし、この仮定は単分子局在顕微鏡(smlm)のような応用において実際に違反している。 この問題に対処するために,GMMと形状モデリングをノイズハンドリングから分離する明示的な局所化雑音モデルを提案する。 雑音のないデータを遅延変数とみなす確率的EMアルゴリズムを設計し,各EMステップで閉形式解を求める。 このアプローチの第一の利点は、任意の共分散を持つ空間不変および異方性ガウスノイズを扱うことである。 第二の利点は、露骨なノイズモデルを利用して、物理的なセンサーから得られるノイズについて事前の知識を課すことである。 ノイズハンドリング戦略が異方性雑音の高レベルに対するロバスト性を大幅に改善することを示す。 また,本手法の性能を実SMLMデータに示す。

In this paper, we address the problem of registering multiple point clouds corrupted with high anisotropic localization noise. Our approach follows the widely used framework of Gaussian mixture model (GMM) reconstruction with an expectation-maximiza tion (EM) algorithm. Existing methods are based on an implicit assumption of space-invariant isotropic Gaussian noise. However, this assumption is violated in practice in applications such as single molecule localization microscopy (SMLM). To address this issue, we propose to introduce an explicit localization noise model that decouples shape modeling with the GMM from noise handling. We design a stochastic EM algorithm that considers noise-free data as a latent variable, with closed-form solutions at each EM step. The first advantage of our approach is to handle space-variant and anisotropic Gaussian noise with arbitrary covariances. The second advantage is to leverage the explicit noise model to impose prior knowledge about the noise that may be available from physical sensors. We show on various simulated data that our noise handling strategy improves significantly the robustness to high levels of anisotropic noise. We also demonstrate the performance of our method on real SMLM data.
翻訳日:2022-01-04 15:53:04 公開日:2022-01-03
# 連続部分モジュラ最大化:非公開関数によるブースティング

Continuous Submodular Maximization: Boosting via Non-oblivious Function ( http://arxiv.org/abs/2201.00703v1 )

ライセンス: Link先を確認
Qixin Zhang, Zengde Deng, Zaiyi Chen, Yu Yang(参考訳) 本稿では、オフラインとオンラインの両方の設定における制約付きおよび確率的連続部分モジュラー最大化について再検討する。 各々の$\gamma$-weakly dr-submodular function $f$ に対して、係数回帰最適化方程式を用いて最適な補助関数 $f$ を導出し、その定常点が大域的最大値 ($opt$) に近似する$(1-e^{-\gamma}) を問題 $\max_{\boldsymbol{x}\in\mathcal{c}}f(\boldsymbol{x})$ に導出する。 当然、予想された(鏡面)勾配の上昇は、この非公理関数に依存して 1-e^{-\gamma}-\epsilon^{2})OPT-\epsilon$ after $O(1/\epsilon^{2})$ iterations を達成し、部分モジュラー最大化に対して $(\frac{\gamma^{2}}{1+\gamma^{2}})$-approximation gradient ascent \citep{hassani2017gradient} を破る。 同様に、古典的フランク=ウルフのアルゴリズムは、分散還元法を組み込んだ$F$に基づいて、$(1-e^{-\gamma}-\epsilon^{2})OPT-\epsilon$ after $O(1/\epsilon^{3})$ iterations よりも大きい目的値の解を返す。 オンライン設定では、まず確率的勾配フィードバックの逆方向遅延について検討し、直近の最も有効な解に対する$-approximationに対する$1-e^{-\gamma}に対する$\sqrt{D}$(D$は勾配フィードバックの遅延の和である)の後悔を生かして、同じ非公開な探索を伴うオンライン勾配アルゴリズムを提案する。 最後に,提案手法の有効性を示す数値実験を行った。

In this paper, we revisit the constrained and stochastic continuous submodular maximization in both offline and online settings. For each $\gamma$-weakly DR-submodular function $f$, we use the factor-revealing optimization equation to derive an optimal auxiliary function $F$, whose stationary points provide a $(1-e^{-\gamma})$-approximation to the global maximum value (denoted as $OPT$) of problem $\max_{\boldsymbol{x}\in\mathcal{C}}f(\boldsymbol{x})$. Naturally, the projected (mirror) gradient ascent relied on this non-oblivious function achieves $(1-e^{-\gamma}-\epsilon^{2})OPT-\epsilon$ after $O(1/\epsilon^{2})$ iterations, beating the traditional $(\frac{\gamma^{2}}{1+\gamma^{2}})$-approximation gradient ascent \citep{hassani2017gradient} for submodular maximization. Similarly, based on $F$, the classical Frank-Wolfe algorithm equipped with variance reduction technique \citep{mokhtari2018conditio nal} also returns a solution with objective value larger than $(1-e^{-\gamma}-\epsilon^{2})OPT-\epsilon$ after $O(1/\epsilon^{3})$ iterations. In the online setting, we first consider the adversarial delays for stochastic gradient feedback, under which we propose a boosting online gradient algorithm with the same non-oblivious search, achieving a regret of $\sqrt{D}$ (where $D$ is the sum of delays of gradient feedback) against a $(1-e^{-\gamma})$-approximation to the best feasible solution in hindsight. Finally, extensive numerical experiments demonstrate the efficiency of our boosting methods.
翻訳日:2022-01-04 15:32:23 公開日:2022-01-03
# 新型コロナウイルス(covid-19)の局所的ロックダウンのための機械学習アプローチ : ケーススタディ分析

Machine learning approaches for localized lockdown during COVID-19: a case study analysis ( http://arxiv.org/abs/2201.00715v1 )

ライセンス: Link先を確認
Sara Malvar and Julio Romano Meneghini(参考訳) 2019年末、新型コロナウイルスのサルスCoV-2が急性呼吸器疾患として流行し、世界的なパンデミックとなった。 ブラジルなどの国々は、国家と自治体の社会経済的差異が大きいため、ウイルス対策に苦慮している。 そこで本研究では,ブラジルの新型コロナウイルスデータに適用したさまざまな機械学習アルゴリズムとディープラーニングアルゴリズムを用いた新しいアプローチを提案する。 第一に、クラスタリングアルゴリズムは類似のソシオデマトグラフィー行動を持つ郡を識別するために使用され、ベンフォードの法則はデータ操作をチェックするために用いられる。 これらの結果に基づいて、クラスタに基づいてSARIMAモデルを正しくモデル化し、新たな日常ケースを予測する。 教師なし機械学習技術はSARIMAモデルのパラメータを定義するプロセスを最適化した。 このフレームワークは、いわゆる第2波における閉じ込めシナリオの提案にも有用である。 我々はブラジルで最も人口の多い州であるサンパウロ州から645の郡を使用した。 しかし、この手法は他の国や国でも使用できる。 本稿では,機械学習,ディープラーニング,データマイニング,統計といったさまざまな手法を併用して,パンデミックデータを扱う上で重要な結果を生み出す方法を示す。 この発見は政策決定の評価と影響にのみ用いられるものではないが、これまで使用されてきた非効果的な措置の代替手段を提供する。

At the end of 2019, the latest novel coronavirus Sars-CoV-2 emerged as a significant acute respiratory disease that has become a global pandemic. Countries like Brazil have had difficulty in dealing with the virus due to the high socioeconomic difference of states and municipalities. Therefore, this study presents a new approach using different machine learning and deep learning algorithms applied to Brazilian COVID-19 data. First, a clustering algorithm is used to identify counties with similar sociodemographic behavior, while Benford's law is used to check for data manipulation. Based on these results we are able to correctly model SARIMA models based on the clusters to predict new daily cases. The unsupervised machine learning techniques optimized the process of defining the parameters of the SARIMA model. This framework can also be useful to propose confinement scenarios during the so-called second wave. We have used the 645 counties from S\~ao Paulo state, the most populous state in Brazil. However, this methodology can be used in other states or countries. This paper demonstrates how different techniques of machine learning, deep learning, data mining and statistics can be used together to produce important results when dealing with pandemic data. Although the findings cannot be used exclusively to assess and influence policy decisions, they offer an alternative to the ineffective measures that have been used.
翻訳日:2022-01-04 15:31:40 公開日:2022-01-03
# 混合整数プログラミングによる高密度ニューラルネットワークの学習

A Mixed Integer Programming Approach to Training Dense Neural Networks ( http://arxiv.org/abs/2201.00723v1 )

ライセンス: Link先を確認
Vrishabh Patil and Yonatan Mintz(参考訳) ニューラルネットワーク(Artificial Neural Networks, ANN)は、さまざまな現実世界の分類タスクに適用される機械学習モデルである。 ANNはサンプル性能を強くするために大量のデータを必要とし、ANNパラメータをトレーニングするための多くのアルゴリズムは確率勾配勾配(SGD)に基づいている。 しかし、予測タスクにおいて最善を尽くす傾向にあるSGD ANNは、多数のモデルパラメータとランダム初期化を必要とするエンドツーエンドで訓練される。 これは、ANNのトレーニングに非常に時間がかかり、結果として生じるモデルはデプロイに多くのメモリを必要とすることを意味する。 より類似的なANNモデルをトレーニングするために、制約付き最適化文献からANNトレーニングと事前学習のための代替手法を提案する。 特に,完全連結ANNを学習するための新しい混合整数プログラミング(MIP)法を提案する。 提案手法は,二進活性化と整流線形単位 (relu) 活性化 ann の双方を考慮し,対数確率損失の利用を考慮できる。 また,mip 定式化を用いたモデル事前学習のために,ann のレイヤ数を削減する手法である layer-wise greedy アプローチも開発した。 次に,既存のSGD手法とMIPに基づく手法を比較した数値実験を行い,より類似性の高いサンプル性能の競争力のあるモデルを実現できることを示す。

Artificial Neural Networks (ANNs) are prevalent machine learning models that have been applied across various real world classification tasks. ANNs require a large amount of data to have strong out of sample performance, and many algorithms for training ANN parameters are based on stochastic gradient descent (SGD). However, the SGD ANNs that tend to perform best on prediction tasks are trained in an end to end manner that requires a large number of model parameters and random initialization. This means training ANNs is very time consuming and the resulting models take a lot of memory to deploy. In order to train more parsimonious ANN models, we propose the use of alternative methods from the constrained optimization literature for ANN training and pretraining. In particular, we propose novel mixed integer programming (MIP) formulations for training fully-connected ANNs. Our formulations can account for both binary activation and rectified linear unit (ReLU) activation ANNs, and for the use of a log likelihood loss. We also develop a layer-wise greedy approach, a technique adapted for reducing the number of layers in the ANN, for model pretraining using our MIP formulations. We then present numerical experiments comparing our MIP based methods against existing SGD based approaches and show that we are able to achieve models with competitive out of sample performance that are significantly more parsimonious.
翻訳日:2022-01-04 15:31:22 公開日:2022-01-03
# 高速不均衡最適輸送:Sinkhornと1次元Frank-Wolfeの翻訳不変性

Faster Unbalanced Optimal Transport: Translation invariant Sinkhorn and 1-D Frank-Wolfe ( http://arxiv.org/abs/2201.00730v1 )

ライセンス: Link先を確認
Thibault S\'ejourn\'e, Fran\c{c}ois-Xavier Vialard and Gabriel Peyr\'e(参考訳) 非平衡最適輸送(UOT)は、分布を比較するために質量変動を考慮した最適輸送(OT)を拡張する。 これは、OTをMLアプリケーションで成功させることで、データの正規化と外部化に対して堅牢になる。 ベースラインアルゴリズムはシンクホーンであるが、収束速度はOTよりもUTTの方がかなり遅い。 本研究では、この不足の原因、すなわち2つのotポテンシャルの翻訳に相当するイテレートのグローバル正規化の欠如を特定する。 最初のコントリビューションは、このアイデアを活用して、OTとの計算ギャップを埋める、証明可能な加速Sinkhornアルゴリズム("translation invariant Sinkhorn"と呼ばれる)を開発した。 第2のコントリビューションは1次元 UOT に着目し,この変換不変な定式化に適用したフランク・ウルフ解法を提案する。 各ステップの線形オラクルは、1-D OT問題の解決に相当し、イテレーション毎に線形時間複雑になる。 最後の貢献は、この手法を1次元測度の uot barycenter の計算に拡張することです。 数値シミュレーションは,これら3つの手法による収束速度の向上を示す。

Unbalanced optimal transport (UOT) extends optimal transport (OT) to take into account mass variations to compare distributions. This is crucial to make OT successful in ML applications, making it robust to data normalization and outliers. The baseline algorithm is Sinkhorn, but its convergence speed might be significantly slower for UOT than for OT. In this work, we identify the cause for this deficiency, namely the lack of a global normalization of the iterates, which equivalently corresponds to a translation of the dual OT potentials. Our first contribution leverages this idea to develop a provably accelerated Sinkhorn algorithm (coined 'translation invariant Sinkhorn') for UOT, bridging the computational gap with OT. Our second contribution focusses on 1-D UOT and proposes a Frank-Wolfe solver applied to this translation invariant formulation. The linear oracle of each steps amounts to solving a 1-D OT problems, resulting in a linear time complexity per iteration. Our last contribution extends this method to the computation of UOT barycenter of 1-D measures. Numerical simulations showcase the convergence speed improvement brought by these three approaches.
翻訳日:2022-01-04 15:31:00 公開日:2022-01-03
# DeepSight: 深層モデル検査によるフェデレーション学習におけるバックドア攻撃の軽減

DeepSight: Mitigating Backdoor Attacks in Federated Learning Through Deep Model Inspection ( http://arxiv.org/abs/2201.00763v1 )

ライセンス: Link先を確認
Phillip Rieger, Thien Duc Nguyen, Markus Miettinen, Ahmad-Reza Sadeghi(参考訳) フェデレートラーニング(FL)では、複数のクライアントが、データを公開せずに、プライベートデータ上でニューラルネットワーク(NN)モデルを協調的にトレーニングすることができる。 近年,flに対する標的毒殺攻撃がいくつか導入されている。 これらの攻撃は結果のモデルにバックドアを注入し、敵が制御する入力を誤って分類することを可能にする。 バックドア攻撃に対する既存の対策は非効率であり、しばしば集約から逸脱するモデルを除外することを目的としている。 しかし、このアプローチはデータ分散を逸脱したクライアントの良質なモデルも取り除き、集約されたモデルがそのようなクライアントに不利なパフォーマンスをもたらす。 この問題を解決するために,バックドア攻撃を緩和する新しいモデルフィルタリング手法であるDeepSightを提案する。 これは、モデル更新のトレーニングに使用されるデータの分布を特徴付け、NNの内部構造と出力の微妙な違いを計測する3つの新しい手法に基づいている。 これらの技術を使って、DeepSightは疑わしいモデルの更新を識別できる。 また,モデル更新を正確にクラスタ化するためのスキームも開発した。 両方のコンポーネントの結果を組み合わせることで、DeepSightは、攻撃効果の高い有毒モデルを含むモデルクラスタを特定し、排除することができる。 また, 未検出の有毒モデルのバックドア貢献は, 既存のクリッピングベースの防御により効果的に軽減できることを示した。 我々はdeepsightの性能と有効性を評価し、良性データに対するモデルのパフォーマンスに無視できない影響を与えることなく、最先端のバックドア攻撃を緩和できることを示した。

Federated Learning (FL) allows multiple clients to collaboratively train a Neural Network (NN) model on their private data without revealing the data. Recently, several targeted poisoning attacks against FL have been introduced. These attacks inject a backdoor into the resulting model that allows adversary-controlled inputs to be misclassified. Existing countermeasures against backdoor attacks are inefficient and often merely aim to exclude deviating models from the aggregation. However, this approach also removes benign models of clients with deviating data distributions, causing the aggregated model to perform poorly for such clients. To address this problem, we propose DeepSight, a novel model filtering approach for mitigating backdoor attacks. It is based on three novel techniques that allow to characterize the distribution of data used to train model updates and seek to measure fine-grained differences in the internal structure and outputs of NNs. Using these techniques, DeepSight can identify suspicious model updates. We also develop a scheme that can accurately cluster model updates. Combining the results of both components, DeepSight is able to identify and eliminate model clusters containing poisoned models with high attack impact. We also show that the backdoor contributions of possibly undetected poisoned models can be effectively mitigated with existing weight clipping-based defenses. We evaluate the performance and effectiveness of DeepSight and show that it can mitigate state-of-the-art backdoor attacks with a negligible impact on the model's performance on benign data.
翻訳日:2022-01-04 15:30:39 公開日:2022-01-03
# 大規模非線形系の安定解析と知覚制御のためのPGD攻撃の再検討

Revisiting PGD Attacks for Stability Analysis of Large-Scale Nonlinear Systems and Perception-Based Control ( http://arxiv.org/abs/2201.00801v1 )

ライセンス: Link先を確認
Aaron Havens, Darioush Keivan, Peter Seiler, Geir Dullerud, Bin Hu(参考訳) 多くの既存の領域抽出(ROA)分析ツールは、大規模なニューラルネットワーク(NN)ポリシーやカメラなどの高次元センシングモードによるフィードバックシステムへの対処が困難である。 本稿では,大規模非線形システムとエンド・ツー・エンドの知覚に基づく制御のための汎用roa分析ツールとして,敵対的学習コミュニティで開発された投影勾配降下(pgd)攻撃法を調整した。 ROA解析は,端末状態を最も変化させる最悪の初期条件を見つけることが目的である制約付き最大化問題として近似できることを示す。 次に,結果制約付き最大化問題の解法として,pgdを用いた2つの反復解法を提案する。 本解析はリアプノフ理論に基づくものではなく,問題構造の最小情報を必要とする。 モデルに基づく設定では、PGD更新をバックプロパゲーションを用いて効率的に行うことができる。 モデルフリー設定(知覚に基づく制御のROA解析に関連性が高い)では、初期状態が与えられた閉ループ系の軌道を生成するためのブラックボックスシミュレータのみを必要とする有限差分PGD推定法を提案する。 本稿では,大規模NNポリシーと高次元画像観測を用いた解析ツールのスケーラビリティと汎用性を示す。 提案手法は,大規模非線形系の閉ループ安定性と知覚に基づく制御のさらなる理解に向けた重要な第一歩であると考えられる。

Many existing region-of-attraction (ROA) analysis tools find difficulty in addressing feedback systems with large-scale neural network (NN) policies and/or high-dimensional sensing modalities such as cameras. In this paper, we tailor the projected gradient descent (PGD) attack method developed in the adversarial learning community as a general-purpose ROA analysis tool for large-scale nonlinear systems and end-to-end perception-based control. We show that the ROA analysis can be approximated as a constrained maximization problem whose goal is to find the worst-case initial condition which shifts the terminal state the most. Then we present two PGD-based iterative methods which can be used to solve the resultant constrained maximization problem. Our analysis is not based on Lyapunov theory, and hence requires minimum information of the problem structures. In the model-based setting, we show that the PGD updates can be efficiently performed using back-propagation. In the model-free setting (which is more relevant to ROA analysis of perception-based control), we propose a finite-difference PGD estimate which is general and only requires a black-box simulator for generating the trajectories of the closed-loop system given any initial state. We demonstrate the scalability and generality of our analysis tool on several numerical examples with large-scale NN policies and high-dimensional image observations. We believe that our proposed analysis serves as a meaningful initial step toward further understanding of closed-loop stability of large-scale nonlinear systems and perception-based control.
翻訳日:2022-01-04 15:30:15 公開日:2022-01-03
# クラスター安定性選択

Cluster Stability Selection ( http://arxiv.org/abs/2201.00494v1 )

ライセンス: Link先を確認
Gregory Faletto, Jacob Bien(参考訳) 安定選択 (Meinshausen and Buhlmann, 2010) は、任意の特徴選択法をより安定にし、多くのサブサンプルで一貫して選択される特徴のみを返す。 我々は、重要な潜在変数に対する高相関なプロキシを含むデータに対して、ラッソは一般に1つのプロキシを選択するが、ラッソとの安定性の選択は任意のプロキシを選択することに失敗し、ラッソ単独よりも予測性能が悪くなることを示す。 クラスタの安定性の選択は、データに高い相関性を持つクラスタが存在するという実践者の知識を活用し、この設定では、安定性の選択よりも優れた特徴ランキングをもたらす。 重み付けがクラスタメンバの選択頻度によって決定される重要なクラスタ毎の機能の平均を重み付けすることで,従来の提案よりも優れた予測モデルが得られることを示す。 meinshausen and buhlmann (2010) と shah and samworth (2012) による理論的な保証の一般化を行い、クラスタ安定性の選択が同じ保証を保持することを示した。 まとめると、クラスタ安定性の選択は両方の世界のベストを享受し、安定かつ良好な予測性能を持つスパース選択セットを得る。

Stability selection (Meinshausen and Buhlmann, 2010) makes any feature selection method more stable by returning only those features that are consistently selected across many subsamples. We prove (in what is, to our knowledge, the first result of its kind) that for data containing highly correlated proxies for an important latent variable, the lasso typically selects one proxy, yet stability selection with the lasso can fail to select any proxy, leading to worse predictive performance than the lasso alone. We introduce cluster stability selection, which exploits the practitioner's knowledge that highly correlated clusters exist in the data, resulting in better feature rankings than stability selection in this setting. We consider several feature-combination approaches, including taking a weighted average of the features in each important cluster where weights are determined by the frequency with which cluster members are selected, which we show leads to better predictive models than previous proposals. We present generalizations of theoretical guarantees from Meinshausen and Buhlmann (2010) and Shah and Samworth (2012) to show that cluster stability selection retains the same guarantees. In summary, cluster stability selection enjoys the best of both worlds, yielding a sparse selected set that is both stable and has good predictive performance.
翻訳日:2022-01-04 15:29:51 公開日:2022-01-03
# (参考訳) 連想推論過程のモデリング

Modeling Associative Reasoning Processes ( http://arxiv.org/abs/2201.00716v1 )

ライセンス: CC BY 4.0
Ulrich Furbach, Claudia Schon, Marco Ragni(参考訳) 他のドメインの知識を用いて、あるドメインを推論する人間の能力は50年以上研究されてきたが、公式には健全で、認知過程を予測するモデルは少ない。 論理推論機構を応用して連想推論をモデル化する形式的健全な手法を提案する。 特に,1つの推論系における大きなコマンセンス知識の組み合わせは,効率的かつ強力な関連技術を必要とする。 このアプローチは、マインドランシングのモデル化や、創造性をテストするためのリモートアソシエイトテスト(RAT)にも使用される。 一般論として,意識を含む様々な認知現象に対するモデルの有効性について述べる。

The human capability to reason about one domain by using knowledge of other domains has been researched for more than 50 years, but models that are formally sound and predict cognitive process are sparse. We propose a formally sound method that models associative reasoning by adapting logical reasoning mechanisms. In particular it is shown that the combination with large commensense knowledge within a single reasoning system demands for an efficient and powerful association technique. This approach is also used for modelling mind-wandering and the Remote Associates Test (RAT) for testing creativity. In a general discussion we show implications of the model for a broad variety of cognitive phenomena including consciousness.
翻訳日:2022-01-04 15:28:20 公開日:2022-01-03
# 自転車共有システムのためのクラスタベーストリプ予測グラフニューラルネットワークモデル

A Cluster-Based Trip Prediction Graph Neural Network Model for Bike Sharing Systems ( http://arxiv.org/abs/2201.00720v1 )

ライセンス: Link先を確認
B\'arbara Tavares, Cl\'audia Soares, Manuel Marques(参考訳) 自転車シェアリングシステム(BSS)は革新的な交通サービスとして発展しつつある。 bssの適切な機能を保証することは、これらのシステムが、環境と経済の持続可能性を促進し、人々の生活の質を改善するために貢献することによって、現在の世界の多くの懸念を根絶することにコミットしていることを考えれば重要である。 ユーザの移行パターンに関する優れた知識は、サービスの品質と運用性に対する決定的な貢献である。 類似および不均衡な利用者の移行パターンは、これらのシステムが自転車の不均衡に悩まされ、長期的には顧客の損失が激化する。 自転車再バランスの戦略は、この問題に対処するために重要となり、自転車の交通予測は、より効率的に運転でき、事前に反応できるため、不可欠である。 本研究では,駅群,気象条件,地理的距離,旅行パターンを考慮した,グラフニューラルネットワークの埋め込みに基づく自転車旅行予測手法を提案する。 ニューヨーク市のBSS(CitiBike)データによるアプローチを評価し,非クラスタ化アプローチを含む4つのベースラインと比較した。 問題の特異性に対処するために,適応的遷移制約クラスタリングプラス (adatc+) アルゴリズムを開発し,これまでの作業の欠点を解消した。 実験の結果,クラスタリングの精度は88%で,クラスタリングなしでは83%であり,クラスタリング技術が問題に最も適していることがわかった。 adatc+のリンク予測タスクの精度は、ステーションが同じ場合のベンチマーククラスタリング法よりも常に高いが、ネットワークがアップグレードされた場合のパフォーマンスは低下しない。

Bike Sharing Systems (BSSs) are emerging as an innovative transportation service. Ensuring the proper functioning of a BSS is crucial given that these systems are committed to eradicating many of the current global concerns, by promoting environmental and economic sustainability and contributing to improving the life quality of the population. Good knowledge of users' transition patterns is a decisive contribution to the quality and operability of the service. The analogous and unbalanced users' transition patterns cause these systems to suffer from bicycle imbalance, leading to a drastic customer loss in the long term. Strategies for bicycle rebalancing become important to tackle this problem and for this, bicycle traffic prediction is essential, as it allows to operate more efficiently and to react in advance. In this work, we propose a bicycle trips predictor based on Graph Neural Network embeddings, taking into consideration station groupings, meteorology conditions, geographical distances, and trip patterns. We evaluated our approach in the New York City BSS (CitiBike) data and compared it with four baselines, including the non-clustered approach. To address our problem's specificities, we developed the Adaptive Transition Constraint Clustering Plus (AdaTC+) algorithm, eliminating shortcomings of previous work. Our experiments evidence the clustering pertinence (88% accuracy compared with 83% without clustering) and which clustering technique best suits this problem. Accuracy on the Link Prediction task is always higher for AdaTC+ than benchmark clustering methods when the stations are the same, while not degrading performance when the network is upgraded, in a mismatch with the trained model.
翻訳日:2022-01-04 15:27:08 公開日:2022-01-03
# アウトオブボックス学習コスト予測のためのゼロショットコストモデル

Zero-Shot Cost Models for Out-of-the-box Learned Cost Prediction ( http://arxiv.org/abs/2201.00561v1 )

ライセンス: Link先を確認
Benjamin Hilprecht and Carsten Binnig(参考訳) 本稿では,データベースに一般化した学習コスト推定を可能にするゼロショットコストモデルを提案する。 新しいデータベース毎に大量のトレーニングクエリを実行する必要のある最先端のワークロード駆動アプローチとは対照的に、ゼロショットコストモデルでは、高価なトレーニングデータ収集を必要とせずに学習コストモデルをインスタンス化することができる。 このようなゼロショットコストモデルを実現するために,事前学習したコストモデルに基づいた新しい学習パラダイムを提案する。 このようなトレーニング済みのコストモデルを未知のデータベースに転送するためのコアコントリビューションとして、クエリワークロードをそれらのモデルへの入力としてエンコードするための新しいモデルアーキテクチャと表現技術を導入する。 我々の評価で示すように、ゼロショットコスト推定は、未公開データベースでのクエリ実行を必要とせずに、幅広い(実世界の)データベースの最先端モデルよりも正確なコスト見積もりを提供できる。 さらに,ゼロショットコストモデルは,未使用のデータベース上で,少数の追加のトレーニングクエリで再トレーニングすることで,品質をさらに向上させる,数ショットモードで使用できることを示す。

In this paper, we introduce zero-shot cost models which enable learned cost estimation that generalizes to unseen databases. In contrast to state-of-the-art workload-driven approaches which require to execute a large set of training queries on every new database, zero-shot cost models thus allow to instantiate a learned cost model out-of-the-box without expensive training data collection. To enable such zero-shot cost models, we suggest a new learning paradigm based on pre-trained cost models. As core contributions to support the transfer of such a pre-trained cost model to unseen databases, we introduce a new model architecture and representation technique for encoding query workloads as input to those models. As we will show in our evaluation, zero-shot cost estimation can provide more accurate cost estimates than state-of-the-art models for a wide range of (real-world) databases without requiring any query executions on unseen databases. Furthermore, we show that zero-shot cost models can be used in a few-shot mode that further improves their quality by retraining them just with a small number of additional training queries on the unseen database.
翻訳日:2022-01-04 15:26:08 公開日:2022-01-03
# rformer: トランスフォーマティブ・ジェネレーティブ・アドバーサリー・ネットワークによる実眼底画像復元 : 臨床ベンチマークによる検討

RFormer: Transformer-based Generative Adversarial Network for Real Fundus Image Restoration on A New Clinical Benchmark ( http://arxiv.org/abs/2201.00466v1 )

ライセンス: Link先を確認
Zhuo Deng, Yuanhao Cai, Lu Chen, Zheng Gong, Qiqi Bao, Xue Yao, Dong Fang, Shaochong Zhang, Lan Ma(参考訳) 眼科医は眼疾患のスクリーニングと診断に眼底画像を用いた。 しかし、異なる機器や眼科医は、眼底画像の品質に大きな変化をもたらす。 低品質 (LQ) 劣化した眼底画像は, 臨床検診における不確実性の原因となり, 一般的に誤診のリスクが増大する。 したがって、実際の画像復元は研究に値する。 残念ながら、実際の臨床ベンチマークは今のところ調査されていない。 本稿では,実際の臨床眼底画像復元問題について検討する。 まず,120の低品質と高画質の画像ペアを含む臨床データセットであるReal Fundus(RF)を構築した。 次に,トランスフォーマーをベースとした新たな生成適応ネットワーク(RFormer)を提案し,臨床基礎画像の実際の劣化を復元する。 ネットワークの重要なコンポーネントは、非ローカルな自己相似性と長距離依存性をキャプチャするウィンドウベースの自己アテンションブロック(wsab)です。 より視覚的に快適な結果を生成するために、トランスベースの判別器が導入される。 臨床実験の結果,提案したRFormerは最先端(SOTA)法よりも優れていた。 さらに, 血管のセグメンテーションや光ディスク/カップ検出などの下流タスクの実験により, 提案するRFormerが臨床基礎画像解析や応用に有用であることを実証した。 データセット、コード、モデルがリリースされる予定だ。

Ophthalmologists have used fundus images to screen and diagnose eye diseases. However, different equipments and ophthalmologists pose large variations to the quality of fundus images. Low-quality (LQ) degraded fundus images easily lead to uncertainty in clinical screening and generally increase the risk of misdiagnosis. Thus, real fundus image restoration is worth studying. Unfortunately, real clinical benchmark has not been explored for this task so far. In this paper, we investigate the real clinical fundus image restoration problem. Firstly, We establish a clinical dataset, Real Fundus (RF), including 120 low- and high-quality (HQ) image pairs. Then we propose a novel Transformer-based Generative Adversarial Network (RFormer) to restore the real degradation of clinical fundus images. The key component in our network is the Window-based Self-Attention Block (WSAB) which captures non-local self-similarity and long-range dependencies. To produce more visually pleasant results, a Transformer-based discriminator is introduced. Extensive experiments on our clinical benchmark show that the proposed RFormer significantly outperforms the state-of-the-art (SOTA) methods. In addition, experiments of downstream tasks such as vessel segmentation and optic disc/cup detection demonstrate that our proposed RFormer benefits clinical fundus image analysis and applications. The dataset, code, and models will be released.
翻訳日:2022-01-04 15:21:55 公開日:2022-01-03
# 表情認識と検索のためのR-theta局所近傍パターン

R-Theta Local Neighborhood Pattern for Unconstrained Facial Image Recognition and Retrieval ( http://arxiv.org/abs/2201.00504v1 )

ライセンス: Link先を確認
Soumendu Chakraborty, Satish Kumar Singh, and Pavan Chakraborty(参考訳) 本稿では,R-Theta Local Neighborhood Pattern (RTLNP) を顔画像検索のために提案する。 rtlnpは、角幅と半径幅の異なる参照画素の局所近傍の画素間の関係を利用する。 提案した符号化方式は,地域を等角幅のセクターに分割する。 これらのセクタは再び2つの放射幅のサブセクタに分割される。 これら2つのサブセクタの平均グレイスケール値は、マイクロパターンを生成するために符号化される。 LBP, LTP, CSLBP, CSLTP, Sobel-LBP, LTCoP, LMeP, LDP, LTrP, MBLBP, MBLBP, BRINT, SLBPなどの技術記述子の状態と比較した。 AT&T、CARIA-Face-V5-Croppe d、LFW、Color FERETといった最も困難な顔制約のないデータベースは、提案された記述子の効率を示すために使われている。 提案された記述子は、近赤外線(NIR)顔データベース(CASIA NIR-VIS 2.0とPolyU-NIRFD)でもテストされており、NIR顔画像に関してその可能性を探っている。 アートディスクリプタの既存の状態と比較してRTLNPの検索率の改善は、ディスクリプタの有効性を示す

In this paper R-Theta Local Neighborhood Pattern (RTLNP) is proposed for facial image retrieval. RTLNP exploits relationships amongst the pixels in local neighborhood of the reference pixel at different angular and radial widths. The proposed encoding scheme divides the local neighborhood into sectors of equal angular width. These sectors are again divided into subsectors of two radial widths. Average grayscales values of these two subsectors are encoded to generate the micropatterns. Performance of the proposed descriptor has been evaluated and results are compared with the state of the art descriptors e.g. LBP, LTP, CSLBP, CSLTP, Sobel-LBP, LTCoP, LMeP, LDP, LTrP, MBLBP, BRINT and SLBP. The most challenging facial constrained and unconstrained databases, namely; AT&T, CARIA-Face-V5-Croppe d, LFW, and Color FERET have been used for showing the efficiency of the proposed descriptor. Proposed descriptor is also tested on near infrared (NIR) face databases; CASIA NIR-VIS 2.0 and PolyU-NIRFD to explore its potential with respect to NIR facial images. Better retrieval rates of RTLNP as compared to the existing state of the art descriptors show the effectiveness of the descriptor
翻訳日:2022-01-04 15:20:44 公開日:2022-01-03
# 局所勾配ヘキサパターン : 顔認識と検索のための記述子

Local Gradient Hexa Pattern: A Descriptor for Face Recognition and Retrieval ( http://arxiv.org/abs/2201.00509v1 )

ライセンス: Link先を確認
Soumendu Chakraborty, Satish Kumar Singh, and Pavan Chakraborty(参考訳) 顔認識に使用される局所ディスクリプタは、これらのディスクリプタが様々なポーズ、照明、照明条件でうまく機能するという意味で頑健である。 これらの記述子の精度は、顔画像の局所的な近傍に存在する関係を微細構造にマッピングする精度に依存する。 本稿では,局所勾配ヘキサパターン(lghp)を提案し,微分方向の異なる距離における参照画素とその隣接画素間の関係を同定する。 識別情報は、地域や異なるデリバティブな方向でも存在している。 提案する記述子は、これらの関係を最適な精度でクラス間顔画像を識別するバイナリ・マイクロパターンに効果的に変換する。 提案するディスクリプタの認識と検索性能は,最も困難かつベンチマークの難しい顔画像データベースであるCropped Extended Yale-B, CMU-PIE, color-FERET, LFWと比較して,最先端の記述子であるLPPとLVPと比較されている。 提案するディスクリプタは,最先端のディスクリプタに比べて高い認識率と検索率を有する。

Local descriptors used in face recognition are robust in a sense that these descriptors perform well in varying pose, illumination and lighting conditions. Accuracy of these descriptors depends on the precision of mapping the relationship that exists in the local neighborhood of a facial image into microstructures. In this paper a local gradient hexa pattern (LGHP) is proposed that identifies the relationship amongst the reference pixel and its neighboring pixels at different distances across different derivative directions. Discriminative information exists in the local neighborhood as well as in different derivative directions. Proposed descriptor effectively transforms these relationships into binary micropatterns discriminating interclass facial images with optimal precision. Recognition and retrieval performance of the proposed descriptor has been compared with state-of-the-art descriptors namely LDP and LVP over the most challenging and benchmark facial image databases, i.e. Cropped Extended Yale-B, CMU-PIE, color-FERET, and LFW. The proposed descriptor has better recognition as well as retrieval rates compared to state-of-the-art descriptors.
翻訳日:2022-01-04 15:20:21 公開日:2022-01-03
# centre symmetric quadruple pattern: 顔画像認識と検索のための新しい記述子

Centre Symmetric Quadruple Pattern: A Novel Descriptor for Facial Image Recognition and Retrieval ( http://arxiv.org/abs/2201.00511v1 )

ライセンス: Link先を確認
Soumendu Chakraborty, Satish Kumar Singh, and Pavan Chakraborty(参考訳) 顔の特徴は、顔画像のピクセル間に存在する局所的な関係として定義される。 手作りのディスクリプタは、カーネルによって定義されたローカル近傍のピクセル間の関係を識別する。 カーネル(kernel)は、顔画像を横切って動く二次元マトリックスである。 カーネルが限られたピクセル数でキャプチャした識別情報は、制約された環境下で撮影された顔画像(光、ポーズ、表情、背景の変化を制御)に対する良好な認識と検索精度を達成する。 より多くの画素を符号化するために、制約のない環境下で同様の精度を達成するために、近隣地域を増大させる必要がある。 地域住民の増加もディスクリプタの機能長を増加させる。 本稿では,四重項空間における顔非対称性を符号化し,構造的に対称な手作り記述子である中心対称四重項パターン(csqp)を提案する。 提案するディスクリプタは、より広い近傍を最適なバイナリビット数で効率的に符号化する。 提案するディスクリプタで符号化された特徴画像上で計算される平均エントロピーを用いて、csqpはアートディスクリプタの状態と比較してより意味のある情報をキャプチャすることを示した。 CSLBP, CSLTP, LDP, LBP, SLBP, LDGPのベンチマークデータベース(LFW, Colour-FERET, CASIA-face-v5)の検索と認識精度を比較検討した。 結果分析の結果,提案する記述子は,ポーズ,照明,背景,表現の制御不能な変化とともに,制御下において良好に動作していることがわかった。

Facial features are defined as the local relationships that exist amongst the pixels of a facial image. Hand-crafted descriptors identify the relationships of the pixels in the local neighbourhood defined by the kernel. Kernel is a two dimensional matrix which is moved across the facial image. Distinctive information captured by the kernel with limited number of pixel achieves satisfactory recognition and retrieval accuracies on facial images taken under constrained environment (controlled variations in light, pose, expressions, and background). To achieve similar accuracies under unconstrained environment local neighbourhood has to be increased, in order to encode more pixels. Increasing local neighbourhood also increases the feature length of the descriptor. In this paper we propose a hand-crafted descriptor namely Centre Symmetric Quadruple Pattern (CSQP), which is structurally symmetric and encodes the facial asymmetry in quadruple space. The proposed descriptor efficiently encodes larger neighbourhood with optimal number of binary bits. It has been shown using average entropy, computed over feature images encoded with the proposed descriptor, that the CSQP captures more meaningful information as compared to state of the art descriptors. The retrieval and recognition accuracies of the proposed descriptor has been compared with state of the art hand-crafted descriptors (CSLBP, CSLTP, LDP, LBP, SLBP and LDGP) on bench mark databases namely; LFW, Colour-FERET, and CASIA-face-v5. Result analysis shows that the proposed descriptor performs well under controlled as well as uncontrolled variations in pose, illumination, background and expressions.
翻訳日:2022-01-04 15:19:56 公開日:2022-01-03
# カスケード非対称局所パターン:非拘束顔画像認識と検索のための新しい記述子

Cascaded Asymmetric Local Pattern: A Novel Descriptor for Unconstrained Facial Image Recognition and Retrieval ( http://arxiv.org/abs/2201.00518v1 )

ライセンス: Link先を確認
Soumendu Chakraborty, Satish Kumar Singh, and Pavan Chakraborty(参考訳) 特徴記述はエキスパートシステムと機械学習において最も頻繁に研究される分野の1つである。 画像の効果的な符号化は、正確なマッチングに必須である。 これらの符号化方式は認識および検索システムにおいて重要な役割を果たす。 顔認識システムは、本質的および外部的なシステムの変動下での個人を正確に認識するのに十分効果的であるべきである。 これらのシステムで使用されるテンプレートやディスクリプタは、画像のローカル近傍のピクセルの空間的関係をエンコードする。 これらの手書き記述子を使って符号化された特徴は、照明、背景、ポーズ、表現などのバリエーションに対して堅牢であるべきである。 本稿では,新しい手作りカスケード非対称局所パターン(calp)を提案し,顔画像の検索と認識を行う。 提案するディスクリプタは,水平方向と垂直方向の隣接画素間の関係を一意に符号化する。 提案方式は特徴長が最適であり,顔画像の環境および生理的変化下での精度が著しく向上した。 LBP, LDGP, CSLBP, SLBP, CSLTPといった手作りのデクリプタの状態を、最も困難なデータセットであるCaltech-face, LFW, CASIA-face-v5のデクリプタと比較する。 結果分析の結果,提案した記述子は,表現,背景,ポーズ,照明の制御不能な変化の下で,芸術の状態を上回ります。

Feature description is one of the most frequently studied areas in the expert systems and machine learning. Effective encoding of the images is an essential requirement for accurate matching. These encoding schemes play a significant role in recognition and retrieval systems. Facial recognition systems should be effective enough to accurately recognize individuals under intrinsic and extrinsic variations of the system. The templates or descriptors used in these systems encode spatial relationships of the pixels in the local neighbourhood of an image. Features encoded using these hand crafted descriptors should be robust against variations such as; illumination, background, poses, and expressions. In this paper a novel hand crafted cascaded asymmetric local pattern (CALP) is proposed for retrieval and recognition facial image. The proposed descriptor uniquely encodes relationship amongst the neighbouring pixels in horizontal and vertical directions. The proposed encoding scheme has optimum feature length and shows significant improvement in accuracy under environmental and physiological changes in a facial image. State of the art hand crafted descriptors namely; LBP, LDGP, CSLBP, SLBP and CSLTP are compared with the proposed descriptor on most challenging datasets namely; Caltech-face, LFW, and CASIA-face-v5. Result analysis shows that, the proposed descriptor outperforms state of the art under uncontrolled variations in expressions, background, pose and illumination.
翻訳日:2022-01-04 15:19:32 公開日:2022-01-03
# 動的ネットワークにおけるキネマティックスキャニングの厳密な登録のためのlidar点間対応

LiDAR Point--to--point Correspondences for Rigorous Registration of Kinematic Scanning in Dynamic Networks ( http://arxiv.org/abs/2201.00596v1 )

ライセンス: Link先を確認
Aur\'elien Brun, Davide Antonio Cucci and Jan Skaloud(参考訳) キネマティックスキャニングシステムによって生成されたlidar点雲の登録を改善することを目的として,重なり合った点雲とそれらの統合(調整)と全ての生慣性およびgnss観測とで,選択された信頼できる3d点間対応を自動的に抽出する新しい軌道調整手順を提案する。 これは、ダイナミックネットワークアプローチを用いて、軌道のレベルではなく、センサーの誤差をモデル化することで、最適に補償された軌道を導出する。 このネットワーク内の静的な条件として3D対応を定式化し、修正された軌道およびおそらく調整の中で決定された他のパラメータを用いて、より高い精度で登録された点雲を生成する。 まず,新しい観測モデルとして,応答の選択法と動的ネットワークへの挿入方法について述べる。 次に、低コストMEMS慣性センサを用いた実用的な空中レーザー走査シナリオにおける提案手法の性能評価実験を行った。 実験では,木や建物,車など広い範囲の測地線にまたがる点対点マッチングを決定する際に,3次元対応を確立するための手法が有効であることを示す。 本手法は, 既定のプラットフォーム姿勢や位置(名目およびエミュレートされたgnss停止条件)の誤差に強く影響を受ける点クラウド登録精度を向上し, 確立された3次元対応の合計数のごく一部のみを用いて未知のボーリング角を決定することができることを示す。

With the objective of improving the registration of LiDAR point clouds produced by kinematic scanning systems, we propose a novel trajectory adjustment procedure that leverages on the automated extraction of selected reliable 3D point--to--point correspondences between overlapping point clouds and their joint integration (adjustment) together with all raw inertial and GNSS observations. This is performed in a tightly coupled fashion using a Dynamic Network approach that results in an optimally compensated trajectory through modeling of errors at the sensor, rather than the trajectory, level. The 3D correspondences are formulated as static conditions within this network and the registered point cloud is generated with higher accuracy utilizing the corrected trajectory and possibly other parameters determined within the adjustment. We first describe the method for selecting correspondences and how they are inserted into the Dynamic Network as new observation models. We then describe the experiments conducted to evaluate the performance of the proposed framework in practical airborne laser scanning scenarios with low-cost MEMS inertial sensors. In the conducted experiments, the method proposed to establish 3D correspondences is effective in determining point--to--point matches across a wide range of geometries such as trees, buildings and cars. Our results demonstrate that the method improves the point cloud registration accuracy, that is otherwise strongly affected by errors in the determined platform attitude or position (in nominal and emulated GNSS outage conditions), and possibly determine unknown boresight angles using only a fraction of the total number of 3D correspondences that are established.
翻訳日:2022-01-04 15:19:09 公開日:2022-01-03
# BDG-Net: 正確なポリプセグメンテーションのための境界分布ガイドネットワーク

BDG-Net: Boundary Distribution Guided Network for Accurate Polyp Segmentation ( http://arxiv.org/abs/2201.00767v1 )

ライセンス: Link先を確認
Zihuan Qiu, Zhichuan Wang, Miaomiao Zhang, Ziyong Xu, Jie Fan, Linfeng Xu(参考訳) 大腸癌 (CRC) は世界でも最も多い致死性癌の1つである。 ポリープ切除術は腺腫から腺癌への進行を効果的に阻害し,CRCの発生リスクを低減させる。 大腸内視鏡は大腸ポリープを見つける主要な方法である。 しかし,ポリープのサイズの違いと,ポリープとその周辺粘膜の境界が不明瞭であることから,ポリープを正確に分割することは困難である。 この問題に対処するため、我々は正確なポリプセグメンテーションのための境界分布誘導ネットワーク(BDG-Net)を設計する。 具体的には、理想的な境界分布マップ(BDM)の監督の下で、境界分布生成モジュール(BDGM)を用いて高次特徴を集約し、BDMを生成する。 次に、BDMを補空間情報として境界分布ガイドデコーダ(BDGD)に送信し、ポリプセグメンテーションを案内する。 さらに,BDGDでは,異なるサイズのポリプのセグメンテーション精度を向上させるため,マルチスケールな機能インタラクション戦略が採用されている。 計算の複雑さを低く保ちつつ,5つのパブリックポリプデータセットにおいて,最先端モデルを著しく上回っている。

Colorectal cancer (CRC) is one of the most common fatal cancer in the world. Polypectomy can effectively interrupt the progression of adenoma to adenocarcinoma, thus reducing the risk of CRC development. Colonoscopy is the primary method to find colonic polyps. However, due to the different sizes of polyps and the unclear boundary between polyps and their surrounding mucosa, it is challenging to segment polyps accurately. To address this problem, we design a Boundary Distribution Guided Network (BDG-Net) for accurate polyp segmentation. Specifically, under the supervision of the ideal Boundary Distribution Map (BDM), we use Boundary Distribution Generate Module (BDGM) to aggregate high-level features and generate BDM. Then, BDM is sent to the Boundary Distribution Guided Decoder (BDGD) as complementary spatial information to guide the polyp segmentation. Moreover, a multi-scale feature interaction strategy is adopted in BDGD to improve the segmentation accuracy of polyps with different sizes. Extensive quantitative and qualitative evaluations demonstrate the effectiveness of our model, which outperforms state-of-the-art models remarkably on five public polyp datasets while maintaining low computational complexity.
翻訳日:2022-01-04 15:18:43 公開日:2022-01-03
# faceqgen: 顔画像品質評価のための半教師付きディープラーニング

FaceQgen: Semi-Supervised Deep Learning for Face Image Quality Assessment ( http://arxiv.org/abs/2201.00770v1 )

ライセンス: Link先を確認
Javier Hernandez-Ortega, Julian Fierrez, Ignacio Serna, Aythami Morales(参考訳) 本稿では,顔画像に対する非参照品質評価手法であるfaceqgenを開発した。 faceqgenはトレーニングにラベル付き品質対策を必要としない。 scfaceデータベースを使用してスクラッチからトレーニングされる。 FaceQgenは、未知の品質の顔画像に画像復元を適用し、標準的な高品質の画像、すなわち正面ポーズ、均質な背景などに変換する。 低画質の画像は復元により大きく変化するため、原画像と復元画像との類似性として品質推定が構築される。 3つの異なる数値的品質指標を比較します a) 原画像と復元画像の間のMSE b) そのシム,及び c) GANの識別器の出力スコア その結果,FaceQgenの品質測定は顔認識精度のよい推定方法であることがわかった。 本研究は,faceqgenを最先端に位置づけるために,顔および一般画像に対して設計した他の品質評価手法との比較を含む。 This comparison shows that, even though FaceQgen does not surpass the best existing face quality assessment methods in terms of face recognition accuracy prediction, it achieves good enough results to demonstrate the potential of semi-supervised learning approaches for quality estimation (in particular, data-driven learning based on a single high quality image per subject), having the capacity to improve its performance in the future with adequate refinement of the model and the significant advantage over competing methods of not needing quality labels for its development. これにより、FaceQgenは、高価なデータキュレーションなしで柔軟でスケーラブルになります。

In this paper we develop FaceQgen, a No-Reference Quality Assessment approach for face images based on a Generative Adversarial Network that generates a scalar quality measure related with the face recognition accuracy. FaceQgen does not require labelled quality measures for training. It is trained from scratch using the SCface database. FaceQgen applies image restoration to a face image of unknown quality, transforming it into a canonical high quality image, i.e., frontal pose, homogeneous background, etc. The quality estimation is built as the similarity between the original and the restored images, since low quality images experience bigger changes due to restoration. We compare three different numerical quality measures: a) the MSE between the original and the restored images, b) their SSIM, and c) the output score of the Discriminator of the GAN. The results demonstrate that FaceQgen's quality measures are good estimators of face recognition accuracy. Our experiments include a comparison with other quality assessment methods designed for faces and for general images, in order to position FaceQgen in the state of the art. This comparison shows that, even though FaceQgen does not surpass the best existing face quality assessment methods in terms of face recognition accuracy prediction, it achieves good enough results to demonstrate the potential of semi-supervised learning approaches for quality estimation (in particular, data-driven learning based on a single high quality image per subject), having the capacity to improve its performance in the future with adequate refinement of the model and the significant advantage over competing methods of not needing quality labels for its development. This makes FaceQgen flexible and scalable without expensive data curation.
翻訳日:2022-01-04 15:18:21 公開日:2022-01-03
# 半監督・高次元設定における処理効果推定のための一般的な枠組み

A General Framework for Treatment Effect Estimation in Semi-Supervised and High Dimensional Settings ( http://arxiv.org/abs/2201.00468v1 )

ライセンス: Link先を確認
Abhishek Chakrabortty, Guorong Dai and Eric Tchetgen Tchetgen(参考訳) 本稿では,治療効果に対する半教師付き(SS)因果推論の一般的かつ完全な理解を目指す。 具体的には2つの推定法を考える。 (a)平均的な治療効果及び b) 2つの利用可能なデータセットを特徴とするss設定における,プロトタイプ事例としての質的処理効果 i) サイズ$n$のラベル付きデータセットであって、応答と高次元の共変量と二値処理指標のセットの観察を提供するもの (ii) ラベルのないデータセットが$n$で、$n$よりはるかに大きいが、応答は観測されない。 これらの2つのデータセットを用いて, (1) ラベル付きデータセットのみに基づいて, 教師付きデータセットよりも頑健で (2) 効率的であることを保証する, ss 推定器群を開発した。 教師付き手法によっても達成できる「標準」二重ロバスト性結果(一貫性の観点から)の他に、モデルのプロペンサリティスコアが正しく指定されるたびに、関連するニュアサンス関数の特定の形式を必要とせずに、我々のss推定器のルートn一貫性と漸近正規性をさらに確立します。 このような堅牢性の改善は、大量のラベルのないデータを使用することから生じるため、一般には、純粋に教師なしの環境では達成できない。 さらに,すべてのニュアンス関数が正しく指定される限り,推定器は半パラメトリックに効率的であることが示されている。 さらに, ニュアサンス推定器の例示として, 未知共変量変換機構を含む逆確率重み付け型カーネル平滑化推定器について検討し, 高次元シナリオにおいて, 独立な関心を持つべき一様収束率に関する新たな結果を確立する。 シミュレーションデータと実データの両方の数値計算結果から,ロバスト性と効率性の両面から,本手法の利点を検証した。

In this article, we aim to provide a general and complete understanding of semi-supervised (SS) causal inference for treatment effects. Specifically, we consider two such estimands: (a) the average treatment effect and (b) the quantile treatment effect, as prototype cases, in an SS setting, characterized by two available data sets: (i) a labeled data set of size $n$, providing observations for a response and a set of high dimensional covariates, as well as a binary treatment indicator; and (ii) an unlabeled data set of size $N$, much larger than $n$, but without the response observed. Using these two data sets, we develop a family of SS estimators which are ensured to be: (1) more robust and (2) more efficient than their supervised counterparts based on the labeled data set only. Beyond the 'standard' double robustness results (in terms of consistency) that can be achieved by supervised methods as well, we further establish root-n consistency and asymptotic normality of our SS estimators whenever the propensity score in the model is correctly specified, without requiring specific forms of the nuisance functions involved. Such an improvement of robustness arises from the use of the massive unlabeled data, so it is generally not attainable in a purely supervised setting. In addition, our estimators are shown to be semi-parametrically efficient as long as all the nuisance functions are correctly specified. Moreover, as an illustration of the nuisance estimators, we consider inverse-probability- weighting type kernel smoothing estimators involving unknown covariate transformation mechanisms, and establish in high dimensional scenarios novel results on their uniform convergence rates, which should be of independent interest. Numerical results on both simulated and real data validate the advantage of our methods over their supervised counterparts with respect to both robustness and efficiency.
翻訳日:2022-01-04 15:16:14 公開日:2022-01-03
# (参考訳) DFA-NeRF: 対向顔属性によるパーソナライズされたトーキングヘッド生成 [全文訳有]

DFA-NeRF: Personalized Talking Head Generation via Disentangled Face Attributes Neural Rendering ( http://arxiv.org/abs/2201.00791v1 )

ライセンス: CC BY 4.0
Shunyu Yao, RuiZhe Zhong, Yichao Yan, Guangtao Zhai, Xiaokang Yang(参考訳) 近年のディープニューラルネットワークの進歩により、高品質な画像をレンダリングできるようになったが、写真リアリスティックでパーソナライズされた対話ヘッドの生成は依然として困難である。 与えられたオーディオでは、このタスクに取り組む鍵は唇の動きを同期させ、頭の動きや目まぶのようなパーソナライズされた属性を同時に生成することです。 本研究では、入力音声が唇の動きと強く相関するが、他のパーソナライズされた属性(例えば頭部の動き)との相関が低いことを観察する。 そこで本研究では,高忠実度・パーソナライズされた対話ヘッド生成を追求するニューラルラディアンス場に基づく新しいフレームワークを提案する。 特に、ニューラル・ラジアンス・フィールドは、唇運動の特徴とパーソナライズされた属性を、音声入力から直接唇運動を予測して唇同期生成を達成する2つの不連続状態として捉えている。 一方、パーソナライズされた属性は確率モデルからサンプリングされ、ガウシアンプロセスからサンプリングされたトランスフォーマーベースの変分オートエンコーダを設計し、可塑性で自然な頭部ポーズとアイリンクを学習する。 いくつかのベンチマーク実験により,本手法は最先端手法よりもはるかに優れた結果が得られることが示された。

While recent advances in deep neural networks have made it possible to render high-quality images, generating photo-realistic and personalized talking head remains challenging. With given audio, the key to tackling this task is synchronizing lip movement and simultaneously generating personalized attributes like head movement and eye blink. In this work, we observe that the input audio is highly correlated to lip motion while less correlated to other personalized attributes (e.g., head movements). Inspired by this, we propose a novel framework based on neural radiance field to pursue high-fidelity and personalized talking head generation. Specifically, neural radiance field takes lip movements features and personalized attributes as two disentangled conditions, where lip movements are directly predicted from the audio inputs to achieve lip-synchronized generation. In the meanwhile, personalized attributes are sampled from a probabilistic model, where we design a Transformer-based variational autoencoder sampled from Gaussian Process to learn plausible and natural-looking head pose and eye blink. Experiments on several benchmarks demonstrate that our method achieves significantly better results than state-of-the-art methods.
翻訳日:2022-01-04 15:13:22 公開日:2022-01-03
# 変形性アテンションを有する視覚変換器

Vision Transformer with Deformable Attention ( http://arxiv.org/abs/2201.00520v1 )

ライセンス: Link先を確認
Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang(参考訳) トランスフォーマーは最近、様々な視覚タスクにおいて優れた性能を示している。 大規模な、時としてグローバルな受信フィールドは、CNNのモデルよりも高い表現力を持つTransformerモデルを提供する。 それにもかかわらず、単に受容的場を広げることもまた、いくつかの懸念を生じさせる。 一方、例えば ViT では、高密度な注意を用いると、過剰なメモリと計算コストが発生し、興味のある領域を超えた無関係な部分の影響を受けやすい。 一方、PVTやSwin Transformerで採用されているスパースアテンションはデータ非依存であり、長距離関係をモデル化する能力を制限する可能性がある。 これらの問題を緩和するために, キーペアと値ペアの位置をデータ依存的に選択する, 変形可能な新しい自己保持モジュールを提案する。 この柔軟なスキームにより、セルフアテンションモジュールは関連する領域に集中し、より有益な特徴を捉えることができる。 そこで本研究では,画像分類タスクと高密度予測タスクの両方に対して,変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。 広範な実験により,我々のモデルが総合ベンチマークで一貫して改良された結果が得られることを示した。 コードはhttps://github.com/l eaplabthu/datで入手できる。

Transformers have recently shown superior performances on various vision tasks. The large, sometimes even global, receptive field endows Transformer models with higher representation power over their CNN counterparts. Nevertheless, simply enlarging receptive field also gives rise to several concerns. On the one hand, using dense attention e.g., in ViT, leads to excessive memory and computational cost, and features can be influenced by irrelevant parts which are beyond the region of interests. On the other hand, the sparse attention adopted in PVT or Swin Transformer is data agnostic and may limit the ability to model long range relations. To mitigate these issues, we propose a novel deformable self-attention module, where the positions of key and value pairs in self-attention are selected in a data-dependent way. This flexible scheme enables the self-attention module to focus on relevant regions and capture more informative features. On this basis, we present Deformable Attention Transformer, a general backbone model with deformable attention for both image classification and dense prediction tasks. Extensive experiments show that our models achieve consistently improved results on comprehensive benchmarks. Code is available at https://github.com/L eapLabTHU/DAT.
翻訳日:2022-01-04 14:51:16 公開日:2022-01-03
# ディープニューラルネットワークに対する圧縮耐性バックドア攻撃

Compression-Resistan t Backdoor Attack against Deep Neural Networks ( http://arxiv.org/abs/2201.00672v1 )

ライセンス: Link先を確認
Mingfu Xue, Xin Wang, Shichang Sun, Yushu Zhang, Jian Wang, and Weiqiang Liu(参考訳) 近年,トレーニングデータ中毒に基づくバックドア攻撃が多数提案されている。 しかし実際には、これらのバックドア攻撃は画像圧縮に弱い。 バックドアインスタンスが圧縮されると、特定のバックドアトリガーの特徴が破壊され、バックドア攻撃性能が劣化する可能性がある。 本稿では,特徴整合性トレーニングに基づく圧縮耐性バックドア攻撃を提案する。 私たちの知る限りでは、これは画像圧縮に堅牢な最初のバックドア攻撃です。 まず、バックドアイメージと圧縮バージョンの両方が、トレーニングのためにディープニューラルネットワーク(dnn)に入力される。 そして、各画像の特徴をDNNの内部層から抽出する。 次に、バックドア画像とその圧縮バージョン間の特徴差を最小化する。 結果として、DNNは圧縮画像の特徴を特徴空間内のバックドア画像の特徴として扱う。 トレーニング後、DNNに対するバックドア攻撃は画像圧縮に対して堅牢である。 さらに,3種類の画像圧縮(JPEG,JPEG2000,WEBP) を特徴整合性トレーニングにおいて考慮し,バックドア攻撃が複数の画像圧縮アルゴリズムに対して堅牢であることを示す。 実験結果は,提案するバックドア攻撃の有効性とロバスト性を示す。 バックドアインスタンスを圧縮した場合、一般的なバックドア攻撃の攻撃成功率は10%以下であり、圧縮耐性バックドアの攻撃成功率は97%以上である。 バックドア画像が低圧縮品質で圧縮された場合でも、圧縮耐性攻撃は引き続き堅牢である。 また,我々の圧縮耐性バックドア攻撃は,トレーニングプロセスで使用されていない画像圧縮に抵抗する一般化能力を有することが実証された。

In recent years, many backdoor attacks based on training data poisoning have been proposed. However, in practice, those backdoor attacks are vulnerable to image compressions. When backdoor instances are compressed, the feature of specific backdoor trigger will be destroyed, which could result in the backdoor attack performance deteriorating. In this paper, we propose a compression-resistan t backdoor attack based on feature consistency training. To the best of our knowledge, this is the first backdoor attack that is robust to image compressions. First, both backdoor images and their compressed versions are input into the deep neural network (DNN) for training. Then, the feature of each image is extracted by internal layers of the DNN. Next, the feature difference between backdoor images and their compressed versions are minimized. As a result, the DNN treats the feature of compressed images as the feature of backdoor images in feature space. After training, the backdoor attack against DNN is robust to image compression. Furthermore, we consider three different image compressions (i.e., JPEG, JPEG2000, WEBP) in feature consistency training, so that the backdoor attack is robust to multiple image compression algorithms. Experimental results demonstrate the effectiveness and robustness of the proposed backdoor attack. When the backdoor instances are compressed, the attack success rate of common backdoor attack is lower than 10%, while the attack success rate of our compression-resistan t backdoor is greater than 97%. The compression-resistan t attack is still robust even when the backdoor images are compressed with low compression quality. In addition, extensive experiments have demonstrated that, our compression-resistan t backdoor attack has the generalization ability to resist image compression which is not used in the training process.
翻訳日:2022-01-04 14:50:58 公開日:2022-01-03
# ラベル駆動型自動重み付け戦略を用いたマルチビューデータ分類

Multi-view Data Classification with a Label-driven Auto-weighted Strategy ( http://arxiv.org/abs/2201.00714v1 )

ライセンス: Link先を確認
Yuyuan Yu, Guoxu Zhou, Haonan Huang, Shengli Xie, Qibin Zhao(参考訳) ビューの重要性を区別することは、半教師付きマルチビュー学習モデルにとって非常に有用であることが証明されている。 しかし、既存の戦略は、半教師付き情報を利用することができず、データ特徴の観点からビューの重要性を区別するだけで、しばしば低品質なビューに影響され、パフォーマンスが低下する。 本稿では,ラベル付きデータと異なる視点の重要性とのリンクを確立することにより,ラベル的視点から視点の重要性を評価し,重要でない,あるいは低品質な視点の悪影響を避けるための自動強調戦略を提案する。 この戦略に基づき,半教師付き自己重み付きマルチビュー分類モデルを提案する。 提案モデルの初期化は,実用的なラベル付きデータによって効果的に決定できる。 モデルは3つの小さなサブプロブレムに分解され、局所収束保証で効率的に最適化できる。 分類課題における実験の結果から,提案手法は他の関連する手法と比較して計算コストが最も低く,最適または準最適の分類精度が得られ,提案手法は低品質のマルチビューデータセットにおける他の関連する戦略よりも視点の重要性をより正確に識別できることが示された。

Distinguishing the importance of views has proven to be quite helpful for semi-supervised multi-view learning models. However, existing strategies cannot take advantage of semi-supervised information, only distinguishing the importance of views from a data feature perspective, which is often influenced by low-quality views then leading to poor performance. In this paper, by establishing a link between labeled data and the importance of different views, we propose an auto-weighted strategy to evaluate the importance of views from a label perspective to avoid the negative impact of unimportant or low-quality views. Based on this strategy, we propose a transductive semi-supervised auto-weighted multi-view classification model. The initialization of the proposed model can be effectively determined by labeled data, which is practical. The model is decoupled into three small-scale sub-problems that can efficiently be optimized with a local convergence guarantee. The experimental results on classification tasks show that the proposed method achieves optimal or sub-optimal classification accuracy at the lowest computational cost compared to other related methods, and the weight change experiments show that our proposed strategy can distinguish view importance more accurately than other related strategies on multi-view datasets with low-quality views.
翻訳日:2022-01-04 14:50:36 公開日:2022-01-03
# ポイントクラウド自己教師型表現学習のためのインプシットオートエンコーダ

Implicit Autoencoder for Point Cloud Self-supervised Representation Learning ( http://arxiv.org/abs/2201.00785v1 )

ライセンス: Link先を確認
Siming Yan, Zhenpei Yang, Haoxiang Li, Li Guan, Hao Kang, Gang Hua, Qixing Huang(参考訳) 多くの3次元表現(例えば点雲)は、下層の連続3次元曲面の離散的なサンプルである。 このプロセスは必然的に3d形状のサンプリング変動を導入する。 3d表現を学ぶとき、そのバリエーションは無視され、基礎となる3d形状に関する転送可能な知識はキャプチャされるべきである。 これは既存の表現学習パラダイムにおいて大きな課題となる。 本稿では,点雲上の自動エンコーディングについて検討する。 標準的なオートエンコーディングパラダイムは、デコーダがサンプリングのバリエーションを持つ元の点雲を再構築する必要があるため、エンコーダにそのようなサンプリングのバリエーションをキャプチャするよう強制する。 我々は、ポイントクラウドデコーダを暗黙のデコーダに置き換えることで、この問題に対処するシンプルで効果的な方法であるImplicit Autoencoder(IAE)を紹介する。 暗黙のデコーダは、同じモデルの異なる点クラウドサンプリング間で共有される連続表現を出力する。 暗黙の表現の下での再構成は、エンコーダがサンプリングのバリエーションを捨て、有用な機能を学ぶためにより多くのスペースを導入することを優先することができる。 理論上は単純な線形オートエンコーダの下でこの主張を正当化する。 さらに、暗黙のデコーダは、異なるタスクに適した暗黙の表現を設計するためのリッチな空間を提供する。 我々は,3Dオブジェクトと3Dシーンの両方において,自己指導型学習タスクにおけるIAEの有用性を示す。 実験の結果、IAEは各タスクの最先端を一貫して上回ることがわかった。

Many 3D representations (e.g., point clouds) are discrete samples of the underlying continuous 3D surface. This process inevitably introduces sampling variations on the underlying 3D shapes. In learning 3D representation, the variations should be disregarded while transferable knowledge of the underlying 3D shape should be captured. This becomes a grand challenge in existing representation learning paradigms. This paper studies autoencoding on point clouds. The standard autoencoding paradigm forces the encoder to capture such sampling variations as the decoder has to reconstruct the original point cloud that has sampling variations. We introduce Implicit Autoencoder(IAE), a simple yet effective method that addresses this challenge by replacing the point cloud decoder with an implicit decoder. The implicit decoder outputs a continuous representation that is shared among different point cloud sampling of the same model. Reconstructing under the implicit representation can prioritize that the encoder discards sampling variations, introducing more space to learn useful features. We theoretically justify this claim under a simple linear autoencoder. Moreover, the implicit decoder offers a rich space to design suitable implicit representations for different tasks. We demonstrate the usefulness of IAE across various self-supervised learning tasks for both 3D objects and 3D scenes. Experimental results show that IAE consistently outperforms the state-of-the-art in each task.
翻訳日:2022-01-04 14:50:15 公開日:2022-01-03
# 再訪した確率的重量平均

Stochastic Weight Averaging Revisited ( http://arxiv.org/abs/2201.00519v1 )

ライセンス: Link先を確認
Hao Guo, Jiyong Jin, Bin Liu(参考訳) SWA(Stochastic weight averaging)は、ディープニューラルネットワーク(DNN)のトレーニングにおいて、SGD(Stochastic gradient descent)の一般化を改善するための1つの効果的なアプローチとして認識されている。 その成功を説明するための一般的な洞察は、循環的または高い定常学習率を備えたSGDプロセスに続く平均的な重み付けは、より広い最適性を発見し、より良い一般化をもたらすことである。 上記のものと一致しない新たな洞察を与えます。 SWAの性能はSWAが収束する前のSGDプロセスの程度に大きく依存しており、重量平均化の操作は分散低減にのみ寄与する。 この新しい洞察は、より良いアルゴリズム設計に関する実践的なガイドを示唆する。 インスタンス化により, 収束が不十分なSGDプロセスに従うと, SWAの実行回数が増加し, 一般化の点から連続的な漸進的なメリットが得られた。 この結果はcnn, preresnet-164, wideresnet-28-10, vgg16, resnet-50, resnet-152, densenet-161, and different datasets, cifar-{10,100}, imagenetなど,さまざまなネットワークアーキテクチャにわたる広範な実験によって裏付けられている。

Stochastic weight averaging (SWA) is recognized as a simple while one effective approach to improve the generalization of stochastic gradient descent (SGD) for training deep neural networks (DNNs). A common insight to explain its success is that averaging weights following an SGD process equipped with cyclical or high constant learning rates can discover wider optima, which then lead to better generalization. We give a new insight that does not concur with the above one. We characterize that SWA's performance is highly dependent on to what extent the SGD process that runs before SWA converges, and the operation of weight averaging only contributes to variance reduction. This new insight suggests practical guides on better algorithm design. As an instantiation, we show that following an SGD process with insufficient convergence, running SWA more times leads to continual incremental benefits in terms of generalization. Our findings are corroborated by extensive experiments across different network architectures, including a baseline CNN, PreResNet-164, WideResNet-28-10, VGG16, ResNet-50, ResNet-152, DenseNet-161, and different datasets including CIFAR-{10,100}, and Imagenet.
翻訳日:2022-01-04 14:45:54 公開日:2022-01-03
# (参考訳) 遠隔ネットワーク監視によるツイートの半教師付き姿勢検出 [全文訳有]

Semi-supervised Stance Detection of Tweets Via Distant Network Supervision ( http://arxiv.org/abs/2201.00614v1 )

ライセンス: CC BY 4.0
Subhabrata Dutta, Samiya Caur, Soumen Chakrabarti, Tanmoy Chakraborty(参考訳) ソーシャルメディアテキスト中のスタンスの検出とラベル付けは、ヘイトスピーチの検出、ポーリング予測、エンゲージメント予測、および協調プロパガンダ検出によって強く動機付けられている。 ソーシャルメディアのテキストが急速に変化する状況と、ユーザーがオペインする問題を考えると、今日の最高のニューラルネットワーク検出には大量のトレーニングデータが必要です。 ソーシャルネットワーク上のホモフィリーな特性は、粗いユーザーレベルのスタンスを示す強いシグナルを与える。 しかし、ツイートレベルのスタンス検出のための半教師付きアプローチは、ホモフィリーを適切に活用できない。 そこで我々は,新しい半教師付き姿勢検出器SANDSを提案する。 SANDSはラベル付きツイートから始まる。 ツイートの複数の深い機能ビューを構築する。 また、ソーシャルネットワークから離れた監視信号を使用して、コンポーネント学習者に代理的損失信号を提供する。 8万7000人を超えるユーザーが投稿した2つの人口統計(米国とインド)から23万6000以上の政治的に色付けされたツイート、フォロワーフォローグラフ、言語学者が注釈付けした8000以上のツイートからなる、新しいツイートデータセットを2つ用意する。 SANDSは、米国(インド)ベースのデータセットで0.55(0.49)のマクロF1スコアを達成し、17のベースライン(SANDSの変種を含む)を大幅に上回っている。 SANDSにおける多数のアブレーション実験は、テキスト信号とネットワークプロパゲート信号の力学を乱す。

Detecting and labeling stance in social media text is strongly motivated by hate speech detection, poll prediction, engagement forecasting, and concerted propaganda detection. Today's best neural stance detectors need large volumes of training data, which is difficult to curate given the fast-changing landscape of social media text and issues on which users opine. Homophily properties over the social network provide strong signal of coarse-grained user-level stance. But semi-supervised approaches for tweet-level stance detection fail to properly leverage homophily. In light of this, We present SANDS, a new semi-supervised stance detector. SANDS starts from very few labeled tweets. It builds multiple deep feature views of tweets. It also uses a distant supervision signal from the social network to provide a surrogate loss signal to the component learners. We prepare two new tweet datasets comprising over 236,000 politically tinted tweets from two demographics (US and India) posted by over 87,000 users, their follower-followee graph, and over 8,000 tweets annotated by linguists. SANDS achieves a macro-F1 score of 0.55 (0.49) on US (India)-based datasets, outperforming 17 baselines (including variants of SANDS) substantially, particularly for minority stance labels and noisy text. Numerous ablation experiments on SANDS disentangle the dynamics of textual and network-propagated stance signals.
翻訳日:2022-01-04 14:44:17 公開日:2022-01-03
# Scene Graph Generation: 総合的な調査

Scene Graph Generation: A Comprehensive Survey ( http://arxiv.org/abs/2201.00443v1 )

ライセンス: Link先を確認
Guangming Zhu, Liang Zhang, Youliang Jiang, Yixuan Dang, Haoran Hou, Peiyi Shen, Mingtao Feng, Xia Zhao, Qiguang Miao, Syed Afaq Ali Shah and Mohammed Bennamoun(参考訳) ディープラーニング技術は、ジェネリックオブジェクト検出の分野で目覚ましいブレークスルーをもたらし、近年では、シーンを理解する多くのタスクを生み出している。 シーングラフは、その強力な意味表現とシーン理解への応用から研究の焦点となっている。 シーングラフ生成(sgg: scene graph generation)は、画像を自動的にセマンティックな構造的なシーングラフにマッピングするタスクであり、検出されたオブジェクトとその関連を正しくラベル付けする必要がある。 これは難しい作業だが、コミュニティは多くのSGGアプローチを提案し、良い結果を得た。 本稿では,この分野での最近の成果について,ディープラーニング技術がもたらす総合的な調査を行う。 我々は,異なる入力モダリティをカバーする138の代表的な作品についてレビューし,特徴抽出と融合の観点から,画像ベースSGGの既存手法を体系的に要約する。 我々は,既存の視覚関係検出手法を接続し,体系化し,sggのメカニズムと戦略を包括的に要約し,解釈する。 最後に,現在の問題点と今後の研究方向性を深く議論して,この調査を終える。 この調査は、読者が現在の研究状況とアイデアをよりよく理解するのに役立つだろう。

Deep learning techniques have led to remarkable breakthroughs in the field of generic object detection and have spawned a lot of scene-understanding tasks in recent years. Scene graph has been the focus of research because of its powerful semantic representation and applications to scene understanding. Scene Graph Generation (SGG) refers to the task of automatically mapping an image into a semantic structural scene graph, which requires the correct labeling of detected objects and their relationships. Although this is a challenging task, the community has proposed a lot of SGG approaches and achieved good results. In this paper, we provide a comprehensive survey of recent achievements in this field brought about by deep learning techniques. We review 138 representative works that cover different input modalities, and systematically summarize existing methods of image-based SGG from the perspective of feature extraction and fusion. We attempt to connect and systematize the existing visual relationship detection methods, to summarize, and interpret the mechanisms and the strategies of SGG in a comprehensive way. Finally, we finish this survey with deep discussions about current existing problems and future research directions. This survey will help readers to develop a better understanding of the current research status and ideas.
翻訳日:2022-01-04 14:25:40 公開日:2022-01-03
# 時間文接地のための記憶誘導セマンティック学習ネットワーク

Memory-Guided Semantic Learning Network for Temporal Sentence Grounding ( http://arxiv.org/abs/2201.00454v1 )

ライセンス: Link先を確認
Daizong Liu, Xiaoye Qu, Xing Di, Yu Cheng, Zichuan Xu, Pan Zhou(参考訳) tsg(temporal sentence grounding)はビデオ理解において重要かつ基本的である。 既存の手法では十分な設計の深層ネットワークを多量のデータでトレーニングするが,オフバランスデータ分布がモデルの一般化に影響を与え,望ましくない性能をもたらすため,トレーニング段階にほとんど出現しないケースは容易に忘れられることがわかった。 この問題に対処するために,記憶誘導セマンティックラーニングネットワーク (MGSL-Net) という,TSGタスクで稀に現れるコンテンツを学習し記憶するメモリ拡張ネットワークを提案する。 具体的には、MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分から構成される。 まず、与えられたビデオクエリ対をクロスモーダルグラフ畳み込みネットワークで整列し、次にメモリモジュールを使用してドメイン固有の永続メモリに、クロスモーダル共有セマンティック特徴を記録する。 トレーニング中、メモリスロットは一般的なケースと稀なケースの両方に動的に関連付けられ、忘れる問題を緩和する。 テストでは、記憶された記憶を取り出すことにより、稀なケースが強化され、より一般化される。 最後に、ビデオドメインとクエリドメインの両方に拡張されたマルチモーダル機能を統合するために、異種注意モジュールを利用する。 3つのベンチマークによる実験結果から,提案手法は有効性と効率の両方において優れており,データセット全体だけでなく,稀なケースにおいても精度が大幅に向上した。

Temporal sentence grounding (TSG) is crucial and fundamental for video understanding. Although the existing methods train well-designed deep networks with a large amount of data, we find that they can easily forget the rarely appeared cases in the training stage due to the off-balance data distribution, which influences the model generalization and leads to undesirable performance. To tackle this issue, we propose a memory-augmented network, called Memory-Guided Semantic Learning Network (MGSL-Net), that learns and memorizes the rarely appeared content in TSG tasks. Specifically, MGSL-Net consists of three main parts: a cross-modal inter-action module, a memory augmentation module, and a heterogeneous attention module. We first align the given video-query pair by a cross-modal graph convolutional network, and then utilize a memory module to record the cross-modal shared semantic features in the domain-specific persistent memory. During training, the memory slots are dynamically associated with both common and rare cases, alleviating the forgetting issue. In testing, the rare cases can thus be enhanced by retrieving the stored memories, resulting in better generalization. At last, the heterogeneous attention module is utilized to integrate the enhanced multi-modal features in both video and query domains. Experimental results on three benchmarks show the superiority of our method on both effectiveness and efficiency, which substantially improves the accuracy not only on the entire dataset but also on rare cases.
翻訳日:2022-01-04 14:25:21 公開日:2022-01-03
# 時間文接地のための動きと外観情報の探索

Exploring Motion and Appearance Information for Temporal Sentence Grounding ( http://arxiv.org/abs/2201.00457v1 )

ライセンス: Link先を確認
Daizong Liu, Xiaoye Qu, Pan Zhou, Yang Liu(参考訳) 本論文は時間的文接頭辞に対処する。 それまでの作業は、フレームレベルのビデオ機能を学び、それらをテキスト情報と整合させることで、この課題を解決してきた。 これらの作業の大きな制限は、フレームレベルの特徴抽出による微妙な外観の違いで曖昧なビデオフレームを区別できないことである。 近年,Faster R-CNNを用いて各フレームの詳細なオブジェクトの特徴を抽出し,外観の微妙な類似性を識別する手法が提案されている。 しかし、Faster R-CNNが抽出したオブジェクトレベルの特徴は、オブジェクト検出モデルに時間的モデリングが欠けているため、動作解析に支障をきたす。 この問題を解決するために,動作認識と外観認識の両方のオブジェクト特徴を取り入れた,連続するフレーム間のアクティビティをモデル化するためのオブジェクト関係をより適切に推論する新しい動き認識推論ネットワーク(MARN)を提案する。 具体的には,まずビデオエンコーダを2つ導入し,映像を映像指向表現と外観指向オブジェクト表現に埋め込む。 次に,運動誘導と出現誘導対象の関係をそれぞれ学習するために,運動と出現の枝を分離する。 最終的に、2つの枝からの動作情報と外観情報を関連付け、最終接地のためのより代表的な特徴を生成する。 2つの挑戦的データセット(Charades-STAとTACoS)に対する大規模な実験により、提案したMARNは従来の最先端手法よりも大きなマージンで大幅に優れていた。

This paper addresses temporal sentence grounding. Previous works typically solve this task by learning frame-level video features and align them with the textual information. A major limitation of these works is that they fail to distinguish ambiguous video frames with subtle appearance differences due to frame-level feature extraction. Recently, a few methods adopt Faster R-CNN to extract detailed object features in each frame to differentiate the fine-grained appearance similarities. However, the object-level features extracted by Faster R-CNN suffer from missing motion analysis since the object detection model lacks temporal modeling. To solve this issue, we propose a novel Motion-Appearance Reasoning Network (MARN), which incorporates both motion-aware and appearance-aware object features to better reason object relations for modeling the activity among successive frames. Specifically, we first introduce two individual video encoders to embed the video into corresponding motion-oriented and appearance-aspect object representations. Then, we develop separate motion and appearance branches to learn motion-guided and appearance-guided object relations, respectively. At last, both motion and appearance information from two branches are associated to generate more representative features for final grounding. Extensive experiments on two challenging datasets (Charades-STA and TACoS) show that our proposed MARN significantly outperforms previous state-of-the-art methods by a large margin.
翻訳日:2022-01-04 14:24:54 公開日:2022-01-03
# オープンワールドオブジェクト検出の再検討

Revisiting Open World Object Detection ( http://arxiv.org/abs/2201.00471v1 )

ライセンス: Link先を確認
Xiaowei Zhao, Xianglong Liu, Yifan Shen, Yuqing Ma, Yixuan Qiao, Duorui Wang(参考訳) Open World Object Detection (OWOD)は、知識が継続的に成長する現実世界をシミュレーションし、未知のクラスと未知のクラスの両方を検出し、識別された未知のクラスを漸進的に学習しようとする。 OWOD の定義は,従来の OWOD の作業のみが構成的に推し進めたものの,実験的な設定は非論理的ベンチマークと不合理であり,計量計算を混乱させ,不適切な方法であることがわかった。 本稿では,OWOD 実験設定を再考し,OWOD ベンチマーク構築の指針となる5つの基本ベンチマーク原理を提案する。 さらに,OWOD問題に特有な2つの公正評価プロトコルを設計し,未知のクラスの観点から評価する余地を埋める。 さらに,提案アドバイザ (PAD) とクラス固有の排他的分類器 (CEC) を含む新規かつ効果的なOWODフレームワークを提案する。 非パラメトリックPADは、RPNが監督なしで正確な未知の提案を特定するのを補助し、CECは過信のアクティベーション境界を校正し、クラス固有の排出関数を通じて混乱した予測をフィルタリングする。 試行錯誤実験の結果,本手法は既存指標と新指標の両方の観点から,他の最先端のオブジェクト検出手法よりも優れていることが示された。 footnote{our benchmark and codeはhttps://github.com/r e-owod/re-owodで入手できる。

Open World Object Detection (OWOD), simulating the real dynamic world where knowledge grows continuously, attempts to detect both known and unknown classes and incrementally learn the identified unknown ones. We find that although the only previous OWOD work constructively puts forward to the OWOD definition, the experimental settings are unreasonable with the illogical benchmark, confusing metric calculation, and inappropriate method. In this paper, we rethink the OWOD experimental setting and propose five fundamental benchmark principles to guide the OWOD benchmark construction. Moreover, we design two fair evaluation protocols specific to the OWOD problem, filling the void of evaluating from the perspective of unknown classes. Furthermore, we introduce a novel and effective OWOD framework containing an auxiliary Proposal ADvisor (PAD) and a Class-specific Expelling Classifier (CEC). The non-parametric PAD could assist the RPN in identifying accurate unknown proposals without supervision, while CEC calibrates the over-confident activation boundary and filters out confusing predictions through a class-specific expelling function. Comprehensive experiments conducted on our fair benchmark demonstrate that our method outperforms other state-of-the-art object detection approaches in terms of both existing and our new metrics.\footnote{Our benchmark and code are available at https://github.com/R E-OWOD/RE-OWOD.
翻訳日:2022-01-04 14:24:29 公開日:2022-01-03
# CaFT: 弱監視対象位置決めのためのトランスフォーマーのトークンのクラスタリングとフィルタ

CaFT: Clustering and Filter on Tokens of Transformer for Weakly Supervised Object Localization ( http://arxiv.org/abs/2201.00475v1 )

ライセンス: Link先を確認
Ming Li(参考訳) 弱教師付きオブジェクトローカライゼーション(WSOL)は、カテゴリラベルのみによってオブジェクトをローカライズする難しいタスクである。 しかし、正確な分類ネットワークは全体よりも物体の識別領域に注意を払う傾向があるため、分類と局所化には矛盾がある。 この判別は,cam方式における手工芸しきい値選択に起因している。 そこで我々は,視覚変換器 (ViT) のバックボーンを付加したTokensのクラスタリングとフィルタを提案し,この問題を別の方法で解決する。 CaFTはまず画像のパッチトークンをViTに送信し、出力トークンをクラスタ化してオブジェクトの初期マスクを生成する。 第二に、CaFTは初期マスクを擬似ラベルとして、バックボーンに従って浅い畳み込みヘッド(Attention Filter, AtF)をトレーニングし、トークンから直接マスクを抽出する。 その後、caftは画像を部品に分割し、それぞれマスクを出力し、1つの洗練されたマスクにマージする。 最後に、改良されたマスクで新しいatfを訓練し、オブジェクトのボックスを予測するために使用する。 実験では、CUB-200とImageNet-1Kでは、CaFTがそれぞれ97.55\%と69.86\%のローカライゼーション精度を達成した。 CaFTはWSOLタスクについて考えるための新しい方法を提供する。

Weakly supervised object localization (WSOL) is a challenging task to localize the object by only category labels. However, there is contradiction between classification and localization because accurate classification network tends to pay attention to discriminative region of objects rather than the entirety. We propose this discrimination is caused by handcraft threshold choosing in CAM-based methods. Therefore, we propose Clustering and Filter of Tokens (CaFT) with Vision Transformer (ViT) backbone to solve this problem in another way. CaFT first sends the patch tokens of the image split to ViT and cluster the output tokens to generate initial mask of the object. Secondly, CaFT considers the initial mask as pseudo labels to train a shallow convolution head (Attention Filter, AtF) following backbone to directly extract the mask from tokens. Then, CaFT splits the image into parts, outputs masks respectively and merges them into one refined mask. Finally, a new AtF is trained on the refined masks and used to predict the box of object. Experiments verify that CaFT outperforms previous work and achieves 97.55\% and 69.86\% localization accuracy with ground-truth class on CUB-200 and ImageNet-1K respectively. CaFT provides a fresh way to think about the WSOL task.
翻訳日:2022-01-04 14:24:05 公開日:2022-01-03
# ビデオオブジェクトセグメンテーション参照のためのクエリとしての言語

Language as Queries for Referring Video Object Segmentation ( http://arxiv.org/abs/2201.00487v1 )

ライセンス: Link先を確認
Jiannan Wu, Yi Jiang, Peize Sun, Zehuan Yuan, Ping Luo(参考訳) 参照ビデオオブジェクトセグメンテーション(R-VOS)は、すべてのビデオフレームで言語表現によって参照される対象オブジェクトをセグメント化することを目的とした、新たなクロスモーダルタスクである。 本稿では,transformer を基盤としたシンプルな統一フレームワークである referformer を提案する。 言語をクエリとみなし、ビデオフレーム内の最も関連性の高い領域に直接参加する。 具体的には、Transformerへの入力として、言語で条件付けられたオブジェクトクエリの小さなセットを導入する。 このようにして、全てのクエリは参照オブジェクトのみを見つけるように義務付けられます。 最終的にそれらは動的カーネルに変換され、重要なオブジェクトレベル情報をキャプチャし、特徴マップからセグメンテーションマスクを生成する畳み込みフィルタの役割を担う。 オブジェクト追跡は、フレーム間で対応するクエリをリンクすることで、自然に達成される。 このメカニズムはパイプラインを大幅に単純化し、エンドツーエンドフレームワークは以前の方法と大きく異なる。 Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences, JHMDB-Sentencesの大規模な実験はReferFormerの有効性を示した。 ref-youtube-vosでは、refer-formerはresnet-50バックボーンで55.6j&fを達成した。 さらに、強力なSwin-Largeバックボーンによって、ReferFormerは既存のすべてのメソッドの中で最高の62.4のJ&Fを達成する。 単純な後処理技術を採用することにより、J&Fメートル法はさらに63.3に引き上げることができる。 さらに, A2D-Sentences と JHMDB-Sentences の55.0 mAP と43.7 mAP がそれぞれ有意な結果を示し, 従来手法よりも有意に優れていた。 コードはhttps://github.com/w jn922/referformerで公開されている。

Referring video object segmentation (R-VOS) is an emerging cross-modal task that aims to segment the target object referred by a language expression in all video frames. In this work, we propose a simple and unified framework built upon Transformer, termed ReferFormer. It views the language as queries and directly attends to the most relevant regions in the video frames. Concretely, we introduce a small set of object queries conditioned on the language as the input to the Transformer. In this manner, all the queries are obligated to find the referred objects only. They are eventually transformed into dynamic kernels which capture the crucial object-level information, and play the role of convolution filters to generate the segmentation masks from feature maps. The object tracking is achieved naturally by linking the corresponding queries across frames. This mechanism greatly simplifies the pipeline and the end-to-end framework is significantly different from the previous methods. Extensive experiments on Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences and JHMDB-Sentences show the effectiveness of ReferFormer. On Ref-Youtube-VOS, Refer-Former achieves 55.6J&F with a ResNet-50 backbone without bells and whistles, which exceeds the previous state-of-the-art performance by 8.4 points. In addition, with the strong Swin-Large backbone, ReferFormer achieves the best J&F of 62.4 among all existing methods. The J&F metric can be further boosted to 63.3 by adopting a simple post-process technique. Moreover, we show the impressive results of 55.0 mAP and 43.7 mAP on A2D-Sentences andJHMDB-Sentences respectively, which significantly outperforms the previous methods by a large margin. Code is publicly available at https://github.com/w jn922/ReferFormer.
翻訳日:2022-01-04 14:23:42 公開日:2022-01-03
# (参考訳) GPU加速EmbedSOMによる拡張性半教師付き次元削減

Scalable semi-supervised dimensionality reduction with GPU-accelerated EmbedSOM ( http://arxiv.org/abs/2201.00701v1 )

ライセンス: CC BY-SA 4.0
Adam \v{S}melko, So\v{n}a Moln\'arov\'a, Miroslav Kratochv\'il, Abhishek Koladiya, Jan Musil, Martin Kruli\v{s}, Ji\v{r}\'i Vondr\'a\v{s}ek(参考訳) 次元の削減手法は、様々な科学分野の可視化ツールとして広く応用されている。 多くの異なる方法が存在するが、その性能は、多くの現代のデータセットの迅速な洞察を提供するには不十分であり、教師なしの使用モードにより、ユーザはデータセットの探索や詳細の微調整に利用できないため、可視化品質が向上している。 数百万のデータポイントを持つ高次元データセットの対話型ユーザステアブルな可視化のための,高性能な半教師付き次元減少ソフトウェアであるBlosSOMを提案する。 BlosSOMはGPUで高速化されたEmbedSOMアルゴリズムの実装の上に構築されており、教師なしモデル学習アルゴリズムとユーザ監督とを相互作用するランドマークベースのアルゴリズムを補完する。 そこでは,ユーザの指定したレイアウトを取り入れ,特定の機能に焦点を当てた高品質な視覚化を実現する。 半教師付き次元減少は、単細胞サイトメトリーのような科学領域のデータ可視化可能性を改善し、データセット探索およびアノテーションにおける新しい方向の高速かつ効率的なベース方法論を提供する。

Dimensionality reduction methods have found vast application as visualization tools in diverse areas of science. Although many different methods exist, their performance is often insufficient for providing quick insight into many contemporary datasets, and the unsupervised mode of use prevents the users from utilizing the methods for dataset exploration and fine-tuning the details for improved visualization quality. We present BlosSOM, a high-performance semi-supervised dimensionality reduction software for interactive user-steerable visualization of high-dimensional datasets with millions of individual data points. BlosSOM builds on a GPU-accelerated implementation of the EmbedSOM algorithm, complemented by several landmark-based algorithms for interfacing the unsupervised model learning algorithms with the user supervision. We show the application of BlosSOM on realistic datasets, where it helps to produce high-quality visualizations that incorporate user-specified layout and focus on certain features. We believe the semi-supervised dimensionality reduction will improve the data visualization possibilities for science areas such as single-cell cytometry, and provide a fast and efficient base methodology for new directions in dataset exploration and annotation.
翻訳日:2022-01-04 14:23:11 公開日:2022-01-03
# (参考訳) 高時間分解能温度測定による表層地下水交換の推測における機械学習の適用

Application of Machine Learning Methods in Inferring Surface Water Groundwater Exchanges using High Temporal Resolution Temperature Measurements ( http://arxiv.org/abs/2201.00726v1 )

ライセンス: CC BY 4.0
Mohammad A. Moghaddam, Ty P. A. Ferre, Xingyuan Chen, Kewei Chen, Mohammad Reza Ehsani(参考訳) 地表面温度観測に基づいて,地表面/地表面交換フラックスを推定する機械学習(ML)と深層学習(DL)アルゴリズムについて検討した。 観測とフラックスは、ワシントンd.c.南東部にあるエネルギー省ハンフォード遺跡近くのコロンビア川の条件を表す高分解能数値モデルから生成される。 合成温度観測には、様々な大きさのランダム測定誤差が付加される。 その結果, ML法とDL法の両方を用いて表面/地表面交換フラックスを推定できることが示唆された。 dl法、特に畳み込みニューラルネットワークは、平滑化フィルタを適用して雑音温度データを解釈する際にml法を上回る。 しかし、ML手法も良好に動作し、ネットワーク最適化の計測に有用である重要な観測回数の削減をより正確に識別することができる。 驚くべきことに、ML法とDL法は下向きのフラックスよりも上向きのフラックスを推測する方がよい。 これは、温度観測からフラックスを推定するために数値モデルを用いた以前の結果と直接対照的であり、MLまたはDL推論と数値推論を組み合わせることで、河川系のフラックス推定が向上する可能性が示唆されている。

We examine the ability of machine learning (ML) and deep learning (DL) algorithms to infer surface/ground exchange flux based on subsurface temperature observations. The observations and fluxes are produced from a high-resolution numerical model representing conditions in the Columbia River near the Department of Energy Hanford site located in southeastern Washington State. Random measurement error, of varying magnitude, is added to the synthetic temperature observations. The results indicate that both ML and DL methods can be used to infer the surface/ground exchange flux. DL methods, especially convolutional neural networks, outperform the ML methods when used to interpret noisy temperature data with a smoothing filter applied. However, the ML methods also performed well and they are can better identify a reduced number of important observations, which could be useful for measurement network optimization. Surprisingly, the ML and DL methods better inferred upward flux than downward flux. This is in direct contrast to previous findings using numerical models to infer flux from temperature observations and it may suggest that combined use of ML or DL inference with numerical inference could improve flux estimation beneath river systems.
翻訳日:2022-01-04 14:18:31 公開日:2022-01-03
# 半定制約下でのニューラルネットワークトレーニング

Neural network training under semidefinite constraints ( http://arxiv.org/abs/2201.00632v1 )

ライセンス: Link先を確認
Patricia Pauli, Niklas Funcke, Dennis Gramlich, Mohamed Amine Msalmi and Frank Allg\"ower(参考訳) 本稿では,ニューラルネットワーク(NN)の半定制約下でのトレーニングについて述べる。 このタイプのトレーニング問題は、例えば、リプシッツ定数の上界の推定や、NNの堅牢性、NNコントローラによる動的システムの安定性などを含む、NNの興味深い性質を半定値制約で検証できるため、最近人気が高まっている。 利用された半定義制約は、基礎となる活性化関数によって満たされるセクタ制約に基づいている。 残念ながら、これらの新しい結果の最大のボトルネックの1つは、大きなNNにスケーラビリティを制限しているNNのトレーニングに半定制約を組み込むために必要な計算努力である。 この課題に対して,半定制約に対するバリア関数を用いて実装したNNトレーニングのためのインテリアポイント法を開発した。 障壁項の勾配を効率的に計算するために、半定値制約の構造を利用する。 実験では,従来の手法よりも優れた訓練方法を示し,例えば,判別者がリプシッツ条件を満たさなければならないワッサースタイン生成逆ネットワークの訓練において,半定義的な制約を使用できることを示した。

This paper is concerned with the training of neural networks (NNs) under semidefinite constraints. This type of training problems has recently gained popularity since semidefinite constraints can be used to verify interesting properties for NNs that include, e.g., the estimation of an upper bound on the Lipschitz constant, which relates to the robustness of an NN, or the stability of dynamic systems with NN controllers. The utilized semidefinite constraints are based on sector constraints satisfied by the underlying activation functions. Unfortunately, one of the biggest bottlenecks of these new results is the required computational effort for incorporating the semidefinite constraints into the training of NNs which is limiting their scalability to large NNs. We address this challenge by developing interior point methods for NN training that we implement using barrier functions for semidefinite constraints. In order to efficiently compute the gradients of the barrier terms, we exploit the structure of the semidefinite constraints. In experiments, we demonstrate the superior efficiency of our training method over previous approaches, which allows us, e.g., to use semidefinite constraints in the training of Wasserstein generative adversarial networks, where the discriminator must satisfy a Lipschitz condition.
翻訳日:2022-01-04 14:16:20 公開日:2022-01-03
# 自然言語処理における潜在構造を用いた学習

Learning with Latent Structures in Natural Language Processing: A Survey ( http://arxiv.org/abs/2201.00490v1 )

ライセンス: Link先を確認
Zhaofeng Wu(参考訳) 完全に微分可能なモデルを用いたエンドツーエンドの学習は、自然言語プロセス(nlp)と機械学習で大きな成功を収めているが、最近は、潜在的な離散構造で学習することで、エンドタスクのパフォーマンス向上と解釈性向上のために、より良い帰納的バイアスを取り入れることに大きな関心が寄せられている。 しかし、このパラダイムは、主流の勾配に基づく最適化手法に簡単には適用できない。 本研究は, シュロゲート勾配, 連続緩和, サンプリングによる限界極大化の3種類の手法を探索する。 本研究は,これらの手法の応用のレビューと,それらが引き起こす学習された潜伏構造の検査で締めくくった。

While end-to-end learning with fully differentiable models has enabled tremendous success in natural language process (NLP) and machine learning, there have been significant recent interests in learning with latent discrete structures to incorporate better inductive biases for improved end-task performance and better interpretability. This paradigm, however, is not straightforwardly amenable to the mainstream gradient-based optimization methods. This work surveys three main families of methods to learn such models: surrogate gradients, continuous relaxation, and marginal likelihood maximization via sampling. We conclude with a review of applications of these methods and an inspection of the learned latent structure that they induce.
翻訳日:2022-01-04 14:16:00 公開日:2022-01-03
# どの学生がベストか? タスク特化BERTモデルの総合的知識蒸留試験

Which Student is Best? A Comprehensive Knowledge Distillation Exam for Task-Specific BERT Models ( http://arxiv.org/abs/2201.00558v1 )

ライセンス: Link先を確認
Made Nindyatama Nityasya, Haryo Akbarianto Wibowo, Rendi Chevi, Radityo Eko Prasojo, Alham Fikri Aji(参考訳) 我々は,タスク固有のBERTベースの教師モデルから,BiLSTM,CNN,BERT-Tin y,BERT-Mini,BERT-Sma llといった学生モデルまで,知識蒸留(KD)ベンチマークを実施している。 実験では,インドネシア語のテキスト分類とシーケンスラベリングの2つのタスクに12のデータセットをグループ化する。 また, 用語埋め込みの利用やラベル付きデータ拡張など, 蒸留の様々な側面を比較検討した。 実験の結果, トランスフォーマーモデルの普及にもかかわらず, BiLSTM と CNN の学生モデルを用いることで, 性能と計算資源(CPU, RAM, ストレージ)のトレードオフが, プルーニングされたBERTモデルと比較して最も優れていることがわかった。 さらに,損失関数,単語埋め込み,ラベルなしデータ準備の簡単な選択を含む効率的なkdトレーニング機構を通じて,kdを実行して小さなnlpモデルを作成するためのクイックウィングを提案する。

We perform knowledge distillation (KD) benchmark from task-specific BERT-base teacher models to various student models: BiLSTM, CNN, BERT-Tiny, BERT-Mini, and BERT-Small. Our experiment involves 12 datasets grouped in two tasks: text classification and sequence labeling in the Indonesian language. We also compare various aspects of distillations including the usage of word embeddings and unlabeled data augmentation. Our experiments show that, despite the rising popularity of Transformer-based models, using BiLSTM and CNN student models provide the best trade-off between performance and computational resource (CPU, RAM, and storage) compared to pruned BERT models. We further propose some quick wins on performing KD to produce small NLP models via efficient KD training mechanisms involving simple choices of loss functions, word embeddings, and unlabeled data preparation.
翻訳日:2022-01-04 14:15:48 公開日:2022-01-03
# (参考訳) 実行順序66:強化学習のためのターゲットデータ中毒 [全文訳有]

Execute Order 66: Targeted Data Poisoning for Reinforcement Learning ( http://arxiv.org/abs/2201.00762v1 )

ライセンス: CC0 1.0
Harrison Foley and Liam Fowl and Tom Goldstein and Gavin Taylor(参考訳) 強化学習のためのデータ中毒は、歴史的に一般的なパフォーマンス劣化に焦点を当てており、被害者の方針や報酬の制御を含む摂動を通じて標的攻撃が成功している。 本研究は,特定の目標状態においてのみエージェントの不正行動を引き起こす強化学習に対する有害な毒殺攻撃を,政策や報酬の制御を前提とせず,少数のトレーニング観察を最小限に修正しながらも導入する。 我々は,最近の手法である勾配アライメントを強化学習に適用することにより,これを実現する。 本手法を検証し,難易度が異なる2つのアタリゲームで成功例を示す。

Data poisoning for reinforcement learning has historically focused on general performance degradation, and targeted attacks have been successful via perturbations that involve control of the victim's policy and rewards. We introduce an insidious poisoning attack for reinforcement learning which causes agent misbehavior only at specific target states - all while minimally modifying a small fraction of training observations without assuming any control over policy or reward. We accomplish this by adapting a recent technique, gradient alignment, to reinforcement learning. We test our method and demonstrate success in two Atari games of varying difficulty.
翻訳日:2022-01-04 14:12:36 公開日:2022-01-03
# maskGRU:大きな背景運動の存在下で小さな物体を追跡する

maskGRU: Tracking Small Objects in the Presence of Large Background Motions ( http://arxiv.org/abs/2201.00467v1 )

ライセンス: Link先を確認
Constantine J. Roros, Avinash C. Kak(参考訳) 本研究では,ビデオ中の小物体の検出と追跡を行うために,maskgruと呼ばれる再帰的ニューラルネットワークに基づく時空間フレームワークを提案する。 近年、物体追跡の分野では、多くの進展があるが、他の移動物体や俳優(スポーツ映像中の選手の移動中のボールなど)の中で小さな移動物体を追跡することは、依然として難しい課題である。 畳み込みGated Recurrent Units (convGRUs) のような既存の時空間ネットワークは、訓練が困難であり、そのような条件下で小さな物体を正確に追跡することが困難である。 このような課題を克服するために,我々は,convGRUが生成する内部隠蔽状態の重み付け和と,被追跡物体の予測有界箱の3チャネルマスクを,基盤となるconvGRUの次のステップで使用する隠蔽状態として用いるマスクGRUフレームワークを開発した。 マスクを重み付き和で隠蔽状態に組み込む手法には,爆発勾配の影響を制御し,被写体の位置を示すことによって,注目機構をネットワークに導入する,という2つの利点があると考えている。 実験の結果,他の移動物体の存在下においても,映像解像度に対して小さい物体の追跡において,mskGRUはconvGRUよりも優れていた。

We propose a recurrent neural network-based spatio-temporal framework named maskGRU for the detection and tracking of small objects in videos. While there have been many developments in the area of object tracking in recent years, tracking a small moving object amid other moving objects and actors (such as a ball amid moving players in sports footage) continues to be a difficult task. Existing spatio-temporal networks, such as convolutional Gated Recurrent Units (convGRUs), are difficult to train and have trouble accurately tracking small objects under such conditions. To overcome these difficulties, we developed the maskGRU framework that uses a weighted sum of the internal hidden state produced by a convGRU and a 3-channel mask of the tracked object's predicted bounding box as the hidden state to be used at the next time step of the underlying convGRU. We believe the technique of incorporating a mask into the hidden state through a weighted sum has two benefits: controlling the effect of exploding gradients and introducing an attention-like mechanism into the network by indicating where in the previous video frame the object is located. Our experiments show that maskGRU outperforms convGRU at tracking objects that are small relative to the video resolution even in the presence of other moving objects.
翻訳日:2022-01-04 14:00:35 公開日:2022-01-03
# 交通光検出のための新規な一般化評価

Novelty-based Generalization Evaluation for Traffic Light Detection ( http://arxiv.org/abs/2201.00531v1 )

ライセンス: Link先を確認
Arvind Kumar Shekar, Laureen Lake, Liang Gou, Liu Ren(参考訳) 畳み込みニューラルネットワーク(CNN)の出現により、いくつかのドメインで採用されている。 注目すべき応用の1つは、CNNの予測に依存する自動運転の認識システムである。 実践者は、独立したテストデータセット上で様々なメトリクスを計算することによって、そのようなcnnの一般化能力を評価する。 テストデータセットは1つの条件のみに基づいて選択されることが多く、その要素はトレーニングデータの一部ではない。 このようなデータセットは、w.r.t.のトレーニングデータセットと似たオブジェクトを含むことができる。 それにもかかわらず、既存の作品はテストサンプルの新規性を考慮せず、一般化を評価するために等しく扱う。 このような新規性に基づく評価は、自律運転アプリケーションにおけるCNNの適合性を検証する上で重要である。 そこで本研究では,テストデータセットにおけるオブジェクトの新規性を考慮したCNN一般化スコアリングフレームワークを提案する。 まず,画像データを低次元空間に縮小する表現学習手法から始める。 この領域では、テストサンプルの新規性を評価する。 最後に、一般化スコアをテストデータ予測性能と新規性の組み合わせとして算出する。 我々は、交通信号検出アプリケーションにおいて、同じことを実験的に検討する。 さらに, 解釈可能な新奇性概念の結果を体系的に可視化する。

The advent of Convolutional Neural Networks (CNNs) has led to their application in several domains. One noteworthy application is the perception system for autonomous driving that relies on the predictions from CNNs. Practitioners evaluate the generalization ability of such CNNs by calculating various metrics on an independent test dataset. A test dataset is often chosen based on only one precondition, i.e., its elements are not a part of the training data. Such a dataset may contain objects that are both similar and novel w.r.t. the training dataset. Nevertheless, existing works do not reckon the novelty of the test samples and treat them all equally for evaluating generalization. Such novelty-based evaluations are of significance to validate the fitness of a CNN in autonomous driving applications. Hence, we propose a CNN generalization scoring framework that considers novelty of objects in the test dataset. We begin with the representation learning technique to reduce the image data into a low-dimensional space. It is on this space we estimate the novelty of the test samples. Finally, we calculate the generalization score as a combination of the test data prediction performance and novelty. We perform an experimental study of the same for our traffic light detection application. In addition, we systematically visualize the results for an interpretable notion of novelty.
翻訳日:2022-01-04 14:00:09 公開日:2022-01-03
# 深層マルチエージェントアクタ-クリティックアルゴリズムの漸近収束

Asymptotic Convergence of Deep Multi-Agent Actor-Critic Algorithms ( http://arxiv.org/abs/2201.00570v1 )

ライセンス: Link先を確認
Adrian Redder, Arunselvan Ramaswamy, Holger Karl(参考訳) 我々は,多エージェントDeep Deterministic Policy Gradient (DDPG)アルゴリズムの収束を保証する十分な条件を提案する。 これは、連続的なアクション空間を扱うためのDeep Reinforcement Learning(DeepRL)の最も人気のあるパラダイムの1つである。 ここで考慮される設定では、各エージェントは、ローカルなアクションを取るために、グローバルステートスペースの一部を観察し、ローカルな報酬を受け取る。 全てのエージェントに対して、DDPGは地元の俳優(政治)と地元の批評家(Q-function)を訓練する。 この分析によると、ニューラルネットワークを用いたマルチエージェントDDPGは、局所的なポリシーを近似し、批評家は以下の特性に制限を収束する。 批評家の制限は平均的な正方形ベルマン損失を最小化する; アクターの制限は、地元の批評家の近似を最大に$Q_i^*$で、$i$はエージェントインデックスである。 平均化は、大域的状態-作用空間上の確率分布に関するものである。 すべての局所的なトレーニングプロセスの漸近を捉えます。 最後に、分析を完全に分散化された設定に拡張し、エージェントが無線ネットワークを介して通信すると遅延や損失が発生しやすくなります。

We present sufficient conditions that ensure convergence of the multi-agent Deep Deterministic Policy Gradient (DDPG) algorithm. It is an example of one of the most popular paradigms of Deep Reinforcement Learning (DeepRL) for tackling continuous action spaces: the actor-critic paradigm. In the setting considered herein, each agent observes a part of the global state space in order to take local actions, for which it receives local rewards. For every agent, DDPG trains a local actor (policy) and a local critic (Q-function). The analysis shows that multi-agent DDPG using neural networks to approximate the local policies and critics converge to limits with the following properties: The critic limits minimize the average squared Bellman loss; the actor limits parameterize a policy that maximizes the local critic's approximation of $Q_i^*$, where $i$ is the agent index. The averaging is with respect to a probability distribution over the global state-action space. It captures the asymptotics of all local training processes. Finally, we extend the analysis to a fully decentralized setting where agents communicate over a wireless network prone to delays and losses; a typical scenario in, e.g., robotic applications.
翻訳日:2022-01-04 13:58:06 公開日:2022-01-03
# TSPを超えるニューラル組合せ最適化:既存のグラフ構造

Neural combinatorial optimization beyond the TSP: Existing architectures under-represent graph structure ( http://arxiv.org/abs/2201.00668v1 )

ライセンス: Link先を確認
Matteo Boffa, Zied Ben Houidi, Jonatan Krolikowski, Dario Rossi(参考訳) 近年、強化学習とグラフニューラルネットワーク(GNN)アーキテクチャが組み合わさったことで、生の入力データとプロセスの導出を行う評価器が与えられた場合、実行可能で高品質な出力を返却できるポリシーを自動で学習するという、難しい組合せ最適化の問題を解くことが期待されている。 最近の研究は有望な結果を示しているが、後者は主にトラベルセールスマン問題(TSP)と、スプリットデリバリーカールーティング問題(SDVRP)のような類似の抽象的な変種で評価されている。 本稿では,近年のニューラルアーキテクチャがグラフ問題にどのように応用できるのかを,実用上重要な問題として分析する。 そこで我々は,これらのアーキテクチャをPCAP(Power and Channel Allocation Problem)に系統的に"転送"し,無線ネットワークにおける無線リソース割り当ての実践的妥当性について検討した。 実験の結果 既存のアーキテクチャは (i) グラフの構造的特徴を捉えることができず (ii)グラフ上のアクションがグラフ属性を変更するような問題には適していない。 本稿では,多目的自律型解法学習の目標に向けて,遠隔符号化による問題の構造表現の強化が有望な一歩であることを示す。

Recent years have witnessed the promise that reinforcement learning, coupled with Graph Neural Network (GNN) architectures, could learn to solve hard combinatorial optimization problems: given raw input data and an evaluator to guide the process, the idea is to automatically learn a policy able to return feasible and high-quality outputs. Recent work have shown promising results but the latter were mainly evaluated on the travelling salesman problem (TSP) and similar abstract variants such as Split Delivery Vehicle Routing Problem (SDVRP). In this paper, we analyze how and whether recent neural architectures can be applied to graph problems of practical importance. We thus set out to systematically "transfer" these architectures to the Power and Channel Allocation Problem (PCAP), which has practical relevance for, e.g., radio resource allocation in wireless networks. Our experimental results suggest that existing architectures (i) are still incapable of capturing graph structural features and (ii) are not suitable for problems where the actions on the graph change the graph attributes. On a positive note, we show that augmenting the structural representation of problems with Distance Encoding is a promising step towards the still-ambitious goal of learning multi-purpose autonomous solvers.
翻訳日:2022-01-04 13:57:45 公開日:2022-01-03
# (参考訳) 十分な計画を立てたのか、もっと計画すべきなのか? [全文訳有]

Have I done enough planning or should I plan more? ( http://arxiv.org/abs/2201.00764v1 )

ライセンス: CC BY 4.0
Ruiqi He, Yash Raj Jain, Falk Lieder(参考訳) 限られた計算資源を割り当てる方法についての人々の決定は、人間の知性にとって不可欠である。 このメタ認知能力の重要な構成要素は、何をすべきか考え続け、次の決定に進むかを決めることである。 そこで本研究では,学習機構を逆エンジニアリングすることで,その能力を得ることを示す。 ヒューマンプランニングを外部化するプロセストレースパラダイムを使用することで、計画のコストと利益に対してどれだけの計画を実行するか、すぐに適応できることが分かりました。 メタ認知学習メカニズムを明らかにするために,メタ認知的特徴を持つ強化学習モデルの集合を拡張し,ベイズモデル選択を行った。 本研究は,計画の価値を伝達するメタ認知的擬似回帰によって導かれる政策段階のメカニズムによって,計画量を調整するメタ認知能力が学習されることを示唆する。

People's decisions about how to allocate their limited computational resources are essential to human intelligence. An important component of this metacognitive ability is deciding whether to continue thinking about what to do and move on to the next decision. Here, we show that people acquire this ability through learning and reverse-engineer the underlying learning mechanisms. Using a process-tracing paradigm that externalises human planning, we find that people quickly adapt how much planning they perform to the cost and benefit of planning. To discover the underlying metacognitive learning mechanisms we augmented a set of reinforcement learning models with metacognitive features and performed Bayesian model selection. Our results suggest that the metacognitive ability to adjust the amount of planning might be learned through a policy-gradient mechanism that is guided by metacognitive pseudo-rewards that communicate the value of planning.
翻訳日:2022-01-04 13:52:22 公開日:2022-01-03
# KerGNNs:グラフカーネルを用いた解釈可能なグラフニューラルネットワーク

KerGNNs: Interpretable Graph Neural Networks with Graph Kernels ( http://arxiv.org/abs/2201.00491v1 )

ライセンス: Link先を確認
Aosong Feng, Chenyu You, Shiqiang Wang, and Leandros Tassiulas(参考訳) グラフカーネルは歴史的に最も広く使われているグラフ分類の技法である。 しかし、これらの手法は手作りのグラフの組合せ的特徴のため、性能に乏しい。 近年、グラフニューラルネットワーク(GNN)は、その性能上、下流グラフ関連タスクにおける最先端の手法となっている。 ほとんどのGNNは、Message Passing Neural Network (MPNN)フレームワークに基づいている。 しかし、最近の研究では、グラフ同型テストにおいて、MPNNはWeisfeiler-Lehman (WL)アルゴリズムのパワーを超えることができないことが示されている。 本稿では,既存のグラフカーネルとGNN手法の限界に対処するため,グラフカーネルをGNNのメッセージパッシングプロセスに統合する新しいGNNフレームワークである「textit{Kernel Graph Neural Networks} (KerGNNs)」を提案する。 畳み込みニューラルネットワーク(CNN)の畳み込みフィルタにインスパイアされたKerGNNは、トレーニング可能な隠れグラフをグラフフィルタとして採用し、グラフカーネルを使用してノード埋め込みを更新する。 さらに,MPNNをKerGNNの特殊な事例とみなすことができることを示す。 我々は、KerGNNを複数のグラフ関連タスクに適用し、クロスバリデーションを用いてベンチマークと比較する。 提案手法は,既存の最先端手法と比較して競争性能が向上し,GNNの表現能力向上の可能性を示す。 また,KerGNNの訓練されたグラフフィルタは,データセットの局所的なグラフ構造を明らかにすることができ,従来のGNNモデルと比較してモデルの解釈可能性を大幅に向上することを示した。

Graph kernels are historically the most widely-used technique for graph classification tasks. However, these methods suffer from limited performance because of the hand-crafted combinatorial features of graphs. In recent years, graph neural networks (GNNs) have become the state-of-the-art method in downstream graph-related tasks due to their superior performance. Most GNNs are based on Message Passing Neural Network (MPNN) frameworks. However, recent studies show that MPNNs can not exceed the power of the Weisfeiler-Lehman (WL) algorithm in graph isomorphism test. To address the limitations of existing graph kernel and GNN methods, in this paper, we propose a novel GNN framework, termed \textit{Kernel Graph Neural Networks} (KerGNNs), which integrates graph kernels into the message passing process of GNNs. Inspired by convolution filters in convolutional neural networks (CNNs), KerGNNs adopt trainable hidden graphs as graph filters which are combined with subgraphs to update node embeddings using graph kernels. In addition, we show that MPNNs can be viewed as special cases of KerGNNs. We apply KerGNNs to multiple graph-related tasks and use cross-validation to make fair comparisons with benchmarks. We show that our method achieves competitive performance compared with existing state-of-the-art methods, demonstrating the potential to increase the representation ability of GNNs. We also show that the trained graph filters in KerGNNs can reveal the local graph structures of the dataset, which significantly improves the model interpretability compared with conventional GNN models.
翻訳日:2022-01-04 13:34:11 公開日:2022-01-03
# Swift and Sure: 低次元知識グラフ埋め込みのためのハードネス対応コントラスト学習

Swift and Sure: Hardness-aware Contrastive Learning for Low-dimensional Knowledge Graph Embeddings ( http://arxiv.org/abs/2201.00565v1 )

ライセンス: Link先を確認
Kai Wang and Yu Liu and Quan Z. Sheng(参考訳) 知識グラフ埋め込み(KGE)は、知識グラフ(KG)の完備化と知識駆動タスクの可能性から注目されている。 しかし、最近のKGEモデルは、トレーニングコストと大きなストレージスペースに悩まされており、現実のアプリケーションでは実用性が制限されている。 この課題に対処するため,コントラスト学習の分野における最新の知見をもとに,Hardness-aware Low-dimensional Embedding (HaLE)と呼ばれる新しいKGEトレーニングフレームワークを提案する。 従来の負サンプリングの代わりに、クエリサンプリングに基づく新しい損失関数を設計し、アライメントと統一性の2つの重要なトレーニング目標のバランスをとることができる。 さらに,最近の低次元双曲モデルのハードネス認識能力を分析し,kgeモデルがハードインスタンスにフォーカスし,コンバージェンスを高速化するのに役立つ軽量なハードネス認識活性化機構を提案する。 実験の結果,haleは5つのデータセット上でkgeモデルの性能とトレーニング速度を効果的に向上できることがわかった。 HaLE訓練モデルは、数分のトレーニング後に高い予測精度を得ることができ、低次元および高次元の条件下での最先端モデルと比較して競争力がある。

Knowledge graph embedding (KGE) has drawn great attention due to its potential in automatic knowledge graph (KG) completion and knowledge-driven tasks. However, recent KGE models suffer from high training cost and large storage space, thus limiting their practicality in real-world applications. To address this challenge, based on the latest findings in the field of Contrastive Learning, we propose a novel KGE training framework called Hardness-aware Low-dimensional Embedding (HaLE). Instead of the traditional Negative Sampling, we design a new loss function based on query sampling that can balance two important training targets, Alignment and Uniformity. Furthermore, we analyze the hardness-aware ability of recent low-dimensional hyperbolic models and propose a lightweight hardness-aware activation mechanism, which can help the KGE models focus on hard instances and speed up convergence. The experimental results show that in the limited training time, HaLE can effectively improve the performance and training speed of KGE models on five commonly-used datasets. The HaLE-trained models can obtain a high prediction accuracy after training few minutes and are competitive compared to the state-of-the-art models in both low- and high-dimensional conditions.
翻訳日:2022-01-04 13:33:43 公開日:2022-01-03
# 無線周波数(RF)フィンガープリントに関する包括的調査:従来のアプローチ,深層学習,オープンチャレンジ

A Comprehensive Survey on Radio Frequency (RF) Fingerprinting: Traditional Approaches, Deep Learning, and Open Challenges ( http://arxiv.org/abs/2201.00680v1 )

ライセンス: Link先を確認
Anu Jagannath, Jithin Jagannath, Prem Sagar Pattanshetty Vasanth Kumar(参考訳) 第5世代(5G)ネットワークは、拡張現実(XR)、拡張現実(AR/VR)、産業自動化、自動運転、スマートなすべてといった破壊的なアプリケーションをサポートするために、大規模なIoT(Internet of Things)のロールアウトを想定している。 スペクトルクランチとスループットの課題に加えて、このような大規模なワイヤレスデバイスは前例のない脅威面を露呈する。 rfフィンガープリントは、無線ネットワークにおけるデータのプライバシ、機密性、整合性を確保するための暗号化およびゼロトラストセキュリティ対策と組み合わせられる候補技術として評価されている。 本研究は,今後の通信ネットワークにおけるこの課題の関連性から,従来の視点から最新のディープラーニング(DL)ベースのアルゴリズムまで,RFフィンガープリントのアプローチを包括的に調査する。 既存の調査は、主にワイヤレス指紋認証のアプローチに関する制約のあるプレゼンテーションに焦点を当てているが、多くの側面は未解決のままである。 本稿では,信号情報(sigint,sigint)の背景,関連するdlアルゴリズム,過去20年間にわたるrfフィンガープリンティング手法の体系的レビュー,データセットに関する議論,および,この話題を百科事典的な方法で読者に示すために必要な潜在的研究の道筋など,あらゆる側面に対処することで,この問題を緩和する。

Fifth generation (5G) networks and beyond envisions massive Internet of Things (IoT) rollout to support disruptive applications such as extended reality (XR), augmented/virtual reality (AR/VR), industrial automation, autonomous driving, and smart everything which brings together massive and diverse IoT devices occupying the radio frequency (RF) spectrum. Along with spectrum crunch and throughput challenges, such a massive scale of wireless devices exposes unprecedented threat surfaces. RF fingerprinting is heralded as a candidate technology that can be combined with cryptographic and zero-trust security measures to ensure data privacy, confidentiality, and integrity in wireless networks. Motivated by the relevance of this subject in the future communication networks, in this work, we present a comprehensive survey of RF fingerprinting approaches ranging from a traditional view to the most recent deep learning (DL) based algorithms. Existing surveys have mostly focused on a constrained presentation of the wireless fingerprinting approaches, however, many aspects remain untold. In this work, however, we mitigate this by addressing every aspect - background on signal intelligence (SIGINT), applications, relevant DL algorithms, systematic literature review of RF fingerprinting techniques spanning the past two decades, discussion on datasets, and potential research avenues - necessary to elucidate this topic to the reader in an encyclopedic manner.
翻訳日:2022-01-04 13:33:22 公開日:2022-01-03
# eXtended DER-verseにおけるクラスインクリメンタル連続学習

Class-Incremental Continual Learning into the eXtended DER-verse ( http://arxiv.org/abs/2201.00766v1 )

ライセンス: Link先を確認
Matteo Boschini, Lorenzo Bonicelli, Pietro Buzzega, Angelo Porrello, Simone Calderara(参考訳) 人間の知性の根幹は、継続的な方法で知識を得る能力である。 対照的に、ディープネットワークは破滅的に忘れ、そのため、クラスインクリメンタルな継続的学習のサブフィールドは、段階的にタスクのシーケンスを学習する手法を育み、シーケンシャルに収集された知識を総合的な予測にブレンドする。 本研究は,リハーサルと知識蒸留を組み合わせた単純かつ効果的なアプローチである,これまでの提案であるdark experience replay(der)の落とし穴を評価,克服することを目的とする。 過去の振り返りを絶えず書き直し、将来への期待を設定する方法に触発されて、私たちはモデルに能力を与えました。 一 過去のデータに関する新情報を歓迎するリプレイメモリの改訂 二 未学習の授業の道を開くこと。 実際、eXtended-DER (X-DER) と呼ばれる手法は、標準ベンチマーク(CIFAR-100 や miniImagenet など)とここで導入された新しい手法の両方で、技術の現状を上回ります。 より理解を深めるために,従来の研究の成果を裏付け,拡張する広範囲なアブレーション研究(例えば,連続的な学習環境における知識蒸留の価値と平坦な最小値)も提供する。

The staple of human intelligence is the capability of acquiring knowledge in a continuous fashion. In stark contrast, Deep Networks forget catastrophically and, for this reason, the sub-field of Class-Incremental Continual Learning fosters methods that learn a sequence of tasks incrementally, blending sequentially-gained knowledge into a comprehensive prediction. This work aims at assessing and overcoming the pitfalls of our previous proposal Dark Experience Replay (DER), a simple and effective approach that combines rehearsal and Knowledge Distillation. Inspired by the way our minds constantly rewrite past recollections and set expectations for the future, we endow our model with the abilities to i) revise its replay memory to welcome novel information regarding past data ii) pave the way for learning yet unseen classes. We show that the application of these strategies leads to remarkable improvements; indeed, the resulting method - termed eXtended-DER (X-DER) - outperforms the state of the art on both standard benchmarks (such as CIFAR-100 and miniImagenet) and a novel one here introduced. To gain a better understanding, we further provide extensive ablation studies that corroborate and extend the findings of our previous research (e.g. the value of Knowledge Distillation and flatter minima in continual learning setups).
翻訳日:2022-01-04 13:32:38 公開日:2022-01-03
# (参考訳) パンデミック時のバイオメトリックス:40%マスク付き顔認識の劣化を2%に減らすことができる [全文訳有]

Biometrics in the Time of Pandemic: 40% Masked Face Recognition Degradation can be Reduced to 2% ( http://arxiv.org/abs/2201.00461v1 )

ライセンス: CC BY 4.0
Leonardo Queiroz, Kenneth Lai, Svetlana Yanushkevich, and Vlad Shmerko(参考訳) Flickr-Faces-HQとS talkingFacesデータセットを用いて生成したマスク付き顔と非マスク付き顔の顔認識について,パンデミック時のマスク着用による認識性能の36.78%低下,特に境界チェックポイントのシナリオで報告した。 我々は、クロススペクトル領域における先進的なディープラーニングアプローチを用いて、性能の向上と劣化率を1.79%に削減した。

In this study of the face recognition on masked versus unmasked faces generated using Flickr-Faces-HQ and SpeakingFaces datasets, we report 36.78% degradation of recognition performance caused by the mask-wearing at the time of pandemics, in particular, in border checkpoint scenarios. We have achieved better performance and reduced the degradation to 1.79% using advanced deep learning approaches in the cross-spectral domain.
翻訳日:2022-01-04 13:29:57 公開日:2022-01-03
# (参考訳) 敵環境におけるQ&Aのためのアクター・クリティカルネットワーク [全文訳有]

Actor-Critic Network for Q&A in an Adversarial Environment ( http://arxiv.org/abs/2201.00455v1 )

ライセンス: CC BY 4.0
Bejan Sadeghian(参考訳) 敵の攻撃に対してより堅牢なモデルを構築するために、Q&A NLPスペースに重要な作業が置かれている。 2つの重要な領域は、これらの状況に対するトレーニングや、内部で堅牢性を構築するために既存のアーキテクチャを変更する目的で、敵対的なデータを生成することである。 本稿では,これら2つのアイデアを組み合わさって,ほぼ強化学習フレームワークで使用する批評家モデルを訓練するアプローチを紹介する。 Adversarial SQuAD "Add One Sent"データセットを使用して、Adversarial攻撃に対する防御において、この手法にはいくつかの有望な兆候があることを示す。

Significant work has been placed in the Q&A NLP space to build models that are more robust to adversarial attacks. Two key areas of focus are in generating adversarial data for the purposes of training against these situations or modifying existing architectures to build robustness within. This paper introduces an approach that joins these two ideas together to train a critic model for use in an almost reinforcement learning framework. Using the Adversarial SQuAD "Add One Sent" dataset we show that there are some promising signs for this method in protecting against Adversarial attacks.
翻訳日:2022-01-04 13:11:06 公開日:2022-01-03
# ロバストな自然言語処理:最近の進歩、課題、今後の方向性

Robust Natural Language Processing: Recent Advances, Challenges, and Future Directions ( http://arxiv.org/abs/2201.00768v1 )

ライセンス: Link先を確認
Marwan Omar, Soohyeon Choi, DaeHun Nyang, and David Mohaisen(参考訳) 最近の自然言語処理(NLP)技術は、主にディープラーニングの性能が大幅に向上したため、ベンチマークデータセット上で高いパフォーマンスを実現している。 研究コミュニティの進歩は、バーチャルアシスタント、音声認識、感情分析など、nlpタスクの最先端生産システムの大幅な強化につながった。 しかしながら、このようなNLPシステムは敵攻撃でテストしても失敗することが多い。 初期の堅牢性の欠如は、現在のモデルの言語理解能力の厄介なギャップを露呈し、NLPシステムが実環境にデプロイされる際の問題を生み出した。 本稿では,様々な次元にまたがる体系的な方法で文献を要約し,nlpロバストネス研究の構造化概要を示す。 次に、テクニック、メトリクス、埋め込み、ベンチマークなど、堅牢性のさまざまな側面を深く掘り下げます。 最後に、ロバスト性は多次元であり、現在の研究への洞察を提供し、文献のギャップを特定し、これらのギャップに取り組むべき方向を提案するべきだと論じる。

Recent natural language processing (NLP) techniques have accomplished high performance on benchmark datasets, primarily due to the significant improvement in the performance of deep learning. The advances in the research community have led to great enhancements in state-of-the-art production systems for NLP tasks, such as virtual assistants, speech recognition, and sentiment analysis. However, such NLP systems still often fail when tested with adversarial attacks. The initial lack of robustness exposed troubling gaps in current models' language understanding capabilities, creating problems when NLP systems are deployed in real life. In this paper, we present a structured overview of NLP robustness research by summarizing the literature in a systemic way across various dimensions. We then take a deep-dive into the various dimensions of robustness, across techniques, metrics, embeddings, and benchmarks. Finally, we argue that robustness should be multi-dimensional, provide insights into current research, identify gaps in the literature to suggest directions worth pursuing to address these gaps.
翻訳日:2022-01-04 13:03:38 公開日:2022-01-03
# vision transformer slimming: 連続最適化空間における多次元探索

Vision Transformer Slimming: Multi-Dimension Searching in Continuous Optimization Space ( http://arxiv.org/abs/2201.00814v1 )

ライセンス: Link先を確認
Arnav Chavan and Zhiqiang Shen and Zhuang Liu and Zechun Liu and Kwang-Ting Cheng and Eric Xing(参考訳) 本稿では,視覚トランスフォーマから最適なサブモデルを見つけ出す可能性について検討し,入力トークン,mhsa,mlpモジュールを含む多次元にわたってそのサブ構造を探索可能なpure vision transformer slimming (vit-slim)フレームワークを導入する。 本手法は,学習可能で統一されたl1スパーシティ制約に基づき,異なる次元の連続探索空間における大域的重要性を反映する。 探索過程は単発訓練方式により極めて効率的である。 例えば、DeiT-Sでは、ViT-Slimは探索に43時間程度しかかからず、探索された構造は異なるモジュールの様々な次元で柔軟である。 そして、動作装置上での精度FLOPsトレードオフの要求に応じて予算しきい値を使用し、最終モデルを得るための再訓練処理を行う。 広範にわたる実験により,vit-slimは各種視覚トランスフォーマー上で最大40%のパラメータと40%のフラップを圧縮でき,imagenetでは約0.6%の精度向上が達成できた。 また、いくつかのダウンストリームデータセットで検索したモデルの利点を実証する。 ソースコードは公開される予定だ。

This paper explores the feasibility of finding an optimal sub-model from a vision transformer and introduces a pure vision transformer slimming (ViT-Slim) framework that can search such a sub-structure from the original model end-to-end across multiple dimensions, including the input tokens, MHSA and MLP modules with state-of-the-art performance. Our method is based on a learnable and unified l1 sparsity constraint with pre-defined factors to reflect the global importance in the continuous searching space of different dimensions. The searching process is highly efficient through a single-shot training scheme. For instance, on DeiT-S, ViT-Slim only takes ~43 GPU hours for searching process, and the searched structure is flexible with diverse dimensionalities in different modules. Then, a budget threshold is employed according to the requirements of accuracy-FLOPs trade-off on running devices, and a re-training process is performed to obtain the final models. The extensive experiments show that our ViT-Slim can compress up to 40% of parameters and 40% FLOPs on various vision transformers while increasing the accuracy by ~0.6% on ImageNet. We also demonstrate the advantage of our searched models on several downstream datasets. Our source code will be publicly available.
翻訳日:2022-01-04 13:02:53 公開日:2022-01-03
# d-former : 3次元医用画像分割用u字型拡張トランス

D-Former: A U-shaped Dilated Transformer for 3D Medical Image Segmentation ( http://arxiv.org/abs/2201.00462v1 )

ライセンス: Link先を確認
Yixuan Wu, Kuanlun Liao, Jintai Chen, Danny Z. Chen, Jinhong Wang, Honghao Gao, Jian Wu(参考訳) コンピュータ支援医用画像分割は診断や治療に広く応用され、標的臓器や組織の形状や体積に関する臨床的に有用な情報を得る。 過去数年間、畳み込みニューラルネットワーク(CNN)ベースの手法(例:U-Net)がこの領域を支配してきたが、それでも不十分な長距離情報収集に悩まされている。 そこで,近年の研究では,医用画像分割タスクのためのコンピュータビジョントランスフォーマが提案され,有望な性能を得た。 このようなトランスフォーマーはペアワイドパッチ関係の計算によって長距離依存性をモデル化する。 しかし、特に3次元医用画像(例えば、CTやMRI)では、計算コストが禁じられている。 本稿では,局所的および大域的スコープで交互に捕捉されるペアワイズパッチ関係に対して自己アテンションを行う拡張トランスと呼ばれる新しい手法を提案する。 拡張畳み込みカーネルに触発されて,グローバル自己アテンションを拡張的に実施し,パッチを増加させることなく受容場を拡大し,計算コストを低減した。 このDilated Transformerの設計に基づき、3次元画像分割のためのD-Formerと呼ばれるU字型エンコーダデコーダ階層アーキテクチャを構築する。 synapse と acdc データセットの実験では、scratch からトレーニングした d-former モデルは、計算コストの低さで様々な cnn ベースまたは transformer ベースのセグメンテーションモデルを上回ることが示されている。

Computer-aided medical image segmentation has been applied widely in diagnosis and treatment to obtain clinically useful information of shapes and volumes of target organs and tissues. In the past several years, convolutional neural network (CNN) based methods (e.g., U-Net) have dominated this area, but still suffered from inadequate long-range information capturing. Hence, recent work presented computer vision Transformer variants for medical image segmentation tasks and obtained promising performances. Such Transformers model long-range dependency by computing pair-wise patch relations. However, they incur prohibitive computational costs, especially on 3D medical images (e.g., CT and MRI). In this paper, we propose a new method called Dilated Transformer, which conducts self-attention for pair-wise patch relations captured alternately in local and global scopes. Inspired by dilated convolution kernels, we conduct the global self-attention in a dilated manner, enlarging receptive fields without increasing the patches involved and thus reducing computational costs. Based on this design of Dilated Transformer, we construct a U-shaped encoder-decoder hierarchical architecture called D-Former for 3D medical image segmentation. Experiments on the Synapse and ACDC datasets show that our D-Former model, trained from scratch, outperforms various competitive CNN-based or Transformer-based segmentation models at a low computational cost without time-consuming per-training process.
翻訳日:2022-01-04 13:02:05 公開日:2022-01-03
# (参考訳) ニューラルネットにおけるタスク最適低ビットサブディストリビューションの探索 [全文訳有]

Finding the Task-Optimal Low-Bit Sub-Distribution in Deep Neural Networks ( http://arxiv.org/abs/2112.15139v2 )

ライセンス: CC BY 4.0
Runpei Dong, Zhanhong Tan, Mengdi Wu, Linfeng Zhang, Kaisheng Ma(参考訳) 量子化されたニューラルネットワークは通常、少ないメモリフットプリントと計算の複雑さを必要とする。 しかし、量子化は必然的に元のネットワークから分散を逸脱させ、一般に性能を低下させる。 この問題に対処するため、大規模な努力がなされているが、既存のアプローチの多くは統計的考察を欠き、いくつかの手動構成に依存している。 本稿では, モデルに内在し, コンクリートガウス混合 (gm) と滑らかに近似した最適潜在部分分布を学習するための適応マップ量子化法を提案する。 特に、ネットワークの重み付けはgm近似のサブディストリビューションに従って投影される。 このサブディストリビューションは、直接タスク目的最適化によって導かれる協調チューニングスキーマの重み更新と共に進化する。 近代建築における画像分類と物体検出に関する十分な実験により,提案手法の有効性,一般化性,伝達性を示す。 さらに、モバイルCPUの効率的なデプロイメントフローを開発し、オクタコアARMCPU上で最大7.46$\times$推論アクセラレーションを達成する。 コードはhttps://github.com/R unpeiDong/DGMSで公開されている。

Quantized neural networks typically require smaller memory footprints and lower computation complexity, which is crucial for efficient deployment. However, quantization inevitably leads to a distribution divergence from the original network, which generally degrades the performance. To tackle this issue, massive efforts have been made, but most existing approaches lack statistical considerations and depend on several manual configurations. In this paper, we present an adaptive-mapping quantization method to learn an optimal latent sub-distribution that is inherent within models and smoothly approximated with a concrete Gaussian Mixture (GM). In particular, the network weights are projected in compliance with the GM-approximated sub-distribution. This sub-distribution evolves along with the weight update in a co-tuning schema guided by the direct task-objective optimization. Sufficient experiments on image classification and object detection over various modern architectures demonstrate the effectiveness, generalization property, and transferability of the proposed method. Besides, an efficient deployment flow for the mobile CPU is developed, achieving up to 7.46$\times$ inference acceleration on an octa-core ARM CPU. Codes are publicly released at https://github.com/R unpeiDong/DGMS.
翻訳日:2022-01-04 12:32:19 公開日:2022-01-03
# (参考訳) ComMA@ICONにおけるHypers: 攻撃性、ジェンダーバイアス、コミュニティバイアス識別のモデル化 [全文訳有]

Hypers at ComMA@ICON: Modelling Aggressiveness, Gender Bias and Communal Bias Identification ( http://arxiv.org/abs/2112.15417v2 )

ライセンス: CC BY 4.0
Sean Benhur, Roshan Nayak, Kanchana Sivanraju, Adeep Hande, Subalalitha Chinnaudayar Navaneethakrishnan, Ruba Priyadharshini, Bharathi Raja Chakravarthi6(参考訳) ソーシャルメディアの普及が急速に進んでいるため、社会を分裂させ、人々を暴力に陥れる可能性があるため、その否定的な側面に焦点を合わせることが不可欠である。 本稿では,共有タスクComMA@ICONにおける作業のシステム記述について述べる。そこでは,文章がいかに攻撃的であるか,文章が性バイアスであるか,あるいは共同バイアスであるかを分類する必要がある。 これら3つが社会に重大な問題を引き起こす主な原因である可能性がある。 チームhypersとして、注意力と平均プーリング方法を備えた、さまざまな事前学習モデルを使用するアプローチを提案しました。 ベンガル語で0.223のインスタンスF1スコア,ベンガル語で0.322のインスタンスF1スコア,マイタイ語で0.129のインスタンスF1スコア,ヒンディー語で0.336のインスタンスF1スコアでランク3を得ることができた。 この作業のソースコードと事前訓練されたモデルがここにある。

Due to the exponentially increasing reach of social media, it is essential to focus on its negative aspects as it can potentially divide society and incite people into violence. In this paper, we present our system description of work on the shared task ComMA@ICON, where we have to classify how aggressive the sentence is and if the sentence is gender-biased or communal biased. These three could be the primary reasons to cause significant problems in society. As team Hypers we have proposed an approach that utilizes different pretrained models with Attention and mean pooling methods. We were able to get Rank 3 with 0.223 Instance F1 score on Bengali, Rank 2 with 0.322 Instance F1 score on Multi-lingual set, Rank 4 with 0.129 Instance F1 score on Meitei and Rank 5 with 0.336 Instance F1 score on Hindi. The source code and the pretrained models of this work can be found here.
翻訳日:2022-01-04 12:06:48 公開日:2022-01-03
# (参考訳) 社会神経AI:AIの「暗黒物質」としての社会的相互作用 [全文訳有]

Social Neuro AI: Social Interaction as the "dark matter" of AI ( http://arxiv.org/abs/2112.15459v2 )

ライセンス: CC BY 4.0
Samuele Bolotta and Guillaume Dumas(参考訳) 我々は、社会心理学と社会神経科学の実証的な結果とダイナミクスの枠組みが、よりインテリジェントな人工エージェントの開発にインスピレーションを与えることができることを主張している。 複雑な人間の認知アーキテクチャは、その表現力の大部分を社会的・文化的学習に携わる能力に負っていると我々は特に主張する。 第1節では,社会学習が知性発達において重要な役割を担っていることを示す。 我々は、社会的・文化的学習理論を議論し、様々な動物が他者から学習する能力を調査し、また、社会的相互作用と学習の間に人間の脳を調べる社会神経科学からの知見を探求する。 次に,社会ニューロAIの傘下に置かれ,複雑な環境下での社会的に知能なエンボディエージェントの開発に寄与する3つの研究ラインについて論じる。 まず、グローバルワークスペース理論やアテンションスキーマ理論のような認知アーキテクチャの神経科学的理論は、生物学的な可能性を高め、個人と社会の知能理論をいかに橋渡しできるかを理解するのに役立つ。 第2に、知性は時間とともに発生するが、これはdynamicsが提供する強力なフレームワークに自然に組み込まれている。 第三に、社会的具体化は、より洗練されたコミュニケーションシグナルの配列を持つ仮想エージェントと人間の間の社会的相互作用を提供するために実証されている。 結論として, 上記の3つの軸を追従することで, どのように前進できるかを探求する多エージェントロボットシステムの分野について, 新たな視点を提供する。

We are making the case that empirical results from social psychology and social neuroscience along with the framework of dynamics can be of inspiration to the development of more intelligent artificial agents. We specifically argue that the complex human cognitive architecture owes a large portion of its expressive power to its ability to engage in social and cultural learning. In the first section, we aim at demonstrating that social learning plays a key role in the development of intelligence. We do so by discussing social and cultural learning theories and investigating the abilities that various animals have at learning from others; we also explore findings from social neuroscience that examine human brains during social interaction and learning. Then, we discuss three proposed lines of research that fall under the umbrella of Social NeuroAI and can contribute to developing socially intelligent embodied agents in complex environments. First, neuroscientific theories of cognitive architecture, such as the global workspace theory and the attention schema theory, can enhance biological plausibility and help us understand how we could bridge individual and social theories of intelligence. Second, intelligence occurs in time as opposed to over time, and this is naturally incorporated by the powerful framework offered by dynamics. Third, social embodiment has been demonstrated to provide social interactions between virtual agents and humans with a more sophisticated array of communicative signals. To conclude, we provide a new perspective on the field of multiagent robot systems, exploring how it can advance by following the aforementioned three axes.
翻訳日:2022-01-04 11:59:03 公開日:2022-01-03
# (参考訳) facebookページからベトナム語会話をクラスタリングしてチャットボットのトレーニングデータセットを構築する [全文訳有]

Clustering Vietnamese Conversations From Facebook Page To Build Training Dataset For Chatbot ( http://arxiv.org/abs/2112.15338v2 )

ライセンス: CC BY-SA 4.0
Trieu Hai Nguyen, Thi-Kim-Ngoan Pham, Thi-Hong-Minh Bui, Thanh-Quynh-Chau Nguyen(参考訳) チャットボットを構築する上で最大の課題は、データのトレーニングだ。 必要なデータは現実的で、チャットボットを訓練するのに十分な大きさでなければならない。 私たちはfacebookページのfacebook messengerから実際のトレーニングデータを取得するツールを作成します。 テキスト前処理ステップの後、新たに取得したデータセットは、FVnCおよびSampleデータセットを生成する。 ベトナム語(PhoBERT)に対するBERTの再訓練を用いて,テキストデータの特徴を抽出する。 K-MeansとDBSCANクラスタリングアルゴリズムは、PhoBERT$_{base}$の出力埋め込みに基づくクラスタリングタスクに使用される。 クラスタリングアルゴリズムの性能評価には,V測定スコアとシルエットスコアを適用した。 また,PhoBERTを他のモデルと比較し,Sampleデータセットとwikiデータセットで特徴抽出を行った。 また,クラスタリング評価を併用したGridSearchアルゴリズムを提案し,最適パラメータを求める。 このような会話をクラスタリングすることで、チャットボットをトレーニングするためのデータとストーリーラインを構築するのに多くの時間と労力を節約できます。

The biggest challenge of building chatbots is training data. The required data must be realistic and large enough to train chatbots. We create a tool to get actual training data from Facebook messenger of a Facebook page. After text preprocessing steps, the newly obtained dataset generates FVnC and Sample dataset. We use the Retraining of BERT for Vietnamese (PhoBERT) to extract features of our text data. K-Means and DBSCAN clustering algorithms are used for clustering tasks based on output embeddings from PhoBERT$_{base}$. We apply V-measure score and Silhouette score to evaluate the performance of clustering algorithms. We also demonstrate the efficiency of PhoBERT compared to other models in feature extraction on the Sample dataset and wiki dataset. A GridSearch algorithm that combines both clustering evaluations is also proposed to find optimal parameters. Thanks to clustering such a number of conversations, we save a lot of time and effort to build data and storylines for training chatbot.
翻訳日:2022-01-04 11:43:10 公開日:2022-01-03
# パーコレーションと有向パーコレーションにおける相転移の転移学習

Transfer learning of phase transitions in percolation and directed percolation ( http://arxiv.org/abs/2112.15516v2 )

ライセンス: Link先を確認
Jianmin Shen, Feiyi Liu, Shiyang Chen, Dian Xu, Xiangna Chen, Shengfeng Deng, Wei Li, Gabor Papp, Chunbin Yang(参考訳) 統計物理学の最近の進歩は、位相遷移の同定における機械学習の顕著な性能を示している。 本稿では,伝達学習に基づくドメイン逆ニューラルネットワーク(dann)を,それぞれパーコレーションモデルと指向型パーコレーション(dp)モデルである非平衡相転移モデルと平衡相転移モデルの研究に適用する。 DANNでは、臨界点を捉えるために、少数の入力構成(2d画像)にラベルを付ける必要があり、それが自動的に選択される。 DPモデルを学習するために、クリティカル指数$\nu_{\perp}$を計算する際のデータ崩壊の前提条件である臨界点を決定する反復的な手順により、この手法を洗練する。 次に,順序パラメータに関連する情報を含む可能性のある最大のクラスタのみを含むようにフィルタされた2次元のサイトパーコレーションに適用する。 両モデルのDANN学習はモンテカルロシミュレーションに匹敵する信頼性の高い結果をもたらす。 また,本研究では,教師付き学習に比べて,極めて低いコストで極めて高い精度が得られることを示した。

The latest advances of statistical physics have shown remarkable performance of machine learning in identifying phase transitions. In this paper, we apply domain adversarial neural network (DANN) based on transfer learning to studying non-equilibrium and equilibrium phase transition models, which are percolation model and directed percolation (DP) model, respectively. With the DANN, only a small fraction of input configurations (2d images) needs to be labeled, which is automatically chosen, in order to capture the critical point. To learn the DP model, the method is refined by an iterative procedure in determining the critical point, which is a prerequisite for the data collapse in calculating the critical exponent $\nu_{\perp}$. We then apply the DANN to a two-dimensional site percolation with configurations filtered to include only the largest cluster which may contain the information related to the order parameter. The DANN learning of both models yields reliable results which are comparable to the ones from Monte Carlo simulations. Our study also shows that the DANN can achieve quite high accuracy at much lower cost, compared to the supervised learning.
翻訳日:2022-01-04 11:22:23 公開日:2022-01-03