このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220507となっている論文です。

PDF登録状況(公開日: 20220507)

TitleAuthorsAbstract論文公表日・翻訳日
# 合成データセットを用いた深部ニューラルネットワークにおけるサリエンシ法の説明可能性の定量化

Quantifying Explainability of Saliency Methods in Deep Neural Networks with a Synthetic Dataset ( http://arxiv.org/abs/2009.02899v4 )

ライセンス: Link先を確認
Erico Tjoa, Cuntai Guan(参考訳) ポストホック分析は、eXplainable Artificial Intelligence (XAI)研究で人気のあるカテゴリである。 特に、ブラックボックスモデルであるディープニューラルネットワーク(dnn)を説明するためにヒートマップを生成する方法が使われている。 ヒートマップは直感的で視覚的な理解方法によって魅力的だが、その性質を評価するのは単純ではないかもしれない。 ヒートマップの品質を評価するさまざまな方法は、それぞれにメリットと欠点があります。 本稿では,より客観的な定量的評価のために,接地熱マップとともに付加的に生成可能な合成データセットを提案する。 各サンプルデータは、局所化グランドトゥルースマスクと区別される特徴が容易に認識されるセルの画像であり、それによって異なるXAI手法のより透過的な評価を容易にする。 比較と推薦を行い, 問題点を明らかにするとともに, 選択したポストホック解析法の詳細を扱うための今後の研究方向の提案を行う。

Post-hoc analysis is a popular category in eXplainable artificial intelligence (XAI) study. In particular, methods that generate heatmaps have been used to explain the deep neural network (DNN), a black-box model. Heatmaps can be appealing due to the intuitive and visual ways to understand them but assessing their qualities might not be straightforward. Different ways to assess heatmaps' quality have their own merits and shortcomings. This paper introduces a synthetic dataset that can be generated adhoc along with the ground-truth heatmaps for more objective quantitative assessment. Each sample data is an image of a cell with easily recognized features that are distinguished from localization ground-truth mask, hence facilitating a more transparent assessment of different XAI methods. Comparison and recommendations are made, shortcomings are clarified along with suggestions for future research directions to handle the finer details of select post-hoc analysis methods.
翻訳日:2022-10-21 02:12:20 公開日:2022-05-07
# (参考訳) 行動バイオメトリックスと機械学習を用いたユーザ認証方式の評価

Evaluation of a User Authentication Schema Using Behavioral Biometrics and Machine Learning ( http://arxiv.org/abs/2205.08371v1 )

ライセンス: CC BY 4.0
Laura Pryor, Jacob Mallet, Rushit Dave, Naeem Seliya, Mounika Vanamala, Evelyn Sowells Boone(参考訳) 近年,モバイルデバイスに格納されるセキュアなデータ量は大幅に増加している。 しかし、このデータを保護するセキュリティ対策は静かであり、生理的生体認証やパスワードなどの現在の認証方法の脆弱性に対する改善はほとんどない。 これらの手法の代わりに、最近これらの脆弱な認証手法の解決策として行動バイオメトリックスが研究されている。 本研究では,行動バイオメトリックスを用いたユーザ認証手法の作成と評価により,行動バイオメトリックスの研究に貢献することを目的とする。 本研究で用いられる行動バイオメトリックスには, タッチダイナミクスと電話動作が含まれており, 両生体メトリックの単一モードと複数モードの組み合わせの性能評価を行う。 バイオidentとhand movement orientation and grab (h-mog)の2つのデータセットを使用して,7つの一般的な機械学習アルゴリズムを用いてパフォーマンスを評価する。 評価で使用されるアルゴリズムには、ランダムフォレスト、サポートベクトルマシン、K-Nearest Neighbor、Naive Bayes、ロジスティック回帰、多層パーセプトロン、Long Short-Term Memory Recurrent Neural Networksがあり、精度は最大86%に達する。

The amount of secure data being stored on mobile devices has grown immensely in recent years. However, the security measures protecting this data have stayed static, with few improvements being done to the vulnerabilities of current authentication methods such as physiological biometrics or passwords. Instead of these methods, behavioral biometrics has recently been researched as a solution to these vulnerable authentication methods. In this study, we aim to contribute to the research being done on behavioral biometrics by creating and evaluating a user authentication scheme using behavioral biometrics. The behavioral biometrics used in this study include touch dynamics and phone movement, and we evaluate the performance of different single-modal and multi-modal combinations of the two biometrics. Using two publicly available datasets - BioIdent and Hand Movement Orientation and Grasp (H-MOG), this study uses seven common machine learning algorithms to evaluate performance. The algorithms used in the evaluation include Random Forest, Support Vector Machine, K-Nearest Neighbor, Naive Bayes, Logistic Regression, Multilayer Perceptron, and Long Short-Term Memory Recurrent Neural Networks, with accuracy rates reaching as high as 86%.
翻訳日:2022-05-22 16:18:11 公開日:2022-05-07
# (参考訳) 電力市場における強化学習の応用:総括的考察

Applications of Reinforcement Learning in Deregulated Power Market: A Comprehensive Review ( http://arxiv.org/abs/2205.08369v1 )

ライセンス: CC BY 4.0
Ziqing Zhu, Ze Hu, Ka Wing Chan, Siqi Bu, Bin Zhou, Shiwei Xia(参考訳) 再生可能世代の増加と電力産業の規制緩和と市場化により、電力市場運営パラダイムの転換が促進される。 これらの新たなパラダイムの下での最適入札戦略とディスパッチ手法は、不確実な特性、計算効率、および超最適意思決定の要求といった障害を伴う、市場参加者と電力系統運用者の両方にとって優先的な関心事である。 これらの問題に対処するため、従来の最適化ツールと比較して優位性を持つ機械学習技術である強化学習(RL)は、アカデミックと産業の両方において、ますます重要な役割を担っている。 本稿では,150以上の慎重に選択された文献に基づいて,入札およびディスパッチ戦略最適化を含む電力市場デリゲーテッド運用におけるrl応用について概観する。 各アプリケーションについて、一般化された方法論のパラダイム的な要約とは別に、RL技術の展開中の適用性と障害に関する詳細な議論も提供する。 最後に,入札問題やディスパッチ問題に展開する可能性の高いrl手法を推奨し,議論する。

The increasing penetration of renewable generations, along with the deregulation and marketization of power industry, promotes the transformation of power market operation paradigms. The optimal bidding strategy and dispatching methodology under these new paradigms are prioritized concerns for both market participants and power system operators, with obstacles of uncertain characteristics, computational efficiency, as well as requirements of hyperopic decision-making. To tackle these problems, the Reinforcement Learning (RL), as an emerging machine learning technique with advantages compared with conventional optimization tools, is playing an increasingly significant role in both academia and industry. This paper presents a comprehensive review of RL applications in deregulated power market operation including bidding and dispatching strategy optimization, based on more than 150 carefully selected literatures. For each application, apart from a paradigmatic summary of generalized methodology, in-depth discussions of applicability and obstacles while deploying RL techniques are also provided. Finally, some RL techniques that have great potentiality to be deployed in bidding and dispatching problems are recommended and discussed.
翻訳日:2022-05-22 16:00:35 公開日:2022-05-07
# (参考訳) dl4ds -- 経験的ダウンスケーリングのためのディープラーニング

DL4DS -- Deep Learning for empirical DownScaling ( http://arxiv.org/abs/2205.08967v1 )

ライセンス: CC BY 4.0
Carlos Alberto Gomez Gonzalez(参考訳) 地球科学における一般的な課題は、気候モデルから地域や地域の気候情報を推測することである。 動的ダウンスケーリングは、長いモデルランタイムのために禁止される高分解能で高価な数値モデルを実行する必要がある。 一方, 統計的ダウンスケーリング手法は, 大規模気候と局所気候の相互関係をより効率的に学習するための代替手法である。 近年,コンピュータビジョンや超高解像度タスクのために開発された畳み込みアーキテクチャに基づいて,統計的ダウンスケーリングのためのディープニューラルネットワークベースのアプローチが多数提案されている。 本稿では,広義の地球科学データを深層ニューラルネットワークでダウンスケールするための,多種多様な最先端および斬新なアルゴリズムを実装したピソンライブラリであるDL4DS,Deep Learning for empirical DownScalingを提案する。 DL4DSは、コンボリューショナルニューラルネットワークを構成可能なアーキテクチャと学習戦略でトレーニングするための一般的なフレームワークを提供することを目的として設計されている。 地中海西部の大気質CAMSデータに対するDL4DSの能力について紹介する。 DL4DSライブラリはこのリポジトリで見ることができる。

A common task in Earth Sciences is to infer climate information at local and regional scales from global climate models. Dynamical downscaling requires running expensive numerical models at high resolution which can be prohibitive due to long model runtimes. On the other hand, statistical downscaling techniques present an alternative approach for learning links between the large- and local-scale climate in a more efficient way. A large number of deep neural network-based approaches for statistical downscaling have been proposed in recent years, mostly based on convolutional architectures developed for computer vision and super-resolution tasks. This paper presents DL4DS, Deep Learning for empirical DownScaling, a python library that implements a wide variety of state-of-the-art and novel algorithms for downscaling gridded Earth Science data with deep neural networks. DL4DS has been designed with the goal of providing a general framework for training convolutional neural networks with configurable architectures and learning strategies to facilitate the conduction of comparative and ablation studies in a robust way. We showcase the capabilities of DL4DS on air quality CAMS data over the western Mediterranean area. The DL4DS library can be found in this repository: https://github.com/carlos-gg/dl4ds
翻訳日:2022-05-22 15:59:26 公開日:2022-05-07
# 解釈型ニューラルネットワーク回帰による術前オピオイド使用の個人的リスク評価

Individualized Risk Assessment of Preoperative Opioid Use by Interpretable Neural Network Regression ( http://arxiv.org/abs/2205.08370v1 )

ライセンス: Link先を確認
Yuming Sun, Jian Kang, Chad Brummett, Yi Li(参考訳) 術前オピオイド使用は, 術前オピオイド需要の増加, 術後成績の悪化, 術後の医療利用と支出の増加に関連していると報告されている。 術前オピオイド使用の危険性を理解することは患者中心の痛み管理を確立するのに役立つ。 機械学習の分野では、Deep Neural Network (DNN) が、その超越した予測能力のために、リスク評価の強力な手段として登場したが、ブラックボックスアルゴリズムは統計モデルよりも結果を解釈しにくくする。 統計学と機械学習のギャップを埋めて、統計学とDNNモデルの強みを組み合わせた新しい解釈型ニューラルネットワーク回帰(INNER)を提案する。 提案したINNERを用いて,術前オピオイド使用の個別化リスク評価を行う。 analgesic outcomes study (aos) で手術を期待する34,186例の集中シミュレーションと分析により,術中のオピオイド使用量をdnnとして正確に予測できるだけでなく,痛みのないオピオイド使用の患者固有のオピオイド使用の確率や,報告された全身的痛みの増加に対するオピオイド使用のオピオイド使用のオピオイド使用のオッズ比を推定し,dnnよりもオピオイドの使用傾向をより容易に解釈できることが示された。 INNERがオピオイド使用の個人化リスク評価に有用であることを示す証拠として,オピオイド使用と強く関連し,前報とほぼ一致している症例の特徴を同定した。

Preoperative opioid use has been reported to be associated with higher preoperative opioid demand, worse postoperative outcomes, and increased postoperative healthcare utilization and expenditures. Understanding the risk of preoperative opioid use helps establish patient-centered pain management. In the field of machine learning, deep neural network (DNN) has emerged as a powerful means for risk assessment because of its superb prediction power; however, the blackbox algorithms may make the results less interpretable than statistical models. Bridging the gap between the statistical and machine learning fields, we propose a novel Interpretable Neural Network Regression (INNER), which combines the strengths of statistical and DNN models. We use the proposed INNER to conduct individualized risk assessment of preoperative opioid use. Intensive simulations and an analysis of 34,186 patients expecting surgery in the Analgesic Outcomes Study (AOS) show that the proposed INNER not only can accurately predict the preoperative opioid use using preoperative characteristics as DNN, but also can estimate the patient specific odds of opioid use without pain and the odds ratio of opioid use for a unit increase in the reported overall body pain, leading to more straightforward interpretations of the tendency to use opioids than DNN. Our results identify the patient characteristics that are strongly associated with opioid use and is largely consistent with the previous findings, providing evidence that INNER is a useful tool for individualized risk assessment of preoperative opioid use.
翻訳日:2022-05-22 12:18:52 公開日:2022-05-07
# 教師なしアンサンブル学習による自動速度選択

Automatic Velocity Picking Using Unsupervised Ensemble Learning ( http://arxiv.org/abs/2205.08372v1 )

ライセンス: Link先を確認
H.T. Wang, J.S. Zhang, C.X. Zhang, Z.X. Zhao, C.L. Tan, Z.Y. Yang, W.F. Geng(参考訳) 地震データ処理では, 高精度かつ効率的な自動速度抽出アルゴリズムが処理を著しく高速化し, メインブランチは速度分析に速度スペクトルを用いる。 近年,自動スペクトル抽出に機械学習アルゴリズムが広く用いられている。 深層学習手法は教師付きケースでは問題にうまく対処できるが、高価な計算コストと低い解釈可能性を伴うことが多い。 対照的に、物理知識に基づく教師なし学習手法は、タスクを効率的に解決する大きな可能性を秘めている。 本稿では,スペクトル上でのルート平均二乗(RMS)速度を選択するために,教師なしアンサンブル学習(UEL)手法を提案する。 特に、UELは近くの速度スペクトルと最も近いシード速度曲線の情報を利用して、有効かつ合理的な速度点の選択を支援する。 エネルギーピークのコヒーレンスを高めるため,局所正規化により情報ゲイン法を開発した。 さらに,コヒーレンス情報をピッキングプロセスに組み込むために,注意スケール空間フィルタ(ASSF)クラスタリング法を設計した。 3つのデータセットの実験では、従来のクラスタリング法と比較して、UELは特に小さなブロブで、エネルギークラスタをよりよく認識することができる。 また, 近傍スペクトルの注入とuelの間隔速度制約により, ピッキング結果のロバスト性, 精度が著しく向上した。

In seismic data processing, accurate and efficient automatic velocity picking algorithms can significantly accelerate the processing, and the main branch is to use velocity spectra for velocity pickup. Recently, machine learning algorithms have been widely used in automatic spectrum picking. Even though deep learning methods can address the problem well in supervised cases, they are often accompanied by expensive computational costs and low interpretability. On the contrast, unsupervised learning methods based on the physical knowledge have great potential to efficiently resolve the task. In this paper, we propose an unsupervised ensemble learning (UEL) method to pick the root mean square (RMS) velocities on the spectrum. In particular, UEL utilizes the information of nearby velocity spectra and the nearest seed velocity curve to assist the selection of effective and reasonable velocity points. To increase the coherence of energy peaks, an information gain method is developed by local normalization. In addition, we designed the attention scale-space filter (ASSF) clustering method to incorporate the coherence information into the picking process. Experiments on three datasets demonstrate that compared to traditional clustering methods, UEL can recognize energy clusters better, especially with smaller blobs. Moreover, the injection of nearby spectra and interval velocity constraint in UEL significantly improves the robustness and accuracy of picking results.
翻訳日:2022-05-22 11:39:24 公開日:2022-05-07
# (参考訳) corwa: 引用指向の関連作業アノテーションデータセット

CORWA: A Citation-Oriented Related Work Annotation Dataset ( http://arxiv.org/abs/2205.03512v1 )

ライセンス: CC BY 4.0
Xiangci Li, Biswadip Mandal, Jessica Ouyang(参考訳) 学術研究は、問題に対する新しい解決策を発見するための探索活動である。 この性質により、学術研究は文学評論を行い、その新奇性を先行作品と区別する。 自然言語処理では、この文献レビューは「関連作業」のセクションで通常実施される。 関連作業生成のタスクは、研究論文の残りと引用する論文のリストから、関連作業セクションを自動的に生成することを目的としている。 このタスクの以前の作業は、文を生成の基本単位として重視しており、関連する作業セクションが異なる情報ソースから派生した可変長テキストフラグメントで構成されているという事実を無視している。 言語的に動機づけられた作業生成フレームワークへの第一歩として、異なる情報ソースから異なるタイプの引用テキストフラグメントをラベル付けしたCitation Oriented Related Work Annotation (CORWA)データセットを提案する。 大量のラベルのない関連作業セクションのテキストにcorwaラベルを自動的にタグ付けする、強力なベースラインモデルをトレーニングします。 さらに,人間-イン-ループ,反復的,抽象的関連作業生成のための新しいフレームワークを提案する。

Academic research is an exploratory activity to discover new solutions to problems. By this nature, academic research works perform literature reviews to distinguish their novelties from prior work. In natural language processing, this literature review is usually conducted under the "Related Work" section. The task of related work generation aims to automatically generate the related work section given the rest of the research paper and a list of papers to cite. Prior work on this task has focused on the sentence as the basic unit of generation, neglecting the fact that related work sections consist of variable length text fragments derived from different information sources. As a first step toward a linguistically-motivated related work generation framework, we present a Citation Oriented Related Work Annotation (CORWA) dataset that labels different types of citation text fragments from different information sources. We train a strong baseline model that automatically tags the CORWA labels on massive unlabeled related work section texts. We further suggest a novel framework for human-in-the-loop, iterative, abstractive related work generation.
翻訳日:2022-05-15 12:35:29 公開日:2022-05-07
# (参考訳) クロスデバイス実世界の超解像に対する双対適応法

Dual Adversarial Adaptation for Cross-Device Real-World Image Super-Resolution ( http://arxiv.org/abs/2205.03524v1 )

ライセンス: CC BY 4.0
Xiaoqian Xu, Pengxu Wei, Weikai Chen, Mingzhi Mao, Liang Lin, Guanbin Li(参考訳) 高度な撮像プロセスのため、異なるカメラが捉えた同一のシーンは異なる画像パターンを示し、異なるデバイスからの画像に基づいて訓練された超高解像度(SR)モデルに異なる習熟性をもたらす可能性がある。 本稿では,一台のカメラで撮影したペア画像に基づいて訓練された実世界のSRモデルを,任意のターゲットデバイスで撮影した低解像度(LR)画像に適応させる,新規で実用的なクロスデバイスSRについて検討する。 提案課題は,様々な撮像装置からのペアデータがないため,極めて困難である。 この問題に対処するために,DADA (Dual ADversarial Adaptation) と呼ばれる実世界SRのための教師なしドメイン適応機構を提案する。 DADAは、HR監督なしでもターゲットモデルトレーニングの基礎を確立するために、Domain-Invariant Attention (DIA)モジュールを使用している。 さらに、DADAの2つのフレームワークは、2つのドメインからのLR入力画像に対して1つのブランチのドメイン間適応(InterAA)、そして2つのブランチのLR入力画像に対するドメイン内適応(IntraAA)を促進する。 InterAAとIntraAAは共に、ソースドメインからターゲットへのモデル転送性を改善する。 3つの異なるカメラで6つのリアルからリアルの順応設定で実験を行い、既存の最先端のアプローチと比較して優れた性能を得る。 また,ビデオカメラへの適応に対処するために提案したDADを評価し,現実の超解像の幅広い応用を促進するための有望な研究課題を提示する。 ソースコードはhttps://github.com/lonelyhope/dada.gitで公開しています。

Due to the sophisticated imaging process, an identical scene captured by different cameras could exhibit distinct imaging patterns, introducing distinct proficiency among the super-resolution (SR) models trained on images from different devices. In this paper, we investigate a novel and practical task coded cross-device SR, which strives to adapt a real-world SR model trained on the paired images captured by one camera to low-resolution (LR) images captured by arbitrary target devices. The proposed task is highly challenging due to the absence of paired data from various imaging devices. To address this issue, we propose an unsupervised domain adaptation mechanism for real-world SR, named Dual ADversarial Adaptation (DADA), which only requires LR images in the target domain with available real paired data from a source camera. DADA employs the Domain-Invariant Attention (DIA) module to establish the basis of target model training even without HR supervision. Furthermore, the dual framework of DADA facilitates an Inter-domain Adversarial Adaptation (InterAA) in one branch for two LR input images from two domains, and an Intra-domain Adversarial Adaptation (IntraAA) in two branches for an LR input image. InterAA and IntraAA together improve the model transferability from the source domain to the target. We empirically conduct experiments under six Real to Real adaptation settings among three different cameras, and achieve superior performance compared with existing state-of-the-art approaches. We also evaluate the proposed DADA to address the adaptation to the video camera, which presents a promising research topic to promote the wide applications of real-world super-resolution. Our source code is publicly available at https://github.com/lonelyhope/DADA.git.
翻訳日:2022-05-15 12:15:44 公開日:2022-05-07
# (参考訳) attract me to buy:マルチモーダル・マルチストラクショナル情報による広告複写生成

Attract me to Buy: Advertisement Copywriting Generation with Multimodal Multi-structured Information ( http://arxiv.org/abs/2205.03534v1 )

ライセンス: CC BY 4.0
Zhipeng Zhang, Xinglin Hou, Kai Niu, Zhongzhen Huang, Tiezheng Ge, Yuning Jiang, Qi Wu, Peng Wang(参考訳) 近年、オンラインショッピングは世界中の人々の買い物の一般的な方法になりつつある。 奇妙な商品広告は、購入する人を多く惹きつける。 これらの広告は、視覚的空間情報やきめ細かい構造情報といった商品のマルチモーダル多構造情報を適切に統合する。 しかし、伝統的なマルチモーダルテキスト生成は、現実の世界における広告のコピーライティングの要件に合致しない、存在と発生の従来の記述に焦点を当てている。 広告の写しは鮮明な言語スタイルと忠実さの要求が高いためである。 残念ながら、再利用可能な評価フレームワークがなく、データセットが不足している。 そこで本稿では,E-MMAD(e-commercial multi-structured ads copywriting)というデータセットを提案する。 特に、この分野では最大のビデオキャプションデータセットの1つである。 そこで本研究では,データ集合上の現実の需要を解決するための構造化情報推論の強みに関するベースライン法と忠実性評価指標を提案する。 従来の手法を、すべてのメトリクスに対して大きなマージンで上回る。 データセットとメソッドは、もうすぐ \url{https://e-mmad.github.io/e-mmad.net/index.html}で提供される。

Recently, online shopping has gradually become a common way of shopping for people all over the world. Wonderful merchandise advertisements often attract more people to buy. These advertisements properly integrate multimodal multi-structured information of commodities, such as visual spatial information and fine-grained structure information. However, traditional multimodal text generation focuses on the conventional description of what existed and happened, which does not match the requirement of advertisement copywriting in the real world. Because advertisement copywriting has a vivid language style and higher requirements of faithfulness. Unfortunately, there is a lack of reusable evaluation frameworks and a scarcity of datasets. Therefore, we present a dataset, E-MMAD (e-commercial multimodal multi-structured advertisement copywriting), which requires, and supports much more detailed information in text generation. Noticeably, it is one of the largest video captioning datasets in this field. Accordingly, we propose a baseline method and faithfulness evaluation metric on the strength of structured information reasoning to solve the demand in reality on this dataset. It surpasses the previous methods by a large margin on all metrics. The dataset and method are coming soon on \url{https://e-mmad.github.io/e-mmad.net/index.html}.
翻訳日:2022-05-15 12:01:13 公開日:2022-05-07
# (参考訳) 測地線中心性を用いたグラフスペクトル埋め込み

Graph Spectral Embedding using the Geodesic Betweeness Centrality ( http://arxiv.org/abs/2205.03544v1 )

ライセンス: CC BY 4.0
Shay Deutsch and Stefano Soatto(参考訳) 本稿では,局所的類似性,接続性,大域的構造の教師なしグラフ表現であるグラフシルベスター埋め込み(gse)を紹介する。 GSEはシルヴェスター方程式の解を用いて、ネットワーク構造と近傍の近接を1つの表現で捉える。 ラプラシアンの固有ベクトルに基づく埋め込みとは異なり、GSEは2つ以上の基底関数、例えばラプラシアン行列とアフィニティ行列を組み込む。 そのような基底関数は、元のグラフからではなく、元のグラフの辺(その辺を通る最短経路の数の分数)の重みを測定するものから構成される。 これにより、複雑なネットワーク構造を表現する柔軟性と制御が向上し、材料科学における失敗エッジの予測やヒト-SARS CoV-2タンパク質間相互作用におけるネットワークアライメントといったデータ解析タスクに使用される場合、技術状況よりも大幅に改善される。

We introduce the Graph Sylvester Embedding (GSE), an unsupervised graph representation of local similarity, connectivity, and global structure. GSE uses the solution of the Sylvester equation to capture both network structure and neighborhood proximity in a single representation. Unlike embeddings based on the eigenvectors of the Laplacian, GSE incorporates two or more basis functions, for instance using the Laplacian and the affinity matrix. Such basis functions are constructed not from the original graph, but from one whose weights measure the centrality of an edge (the fraction of the number of shortest paths that pass through that edge) in the original graph. This allows more flexibility and control to represent complex network structure and shows significant improvements over the state of the art when used for data analysis tasks such as predicting failed edges in material science and network alignment in the human-SARS CoV-2 protein-protein interactome.
翻訳日:2022-05-15 11:44:14 公開日:2022-05-07
# (参考訳) 理論的保証付きグラフニューラルネットワークに対する構造摂動型ブラックボックス攻撃の帯域

Bandits for Structure Perturbation-based Black-box Attacks to Graph Neural Networks with Theoretical Guarantees ( http://arxiv.org/abs/2205.03546v1 )

ライセンス: CC BY 4.0
Binghui Wang, Youqi Li, and Pan Zhou(参考訳) グラフニューラルネットワーク(gnns)は、ノード分類やグラフ分類など、多くのグラフベースのタスクで最先端のパフォーマンスを達成している。 しかし、近年の多くの研究は、攻撃者がグラフ構造をわずかに摂動させることでGNNモデルを誤認できることを示した。 既存のGNNに対する攻撃は、攻撃者がGNNモデルパラメータにアクセスすると仮定されるような実用的でない脅威モデルか、あるいは実用的なブラックボックス脅威モデルの下では、十分な効果がないと思われる摂動ノードの特徴を考慮する。 本稿では,このギャップを埋め,構造摂動を伴うGNNに対するブラックボックス攻撃を理論的保証とともに検討することを目的とする。 我々は,この課題にバンディット技術を用いて対処することを提案する。 具体的には、攻撃をランディットフィードバックによるオンライン最適化として定式化する。 この元の問題は、グラフ構造の摂動が二進最適化問題であるという事実から、本質的にNPハードである。 次に,帯域最適化に基づくオンライン攻撃を提案する。これはクエリ番号$T$,すなわち$\mathcal{O}(\sqrt{N}T^{3/4})$に対して,$N$はグラフ内のノード数である。 最後に,複数のデータセットとgnnモデル上で実験を行い,提案手法の評価を行った。 様々な引用グラフと画像グラフの実験結果から,我々の攻撃は効果的かつ効果的であることが示された。 ソースコードは~\url{https://github.com/Metaoblivion/Bandit_GNN_Attack} で入手できる。

Graph neural networks (GNNs) have achieved state-of-the-art performance in many graph-based tasks such as node classification and graph classification. However, many recent works have demonstrated that an attacker can mislead GNN models by slightly perturbing the graph structure. Existing attacks to GNNs are either under the less practical threat model where the attacker is assumed to access the GNN model parameters, or under the practical black-box threat model but consider perturbing node features that are shown to be not enough effective. In this paper, we aim to bridge this gap and consider black-box attacks to GNNs with structure perturbation as well as with theoretical guarantees. We propose to address this challenge through bandit techniques. Specifically, we formulate our attack as an online optimization with bandit feedback. This original problem is essentially NP-hard due to the fact that perturbing the graph structure is a binary optimization problem. We then propose an online attack based on bandit optimization which is proven to be {sublinear} to the query number $T$, i.e., $\mathcal{O}(\sqrt{N}T^{3/4})$ where $N$ is the number of nodes in the graph. Finally, we evaluate our proposed attack by conducting experiments over multiple datasets and GNN models. The experimental results on various citation graphs and image graphs show that our attack is both effective and efficient. Source code is available at~\url{https://github.com/Metaoblivion/Bandit_GNN_Attack}
翻訳日:2022-05-15 11:25:48 公開日:2022-05-07
# (参考訳) SubGraph Networksによる言語間知識グラフのためのエンティティアライメント

SubGraph Networks based Entity Alignment for Cross-lingual Knowledge Graph ( http://arxiv.org/abs/2205.03557v1 )

ライセンス: CC BY 4.0
Shanqing Yu and Shihan Zhang and Jianlin Zhang and Jiajun Zhou and Qi Xuan and Bing Li and Xiaojuan Hu(参考訳) エンティティアライメントは、2つの知識グラフ(kgs)で同じ実世界オブジェクトを表すエンティティを見つけるタスクである。 言語間知識グラフの実体アライメントは、多言語KGにおける言語間リンクを発見することを目的としており、これはNLPアプリケーションと多言語KGs融合において非常に重要である。 言語間の知識グラフを整列させるタスクでは、2つのグラフの構造は非常に似ており、等価なエンティティはしばしば同じサブグラフ構造特性を持つ。 従来のGCN法は、元のグラフの代表部分を通して構造的特徴を得るのを無視しており、隣接行列の使用はグラフの構造的特徴を効果的に表すのに十分ではない。 本稿では,GCNに基づく言語間KGエンティティアライメント手法にサブグラフネットワーク(SGN)手法を導入する。 提案手法では,KGsの1次部分グラフを抽出し,元のグラフの構造的特徴を拡張し,エンティティ埋め込みの表現能力を向上し,アライメント精度を向上させる。 実験の結果,提案手法は最先端GCN法よりも優れていた。

Entity alignment is the task of finding entities representing the same real-world object in two knowledge graphs(KGs). Cross-lingual knowledge graph entity alignment aims to discover the cross-lingual links in the multi-language KGs, which is of great significance to the NLP applications and multi-language KGs fusion. In the task of aligning cross-language knowledge graphs, the structures of the two graphs are very similar, and the equivalent entities often have the same subgraph structure characteristics. The traditional GCN method neglects to obtain structural features through representative parts of the original graph and the use of adjacency matrix is not enough to effectively represent the structural features of the graph. In this paper, we introduce the subgraph network (SGN) method into the GCN-based cross-lingual KG entity alignment method. In the method, we extracted the first-order subgraphs of the KGs to expand the structural features of the original graph to enhance the representation ability of the entity embedding and improve the alignment accuracy. Experiments show that the proposed method outperforms the state-of-the-art GCN-based method.
翻訳日:2022-05-15 11:07:05 公開日:2022-05-07
# (参考訳) 数値エンティティ認識

Number Entity Recognition ( http://arxiv.org/abs/2205.03559v1 )

ライセンス: CC BY 4.0
Dhanasekar Sundararaman, Vivek Subramanian, Guoyin Wang, Liyan Xu, Lawrence Carin(参考訳) 番号は他のワードトークンと同様に、自然言語処理(NLP)モデルを構築し、デプロイするテキストの必須コンポーネントである。 通常、ほとんどのNLPタスクでは数値は明確に説明されていないが、NLPモデルで既に示されている数値は根底にある。 本研究では,最先端nlpモデルの潜在能力を活用し,関連するタスクにおける性能向上能力の伝達を試みる。 提案した数値をエンティティに分類することで,手作りのFill-In-The-Blank (FITB)タスクやジョイント埋め込みを用いた質問応答,BERTとRoBERTaのベースライン分類よりも優れている。

Numbers are essential components of text, like any other word tokens, from which natural language processing (NLP) models are built and deployed. Though numbers are typically not accounted for distinctly in most NLP tasks, there is still an underlying amount of numeracy already exhibited by NLP models. In this work, we attempt to tap this potential of state-of-the-art NLP models and transfer their ability to boost performance in related tasks. Our proposed classification of numbers into entities helps NLP models perform well on several tasks, including a handcrafted Fill-In-The-Blank (FITB) task and on question answering using joint embeddings, outperforming the BERT and RoBERTa baseline classification.
翻訳日:2022-05-15 10:55:34 公開日:2022-05-07
# (参考訳) 多目的物体検出のためのグラフ融合ネットワーク

Graph Fusion Network for Multi-Oriented Object Detection ( http://arxiv.org/abs/2205.03562v1 )

ライセンス: CC BY-SA 4.0
Shi-Xue Zhang, Xiaobin Zhu, Jie-Bo Hou, Xu-Cheng Yin(参考訳) オブジェクト検出では、検出された高密度ボックスの水平重複を除去して最終オブジェクトインスタンスを生成するために、非最大抑圧(NMS)法が広く採用されている。 しかしながら、密集した検出ボックスの品質が低下し、コンテキスト情報の明示的な探索は行わないため、単純なintersection-over-union(iou)メトリクスによる既存のnmsメソッドは、多目的および長大のオブジェクト検出に過小評価される傾向がある。 重複除去による一般的なNMS手法を駆使して,多目的物体検出のための新しいグラフ融合ネットワークGFNetを提案する。 我々のGFNetは拡張可能で適応的に高密度検出ボックスを融合し、より正確で総合的な多目的オブジェクトインスタンスを検出する。 具体的には,まず,局所性に着目したクラスタリングアルゴリズムを適用し,密度の高い検出ボックスを異なるクラスタにグループ化する。 1つのクラスタに属する検出ボックスのインスタンスサブグラフを構築します。 そこで我々は,グラフ畳み込みネットワーク(GCN)を用いたグラフベースの融合ネットワークを提案する。 マルチ指向テキストデータセット(msra-td500, icdar2015, icdar2017-mlt)とマルチ指向オブジェクトデータセット(dota)の両方において, 提案手法の有効性と頑健性を検証した。

In object detection, non-maximum suppression (NMS) methods are extensively adopted to remove horizontal duplicates of detected dense boxes for generating final object instances. However, due to the degraded quality of dense detection boxes and not explicit exploration of the context information, existing NMS methods via simple intersection-over-union (IoU) metrics tend to underperform on multi-oriented and long-size objects detection. Distinguishing with general NMS methods via duplicate removal, we propose a novel graph fusion network, named GFNet, for multi-oriented object detection. Our GFNet is extensible and adaptively fuse dense detection boxes to detect more accurate and holistic multi-oriented object instances. Specifically, we first adopt a locality-aware clustering algorithm to group dense detection boxes into different clusters. We will construct an instance sub-graph for the detection boxes belonging to one cluster. Then, we propose a graph-based fusion network via Graph Convolutional Network (GCN) to learn to reason and fuse the detection boxes for generating final instance boxes. Extensive experiments both on public available multi-oriented text datasets (including MSRA-TD500, ICDAR2015, ICDAR2017-MLT) and multi-oriented object datasets (DOTA) verify the effectiveness and robustness of our method against general NMS methods in multi-oriented object detection.
翻訳日:2022-05-15 10:47:46 公開日:2022-05-07
# (参考訳) 注意型クロスモーダルインタラクションと運動強調による圧縮映像動作認識のための表現学習

Representation Learning for Compressed Video Action Recognition via Attentive Cross-modal Interaction with Motion Enhancement ( http://arxiv.org/abs/2205.03569v1 )

ライセンス: CC BY 4.0
Bing Li, Jiaxin Chen, Dongming Zhang, Xiuguo Bao, Di Huang(参考訳) 圧縮されたビデオアクション認識は、rgbフレームと圧縮された動きの手がかり(例えば動きベクトルと残差)によって生のビデオを置き換えることで、ストレージと計算コストを大幅に削減するため、最近注目を集めている。 しかし, この課題は不均質なrgbと運動モダリティの融合が不十分であり, 粗大でノイズの多いダイナミクスに苦しむ。 上記の2つの課題に対処するため,本論文では,動作強化を伴う注意的クロスモーダルインタラクションネットワーク(MEACI-Net)を提案する。 これは2つのストリームアーキテクチャ、すなわちrgbモダリティとモーションモダリティの2つに従う。 特に、モーションストリームは、表現学習を強化するために、デノイジングモジュールを組み込んだマルチスケールブロックを用いる。 次に、smc(selective motion complement)とcma(cross-modality addition)モジュールを導入し、smcはrgbモダリティを時空間的に注意する局所的運動特徴と補完し、cmaはさらに2つのモダリティと選択的特徴増強を組み合わせることにより、2つのストリーム間の相互作用を強化する。 ucf-101、hmdb-51およびkinetics-400ベンチマークに関する広範な実験は、meaci-netの有効性と効率を示している。

Compressed video action recognition has recently drawn growing attention, since it remarkably reduces the storage and computational cost via replacing raw videos by sparsely sampled RGB frames and compressed motion cues (e.g., motion vectors and residuals). However, this task severely suffers from the coarse and noisy dynamics and the insufficient fusion of the heterogeneous RGB and motion modalities. To address the two issues above, this paper proposes a novel framework, namely Attentive Cross-modal Interaction Network with Motion Enhancement (MEACI-Net). It follows the two-stream architecture, i.e. one for the RGB modality and the other for the motion modality. Particularly, the motion stream employs a multi-scale block embedded with a denoising module to enhance representation learning. The interaction between the two streams is then strengthened by introducing the Selective Motion Complement (SMC) and Cross-Modality Augment (CMA) modules, where SMC complements the RGB modality with spatio-temporally attentive local motion features and CMA further combines the two modalities with selective feature augmentation. Extensive experiments on the UCF-101, HMDB-51 and Kinetics-400 benchmarks demonstrate the effectiveness and efficiency of MEACI-Net.
翻訳日:2022-05-15 10:12:17 公開日:2022-05-07
# (参考訳) 時空間予測のための深層学習 --太陽エネルギーへの応用

Deep learning for spatio-temporal forecasting -- application to solar energy ( http://arxiv.org/abs/2205.03571v1 )

ライセンス: CC BY 4.0
Vincent Le Guen(参考訳) この論文は、深層学習による時空間予測の主題に取り組む。 EDF(Electricity de France)のモチベーション応用は、魚眼画像による短期的な太陽エネルギー予測である。 外部の物理知識を注入して深部予測法を改善するための2つの研究方向を探る。 第1の方向は、トレーニング損失機能の役割に関するものである。 既存のモデルの性能向上のために,識別可能な形状と時間的基準を活用できることが示される。 本稿では,DILATE損失関数を用いた決定論的文脈と,STRIPEモデルによる確率的文脈の両方に対処する。 第2の方向は、正確な予測のために、不完全な物理モデルと深いデータ駆動ネットワークを強化することです。 映像予測には,テクスチャやディテールなどの予測に必要な残差情報から物理力学を分離するPhyDNetモデルを導入する。 さらに本研究では,物理・データ駆動コンポーネント間の線形分解を軽微な仮定で保証する学習フレームワーク(APHYNITY)を提案し,予測性能とパラメータ同定を向上する。

This thesis tackles the subject of spatio-temporal forecasting with deep learning. The motivating application at Electricity de France (EDF) is short-term solar energy forecasting with fisheye images. We explore two main research directions for improving deep forecasting methods by injecting external physical knowledge. The first direction concerns the role of the training loss function. We show that differentiable shape and temporal criteria can be leveraged to improve the performances of existing models. We address both the deterministic context with the proposed DILATE loss function and the probabilistic context with the STRIPE model. Our second direction is to augment incomplete physical models with deep data-driven networks for accurate forecasting. For video prediction, we introduce the PhyDNet model that disentangles physical dynamics from residual information necessary for prediction, such as texture or details. We further propose a learning framework (APHYNITY) that ensures a principled and unique linear decomposition between physical and data-driven components under mild assumptions, leading to better forecasting performances and parameter identification.
翻訳日:2022-05-15 09:57:02 公開日:2022-05-07
# (参考訳) 類似性の統計的尺度による不連続テキスト表現の学習

Learning Disentangled Textual Representations via Statistical Measures of Similarity ( http://arxiv.org/abs/2205.03589v1 )

ライセンス: CC BY 4.0
Pierre Colombo, Guillaume Staerman, Nathan Noiry, Pablo Piantanida(参考訳) テキストデータを扱うとき、不整合表現の自然な応用は、データ(例えば年齢、性別、人種など)に現れるセンシティブな属性によってバイアス(または影響)を受けずに予測を行うことを目標とする公平な分類である。 テキスト表現からセンシティブな属性をアンタングルする支配的アプローチは、敵対的損失(例えば、差別者)または情報測度(例えば、相互情報)を含む罰則化用語を同時に学習に依存する。 しかし、これらの方法は、表現モデルの更新毎にいくつかのパラメータ更新を伴うディープニューラルネットワークのトレーニングを必要とする。 実のところ、ネストした最適化ループは時間消費であり、最適化ダイナミクスに複雑さを加え、細かいハイパーパラメータの選択(学習率、アーキテクチャなど)を必要とする。 本稿では,訓練を必要としない異種表現を学習するための正規化子群について紹介する。 これらの正規化器は、感度特性に関する条件付き確率分布の類似性の統計測度に基づいている。 我々の新しい正規化器は、事前訓練とランダムに初期化されたテキストエンコーダを組み合わせると、追加のトレーニングを必要とせず、高速であり、追加のチューニングを伴わない。

When working with textual data, a natural application of disentangled representations is fair classification where the goal is to make predictions without being biased (or influenced) by sensitive attributes that may be present in the data (e.g., age, gender or race). Dominant approaches to disentangle a sensitive attribute from textual representations rely on learning simultaneously a penalization term that involves either an adversarial loss (e.g., a discriminator) or an information measure (e.g., mutual information). However, these methods require the training of a deep neural network with several parameter updates for each update of the representation model. As a matter of fact, the resulting nested optimization loop is both time consuming, adding complexity to the optimization dynamic, and requires a fine hyperparameter selection (e.g., learning rates, architecture). In this work, we introduce a family of regularizers for learning disentangled representations that do not require training. These regularizers are based on statistical measures of similarity between the conditional probability distributions with respect to the sensitive attributes. Our novel regularizers do not require additional training, are faster and do not involve additional tuning while achieving better results both when combined with pretrained and randomly initialized text encoders.
翻訳日:2022-05-15 09:55:09 公開日:2022-05-07
# (参考訳) 非パラメトリック多重クラス分類におけるクラス固有変数の決定

Determination of class-specific variables in nonparametric multiple-class classification ( http://arxiv.org/abs/2205.03623v1 )

ライセンス: CC BY 4.0
Wan-Ping Nicole Chen, Yuan-chin Ivan Chang(参考訳) 技術が進歩するにつれて、自動収集装置によるデータ収集が普及し、特に特定の研究目標を達成せずにこれらのデータセットを収集する場合に、長い変数を持つデータセットが一般的となる。 高い次元の分類問題の難しさは、分類誤差を減らすのに役立たないノイズ変数が多すぎることが本質的な原因で指摘されており、これは意思決定の便益を減らし、複雑さを増し、モデル解釈の混乱をもたらす。 特に、モデル解釈能力が不可欠である後続のアプリケーション/研究にそれらの結果を使用する場合は、優れた変数選択戦略が必要とされる。 husは、従来の分類手法、例えば精度、感度、正確さは、パフォーマンスタスクでは唯一のものではない。 本稿では,確率に基づく非パラメトリックな多重クラス分類法を提案し,個々のクラスに対して高い影響変数を識別し,その分類規則や各クラスの性格についてより詳細な情報を得ることができるようにした。 提案手法はベイズ法則とほぼ等しく予測能力を有し、「モデル解釈」の能力を維持している。 提案手法の漸近特性を報告し, 合成データと実データを用いて, 異なる分類条件下での特性を説明する。 また,変数の同定とサンプルサイズ決定のトレーニングを別々に議論し,ユーザが異なる計算言語で容易に実装できるように,それらの手順をアルゴリズムとして要約する。

As technology advanced, collecting data via automatic collection devices become popular, thus we commonly face data sets with lengthy variables, especially when these data sets are collected without specific research goals beforehand. It has been pointed out in the literature that the difficulty of high-dimensional classification problems is intrinsically caused by too many noise variables useless for reducing classification error, which offer less benefits for decision-making, and increase complexity, and confusion in model-interpretation. A good variable selection strategy is therefore a must for using such kinds of data well; especially when we expect to use their results for the succeeding applications/studies, where the model-interpretation ability is essential. hus, the conventional classification measures, such as accuracy, sensitivity, precision, cannot be the only performance tasks. In this paper, we propose a probability-based nonparametric multiple-class classification method, and integrate it with the ability of identifying high impact variables for individual class such that we can have more information about its classification rule and the character of each class as well. The proposed method can have its prediction power approximately equal to that of the Bayes rule, and still retains the ability of "model-interpretation." We report the asymptotic properties of the proposed method, and use both synthesized and real data sets to illustrate its properties under different classification situations. We also separately discuss the variable identification, and training sample size determination, and summarize those procedures as algorithms such that users can easily implement them with different computing languages.
翻訳日:2022-05-15 09:26:21 公開日:2022-05-07
# (参考訳) 一般化画像分類のための比較知識翻訳

Comparison Knowledge Translation for Generalizable Image Classification ( http://arxiv.org/abs/2205.03633v1 )

ライセンス: CC BY 4.0
Zunlei Feng, Tian Qiu, Sai Wu, Xiaotuan Jin, Zengliang He, Mingli Song, Huiqiong Wang(参考訳) ディープラーニングは最近、大量のアノテーションに大きく依存する画像分類タスクで目覚ましいパフォーマンスを達成している。 しかし、既存のディープラーニングモデルの分類メカニズムは、人間の認識メカニズムとは対照的である。 未知のタイプの画像を見るだけで、人間は大量の画像から他の同じカテゴリーの物体を素早く正確に見つけることができ、それは様々な物体の日々の認識の恩恵を受ける。 本稿では,画像分類タスクにおける人間の認識機構を模倣する汎用フレームワークを構築し,他のカテゴリのアノテーションによる分類性能の向上を期待する。 具体的には、比較知識翻訳(CKT)と呼ばれる新しいタスクについて検討する。 CKTは、完全なラベル付きカテゴリのセットから、ラベル付きカテゴリから学んだ比較知識を、新しいカテゴリのセットに変換することを目的としている。 そこで我々は,比較分類器とマッチング判別器を組み合わせた比較分類翻訳ネットワーク(CCT-Net)を提案する。 比較分類器は、2つの画像が同一のカテゴリに属するか否かを分類するために考案され、一方、一致する判別器は、分類結果が真理に合致するかどうかを確認するために、敵対的に協力して動作する。 CCT-Netは、未確認カテゴリにおける驚くほどの一般化能力と、対象カテゴリにおけるSOTA性能を実現する。

Deep learning has recently achieved remarkable performance in image classification tasks, which depends heavily on massive annotation. However, the classification mechanism of existing deep learning models seems to contrast to humans' recognition mechanism. With only a glance at an image of the object even unknown type, humans can quickly and precisely find other same category objects from massive images, which benefits from daily recognition of various objects. In this paper, we attempt to build a generalizable framework that emulates the humans' recognition mechanism in the image classification task, hoping to improve the classification performance on unseen categories with the support of annotations of other categories. Specifically, we investigate a new task termed Comparison Knowledge Translation (CKT). Given a set of fully labeled categories, CKT aims to translate the comparison knowledge learned from the labeled categories to a set of novel categories. To this end, we put forward a Comparison Classification Translation Network (CCT-Net), which comprises a comparison classifier and a matching discriminator. The comparison classifier is devised to classify whether two images belong to the same category or not, while the matching discriminator works together in an adversarial manner to ensure whether classified results match the truth. Exhaustive experiments show that CCT-Net achieves surprising generalization ability on unseen categories and SOTA performance on target categories.
翻訳日:2022-05-15 09:24:53 公開日:2022-05-07
# (参考訳) 生体内およびシリコにおける超高速画像分類

Ultra-fast image categorization in vivo and in silico ( http://arxiv.org/abs/2205.03635v1 )

ライセンス: CC BY 4.0
Jean-Nicolas J\'er\'emie, Laurent U Perrinet(参考訳) 人間は画像のロバストな分類が可能で、例えば、120ミリ秒以内の短時間の点滅画像で動物の存在を検知することができる。最初は神経科学に触発されたディープラーニングアルゴリズムは、この10年間で文字通り、機械の正確さが現在、視覚認識タスクにおいて人間よりも優れているように花開いた。 しかし、これらの人工ネットワークは通常、imagenetの1000のカテゴリなど、非常に特定のタスクで訓練され、評価される。 その点において、生物視覚システムは、汎用生態学的タスクの人工システムよりも柔軟で効率的である。 この比較をさらに深めるため,動物の存在を検出するために定義されたタスクと人工物の存在を検出するタスクの2つの独立したタスクについて,標準的なVGG畳み込みニューラルネットワーク(CNN)を再訓練した。 ネットワークの再トレーニングは,心理物理学的タスクで報告されるような人間的なパフォーマンスレベルを達成する。 また,画像別検出の精度も比較した。 これは特に、2つのモデルが出力を組み合わせれば性能が良くなることを示した。 実際、動物(例えばライオン)は、アーティファクト(例えば建物)を含む写真では存在しがちである。 これらの再訓練されたモデルは、強靭性から回転(例えば逆さまや斜めのイメージ)やグレースケールの変換といった人間の精神物理学から予期せぬ行動観察を再現することができる。

Humans are able to robustly categorize images and can, for instance, detect the presence of an animal in a briefly flashed image in as little as 120 ms. Initially inspired by neuroscience, deep-learning algorithms literally bloomed up in the last decade such that the accuracy of machines is at present superior to humans for visual recognition tasks. However, these artificial networks are usually trained and evaluated on very specific tasks, for instance on the 1000 separate categories of ImageNet. In that regard, biological visual systems are more flexible and efficient compared to artificial systems on generic ecological tasks. In order to deepen this comparison, we re-trained the standard VGG Convolutional Neural Network (CNN) on two independent tasks which are ecologically relevant for humans: one task defined as detecting the presence of an animal and the other as detecting the presence of an artifact. We show that retraining the network achieves human-like performance level which is reported in psychophysical tasks. We also compare the accuracy of the detection on an image-by-image basis. This showed in particular that the two models perform better when combining their outputs. Indeed, animals (e.g. lions) tend to be less present in photographs containing artifacts (e.g. buildings). These re-trained models could reproduce some unexpected behavioral observations from humans psychophysics such as the robustness to rotations (e.g. upside-down or slanted image) or to a grayscale transformation.
翻訳日:2022-05-15 09:08:33 公開日:2022-05-07
# (参考訳) 強化学習の検索ベーステスト

Search-Based Testing of Reinforcement Learning ( http://arxiv.org/abs/2205.04887v1 )

ライセンス: CC BY 4.0
Martin Tappler, Filip Cano C\'ordoba, Bernhard K. Aichernig and Bettina K\"onighofer(参考訳) 深部強化学習(RL)の評価は本質的に困難である。 特に学習方針の不透明さとエージェントと環境の両方の確率的性質は、深いRLエージェントの挙動をテストするのを困難にしている。 本稿では, ディープRLエージェントの安全性と性能を評価するために, 広範囲の新規解析機能を実現するための検索ベーステストフレームワークを提案する。 安全性テストには,rlタスクを解決する参照トレースを検索する検索アルゴリズムを利用する。 境界状態と呼ばれる探索のバックトラック状態は、安全クリティカルな状況を引き起こす。 我々は、RLエージェントが境界付近の安全クリティカルな状況からいかにうまく逃れるかを評価する安全テストスーツを作成する。 堅牢なパフォーマンステストのために、fuzzテストを通じてさまざまなトレースセットを作成します。 これらのファズトレースは、エージェントの平均性能がファズトレースの平均性能と比較される様々な潜在的未知の状態にエージェントを導くために使用される。 任天堂のスーパーマリオブラザーズのRLに検索ベースのテストアプローチを適用した。

Evaluation of deep reinforcement learning (RL) is inherently challenging. Especially the opaqueness of learned policies and the stochastic nature of both agents and environments make testing the behavior of deep RL agents difficult. We present a search-based testing framework that enables a wide range of novel analysis capabilities for evaluating the safety and performance of deep RL agents. For safety testing, our framework utilizes a search algorithm that searches for a reference trace that solves the RL task. The backtracking states of the search, called boundary states, pose safety-critical situations. We create safety test-suites that evaluate how well the RL agent escapes safety-critical situations near these boundary states. For robust performance testing, we create a diverse set of traces via fuzz testing. These fuzz traces are used to bring the agent into a wide variety of potentially unknown states from which the average performance of the agent is compared to the average performance of the fuzz traces. We apply our search-based testing approach on RL for Nintendo's Super Mario Bros.
翻訳日:2022-05-15 08:57:18 公開日:2022-05-07
# (参考訳) 骨格レベルから画素レベルの可変容器セグメンテーションのためのラベル逆学習

Label Adversarial Learning for Skeleton-level to Pixel-level Adjustable Vessel Segmentation ( http://arxiv.org/abs/2205.03646v1 )

ライセンス: CC BY 4.0
Mingchao Li, Kun Huang, Zetian Zhang, Xiao Ma and Qiang Chen(参考訳) ケーキを食べて食べることもできます。 光コヒーレンス断層撮影(OCTA)画像における微小血管セグメンテーションはいまだに困難である。 骨格レベルのセグメンテーションは鮮明なトポロジーを示すが、直径情報を持たないが、画素レベルのセグメンテーションは鮮明なカリバーであるが低トポロジーを示す。 このギャップを埋めるために,骨格レベルから画素レベルの調整可能な血管セグメンテーションのためのラベル逆学習(LAL)を提案する。 LALは主にラベル対向損失と組込み可能な調整層という2つの設計で構成されている。 ラベル対向損失は、2つのラベル監督者間の対向関係を確立し、調整層は異なる対向重みに一致するようにネットワークパラメータを調整する。 このような設計は、2つの監督間の変動を効率的に捉え、セグメンテーションを連続的かつ可変的にすることができる。 この連続的なプロセスにより、鮮明な口径とトポロジーを持つ高品質な容器セグメンテーションを推奨できる。 実験の結果,現在の公開データセットの手動アノテーションや従来のフィルタリング効果よりも優れていた。 さらに、そのような連続的なプロセスは、弱い容器の境界とノイズを表す不確かさマップを生成するのにも使うことができる。

You can have your cake and eat it too. Microvessel segmentation in optical coherence tomography angiography (OCTA) images remains challenging. Skeleton-level segmentation shows clear topology but without diameter information, while pixel-level segmentation shows a clear caliber but low topology. To close this gap, we propose a novel label adversarial learning (LAL) for skeleton-level to pixel-level adjustable vessel segmentation. LAL mainly consists of two designs: a label adversarial loss and an embeddable adjustment layer. The label adversarial loss establishes an adversarial relationship between the two label supervisions, while the adjustment layer adjusts the network parameters to match the different adversarial weights. Such a design can efficiently capture the variation between the two supervisions, making the segmentation continuous and tunable. This continuous process allows us to recommend high-quality vessel segmentation with clear caliber and topology. Experimental results show that our results outperform manual annotations of current public datasets and conventional filtering effects. Furthermore, such a continuous process can also be used to generate an uncertainty map representing weak vessel boundaries and noise.
翻訳日:2022-05-15 08:32:10 公開日:2022-05-07
# (参考訳) Intelligent Single-Pixel Imaging を用いたTic-Tac-Toeゲーム

Playing Tic-Tac-Toe Games with Intelligent Single-pixel Imaging ( http://arxiv.org/abs/2205.03663v1 )

ライセンス: CC BY 4.0
Shuming Jiao, Jiaxiang Li, Wei Huang, Zibang Zhang(参考訳) spi(single-pixel imaging)は、2次元画素センサを1画素検出器とパターンイルミネーションに置き換えた新しい光学イメージング技術である。 SPIは画像取得や処理に関わる様々なタスクに広く利用されている。 本研究では,インタラクティブにtic-tac-toeゲームをプレイする非イメージ型タスクをspiのフレームワークに統合する。 デジタル計算が最小限の光電子人工知能(ai)プレーヤーは、ゲーム状態を検出し、最適な動きを生成し、主にパターン照明とシングルピクセル検出により出力結果を表示することができる。 シミュレーションおよび実験により,提案手法の有効性と人体に対する不当な性能を示す。

Single-pixel imaging (SPI) is a novel optical imaging technique by replacing a two-dimensional pixelated sensor with a single-pixel detector and pattern illuminations. SPI have been extensively used for various tasks related to image acquisition and processing. In this work, a novel non-image-based task of playing Tic-Tac-Toe games interactively is merged into the framework of SPI. An optoelectronic artificial intelligent (AI) player with minimal digital computation can detect the game states, generate optimal moves and display output results mainly by pattern illumination and single-pixel detection. Simulated and experimental results demonstrate the feasibility of proposed scheme and its unbeatable performance against human players.
翻訳日:2022-05-15 08:25:12 公開日:2022-05-07
# (参考訳) 学習閾値を用いた変分スパース符号化

Variational Sparse Coding with Learned Thresholding ( http://arxiv.org/abs/2205.03665v1 )

ライセンス: CC BY 4.0
Kion Fallah and Christopher J. Rozell(参考訳) スパースコーディング戦略は、低次元構造を利用するデータの控えめな表現で称賛されている。 しかし、これらの符号の推論は通常、高次元問題における計算スケーリングが不十分な最適化手順に依存する。 例えば、ディープニューラルネットワーク(dnn)の高次元中間層で学習される表現におけるスパース推論は、各トレーニングステップで反復最小化を行う必要がある。 そこで,近年,DNN を用いた分散学習により,スパース符号を推定するために,変分推論の高速な手法が提案されている。 そこで本研究では,サンプルをしきい値にすることでスパース分布を学習し,不規則な緩和を回避できる変分スパース符号化手法を提案する。 まず, 線形発生器を訓練し, その性能, 統計的効率, 勾配推定を他のスパース分布と比較して評価し, 解析を行った。 次に、Fashion MNISTおよびCelebAデータセット上のDNNジェネレータを用いた標準変分オートエンコーダと比較する。

Sparse coding strategies have been lauded for their parsimonious representations of data that leverage low dimensional structure. However, inference of these codes typically relies on an optimization procedure with poor computational scaling in high-dimensional problems. For example, sparse inference in the representations learned in the high-dimensional intermediary layers of deep neural networks (DNNs) requires an iterative minimization to be performed at each training step. As such, recent, quick methods in variational inference have been proposed to infer sparse codes by learning a distribution over the codes with a DNN. In this work, we propose a new approach to variational sparse coding that allows us to learn sparse distributions by thresholding samples, avoiding the use of problematic relaxations. We first evaluate and analyze our method by training a linear generator, showing that it has superior performance, statistical efficiency, and gradient estimation compared to other sparse distributions. We then compare to a standard variational autoencoder using a DNN generator on the Fashion MNIST and CelebA datasets
翻訳日:2022-05-15 08:19:46 公開日:2022-05-07
# (参考訳) 会話システムにおけるイディオムのベクトル表現

Vector Representations of Idioms in Conversational Systems ( http://arxiv.org/abs/2205.03666v1 )

ライセンス: CC BY 4.0
Tosin Adewumi, Foteini Liwicki and Marcus Liwicki(参考訳) 本研究では,イディオムやフィギュラティブ言語で学習したオープンドメイン会話システムがイディオムを含むプロンプトに対して,より適切な応答を生成することを示す。 イディオムは多くの言語、多くの文化において日常会話の一部であるが、会話型ai以外にも情報検索(ir)や機械翻訳(mt)といったタスクを含む多くの自然言語処理(nlp)システムにとって大きな課題となっている。 我々は,この2つの課題について,潜在的慣用表現(pie)-英語慣用表現コーパスを用いて分類と会話生成を行う。 sota t5モデルを用いて分類タスクにおける98%のマクロf1得点の最先端(sota)結果を得る。 会話生成のための対話生成事前学習型変換器(DialoGPT)の3つの例を実験した。 これらの性能は自動的メートル法と人的評価を用いて評価される。 その結果、イディオムコーパスで訓練されたモデルは、イディオムコーパスで訓練されていない類似のモデルと比較して、71.9%の時間を含むプロンプトに対してより適合した応答を生成することが示された。 私たちは、公開アクセスのためにhuggingface hubにモデルチェックポイント/デモとコードを寄贈します。

We demonstrate, in this study, that an open-domain conversational system trained on idioms or figurative language generates more fitting responses to prompts containing idioms. Idioms are part of everyday speech in many languages, across many cultures, but they pose a great challenge for many Natural Language Processing (NLP) systems that involve tasks such as Information Retrieval (IR) and Machine Translation (MT), besides conversational AI. We utilize the Potential Idiomatic Expression (PIE)-English idioms corpus for the two tasks that we investigate: classification and conversation generation. We achieve state-of-the-art (SoTA) result of 98% macro F1 score on the classification task by using the SoTA T5 model. We experiment with three instances of the SoTA dialogue model, Dialogue Generative Pre-trained Transformer (DialoGPT), for conversation generation. Their performances are evaluated using the automatic metric perplexity and human evaluation. The results show that the model trained on the idiom corpus generates more fitting responses to prompts containing idioms 71.9% of the time, compared to a similar model not trained on the idioms corpus. We contribute the model checkpoint/demo and code on the HuggingFace hub for public access.
翻訳日:2022-05-15 07:55:46 公開日:2022-05-07
# (参考訳) 状態管理による共感応答生成

Empathetic Response Generation with State Management ( http://arxiv.org/abs/2205.03676v1 )

ライセンス: CC BY 4.0
Yuhan Liu, Jun Gao, Jiachen Du, Lanjun Zhou, Ruifeng Xu(参考訳) 共感応答生成の目標は、対話システムの会話における感情を知覚し表現する能力を高めることである。 この課題に対する現在のアプローチは、主に、ユーザの感情を認識したり、ターゲットの感情を予測して応答生成モデルを改善することに焦点を当てている。 このようなモデルは部分的な情報(ユーザの感情や対象の感情)のみを利用し、複数の情報を一緒に考慮しない。 反応の感情的スタイルに加えて、反応の意図は共感的反応にも非常に重要である。 そこで本研究では,感情や意図を含む複数の状態情報を同時に考慮できる新しい共感応答生成モデルを提案する。 具体的には,ユーザの感情を最初に認識した対話状態を動的に更新し,ユーザの感情を入力として予め定義されたシフトパターンを介して対象感情と意図を求める状態管理手法を提案する。 得られた情報を用いて応答生成を制御する。 実験の結果、異なる情報を動的に管理することで、モデルがより共感的な反応を生成するのに役立つことがわかった。

The goal of empathetic response generation is to enhance the ability of dialogue systems to perceive and express emotions in conversations. Current approaches to this task mainly focus on improving the response generation model by recognizing the emotion of the user or predicting a target emotion to guide the generation of responses. Such models only exploit partial information (the user's emotion or the target emotion used as a guiding signal) and do not consider multiple information together. In addition to the emotional style of the response, the intent of the response is also very important for empathetic responding. Thus, we propose a novel empathetic response generation model that can consider multiple state information including emotions and intents simultaneously. Specifically, we introduce a state management method to dynamically update the dialogue states, in which the user's emotion is first recognized, then the target emotion and intent are obtained via predefined shift patterns with the user's emotion as input. The obtained information is used to control the response generation. Experimental results show that dynamically managing different information can help the model generate more empathetic responses compared with several baselines under both automatic and human evaluations.
翻訳日:2022-05-15 07:40:57 公開日:2022-05-07
# (参考訳) AKI-BERT : 急性腎損傷早期予測のための事前訓練型臨床言語モデル

AKI-BERT: a Pre-trained Clinical Language Model for Early Prediction of Acute Kidney Injury ( http://arxiv.org/abs/2205.03695v1 )

ライセンス: CC BY 4.0
Chengsheng Mao, Liang Yao and Yuan Luo(参考訳) 急性腎障害 (aki) は、腎不全や腎障害が数時間から数日で突然発生することが特徴の一般的な臨床症状である。 ICU患者のAKIの正確な早期予測は、他者よりもAKIの介入が可能であり、AKIの合併症を軽減できる。 AKIに関連する臨床情報は、ほとんど構造化されていないテキストであり、有用な情報抽出に高度な自然言語処理(NLP)を必要とする臨床ノートに記録されている。 一方、BERT(Bidirectional Encoder Representations from Transformers)のような事前学習された文脈言語モデルは、最近、多くのNLPタスクの性能を改善している。 しかし、AKI早期予測のような疾患特異的医療領域のタスクについてBERTを探索する人は少ない。 本稿では、特定疾患にBERTを適用し、AKIの早期予測のために臨床ノートのマイニングに使用できるBERT(AKI-BERT)に基づくAKIドメイン固有の事前訓練言語モデルを提案する。 AKI-BERT(AKI-BERT)は、AKIのリスクを持つ患者の臨床ノートに事前訓練されたBERTモデルである。 集中治療のための医療情報マート(MIMIC-III)データセットを用いた実験により,AKI-BERTは早期AKI予測の性能向上を図り,BERTモデルの有用性を一般臨床領域から疾患特異的領域に拡張した。

Acute kidney injury (AKI) is a common clinical syndrome characterized by a sudden episode of kidney failure or kidney damage within a few hours or a few days. Accurate early prediction of AKI for patients in ICU who are more likely than others to have AKI can enable timely interventions, and reduce the complications of AKI. Much of the clinical information relevant to AKI is captured in clinical notes that are largely unstructured text and requires advanced natural language processing (NLP) for useful information extraction. On the other hand, pre-trained contextual language models such as Bidirectional Encoder Representations from Transformers (BERT) have improved performances for many NLP tasks in general domain recently. However, few have explored BERT on disease-specific medical domain tasks such as AKI early prediction. In this paper, we try to apply BERT to specific diseases and present an AKI domain-specific pre-trained language model based on BERT (AKI-BERT) that could be used to mine the clinical notes for early prediction of AKI. AKI-BERT is a BERT model pre-trained on the clinical notes of patients having risks for AKI. Our experiments on Medical Information Mart for Intensive Care III (MIMIC-III) dataset demonstrate that AKI-BERT can yield performance improvements for early AKI prediction, thus expanding the utility of the BERT model from general clinical domain to disease-specific domain.
翻訳日:2022-05-15 07:29:24 公開日:2022-05-07
# (参考訳) 精度収束型フィールド予測器

Accuracy Convergent Field Predictors ( http://arxiv.org/abs/2205.03712v1 )

ライセンス: CC BY 4.0
Cristian Alb(参考訳) いくつかの予測アルゴリズムについて述べる。 ハイライトは、トレーニングデータインスタンスに関連するフィールドを重畳することで予測を行う変種である。 分類的、連続的、混合的なデータでシームレスに動作する。 予測精度収束は予測アルゴリズムを評価する基準として議論される。 予測精度の収束を達成するためにアルゴリズムを適応する方法について述べる。

Several predictive algorithms are described. Highlighted are variants that make predictions by superposing fields associated to the training data instances. They operate seamlessly with categorical, continuous, and mixed data. Predictive accuracy convergence is also discussed as a criteria for evaluating predictive algorithms. Methods are described on how to adapt algorithms in order to make them achieve predictive accuracy convergence.
翻訳日:2022-05-15 07:14:21 公開日:2022-05-07
# (参考訳) UAVによる3次元再構成の視点と経路計画

A Review on Viewpoints and Path-planning for UAV-based 3D Reconstruction ( http://arxiv.org/abs/2205.03716v1 )

ライセンス: CC BY 4.0
Mehdi Maboudi, MohammadReza Homaei, Soohwan Song, Shirin Malihi, Mohammad Saadatseresht, and Markus Gerke(参考訳) 無人航空機(UAV)は、様々な用途のためのデータキャプチャーセンサーを運ぶために広く使われている。 この成功の理由は、uavの操作性の高さ、自律的なデータ取得能力、異なる高度で飛行する能力、ほぼあらゆる地点に到達できる可能性など、多くの面で見受けられる。 適切な視点の選択とUAVの最適軌道計画は、データキャプチャプロセスの自動化、効率、信頼性を高め、望ましい品質でデータセットを達成することを目的とした、新たなトピックである。 一方、UAVが捉えたデータを用いた3D再構成も研究や産業で注目を集めている。 本稿では,大規模物体の3次元再構成のための視点および経路計画のためのモデルフリーおよびモデルベースアルゴリズムについて検討する。 分析されたアプローチは、屋外3D再構築のためのデータキャプチャプラットフォームとして単一UAVを使用するものに限定される。 本稿では,評価戦略の議論に加えて,調査手法の革新と限界についても論じる。 既存の課題と今後の研究の観点を批判的に分析して結論付ける。

Unmanned aerial vehicles (UAVs) are widely used platforms to carry data capturing sensors for various applications. The reason for this success can be found in many aspects: the high maneuverability of the UAVs, the capability of performing autonomous data acquisition, flying at different heights, and the possibility to reach almost any vantage point. The selection of appropriate viewpoints and planning the optimum trajectories of UAVs is an emerging topic that aims at increasing the automation, efficiency and reliability of the data capturing process to achieve a dataset with desired quality. On the other hand, 3D reconstruction using the data captured by UAVs is also attracting attention in research and industry. This review paper investigates a wide range of model-free and model-based algorithms for viewpoint and path planning for 3D reconstruction of large-scale objects. The analyzed approaches are limited to those that employ a single-UAV as a data capturing platform for outdoor 3D reconstruction purposes. In addition to discussing the evaluation strategies, this paper also highlights the innovations and limitations of the investigated approaches. It concludes with a critical analysis of the existing challenges and future research perspectives.
翻訳日:2022-05-15 07:06:58 公開日:2022-05-07
# (参考訳) 因子グラフを用いたカテゴリー非依存調音物体追跡

Category-Independent Articulated Object Tracking with Factor Graphs ( http://arxiv.org/abs/2205.03721v1 )

ライセンス: CC BY 4.0
Nick Heppert, Toki Migimatsu, Brent Yi, Claire Chen, Jeannette Bohg(参考訳) 人間中心の環境に配備されるロボットは、ドア、食器洗い機、キャビネットなど様々な関節を持った物体を操作する必要がある。 アーティキュレートされた物体は、しばしば、カテゴリーの先行と矛盾しない予期せぬ調音機構を持つ:例えば、引き出しは、開いたままではなくヒンジジョイントの周りで回転する。 rgb-d画像のシーケンスから未知物体の調音モデルを予測するためのカテゴリ非依存フレームワークを提案する。 第1に、視覚知覚モジュールは、原画像からのオブジェクト部分のポーズを追跡し、第2に、因子グラフは、これらのポーズを取り、これらの部分間の現在の構成を含む調音モデルを6Dツイストとして推論する。 また,予測されたひねりを考慮すれば,協調型ロボットコントローラが関節オブジェクトをどの程度操作できるかという観点で,予測された関節ねじれを評価するためのマニピュレーション指向メトリックを提案する。 シミュレーションデータでは視覚知覚と因子グラフモジュールがベースラインを上回ることを実証し,実データに対する因子グラフの適用性を示す。

Robots deployed in human-centric environments may need to manipulate a diverse range of articulated objects, such as doors, dishwashers, and cabinets. Articulated objects often come with unexpected articulation mechanisms that are inconsistent with categorical priors: for example, a drawer might rotate about a hinge joint instead of sliding open. We propose a category-independent framework for predicting the articulation models of unknown objects from sequences of RGB-D images. The prediction is performed by a two-step process: first, a visual perception module tracks object part poses from raw images, and second, a factor graph takes these poses and infers the articulation model including the current configuration between the parts as a 6D twist. We also propose a manipulation-oriented metric to evaluate predicted joint twists in terms of how well a compliant robot controller would be able to manipulate the articulated object given the predicted twist. We demonstrate that our visual perception and factor graph modules outperform baselines on simulated data and show the applicability of our factor graph on real world data.
翻訳日:2022-05-15 07:05:55 公開日:2022-05-07
# (参考訳) 縮合ベイズアルゴリズムによるログロスの高精度レグレト境界

Precise Regret Bounds for Log-loss via a Truncated Bayesian Algorithm ( http://arxiv.org/abs/2205.03728v1 )

ライセンス: CC BY 4.0
Changlong Wu, Mohsen Heidari, Ananth Grama, Wojciech Szpankowski(参考訳) 一般オンライン回帰(sequential general online regression, シーケンシャル確率割当とも呼ばれる)を、幅広い専門家と比較した場合の対数損失下で検討した。 専門家のクラスで発生する過大な損失として定義される、逐次的ミニマックスの後悔に対して、厳密で、しばしば一致し、下界と上界を得ることに集中します。 一般上界を証明した後、リプシッツ類から有界ヘッセン類への専門家の特定のクラスを考え、証明可能な最適定数を持つ下界と上界のマッチングを導出する。 私たちの境界は、データ次元とラウンド数という幅広い値に対して機能します。 下限を導出するために、情報理論(例えばシュタルコフ和)のツールを使い、上限については専門家の階級の新しい「スムース・トランケーテッド・カバー」に頼る。 これにより、単純かつ斬新なベイズアルゴリズムを適用することで、構成的証明を見つけることができる。 我々の証明は既存の証明よりもかなり単純であり、より厳密な(そしてしばしば最適な)境界を提供する。

We study the sequential general online regression, known also as the sequential probability assignments, under logarithmic loss when compared against a broad class of experts. We focus on obtaining tight, often matching, lower and upper bounds for the sequential minimax regret that are defined as the excess loss it incurs over a class of experts. After proving a general upper bound, we consider some specific classes of experts from Lipschitz class to bounded Hessian class and derive matching lower and upper bounds with provably optimal constants. Our bounds work for a wide range of values of the data dimension and the number of rounds. To derive lower bounds, we use tools from information theory (e.g., Shtarkov sum) and for upper bounds, we resort to new "smooth truncated covering" of the class of experts. This allows us to find constructive proofs by applying a simple and novel truncated Bayesian algorithm. Our proofs are substantially simpler than the existing ones and yet provide tighter (and often optimal) bounds.
翻訳日:2022-05-15 06:45:12 公開日:2022-05-07
# (参考訳) FRC-TOuNN:ニューラルネットワークを用いた連続繊維強化複合材料のトポロジー最適化

FRC-TOuNN: Topology Optimization of Continuous Fiber Reinforced Composites using Neural Network ( http://arxiv.org/abs/2205.03737v1 )

ライセンス: CC BY 4.0
Aaditya Chandrasekhar, Amir Mirzendehdel, Morad Behandish, Krishnan Suresh(参考訳) 本稿では,機能的に傾斜した連続繊維強化複合材料(frc)のマトリックストポロジーと繊維分布を同時に最適化するトポロジー最適化(to)フレームワークを提案する。 frcに対する密度に基づく現在のアプローチでは、基礎となる有限要素メッシュを解析と設計表現の両方に使っている。 これはサブエレメントファイバのスペーシングと高分解能連続ファイバの生成にいくつかの制限を課す。 対照的に,ニューラルネットワーク(NN)に基づくメッシュ非依存表現を提案し,行列トポロジとファイバー分布を捉える。 暗黙的なNNベースの表現は、メッシュの離散化よりも高い解像度で幾何学的および物質的クエリを可能にする。 これにより、機能的に劣化した連続繊維の正確な抽出に繋がる。 さらに、有限要素シミュレーションをNN計算フレームワークに統合することにより、エンドツーエンドの自動感度解析に自動微分を利用することができる。 提案手法の有効性と計算効率を,様々な目的関数を含む数値的な例を通して示す。 また, 最適化した連続繊維強化複合材料は, 高分解能で直接製造できることを示した。

In this paper, we present a topology optimization (TO) framework to simultaneously optimize the matrix topology and fiber distribution of functionally graded continuous fiber-reinforced composites (FRC). Current approaches in density-based TO for FRC use the underlying finite element mesh both for analysis and design representation. This poses several limitations while enforcing sub-element fiber spacing and generating high-resolution continuous fibers. In contrast, we propose a mesh-independent representation based on a neural network (NN) both to capture the matrix topology and fiber distribution. The implicit NN-based representation enables geometric and material queries at a higher resolution than a mesh discretization. This leads to the accurate extraction of functionally-graded continuous fibers. Further, by integrating the finite element simulations into the NN computational framework, we can leverage automatic differentiation for end-to-end automated sensitivity analysis, i.e., we no longer need to manually derive cumbersome sensitivity expressions. We demonstrate the effectiveness and computational efficiency of the proposed method through several numerical examples involving various objective functions. We also show that the optimized continuous fiber reinforced composites can be directly fabricated at high resolution using additive manufacturing.
翻訳日:2022-05-15 06:21:31 公開日:2022-05-07
# ディープラーニングモデルのアナログノイズ抵抗性に及ぼすL1バッチ正規化の影響

Impact of L1 Batch Normalization on Analog Noise Resistant Property of Deep Learning Models ( http://arxiv.org/abs/2205.04886v1 )

ライセンス: Link先を確認
Omobayode Fagbohungbe and Lijun Qian(参考訳) アナログハードウェアは、高速実行とエネルギー効率のため、リソースに制約のあるデバイス上での機械学習に人気がある。 しかし、アナログハードウェアに固有のノイズの存在と、デプロイされたディープニューラルネットワーク(DNN)モデルに対するノイズの負の影響は、使用を制限している。 ノイズによる性能劣化は, 耐雑音性に優れたDNNモデルの新規設計を必要とし, 基本構造ブロックの特性を活用している。 本研究では, 耐雑音性に優れたDNNモデルの設計において, 基本的DNNモデル構築ブロックであるL1またはTopK BatchNorm型を用いることを提案する。 具体的には、L1/TopK BatchNorm型でDNNモデルを訓練し、L2 BatchNorm型でDNNモデルと比較した。 モデル重みに付加ノイズを注入し、ノイズによる新しいモデル推定精度を評価することにより、モデル耐雑音性をテストする。 その結果,L1型とTopK BatchNorm型は耐雑音性に優れており,BatchNorm型がL2からL1/TopK BatchNorm型に変更されたため,性能上の犠牲はないことがわかった。

Analog hardware has become a popular choice for machine learning on resource-constrained devices recently due to its fast execution and energy efficiency. However, the inherent presence of noise in analog hardware and the negative impact of the noise on deployed deep neural network (DNN) models limit their usage. The degradation in performance due to the noise calls for the novel design of DNN models that have excellent noiseresistant property, leveraging the properties of the fundamental building block of DNN models. In this work, the use of L1 or TopK BatchNorm type, a fundamental DNN model building block, in designing DNN models with excellent noise-resistant property is proposed. Specifically, a systematic study has been carried out by training DNN models with L1/TopK BatchNorm type, and the performance is compared with DNN models with L2 BatchNorm types. The resulting model noise-resistant property is tested by injecting additive noise to the model weights and evaluating the new model inference accuracy due to the noise. The results show that L1 and TopK BatchNorm type has excellent noise-resistant property, and there is no sacrifice in performance due to the change in the BatchNorm type from L2 to L1/TopK BatchNorm type.
翻訳日:2022-05-12 19:29:43 公開日:2022-05-07
# 太陽風観測データによる惑星間コロナ質量放出の自動検出

Automatic Detection of Interplanetary Coronal Mass Ejections in Solar Wind In Situ Data ( http://arxiv.org/abs/2205.03578v1 )

ライセンス: Link先を確認
Hannah T. R\"udisser, Andreas Windisch, Ute V. Amerstorfer, Christian M\"ostl, Tanja Amerstorfer, Rachel L. Bailey, Martin A. Reiss(参考訳) 惑星間コロナ質量放出(ICME)は、宇宙気象障害の主要な要因の一つである。 過去には、太陽風の観測による既存の時系列の事象を自動的に検出するために様々なアプローチが用いられてきた。 しかし、異なる機器からの大量のデータに直面する場合、正確かつ迅速な検出は依然として課題である。 ICMEの自動検出には,最近,医用画像のセグメンテーションに成功している手法を用いたパイプラインを提案する。 既存の手法と比較すると、同様の結果が得られる一方で、我々のモデルはトレーニング時間に関するベースラインを約20倍の性能で上回り、他のデータセットにも適用できることがわかった。 この方法は、1997年から2015年までのウィンド宇宙船のin situデータでテストされ、True Skill Statistic (TSS) は0.64である。 640個のICMEのうち,466個のFalse Positivesが検出され,総計254個のFalse Positivesが得られた。 さらに、Wind、STEREO-A、STEREO-B、True Skill Statisticsのそれぞれ0.56、0.57、0.53から、より少ない特徴を持つデータセットで合理的な結果を得た。 当社のパイプラインでは,平均絶対誤差(mae)が2時間56分,終了時間が3時間20分程度でicmeの開始を見つけることができました。 比較的高速な訓練により、ハイパーパラメーターの簡単なチューニングが可能となり、太陽風データ中の他の構造や現象(例えば共回転相互作用領域)を検出できる。

Interplanetary coronal mass ejections (ICMEs) are one of the main drivers for space weather disturbances. In the past, different approaches have been used to automatically detect events in existing time series resulting from solar wind in situ observations. However, accurate and fast detection still remains a challenge when facing the large amount of data from different instruments. For the automatic detection of ICMEs we propose a pipeline using a method that has recently proven successful in medical image segmentation. Comparing it to an existing method, we find that while achieving similar results, our model outperforms the baseline regarding training time by a factor of approximately 20, thus making it more applicable for other datasets. The method has been tested on in situ data from the Wind spacecraft between 1997 and 2015 with a True Skill Statistic (TSS) of 0.64. Out of the 640 ICMEs, 466 were detected correctly by our algorithm, producing a total of 254 False Positives. Additionally, it produced reasonable results on datasets with fewer features and smaller training sets from Wind, STEREO-A and STEREO-B with True Skill Statistics of 0.56, 0.57 and 0.53, respectively. Our pipeline manages to find the start of an ICME with a mean absolute error (MAE) of around 2 hours and 56 minutes, and the end time with a MAE of 3 hours and 20 minutes. The relatively fast training allows straightforward tuning of hyperparameters and could therefore easily be used to detect other structures and phenomena in solar wind data, such as corotating interaction regions.
翻訳日:2022-05-10 18:07:06 公開日:2022-05-07
# 薄膜トランジスタ(TFT)画像センサを用いた深層学習による細菌コロニーの検出と分類

Deep Learning-enabled Detection and Classification of Bacterial Colonies using a Thin Film Transistor (TFT) Image Sensor ( http://arxiv.org/abs/2205.03549v1 )

ライセンス: Link先を確認
Yuzhu Li, Tairan Liu, Hatice Ceylan Koydemir, Hongda Wang, Keelan O'Riordan, Bijie Bai, Yuta Haga, Junji Kobashi, Hitoshi Tanaka, Takaya Tamaru, Kazunori Yamaguchi and Aydogan Ozcan(参考訳) 大腸菌(E. coli)などの病原菌の早期検出と同定は公衆衛生に不可欠な課題である。 細菌コロニー検出の従来の培養法では、最終読み出しには通常24時間以上かかります。 本稿では,細菌コロニー形成ユニット(CFU)検出システムについて,環境保護庁(EPA)が承認した手法と比較して約12時間節約できる薄膜トランジスタ(TFT)ベースのイメージセンサアレイを用いた。 このCFU検出システムの有効性を実証するため、TFTイメージセンサを用いて10cm^2のサンプル視野を持つ無レンズ画像モダリティを構築した。 色素性寒天板上に培養された細菌コロニーの経時的画像は5分間隔で自動的に収集された。 2つのディープニューラルネットワークを使用して、成長するコロニーを検出し、数え、種を特定する。 265の大腸菌および他の大腸菌菌(CitrobacterおよびKlebsiella pneumoniae)で盲検試験を行ったところ,9時間培養で平均CFU検出率は97.3%,約12時間で平均91.6%に達した。 このTFTベースのセンサは、様々な微生物学的検出方法に適用することができる。 大規模なスケーラビリティ、超広視野、およびtftベースのイメージセンサの低コストにより、このプラットフォームは各寒天プレートと統合でき、自動cfuカウントの後にテスト、廃棄することができる。 このプラットフォームのイメージフィールド・オブ・ビューは100 cm^2に費用対効果を増し、フレキシブルディスプレイ産業で使用されるTFTのロール・ツー・ロール製造などのCFU検出のスループットを提供する。

Early detection and identification of pathogenic bacteria such as Escherichia coli (E. coli) is an essential task for public health. The conventional culture-based methods for bacterial colony detection usually take >24 hours to get the final read-out. Here, we demonstrate a bacterial colony-forming-unit (CFU) detection system exploiting a thin-film-transistor (TFT)-based image sensor array that saves ~12 hours compared to the Environmental Protection Agency (EPA)-approved methods. To demonstrate the efficacy of this CFU detection system, a lensfree imaging modality was built using the TFT image sensor with a sample field-of-view of ~10 cm^2. Time-lapse images of bacterial colonies cultured on chromogenic agar plates were automatically collected at 5-minute intervals. Two deep neural networks were used to detect and count the growing colonies and identify their species. When blindly tested with 265 colonies of E. coli and other coliform bacteria (i.e., Citrobacter and Klebsiella pneumoniae), our system reached an average CFU detection rate of 97.3% at 9 hours of incubation and an average recovery rate of 91.6% at ~12 hours. This TFT-based sensor can be applied to various microbiological detection methods. Due to the large scalability, ultra-large field-of-view, and low cost of the TFT-based image sensors, this platform can be integrated with each agar plate to be tested and disposed of after the automated CFU count. The imaging field-of-view of this platform can be cost-effectively increased to >100 cm^2 to provide a massive throughput for CFU detection using, e.g., roll-to-roll manufacturing of TFTs as used in the flexible display industry.
翻訳日:2022-05-10 17:53:58 公開日:2022-05-07
# ファクトリー:ロボット組立のための高速コンタクト

Factory: Fast Contact for Robotic Assembly ( http://arxiv.org/abs/2205.03532v1 )

ライセンス: Link先を確認
Yashraj Narang, Kier Storey, Iretiayo Akinola, Miles Macklin, Philipp Reist, Lukasz Wawrzyniak, Yunrong Guo, Adam Moravanszky, Gavriel State, Michelle Lu, Ankur Handa, Dieter Fox(参考訳) ロボットアセンブリは、ロボット工学の最も古く最も困難な応用の1つである。 認知や把持などの他の分野において、シミュレーションは研究の進展を急速に加速し、特に現代のディープラーニングと組み合わせて研究が進められている。 しかしながら、組立における接触-リッチ相互作用の範囲を正確に、効率的、かつロバストにシミュレートすることは長年の課題である。 本研究では,物理シミュレーション手法とロボット学習ツールのセットであるファクトリについて述べる。 我々は,1000ナッツとボルトの相互作用の同時シミュレーションを含む,幅広い接触リッチシーンのリアルタイム・高速シミュレーションを実現する。 慎重に設計されたパーツモデル60ドル、ロボット組立環境3、バーチャルロボットのトレーニングとテストのための7つのロボットコントローラを提供する。 最後に,ナット・アンド・ボルト組立のための概念強化学習政策の実証と評価を行った。 我々はファクトリーがロボット組立のシミュレーションや、ロボット工学における他の多くの接点豊富な応用の扉を開くことを目標としている。 ビデオを含む追加コンテンツについてはhttps://sites.google.com/nvidia.com/factoryをご覧ください。

Robotic assembly is one of the oldest and most challenging applications of robotics. In other areas of robotics, such as perception and grasping, simulation has rapidly accelerated research progress, particularly when combined with modern deep learning. However, accurately, efficiently, and robustly simulating the range of contact-rich interactions in assembly remains a longstanding challenge. In this work, we present Factory, a set of physics simulation methods and robot learning tools for such applications. We achieve real-time or faster simulation of a wide range of contact-rich scenes, including simultaneous simulation of 1000 nut-and-bolt interactions. We provide $60$ carefully-designed part models, 3 robotic assembly environments, and 7 robot controllers for training and testing virtual robots. Finally, we train and evaluate proof-of-concept reinforcement learning policies for nut-and-bolt assembly. We aim for Factory to open the doors to using simulation for robotic assembly, as well as many other contact-rich applications in robotics. Please see https://sites.google.com/nvidia.com/factory for supplementary content, including videos.
翻訳日:2022-05-10 17:51:31 公開日:2022-05-07
# フィードバックコードブックを限定した深層強化学習型適応IRS制御

Deep Reinforcement Learning-Based Adaptive IRS Control with Limited Feedback Codebooks ( http://arxiv.org/abs/2205.03636v1 )

ライセンス: Link先を確認
Junghoon Kim, Seyyedali Hosseinalipour, Andrew C. Marcum, Taejoon Kim, David J. Love, Christopher G. Brinton(参考訳) インテリジェント反射面(IRS)は、構成可能なメタ原子で構成され、反射係数の設計を通じて無線伝搬環境を変更することができる。 実践環境における適応型IRS制御の検討 (i)メタアトムに埋め込まれた可変要素を調整してirs反射係数を得る。 (II)IRS反射係数は受信信号の入射角に影響される。 (iii)irsは、マルチパス、タイムバリアリングチャネルに展開され、 (4)基地局(BS)からIRSへのフィードバックリンクはデータレートが低い。 チャネル推定と最適化された変数をIRSに伝達する従来の最適化ベースのIRS制御プロトコルは、チャネル推定の困難さとフィードバックチャネルのデータレートの低さのため、この設定では実用的ではない。 これらの課題に対処するため、我々はIRSを制御するための適応型コードブックベースの限定的なフィードバックプロトコルを開発した。 適応型IRSコードブック設計のための2つのソリューションを提案する。 (i)チャンネル実現における相関を利用したランダム隣接(RA)と (II)深い強化学習に基づくディープニューラルネットワークポリシーに基づくIRS制御(DPIC)。 数値評価の結果,提案手法により,コヒーレンス時間におけるデータレートと平均データレートが大幅に改善された。

Intelligent reflecting surfaces (IRS) consist of configurable meta-atoms, which can alter the wireless propagation environment through design of their reflection coefficients. We consider adaptive IRS control in the practical setting where (i) the IRS reflection coefficients are attained by adjusting tunable elements embedded in the meta-atoms, (ii) the IRS reflection coefficients are affected by the incident angles of the incoming signals, (iii) the IRS is deployed in multi-path, time-varying channels, and (iv) the feedback link from the base station (BS) to the IRS has a low data rate. Conventional optimization-based IRS control protocols, which rely on channel estimation and conveying the optimized variables to the IRS, are not practical in this setting due to the difficulty of channel estimation and the low data rate of the feedback channel. To address these challenges, we develop a novel adaptive codebook-based limited feedback protocol to control the IRS. We propose two solutions for adaptive IRS codebook design: (i) random adjacency (RA), which utilizes correlations across the channel realizations, and (ii) deep neural network policy-based IRS control (DPIC), which is based on a deep reinforcement learning. Numerical evaluations show that the data rate and average data rate over one coherence time are improved substantially by the proposed schemes.
翻訳日:2022-05-10 17:51:14 公開日:2022-05-07
# ノイマン境界条件を持つ非局所非線形PDEのディープラーニング近似

Deep learning approximations for non-local nonlinear PDEs with Neumann boundary conditions ( http://arxiv.org/abs/2205.03672v1 )

ライセンス: Link先を確認
Victor Boussange, Sebastian Becker, Arnulf Jentzen, Benno Kuckuck, Lo\"ic Pellissier(参考訳) 非線形偏微分方程式(英語版)(PDE)は、金融から生物学まで、多くの科学分野における動的過程のモデル化に用いられる。 多くの応用において、標準局所モデルは、例えば距離での相互作用のような特定の非局所現象を正確に考慮するのに十分なものではない。 これらの現象を適切に捉えるために、非局所非線形pdeモデルが文献に頻繁に用いられる。 本稿では,非局所非線形PDEを大まかに解くために,機械学習とPicard反復に基づく2つの数値手法を提案する。 提案する機械学習に基づく手法は,以前に文献で紹介された深層学習に基づく分割型近似法の拡張版であり,ニューラルネットワークを用いて解の空間領域の部分集合に対する近似解を提供する。 ピカード反復法は、文献で以前に導入されたいわゆる全履歴再帰的マルチレベルピカード近似スキームの拡張版であり、ドメインの単一点に対する近似解を提供する。 どちらの手法もメッシュフリーであり、ノイマン境界条件を持つ非局所非線形PDEを高次元で解ける。 この2つの手法では、PDEの次元性に起因する数値的困難を回避している。 一 反射確率過程の予測軌道とPDEの解(ファインマン・カック式による)の対応とそれによる対応 (ii)非局所的な用語を扱うためにバニラ・モンテカルロ積分を用いる。 物理・生物学における5種類のPDEにおける2つの手法の性能評価を行った。 いずれの場合も、短い実行時間で最大10次元の良好な結果が得られる。 我々の研究は、PDEの解決における次元性の呪いを克服する手法を最近開発した。

Nonlinear partial differential equations (PDEs) are used to model dynamical processes in a large number of scientific fields, ranging from finance to biology. In many applications standard local models are not sufficient to accurately account for certain non-local phenomena such as, e.g., interactions at a distance. In order to properly capture these phenomena non-local nonlinear PDE models are frequently employed in the literature. In this article we propose two numerical methods based on machine learning and on Picard iterations, respectively, to approximately solve non-local nonlinear PDEs. The proposed machine learning-based method is an extended variant of a deep learning-based splitting-up type approximation method previously introduced in the literature and utilizes neural networks to provide approximate solutions on a subset of the spatial domain of the solution. The Picard iterations-based method is an extended variant of the so-called full history recursive multilevel Picard approximation scheme previously introduced in the literature and provides an approximate solution for a single point of the domain. Both methods are mesh-free and allow non-local nonlinear PDEs with Neumann boundary conditions to be solved in high dimensions. In the two methods, the numerical difficulties arising due to the dimensionality of the PDEs are avoided by (i) using the correspondence between the expected trajectory of reflected stochastic processes and the solution of PDEs (given by the Feynman-Kac formula) and by (ii) using a plain vanilla Monte Carlo integration to handle the non-local term. We evaluate the performance of the two methods on five different PDEs arising in physics and biology. In all cases, the methods yield good results in up to 10 dimensions with short run times. Our work extends recently developed methods to overcome the curse of dimensionality in solving PDEs.
翻訳日:2022-05-10 17:50:54 公開日:2022-05-07
# 偏光予測のためのベイズニューラルネットワークを用いた温室最適照明制御

Optimal Lighting Control in Greenhouses Using Bayesian Neural Networks for Sunlight Prediction ( http://arxiv.org/abs/2205.03733v1 )

ライセンス: Link先を確認
Shirin Afzali, Yajie Bao, Marc W. van Iersel, Javad Mohammadpour Velni(参考訳) 温室における光を含む環境パラメータの制御は収穫量を増加させるが、補助照明の電力コストは高くなる。 そのため、コスト効率のよい照明方法を適用することが重要である。 本論文では、日光予測のための変分推論ベイズニューラルネットワーク(BNN)モデルを考慮した最適補光制御手法を開発した。 予測モデルはノースカロライナの史跡(R^{2}$=0.9971, RMSE=1.8%)の過去の太陽データのモデルをテストすることによって検証される。 提案手法は,BNNに基づく日光予測,植物光の需要,電力価格の変動を考慮した最適化問題の解法により,電力コストを最小化する。 評価のために、新しい戦略を以下に比較する。 1) 日光予測のためのマルコフモデルを想定した,同じ最適化問題を解決するマルコフに基づく予測法 2) 一定量の光を供給することを目的としたヒューリスティックな方法。 BNN方式の電力コスト改善に関するシミュレーション研究を行った。 その結果,BNNに基づく手法は,マルコフ予測法とヒューリスティック法と比較して,平均2.27%,43.91%のコスト削減効果を示した。

Controlling the environmental parameters, including light in greenhouses, increases the crop yield; however, the electricity cost of supplemental lighting can be high. Therefore, the importance of applying cost-effective lighting methods arises. In this paper, an optimal supplemental lighting control approach is developed considering a variational inference Bayesian Neural Network (BNN) model for sunlight prediction. The predictive model is validated through testing the model on the historical solar data of a site located at North Carolina ($R^{2}$=0.9971, RMSE=1.8%). The proposed lighting approach is shown to minimize electricity cost by considering the BNN-based sunlight prediction, plant light needs, and variable electricity pricing when solving the underlying optimization problem. For evaluation, the new strategy is compared to: 1) a Markov-based prediction method, which solves the same optimization problem, assuming a Markov model for sunlight prediction; 2) a heuristic method which aims to supply a fixed amount of light. Simulation studies are conducted to examine the electricity cost improvements of the BNN-based approach. The results show that the BNN-based approach reduces cost by (on average) 2.27% and 43.91% compared to the Markov prediction-based method and the heuristic method, respectively, throughout a year.
翻訳日:2022-05-10 17:50:29 公開日:2022-05-07
# 保証付きギグ:フードデリバリー労働者のための公正な賃金獲得

Gigs with Guarantees: Achieving Fair Wage for Food Delivery Workers ( http://arxiv.org/abs/2205.03530v1 )

ライセンス: Link先を確認
Ashish Nair, Rahul Yadav, Anjali Gupta, Abhijnan Chakraborty, Sayan Ranu, Amitabha Bagchi(参考訳) フードデリバリープラットフォームの普及に伴い、これらのプラットフォームにおける「ギグ」労働者の労働条件、特に公平な賃金、合理的な労働時間、仕事の可用性の透明性などを検討することが重要になっている。 しかしながら、これらの問題の解決策は、顧客エクスペリエンスを損なうことなく、プラットフォームがそれらを採用しようとすることを確実にするためにコスト効率を高くしなければなりません。 我々は,配送業者に収入保証を提供するwork4foodを提案し,プラットフォームのコストを最小化し,顧客満足度を確保する。 work4foodは、収入保証が労働時間の増加や環境影響の低下につながることのない方法で満たされることを保証する。 これらの目的を取り入れるために、WORK4FOODは、システム内のエージェント数を制御し、エージェントの位置、評価などの要因に基づいてエージェントに動的支払い保証を提供することにより、供給と需要のバランスをとる。 我々は,WORK4FOODをリードフードデリバリープラットフォームから実世界のデータセット上で評価し,目前にある多次元目標の観点から,その技術状況に対する優位性を確立する。

With the increasing popularity of food delivery platforms, it has become pertinent to look into the working conditions of the 'gig' workers in these platforms, especially providing them fair wages, reasonable working hours, and transparency on work availability. However, any solution to these problems must not degrade customer experience and be cost-effective to ensure that platforms are willing to adopt them. We propose WORK4FOOD, which provides income guarantees to delivery agents, while minimizing platform costs and ensuring customer satisfaction. WORK4FOOD ensures that the income guarantees are met in such a way that it does not lead to increased working hours or degrade environmental impact. To incorporate these objectives, WORK4FOOD balances supply and demand by controlling the number of agents in the system and providing dynamic payment guarantees to agents based on factors such as agent location, ratings, etc. We evaluate WORK4FOOD on a real-world dataset from a leading food delivery platform and establish its advantages over the state of the art in terms of the multi-dimensional objectives at hand.
翻訳日:2022-05-10 17:35:48 公開日:2022-05-07
# BrainIB:グラフ情報付き脳ネットワークを用いた精神科診断

BrainIB: Interpretable Brain Network-based Psychiatric Diagnosis with Graph Information Bottleneck ( http://arxiv.org/abs/2205.03612v1 )

ライセンス: Link先を確認
Kaizhong Zheng, Shujian Yu, Baojuan Li, Robert Jenssen, and Badong Chen(参考訳) 精神疾患の主観的症状ではなく、基礎となる生物学的メカニズムに基づく新しい診断モデルの開発は、新たなコンセンサスである。 近年,脳マーカーを識別するために,機能的接続(fc)を用いた精神疾患と健康管理のための機械学習に基づく分類器が開発されている。 しかし、既存の機械学習ベースの診断モデルは(トレーニングサンプルが不十分なため)過度に適合する傾向があり、新しいテスト環境では不十分である。 さらに、基礎となる診断決定を解明する説明可能で信頼性の高い脳バイオマーカーを得ることが困難である。 これらの問題は臨床応用を妨げている。 本研究では,高名なInformation Bottleneck(IB)の原理を利用して,機能的磁気共鳴画像(fMRI)を解析するための新しいグラフニューラルネットワーク(GNN)フレームワークであるBrainIBを提案する。 BrainIBは、脳内の最も情報性の高い領域(つまり、部分グラフ)を識別し、見えないデータにうまく一般化することができる。 我々は2つの多地点の大規模データセット上で6つの一般的な脳ネットワーク分類法に対してBrainIBの性能を評価し、BrainIBが常に最も高い診断精度を達成することを観察した。 また、臨床および神経画像所見と一致したサブグラフバイオマーカーも発見する。

Developing a new diagnostic models based on the underlying biological mechanisms rather than subjective symptoms for psychiatric disorders is an emerging consensus. Recently, machine learning-based classifiers using functional connectivity (FC) for psychiatric disorders and healthy controls are developed to identify brain markers. However, existing machine learningbased diagnostic models are prone to over-fitting (due to insufficient training samples) and perform poorly in new test environment. Furthermore, it is difficult to obtain explainable and reliable brain biomarkers elucidating the underlying diagnostic decisions. These issues hinder their possible clinical applications. In this work, we propose BrainIB, a new graph neural network (GNN) framework to analyze functional magnetic resonance images (fMRI), by leveraging the famed Information Bottleneck (IB) principle. BrainIB is able to identify the most informative regions in the brain (i.e., subgraph) and generalizes well to unseen data. We evaluate the performance of BrainIB against 6 popular brain network classification methods on two multi-site, largescale datasets and observe that our BrainIB always achieves the highest diagnosis accuracy. It also discovers the subgraph biomarkers which are consistent to clinical and neuroimaging findings.
翻訳日:2022-05-10 17:33:14 公開日:2022-05-07
# レーダネットワーク構成のための自動アルゴリズム選択

Automated Algorithm Selection for Radar Network Configuration ( http://arxiv.org/abs/2205.03670v1 )

ライセンス: Link先を確認
Quentin Renau, Johann Dreo, Alain Peres, Yann Semet, Carola Doerr, Benjamin Doerr(参考訳) レーダーネットワークの構成は複雑な問題であり、シミュレータの助けを借りて専門家が手動で行うことが多い。 レーダの数や種類、およびレーダがカバーすべき異なる位置は、レーダ構成の問題の異なる事例を引き起こす。 これらのインスタンスの正確なモデリングは複雑であり、構成の質は、多数のパラメータ、内部レーダー処理、レーダーを配置する必要がある地形に依存する。 したがって、古典的な最適化アルゴリズムはこの問題には適用できず、我々は「試行錯誤」ブラックボックスアプローチに依存している。 本稿では,ネットワーク構成問題インスタンスにおける13~ブラックボックス最適化アルゴリズムの性能について検討する。 アルゴリズムは人間の専門家よりかなり優れている。 しかし、それらのランキングは、評価可能な構成の予算と、位置の標高プロファイルに依存する。 また,自動アルゴリズム選択手法についても検討する。 その結果,地形の標高からインスタンスの特徴を抽出するパイプラインは,目的関数から特徴を抽出する古典的,はるかに高価なアプローチと同等に動作することがわかった。

The configuration of radar networks is a complex problem that is often performed manually by experts with the help of a simulator. Different numbers and types of radars as well as different locations that the radars shall cover give rise to different instances of the radar configuration problem. The exact modeling of these instances is complex, as the quality of the configurations depends on a large number of parameters, on internal radar processing, and on the terrains on which the radars need to be placed. Classic optimization algorithms can therefore not be applied to this problem, and we rely on "trial-and-error" black-box approaches. In this paper, we study the performances of 13~black-box optimization algorithms on 153~radar network configuration problem instances. The algorithms perform considerably better than human experts. Their ranking, however, depends on the budget of configurations that can be evaluated and on the elevation profile of the location. We therefore also investigate automated algorithm selection approaches. Our results demonstrate that a pipeline that extracts instance features from the elevation of the terrain performs on par with the classical, far more expensive approach that extracts features from the objective function.
翻訳日:2022-05-10 17:32:53 公開日:2022-05-07
# 高周波機械学習におけるデータの定量化と外挿

Quantifying and Extrapolating Data Needs in Radio Frequency Machine Learning ( http://arxiv.org/abs/2205.03703v1 )

ライセンス: Link先を確認
William H. Clark IV, Alan J. Michaels(参考訳) トレーニングデータと一度デプロイされたモデルのパフォーマンスの関係を理解することは、機械学習の応用における基本的なコンポーネントである。 モデルのデプロイされたパフォーマンスは、トレーニングデータ自体の他、機械学習の範囲内の多数の変数に依存するが、この作業ではデータセットの効果が分離され、トレーニングデータが問題で果たす役割がより深く理解される。 本研究は、周波数領域空間における変調分類問題を調べ、所望の性能を達成するのに訓練データがどの程度必要かという疑問に答えようとするものであるが、その手続きは、モダリティをまたいだ分類問題に容易に適用できる。 トランスファーラーニング内で開発された転送電位のメトリクスを再取得することにより、トレーニングアプローチと機械学習アーキテクチャにより、データ量に対するアプローチが開発され、ターゲット性能を達成するためのデータ量要求を推定する手段として提案される。 このアプローチでは、メトリクスを抽出したターゲットデータセットとして機能するために、問題空間に移行した初期データセットが必要となるが、目標は、望ましいパフォーマンスを達成するシステムの提供に必要なものよりも、初期データを桁違いに小さくすることである。 ここで示したテクニックのもう1つの利点は、異なるデータセットの品質を数値的に評価し、データ量とシステムのパフォーマンスと結びつけることができることである。

Understanding the relationship between training data and a model's performance once deployed is a fundamental component in the application of machine learning. While the model's deployed performance is dependent on numerous variables within the scope of machine learning, beyond that of the training data itself, the effect of the dataset is isolated in this work to better understand the role training data plays in the problem. This work examines a modulation classification problem in the Radio Frequency domain space, attempting to answer the question of how much training data is required to achieve a desired level of performance, but the procedure readily applies to classification problems across modalities. By repurposing the metrics of transfer potential developed within transfer learning an approach to bound data quantity needs developed given a training approach and machine learning architecture; this approach is presented as a means to estimate data quantity requirements to achieve a target performance. While this approach will require an initial dataset that is germane to the problem space to act as a target dataset on which metrics are extracted, the goal is to allow for the initial data to be orders of magnitude smaller than what is required for delivering a system that achieves the desired performance. An additional benefit of the techniques presented here is that the quality of different datasets can be numerically evaluated and tied together with the quantity of data, and the performance of the system.
翻訳日:2022-05-10 17:32:37 公開日:2022-05-07
# 圧縮映像の深い品質評価 : 主観的・客観的研究

Deep Quality Assessment of Compressed Videos: A Subjective and Objective Study ( http://arxiv.org/abs/2205.03630v1 )

ライセンス: Link先を確認
Liqun Lin, Zheng Wang, Jiachen He, Weiling Chen, Yiwen Xu and Tiesong Zhao(参考訳) 映像符号化過程において、圧縮映像の知覚品質をフルリファレンス品質評価指標を用いて評価する。 しかし,完全品質の参照映像を得ることは困難である。 この問題を解決するためには,サーバ側での経験品質とネットワーク側でのリソース割り当てを測定するのに役立つ非参照圧縮映像品質評価アルゴリズムを設計することが重要である。 畳み込みニューラルネットワーク(CNN)は近年,ビデオ品質アセスメント(VQA)において,有望な成功を収めている。 大規模品質データベースは、正確で強力な圧縮ビデオ品質メトリクスを学ぶ上で非常に重要である。 本研究では,大規模な圧縮映像品質データベースを構築するための半自動ラベリング手法を用いて,大量の圧縮映像に人的作業負荷を伴ってラベル付けを行う。 その結果、半自動レーティング(CVSAR)による圧縮ビデオ品質データベースが、これまでで最大の圧縮ビデオ品質データベースとなった。 我々は,空間的特徴抽出・評価(stfee)のための3次元cnnを用いた非参照圧縮映像品質評価モデルを訓練する。 実験結果から,提案手法は最先端のメトリクスよりも優れ,データベース間テストにおいて有望な一般化性能を実現することが示された。 CVSARデータベースとSTFEEモデルは、再現可能な研究を促進するために公開されている。

In the video coding process, the perceived quality of a compressed video is evaluated by full-reference quality evaluation metrics. However, it is difficult to obtain reference videos with perfect quality. To solve this problem, it is critical to design no-reference compressed video quality assessment algorithms, which assists in measuring the quality of experience on the server side and resource allocation on the network side. Convolutional Neural Network (CNN) has shown its advantage in Video Quality Assessment (VQA) with promising successes in recent years. A large-scale quality database is very important for learning accurate and powerful compressed video quality metrics. In this work, a semi-automatic labeling method is adopted to build a large-scale compressed video quality database, which allows us to label a large number of compressed videos with manageable human workload. The resulting Compressed Video quality database with Semi-Automatic Ratings (CVSAR), so far the largest of compressed video quality database. We train a no-reference compressed video quality assessment model with a 3D CNN for SpatioTemporal Feature Extraction and Evaluation (STFEE). Experimental results demonstrate that the proposed method outperforms state-of-the-art metrics and achieves promising generalization performance in cross-database tests. The CVSAR database and STFEE model will be made publicly available to facilitate reproducible research.
翻訳日:2022-05-10 17:10:55 公開日:2022-05-07
# ディープドメイン適応によるロバストな3次元物体認識に向けて

Towards Robust 3D Object Recognition with Dense-to-Sparse Deep Domain Adaptation ( http://arxiv.org/abs/2205.03654v1 )

ライセンス: Link先を確認
Prajval Kumar Murali, Cong Wang, Ravinder Dahiya, Mohsen Kaboli(参考訳) 3次元オブジェクト認識は、自律走行車やロボットのようなインテリジェントな自律エージェントが非構造環境で効果的に動作するためには不可欠である。 最先端のアプローチの多くは比較的密集した点雲に依存しており、スパース点雲では性能低下が著しく大きい。 教師なしのドメイン適応により、密度とスパース点の雲間の差を最小限に抑え、スパース点の雲を最小にすることで、余分なデータ収集、アノテーション、再トレーニングコストを削減できる。 本研究では,高濃度の点雲のみを訓練しながら,高濃度の点雲上の最先端の手法と競合する性能を持つ点雲に基づく物体認識手法を提案する。

Three-dimensional (3D) object recognition is crucial for intelligent autonomous agents such as autonomous vehicles and robots alike to operate effectively in unstructured environments. Most state-of-art approaches rely on relatively dense point clouds and performance drops significantly for sparse point clouds. Unsupervised domain adaption allows to minimise the discrepancy between dense and sparse point clouds with minimal unlabelled sparse point clouds, thereby saving additional sparse data collection, annotation and retraining costs. In this work, we propose a novel method for point cloud based object recognition with competitive performance with state-of-art methods on dense and sparse point clouds while being trained only with dense point clouds.
翻訳日:2022-05-10 17:10:37 公開日:2022-05-07
# ブロック変調ビデオ圧縮:リソース制限型プラットフォームのための超低圧縮画像圧縮エンコーダ

Block Modulating Video Compression: An Ultra Low Complexity Image Compression Encoder for Resource Limited Platforms ( http://arxiv.org/abs/2205.03677v1 )

ライセンス: Link先を確認
Yujia Xue, Siming Zheng, Waleed Tahir, Zhengjue Wang, Hao Zhang, Ziyi Meng, Lei Tian and Xin Yuan(参考訳) リソース制限されたプラットフォーム上での画像とビデオの圧縮について検討する。 符号化複雑性${\cal o}(1)$のbmvc(block modulationing video compression)と呼ばれる超低コストの画像エンコーダは、消費電力と計算リソースの少ないモバイルプラットフォームに実装されている。 また、ディープニューラルネットワークによって実装されたBMVCデコーダを2種類開発する。 最初のbmvcデコーダはプラグ・アンド・プレイ(pnp)アルゴリズムに基づいており、異なる圧縮比に柔軟である。 そして第2のデコーダは、リアルタイムデコードを目的とした、メモリ効率のよいエンドツーエンド畳み込みニューラルネットワークである。 高精細画像とビデオの広範な結果は,提案するコーデックの性能と,ビット量子化に対するロバスト性を示している。

We consider the image and video compression on resource limited platforms. An ultra low-cost image encoder, named Block Modulating Video Compression (BMVC) with an encoding complexity ${\cal O}(1)$ is proposed to be implemented on mobile platforms with low consumption of power and computation resources. We also develop two types of BMVC decoders, implemented by deep neural networks. The first BMVC decoder is based on the Plug-and-Play (PnP) algorithm, which is flexible to different compression ratios. And the second decoder is a memory efficient end-to-end convolutional neural network, which aims for real-time decoding. Extensive results on the high definition images and videos demonstrate the superior performance of the proposed codec and the robustness against bit quantization.
翻訳日:2022-05-10 17:10:11 公開日:2022-05-07
# スマートフォンを用いた角膜トポグラフィ用角質分類器

Keratoconus Classifier for Smartphone-based Corneal Topographer ( http://arxiv.org/abs/2205.03702v1 )

ライセンス: Link先を確認
Siddhartha Gairola, Pallavi Joshi, Anand Balasubramaniam, Kaushik Murali, Nipun Kwatra and Mohit Jain(参考訳) ケラトコヌス(keratoconus)は、角膜が変形する重度の眼疾患である。 10~25歳の人々に影響を与え、このデモグラフィーにおける盲目の主な原因である。 角膜トポグラフィーは角膜診断における金の標準である。 角膜トポグラフィーと呼ばれる高価でかさばる医療機器を用いて行われる非侵襲的なプロセスである。 これにより、特に南半球では大規模な人口では利用できない。 安価なスマートフォンベースの角膜トポグラフィー(SmartKCなど)がケラトコヌスの診断に役立てるために提案されている。 医学レベルのトポグラフィーと同様に、SmartKCは角膜診断のために医師が評価する必要がある曲率のヒートマップと定量的メトリクスを出力する。 これらのヒートマップと定量的値の評価のための自動的なスキームは、医師がいない地域で角膜のスクリーニングにおいて重要な役割を果たす。 本稿では,SmartKCが生成する熱マップ上でケラトコヌスを分類するための2重頭畳み込みニューラルネットワーク(CNN)を提案する。 SmartKCは新しいデバイスであり、小さなデータセット(114のサンプル)しか持っていなかったため、私たちは、2段階のトランスファー学習戦略を開発しました。 これはドメイン固有のデータ拡張と組み合わせて、91.3%の感度と94.2%の特異性を達成した。

Keratoconus is a severe eye disease that leads to deformation of the cornea. It impacts people aged 10-25 years and is the leading cause of blindness in that demography. Corneal topography is the gold standard for keratoconus diagnosis. It is a non-invasive process performed using expensive and bulky medical devices called corneal topographers. This makes it inaccessible to large populations, especially in the Global South. Low-cost smartphone-based corneal topographers, such as SmartKC, have been proposed to make keratoconus diagnosis accessible. Similar to medical-grade topographers, SmartKC outputs curvature heatmaps and quantitative metrics that need to be evaluated by doctors for keratoconus diagnosis. An automatic scheme for evaluation of these heatmaps and quantitative values can play a crucial role in screening keratoconus in areas where doctors are not available. In this work, we propose a dual-head convolutional neural network (CNN) for classifying keratoconus on the heatmaps generated by SmartKC. Since SmartKC is a new device and only had a small dataset (114 samples), we developed a 2-stage transfer learning strategy -- using historical data collected from a medical-grade topographer and a subset of SmartKC data -- to satisfactorily train our network. This, combined with our domain-specific data augmentations, achieved a sensitivity of 91.3% and a specificity of 94.2%.
翻訳日:2022-05-10 17:09:57 公開日:2022-05-07
# Decoupled-and-Coupled Networks:サブピクセル融合による自己監督ハイパースペクトル画像超解像

Decoupled-and-Coupled Networks: Self-Supervised Hyperspectral Image Super-Resolution with Subpixel Fusion ( http://arxiv.org/abs/2205.03742v1 )

ライセンス: Link先を確認
Danfeng Hong, Jing Yao, Deyu Meng, Naoto Yokoya, Jocelyn Chanussot(参考訳) 近年,高空間分解能マルチスペクトル(ms)画像を用いた超高分解能ハイパースペクトル(hs)画像への多大な取り組みが行われている。 ほとんどの先行作品は、多彩なピクセルレベルのプリミティブを用いて融合タスクを実行する。 しかし,空間分解能とスペクトル分解能の差によるHS-MSデータの分布ギャップの増大による本質的な影響は少ない。 このギャップは、センサ固有の未知の特性や、1ピクセル(空間解像度の低いため)内でのスペクトル情報の混合によって生じる可能性がある。 そこで本研究では,dc-netと呼ばれる新しい分離結合ネットワークを考案し,画像レベルから特徴レベルまで,画素レベルからサブピクセルレベルへhs-ms情報を段階的に融合するサブピクセルレベルhsスーパーレゾリューションフレームワークを提案する。 名前が示すように、DC-Netは入力を共通の(またはクロスセンサー)コンポーネントとセンサー固有のコンポーネントに分離し、さらに融合する前にHS-MSイメージ間のギャップをなくし、モデル誘導結合スペクトルアンミックス(CSU)ネットでそれらを完全にブレンドする。 さらに,CSUネットの裏側に自己教師付き学習モジュールを付加し,素材の整合性を保証し,復元されたHS製品の詳細な外観を向上する。 広汎な実験結果から,本手法の視覚的,定量的に優位性を示し,最先端技術との比較で有意な改善が得られた。 さらに、再現性のためにコードとデータセットはhttps://sites.google.com/view/danfeng-hongで入手できる。

Enormous efforts have been recently made to super-resolve hyperspectral (HS) images with the aid of high spatial resolution multispectral (MS) images. Most prior works usually perform the fusion task by means of multifarious pixel-level priors. Yet the intrinsic effects of a large distribution gap between HS-MS data due to differences in the spatial and spectral resolution are less investigated. The gap might be caused by unknown sensor-specific properties or highly-mixed spectral information within one pixel (due to low spatial resolution). To this end, we propose a subpixel-level HS super-resolution framework by devising a novel decoupled-and-coupled network, called DC-Net, to progressively fuse HS-MS information from the pixel- to subpixel-level, from the image- to feature-level. As the name suggests, DC-Net first decouples the input into common (or cross-sensor) and sensor-specific components to eliminate the gap between HS-MS images before further fusion, and then fully blends them by a model-guided coupled spectral unmixing (CSU) net. More significantly, we append a self-supervised learning module behind the CSU net by guaranteeing the material consistency to enhance the detailed appearances of the restored HS product. Extensive experimental results show the superiority of our method both visually and quantitatively and achieve a significant improvement in comparison with the state-of-the-arts. Furthermore, the codes and datasets will be available at https://sites.google.com/view/danfeng-hong for the sake of reproducibility.
翻訳日:2022-05-10 17:09:35 公開日:2022-05-07
# 無人UAVの地形マッピングと着陸地点検出の最適化

Optimizing Terrain Mapping and Landing Site Detection for Autonomous UAVs ( http://arxiv.org/abs/2205.03522v1 )

ライセンス: Link先を確認
Pedro F. Proen\c{c}a, Jeff Delaune, Roland Brockers(参考訳) 次世代の火星ロータークラフトは、自律的な危険回避着陸を必要とする。 この目的のために, 連続マルチレゾリューション高度マップ再構成と安全な着地地点検出を行うシステムを提案する。 構造移動の測定は、包括的不確実性モデルを提供する新しいガウス方程式の最適混合を用いてピラミッド構造に集約される。 マルチレゾリューション・ピラミッドは, 異なる解像度の計測更新からピラミッド充填を分離することで, 過去の作業よりも効率的に, 正確に構築できる。 最も安全な着陸地点を検出するために,複数の距離変換ピークに対する平均シフトアルゴリズムを用いて,地形の粗さと不確実性を考慮した。 私たちの貢献の利点は、実際の飛行データと合成飛行データで評価されます。

The next generation of Mars rotorcrafts requires on-board autonomous hazard avoidance landing. To this end, this work proposes a system that performs continuous multi-resolution height map reconstruction and safe landing spot detection. Structure-from-Motion measurements are aggregated in a pyramid structure using a novel Optimal Mixture of Gaussians formulation that provides a comprehensive uncertainty model. Our multiresolution pyramid is built more efficiently and accurately than past work by decoupling pyramid filling from the measurement updates of different resolutions. To detect the safest landing location, after an optimized hazard segmentation, we use a mean shift algorithm on multiple distance transform peaks to account for terrain roughness and uncertainty. The benefits of our contributions are evaluated on real and synthetic flight data.
翻訳日:2022-05-10 16:48:05 公開日:2022-05-07
# 雨の除去から詳細な復旧まで:より高速で優れたネットワーク

From Heavy Rain Removal to Detail Restoration: A Faster and Better Network ( http://arxiv.org/abs/2205.03553v1 )

ライセンス: Link先を確認
Tao Gao, Yuanbo Wen, Jing Zhang, Kaihao Zhang and Ting Chen(参考訳) 豪雨で濃厚な雨が蓄積すると、画像は著しく洗い流され、画像の背景の詳細が破壊される。 既存の深層雨除去モデルでは, 大雨除去性能が向上するが, 多くの場合, 無雨画像の詳細な復元精度は無視されている。 本稿では,構造精度の高い降雨画像を用いた効果的なデライニングを実現するために,DPENet(Dual-stage Progress enhancement Network)を提案する。 このフレームワークには,レインストリーク除去ネットワーク (r$^2$net) とディテール再構築ネットワーク (drnet) という2つの主要モジュールが組み込まれている。 前者は正確な雨除去を目指しており、後者は無雨画像の詳細な復元を目的としている。 提案手法は, 流出防止効果と雨のない画像の細部復元とのトレードオフを実現するため, ネットワーク内で2つの戦略を導入する。 まず, 豪雨の高層/低層特性を集約するために, 雨害除去網内の拡張密度残留ブロック (DDRB) を提示する。 第2に、詳細再構成ネットワーク内の強化残像注目ブロック(ERPAB)をコンテキスト情報集約のために設計する。 また,雨のない画像の限界的・地域的精度を強調する総合的損失関数を提案する。 豪雨除去のための構造保存型無雨画像作成における提案手法の有効性と有効性を示した。 ソースコードと事前訓練されたモデルは、 \url{https://github.com/wybchd/DPENet} にある。

The dense rain accumulation in heavy rain can significantly wash out images and thus destroy the background details of images. Although existing deep rain removal models lead to improved performance for heavy rain removal, we find that most of them ignore the detail reconstruction accuracy of rain-free images. In this paper, we propose a dual-stage progressive enhancement network (DPENet) to achieve effective deraining with structure-accurate rain-free images. Two main modules are included in our framework, namely a rain streaks removal network (R$^2$Net) and a detail reconstruction network (DRNet). The former aims to achieve accurate rain removal, and the latter is designed to recover the details of rain-free images. We introduce two main strategies within our networks to achieve trade-off between the effectiveness of deraining and the detail restoration of rain-free images. Firstly, a dilated dense residual block (DDRB) within the rain streaks removal network is presented to aggregate high/low level features of heavy rain. Secondly, an enhanced residual pixel-wise attention block (ERPAB) within the detail reconstruction network is designed for context information aggregation. We also propose a comprehensive loss function to highlight the marginal and regional accuracy of rain-free images. Extensive experiments on benchmark public datasets show both efficiency and effectiveness of the proposed method in achieving structure-preserving rain-free images for heavy rain removal. The source code and pre-trained models can be found at \url{https://github.com/wybchd/DPENet}.
翻訳日:2022-05-10 16:47:52 公開日:2022-05-07
# 転送学習に基づくユーティリティ指向水中画像品質評価

Utility-Oriented Underwater Image Quality Assessment Based on Transfer Learning ( http://arxiv.org/abs/2205.03574v1 )

ライセンス: Link先を確認
Weiling Chen and Rongfu Lin and Honggang Liao and Tiesong Zhao and Ke Gu and Patrick Le Callet(参考訳) 広範にわたる画像応用は、画像品質評価(iqa)技術がますます重要な問題となっているビジョンベースのタスクを大いに推進してきた。 マルチメディアシステムにおけるユーザの楽しみのために、イメージ忠実性と美学を活用してユーザエクスペリエンスを特徴付けるが、一般的なオブジェクト認識のような他のタスクでは、ユーティリティと知覚の間には相関性が低い。 このような場合、忠実度に基づくIQA法や美学に基づくIQA法は直接適用できない。 本稿では,オブジェクト認識におけるユーティリティ指向IQAを提案する。 特に,本研究は,まだ完全に解決されていない重要な課題である水中魚類検出のシナリオを初期化したものである。 本課題に基づき, 水中画像ユーティリティデータベース(UIUD)と, 学習に基づく水中画像ユーティリティ尺度(Uium)を構築した。 忠実度に基づくIQAのトップダウン設計にインスパイアされた我々は、物体認識の深いモデルを利用して、それらの特徴をUiumに転送する。 実験により,提案した移動学習に基づくUiumが,認識タスクにおいて有望な性能を達成することを確認した。 我々は、IQAとコンピュータビジョンの研究を橋渡しするための洞察を提供する。

The widespread image applications have greatly promoted the vision-based tasks, in which the Image Quality Assessment (IQA) technique has become an increasingly significant issue. For user enjoyment in multimedia systems, the IQA exploits image fidelity and aesthetics to characterize user experience; while for other tasks such as popular object recognition, there exists a low correlation between utilities and perceptions. In such cases, the fidelity-based and aesthetics-based IQA methods cannot be directly applied. To address this issue, this paper proposes a utility-oriented IQA in object recognition. In particular, we initialize our research in the scenario of underwater fish detection, which is a critical task that has not yet been perfectly addressed. Based on this task, we build an Underwater Image Utility Database (UIUD) and a learning-based Underwater Image Utility Measure (UIUM). Inspired by the top-down design of fidelity-based IQA, we exploit the deep models of object recognition and transfer their features to our UIUM. Experiments validate that the proposed transfer-learning-based UIUM achieves promising performance in the recognition task. We envision our research provides insights to bridge the researches of IQA and computer vision.
翻訳日:2022-05-10 16:47:28 公開日:2022-05-07
# SPQE:超解像のための構造と知覚に基づく品質評価

SPQE: Structure-and-Perception-Based Quality Evaluation for Image Super-Resolution ( http://arxiv.org/abs/2205.03584v1 )

ライセンス: Link先を確認
Keke Zhang, Tiesong Zhao, Weiling Chen, Yuzhen Niu, Jinsong Hu(参考訳) 画像スーパーレゾリューション(sr)技術は、解像度を高めて画像の画質を大幅に向上させた。 また、これらのアルゴリズムや生成された画像を評価するための効率的なSR画像品質評価(SR-IQA)も求めている。 本稿では,深層学習におけるSR-IQAに着目し,構造と知覚に基づく品質評価(SPQE)を提案する。 深層学習ベースSRでは、生成した高品質で視覚的に喜ぶ画像は、対応する低品質の画像とは異なる構造を持つ可能性がある。 このような場合、無基準の知覚的品質と参照された構造的類似性との質スコアのバランスをとることは重要な問題である。 この問題を緩和するために,このトレードオフを理論的に解析し,さらに2種類の品質スコアの適応重みを算出した。 また,非参照と参照スコアをモデル化するための2つのディープラーニングベースの回帰器を提案する。 品質スコアと重みを組み合わせることで、SR-IQAのための統一SPQEメトリックを提案する。 実験の結果,提案手法は異なるデータセットにおいて最先端の手法よりも優れていることがわかった。

The image Super-Resolution (SR) technique has greatly improved the visual quality of images by enhancing their resolutions. It also calls for an efficient SR Image Quality Assessment (SR-IQA) to evaluate those algorithms or their generated images. In this paper, we focus on the SR-IQA under deep learning and propose a Structure-and-Perception-based Quality Evaluation (SPQE). In emerging deep-learning-based SR, a generated high-quality, visually pleasing image may have different structures from its corresponding low-quality image. In such case, how to balance the quality scores between no-reference perceptual quality and referenced structural similarity is a critical issue. To help ease this problem, we give a theoretical analysis on this tradeoff and further calculate adaptive weights for the two types of quality scores. We also propose two deep-learning-based regressors to model the no-reference and referenced scores. By combining the quality scores and their weights, we propose a unified SPQE metric for SR-IQA. Experimental results demonstrate that the proposed method outperforms the state-of-the-arts in different datasets.
翻訳日:2022-05-10 16:47:11 公開日:2022-05-07
# 深い特徴融合と確率推定に基づく効率的なVVC内予測

Efficient VVC Intra Prediction Based on Deep Feature Fusion and Probability Estimation ( http://arxiv.org/abs/2205.03587v1 )

ライセンス: Link先を確認
Tiesong Zhao, Yuhang Huang, Weize Feng, Yiwen Xu, Sam Kwong(参考訳) 増え続けるマルチメディアトラフィックは、効果的なマルチメディアコーデックの重要性を強調している。 その中でも、最新の失われたビデオコーディング標準であるVersatile Video Coding (VVC)は、ビデオコーディングコミュニティの注目を集めている。 しかし、vvcの利得は大幅なエンコーディングの複雑さを犠牲にして達成され、同等のレート歪み(rd)性能を持つ高速エンコーダを実現する必要がある。 本稿では,フレーム内予測におけるVVCの複雑性の最適化を,深い特徴融合と確率推定の2段階の枠組みを用いて提案する。 最初の段階では、深部畳み込みネットワークを用いて、空間的時間的隣り合う符号化特徴を抽出する。 次に、異なる畳み込みカーネルによって得られたすべての参照特徴を融合し、最適なイントラコーディング深さを決定する。 第2段階では、最適な符号化深さ内で候補分割モードを選択するために確率ベースモデルと空間-時間コヒーレンスを用いる。 最後に、不要な計算を除外しながら、これらの選択された深さと分割を実行する。 特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。

The ever-growing multimedia traffic has underscored the importance of effective multimedia codecs. Among them, the up-to-date lossy video coding standard, Versatile Video Coding (VVC), has been attracting attentions of video coding community. However, the gain of VVC is achieved at the cost of significant encoding complexity, which brings the need to realize fast encoder with comparable Rate Distortion (RD) performance. In this paper, we propose to optimize the VVC complexity at intra-frame prediction, with a two-stage framework of deep feature fusion and probability estimation. At the first stage, we employ the deep convolutional network to extract the spatialtemporal neighboring coding features. Then we fuse all reference features obtained by different convolutional kernels to determine an optimal intra coding depth. At the second stage, we employ a probability-based model and the spatial-temporal coherence to select the candidate partition modes within the optimal coding depth. Finally, these selected depths and partitions are executed whilst unnecessary computations are excluded. Experimental results on standard database demonstrate the superiority of proposed method, especially for High Definition (HD) and Ultra-HD (UHD) video sequences.
翻訳日:2022-05-10 16:46:57 公開日:2022-05-07
# GAN遅延学習によるマルチビュー映像符号化

Multi-View Video Coding with GAN Latent Learning ( http://arxiv.org/abs/2205.03599v1 )

ライセンス: Link先を確認
Chengdong Lan, Cheng Luo, Hao Yan, Tiesong Zhao, Sam Kwong(参考訳) 複数の視点の導入は、必然的にビデオシーンの保存と送信のためのビットレートを増加させる。 圧縮ビットレートを低減するため、圧縮および配信中の中間視点を省略し、最後にサイド情報(SI)を用いて再構築する研究が開発された。 一般に深度マップを用いてSIを構築するが、不正確な再構成や高ビットレートでは性能が劣る。 本稿では,GAN(Generative Adversarial Network)のSIに基づく多視点映像符号化を提案する。 エンコーダでは、時空間のエピポーラ平面画像(EPI)を構築し、さらに畳み込みネットワークを利用して、GANの潜伏符号をSIとして抽出する。 特に,コンストラクション品質とビットレートオーバーヘッドの最適トレードオフを達成するために,コンストラクションコストとsiエントロピーの共役エンコーダ制約を設定する。 実験では、最先端の手法と比較してRD性能が大幅に改善された。

The introduction of multiple viewpoints inevitably increases the bitrates to store and transmit video scenes. To reduce the compressed bitrates, researchers have developed to skip intermediate viewpoints during compression and delivery, and finally reconstruct them with Side Information (SI). Generally, the depth maps can be utilized to construct SI; however, it shows inferior performance with inaccurate reconstruction or high bitrates. In this paper, we propose a multi-view video coding based on SI of Generative Adversarial Network (GAN). At the encoder, we construct a spatio-temporal Epipolar Plane Image (EPI) and further utilize convolutional network to extract the latent code of GAN as SI; while at the decoder side, we combine the SI and adjacent viewpoints to reconstruct intermediate views by the generator of GAN. In particular, we set a joint encoder constraint of reconstruction cost and SI entropy, in order to achieve an optimal tradeoff between reconstruction quality and bitrate overhead. Experiments show a significantly improved Rate-Distortion (RD) performance compared with the state-of-the-art methods.
翻訳日:2022-05-10 16:46:37 公開日:2022-05-07
# CogIntAc:認知的視点から見た対話的プロセスにおける意図・感情・行動の関係のモデル化

CogIntAc: Modeling the Relationships between Intention, Emotion and Action in Interactive Process from Cognitive Perspective ( http://arxiv.org/abs/2205.03540v1 )

ライセンス: Link先を確認
Wei Peng, Yue Hu, Yuqiang Xie, Luxi Xing, Yajing Sun(参考訳) 意図、感情、行動は人間の活動において重要な心理的要素であり、個人間の相互作用において重要な役割を果たす。 認知レベルでの意図、感情、行動の関係を分析して個人間の相互作用プロセスをモデル化する方法は困難である。 本稿では,個人間相互作用の新たな認知枠組みを提案する。 フレームワークの中核は、個人が内的意図によって駆動される外部行動を通じて相互作用を達成することである。 この考えに基づいて、個人間の相互作用は、意図、感情、行動の間の関係を確立することによって構築できる。 さらに,個人間の相互作用の分析を行い,予測結果について合理的な説明を行う。 このフレームワークの有効性を検証するために,データセットを再構成し,行動のアブダクション,感情予測,行動生成といった3つの基本モデルを提案する。 この新しい枠組みは、認知科学における人間の精神状態を模倣する興味深い視点を示している。

Intention, emotion and action are important psychological factors in human activities, which play an important role in the interaction between individuals. How to model the interaction process between individuals by analyzing the relationship of their intentions, emotions, and actions at the cognitive level is challenging. In this paper, we propose a novel cognitive framework of individual interaction. The core of the framework is that individuals achieve interaction through external action driven by their inner intention. Based on this idea, the interactions between individuals can be constructed by establishing relationships between the intention, emotion and action. Furthermore, we conduct analysis on the interaction between individuals and give a reasonable explanation for the predicting results. To verify the effectiveness of the framework, we reconstruct a dataset and propose three tasks as well as the corresponding baseline models, including action abduction, emotion prediction and action generation. The novel framework shows an interesting perspective on mimicking the mental state of human beings in cognitive science.
翻訳日:2022-05-10 16:20:25 公開日:2022-05-07
# 疎結合構造アライメントによる時系列領域適応:学習不変性と分散

Time-Series Domain Adaptation via Sparse Associative Structure Alignment: Learning Invariance and Variance ( http://arxiv.org/abs/2205.03554v1 )

ライセンス: Link先を確認
Zijian Li, Ruichu Cai, Jiawei Chen, Yuguan Yan, Wei Chen, Keli Zhang, Junjian Ye(参考訳) 時系列データに対するドメイン適応は、業界でしばしば発生するが、アカデミックでは限定的に注目されている。 時系列データに対する既存のドメイン適応手法のほとんどは、非時系列データに対する既存の方法のアイデアを借用し、ドメイン不変表現を抽出する。 しかし、時系列データに対する2つの特殊な困難は解決されていない。 1)異なるタイムスタンプ間のドメイン不変および複素依存をモデル化するのは自明な作業ではない。 2) ドメイン可変情報は重要であるが,その活用方法はほとんど未公開である。 幸いなことに、異なるドメイン間の因果構造の安定性は、時系列データの背後にある構造を探求するきっかけとなる。 この着想に基づいて, 領域不変な非重み付きスパース結合構造と, 構造の領域不変強度について検討した。 そこで本研究では,不変な非重み付きスペア連想構造を同時に調整し,時系列非教師付き領域適応の変種情報を検討するモデルであるsasa-ivを学習し,疎結合構造アライメントを提案する。 技術的には、一方向のアライメント制限を持つドメイン不変なスパース結合構造を抽出し、よく設計された自己回帰モジュールを介してドメイン不変強度を埋め込む。 実験結果から,本モデルが実世界の3つのデータセット上での最先端性能を示すだけでなく,知識伝達に関する洞察に富む発見も得られた。

Domain adaptation on time-series data is often encountered in the industry but received limited attention in academia. Most of the existing domain adaptation methods for time-series data borrow the ideas from the existing methods for non-time series data to extract the domain-invariant representation. However, two peculiar difficulties to time-series data have not been solved. 1) It is not a trivial task to model the domain-invariant and complex dependence among different timestamps. 2) The domain-variant information is important but how to leverage them is almost underexploited. Fortunately, the stableness of causal structures among different domains inspires us to explore the structures behind the time-series data. Based on this inspiration, we investigate the domain-invariant unweighted sparse associative structures and the domain-variant strengths of the structures. To achieve this, we propose Sparse Associative structure alignment by learning Invariance and Variance (SASA-IV in short), a model that simultaneously aligns the invariant unweighted spare associative structures and considers the variant information for time-series unsupervised domain adaptation. Technologically, we extract the domain-invariant unweighted sparse associative structures with a unidirectional alignment restriction and embed the domain-variant strengths via a well-designed autoregressive module. Experimental results not only testify that our model yields state-of-the-art performance on three real-world datasets but also provide some insightful discoveries on knowledge transfer.
翻訳日:2022-05-10 16:19:22 公開日:2022-05-07
# GridWarm: 電力グリッドの物理インフォームドML設計と評価に向けて

GridWarm: Towards Practical Physics-Informed ML Design and Evaluation for Power Grid ( http://arxiv.org/abs/2205.03673v1 )

ライセンス: Link先を確認
Shimiao Li, Amritanshu Pandey, Larry Pileggi(参考訳) 電力グリッドのような現実世界の安全クリティカルシステムに適用すると、一般的な機械学習手法は高価なトレーニング、非物理的解決策、限定的な解釈に苦しむ。 これらの課題に対処するために、最近の多くの研究は、主にシステムの制約と技術的限界、探索空間の削減、潜在空間の作成を通じて、グリッド物理学(すなわちドメインの専門知識)をその手法設計に含めることを検討した。 しかし、パワーグリッドタスクにおけるこれらのアプローチの実用性を評価する一般的なフレームワークはなく、スケーラビリティ、一般化、解釈性などに関する制限が存在する。 本研究は,「mlモデルがどのように物理的に意味のある方法で予測を行うのか」を評価する物理解釈可能性の新しい概念を定式化し,実用的手法が満たすべき次元の集合を識別するピラミッド評価フレームワークを導入する。 このフレームワークに触発されて、条件付きガウスランダムフィールドに基づいて、MadIoTサイバーアタックのための新しい緊急解析ウォームスタータであるGridWarmを開発した。 この方法は、さまざまなドメイン知識を組み込んだMLモデルのインスタンスとして機能し、フレームワークが特定したさまざまな次元を改善する。 実験により、GridWarmは、浅いNNアーキテクチャであっても、MadIoT攻撃の並行解析の効率を大幅に向上することが示された。

When applied to a real-world safety critical system like the power grid, general machine learning methods suffer from expensive training, non-physical solutions, and limited interpretability. To address these challenges, many recent works have explored the inclusion of grid physics (i.e., domain expertise) into their method design, primarily through inclusion of system constraints and technical limits, reducing search space and crafting latent space. Yet, there is no general framework to evaluate the practicality of these approaches in power grid tasks, and limitations exist regarding scalability, generalization, interpretability, etc. This work formalizes a new concept of physical interpretability which assesses 'how does a ML model make predictions in a physically meaningful way?' and introduces a pyramid evaluation framework that identifies a set of dimensions that a practical method should satisfy. Inspired by the framework, the paper further develops GridWarm, a novel contingency analysis warm starter for MadIoT cyberattack, based on a conditional Gaussian random field. This method serves as an instance of an ML model that can incorporate diverse domain knowledge and improve on different dimensions that the framework has identified. Experiments validate that GridWarm significantly boosts the efficiency of contingency analysis for MadIoT attack even with shallow NN architectures.
翻訳日:2022-05-10 16:18:54 公開日:2022-05-07
# プロンプトによる匂い記述者理解

Odor Descriptor Understanding through Prompting ( http://arxiv.org/abs/2205.03719v1 )

ライセンス: Link先を確認
Laura Sisson(参考訳) 現代自然言語処理(NLP)モデルの埋め込みは、単語や文の数値表現として一般的に用いられる。 しかし、"leather"や"fruity"のような匂い記述詞の単語は、一般的な場所の使用法と嗅覚の使用法の間に大きく違いがあり、その結果、これらの埋め込みを生成する伝統的な方法では十分ではない。 そこで本研究では,本研究では,嗅覚的意味とより密に一致した匂い単語の埋め込みを生成する2つの手法を提案する。 これらの生成した埋め込みは、既存のゼロショット特有のNLPベンチマークにおいて、従来の最先端および同時代の微調整/プロンプト法よりも優れている。

Embeddings from contemporary natural language processing (NLP) models are commonly used as numerical representations for words or sentences. However, odor descriptor words, like "leather" or "fruity", vary significantly between their commonplace usage and their olfactory usage, as a result traditional methods for generating these embeddings do not suffice. In this paper, we present two methods to generate embeddings for odor words that are more closely aligned with their olfactory meanings when compared to off-the-shelf embeddings. These generated embeddings outperform the previous state-of-the-art and contemporary fine-tuning/prompting methods on a pre-existing zero-shot odor-specific NLP benchmark.
翻訳日:2022-05-10 16:17:52 公開日:2022-05-07
# BiCo-Net: グローバルに回帰し、ロバストな6D Pose推定に局所的に一致

BiCo-Net: Regress Globally, Match Locally for Robust 6D Pose Estimation ( http://arxiv.org/abs/2205.03536v1 )

ライセンス: Link先を確認
Zelin Xu, Yichen Zhang, Ke Chen, Kui Jia(参考訳) 頑健な6次元ポーズ関数の学習の課題 1)重度の閉塞と 2)奥行き画像における系統的ノイズ ポイントペア機能の成功に触発されて,rgb-d画像から区切られたオブジェクトインスタンスの6dポーズを,モデルとカメラ空間の間の向き付けのペアを局所的に一致させることで回復する。 そこで本研究では,2方向対応マッピングネットワーク (BiCo-Net) を提案する。このネットワークは,まず典型的なポーズ回帰によって誘導される点雲を生成し,ポーズに敏感な情報を組み込んで局所座標とその正規ベクトルの生成を最適化する。 幾何計算によるポーズ予測は1対の局所配向点のみに依存しているため、我々のBiCo-Netはスパースおよび隠蔽点雲に対して堅牢性を達成することができる。 局所マッチングと直接ポーズ回帰からの冗長なポーズ予測のアンサンブルは、ノイズ観測に対する最終的なポーズ出力をさらに洗練する。 一般的な3つのベンチマークデータセットの実験結果から,本手法が最先端の性能,特に難易度の高いシーンにおいて達成可能であることを確認することができる。 ソースコードはhttps://github.com/Gorilla-Lab-SCUT/BiCo-Netで入手できる。

The challenges of learning a robust 6D pose function lie in 1) severe occlusion and 2) systematic noises in depth images. Inspired by the success of point-pair features, the goal of this paper is to recover the 6D pose of an object instance segmented from RGB-D images by locally matching pairs of oriented points between the model and camera space. To this end, we propose a novel Bi-directional Correspondence Mapping Network (BiCo-Net) to first generate point clouds guided by a typical pose regression, which can thus incorporate pose-sensitive information to optimize generation of local coordinates and their normal vectors. As pose predictions via geometric computation only rely on one single pair of local oriented points, our BiCo-Net can achieve robustness against sparse and occluded point clouds. An ensemble of redundant pose predictions from locally matching and direct pose regression further refines final pose output against noisy observations. Experimental results on three popularly benchmarking datasets can verify that our method can achieve state-of-the-art performance, especially for the more challenging severe occluded scenes. Source codes are available at https://github.com/Gorilla-Lab-SCUT/BiCo-Net.
翻訳日:2022-05-10 15:55:42 公開日:2022-05-07
# 高効率に統一された中国版ナンバープレートの検出と認識

Unified Chinese License Plate Detection and Recognition with High Efficiency ( http://arxiv.org/abs/2205.03582v1 )

ライセンス: Link先を確認
Yanxiang Gong, Linjie Deng, Shuai Tao, Xinchen Lu, Peicheng Wu, Zhiwei Xie, Zheng Ma, Mei Xie(参考訳) 近年、深層学習に基づく手法は、ライセンスプレート(LP)検出および認識タスクにおいて優れた性能に達している。 しかし、大規模な代表的データセットが十分ではないため、中国LPの堅牢なモデルを構築することは依然として困難である。 本研究では,既存ベンチマークの補足として,多目的の中国LP画像を含む中国道路プレートデータセット (CRPD) という新しいデータセットを提案する。 画像は主に詳細な注釈付き電子監視システムで撮影される。 我々の知る限り、CRPDは頂点のアノテーションを付加した中国最大の多目的LPデータセットである。 CRPDでは、高効率の統一検出認識ネットワークがベースラインとして提示される。 ネットワークは完全にリアルタイムの推論効率(640pの30 fps)で、エンドツーエンドでトレーニングできる。 いくつかの公開ベンチマーク実験により,本手法が競争性能に到達したことを示す。 コードとデータセットはhttps://github.com/yxgong0/CRPDで公開されている。

Recently, deep learning-based methods have reached an excellent performance on License Plate (LP) detection and recognition tasks. However, it is still challenging to build a robust model for Chinese LPs since there are not enough large and representative datasets. In this work, we propose a new dataset named Chinese Road Plate Dataset (CRPD) that contains multi-objective Chinese LP images as a supplement to the existing public benchmarks. The images are mainly captured with electronic monitoring systems with detailed annotations. To our knowledge, CRPD is the largest public multi-objective Chinese LP dataset with annotations of vertices. With CRPD, a unified detection and recognition network with high efficiency is presented as the baseline. The network is end-to-end trainable with totally real-time inference efficiency (30 fps with 640p). The experiments on several public benchmarks demonstrate that our method has reached competitive performance. The code and dataset will be publicly available at https://github.com/yxgong0/CRPD.
翻訳日:2022-05-10 15:55:21 公開日:2022-05-07
# 適応型文脈学習とキーフィルタ選択を用いたUAV物体追跡のためのスパース正規化相関フィルタ

Sparse Regularized Correlation Filter for UAV Object Tracking with adaptive Contextual Learning and Keyfilter Selection ( http://arxiv.org/abs/2205.03627v1 )

ライセンス: Link先を確認
Zhangjian Ji, Kai Feng, Yuhua Qian, and Jiye Liang(参考訳) 近年,高フレームレート,ロバスト性,低計算資源のため,無人航空機(UAV)の追尾に相関フィルタが広く応用されている。 しかし、2つの固有の欠陥、すなわち境界効果とフィルタの破損のために脆弱である。 探索領域を大きくすることで境界効果を緩和できる方法もあるが、望ましくない背景散乱器を導入する。 別のアプローチでは、連続するフレーム間のプロファイラがコヒーレントであるべきだという仮定に依存する時間的正則化を導入することで、学習したフィルタの時間的デジェネレーションを緩和することができる。 実際、(t-1$)thフレームのファイルは背景からの重いオクルージョンに弱いため、仮定が守られていない場合もあります。 そこで本研究では,UAV追跡のための適応型文脈学習とキーフィルタ選択機能を備えた新しい$\ell_{1}$正規化相関フィルタを提案する。 まず,先行する相関フィルタモデルを用いて生成された電流フレームの応答マップ上での局所的最大値分布を補助して,効果的なコンテクスト・アロケータの位置を適応的に検出する。 次に,追跡対象に対する一貫性のないラベルを除去し,各邪魔者に対する新たなスコアスキームを開発する。 そして、フィルタプール内の各フィルタに対応する現在のフレームのターゲットとターゲットテンプレートとの最大類似性を見つけることにより、フィルタプールからキーフィルタを選択することができる。 最後に,3つのUAVデータセットの定量的および定性的な実験により,相関フィルタフレームワークに基づく最先端追跡手法よりも提案手法が優れていることを示す。

Recently, correlation filter has been widely applied in unmanned aerial vehicle (UAV) tracking due to its high frame rates, robustness and low calculation resources. However, it is fragile because of two inherent defects, i.e, boundary effect and filter corruption. Some methods by enlarging the search area can mitigate the boundary effect, yet introducing the undesired background distractors. Another approaches can alleviate the temporal degeneration of learned filters by introducing the temporal regularizer, which depends on the assumption that the filers between consecutive frames should be coherent. In fact, sometimes the filers at the ($t-1$)th frame is vulnerable to heavy occlusion from backgrounds, which causes that the assumption does not hold. To handle them, in this work, we propose a novel $\ell_{1}$ regularization correlation filter with adaptive contextual learning and keyfilter selection for UAV tracking. Firstly, we adaptively detect the positions of effective contextual distractors by the aid of the distribution of local maximum values on the response map of current frame which is generated by using the previous correlation filter model. Next, we eliminate inconsistent labels for the tracked target by removing one on each distractor and develop a new score scheme for each distractor. Then, we can select the keyfilter from the filters pool by finding the maximal similarity between the target at the current frame and the target template corresponding to each filter in the filters pool. Finally, quantitative and qualitative experiments on three authoritative UAV datasets show that the proposed method is superior to the state-of-the-art tracking methods based on correlation filter framework.
翻訳日:2022-05-10 15:55:09 公開日:2022-05-07
# 階級不均衡型ベーリースーパービジョン膝節切片のキャリブレーションラベル分布

Calibrating Label Distribution for Class-Imbalanced Barely-Supervised Knee Segmentation ( http://arxiv.org/abs/2205.03644v1 )

ライセンス: Link先を確認
Yiqun Lin, Huifeng Yao, Zezhong Li, Guoyan Zheng, Xiaomeng Li(参考訳) 3次元膝関節mr画像の分割は変形性関節症の診断に重要である。 他の医療データと同様に、膝関節MRI画像のボリュームワイド表示は専門知識が要求され、時間を要するため、半教師付き学習(SSL)、特にほとんど教師なし学習は、ラベル付きデータの不十分なトレーニングに非常に望ましい。 膝関節MRI像では, 軟骨が前景体積の6%しか占めていないため, クラス不均衡の問題は深刻であり, 十分なラベル付きデータがないと状況は悪化する。 以上の問題に対処するため,ノイズとバランスの取れないラベルを伴い,膝のセグメンテーションをほとんど制御できない新しい枠組みを提案する。 われわれのフレームワークはラベル分布を利用して、ネットワークが軟骨部分の学習にもっと努力するよう促している。 具体的には 1)客観損失関数をクラス認識重み付け形式に変更するためのラベル量分布と 2 ラベル付き及びラベル付き入力の両方から軟骨領域のサブボリュームを生産するクロッピング確率マスクを構築するためのラベル位置分布。 さらに,2つの不確実性を考慮したサンプリング監視を設計し,非教師なしの効率的な学習のための低信頼カテゴリの監視を強化する。 実験の結果,提案フレームワークはラベルのないデータを組み込んで,クラス不均衡の問題を軽減することにより,大幅な改善をもたらすことがわかった。 さらに重要なことに、我々のメソッドは最先端のSSLメソッドよりも優れており、より難しいSSL設定のためのフレームワークの可能性を示しています。

Segmentation of 3D knee MR images is important for the assessment of osteoarthritis. Like other medical data, the volume-wise labeling of knee MR images is expertise-demanded and time-consuming; hence semi-supervised learning (SSL), particularly barely-supervised learning, is highly desirable for training with insufficient labeled data. We observed that the class imbalance problem is severe in the knee MR images as the cartilages only occupy 6% of foreground volumes, and the situation becomes worse without sufficient labeled data. To address the above problem, we present a novel framework for barely-supervised knee segmentation with noisy and imbalanced labels. Our framework leverages label distribution to encourage the network to put more effort into learning cartilage parts. Specifically, we utilize 1.) label quantity distribution for modifying the objective loss function to a class-aware weighted form and 2.) label position distribution for constructing a cropping probability mask to crop more sub-volumes in cartilage areas from both labeled and unlabeled inputs. In addition, we design dual uncertainty-aware sampling supervision to enhance the supervision of low-confident categories for efficient unsupervised learning. Experiments show that our proposed framework brings significant improvements by incorporating the unlabeled data and alleviating the problem of class imbalance. More importantly, our method outperforms the state-of-the-art SSL methods, demonstrating the potential of our framework for the more challenging SSL setting.
翻訳日:2022-05-10 15:54:42 公開日:2022-05-07
# 多情報融合深部セマンティックセグメンテーションネットワークを用いた自動速度決定

Automatic Velocity Picking Using a Multi-Information Fusion Deep Semantic Segmentation Network ( http://arxiv.org/abs/2205.03645v1 )

ライセンス: Link先を確認
H.T.Wang, J.S.Zhang, Z.X.Zhao, C.X.Zhang, L.Li, Z.Y.Yang, W.F.Geng(参考訳) 地震データ処理における重要なステップである速度選択は、数十年にわたって研究されてきた。 手動ピッキングはプレスタックの速度スペクトルから正確なノーマル・ムーブアウト(nmo)速度を生成することができるが、大量の地震データが発生すると時間のかかるため実現不可能である。 多数の自動速度抽出法が開発されている。 近年,中・高信号-雑音比 (SNR) の地震データに対して, 深層学習 (DL) 法により良好な結果が得られた。 残念なことに、SNRの低い状況下で正確な速度を自動的に生成するピッキング方法がまだ欠けている。 本稿では,速度スペクトルとスタック集合セグメント(sgs)の融合情報からスタック速度を推定するマルチ情報融合ネットワーク(mifn)を提案する。 特に,速度抽出問題を速度スペクトル画像に基づく意味的セグメンテーション問題に変換する。 一方、SGSが提供する情報は、ネットワークの先行情報として、セグメンテーションを支援するために使用される。 2つのフィールドデータセットによる実験結果から,MIFNの抽出結果は中・高SNRシナリオに対して安定かつ正確であり,低SNRシナリオにおいても良好に動作することが示された。

Velocity picking, a critical step in seismic data processing, has been studied for decades. Although manual picking can produce accurate normal moveout (NMO) velocities from the velocity spectra of prestack gathers, it is time-consuming and becomes infeasible with the emergence of large amount of seismic data. Numerous automatic velocity picking methods have thus been developed. In recent years, deep learning (DL) methods have produced good results on the seismic data with medium and high signal-to-noise ratios (SNR). Unfortunately, it still lacks a picking method to automatically generate accurate velocities in the situations of low SNR. In this paper, we propose a multi-information fusion network (MIFN) to estimate stacking velocity from the fusion information of velocity spectra and stack gather segments (SGS). In particular, we transform the velocity picking problem into a semantic segmentation problem based on the velocity spectrum images. Meanwhile, the information provided by SGS is used as a prior in the network to assist segmentation. The experimental results on two field datasets show that the picking results of MIFN are stable and accurate for the scenarios with medium and high SNR, and it also performs well in low SNR scenarios.
翻訳日:2022-05-10 15:54:17 公開日:2022-05-07
# セマンティックセグメンテーションのためのクラス間距離の蒸留

Distilling Inter-Class Distance for Semantic Segmentation ( http://arxiv.org/abs/2205.03650v1 )

ライセンス: Link先を確認
Zhengbo Zhang, Chunluan Zhou, Zhigang Tu(参考訳) セマンティクスセグメンテーションでは,従来のセマンティクスセグメンテーションにおけるナレッジ蒸留法が広く採用されており,セマンティクスセグメンテーションにおいて重要なクラス間距離の知識の伝達を怠りながら,画素単位の特徴アライメントとクラス内特徴変動蒸留に焦点をあてている。 そこで本研究では,教師ネットワークから学生ネットワークへ,特徴空間内のクラス間距離を転送するクラス間距離蒸留法を提案する。 さらに, 意味セグメンテーションは位置依存課題であり, 学生ネットワークがより多くの位置情報をエンコードするのを助けるために, 位置情報蒸留モジュールを利用する。 Cityscapes, Pascal VOC, ADE20Kの3つの一般的なデータセットに対する大規模な実験により, 本手法はセマンティックセグメンテーションモデルの精度の向上に有効であり, 最先端の性能を実現する。 例えば、Cityscapesデータセット上でベンチマークモデル("PSPNet+ResNet18")の精度を7.50%向上させる。

Knowledge distillation is widely adopted in semantic segmentation to reduce the computation cost.The previous knowledge distillation methods for semantic segmentation focus on pixel-wise feature alignment and intra-class feature variation distillation, neglecting to transfer the knowledge of the inter-class distance in the feature space, which is important for semantic segmentation. To address this issue, we propose an Inter-class Distance Distillation (IDD) method to transfer the inter-class distance in the feature space from the teacher network to the student network. Furthermore, semantic segmentation is a position-dependent task,thus we exploit a position information distillation module to help the student network encode more position information. Extensive experiments on three popular datasets: Cityscapes, Pascal VOC and ADE20K show that our method is helpful to improve the accuracy of semantic segmentation models and achieves the state-of-the-art performance. E.g. it boosts the benchmark model("PSPNet+ResNet18") by 7.50% in accuracy on the Cityscapes dataset.
翻訳日:2022-05-10 15:53:57 公開日:2022-05-07
# 資源制約デバイスのための二元化畳み込みニューラルネットワークを用いた不整脈分類器

Arrhythmia Classifier using Binarized Convolutional Neural Network for Resource-Constrained Devices ( http://arxiv.org/abs/2205.03661v1 )

ライセンス: Link先を確認
Ao Wang, Wenxing Xu, Hanshi Sun, Ninghao Pu, Zijin Liu, Hao Liu(参考訳) 不整脈の診断には心電図信号のモニタリングが重要である。 近年では、深層学習と畳み込みニューラルネットワークが心臓不整脈の分類に広く用いられている。 しかし、ECG信号検出に適用される既存のニューラルネットワークは通常、リソース制約された機器にフレンドリではない多くのコンピューティングリソースを必要とするため、リアルタイム監視を実現することは困難である。 本稿では,ECGモニタリングに適した二項化畳み込みニューラルネットワークを提案する。 MIT-BIHの不整脈データベースをターゲットとして、このネットワークに基づく分類器は5クラステストで95.67%の精度に達した。 96.45%の精度で提案されたベースライン完全精度ネットワークと比較すると、0.78%低い。 重要なのは、計算スピードアップの12.65倍、ストレージ圧縮の24.8倍、メモリオーバーヘッドの4分の1だけである。

Monitoring electrocardiogram signals is of great significance for the diagnosis of arrhythmias. In recent years, deep learning and convolutional neural networks have been widely used in the classification of cardiac arrhythmias. However, the existing neural network applied to ECG signal detection usually requires a lot of computing resources, which is not friendlyF to resource-constrained equipment, and it is difficult to realize real-time monitoring. In this paper, a binarized convolutional neural network suitable for ECG monitoring is proposed, which is hardware-friendly and more suitable for use in resource-constrained wearable devices. Targeting the MIT-BIH arrhythmia database, the classifier based on this network reached an accuracy of 95.67% in the five-class test. Compared with the proposed baseline full-precision network with an accuracy of 96.45%, it is only 0.78% lower. Importantly, it achieves 12.65 times the computing speedup, 24.8 times the storage compression ratio, and only requires a quarter of the memory overhead.
翻訳日:2022-05-10 15:53:13 公開日:2022-05-07
# GenISP: 低照度マシン認知のためのニューラルISP

GenISP: Neural ISP for Low-Light Machine Cognition ( http://arxiv.org/abs/2205.03688v1 )

ライセンス: Link先を確認
Igor Morawski and Yu-An Chen and Yu-Sheng Lin and Shusil Dangi and Kai He and Winston H. Hsu(参考訳) 低照度条件下での物体検出は、多くの実践的な意味を持つ難しいが重要な問題である。 近年の研究では、低照度環境では、生画像データを用いた物体検出器は、従来のISPパイプラインで処理された画像データを用いた検出器よりも堅牢であることが示されている。 低照度条件における検出性能を改善するために、原画像データを使用するために検出器を微調整したり、ペアの低照度データと通常照度データで訓練された専用低照度ニューラルネットワークを使用して画像の復元および強化を行うことができる。 しかし、異なるカメラセンサは、センサー固有の色空間における生画像処理データを用いて、スペクトル感度と学習ベースモデルが異なる。 したがって、一度訓練すると、他のカメラセンサーへの一般化は保証されない。 本稿では,機械認識のための最小のニューラルネットワークispパイプラインであるgenispを実装し,デバイスに依存しない色空間に色空間変換を明示的に組み込むことにより,カメラセンサの一般化を改善することを提案する。 また,画像からパラメータへの2つのモジュールによって実装された2段階のカラー処理について提案する。 さらに,提案するGenISPを事前学習対象検出器の指導の下で訓練し,画像の知覚品質に関する仮定を回避し,むしろ画像表現を機械認識に最適化することを提案する。 推論段階では、GenISPは任意のオブジェクト検出器とペアリングできる。 我々は,本手法と他の低照度画像復元・拡張手法との比較実験を行い,GenISPが未知のセンサや物体検出器に一般化できることを検証する。 最後に,46K境界ボックスを付加した7K原画像の低照度データセットを,将来の低照度画像復元と物体検出のタスクベースベンチマークに貢献する。

Object detection in low-light conditions remains a challenging but important problem with many practical implications. Some recent works show that, in low-light conditions, object detectors using raw image data are more robust than detectors using image data processed by a traditional ISP pipeline. To improve detection performance in low-light conditions, one can fine-tune the detector to use raw image data or use a dedicated low-light neural pipeline trained with paired low- and normal-light data to restore and enhance the image. However, different camera sensors have different spectral sensitivity and learning-based models using raw images process data in the sensor-specific color space. Thus, once trained, they do not guarantee generalization to other camera sensors. We propose to improve generalization to unseen camera sensors by implementing a minimal neural ISP pipeline for machine cognition, named GenISP, that explicitly incorporates Color Space Transformation to a device-independent color space. We also propose a two-stage color processing implemented by two image-to-parameter modules that take down-sized image as input and regress global color correction parameters. Moreover, we propose to train our proposed GenISP under the guidance of a pre-trained object detector and avoid making assumptions about perceptual quality of the image, but rather optimize the image representation for machine cognition. At the inference stage, GenISP can be paired with any object detector. We perform extensive experiments to compare our method to other low-light image restoration and enhancement methods in an extrinsic task-based evaluation and validate that GenISP can generalize to unseen sensors and object detectors. Finally, we contribute a low-light dataset of 7K raw images annotated with 46K bounding boxes for task-based benchmarking of future low-light image restoration and object detection.
翻訳日:2022-05-10 15:51:31 公開日:2022-05-07
# クラスセグメンテーションアプリケーションのための合成ポイントクラウド生成

Synthetic Point Cloud Generation for Class Segmentation Applications ( http://arxiv.org/abs/2205.03738v1 )

ライセンス: Link先を確認
Maria Gonzalez Stefanelli, Avi Rajesh Jain, Sandeep Kamal Jalui and Dr. Eva Agapaki(参考訳) 産業施設の維持は、インフラの劣化を特定するのに必要な煩雑なプロセスのため、危険が増している。 デジタル双子は、インフラストラクチャの継続的なデジタル表現を監視することによって、メンテナンスを改善する可能性を秘めている。 しかし、既存の幾何学をマッピングするのに必要な時間は、それらの使用を禁止する。 従来,デジタルツインニングを自動化するクラスセグメンテーションアルゴリズムを開発したが,大量の注釈付点雲が必要であった。 現在、自動セグメンテーションのための合成データ生成は存在しない。 helios++を使って3dモデルからクラウドを自動的に分割しました。 我々の研究は、効率的な工業階級区分の土台を埋める可能性がある。

Maintenance of industrial facilities is a growing hazard due to the cumbersome process needed to identify infrastructure degradation. Digital Twins have the potential to improve maintenance by monitoring the continuous digital representation of infrastructure. However, the time needed to map the existing geometry makes their use prohibitive. We previously developed class segmentation algorithms to automate digital twinning, however a vast amount of annotated point clouds is needed. Currently, synthetic data generation for automated segmentation is non-existent. We used Helios++ to automatically segment point clouds from 3D models. Our research has the potential to pave the ground for efficient industrial class segmentation.
翻訳日:2022-05-10 15:51:03 公開日:2022-05-07
# MAEセルフスーパービジョンとポイントライン弱監督パラダイムに基づくメニスカスの自動セグメンテーション

Automatic segmentation of meniscus based on MAE self-supervision and point-line weak supervision paradigm ( http://arxiv.org/abs/2205.03525v1 )

ライセンス: Link先を確認
Yuhan Xie, Kexin Jiang, Zhiyong Zhang, Shaolong Chen, Xiaodong Zhang and Changzhen Qiu(参考訳) 深層学習に基づく医用画像のセグメンテーションは、不十分なデータセットと長時間のラベリングの問題に直面することが多い。 本稿では,膝関節画像に自己教師あり方式mae(masked autoencoders)を導入することで,セグメンテーションモデルに十分な初期重みを与え,モデルの小さなデータセットへの適応性を向上させる。 第2に,ロベリング時間を削減するために,点と線の組み合わせに基づくメニスカスセグメンテーションの弱教師付きパラダイムを提案する。 弱ラベルに基づいて,擬似ラベルを生成する領域拡大アルゴリズムを設計する。 最後に,自己スーパービジョンからの重み移動を伴う擬似ラベルに基づくセグメンテーションネットワークを訓練する。 十分な実験結果から,提案手法は自己スーパービジョンと弱い監督を組み合わせることで,ラベル付け時間とデータセットサイズを大幅に削減しながら,純粋に完全に教師付きモデルの性能にほぼ近づくことができることが示された。

Medical image segmentation based on deep learning is often faced with the problems of insufficient datasets and long time-consuming labeling. In this paper, we introduce the self-supervised method MAE(Masked Autoencoders) into knee joint images to provide a good initial weight for the segmentation model and improve the adaptability of the model to small datasets. Secondly, we propose a weakly supervised paradigm for meniscus segmentation based on the combination of point and line to reduce the time of labeling. Based on the weak label ,we design a region growing algorithm to generate pseudo-label. Finally we train the segmentation network based on pseudo-labels with weight transfer from self-supervision. Sufficient experimental results show that our proposed method combining self-supervision and weak supervision can almost approach the performance of purely fully supervised models while greatly reducing the required labeling time and dataset size.
翻訳日:2022-05-10 15:24:28 公開日:2022-05-07
# unimorph 4.0:ユニバーサルモルフォロジー

UniMorph 4.0: Universal Morphology ( http://arxiv.org/abs/2205.03608v1 )

ライセンス: Link先を確認
Khuyagbaatar Batsuren, Omer Goldman, Salam Khalifa, Nizar Habash, Witold Kiera\'s, G\'abor Bella, Brian Leonard, Garrett Nicolai, Kyle Gorman, Yustinus Ghanggo Ate, Maria Ryskina, Sabrina J. Mielke, Elena Budianskaya, Charbel El-Khaissi, Tiago Pimentel, Michael Gasser, William Lane, Mohit Raj, Matt Coler, Jaime Rafael Montoya Samame, Delio Siticonatzi Camaiteri, Esa\'u Zumaeta Rojas, Didier L\'opez Francis, Arturo Oncevay, Juan L\'opez Bautista, Gema Celeste Silva Villegas, Lucas Torroba Hennigen, Adam Ek, David Guriel, Peter Dirix, Jean-Philippe Bernardy, Andrey Scherbakov, Aziyana Bayyr-ool, Antonios Anastasopoulos, Roberto Zariquiey, Karina Sheifer, Sofya Ganieva, Hilaria Cruz, Ritv\'an Karah\'o\v{g}a, Stella Markantonatou, George Pavlidis, Matvey Plugaryov, Elena Klyachko, Ali Salehi, Candy Angulo, Jatayu Baxi, Andrew Krizhanovsky, Natalia Krizhanovskaya, Elizabeth Salesky, Clara Vania, Sardana Ivanova, Jennifer White, Rowan Hall Maudslay, Josef Valvoda, Ran Zmigrod, Paula Czarnowska, Irene Nikkarinen, Aelita Salchak, Brijesh Bhatt, Christopher Straughn, Zoey Liu, Jonathan North Washington, Yuval Pinter, Duygu Ataman, Marcin Wolinski, Totok Suhardijanto, Anna Yablonskaya, Niklas Stoehr, Hossep Dolatian, Zahroh Nuriah, Shyam Ratan, Francis M. Tyers, Edoardo M. Ponti, Grant Aiton, Aryaman Arora, Richard J. Hatcher, Ritesh Kumar, Jeremiah Young, Daria Rodionova, Anastasia Yemelina, Taras Andrushko, Igor Marchenko, Polina Mashkovtseva, Alexandra Serova, Emily Prud'hommeaux, Maria Nepomniashchaya, Fausto Giunchiglia, Eleanor Chodroff, Mans Hulden, Miikka Silfverberg, Arya D. McCarthy, David Yarowsky, Ryan Cotterell, Reut Tsarfaty, Ekaterina Vylomova(参考訳) ユニモルフィック・モルフォロジー(unimorph)プロジェクトは、数百の多種多様な世界言語に広範に一般化された正規化形態素変換テーブルを提供する協力的な取り組みである。 リッチな形態素アノテーションのための言語に依存しない機能スキーマと、そのスキーマを実現する多様な言語におけるアノテーション付きデータのタイプレベルのリソースである。 本稿では,過去2年間のいくつかの分野(mccarthy et al. (2020)以降)における拡張と改善について述べる。 多くの言語学者による協力活動により、30の絶滅危惧言語を含む67の新しい言語が追加された。 性別やマクロンなどの問題に対処するために,抽出パイプラインにいくつかの改良を加えてきた。 また、スキーマをより包括的にするために、いくつかの欠落した形態的特徴を加えながら、多重議論やケース積み重ねのような形態的現象に必要となる階層構造を使用するようにスキーマを修正した。 前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。 最後に、この新リリースは、データとアノテーションスキーマをMorphyNetから派生プロセスを表すインスタンスで強化することにより、UniMorphに派生形態を取り入れることを推進する。

The Universal Morphology (UniMorph) project is a collaborative effort providing broad-coverage instantiated normalized morphological inflection tables for hundreds of diverse world languages. The project comprises two major thrusts: a language-independent feature schema for rich morphological annotation and a type-level resource of annotated data in diverse languages realizing that schema. This paper presents the expansions and improvements made on several fronts over the last couple of years (since McCarthy et al. (2020)). Collaborative efforts by numerous linguists have added 67 new languages, including 30 endangered languages. We have implemented several improvements to the extraction pipeline to tackle some issues, e.g. missing gender and macron information. We have also amended the schema to use a hierarchical structure that is needed for morphological phenomena like multiple-argument agreement and case stacking, while adding some missing morphological features to make the schema more inclusive. In light of the last UniMorph release, we also augmented the database with morpheme segmentation for 16 languages. Lastly, this new release makes a push towards inclusion of derivational morphology in UniMorph by enriching the data and annotation schema with instances representing derivational processes from MorphyNet.
翻訳日:2022-05-10 15:06:05 公開日:2022-05-07
# より良い検索は、より良い質問に答えるものではないかもしれない

Better Retrieval May Not Lead to Better Question Answering ( http://arxiv.org/abs/2205.03685v1 )

ライセンス: Link先を確認
Zhengzhong Liang, Tushar Khot, Steven Bethard, Mihai Surdeanu, Ashish Sabharwal(参考訳) 情報検索 (IR) と読解包括 (RC) を必要とするオープンドメイン質問応答 (QA) 問題において、近年、考慮すべき進展が報告されている。 システムの性能を改善するための一般的なアプローチは、IRステージから取得したコンテキストの品質を改善することである。 本研究では、マルチホップ推論を必要とする挑戦的なオープンドメインQAデータセットであるStrategyQAについて、この共通アプローチが驚くほど非効率であることを示す。 さらにシステムの振る舞いを分析し、潜在的な理由を特定する。

Considerable progress has been made recently in open-domain question answering (QA) problems, which require Information Retrieval (IR) and Reading Comprehension (RC). A popular approach to improve the system's performance is to improve the quality of the retrieved context from the IR stage. In this work we show that for StrategyQA, a challenging open-domain QA dataset that requires multi-hop reasoning, this common approach is surprisingly ineffective -- improving the quality of the retrieved context hardly improves the system's performance. We further analyze the system's behavior to identify potential reasons.
翻訳日:2022-05-10 15:05:45 公開日:2022-05-07
# モンテカルロ木探索と目標運動モデルを用いた多目的アクティブ物体追跡

Multi-Target Active Object Tracking with Monte Carlo Tree Search and Target Motion Modeling ( http://arxiv.org/abs/2205.03555v1 )

ライセンス: Link先を確認
Zheng Chen, Jian Zhao, Mingyu Yang, Wengang Zhou, Houqiang Li(参考訳) 本研究は,マルチターゲットアクティブオブジェクトトラッキング(AOT)に重点を置いており,複数のターゲットと環境に複数のカメラが配置されている。 目標は、全カメラのターゲット範囲を最大化することです。 従来の作業では、それぞれのカメラが位置で固定され、回転のみが許されていると強く仮定している。 この作業では、すべてのカメラが境界線に沿って移動し、回転させることで、設定を緩和する。 我々の設定では、アクション空間はより大きくなり、最適なアクションを特定するための計算の複雑さがより高まる。 そこで本研究では,モンテカルロ木探索法(MCTS)の探索木を探索するために,マルチエージェント強化学習(MARL)ネットワークからの行動選択を活用することを提案する。 また, 目標の動作をモデル化し, 目標の位置を予測することにより, mctsプロセスにおける将来の環境状態をより良く推定する。 スポーツゲームをシミュレートするマルチターゲット2D環境を構築し,本手法が対象範囲を効果的に改善できることを示す実験結果を得た。

In this work, we are dedicated to multi-target active object tracking (AOT), where there are multiple targets as well as multiple cameras in the environment. The goal is maximize the overall target coverage of all cameras. Previous work makes a strong assumption that each camera is fixed in a location and only allowed to rotate, which limits its application. In this work, we relax the setting by allowing all cameras to both move along the boundary lines and rotate. In our setting, the action space becomes much larger, which leads to much higher computational complexity to identify the optimal action. To this end, we propose to leverage the action selection from multi-agent reinforcement learning (MARL) network to prune the search tree of Monte Carlo Tree Search (MCTS) method, so as to find the optimal action more efficiently. Besides, we model the motion of the targets to predict the future position of the targets, which makes a better estimation of the future environment state in the MCTS process. We establish a multi-target 2D environment to simulate the sports games, and experimental results demonstrate that our method can effectively improve the target coverage.
翻訳日:2022-05-10 14:44:01 公開日:2022-05-07
# 車両内ネットワークにおける異常検出

Anomaly Detection in Intra-Vehicle Networks ( http://arxiv.org/abs/2205.03537v1 )

ライセンス: Link先を確認
Ajeet Kumar Dwivedi(参考訳) イノベーションと技術の進歩とネットワーク間の相互接続の容易さにより、私たちは将来有望な分野であるInternet of Vehiclesへと進化しました。 現在、現代の車両は車内ネットワークや外部ネットワークを含む様々なネットワークに接続されている。 しかし、自動車業界における最大の課題は、車両を安全で信頼性のあるものにすることであり、特に既存の伝統的なプロトコルの抜け穴によって、車両ネットワークにおけるサイバー攻撃が急増している。 実際、全ての車両は、電子制御ユニット間の通信のためにユニバーサルコントローラエリアネットワーク(CAN)バスプロトコルを使用して、主要な車両機能と運転者の安全に関するメッセージを送信する。 CANバスシステムは重要な意味を持つが、いかなるプロトコル認証と認証の鍵となる機能は欠いている。 canバスのセキュリティの妥協は、自動車とドライバーの両方の安全に深刻な問題を引き起こす。 本稿では,CANバスプロトコルのセキュリティ問題について議論し,車載ネットワークに対する既知の攻撃を検出する侵入検知システム(IDS)を提案する。 多重人工知能(AI)アルゴリズムは、CANを通過するメッセージ、タイムスタンプ、データパケットに基づく、既知のサイバー攻撃の認識を提供するために使用される。 本研究の目的は,時系列の特徴と攻撃頻度を考慮し,サイバー攻撃を正確に検出することである。 評価されたAIアルゴリズムの大部分は、攻撃頻度を考慮すると、99%以上の顕著な精度で既知の攻撃を正しく識別する。 しかし、タイムスタンプが考慮されない場合、これらのモデルはおよそ92%から97%の精度が得られる。 Long Short Term Memory (LSTM)、Xgboost、SVCは性能の良い分類器であることが証明されている。

The progression of innovation and technology and ease of inter-connectivity among networks has allowed us to evolve towards one of the promising areas, the Internet of Vehicles. Nowadays, modern vehicles are connected to a range of networks, including intra-vehicle networks and external networks. However, a primary challenge in the automotive industry is to make the vehicle safe and reliable; particularly with the loopholes in the existing traditional protocols, cyber-attacks on the vehicle network are rising drastically. Practically every vehicle uses the universal Controller Area Network (CAN) bus protocol for the communication between electronic control units to transmit key vehicle functionality and messages related to driver safety. The CAN bus system, although its critical significance, lacks the key feature of any protocol authentication and authorization. Resulting in compromises of CAN bus security leads to serious issues to both car and driver safety. This paper discusses the security issues of the CAN bus protocol and proposes an Intrusion Detection System (IDS) that detects known attacks on in-vehicle networks. Multiple Artificial Intelligence (AI) algorithms are employed to provide recognition of known potential cyber-attacks based on messages, timestamps, and data packets traveling through the CAN. The main objective of this paper is to accurately detect cyberattacks by considering time-series features and attack frequency. The majority of the evaluated AI algorithms, when considering attack frequency, correctly identify known attacks with remarkable accuracy of more than 99%. However, these models achieve approximately 92% to 97% accuracy when timestamps are not taken into account. Long Short Term Memory (LSTM), Xgboost, and SVC have proved to the well-performing classifiers.
翻訳日:2022-05-10 14:38:15 公開日:2022-05-07
# レート最適コンテキストオンラインマッチング帯域

Rate-Optimal Contextual Online Matching Bandit ( http://arxiv.org/abs/2205.03699v1 )

ライセンス: Link先を確認
Yuantong Li, Chi-hua Wang, Guang Cheng, Will Wei Sun(参考訳) 両面のオンラインマッチングプラットフォームは様々な市場で採用されている。 しかし、現在の市場でのエージェントの好みは通常暗黙的で未知であり、データから学ぶ必要がある。 意思決定プロセスに関わるサイド情報の可用性が高まる中、現代のオンラインマッチング手法では、文脈情報に基づいてエージェントの嗜好ダイナミクスを追跡する能力が要求される。 これは、マッチング決定における動的好みを可能にする、新しいContextual Online Matching Bandit prOblem (COMBO)を考える動機となっている。 既存の作業は静的な選好を伴うマルチアームバンディットに重点を置いているが、これは不十分である。 本稿では,COMBOに適応するためのCC-ETC(Centralized ContextualExplore Then Commit)アルゴリズムを提案する。 CC-ETCは動的好みでオンラインマッチングを解決する。 理論的には、CC-ETC はサブ線形後悔上界 O(log(T)) を達成し、一致した下界を証明してレート最適化アルゴリズムであることを示す。 実験では, CC-ETCは, 異なる選好スキーム, 文脈次元, 報酬雑音レベル, 文脈変動レベルに対して堅牢であることを示した。

Two-sided online matching platforms have been employed in various markets. However, agents' preferences in present market are usually implicit and unknown and must be learned from data. With the growing availability of side information involved in the decision process, modern online matching methodology demands the capability to track preference dynamics for agents based on their contextual information. This motivates us to consider a novel Contextual Online Matching Bandit prOblem (COMBO), which allows dynamic preferences in matching decisions. Existing works focus on multi-armed bandit with static preference, but this is insufficient: the two-sided preference changes as along as one-side's contextual information updates, resulting in non-static matching. In this paper, we propose a Centralized Contextual - Explore Then Commit (CC-ETC) algorithm to adapt to the COMBO. CC-ETC solves online matching with dynamic preference. In theory, we show that CC-ETC achieves a sublinear regret upper bound O(log(T)) and is a rate-optimal algorithm by proving a matching lower bound. In the experiments, we demonstrate that CC-ETC is robust to variant preference schemes, dimensions of contexts, reward noise levels, and contexts variation levels.
翻訳日:2022-05-10 14:36:59 公開日:2022-05-07
# 正規化を用いたDenoisingによる教師なし深層アンロールレコンストラクション

Unsupervised Deep Unrolled Reconstruction Using Regularization by Denoising ( http://arxiv.org/abs/2205.03519v1 )

ライセンス: Link先を確認
Peizhou Huang, Chaoyi Zhang, Xiaoliang Zhang, Xiaojuan Li, Liang Dong, Leslie Ying(参考訳) 深層学習法は様々なコンピュータビジョンタスクでうまく使われている。 この成功にインスパイアされた深層学習は、磁気共鳴画像再構成(MRI)において研究されている。 特に、ディープラーニングとモデルに基づく最適化手法の統合は、大きな利点を示している。 しかし、多くのラベル付きトレーニングデータが高い再構成品質のために必要であり、一部のmri応用では困難である。 本稿では,MR画像再構成のための教師なし学習を,教師なし復調ネットワークとプラグ・アンド・プレイを併用した新しい再構成手法であるDURED-Netを提案する。 我々は、画像物理を利用した明示的な事前学習を行うことにより、教師なし学習の再構築性能を高めることを目指している。 具体的には、Denoising by Denoising (RED)を用いて、MRI再構成のためのデノナイジングネットワークの活用を実現する。 実験の結果,提案手法は高い再現性を達成するためにトレーニングデータの少ない量を必要とすることがわかった。

Deep learning methods have been successfully used in various computer vision tasks. Inspired by that success, deep learning has been explored in magnetic resonance imaging (MRI) reconstruction. In particular, integrating deep learning and model-based optimization methods has shown considerable advantages. However, a large amount of labeled training data is typically needed for high reconstruction quality, which is challenging for some MRI applications. In this paper, we propose a novel reconstruction method, named DURED-Net, that enables interpretable unsupervised learning for MR image reconstruction by combining an unsupervised denoising network and a plug-and-play method. We aim to boost the reconstruction performance of unsupervised learning by adding an explicit prior that utilizes imaging physics. Specifically, the leverage of a denoising network for MRI reconstruction is achieved using Regularization by Denoising (RED). Experiment results demonstrate that the proposed method requires a reduced amount of training data to achieve high reconstruction quality.
翻訳日:2022-05-10 14:36:31 公開日:2022-05-07
# 計算可能深層アクティブラーニングに向けて

Towards Computationally Feasible Deep Active Learning ( http://arxiv.org/abs/2205.03598v1 )

ライセンス: Link先を確認
Akim Tsvigun, Artem Shelmanov, Gleb Kuzmin, Leonid Sanochkin, Daniil Larionov, Gleb Gusev, Manvel Avetisian, Leonid Zhukov(参考訳) アクティブラーニング(AL)は、機械学習モデルのトレーニングに必要なアノテーションの労力を減らすための重要なテクニックである。 ディープラーニングは、alを実際にデプロイするためのいくつかの重要な障害に対するソリューションを提供するが、その他多数を紹介している。 そのような問題の1つは、取得モデルをトレーニングし、ラベルなしプールのインスタンスで不確実性を見積もるために必要な過剰な計算リソースである。 本研究は,テキスト分類とタグ付けタスクにおいてこの問題に取り組む2つの手法を提案し,alにおけるal反復時間と深層獲得モデルによる計算オーバーヘッドを大幅に削減する。 また, 疑似ラベルモデルと蒸留モデルを用いたアルゴリズムは, 文献で指摘されていた本質的障害を克服することを示した。 すなわち、alのインスタンス選択に使用される取得モデルとラベル付きデータに基づいてトレーニングされた後継モデルの違いにより、alのメリットが低下することが示された。 提案アルゴリズムは,より小型で高速な取得モデルであるにもかかわらず,より表現力のある後継モデルを高い性能で訓練できることを示す。

Active learning (AL) is a prominent technique for reducing the annotation effort required for training machine learning models. Deep learning offers a solution for several essential obstacles to deploying AL in practice but introduces many others. One of such problems is the excessive computational resources required to train an acquisition model and estimate its uncertainty on instances in the unlabeled pool. We propose two techniques that tackle this issue for text classification and tagging tasks, offering a substantial reduction of AL iteration duration and the computational overhead introduced by deep acquisition models in AL. We also demonstrate that our algorithm that leverages pseudo-labeling and distilled models overcomes one of the essential obstacles revealed previously in the literature. Namely, it was shown that due to differences between an acquisition model used to select instances during AL and a successor model trained on the labeled data, the benefits of AL can diminish. We show that our algorithm, despite using a smaller and faster acquisition model, is capable of training a more expressive successor model with higher performance.
翻訳日:2022-05-10 14:13:48 公開日:2022-05-07
# 自己注意におけるカーネル構造認識によるパラメータ効率変換学習の強化

Empowering parameter-efficient transfer learning by recognizing the kernel structure in self-attention ( http://arxiv.org/abs/2205.03720v1 )

ライセンス: Link先を確認
Yifan Chen, Devamanyu Hazarika, Mahdi Namazifar, Yang Liu, Di Jin, Dilek Hakkani-Tur(参考訳) 事前訓練された言語モデル(PLM)の膨大なトレーニング可能なパラメータは、複数の下流タスクへのデプロイを困難にします。 この問題に対処するために、パラメータ効率の高い転送学習法が提案されており、微調整の間、残りを凍結しながら数個のパラメータのみをチューニングできる。 本稿では,この線に沿った既存の方法について,textit{kernel lens} を用いて検討する。 トランスフォーマティブベースplmにおける自己アテンションとカーネル学習の関係を動機付けて,カーネル構造を自己アテンションで活用し,可変パラメータの割り当てを誘導する \textit{kernel-wise adapters},すなわち \textit{kernel-mix} を提案する。 これらのアダプタは、古典的なカーネル学習で見られるガイドラインを使用し、各アテンションヘッドに対して別々のパラメータチューニングを可能にする。 実験の結果,多種多様な自然言語生成および理解タスクに対して,提案したアダプタが既存のベースラインの強靭な性能を達成あるいは向上できることを示す。

The massive amount of trainable parameters in the pre-trained language models (PLMs) makes them hard to be deployed to multiple downstream tasks. To address this issue, parameter-efficient transfer learning methods have been proposed to tune only a few parameters during fine-tuning while freezing the rest. This paper looks at existing methods along this line through the \textit{kernel lens}. Motivated by the connection between self-attention in transformer-based PLMs and kernel learning, we propose \textit{kernel-wise adapters}, namely \textit{Kernel-mix}, that utilize the kernel structure in self-attention to guide the assignment of the tunable parameters. These adapters use guidelines found in classical kernel learning and enable separate parameter tuning for each attention head. Our empirical results, over a diverse set of natural language generation and understanding tasks, show that our proposed adapters can attain or improve the strong performance of existing baselines.
翻訳日:2022-05-10 14:13:31 公開日:2022-05-07
# conceptdistil: 概念説明のモデル非依存蒸留

ConceptDistil: Model-Agnostic Distillation of Concept Explanations ( http://arxiv.org/abs/2205.03601v1 )

ライセンス: Link先を確認
Jo\~ao Bento Sousa, Ricardo Moreira, Vladimir Balayan, Pedro Saleiro, Pedro Bizarro(参考訳) 概念に基づく説明は、非技術的人間のためのモデルの解釈可能性ギャップを埋めることを目的としている。 これまでの研究は、特定のモデル(ニューラルネットワークなど)やデータタイプ(画像など)の概念の提供や、すでに訓練されたネットワークから概念を抽出すること、あるいはマルチタスク学習を通じて自己説明可能なモデルをトレーニングすることに注力してきた。 本研究では,知識蒸留を用いたブラックボックス分類器に概念記述をもたらす方法であるConceptDistilを提案する。 概念ディスティルは、(1)特定のインスタンスにどのドメイン概念が存在するかを予測する概念モデル、(2)概念モデル予測を用いてブラックボックスモデルの予測を模倣しようとする蒸留モデルという2つの構成要素に分解される。 実世界のユースケースでConceptDistilを評価し、両方のタスクを最適化できることを示し、ブラックボックスモデルに概念記述性をもたらす。

Concept-based explanations aims to fill the model interpretability gap for non-technical humans-in-the-loop. Previous work has focused on providing concepts for specific models (eg, neural networks) or data types (eg, images), and by either trying to extract concepts from an already trained network or training self-explainable models through multi-task learning. In this work, we propose ConceptDistil, a method to bring concept explanations to any black-box classifier using knowledge distillation. ConceptDistil is decomposed into two components:(1) a concept model that predicts which domain concepts are present in a given instance, and (2) a distillation model that tries to mimic the predictions of a black-box model using the concept model predictions. We validate ConceptDistil in a real world use-case, showing that it is able to optimize both tasks, bringing concept-explainability to any black-box model.
翻訳日:2022-05-10 14:12:09 公開日:2022-05-07
# 言語間理解のための多レベルコントラスト学習

Multi-level Contrastive Learning for Cross-lingual Spoken Language Understanding ( http://arxiv.org/abs/2205.03656v1 )

ライセンス: Link先を確認
Shining Liang, Linjun Shou, Jian Pei, Ming Gong, Wanli Zuo, Xianglin Zuo, Daxin Jiang(参考訳) 音声言語理解(slu)は、英語などの高リソース言語で大きな成功を収めているが、主に高品質なトレーニングデータがないため、低リソース言語では依然として困難である。 最近の多言語コード切り換えアプローチでは、入力発話中のいくつかの単語をサンプリングし、同じ意味の他の言語で表現に置き換える。 多言語コードスイッチングアプローチは、ゼロショット言語間SLUにおける言語間の表現のアライメントを改善する。 驚くべきことに、既存のマルチリンガルコードスイッチングメソッドはすべて、sluに固有の意味構造、すなわち、ほとんどの発話には1つ以上のスロットが含まれており、各スロットは1つ以上の単語で構成されている。 本稿では,SLUの「発話スロットワード」構造を利用して,発話,スロット,単語レベルでの多レベルコントラスト学習フレームワークを用いて,この構造を体系的にモデル化する。 コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。 さらに,言語間知識伝達にラベルセマンティクスを活用するラベル認識ジョイントモデルを開発した。 実験の結果,提案手法は2つのゼロショット・クロスランガルSLUベンチマークの強いベースラインと比較して,性能を著しく向上することがわかった。

Although spoken language understanding (SLU) has achieved great success in high-resource languages, such as English, it remains challenging in low-resource languages mainly due to the lack of high quality training data. The recent multilingual code-switching approach samples some words in an input utterance and replaces them by expressions in some other languages of the same meaning. The multilingual code-switching approach achieves better alignments of representations across languages in zero-shot cross-lingual SLU. Surprisingly, all existing multilingual code-switching methods disregard the inherent semantic structure in SLU, i.e., most utterances contain one or more slots, and each slot consists of one or more words. In this paper, we propose to exploit the "utterance-slot-word" structure of SLU and systematically model this structure by a multi-level contrastive learning framework at the utterance, slot, and word levels. We develop novel code-switching schemes to generate hard negative examples for contrastive learning at all levels. Furthermore, we develop a label-aware joint model to leverage label semantics for cross-lingual knowledge transfer. Our experimental results show that our proposed methods significantly improve the performance compared with the strong baselines on two zero-shot cross-lingual SLU benchmark datasets.
翻訳日:2022-05-10 13:55:24 公開日:2022-05-07
# 進歩型自律対話エージェントを目指して

Towards a Progression-Aware Autonomous Dialogue Agent ( http://arxiv.org/abs/2205.03692v1 )

ライセンス: Link先を確認
Abraham Sanders (1), Tomek Strzalkowski (1), Mei Si (1), Albert Chang (1), Deepanshu Dey (1), Jonas Braasch (1), Dakuo Wang (2) ((1) Rensselaer Polytechnic Institute, Troy, NY, USA, (2) IBM Research, USA)(参考訳) 近年の大規模言語モデリングと生成の進歩により、一般的なチャットから目標指向の談話まで多岐にわたる会話シナリオにおいて、人間のような応答を示す対話エージェントの作成が可能になった。 これらのエージェントは、事前の文脈に関連する高品質な応答を生成するのに優れていますが、会話が進む方向全体に対する認識の欠如と、タスクの成功の可能性に悩まされています。 そこで本研究では,対話エージェントが対話の進行を望ましい結果から遠ざかることができる枠組みを提案し,この信号を用いてその後の応答の計画を立てる。 本フレームワークは,(1)「グローバル」対話状態(GDS)空間の概念,(2)会話の軌跡から計算したタスク固有進行関数(PF),(3)エージェントが進行信号を用いて次の応答を選択するための対話ロールアウトに基づく計画機構の3つの重要な要素から構成される。

Recent advances in large-scale language modeling and generation have enabled the creation of dialogue agents that exhibit human-like responses in a wide range of conversational scenarios spanning a diverse set of tasks, from general chit-chat to focused goal-oriented discourse. While these agents excel at generating high-quality responses that are relevant to prior context, they suffer from a lack of awareness of the overall direction in which the conversation is headed, and the likelihood of task success inherent therein. Thus, we propose a framework in which dialogue agents can evaluate the progression of a conversation toward or away from desired outcomes, and use this signal to inform planning for subsequent responses. Our framework is composed of three key elements: (1) the notion of a "global" dialogue state (GDS) space, (2) a task-specific progression function (PF) computed in terms of a conversation's trajectory through this space, and (3) a planning mechanism based on dialogue rollouts by which an agent may use progression signals to select its next response.
翻訳日:2022-05-10 13:54:51 公開日:2022-05-07
# 良質な視覚指導はより良い抽出器を作る: 階層的視覚プレフィックスによるマルチモーダルエンティティと関係抽出

Good Visual Guidance Makes A Better Extractor: Hierarchical Visual Prefix for Multimodal Entity and Relation Extraction ( http://arxiv.org/abs/2205.03521v1 )

ライセンス: Link先を確認
Xiang Chen, Ningyu Zhang, Lei Li, Yunzhi Yao, Shumin Deng, Chuanqi Tan, Fei Huang, Luo Si, Huajun Chen(参考訳) mnerとmre(multimodal named entity recognition and relation extraction)は、情報抽出における基本かつ重要な分野である。 しかし、既存のmnerとmreのアプローチは、テキストに組み込まれた無関係なオブジェクトイメージのエラー感度に苦しむ。 これらの問題に対処するために,より効果的でロバストな性能を実現するために,ビジュアルエンハンスエンティティと関係抽出のための階層型ビジュアルプレフィックス融合ネットワーク(hvpnet)を提案する。 具体的には,視覚的表現をプラグ可能な視覚的接頭辞とみなして,テキスト表現を誤りに敏感な予測決定に導く。 さらに,融合の視覚的接頭辞として階層的な多スケール視覚特徴を実現するための動的ゲートアグリゲーション戦略を提案する。 3つのベンチマークデータセットの大規模な実験により,本手法の有効性が実証され,最先端の性能が得られた。 コードはhttps://github.com/zjunlp/HVPNeTで入手できる。

Multimodal named entity recognition and relation extraction (MNER and MRE) is a fundamental and crucial branch in information extraction. However, existing approaches for MNER and MRE usually suffer from error sensitivity when irrelevant object images incorporated in texts. To deal with these issues, we propose a novel Hierarchical Visual Prefix fusion NeTwork (HVPNeT) for visual-enhanced entity and relation extraction, aiming to achieve more effective and robust performance. Specifically, we regard visual representation as pluggable visual prefix to guide the textual representation for error insensitive forecasting decision. We further propose a dynamic gated aggregation strategy to achieve hierarchical multi-scaled visual features as visual prefix for fusion. Extensive experiments on three benchmark datasets demonstrate the effectiveness of our method, and achieve state-of-the-art performance. Code is available in https://github.com/zjunlp/HVPNeT.
翻訳日:2022-05-10 13:52:24 公開日:2022-05-07
# ディープ畳み込みニューラルネットワークのための補助ゲーティング構造を用いたブロックワイズプルーニング

Automatic Block-wise Pruning with Auxiliary Gating Structures for Deep Convolutional Neural Networks ( http://arxiv.org/abs/2205.03602v1 )

ライセンス: Link先を確認
Zhaofeng Si, Honggang Qi and Xiaoyu Song(参考訳) 畳み込みニューラルネットワークはディープラーニングタスクで普及している。 しかし、モバイルデバイスで作業する場合、大きなコスト問題が発生します。 ネットワークプルーニングはそのような問題に対処するためのモデル圧縮の効果的な方法である。 本稿では,バックボーンネットワークのブロックに重要マークを割り当てる補助ゲーティング構造を有する新しい構造化ネットワークプルーニング手法を提案する。 ブロックワイドプルーニングは、チャネルワイドのような小さな粒度でモデルを作成する一般的な方法とは異なる投票戦略によって実現される。 さらに,より優れた性能を実現するために,知識蒸留を組み込んだ3段階のトレーニングスケジューリングを考案する。 本手法は,分類タスクにおいて最先端の圧縮性能を達成できることを実証する。 さらに,本手法は,事前学習モデルを提供することにより,他のプルーニング手法と相乗的に統合することが可能であり,93\%フロップを削減した非プルーニングモデルよりも優れた性能を実現する。

Convolutional neural networks are prevailing in deep learning tasks. However, they suffer from massive cost issues when working on mobile devices. Network pruning is an effective method of model compression to handle such problems. This paper presents a novel structured network pruning method with auxiliary gating structures which assigns importance marks to blocks in backbone network as a criterion when pruning. Block-wise pruning is then realized by proposed voting strategy, which is different from prevailing methods who prune a model in small granularity like channel-wise. We further develop a three-stage training scheduling for the proposed architecture incorporating knowledge distillation for better performance. Our experiments demonstrate that our method can achieve state-of-the-arts compression performance for the classification tasks. In addition, our approach can integrate synergistically with other pruning methods by providing pretrained models, thus achieving a better performance than the unpruned model with over 93\% FLOPs reduced.
翻訳日:2022-05-10 13:52:07 公開日:2022-05-07
# (参考訳) ECGデータに基づく不整脈検出のための解釈可能な機械学習モデルの開発

Development of Interpretable Machine Learning Models to Detect Arrhythmia based on ECG Data ( http://arxiv.org/abs/2205.02803v2 )

ライセンス: CC0 1.0
Shourya Verma(参考訳) 心電図(ECG)信号の解析は、心臓医が手動で行うので時間がかかる。 そのため、機械学習(ML)分類による自動化がますます提案されているため、MLモデルは心拍の特徴を学習し、異常を検出することができる。 解釈可能性の欠如は、ヘルスケアにおけるディープラーニングの適用を妨げる。 これらのモデルの解釈可能性を通じて、機械学習アルゴリズムがどのように決定を行い、どのパターンが分類に追従されているかを理解する。 この論文は、最先端モデルに基づく畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)分類器を構築し、それらの性能と解釈可能性を浅い分類器と比較する。 ここで、グローバルおよびローカルの解釈可能性メソッドは、データセット全体の依存変数と独立変数間の相互作用を理解し、各サンプルにおけるモデル決定を調べるために利用される。 部分依存プロット、共有付加説明、置換特徴重要度、勾配重み付きクラスアクティベーションマップ(Grad-Cam)は、ECGリズムを分類する時系列MLモデルで実装された4つの解釈可能性技術である。 特に,局所的解釈可能性技術であるGrad-Camを利用して,各クラス内のECGビートが正しく,正しく分類されていないかを調べる。 さらに,K-Foldクロスバリデーション法とLeft Groups Out法を用いて分類器の評価を行い,非パラメトリック統計検査を用いて差が有意かどうかを検証した。 その結果,Grad-CAMは提案したCNNモデルとLSTMモデルの予測を説明する上で,最も効果的な解釈可能性手法であることが判明した。 予測を行う際,すべての高パフォーマンス分類器は心電図リズムのqrs複合体に注目した。

The analysis of electrocardiogram (ECG) signals can be time consuming as it is performed manually by cardiologists. Therefore, automation through machine learning (ML) classification is being increasingly proposed which would allow ML models to learn the features of a heartbeat and detect abnormalities. The lack of interpretability hinders the application of Deep Learning in healthcare. Through interpretability of these models, we would understand how a machine learning algorithm makes its decisions and what patterns are being followed for classification. This thesis builds Convolutional Neural Network (CNN) and Long Short-Term Memory (LSTM) classifiers based on state-of-the-art models and compares their performance and interpretability to shallow classifiers. Here, both global and local interpretability methods are exploited to understand the interaction between dependent and independent variables across the entire dataset and to examine model decisions in each sample, respectively. Partial Dependence Plots, Shapley Additive Explanations, Permutation Feature Importance, and Gradient Weighted Class Activation Maps (Grad-Cam) are the four interpretability techniques implemented on time-series ML models classifying ECG rhythms. In particular, we exploit Grad-Cam, which is a local interpretability technique and examine whether its interpretability varies between correctly and incorrectly classified ECG beats within each class. Furthermore, the classifiers are evaluated using K-Fold cross-validation and Leave Groups Out techniques, and we use non-parametric statistical testing to examine whether differences are significant. It was found that Grad-CAM was the most effective interpretability technique at explaining predictions of proposed CNN and LSTM models. We concluded that all high performing classifiers looked at the QRS complex of the ECG rhythm when making predictions.
翻訳日:2022-05-10 12:24:38 公開日:2022-05-07
# (参考訳) FAITH:階層型タスクグラフを用いたFew-Shotグラフ分類

FAITH: Few-Shot Graph Classification with Hierarchical Task Graphs ( http://arxiv.org/abs/2205.02435v2 )

ライセンス: CC BY 4.0
Song Wang, Yushun Dong, Xiao Huang, Chen Chen, Jundong Li(参考訳) 少数ショットグラフ分類はグラフのクラスを予測することを目的としており、各クラスに対して限定ラベル付きグラフが与えられる。 ラベル不足のボトルネックに対処するため、近年の研究では、ラベル付きグラフに制限のあるグラフクラスへの高速適応のための、数発の学習フレームワークの導入が提案されている。 具体的には,多種多様なメタ学習課題にまたがってメタ知識を蓄積し,そのメタ知識を対象タスクに一般化することを提案する。 しかし、既存の手法は一般にメタトレーニングタスク間のタスク相関を無視し、個別に扱う。 それにもかかわらず、そのようなタスク相関はモデル一般化を目標タスクに前進させ、より良い分類性能を得ることができる。 一方,多くのメタ学習タスクにおいて,複雑な構成成分が原因で,タスク相関を利用するのは簡単ではない。 そこで本研究では,異なる粒度で階層的タスクグラフを構築し,タスク相関を捉えた,新しいマイズショット学習フレームワーク信条を提案する。 さらに,クラスに関連付けられたタスクを選択するためのロスベースのサンプリング戦略も設計する。 さらに,学習したタスク相関を数ショットの分類に活用するために,タスク固有分類器を提案する。 一般的な4つのグラフ分類データセットに関する広範囲な実験は、他の最先端のベースラインよりも信頼が優れていることを示している。

Few-shot graph classification aims at predicting classes for graphs, given limited labeled graphs for each class. To tackle the bottleneck of label scarcity, recent works propose to incorporate few-shot learning frameworks for fast adaptations to graph classes with limited labeled graphs. Specifically, these works propose to accumulate meta-knowledge across diverse meta-training tasks, and then generalize such meta-knowledge to the target task with a disjoint label set. However, existing methods generally ignore task correlations among meta-training tasks while treating them independently. Nevertheless, such task correlations can advance the model generalization to the target task for better classification performance. On the other hand, it remains non-trivial to utilize task correlations due to the complex components in a large number of meta-training tasks. To deal with this, we propose a novel few-shot learning framework FAITH that captures task correlations via constructing a hierarchical task graph at different granularities. Then we further design a loss-based sampling strategy to select tasks with more correlated classes. Moreover, a task-specific classifier is proposed to utilize the learned task correlations for few-shot classification. Extensive experiments on four prevalent few-shot graph classification datasets demonstrate the superiority of FAITH over other state-of-the-art baselines.
翻訳日:2022-05-10 12:00:47 公開日:2022-05-07