このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220108となっている論文です。

PDF登録状況(公開日: 20220108)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 知識の追跡:調査

Knowledge Tracing: A Survey ( http://arxiv.org/abs/2201.06953v1 )

ライセンス: CC BY 4.0
Ghodai Abdelrahman, Qing Wang, and Bernardo Pereira Nunes(参考訳) 教育を通じて知識を伝達する能力は、人間の知性にとって不可欠な側面の1つである。 人間の教師は生徒の知識を追跡し、生徒が必要とする教育をカスタマイズすることができる。 オンライン教育プラットフォームの台頭に伴い、学習者の知識を追跡し、学習経験を調整するための機械も必要となる。 これは文献における知識追跡(KT)問題として知られている。 KT問題を効果的に解決すれば、知的学習システム、カリキュラム学習、学習教材の推薦など、コンピュータ支援の教育応用の可能性が解ける。 さらに、より一般的な観点からは、学生は人間と人工エージェントの両方を含むあらゆる種類の知的エージェントを表現できる。 したがって、KTのポテンシャルは、学生エージェント(機械学習モデル)の学習経験をカスタマイズしようとするあらゆる機械学習アプリケーションシナリオにまで拡張することができる。 本稿では,KT文献の総合的かつ体系的なレビューを行う。 本稿では,ディープラーニングを用いた最近の最先端手法の初期の試みから,モデルの理論的側面とベンチマークデータセットの特徴に注目しながら,幅広い手法について紹介する。 これらに加えて、関連するメソッド間のキーモデリングの違いに光を当て、それらを理解しやすい形式で要約する。 最後に,KT文献における現在の研究ギャップと今後の研究・応用の方向性について論じる。

Humans ability to transfer knowledge through teaching is one of the essential aspects for human intelligence. A human teacher can track the knowledge of students to customize the teaching on students needs. With the rise of online education platforms, there is a similar need for machines to track the knowledge of students and tailor their learning experience. This is known as the Knowledge Tracing (KT) problem in the literature. Effectively solving the KT problem would unlock the potential of computer-aided education applications such as intelligent tutoring systems, curriculum learning, and learning materials' recommendation. Moreover, from a more general viewpoint, a student may represent any kind of intelligent agents including both human and artificial agents. Thus, the potential of KT can be extended to any machine teaching application scenarios which seek for customizing the learning experience for a student agent (i.e., a machine learning model). In this paper, we provide a comprehensive and systematic review for the KT literature. We cover a broad range of methods starting from the early attempts to the recent state-of-the-art methods using deep learning, while highlighting the theoretical aspects of models and the characteristics of benchmark datasets. Besides these, we shed light on key modelling differences between closely related methods and summarize them in an easy-to-understand format. Finally, we discuss current research gaps in the KT literature and possible future research and application directions.
翻訳日:2022-01-23 20:54:08 公開日:2022-01-08
# (参考訳) beyond 5g通信システムにおける電力制御, リンク適応, キャパシティの共同改善のための機械学習に基づくアルゴリズム [全文訳有]

A Machine Learning Based Algorithm for Joint Improvement of Power Control, link adaptation, and Capacity in Beyond 5G Communication systems ( http://arxiv.org/abs/2201.07090v1 )

ライセンス: CC BY 4.0
Jafar Norolahi, Paeiz Azmi(参考訳) 本研究では、直交周波数分割多重化(OFDM)および非直交多重アクセス(NOMA)技術によって支援された、5世代(B5G)無線通信システムの性能を向上させるための機械学習に基づく新しいアルゴリズムを提案する。 非線形ソフトマージン支持ベクターマシン(svm)の問題を用いて、自動変調分類器(amc)と信号パワー to noise and interference ratio(sinr)推定器を提供する。 AMCとSINRの推定結果は、変調タイプ、コディングレートを再割り当てし、eNodeB接続のフレームを介して電力を送信するために使用される。 ofdm-noma支援5gシステムにおいて、amc成功率とsinr、総消費電力、合計容量を評価した。 その結果,いくつかの手法と比較して成功率の向上が見られた。 さらに、逐次干渉キャンセル(sic)により信号が検出された後、信号復号の前にsinrを直接計算する。 さらに、物理チャネルの直接感覚により、提案アルゴリズムは、ネットワーク通信信号におけるチャネル品質情報(CQI)の占有シンボル(オーバヘッドシグナリング)を割引することができる。 また,提案アルゴリズムは電力消費量を削減し,eNodeB接続による総和容量を増大させることを示した。 シミュレーションの結果、他のアルゴリズムと比較して、より成功したamc、効率的なsinr推定器、より実用的なインプラント、オーバーヘッド信号の低減、消費電力の削減、容量達成率の向上が示されている。

In this study, we propose a novel machine learning based algorithm to improve the performance of beyond 5 generation (B5G) wireless communication system that is assisted by Orthogonal Frequency Division Multiplexing (OFDM) and Non-Orthogonal Multiple Access (NOMA) techniques. The non-linear soft margin support vector machine (SVM) problem is used to provide an automatic modulation classifier (AMC) and a signal power to noise and interference ratio (SINR) estimator. The estimation results of AMC and SINR are used to reassign the modulation type, codding rate, and transmit power through frames of eNode B connections. The AMC success rate versus SINR, total power consuming, and sum capacity are evaluated for OFDM-NOMA assisted 5G system. Results show improvement of success rate compared of some published method. Furthermore, the algorithm directly computes SINR after signal is detected by successive interference cancellation (SIC) and before any signal decoding. Moreover, because of the direct sense of physical channel, the presented algorithm can discount occupied symbols (overhead signaling) for channel quality information (CQI) in network communication signaling. The results also prove that the proposed algorithm reduces the total power consumption and increases the sum capacity through the eNode B connections. Simulation results in compare to other algorithms show more successful AMC, efficient SINR estimator, easier practical implantation, less overhead signaling, less power consumption, and more capacity achievement.
翻訳日:2022-01-23 20:45:16 公開日:2022-01-08
# 機械学習を用いた光ネットワークにおける信号損失予測

Forecasting Loss of Signal in Optical Networks with Machine Learning ( http://arxiv.org/abs/2201.07089v1 )

ライセンス: Link先を確認
Wenjie Du, David C\^ot\'e, Chris Barber, and Yan Liu(参考訳) Loss of Signal (LOS) は、光ネットワークのオペレーターにとって大きなコストである。 6つの国際光ネットワークから収集した実世界のパフォーマンスモニタリング(PM)データを用いて,比較的低いリコールで,監視機械学習(ML)を用いて,LOSイベントを1~7日前の精度で予測できることを見出した。 調査対象は100gラインとeth10gクライアントを含む12種類の施設タイプである。 個々のネットワーク上でのトレーニングに対して,複数のネットワークで同時にトレーニングを行う場合,与えられたネットワークの精度が向上することを示す。 さらに,全施設タイプと全ネットワークから単一モデルでLOSを予測できるのに対して,特定の施設やネットワークの微調整は微妙な改善しか得られないことを示す。 したがって、我々のMLモデルは、これまでそのモデルに知られていなかった光ネットワークに対して有効であり、商用用途に使用することができる。

Loss of Signal (LOS) represents a significant cost for operators of optical networks. By studying large sets of real-world Performance Monitoring (PM) data collected from six international optical networks, we find that it is possible to forecast LOS events with good precision 1-7 days before they occur, albeit at relatively low recall, with supervised machine learning (ML). Our study covers twelve facility types, including 100G lines and ETH10G clients. We show that the precision for a given network improves when training on multiple networks simultaneously relative to training on an individual network. Furthermore, we show that it is possible to forecast LOS from all facility types and all networks with a single model, whereas fine-tuning for a particular facility or network only brings modest improvements. Hence our ML models remain effective for optical networks previously unknown to the model, which makes them usable for commercial applications.
翻訳日:2022-01-23 18:29:53 公開日:2022-01-08
# beyond modeling: 効率的な環境政策分析のためのnlpパイプライン

Beyond modeling: NLP Pipeline for efficient environmental policy analysis ( http://arxiv.org/abs/2201.07105v1 )

ライセンス: Link先を確認
Jordi Planas, Daniel Firebanks-Quevedo, Galina Naydenova, Ramansh Sharma, Cristina Taylor, Kathleen Buckingham, Rong Fang(参考訳) 国連生態系再生会議に入ると、森林と景観修復のための効果的なインセンティブ構造を作ることは、決して重要ではない。 政策分析は、経済や金融のインセンティブを適切な場所に移すためには、政策立案者が回復にかかわる役割や規則を理解する必要がある。 古典的な政策分析は資源集約的で複雑であり、包括的な中央情報源が欠けている。 我々は,これらの課題に対処し,繰り返しタスクを自動化する自然言語処理(NLP)技術に基づく知識管理フレームワークを提案し,政策分析プロセスを数週間から数分に短縮する。 我々のフレームワークは政策分析の専門家と共同で設計され、プラットフォーム、言語、ポリシーに依存しないものにしました。 本稿では,NLPパイプラインの設計について述べるとともに,各コンポーネントの最先端手法を概説し,政策分析を指向したフレームワークを構築する際の課題について議論する。

As we enter the UN Decade on Ecosystem Restoration, creating effective incentive structures for forest and landscape restoration has never been more critical. Policy analysis is necessary for policymakers to understand the actors and rules involved in restoration in order to shift economic and financial incentives to the right places. Classical policy analysis is resource-intensive and complex, lacks comprehensive central information sources, and is prone to overlapping jurisdictions. We propose a Knowledge Management Framework based on Natural Language Processing (NLP) techniques that would tackle these challenges and automate repetitive tasks, reducing the policy analysis process from weeks to minutes. Our framework was designed in collaboration with policy analysis experts and made to be platform-, language- and policy-agnostic. In this paper, we describe the design of the NLP pipeline, review the state-of-the-art methods for each of its components, and discuss the challenges that rise when building a framework oriented towards policy analysis.
翻訳日:2022-01-23 18:15:23 公開日:2022-01-08
# テキスト分類における停止セットがアクティブ学習の停止に及ぼす影響

Impact of Stop Sets on Stopping Active Learning for Text Classification ( http://arxiv.org/abs/2201.05460v1 )

ライセンス: Link先を確認
Luke Kurlandski and Michael Bloodgood(参考訳) アクティブ・ラーニングは機械学習の重要な分野であり、自然言語処理の強力な技術である。 アクティブラーニングの主な利点は、高性能モデルを学ぶのに必要なラベル付きデータの量を減らすことができることである。 効果的なアクティブラーニングアルゴリズムの重要な側面は、追加のラベル付きデータを取得するのをやめるタイミングの決定である。 いくつかの最先端の停止方法は、この決定にストップセットを使用する。 しかし、停止セットに適用される停止アルゴリズムよりも、停止セットの選択に比較的注意が向けられている。 停止セットの異なる選択は、停止メソッドのパフォーマンスに重大な違いをもたらす可能性がある。 異なる停止方法に対する異なる停止セットの選択の影響について検討する。 本稿では,停止セットの選択が停止手法の性能に重大な影響を与えることを示し,安定性に基づく手法と信頼性に基づく手法との相違点を示す。 さらに,提案手法の原著者が提案する偏りのない代表停止セットは,最近公表された作業で使用される体系的に偏りのある停止セットよりもよく動作し,不安定な代表停止セットを使用する場合,安定化予測に基づく停止手法は信頼度に基づく停止方法よりも強い性能を示す。 我々は,これまでで最大の実験結果が停止セットに与える影響について報告する。 この知見は、最近発表された研究で過小評価されており、技術支援レビューやテキスト分類といった重要な意味論的コンピューティングアプリケーションにおける停止メソッドのパフォーマンスに大きな実用的影響を与えうる停止メソッドのこの重要な側面の影響を照らすのに役立ちます。

Active learning is an increasingly important branch of machine learning and a powerful technique for natural language processing. The main advantage of active learning is its potential to reduce the amount of labeled data needed to learn high-performing models. A vital aspect of an effective active learning algorithm is the determination of when to stop obtaining additional labeled data. Several leading state-of-the-art stopping methods use a stop set to help make this decision. However, there has been relatively less attention given to the choice of stop set than to the stopping algorithms that are applied on the stop set. Different choices of stop sets can lead to significant differences in stopping method performance. We investigate the impact of different stop set choices on different stopping methods. This paper shows the choice of the stop set can have a significant impact on the performance of stopping methods and the impact is different for stability-based methods from that on confidence-based methods. Furthermore, the unbiased representative stop sets suggested by original authors of methods work better than the systematically biased stop sets used in recently published work, and stopping methods based on stabilizing predictions have stronger performance than confidence-based stopping methods when unbiased representative stop sets are used. We provide the largest quantity of experimental results on the impact of stop sets to date. The findings are important for helping to illuminate the impact of this important aspect of stopping methods that has been under-considered in recently published work and that can have a large practical impact on the performance of stopping methods for important semantic computing applications such as technology assisted review and text classification more broadly.
翻訳日:2022-01-23 18:15:07 公開日:2022-01-08
# (参考訳) クロスエントロピー損失による多視点非負行列分解判別学習 [全文訳有]

Multi-View Non-negative Matrix Factorization Discriminant Learning via Cross Entropy Loss ( http://arxiv.org/abs/2201.04726v1 )

ライセンス: CC BY 4.0
Jian-wei Liu, Yuan-fang Wang, Run-kun Lu, Xionglin Luo(参考訳) マルチビュー学習は、同一オブジェクトの異なるビュー間の関係を利用して分類のタスク目標を達成する。 ほとんどの既存メソッドは、通常、複数のビュー間の一貫性と相補性に焦点を当てている。 しかし、これらの情報は分類タスクに有用ではない。 その代わり、重要な役割を果たす特定の識別情報である。 zhong zhangらは、共同の非負の行列因子分解を通じて、異なる視点における共通およびビュー特有の部分における差別的および非差別的情報の存在を探求する。 本稿では, クロスエントロピー損失関数を用いて, 目的関数の制約を改善することにより, この基底関数のアルゴリズムを改良する。 最終的に、同じデータセット上でオリジナルよりも優れた分類効果を実装し、多くの最先端アルゴリズムよりもその優位性を示す。

Multi-view learning accomplishes the task objectives of classification by leverag-ing the relationships between different views of the same object. Most existing methods usually focus on consistency and complementarity between multiple views. But not all of this information is useful for classification tasks. Instead, it is the specific discriminating information that plays an important role. Zhong Zhang et al. explore the discriminative and non-discriminative information exist-ing in common and view-specific parts among different views via joint non-negative matrix factorization. In this paper, we improve this algorithm on this ba-sis by using the cross entropy loss function to constrain the objective function better. At last, we implement better classification effect than original on the same data sets and show its superiority over many state-of-the-art algorithms.
翻訳日:2022-01-16 16:16:43 公開日:2022-01-08
# VGAER:グラフニューラルネットワークを用いたコミュニティ検出

VGAER: graph neural network reconstruction based community detection ( http://arxiv.org/abs/2201.04066v1 )

ライセンス: Link先を確認
Chenyang Qiu, Zhaoci Huang, Wenzhe Xu, and Huijia Li(参考訳) ネットワーク科学において、コミュニティ検出は基本的かつ重要な問題であるが、グラフニューラルネットワークに基づくコミュニティ検出アルゴリズムはごくわずかであり、教師なしのアルゴリズムはほとんど空白である。 本稿では,高次モジュール情報とネットワーク特徴を融合して,変動グラフの自動エンコーダ再構成によるコミュニティ検出vgaerを初めて提案し,その非確率バージョンを提案する。 事前の情報は一切必要としない。 我々は、コミュニティ検出タスクに基づく入力機能、デコーダ、下流タスクを慎重に設計し、これらの設計は簡潔で自然であり、性能も良好である(設計時のNMI値は59.1%から565.9%向上している)。 幅広いデータセットと高度な手法による一連の実験に基づいて、VGAERは優れた性能を達成し、よりシンプルな設計で強力な競争力と可能性を示している。 最後に,アルゴリズム収束解析とt-sne可視化の結果について報告する。 私たちのコードはhttps://github.com/q cydm/vgaerで利用可能です。

Community detection is a fundamental and important issue in network science, but there are only a few community detection algorithms based on graph neural networks, among which unsupervised algorithms are almost blank. By fusing the high-order modularity information with network features, this paper proposes a Variational Graph AutoEncoder Reconstruction based community detection VGAER for the first time, and gives its non-probabilistic version. They do not need any prior information. We have carefully designed corresponding input features, decoder, and downstream tasks based on the community detection task and these designs are concise, natural, and perform well (NMI values under our design are improved by 59.1% - 565.9%). Based on a series of experiments with wide range of datasets and advanced methods, VGAER has achieved superior performance and shows strong competitiveness and potential with a simpler design. Finally, we report the results of algorithm convergence analysis and t-SNE visualization, which clearly depicted the stable performance and powerful network modularity ability of VGAER. Our codes are available at https://github.com/q cydm/VGAER.
翻訳日:2022-01-12 14:24:34 公開日:2022-01-08
# (参考訳) 画像美的品質評価のための擬似ラベリングとメタリヘアリング学習 [全文訳有]

Pseudo-labelling and Meta Reweighting Learning for Image Aesthetic Quality Assessment ( http://arxiv.org/abs/2201.02714v1 )

ライセンス: CC BY 4.0
Xin Jin, Hao Lou, Huang Heng, Xiaodong Li, Shuai Cui, Xiaokun Zhang, Xiqiao Li(参考訳) 画像の美的品質評価のタスクでは、美的データセットの正規分布のため、高いスコア領域と低いスコア領域の両方に到達することは困難である。 ラベル付けにおける誤差を低減し, 正規データ分散の問題を解決するために, AMD-CRと呼ばれる分類と回帰を伴う新しい美的混合データセットを提案し, トレーニングデータの損失を異なる方法で強調するためにメタリウェイトネットワークを訓練する。 さらに,バイナリ分類タスクの擬似ラベルに基づいて,異なる段階に応じたトレーニング戦略を提供し,その上で,分類タスクと回帰タスクの異なる段階による美的トレーニングに使用する。 ネットワーク構造の構築において,入力画像の任意のサイズに適応可能な美的適応ブロック(aab)構造を構築する。 また,各タスクの特徴抽出能力を高めるために,効率的なチャネルアテンション(ECA)も活用する。 実験の結果, 従来のSROCC法に比べて0.1112の改善が認められた。 この方法は、無人航空機(uav)や車両の最適な美的経路計画を見つけるのにも役立つ。

In the tasks of image aesthetic quality evaluation, it is difficult to reach both the high score area and low score area due to the normal distribution of aesthetic datasets. To reduce the error in labeling and solve the problem of normal data distribution, we propose a new aesthetic mixed dataset with classification and regression called AMD-CR, and we train a meta reweighting network to reweight the loss of training data differently. In addition, we provide a training strategy acccording to different stages, based on pseudo labels of the binary classification task, and then we use it for aesthetic training acccording to different stages in classification and regression tasks. In the construction of the network structure, we construct an aesthetic adaptive block (AAB) structure that can adapt to any size of the input images. Besides, we also use the efficient channel attention (ECA) to strengthen the feature extracting ability of each task. The experimental result shows that our method improves 0.1112 compared with the conventional methods in SROCC. The method can also help to find best aesthetic path planning for unmanned aerial vehicles (UAV) and vehicles.
翻訳日:2022-01-12 09:20:48 公開日:2022-01-08
# (参考訳) 機械学習による疾患診断:ビブリオメトリ分析 [全文訳有]

Machine Learning-Based Disease Diagnosis:A Bibliometric Analysis ( http://arxiv.org/abs/2201.02755v1 )

ライセンス: CC BY 4.0
Md Manjurul Ahsan, Zahed Siddique(参考訳) 機械学習(ML)は、疾患診断の新しい適応可能なツールとして、研究者や実践家からかなりの注目を集めている。 MLの進歩と本分野における論文・研究の普及に伴い,機械学習による疾患診断(MLBDD)の完全検査が必要である。 文献学の観点からは、この記事は2012年から2021年までのMLBDD論文を包括的に研究する。 その結果、特定のキーワードを用いて、Scopus and Web of Science (WOS)データベースから関連情報を持つ1710の論文を抽出し、さらに分析するために排他的データシートに統合した。 まず,年間刊行物に基づく出版構造と,最も生産的な国・地域・機関・著者について検討する。 第2に、R-studioソフトウェアを用いて、国・地域・機関・著者・記事の共引用ネットワークを可視化する。 引用構造や最も影響力のあるものについても検討されている。 本稿では、このテーマに関心のある研究者を対象にMLBDDの概要を説明し、この分野のさらなる研究に興味がある人のために、MLBDDの徹底的で完全な研究を行う。

Machine Learning (ML) has garnered considerable attention from researchers and practitioners as a new and adaptable tool for disease diagnosis. With the advancement of ML and the proliferation of papers and research in this field, a complete examination of Machine Learning-Based Disease Diagnosis (MLBDD) is required. From a bibliometrics standpoint, this article comprehensively studies MLBDD papers from 2012 to 2021. Consequently, with particular keywords, 1710 papers with associate information have been extracted from the Scopus and Web of Science (WOS) database and integrated into the excel datasheet for further analysis. First, we examine the publication structures based on yearly publications and the most productive countries/regions, institutions, and authors. Second, the co-citation networks of countries/regions, institutions, authors, and articles are visualized using R-studio software. They are further examined in terms of citation structure and the most influential ones. This article gives an overview of MLBDD for researchers interested in the subject and conducts a thorough and complete study of MLBDD for those interested in conducting more research in this field.
翻訳日:2022-01-12 09:06:37 公開日:2022-01-08
# (参考訳) 視覚トランスフォーマーの四分木注意 [全文訳有]

QuadTree Attention for Vision Transformers ( http://arxiv.org/abs/2201.02767v1 )

ライセンス: CC BY 4.0
Shitao Tang, Jiahui Zhang, Siyu Zhu, Ping Tan(参考訳) トランスフォーマは、長距離依存性を捉える能力のおかげで、多くのビジョンタスクで成功しています。 しかし、それらの二次計算複雑性は、物体検出、特徴マッチング、ステレオなど、密な予測を必要とするビジョンタスクに適用する上で大きな障害となる。 計算複雑性を2次から線形に低減するQuadTree Attentionを導入する。 我々のクアッドツリートランスフォーマーはトークンピラミッドを構築し、粗い方法で注意を計算します。 各レベルにおいて、注目スコアが最も高いトップKパッチが選択され、次のレベルでは、これらのトップKパッチに対応する関連領域内でのみ注意が評価される。 例えば、ScanNetにおける特徴マッチングの4.0%改善、ステレオマッチングの50%フロップ削減、ImageNet分類の0.4-1.5%改善、COCOオブジェクト検出の1.2-1.8%改善、従来の最先端トランスフォーマーよりもセマンティックセグメンテーションの0.7-2.4%改善などである。 コードはhttps://github.com/T angshitao/QuadtreeAt tention}{https://github.com/T angshitao/QuadtreeAt tentionで公開されている。

Transformers have been successful in many vision tasks, thanks to their capability of capturing long-range dependency. However, their quadratic computational complexity poses a major obstacle for applying them to vision tasks requiring dense predictions, such as object detection, feature matching, stereo, etc. We introduce QuadTree Attention, which reduces the computational complexity from quadratic to linear. Our quadtree transformer builds token pyramids and computes attention in a coarse-to-fine manner. At each level, the top K patches with the highest attention scores are selected, such that at the next level, attention is only evaluated within the relevant regions corresponding to these top K patches. We demonstrate that quadtree attention achieves state-of-the-art performance in various vision tasks, e.g. with 4.0% improvement in feature matching on ScanNet, about 50% flops reduction in stereo matching, 0.4-1.5% improvement in top-1 accuracy on ImageNet classification, 1.2-1.8% improvement on COCO object detection, and 0.7-2.4% improvement on semantic segmentation over previous state-of-the-art transformers. The codes are available at https://github.com/T angshitao/QuadtreeAt tention}{https://github.com/T angshitao/QuadtreeAt tention.
翻訳日:2022-01-12 08:57:46 公開日:2022-01-08
# (参考訳) 逆数支配入力を用いた垂直協調学習システムへの攻撃 [全文訳有]

Attacking Vertical Collaborative Learning System Using Adversarial Dominating Inputs ( http://arxiv.org/abs/2201.02775v1 )

ライセンス: CC BY 4.0
Qi Pang, Yuanyuan Yuan, Shuai Wang(参考訳) 近年,垂直統合学習(VFL)システムと呼ばれる垂直協調学習システムは,中央集権化を必要とせず,複数のソースに分散したデータを処理する概念として注目されている。 複数の参加者が、プライバシ保護の方法で、ローカルデータに基づいたモデルを共同でトレーニングします。 これまでVFLは、組織間のモデルを安全に学習し、個々の組織のプライバシーを損なうことなく知識を共有するための事実上のソリューションになっています。 vflシステムの繁栄にもかかわらず、adversarial dominating inputs(adis)と呼ばれる参加者の特定の入力が、敵の意志の方向に向かって共同推論を支配でき、他の(決定的な)参加者に無視できる貢献を強制し、協調学習シナリオにおける貢献の重要性に関する報酬を失うことを発見した。 まず,典型的なvflシステムにおけるadisの存在を実証し,adisの系統的研究を行う。 次に、様々なフォーマットのADIを合成し、一般的なVFLシステムを利用する勾配に基づく手法を提案する。 さらにgreybox fuzz testをローンチし、"勝利"参加者のレジリエンススコアに導かれ、敵が制御する入力を乱し、プライバシ保護の方法でvfl攻撃面を体系的に探索する。 我々は、ADIの合成における臨界パラメータと設定の影響について詳細な研究を行う。 本研究では,新たなvfl攻撃の機会を明らかにし,侵入前に未知の脅威を特定し,よりセキュアなvflシステムを構築する。

Vertical collaborative learning system also known as vertical federated learning (VFL) system has recently become prominent as a concept to process data distributed across many individual sources without the need to centralize it. Multiple participants collaboratively train models based on their local data in a privacy-preserving manner. To date, VFL has become a de facto solution to securely learn a model among organizations, allowing knowledge to be shared without compromising privacy of any individual organizations. Despite the prosperous development of VFL systems, we find that certain inputs of a participant, named adversarial dominating inputs (ADIs), can dominate the joint inference towards the direction of the adversary's will and force other (victim) participants to make negligible contributions, losing rewards that are usually offered regarding the importance of their contributions in collaborative learning scenarios. We conduct a systematic study on ADIs by first proving their existence in typical VFL systems. We then propose gradient-based methods to synthesize ADIs of various formats and exploit common VFL systems. We further launch greybox fuzz testing, guided by the resiliency score of "victim" participants, to perturb adversary-controlled inputs and systematically explore the VFL attack surface in a privacy-preserving manner. We conduct an in-depth study on the influence of critical parameters and settings in synthesizing ADIs. Our study reveals new VFL attack opportunities, promoting the identification of unknown threats before breaches and building more secure VFL systems.
翻訳日:2022-01-12 08:36:42 公開日:2022-01-08
# (参考訳) AI強化CAIツールの最大許容レイテンシの定義 [全文訳有]

Defining maximum acceptable latency of AI-enhanced CAI tools ( http://arxiv.org/abs/2201.02792v1 )

ライセンス: CC BY 4.0
Claudio Fantinuoli, Maddalena Montecchio(参考訳) 近年,統合された自動音声処理によるコンピュータ支援解釈ツールの設計や,研修生やプロの通訳による利用に関する研究が増えている。 本稿では,このようなツールのシステム遅延の役割について論じ,同時に作業するインタプリタに対して認知的に許容される最大システムの遅延を調査するための実験結果を示す。 その結果、インタプリタは、精度とフラレンシーの両面で、元のテキストのランディングに大きな影響を与えずに、システムのレイテンシーを3秒で処理できることがわかった。 この値は、利用可能なAIベースのCAIツールの典型的なレイテンシよりも高く、より大きなコンテキストベースの言語モデルとより高いレイテンシで実験する方法を舗装している。

Recent years have seen an increasing number of studies around the design of computer-assisted interpreting tools with integrated automatic speech processing and their use by trainees and professional interpreters. This paper discusses the role of system latency of such tools and presents the results of an experiment designed to investigate the maximum system latency that is cognitively acceptable for interpreters working in the simultaneous modality. The results show that interpreters can cope with a system latency of 3 seconds without any major impact in the rendition of the original text, both in terms of accuracy and fluency. This value is above the typical latency of available AI-based CAI tools and paves the way to experiment with larger context-based language models and higher latencies.
翻訳日:2022-01-12 07:42:00 公開日:2022-01-08
# (参考訳) 自動医療コーディングのための深層学習の統一的レビュー [全文訳有]

A Unified Review of Deep Learning for Automated Medical Coding ( http://arxiv.org/abs/2201.02797v1 )

ライセンス: CC BY 4.0
Shaoxiong Ji and Wei Sun and Hang Dong and Honghan Wu and Pekka Marttinen(参考訳) 医療の運用と提供に不可欠な医療コードの自動作成は、臨床文書から医療コードを予測することによって、構造化されていないデータを管理可能にする。 自然言語処理におけるディープラーニングモデルの最近の進歩がこの課題に広く応用されている。 しかし、医療コーディングのためのニューラルネットワークアーキテクチャの設計の統一的なビューは欠如している。 本稿では,医学的コーディングモデルの構築ブロックを総合的に理解するための統一的なフレームワークを提案し,提案フレームワークに基づく最近の高度なモデルを要約する。 統合されたフレームワークは、テキスト特徴抽出のためのエンコーダモジュール、ディープエンコーダアーキテクチャを構築するためのメカニズム、隠れた表現を医療コードに変換するデコーダモジュール、補助情報の使用の4つの主要コンポーネントに分解する。 最後に,重要な研究課題と今後の方向性について論じる。

Automated medical coding, an essential task for healthcare operation and delivery, makes unstructured data manageable by predicting medical codes from clinical documents. Recent advances in deep learning models in natural language processing have been widely applied to this task. However, it lacks a unified view of the design of neural network architectures for medical coding. This review proposes a unified framework to provide a general understanding of the building blocks of medical coding models and summarizes recent advanced models under the proposed framework. Our unified framework decomposes medical coding into four main components, i.e., encoder modules for text feature extraction, mechanisms for building deep encoder architectures, decoder modules for transforming hidden representations into medical codes, and the usage of auxiliary information. Finally, we discuss key research challenges and future directions.
翻訳日:2022-01-12 07:34:45 公開日:2022-01-08
# (参考訳) RARA: 前景を追尾するゼロショットSim2ビジュアルナビゲーション [全文訳有]

RARA: Zero-shot Sim2Real Visual Navigation with Following Foreground Cues ( http://arxiv.org/abs/2201.02798v1 )

ライセンス: CC BY 4.0
Klaas Kelchtermans, Tinne Tuytelaars(参考訳) シミュレーションと現実世界のギャップは、コンピュータビジョンや強化学習における多くの機械学習のブレークスルーを現実の世界に適用できないようにしている。 本研究では、このギャップをカメラベースのナビゲーションの特定の場合に適用し、任意の背景を持つ前景の視覚的キューに従って定式化する。 前景の視覚的なキューは、線、ゲート、円錐などの現実的にシミュレートすることができる。 課題は、未知のバックグラウンドに対処し、両方を統合することだ。 そのため、この前景のキューを除いて、空のシミュレーション環境でキャプチャされたデータに視覚エージェントを訓練し、視覚的に多様な現実世界で直接このモデルをテストすることが目的である。 この大きなギャップを埋めるために、前景と背景のランダム化、深い監督と三重項損失の両方による正規化、そして直接のベロシティコマンドではなく waypoints を使って最終的にダイナミクスを抽象化するといったテクニックを組み合わせることが重要となる。 実験結果を質的に, 定量的に, シミュレーションから実世界への移動を成功に導くために, 様々な手法を編み出した。

The gap between simulation and the real-world restrains many machine learning breakthroughs in computer vision and reinforcement learning from being applicable in the real world. In this work, we tackle this gap for the specific case of camera-based navigation, formulating it as following a visual cue in the foreground with arbitrary backgrounds. The visual cue in the foreground can often be simulated realistically, such as a line, gate or cone. The challenge then lies in coping with the unknown backgrounds and integrating both. As such, the goal is to train a visual agent on data captured in an empty simulated environment except for this foreground cue and test this model directly in a visually diverse real world. In order to bridge this big gap, we show it's crucial to combine following techniques namely: Randomized augmentation of the fore- and background, regularization with both deep supervision and triplet loss and finally abstraction of the dynamics by using waypoints rather than direct velocity commands. The various techniques are ablated in our experimental results both qualitatively and quantitatively finally demonstrating a successful transfer from simulation to the real world.
翻訳日:2022-01-12 07:18:23 公開日:2022-01-08
# (参考訳) 注意によるクラスタリングテキスト [全文訳有]

Clustering Text Using Attention ( http://arxiv.org/abs/2201.02816v1 )

ライセンス: CC BY 4.0
Lovedeep Singh(参考訳) テキストのクラスタリングは自然言語処理の分野で重要な問題となっている。 文脈的または非文脈的ベクトル空間表現の上に、従来のクラスタリング技術を使ってテキストをクラスタ化する技術はあるが、これらの技術の性能と実装の様々な改善が可能で、依然として一般的な研究分野である。 本稿では,注意機構を用いたテキストのクラスタリング手法について述べる。 注意機構は近年,様々なNLPタスクにおいて極めて有効であることが証明されている。 本稿では,クラスタリング空間における注意機構の考え方を拡張し,全く新しい研究領域に光を当てる。

Clustering Text has been an important problem in the domain of Natural Language Processing. While there are techniques to cluster text based on using conventional clustering techniques on top of contextual or non-contextual vector space representations, it still remains a prevalent area of research possible to various improvements in performance and implementation of these techniques. This paper discusses a novel technique to cluster text using attention mechanisms. Attention Mechanisms have proven to be highly effective in various NLP tasks in recent times. This paper extends the idea of attention mechanism in clustering space and sheds some light on a whole new area of research
翻訳日:2022-01-12 07:06:20 公開日:2022-01-08
# (参考訳) 完全畳み込みネットワークによる空間多重化を実現する再構成可能なインテリジェント表面 [全文訳有]

Reconfigurable Intelligent Surface Enabled Spatial Multiplexing with Fully Convolutional Network ( http://arxiv.org/abs/2201.02834v1 )

ライセンス: CC BY 4.0
Bile Peng, Jan-Aike Term\"ohlen, Cong Sun, Danping He, Ke Guan, Tim Fingscheidt, Eduard A. Jorswieck(参考訳) reconfigurable intelligent surface (ris) は将来の無線通信システムのための新しい技術である。 本研究では,重み付き和率(wsr)最大化のためのrisによって実現されるダウンリンク空間多重化について検討する。 文献では、ほとんどのソリューションは、適度なパフォーマンス、高い複雑さ、限られたスケーラビリティを持つ、交互に勾配ベースの最適化を使用する。 そこで本研究では,画像のセマンティクスセグメンテーションのために設計された完全畳み込みネットワーク (fcn) を適用することを提案する。 RISの長方形形状と、近辺のRISアンテナとのチャネルの空間的相関は、それら間の距離が短いため、RIS構成に適用することが奨励される。 我々は、RISとダイレクトチャネルを経由するカスケードチャネルを含む一連のチャネル機能を設計する。 基地局(BS)では、事前訓練には微分可能な最小平均二乗誤差(MMSE)プリコーダを使用し、さらに微調整には重み付き最小二乗誤差(WMMSE)プリコーダを適用する。 評価の結果,提案手法は性能が向上し,ベースラインよりも高速な評価が可能であった。 そのため、多数のアンテナにスケーラビリティが向上し、RISは実用的な展開に一歩近づいた。

Reconfigurable intelligent surface (RIS) is an emerging technology for future wireless communication systems. In this work, we consider downlink spatial multiplexing enabled by the RIS for weighted sum-rate (WSR) maximization. In the literature, most solutions use alternating gradient-based optimization, which has moderate performance, high complexity, and limited scalability. We propose to apply a fully convolutional network (FCN) to solve this problem, which was originally designed for semantic segmentation of images. The rectangular shape of the RIS and the spatial correlation of channels with adjacent RIS antennas due to the short distance between them encourage us to apply it for the RIS configuration. We design a set of channel features that includes both cascaded channels via the RIS and the direct channel. In the base station (BS), the differentiable minimum mean squared error (MMSE) precoder is used for pretraining and the weighted minimum mean squared error (WMMSE) precoder is then applied for fine-tuning, which is nondifferentiable, more complex, but achieves a better performance. Evaluation results show that the proposed solution has higher performance and allows for a faster evaluation than the baselines. Hence it scales better to a large number of antennas, advancing the RIS one step closer to practical deployment.
翻訳日:2022-01-12 07:00:39 公開日:2022-01-08
# (参考訳) uav車両再識別のための自己整合型空間特徴抽出ネットワーク [全文訳有]

Self-aligned Spatial Feature Extraction Network for UAV Vehicle Re-identification ( http://arxiv.org/abs/2201.02836v1 )

ライセンス: CC BY 4.0
Aihuan Yao, Jiahao Qi, Ping Zhong(参考訳) 固定監視カメラによって収集されたデータセットによる既存の車両再識別(ReID)タスクと比較して、無人航空機(UAV)用の車両ReIDはまだ未調査であり、より難しい可能性がある。 同じ色とタイプを持つ車両は、UAVの視点と非常によく似た外観を示し、精細な特性の採掘が必要である。 最近の研究は、地域的特徴と構成要素的特徴による識別情報を抽出する傾向がある。 前者は入力画像のアライメントを必要とし、後者は詳細なアノテーションを伴っており、どちらもuavアプリケーションでは実現が難しい。 効率的なきめ細かな特徴を抽出し,退屈な注釈付け作業を避けるため,この手紙は3つの枝からなる教師なしの自己整合ネットワークを開発する。 ネットワークは,空間的特徴を考慮した三重損失関数の制約下で実装された,可変方向の入力画像を一様方向に変換する自己調整モジュールを導入した。 そこで, 縦・横分割法により得られた空間的特徴と大域的特徴を統合し, 組込み空間における表現能力を向上する。 uav-veidデータセットで広範な実験を行い,最近のreid処理と比較して,最高の性能を実現する。

Compared with existing vehicle re-identification (ReID) tasks conducted with datasets collected by fixed surveillance cameras, vehicle ReID for unmanned aerial vehicle (UAV) is still under-explored and could be more challenging. Vehicles with the same color and type show extremely similar appearance from the UAV's perspective so that mining fine-grained characteristics becomes necessary. Recent works tend to extract distinguishing information by regional features and component features. The former requires input images to be aligned and the latter entails detailed annotations, both of which are difficult to meet in UAV application. In order to extract efficient fine-grained features and avoid tedious annotating work, this letter develops an unsupervised self-aligned network consisting of three branches. The network introduced a self-alignment module to convert the input images with variable orientations to a uniform orientation, which is implemented under the constraint of triple loss function designed with spatial features. On this basis, spatial features, obtained by vertical and horizontal segmentation methods, and global features are integrated to improve the representation ability in embedded space. Extensive experiments are conducted on UAV-VeID dataset, and our method achieves the best performance compared with recent ReID works.
翻訳日:2022-01-12 06:38:51 公開日:2022-01-08
# (参考訳) クロスシナリオビデオ時間グラウンドにおける学習サンプルの重要性 [全文訳有]

Learning Sample Importance for Cross-Scenario Video Temporal Grounding ( http://arxiv.org/abs/2201.02848v1 )

ライセンス: CC BY 4.0
Peijun Bao, Yadong Mu(参考訳) 時間的グラウンド化の課題は、与えられた文問合せを用いて、未編集のビデオ中の映像モーメントを見つけることである。 本稿では,時間的接地作業に特有の表面バイアスを初めて検討し,新たな対象解を提案する。 注意すべきことに、既存の時間的基底モデルは、視覚的モーダルにおけるいくつかのバイアス(例えば、頻繁な概念や特定の時間的間隔に対する高い嗜好)に大きく依存している。 これにより、クロススセナリオテスト設定でモデルを一般化した場合のパフォーマンスが低下する。 そこで本研究では,モデルが偏りを暗記することを防止し,真のモーダル間関係に基づく問合せ文の接地を強制する,debiased temporal language localizer (debiastll) という新しい手法を提案する。 debias-tllは同時に2つのモデルを訓練する。 私たちの設計では、サンプルを判断する際の2つのモデルの予測の差が大きいため、バイアスのあるサンプルとなる確率が高いことが判明した。 情報格差を生かして,データのバイアスを軽減するためのデータ再構成方式を考案する。 列車/試験データを不均質にソースするクロススセナリオ時空間接地において,提案モデルを評価する。 実験により,提案手法が最先端の競合相手と比較して大きな優位性を示した。

The task of temporal grounding aims to locate video moment in an untrimmed video, with a given sentence query. This paper for the first time investigates some superficial biases that are specific to the temporal grounding task, and proposes a novel targeted solution. Most alarmingly, we observe that existing temporal ground models heavily rely on some biases (e.g., high preference on frequent concepts or certain temporal intervals) in the visual modal. This leads to inferior performance when generalizing the model in cross-scenario test setting. To this end, we propose a novel method called Debiased Temporal Language Localizer (DebiasTLL) to prevent the model from naively memorizing the biases and enforce it to ground the query sentence based on true inter-modal relationship. Debias-TLL simultaneously trains two models. By our design, a large discrepancy of these two models' predictions when judging a sample reveals higher probability of being a biased sample. Harnessing the informative discrepancy, we devise a data re-weighing scheme for mitigating the data biases. We evaluate the proposed model in cross-scenario temporal grounding, where the train / test data are heterogeneously sourced. Experiments show large-margin superiority of the proposed method in comparison with state-of-the-art competitors.
翻訳日:2022-01-12 06:31:11 公開日:2022-01-08
# (参考訳) スケルトンベース動作認識のための時空間タプル変換器 [全文訳有]

Spatio-Temporal Tuples Transformer for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2201.02849v1 )

ライセンス: CC BY 4.0
Helei Qiu, Biao Hou, Bo Ren and Xiaohua Zhang(参考訳) 関節間の依存関係の捕捉は骨格に基づく行動認識タスクにおいて重要である。 変圧器は重要な関節の相関をモデル化する大きな可能性を示す。 しかし、既存のトランスフォーマー方式では、フレーム間の異なる関節の相関を捉えることができないため、隣接するフレーム間で異なる体部(「長いジャンプ」時の腕や脚など)が一緒に動くため、その相関は非常に有用である。 この問題に焦点をあて、新しい時空間タプル変換器(STTFormer)法を提案する。 骨格配列を複数の部分に分け、各部分に含まれる複数の連続したフレームを符号化する。 そして、連続するフレームにおける異なる関節の関係を捉えるために、時空間タプル自己アテンションモジュールを提案する。 さらに、非隣接フレーム間で機能集約モジュールが導入され、類似したアクションを識別する能力が向上する。 最先端の手法と比較して,2つの大規模データセットで性能が向上した。

Capturing the dependencies between joints is critical in skeleton-based action recognition task. Transformer shows great potential to model the correlation of important joints. However, the existing Transformer-based methods cannot capture the correlation of different joints between frames, which the correlation is very useful since different body parts (such as the arms and legs in "long jump") between adjacent frames move together. Focus on this problem, A novel spatio-temporal tuples Transformer (STTFormer) method is proposed. The skeleton sequence is divided into several parts, and several consecutive frames contained in each part are encoded. And then a spatio-temporal tuples self-attention module is proposed to capture the relationship of different joints in consecutive frames. In addition, a feature aggregation module is introduced between non-adjacent frames to enhance the ability to distinguish similar actions. Compared with the state-of-the-art methods, our method achieves better performance on two large-scale datasets.
翻訳日:2022-01-12 06:18:04 公開日:2022-01-08
# (参考訳) 機械ビジョンを用いたフェイクヒルサ魚検出 [全文訳有]

Fake Hilsa Fish Detection Using Machine Vision ( http://arxiv.org/abs/2201.02853v1 )

ライセンス: CC BY 4.0
Mirajul Islam, Jannatul Ferdous Ani, Abdur Rahman, Zakia Zaman(参考訳) ヒルサはバングラデシュの国産魚である。 バングラデシュはこの魚を輸出することで多くの外国通貨を稼いでいる。 残念ながら、最近は偽のヒルサ魚を売って利益を上げているビジネスマンもいます。 SardinesとSardinellaはHilsaの市場で最も売れている。 バングラデシュ政府機関(バングラデシュ食品安全局)は、これらの偽のヒルサ魚には、人間にとって有害な高いレベルのカドミウムと鉛が含まれていると述べた。 本研究では,原産のヒラサ魚と偽のヒラサ魚を容易に識別できる方法を提案する。 オンライン文献で利用可能な研究に基づいて,原産地のヒルサ魚を同定する研究を初めて行う。 オリジナルと偽造のHilsa魚の16,000枚以上の画像を集めました。 これらの画像の分類には、深層学習モデルを用いた。 その後、両者でパフォーマンスを比較した。 これらのモデルの中で、drknet201は97.02%の精度を達成した。

Hilsa is the national fish of Bangladesh. Bangladesh is earning a lot of foreign currency by exporting this fish. Unfortunately, in recent days, some unscrupulous businessmen are selling fake Hilsa fishes to gain profit. The Sardines and Sardinella are the most sold in the market as Hilsa. The government agency of Bangladesh, namely Bangladesh Food Safety Authority said that these fake Hilsa fish contain high levels of cadmium and lead which are detrimental for humans. In this research, we have proposed a method that can readily identify original Hilsa fish and fake Hilsa fish. Based on the research available on online literature, we are the first to do research on identifying original Hilsa fish. We have collected more than 16,000 images of original and counterfeit Hilsa fish. To classify these images, we have used several deep learning-based models. Then, the performance has been compared between them. Among those models, DenseNet201 achieved the highest accuracy of 97.02%.
翻訳日:2022-01-12 06:07:12 公開日:2022-01-08
# (参考訳) cryo-electron microscopにおけるボリューム再構成のための深部生成モデル [全文訳有]

Deep Generative Modeling for Volume Reconstruction in Cryo-Electron Microscop ( http://arxiv.org/abs/2201.02867v1 )

ライセンス: CC BY 4.0
Claire Donnat, Axel Levy, Frederic Poitevin, Nina Miolane(参考訳) 低温電子顕微鏡(cryo-EM)による生体分子の高分解能イメージングの最近の進歩は、分子体積の再構築のための新しい扉を開放し、生物学、化学、薬理学研究のさらなる進歩を約束している。 重要な道のりにもかかわらず、Cryo-EMデータ分析における大きな課題は、物理学者、構造生物学者、計算機科学者、統計学者、応用数学者からの洞察を必要とする、自然界における厳密で複雑な学際的な課題のままである。 一方, 生成モデルとエンドツーエンドの教師なし深層学習技術を組み合わせた次世代のボリューム再構成アルゴリズムでは, シミュレーションデータに対して有望な結果が得られた。 そこで本稿では,このような手法の普及と課題の学際的性質を踏まえ,高分解能cryo-emボリューム再構成のための深部生成モデリングの最近の進歩を批判的に検討する。 本日のレビューは (i)これらの新しい方法を比較して対比する一方で (ii)cryo-emの特定の背景を持たない5つの分野の科学者に親しみやすい用語を用いて、視点から提示すること。 このレビューは、Creo-EMボリューム再構成のための深部生成モデルの数学的および計算的課題の紹介と、このクラスのアルゴリズム間で共有されるベースライン方法論の概要から始まる。 これらの異なるモデルを通して共通のスレッドウィービングを確立し、これらの最先端のアルゴリズムを実践的に比較し、それらが依存する仮定とともに、それらの相対的な強みと弱みを強調します。 これにより、将来の研究のための現在の方法や道のボトルネックを特定できます。

Recent breakthroughs in high resolution imaging of biomolecules in solution with cryo-electron microscopy (cryo-EM) have unlocked new doors for the reconstruction of molecular volumes, thereby promising further advances in biology, chemistry, and pharmacological research amongst others. Despite significant headway, the immense challenges in cryo-EM data analysis remain legion and intricately inter-disciplinary in nature, requiring insights from physicists, structural biologists, computer scientists, statisticians, and applied mathematicians. Meanwhile, recent next-generation volume reconstruction algorithms that combine generative modeling with end-to-end unsupervised deep learning techniques have shown promising results on simulated data, but still face considerable hurdles when applied to experimental cryo-EM images. In light of the proliferation of such methods and given the interdisciplinary nature of the task, we propose here a critical review of recent advances in the field of deep generative modeling for high resolution cryo-EM volume reconstruction. The present review aims to (i) compare and contrast these new methods, while (ii) presenting them from a perspective and using terminology familiar to scientists in each of the five aforementioned fields with no specific background in cryo-EM. The review begins with an introduction to the mathematical and computational challenges of deep generative models for cryo-EM volume reconstruction, along with an overview of the baseline methodology shared across this class of algorithms. Having established the common thread weaving through these different models, we provide a practical comparison of these state-of-the-art algorithms, highlighting their relative strengths and weaknesses, along with the assumptions that they rely on. This allows us to identify bottlenecks in current methods and avenues for future research.
翻訳日:2022-01-12 05:59:06 公開日:2022-01-08
# (参考訳) 新しいモジュールアーキテクチャを用いた強化学習における政策・損失・計画の組み合わせの評価 [全文訳有]

Assessing Policy, Loss and Planning Combinations in Reinforcement Learning using a New Modular Architecture ( http://arxiv.org/abs/2201.02874v1 )

ライセンス: CC BY 4.0
Tiago Gaspar Oliveira and Arlindo L. Oliveira(参考訳) 計画アルゴリズムとニューラルネットワークモデルを用いたモデルベースの強化学習パラダイムは、最近様々なアプリケーションで前例のない結果をもたらし、現在ディープ強化学習と呼ばれている。 これらのエージェントは非常に複雑で、複数のコンポーネントを含む。 本研究では,このようなエージェントに適した新しいモジュール型ソフトウェアアーキテクチャと,モデルベースの強化学習エージェントを構築するために,再利用や組み立てが容易なビルディングブロックのセットを提案する。 これらのビルディングブロックには、計画アルゴリズム、ポリシー、損失関数が含まれる。 これらのビルディングブロックのいくつかを組み合わせて,cartpole,minigrid,t ictactoeという3つのテスト環境に最適化されたテストエージェントを実装し,テストする。 1つの特定の計画アルゴリズムは、我々の実装で利用可能であり、以前には強化学習に使用されていなかったが、我々は、平均化ミニマックスと呼び、3つのテスト環境で良い結果を得た。 このアーキテクチャで行った実験では、計画アルゴリズム、ポリシー、損失関数の最良の組み合わせは問題に依存することが示されている。 この結果は,新たな環境や技術の研究を望む強化学習研究者にとって,モジュール構造と再利用可能なアーキテクチャが有用であることを示す。

The model-based reinforcement learning paradigm, which uses planning algorithms and neural network models, has recently achieved unprecedented results in diverse applications, leading to what is now known as deep reinforcement learning. These agents are quite complex and involve multiple components, factors that can create challenges for research. In this work, we propose a new modular software architecture suited for these types of agents, and a set of building blocks that can be easily reused and assembled to construct new model-based reinforcement learning agents. These building blocks include planning algorithms, policies, and loss functions. We illustrate the use of this architecture by combining several of these building blocks to implement and test agents that are optimized to three different test environments: Cartpole, Minigrid, and Tictactoe. One particular planning algorithm, made available in our implementation and not previously used in reinforcement learning, which we called averaged minimax, achieved good results in the three tested environments. Experiments performed with this architecture have shown that the best combination of planning algorithm, policy, and loss function is heavily problem dependent. This result provides evidence that the proposed architecture, which is modular and reusable, is useful for reinforcement learning researchers who want to study new environments and techniques.
翻訳日:2022-01-12 05:20:06 公開日:2022-01-08
# (参考訳) 機能的細粒間ネットワークによるデフォーカスデブラル顕微鏡 [全文訳有]

Defocus Deblur Microscopy via feature interactive coarse-to-fine network ( http://arxiv.org/abs/2201.02876v1 )

ライセンス: CC0 1.0
Jiahe Wang, Boran Han(参考訳) 顕微鏡画像の明瞭さは生物学の研究と診断に不可欠である。 顕微鏡画像を細胞や分子レベルで撮影する場合、機械的ドリフトが発生し、対処が困難で拡大する可能性がある。 このような問題は、焦点を絞らないものから焦点を絞った顕微鏡画像を予測することができるエンドツーエンドのディープラーニングベースのワークフローを開発することで克服できる。 モデルでは、各レベルが互いに対応する畳み込み層と結合する多層U-net構造を採用する。 従来の粗粒度モデルとは対照的に,より微細なネットワークに転送された粗粒度ネットワークから抽出した知識を用いる。 モデルの性能を評価し,提案手法の有効性を確認し,既存のモデルと比較し,優れた性能を示した。

The clarity of microscopic images is vital in biology research and diagnosis. When taking microscopy images at cell or molecule level, mechanical drift occurs and could be difficult and expansive to counter. Such a problem could be overcome by developing an end-to-end deep learning-based workflow capable of predicting in focused microscopic images from out-of-focused counterparts. In our model, we adopt a structure of multi-level U-net, each level connected head-to-tail with corresponding convolution layers from each other. In contrast to the conventional coarse-to-fine model, our model uses the knowledge distilled from the coarse network transferred to the finer network. We evaluate the performance of our model and found our method to be effective and has a better performance by comparing the results with existing models.
翻訳日:2022-01-12 05:05:40 公開日:2022-01-08
# (参考訳) 遅延ラグランジアンによるオンライン学習の予測 [全文訳有]

Lazy Lagrangians with Predictions for Online Learning ( http://arxiv.org/abs/2201.02890v1 )

ライセンス: CC BY 4.0
Daron Anderson, George Iosifidis, and Douglas J. Leith(参考訳) 本稿では,次のコストと制約関数に対する予測の存在下で,時間変化を伴う付加的制約を伴うオンライン凸最適化の一般問題を考える。 Follow-The-Regulariz ed-Leaderイテレーションと予測適応動的ステップを組み合わせることで、新しい原始双対アルゴリズムを設計する。 このアルゴリズムは、$\mathcal O(T^{\frac{3-\beta}{4}})$ regret と $\mathcal O(T^{\frac{1+\beta}{2}})$ パラメータ$\beta\! イン! [1/2,1)$ であり、予測品質で減少し、最終的に$\mathcal o(1)$ の完全な予測を後悔する定数を持つ。 我々の研究は、この制約付きoco設定のためのftrlフレームワークを拡張し、予測の質、コスト関数、制約の幾何に条件を課さずに、それぞれの最先端の欲望ベースのソリューションよりも優れています。

We consider the general problem of online convex optimization with time-varying additive constraints in the presence of predictions for the next cost and constraint functions. A novel primal-dual algorithm is designed by combining a Follow-The-Regulariz ed-Leader iteration with prediction-adaptive dynamic steps. The algorithm achieves $\mathcal O(T^{\frac{3-\beta}{4}})$ regret and $\mathcal O(T^{\frac{1+\beta}{2}})$ constraint violation bounds that are tunable via parameter $\beta\!\in\![1/2,1)$ and have constant factors that shrink with the predictions quality, achieving eventually $\mathcal O(1)$ regret for perfect predictions. Our work extends the FTRL framework for this constrained OCO setting and outperforms the respective state-of-the-art greedy-based solutions, without imposing conditions on the quality of predictions, the cost functions or the geometry of constraints, beyond convexity.
翻訳日:2022-01-12 04:58:03 公開日:2022-01-08
# SGUIE-Net:マルチスケール知覚を用いた意味的注意誘導水中画像強調

SGUIE-Net: Semantic Attention Guided Underwater Image Enhancement with Multi-Scale Perception ( http://arxiv.org/abs/2201.02832v1 )

ライセンス: Link先を確認
Qi Qi, Kunqian Li, Haiyong Zheng, Xiang Gao, Guojia Hou, Kun Sun(参考訳) 波長依存性の光減衰、屈折、散乱のため、水中画像は通常、色歪みとぼやけた詳細に悩まされる。 しかし, 歪みのない画像が参照される水中画像が限られているため, 多様な劣化型に対する深層化モデルの訓練は非常に困難である。 データ駆動型アプローチの性能を高めるためには、限られたトレーニングサンプルリソースからよりリッチな教師付き情報を抽出するより効果的な学習メカニズムを確立することが不可欠である。 本稿では,SGUIE-Netと呼ばれる新しい水中画像強調ネットワークを提案する。 そこで本研究では,複数のスケールから異なる意味領域の劣化を知覚し,元のスケールから抽出したグローバルアテンション特徴にフィードバックする意味領域拡張モジュールを提案する。 この戦略は、異なる意味オブジェクトに対する堅牢で視覚的に快適な拡張を実現するのに役立つ。 さらに重要なことは、トレーニングサンプル分布で一般的でない分解型に対して、ガイダンスは、それらの意味的関連性に応じて、既に習得された型とそれらを結びつける。 公開データセットと提案データセットの大規模な実験により,SGUIE-Netの優れた性能が示された。 コードと提案されたデータセットは以下の通りである。

Due to the wavelength-dependent light attenuation, refraction and scattering, underwater images usually suffer from color distortion and blurred details. However, due to the limited number of paired underwater images with undistorted images as reference, training deep enhancement models for diverse degradation types is quite difficult. To boost the performance of data-driven approaches, it is essential to establish more effective learning mechanisms that mine richer supervised information from limited training sample resources. In this paper, we propose a novel underwater image enhancement network, called SGUIE-Net, in which we introduce semantic information as high-level guidance across different images that share common semantic regions. Accordingly, we propose semantic region-wise enhancement module to perceive the degradation of different semantic regions from multiple scales and feed it back to the global attention features extracted from its original scale. This strategy helps to achieve robust and visually pleasant enhancements to different semantic objects, which should thanks to the guidance of semantic information for differentiated enhancement. More importantly, for those degradation types that are not common in the training sample distribution, the guidance connects them with the already well-learned types according to their semantic relevance. Extensive experiments on the publicly available datasets and our proposed dataset demonstrated the impressive performance of SGUIE-Net. The code and proposed dataset are available at: https://trentqq.gith ub.io/SGUIE-Net.html
翻訳日:2022-01-11 17:41:28 公開日:2022-01-08
# 動的単画素イメージングとセンシングのための重み付き符号化最適化

Weighted Encoding Optimization for Dynamic Single-pixel Imaging and Sensing ( http://arxiv.org/abs/2201.02833v1 )

ライセンス: Link先を確認
Xinrui Zhan, Liheng Bian, Chunli Zhu, Jun Zhang(参考訳) シングルピクセル検出を使用することで、エンコーディングとデコードの両方を共同で最適化するエンドツーエンドニューラルネットワークは、高精度イメージングと高レベルセマンティックセンシングを可能にする。 しかし、様々なサンプリングレートにおいて、大規模ネットワークは、労力と計算に要する再訓練を必要とする。 本稿では,動的レート適応型単一画素撮像・センシングのための重み付き最適化手法について報告する。 具体的には,符号化過程で異なるパターンの変調効率を特徴付ける新しい重み付け方式を提案する。 ネットワークは高いサンプリングレートでトレーニングされている間、変調パターンと対応する重みを反復的に更新し、収束すると最適なランクエンコーディング系列を生成する。 実験では, 最も重みの高い最適パターン系列を用いて光変調を行い, 高効率なイメージングとセンシングを実現する。 報告された戦略は、既存の動的シングルピクセルネットワークに必要な他の低レートネットワークのトレーニングを省き、トレーニング効率をさらに倍にする。 MNISTデータセットの実験では、ネットワークをサンプリングレート1でトレーニングすると、平均画像PSNRはサンプリングレート0.1で23.50dBに達し、画像のない分類精度はサンプリングレート0.03で95.00\%、サンプリングレート0.1で97.91\%に達することが検証された。

Using single-pixel detection, the end-to-end neural network that jointly optimizes both encoding and decoding enables high-precision imaging and high-level semantic sensing. However, for varied sampling rates, the large-scale network requires retraining that is laboursome and computation-consumin g. In this letter, we report a weighted optimization technique for dynamic rate-adaptive single-pixel imaging and sensing, which only needs to train the network for one time that is available for any sampling rates. Specifically, we introduce a novel weighting scheme in the encoding process to characterize different patterns' modulation efficiency. While the network is training at a high sampling rate, the modulation patterns and corresponding weights are updated iteratively, which produces optimal ranked encoding series when converged. In the experimental implementation, the optimal pattern series with the highest weights are employed for light modulation, thus achieving highly-efficient imaging and sensing. The reported strategy saves the additional training of another low-rate network required by the existing dynamic single-pixel networks, which further doubles training efficiency. Experiments on the MNIST dataset validated that once the network is trained with a sampling rate of 1, the average imaging PSNR reaches 23.50 dB at 0.1 sampling rate, and the image-free classification accuracy reaches up to 95.00\% at a sampling rate of 0.03 and 97.91\% at a sampling rate of 0.1.
翻訳日:2022-01-11 17:41:05 公開日:2022-01-08
# 有毒なレビュー内容が製品全体の感情に及ぼす影響

Effect of Toxic Review Content on Overall Product Sentiment ( http://arxiv.org/abs/2201.02857v1 )

ライセンス: Link先を確認
Mayukh Mukhopadhyay and Sangeeta Sahney(参考訳) オンライン製品レビューにおける有害コンテンツは一般的な現象である。 内容が無礼、無礼、あるいは不合理であるときに有害であると認識され、個人が議論を離れる。 機械学習アルゴリズムは、販売側コミュニティがこのような有害なパターンを識別し、最終的にはそのような入力を適度にするのに役立つ。 しかし、現存の文献では、有毒なレビュー内容に晒された後の製品に対する認識に対する消費者の感想に関する情報は少ない。 本研究では,Google Playストアから3つのセクターに分離した18人のプレイヤーによるレビューコメントのバランスのとれたデータセットを収集する。 次に,個々のレビュー内容の文レベル感情と毒性スコアを算出する。 最後に, 構造方程式モデリングを用いて, 有害成分が製品全体の感情に及ぼす影響を定量的に研究する。 コメント毒性は製品全体の感情に悪影響を及ぼすが、レビュアースコアに対するメディア効果はセクターの相対評価に影響を及ぼさない。

Toxic contents in online product review are a common phenomenon. A content is perceived to be toxic when it is rude, disrespectful, or unreasonable and make individuals leave the discussion. Machine learning algorithms helps the sell side community to identify such toxic patterns and eventually moderate such inputs. Yet, the extant literature provides fewer information about the sentiment of a prospective consumer on the perception of a product after being exposed to such toxic review content. In this study, we collect a balanced data set of review comments from 18 different players segregated into three different sectors from google play-store. Then we calculate the sentence-level sentiment and toxicity score of individual review content. Finally, we use structural equation modelling to quantitatively study the influence of toxic content on overall product sentiment. We observe that comment toxicity negatively influences overall product sentiment but do not exhibit a mediating effect over reviewer score to influence sector-wise relative rating.
翻訳日:2022-01-11 17:35:49 公開日:2022-01-08
# pre-fall activity identificationを用いた転倒警報システム

A fall alert system with prior-fall activity identification ( http://arxiv.org/abs/2201.02803v1 )

ライセンス: Link先を確認
Pisol Ruenin, Sarayut Techakaew, Patsakorn Towatrakool and Jakarin Chawachat(参考訳) 特に高齢者において、転倒はケアとサーベイにとって重要な問題である。 転倒検出に焦点をあてた研究が数多く行われている。 しかし, 本調査では, 降雨前の活動を示す研究は行われておらず, 降雨の強度と強い相関関係があることが示唆された。 本研究の目的は,事前フォール活動の特定も行うフォールアラートシステムの開発である。 まず、体にセンサーを付けるのに適した場所を探したい。 さまざまなアクティビティデータを収集するマルチスポットオンボディデバイスを開発した。 このデータセットを使って、5つの異なる分類モデルをトレーニングしました。 XGBoost分類モデルを選択し, 検出精度の比較から, 転倒検出に使用する胸部位置と術前の転倒活動を検出する。 次に3つの既存の転倒検出しきい値アルゴリズムを用いて,まず膝の転倒を検知し,ChaitepとChawachatの3段階しきい値アルゴリズムを選択した[3]。 実験の結果, 転倒検出精度は88.91%, 膝への落下検出精度は91.25%, 前転倒検出率の平均は86.25%であった。 若年者から中高年者(18~49歳)の行動データセットを用いるが、このシステムは転倒前の活動、特に高齢者の活動をモニタして、介護者がより良く状況を管理することができると確信している。

Falling, especially in the elderly, is a critical issue to care for and surveil. There have been many studies focusing on fall detection. However, from our survey, there is still no research indicating the prior-fall activities, which we believe that they have a strong correlation with the intensity of the fall. The purpose of this research is to develop a fall alert system that also identifies prior-fall activities. First, we want to find a suitable location to attach a sensor to the body. We created multiple-spot on-body devices to collect various activity data. We used that dataset to train 5 different classification models. We selected the XGBoost classification model for detecting a prior-fall activity and the chest location for use in fall detection from a comparison of the detection accuracy. We then tested 3 existing fall detection threshold algorithms to detect fall and fall to their knees first, and selected the 3-phase threshold algorithm of Chaitep and Chawachat [3] in our system. From the experiment, we found that the fall detection accuracy is 88.91%, the fall to their knees first detection accuracy is 91.25%, and the average accuracy of detection of prior-fall activities is 86.25%. Although we use an activity dataset of young to middle-aged adults (18-49 years), we are confident that this system can be developed to monitor activities before the fall, especially in the elderly, so that caretakers can better manage the situation.
翻訳日:2022-01-11 17:34:10 公開日:2022-01-08
# web から製品仕様を抽出する -- 表やリストを超えて

Extraction of Product Specifications from the Web -- Going Beyond Tables and Lists ( http://arxiv.org/abs/2201.02896v1 )

ライセンス: Link先を確認
Govind Krishnan Gangadhar and Ashish Kulkarni(参考訳) ウェブ上のeコマース製品ページは、しばしば構造化表形式で製品仕様データを提示する。 これらの製品属性値仕様の抽出は、製品カタログキュレーション、検索、質問応答などのアプリケーションに恩恵をもたらしました。 しかし、異なるwebサイトには、様々なhtml要素(<table>、<ul>、<div>、<span>、<dl>など)があり、これらのブロックをレンダリングするのに一般的に使われ、自動抽出は困難である。 現在の研究のほとんどは、表やリストから製品仕様を抽出することに重点を置いているため、大規模な抽出設定に適用した場合のリコールに苦しめられている。 本稿では、表やリストを超えて、仕様ブロックの描画に使用される様々なHTML要素を一般化する製品仕様抽出手法を提案する。 手入力された機能と深層学習された空間とトークンの機能を組み合わせることで、まず製品ページの仕様ブロックを特定します。 次に、ラッパー誘導に触発されたアプローチに従って、これらのブロックから製品属性と値のペアを抽出する。 さまざまな製品webサイトから抽出した14,111の多様な仕様ブロックから抽出した製品仕様のラベル付きデータセットを作成しました。 提案手法は,現行の仕様抽出モデルと比較して有効性を示し,大規模製品仕様抽出への応用に関する我々の主張を裏付ける。

E-commerce product pages on the web often present product specification data in structured tabular blocks. Extraction of these product attribute-value specifications has benefited applications like product catalogue curation, search, question answering, and others. However, across different Websites, there is a wide variety of HTML elements (like <table>, <ul>, <div>, <span>, <dl> etc.) typically used to render these blocks that makes their automatic extraction a challenge. Most of the current research has focused on extracting product specifications from tables and lists and, therefore, suffers from recall when applied to a large-scale extraction setting. In this paper, we present a product specification extraction approach that goes beyond tables or lists and generalizes across the diverse HTML elements used for rendering specification blocks. Using a combination of hand-coded features and deep learned spatial and token features, we first identify the specification blocks on a product page. We then extract the product attribute-value pairs from these blocks following an approach inspired by wrapper induction. We created a labeled dataset of product specifications extracted from 14,111 diverse specification blocks taken from a range of different product websites. Our experiments show the efficacy of our approach compared to the current specification extraction models and support our claim about its application to large-scale product specification extraction.
翻訳日:2022-01-11 17:33:45 公開日:2022-01-08
# ロバストユーザ支援マルチセグメンテーションのためのベースライン統計法

A Baseline Statistical Method For Robust User-Assisted Multiple Segmentation ( http://arxiv.org/abs/2201.02779v1 )

ライセンス: Link先を確認
Huseyin Afser(参考訳) 近年,様々なタイプのユーザ支援を歓迎し活用する画像分割手法が開発されている。 これらの方法では、画像オブジェクトの上に境界ボックスを描画したり、スクリブルを描画したり、画像境界を区別するのに役立つ種を植えたり、画像領域をインタラクティブに精錬することでユーザ入力を提供できる。 これらの入力の種類や量が多様であるため、セグメンテーション方法の相対的な評価は困難である。 可能な解決策として,異なる入力タイプや量を扱うことができる,単純で効果的な統計的セグメンテーション法を提案する。 提案手法はロバストな仮説テスト、特にDGLテストに基づいており、画像領域の画素数と2乗数で線形な時間的複雑さで実装することができる。 したがって、異なるタイプのユーザ支援セグメンテーションアルゴリズムの相対的な性能改善を素早くベンチマークし評価するためのベースライン手法として用いるのが望ましい。 提案手法の運用に関する数学的解析を行い,その性能と限界を議論し,設計ガイドラインを提供し,運用を検証するシミュレーションを提案する。

Recently, several image segmentation methods that welcome and leverage different types of user assistance have been developed. In these methods, the user inputs can be provided by drawing bounding boxes over image objects, drawing scribbles or planting seeds that help to differentiate between image boundaries or by interactively refining the missegmented image regions. Due to the variety in the types and the amounts of these inputs, relative assessment of different segmentation methods becomes difficult. As a possible solution, we propose a simple yet effective, statistical segmentation method that can handle and utilize different input types and amounts. The proposed method is based on robust hypothesis testing, specifically the DGL test, and can be implemented with time complexity that is linear in the number of pixels and quadratic in the number of image regions. Therefore, it is suitable to be used as a baseline method for quick benchmarking and assessing the relative performance improvements of different types of user-assisted segmentation algorithms. We provide a mathematical analysis on the operation of the proposed method, discuss its capabilities and limitations, provide design guidelines and present simulations that validate its operation.
翻訳日:2022-01-11 17:30:38 公開日:2022-01-08
# ジョイント多段確率電力需要予測のための条件付き近似正規化流れ

Conditional Approximate Normalizing Flows for Joint Multi-Step Probabilistic Electricity Demand Forecasting ( http://arxiv.org/abs/2201.02753v1 )

ライセンス: Link先を確認
Arec Jamgochian, Di Wu, Kunal Menda, Soyeon Jung, Mykel J. Kochenderfer(参考訳) 現実の意思決定問題の中には、複数のステップで同時に確率的予測を行う必要があるものもある。 しかしながら、確率的予測の方法は、エラーが蓄積するにつれて、長い時間軸上に存在する時系列の相関を捉えることができない可能性がある。 そのような応用の1つは、グリッド環境における不確実性の下で資源スケジューリングを行うことであり、これは本質的にノイズが多いが、しばしば循環的な電力需要の予測を必要とする。 本稿では,条件付き近似正規化フロー(canf)を導入し,時間軸に相関がある場合の確率的多段階時系列予測を行う。 まず, 玩具分布の密度を推定する手法の有効性を実証し, 明示的な条件付けが可能でありながら, ガウス混合モデルと比較して, canfがklの発散を3分の1改善できることを見出した。 次に,一般の家庭用電力消費データセットを用いて,共同確率的多段階予測におけるcanfの有効性を示す。 実験結果から, 条件付き近似正規化フローは, 多段階予測精度で他の手法よりも優れ, 最大10倍のスケジューリング決定が得られた。 私たちの実装はhttps://github.com/s isl/jointdemandforec astingで利用可能です。

Some real-world decision-making problems require making probabilistic forecasts over multiple steps at once. However, methods for probabilistic forecasting may fail to capture correlations in the underlying time-series that exist over long time horizons as errors accumulate. One such application is with resource scheduling under uncertainty in a grid environment, which requires forecasting electricity demand that is inherently noisy, but often cyclic. In this paper, we introduce the conditional approximate normalizing flow (CANF) to make probabilistic multi-step time-series forecasts when correlations are present over long time horizons. We first demonstrate our method's efficacy on estimating the density of a toy distribution, finding that CANF improves the KL divergence by one-third compared to that of a Gaussian mixture model while still being amenable to explicit conditioning. We then use a publicly available household electricity consumption dataset to showcase the effectiveness of CANF on joint probabilistic multi-step forecasting. Empirical results show that conditional approximate normalizing flows outperform other methods in terms of multi-step forecast accuracy and lead to up to 10x better scheduling decisions. Our implementation is available at https://github.com/s isl/JointDemandForec asting.
翻訳日:2022-01-11 16:51:46 公開日:2022-01-08
# 人間-AIチーム決定のモデル化

Modeling Human-AI Team Decision Making ( http://arxiv.org/abs/2201.02759v1 )

ライセンス: Link先を確認
Wei Ye, Francesco Bullo, Noah Friedkin, Ambuj K Singh(参考訳) AIと人間は、グループの審議に補完的なスキルをもたらす。 このグループ意思決定のモデリングは、人間とaiエージェントの能力を評価するためのリスク要素と探索探索プロセスを含む場合、特に難しい。 そこで本研究では,不完全なaiエージェントが支援する集団に対して,一連の認知的課題を提示する。 グループの目的は、グループメンバーとその利用可能なAIエージェントの相対的な専門知識を評価し、異なるアクションに関連するリスクを評価し、合意に達することで全体的な報酬を最大化することである。 このような不確実な状況下での人間-AIチーム決定のモデルの提案と実証的検証を行い、人-AIグループの行動予測における確率論、影響力学、ベイズ学習の社会的認知的構成要素の価値を示す。

AI and humans bring complementary skills to group deliberations. Modeling this group decision making is especially challenging when the deliberations include an element of risk and an exploration-exploita tion process of appraising the capabilities of the human and AI agents. To investigate this question, we presented a sequence of intellective issues to a set of human groups aided by imperfect AI agents. A group's goal was to appraise the relative expertise of the group's members and its available AI agents, evaluate the risks associated with different actions, and maximize the overall reward by reaching consensus. We propose and empirically validate models of human-AI team decision making under such uncertain circumstances, and show the value of socio-cognitive constructs of prospect theory, influence dynamics, and Bayesian learning in predicting the behavior of human-AI groups.
翻訳日:2022-01-11 16:48:27 公開日:2022-01-08
# AnomMAN: マルチビュー分散ネットワーク上の異常を検出する

AnomMAN: Detect Anomaly on Multi-view Attributed Networks ( http://arxiv.org/abs/2201.02822v1 )

ライセンス: Link先を確認
Ling-Hao Chen, He Li, Wenhao Yang(参考訳) 属性ネットワーク上の異常検出は、Webショッピング、金融取引、通信ネットワークなどで広く利用されている。 しかし、ほとんどの研究は、単一のインタラクションアクションのみを考慮すると、属性ネットワーク上の異常を検知しようとするが、多視点属性ネットワークにおけるリッチなインタラクションアクションは考慮できない。 実際、すべての異なる種類のインタラクションアクションを均一に考慮し、マルチビュー帰属ネットワークで異常なインスタンスを検出することは、依然として困難なタスクである。 本稿では, グラフ畳み込みに基づくフレームワークである anomman を提案し, \textbf{m}ulti-view \textbf{a}ttributed \textbf{n}etworks 上で \textbf{anom}aly を検出する。 属性と全てのインタラクション動作を協調的に考慮するために、ネットワーク内のすべてのビューの重要性を定義するためにアテンションメカニズムを使用する。 さらに、グラフ畳み込み操作は、その低パス特性を考慮した異常検出タスクに簡単に適用できない。 そのため、AnomMANはグラフ自動エンコーダモジュールを使用して、その欠点を克服し、それを我々の強みに変換します。 実世界のデータセットの実験によると、AnomMANは最先端のモデルと提案したモデルの2つのバリエーションより優れている。 さらに、データセット上でAccuracy@50インジケータが10,000に達し、AnomMANによって検出された上位50の異常インスタンスがすべて異常であることを示している。

Anomaly detection on attributed networks is widely used in web shopping, financial transactions, communication networks, and so on. However, most work tries to detect anomalies on attributed networks only considering a single interaction action, which cannot consider rich kinds of interaction actions in multi-view attributed networks. In fact, it remains a challenging task to consider all different kinds of interaction actions uniformly and detect anomalous instances in multi-view attributed networks. In this paper, we propose a Graph Convolution based framework, AnomMAN, to detect \textbf{Anom}aly on \textbf{M}ulti-view \textbf{A}ttributed \textbf{N}etworks. To consider the attributes and all interaction actions jointly, we use the attention mechanism to define the importance of all views in networks. Besides, the Graph Convolution operation cannot be simply applied in anomaly detection tasks on account of its low-pass characteristic. Therefore, AnomMAN uses a graph auto-encoder module to overcome the shortcoming and transform it to our strength. According to experiments on real-world datasets, AnomMAN outperforms state-of-the-art models and two variants of our proposed model. Besides, the Accuracy@50 indicator of AnomMAN reaches 1.000 on the dataset, which shows that the top 50 anomalous instances detected by AnomMAN are all anomalous ones.
翻訳日:2022-01-11 16:48:14 公開日:2022-01-08
# 磁気共鳴イメージングに基づくグリオーマグレーディングのための知識誘導幾何表現学習

Expert Knowledge-guided Geometric Representation Learning for Magnetic Resonance Imaging-based Glioma Grading ( http://arxiv.org/abs/2201.02746v1 )

ライセンス: Link先を確認
Yeqi Wang, Longfei Li, Cheng Li, Yan Xi, Hairong Zheng, Yusong Lin, Shanshan Wang(参考訳) 放射線学とディープラーニングは、グリオーマの自動評価において高い人気を示している。 放射線学はグリオーマの学級の専門知識を定量的に記述する手作りの特徴を抽出することができ、ディープラーニングは最終分類を容易にする多数の高スループット特徴を抽出するのに強力である。 しかし, 相補的強度が十分に調査され, 統合されていないため, 既存手法の性能は改善できる。 さらに、テストフェーズの最終予測には、通常、病変マップが必要であるが、非常に厄介である。 本稿では,知識指導型幾何表現学習(ENROL)フレームワークを提案する。 手作りの特徴と学習特徴の幾何学多様体は、深層学習と放射線学の暗黙の関係を掘り下げるために構築され、グリオーマグレードの相互同意と本質的な表現を掘り下げる。 特別に設計された多様体の誤差測定により、学習段階において入力画像データとエキスパート知識をより効果的に活用し、試験段階における病変分割マップの要求を解消することができる。 提案するフレームワークは、使用するディープラーニングアーキテクチャに関して柔軟である。 3つの異なるアーキテクチャが評価され、5つのモデルが比較されています。

Radiomics and deep learning have shown high popularity in automatic glioma grading. Radiomics can extract hand-crafted features that quantitatively describe the expert knowledge of glioma grades, and deep learning is powerful in extracting a large number of high-throughput features that facilitate the final classification. However, the performance of existing methods can still be improved as their complementary strengths have not been sufficiently investigated and integrated. Furthermore, lesion maps are usually needed for the final prediction at the testing phase, which is very troublesome. In this paper, we propose an expert knowledge-guided geometric representation learning (ENROL) framework . Geometric manifolds of hand-crafted features and learned features are constructed to mine the implicit relationship between deep learning and radiomics, and therefore to dig mutual consent and essential representation for the glioma grades. With a specially designed manifold discrepancy measurement, the grading model can exploit the input image data and expert knowledge more effectively in the training phase and get rid of the requirement of lesion segmentation maps at the testing phase. The proposed framework is flexible regarding deep learning architectures to be utilized. Three different architectures have been evaluated and five models have been compared, which show that our framework can always generate promising results.
翻訳日:2022-01-11 16:44:02 公開日:2022-01-08
# 教師付きクロスモーダル検索のための視覚言語事前学習モデルの総合的研究

A Comprehensive Empirical Study of Vision-Language Pre-trained Model for Supervised Cross-Modal Retrieval ( http://arxiv.org/abs/2201.02772v1 )

ライセンス: Link先を確認
Zhixiong Zeng and Wenji Mao(参考訳) CMR(Cross-Modal Retrieval)は、マルチモーダルコンピューティングと情報検索にまたがる重要な研究トピックであり、あるタイプのデータを他のタイプの関連データを取得するクエリとして取り、多くの現実世界のアプリケーションで広く使われている。 近年,CLIPで表現される視覚言語事前学習モデルは,視覚およびテキスト表現の学習の優位性を示し,様々な視覚および言語関連タスクにおける印象的な性能を示した。 CLIPと以前の事前学習モデルでは、教師なしCMRの性能改善が見られたが、教師付きCMRに対する事前学習モデルの性能と影響は、マルチモーダルなクラスレベルの関連性が欠如していることから、ほとんど調査されなかった。 本稿では、CLIPを現在の視覚言語事前訓練モデルとして捉え、総合的な実証的研究を行い、その性能と教師付きCMRへの影響について考察する。 そこで本研究では,CLIPをバックボーンネットワークとして使用する新しいモデルCLIP4CMR(\textbf{CLIP For} supervised \textbf{C}ross-\textbf{M}odal \textbf{R}etrieval)を提案する。 次に、CMRにおける既存の損失関数設計を再検討し、最も一般的なペアワイズ損失、クラスワイズ損失、ハイブリッド損失を含む、CLIPの適用に関する洞察を提供する。 さらに, 教師付きcmrの問題点について検討し, モダリティ不均衡に対するロバスト性やハイパーパラメータに対する感度など, clip4cmr を通じて, この分野の新たな展望を提供する。 大規模な実験結果によると、CLIP4CMRは、ベンチマークデータセットであるWikipedia、NUS-WIDE、Pascal-Sentence、XmediaNetを大幅に改善したSOTA結果を達成する。 我々のデータとコードはhttps://github.com/z hixiongz/CLIP4CMRで公開されています。

Cross-Modal Retrieval (CMR) is an important research topic across multimodal computing and information retrieval, which takes one type of data as the query to retrieve relevant data of another type, and has been widely used in many real-world applications. Recently, the vision-language pre-trained model represented by CLIP has demonstrated its superiority of learning visual and textual representations and its impressive performance on various vision and language related tasks. Although CLIP as well as the previous pre-trained models have shown great performance improvement in unsupervised CMR, the performance and impact of these pre-trained models on supervised CMR were rarely explored due to the lack of multimodal class-level associations. In this paper, we take CLIP as the current representative vision-language pre-trained model to conduct a comprehensive empirical study and provide insights on its performance and impact on supervised CMR. To this end, we first propose a novel model CLIP4CMR (\textbf{CLIP For} supervised \textbf{C}ross-\textbf{M}odal \textbf{R}etrieval) that employs pre-trained CLIP as backbone network to perform supervised CMR. We then revisit the existing loss function design in CMR, including the most common pair-wise losses, class-wise losses and hybrid ones, and provide insights on applying CLIP. Moreover, we investigate several concerned issues in supervised CMR and provide new perspectives for this field via CLIP4CMR, including the robustness to modality imbalance and the sensitivity to hyper-parameters. Extensive experimental results show that the CLIP4CMR achieves SOTA results with significant improvements on the benchmark datasets Wikipedia, NUS-WIDE, Pascal-Sentence and XmediaNet. Our data and codes are publicly available at https://github.com/z hixiongz/CLIP4CMR.
翻訳日:2022-01-11 16:43:40 公開日:2022-01-08
# スペクトルデータと完全連結ニューラルネットワークを用いたハイパースペクトル画像の分類

Classification of Hyperspectral Images by Using Spectral Data and Fully Connected Neural Network ( http://arxiv.org/abs/2201.02821v1 )

ライセンス: Link先を確認
Zumray Dokur, Tamer Olmez(参考訳) 深層学習法を用いて1次元および2次元信号に対して高い分類性能が得られた。 この文脈では、多くの研究者が深層学習法を用いてハイパースペクトル画像の分類を試み、90%以上の分類成功が達成されている。 deep neural network (dnn) は2つの部分からなる。 一 畳み込みニューラルネットワーク(CNN)及び 二 完全連結ニューラルネットワーク(FCNN) CNNが特徴を決定する一方で、FCNNは分類に使用される。 ハイパースペクトル画像の分類では、ほぼ全ての研究者がスペクトルデータ(画像)の横にある空間データに2Dまたは3D畳み込みフィルタを用いた。 画像や時間信号に畳み込みフィルタを使用することは便利である。 ハイパースペクトル画像では、各ピクセルは、互いに独立した個々の特徴からなるシグネチャベクトルによって表現される。 ベクトルにおける特徴の順序を変更できるので、時間信号のようにこれらの特徴に対して畳み込みフィルタを使用することは意味がない。 同時に、ハイパースペクトル画像はテクスチャ構造を持たないため、スペクトルデータ以外に空間データを使用する必要はない。 本研究では,インドマツ,サリナス,パヴィアセンター,パヴィア大学,ボツワナの超スペクトル画像を,完全連結ニューラルネットワークと1次元のスペクトルデータのみを用いて分類した。 すべてのハイパースペクトル画像のテストセットに対して平均精度97.5%を達成する。

It is observed that high classification performance is achieved for one- and two-dimensional signals by using deep learning methods. In this context, most researchers have tried to classify hyperspectral images by using deep learning methods and classification success over 90% has been achieved for these images. Deep neural networks (DNN) actually consist of two parts: i) Convolutional neural network (CNN) and ii) fully connected neural network (FCNN). While CNN determines the features, FCNN is used in classification. In classification of the hyperspectral images, it is observed that almost all of the researchers used 2D or 3D convolution filters on the spatial data beside spectral data (features). It is convenient to use convolution filters on images or time signals. In hyperspectral images, each pixel is represented by a signature vector which consists of individual features that are independent of each other. Since the order of the features in the vector can be changed, it doesn't make sense to use convolution filters on these features as on time signals. At the same time, since the hyperspectral images do not have a textural structure, there is no need to use spatial data besides spectral data. In this study, hyperspectral images of Indian pines, Salinas, Pavia centre, Pavia university and Botswana are classified by using only fully connected neural network and the spectral data with one dimensional. An average accuracy of 97.5% is achieved for the test sets of all hyperspectral images.
翻訳日:2022-01-11 16:43:01 公開日:2022-01-08
# CrossMoDA 2021 チャレンジ:前庭ショーナンノーマとコクランセグメンテーションのためのクロスモダリティドメイン適応手法のベンチマーク

CrossMoDA 2021 challenge: Benchmark of Cross-Modality Domain Adaptation techniques for Vestibular Schwnannoma and Cochlea Segmentation ( http://arxiv.org/abs/2201.02831v1 )

ライセンス: Link先を確認
Reuben Dorent, Aaron Kujawa, Marina Ivory, Spyridon Bakas, Nicola Rieke, Samuel Joutard, Ben Glocker, Jorge Cardoso, Marc Modat, Kayhan Batmanghelich, Arseniy Belkov, Maria Baldeon Calisto, Jae Won Choi, Benoit M. Dawant, Hexin Dong, Sergio Escalera, Yubo Fan, Lasse Hansen, Mattias P. Heinrich, Smriti Joshi, Victoriya Kashtanova, Hyeon Gyu Kim, Satoshi Kondo, Christian N. Kruse, Susana K. Lai-Yuen, Hao Li, Han Liu, Buntheng Ly, Ipek Oguz, Hyungseob Shin, Boris Shirokikh, Zixian Su, Guotai Wang, Jianghao Wu, Yanwu Xu, Kai Yao, Li Zhang, Sebastien Ourselin, Jonathan Shapey, Tom Vercauteren(参考訳) ドメイン適応(DA)は最近、医療画像コミュニティに強い関心を集めている。 イメージセグメンテーションには様々なda技術が提案されているが、これらの技術のほとんどはプライベートデータセットまたは小さな公開データセットで検証されている。 さらにこれらのデータセットは、主にシングルクラスの問題に対処した。 これらの制限に対処するため、クロスモダリティドメイン適応(cross-Modality Domain Adaptation,crossMoDA )は第24回医療画像コンピューティング・コンピュータ支援介入会議(MICCAI 2021)と共同で設立された。 crossmoda は教師なしのクロスモダリティ da のための最初の大規模マルチクラスベンチマークである。 課題の目標は、前庭神経新生(VS)のフォローアップと治療計画に関わる2つの主要な脳構造(VS)を分割することである。 現在、VS患者の診断と監視は造影T1(ceT1)MRIを用いて行われている。 しかし、高分解能T2 (hrT2) MRIのような非コントラスト配列の使用への関心が高まっている。 そこで我々は教師なしのクロスモダリティセグメンテーションベンチマークを作成した。 トレーニングセットは、アノテートceT1(N=105)とアンペア化非アノテートhrT2(N=105)を提供する。 目的は、テストセット(N=137)で提供されるhrT2上で、片側VSと両側コチェリーセグメンテーションを自動実行することであった。 評価フェーズには,合計16チームがアルゴリズムを提出した。 トップパフォーマンスのチームが達成したパフォーマンスのレベルは、非常に高く(ベスト中央値dice - vs:88.4%; cochleas:85.7%)、完全な監督に近い(median dicevs:92.5%; cochleas:87.7%)。 すべてのトップパフォーミングメソッドは、画像から画像への変換アプローチを使用して、ソースドメインイメージを擬似ターゲットドメインイメージに変換する。 次に、これらの生成された画像と、ソースイメージに提供される手動アノテーションを使用してセグメンテーションネットワークをトレーニングした。

Domain Adaptation (DA) has recently raised strong interests in the medical imaging community. While a large variety of DA techniques has been proposed for image segmentation, most of these techniques have been validated either on private datasets or on small publicly available datasets. Moreover, these datasets mostly addressed single-class problems. To tackle these limitations, the Cross-Modality Domain Adaptation (crossMoDA) challenge was organised in conjunction with the 24th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2021). CrossMoDA is the first large and multi-class benchmark for unsupervised cross-modality DA. The challenge's goal is to segment two key brain structures involved in the follow-up and treatment planning of vestibular schwannoma (VS): the VS and the cochleas. Currently, the diagnosis and surveillance in patients with VS are performed using contrast-enhanced T1 (ceT1) MRI. However, there is growing interest in using non-contrast sequences such as high-resolution T2 (hrT2) MRI. Therefore, we created an unsupervised cross-modality segmentation benchmark. The training set provides annotated ceT1 (N=105) and unpaired non-annotated hrT2 (N=105). The aim was to automatically perform unilateral VS and bilateral cochlea segmentation on hrT2 as provided in the testing set (N=137). A total of 16 teams submitted their algorithm for the evaluation phase. The level of performance reached by the top-performing teams is strikingly high (best median Dice - VS:88.4%; Cochleas:85.7%) and close to full supervision (median Dice - VS:92.5%; Cochleas:87.7%). All top-performing methods made use of an image-to-image translation approach to transform the source-domain images into pseudo-target-domain images. A segmentation network was then trained using these generated images and the manual annotations provided for the source image.
翻訳日:2022-01-11 16:42:40 公開日:2022-01-08
# 構造モデルにおける高速推論のための低ランク制約

Low-Rank Constraints for Fast Inference in Structured Models ( http://arxiv.org/abs/2201.02715v1 )

ライセンス: Link先を確認
Justin T. Chiu, Yuntian Deng, Alexander M. Rush(参考訳) 構造分布、すなわち組合せ空間上の分布は一般に観測データから潜在確率表現を学ぶために用いられる。 しかし、これらのモデルのスケーリングは、潜在表現のサイズに関して高い計算量とメモリの複雑さによってボトルネックとなる。 HMM(Hidden Markov Models)やPCFG(Probabilistic Context-free Grammars)のような一般的なモデルは、それぞれ隠れた状態の数で時間と空間を2次的にしなければならない。 この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。 中央の推論ステップを行列ベクトル積とみなし、低ランク制約を用いることで、モデル表現率と速度をランクを通してトレードオフできることを示す。 言語モデリング,ポリフォニック音楽モデリング,教師なし文法帰納法,ビデオモデリングのためのニューラルパラメータ化構造化モデルを用いた実験により,本手法が大規模状態空間における標準モデルの精度に適合し,実用的な高速化が得られた。

Structured distributions, i.e. distributions over combinatorial spaces, are commonly used to learn latent probabilistic representations from observed data. However, scaling these models is bottlenecked by the high computational and memory complexity with respect to the size of the latent representations. Common models such as Hidden Markov Models (HMMs) and Probabilistic Context-Free Grammars (PCFGs) require time and space quadratic and cubic in the number of hidden states respectively. This work demonstrates a simple approach to reduce the computational and memory complexity of a large class of structured models. We show that by viewing the central inference step as a matrix-vector product and using a low-rank constraint, we can trade off model expressivity and speed via the rank. Experiments with neural parameterized structured models for language modeling, polyphonic music modeling, unsupervised grammar induction, and video modeling show that our approach matches the accuracy of standard models at large state spaces while providing practical speedups.
翻訳日:2022-01-11 16:11:25 公開日:2022-01-08
# 科学的文書のコヒーレンスに基づく分散文書表現学習

Coherence-Based Distributed Document Representation Learning for Scientific Documents ( http://arxiv.org/abs/2201.02846v1 )

ライセンス: Link先を確認
Shicheng Tan, Shu Zhao, Yanping Zhang(参考訳) 分散文書表現は自然言語処理における基本的な問題の1つである。 現在、分散文書表現手法は、主に単語や文の文脈情報を考慮する。 これらの手法は、文書全体の一貫性を考慮に入れておらず、例えば、論文のタイトルと要約、見出しと記述、あるいは文書の隣接体との関係を考慮に入れている。 このコヒーレンスは、特に科学文書(紙や特許など)において、ある文書が論理的にも統語的にも有意義であるか否かを示す。 本稿では,文書のセグメンテーションによって形成された結合テキストペアによる文書のコヒーレンスを維持する,科学文書の表現を学習するための結合テキストペア埋め込み(CTPE)モデルを提案する。 まず、文書を2つの部分(タイトルと抽象など)に分割し、結合されたテキストペアを構築する。 次に,2つの部分が異なる文書からなる非結合テキストペアを構成するために,負サンプリングを採用する。 最後に,テキストペアが結合されているかアンカップリングされているかを判断するためにモデルを訓練し,結合されたテキストペアの埋め込みを文書の埋め込みとして利用する。 1つの情報検索タスクと2つのレコメンデーションタスクのための3つのデータセットの実験を行う。 実験により,CTPEモデルの有効性が検証された。

Distributed document representation is one of the basic problems in natural language processing. Currently distributed document representation methods mainly consider the context information of words or sentences. These methods do not take into account the coherence of the document as a whole, e.g., a relation between the paper title and abstract, headline and description, or adjacent bodies in the document. The coherence shows whether a document is meaningful, both logically and syntactically, especially in scientific documents (papers or patents, etc.). In this paper, we propose a coupled text pair embedding (CTPE) model to learn the representation of scientific documents, which maintains the coherence of the document with coupled text pairs formed by segmenting the document. First, we divide the document into two parts (e.g., title and abstract, etc) which construct a coupled text pair. Then, we adopt negative sampling to construct uncoupled text pairs whose two parts are from different documents. Finally, we train the model to judge whether the text pair is coupled or uncoupled and use the obtained embedding of coupled text pairs as the embedding of documents. We perform experiments on three datasets for one information retrieval task and two recommendation tasks. The experimental results verify the effectiveness of the proposed CTPE model.
翻訳日:2022-01-11 16:11:05 公開日:2022-01-08
# 3次元点雲に基づくリアルタイムレール認識

Real-time Rail Recognition Based on 3D Point Clouds ( http://arxiv.org/abs/2201.02726v1 )

ライセンス: Link先を確認
Xinyi Yu, Weiqi He, Xuecheng Qian, Yang Yang, Linlin Ou(参考訳) 安全監視のための鉄道支援運転システムにおいて、正確な鉄道位置が重要な部分である。 LiDARは、特に暗黒と悪天候下で、鉄道環境の3D情報を運ぶ点雲を得ることができる。 本稿では, 3次元点雲に基づくリアルタイム鉄道認識手法を提案し, 乱れや不均一密度, 点雲の大量化といった課題を解決する。 鉄道点雲の密度バランスを考慮に入れたボクセルダウンサンプリング法が最初に提案され、3次元走査領域を異なる体積でボクセルに分割するピラミッド分割が設計されている。 次に, 特徴符号化モジュールを開発し, 最寄りの近傍点を見つけ, 中心点の局所的幾何学的特徴を集約する。 最後に,各ボクセルとレール位置の予測結果を生成するために,マルチスケールニューラルネットワークを提案する。 実験は鉄道用3次元点雲データの9つのシーケンスで実施される。 その結果, 直線, 湾曲およびその他の複雑なトポロジレールの検出に優れた性能を示した。

Accurate rail location is a crucial part in the railway support driving system for safety monitoring. LiDAR can obtain point clouds that carry 3D information for the railway environment, especially in darkness and terrible weather conditions. In this paper, a real-time rail recognition method based on 3D point clouds is proposed to solve the challenges, such as disorderly, uneven density and large volume of the point clouds. A voxel down-sampling method is first presented for density balanced of railway point clouds, and pyramid partition is designed to divide the 3D scanning area into the voxels with different volumes. Then, a feature encoding module is developed to find the nearest neighbor points and to aggregate their local geometric features for the center point. Finally, a multi-scale neural network is proposed to generate the prediction results of each voxel and the rail location. The experiments are conducted under 9 sequences of 3D point cloud data for the railway. The results show that the method has good performance in detecting straight, curved and other complex topologies rails.
翻訳日:2022-01-11 16:06:45 公開日:2022-01-08
# ペアワイズクラスバランスによるロングテールインスタンスセグメンテーションの回収

Relieving Long-tailed Instance Segmentation via Pairwise Class Balance ( http://arxiv.org/abs/2201.02784v1 )

ライセンス: Link先を確認
Yin-Yin He, Peizhen Zhang, Xiu-Shen Wei, Xiangyu Zhang, Jian Sun(参考訳) ロングテールインスタンスセグメンテーションは、クラス間のトレーニングサンプルの極端な不均衡のために難しいタスクである。 尾のついたクラスに対して、ヘッドクラス(大多数のサンプルを含む)の厳しいバイアスを引き起こす。 これによって、“バイアスを適切に定義し緩和する方法”が最も重要な問題のひとつになります。 先行研究は主に粗い偏見を示すためにラベル分布や平均スコア情報を用いていた。 本稿では,細粒度な誤分類の詳細を持つ混乱行列を掘り下げ,ペアの偏りを緩和し,粗いものを一般化する。 そこで本研究では,現在進行中の予測嗜好を蓄積するために,学習中に更新される混乱行列に基づく新しいペアワイズクラスバランス(pcb)手法を提案する。 pcbはトレーニング中にレギュライゼーションのためのファイトバックソフトラベルを生成する。 さらに, 段階的かつ円滑な正規化を支援するために, 反復学習パラダイムが開発された。 PCBは、既存のメソッドを補完としてプラグインして再生することができる。 LVISによる実験結果から,ベルやホイッスルを使わずに最先端の性能を実現することができた。 様々なアーキテクチャにおいて優れた結果が一般化能力を示している。

Long-tailed instance segmentation is a challenging task due to the extreme imbalance of training samples among classes. It causes severe biases of the head classes (with majority samples) against the tailed ones. This renders "how to appropriately define and alleviate the bias" one of the most important issues. Prior works mainly use label distribution or mean score information to indicate a coarse-grained bias. In this paper, we explore to excavate the confusion matrix, which carries the fine-grained misclassification details, to relieve the pairwise biases, generalizing the coarse one. To this end, we propose a novel Pairwise Class Balance (PCB) method, built upon a confusion matrix which is updated during training to accumulate the ongoing prediction preferences. PCB generates fightback soft labels for regularization during training. Besides, an iterative learning paradigm is developed to support a progressive and smooth regularization in such debiasing. PCB can be plugged and played to any existing method as a complement. Experimental results on LVIS demonstrate that our method achieves state-of-the-art performance without bells and whistles. Superior results across various architectures show the generalization ability.
翻訳日:2022-01-11 16:06:28 公開日:2022-01-08
# アクティブサイバー脅威インテリジェンスのための生成逆学習によるダークウェブテキストベースのCAPTCHA

Counteracting Dark Web Text-Based CAPTCHA with Generative Adversarial Learning for Proactive Cyber Threat Intelligence ( http://arxiv.org/abs/2201.02799v1 )

ライセンス: Link先を確認
Ning Zhang, Mohammadreza Ebrahimi, Weifeng Li, Hsinchun Chen(参考訳) ダークウェブ(dw)プラットフォームの大規模な自動監視は、cti(proactive cyber threat intelligence)の開発に向けた第一歩である。 surface webからデータを収集する効率的な方法はあるが、大規模なダークウェブデータ収集は、しばしばアンチクローリング対策によって妨げられる。 特に、テキストベースのCAPTCHAは、ダークウェブにおいて最も一般的で禁止されている手段である。 テキストベースのCAPTCHAは、ユーザーが認識しにくい英数字文字の組み合わせを入力させることで、自動クローラを識別し、ブロックする。 ダークウェブでは、CAPTCHAイメージは、自動CAPTCHA破壊を防止するために、バックグラウンドノイズと可変文字長を追加して慎重に設計されている。 既存のCAPTCHAの破壊手法は、これらのダークウェブの課題を克服するのに困難である。 このように、ダークウェブテキストベースのCAPTCHAの解決は、労働集約的で時間を要する人間の関与に大きく依存している。 本研究では,暗黒ウェブデータ収集を容易にするために,暗黒ウェブCAPTCHAの自動分解のための新しいフレームワークを提案する。 このフレームワークは、暗黒ウェブテキストベースのCAPTCHAをノイズ背景と可変文字長で認識する新しい生成方法を含む。 提案フレームワークは,人的関与をなくすために,GAN(Generative Adversarial Network)を用いて暗黒Webバックグラウンドノイズを対策し,CAPTCHA画像を可変長で処理するための拡張文字分割アルゴリズムを利用する。 提案するフレームワークであるDW-GANは、複数のダークウェブCAPTCHAテストベッド上で体系的に評価された。 DW-GANは、すべてのデータセットで最先端のベンチマーク手法を著しく上回り、注意深く収集された現実世界のダークウェブデータセットで94.4%以上の成功率を達成した。

Automated monitoring of dark web (DW) platforms on a large scale is the first step toward developing proactive Cyber Threat Intelligence (CTI). While there are efficient methods for collecting data from the surface web, large-scale dark web data collection is often hindered by anti-crawling measures. In particular, text-based CAPTCHA serves as the most prevalent and prohibiting type of these measures in the dark web. Text-based CAPTCHA identifies and blocks automated crawlers by forcing the user to enter a combination of hard-to-recognize alphanumeric characters. In the dark web, CAPTCHA images are meticulously designed with additional background noise and variable character length to prevent automated CAPTCHA breaking. Existing automated CAPTCHA breaking methods have difficulties in overcoming these dark web challenges. As such, solving dark web text-based CAPTCHA has been relying heavily on human involvement, which is labor-intensive and time-consuming. In this study, we propose a novel framework for automated breaking of dark web CAPTCHA to facilitate dark web data collection. This framework encompasses a novel generative method to recognize dark web text-based CAPTCHA with noisy background and variable character length. To eliminate the need for human involvement, the proposed framework utilizes Generative Adversarial Network (GAN) to counteract dark web background noise and leverages an enhanced character segmentation algorithm to handle CAPTCHA images with variable character length. Our proposed framework, DW-GAN, was systematically evaluated on multiple dark web CAPTCHA testbeds. DW-GAN significantly outperformed the state-of-the-art benchmark methods on all datasets, achieving over 94.4% success rate on a carefully collected real-world dark web dataset...
翻訳日:2022-01-11 16:06:10 公開日:2022-01-08
# ロボットピッキング用RGB-Dセンサを用いたマッシュルーム検出・位置推定・3次元位置推定

Mushrooms Detection, Localization and 3D Pose Estimation using RGB-D Sensor for Robotic-picking Applications ( http://arxiv.org/abs/2201.02837v1 )

ライセンス: Link先を確認
Nathanael L. Baisa, Bashir Al-Diri(参考訳) 本稿では,低価格rgb-dセンサから取得したrgb-dデータを用いて,キノコの検出,局在化,3次元ポーズ推定アルゴリズムを提案する。 異なる目的のためにrgbと深度情報を使用します。 rgb色から,まずキノコの初期輪郭位置を抽出し,その後,初期輪郭位置と原画像の両方を,キノコセグメンテーションのためのアクティブ輪郭に提供した。 これらの分割されたキノコは、中心と半径を含むキノコ検出ごとに円形のハフ変換の入力として使用される。 rgb画像内の各キノコの中心位置が分かると、深度情報を使用して3d空間、すなわち世界座標系に配置する。 検出されたキノコ中心の深度情報を欠く場合,各キノコの半径内に最も近い深度情報から推定する。 また,プレ準備したアップライトキノコモデルを用いて,各キノコの3次元ポーズを推定した。 この3次元ポーズ推定には、グローバルな登録とローカルな精巧な登録手法を用いる。 推定された3次元ポーズから、各キノコの向きとして四元数で表される回転部分のみを用いる。 これらの推定された(x,y,z)位置、直径、方向はロボットピッキングに使用される。 我々は3Dプリンティングと実際のキノコについて広範な実験を行い、本手法が興味深い性能を示した。

In this paper, we propose mushrooms detection, localization and 3D pose estimation algorithm using RGB-D data acquired from a low-cost consumer RGB-D sensor. We use the RGB and depth information for different purposes. From RGB color, we first extract initial contour locations of the mushrooms and then provide both the initial contour locations and the original image to active contour for mushrooms segmentation. These segmented mushrooms are then used as input to a circular Hough transform for each mushroom detection including its center and radius. Once each mushroom's center position in the RGB image is known, we then use the depth information to locate it in 3D space i.e. in world coordinate system. In case of missing depth information at the detected center of each mushroom, we estimate from the nearest available depth information within the radius of each mushroom. We also estimate the 3D pose of each mushroom using a pre-prepared upright mushroom model. We use a global registration followed by local refine registration approach for this 3D pose estimation. From the estimated 3D pose, we use only the rotation part expressed in quaternion as an orientation of each mushroom. These estimated (X,Y,Z) positions, diameters and orientations of the mushrooms are used for robotic-picking applications. We carry out extensive experiments on both 3D printed and real mushrooms which show that our method has an interesting performance.
翻訳日:2022-01-11 16:05:41 公開日:2022-01-08
# 制約のないシナリオにおける画像ベース自動ダイヤル計測

Image-based Automatic Dial Meter Reading in Unconstrained Scenarios ( http://arxiv.org/abs/2201.02850v1 )

ライセンス: Link先を確認
Gabriel Salomon, Rayson Laroca, David Menotti(参考訳) アナログメーターをスマートメーターに置き換えるのは費用がかかり、手間がかかり、発展途上国では完成にはほど遠い。 the energy company of parana (copel) (brazil)は、毎月400万メートル以上(ほとんどがスマートデバイスではない)の読書を行い、そのうち8億5000万人がダイヤルメーターから来ていると推定している。 したがって、画像ベースの自動読み出しシステムは、ヒューマンエラーを低減し、読み出し証明を作成し、顧客自身がモバイルアプリケーションを通じて読み出しを行うことができる。 本稿では,ADMR(Automatic Dial Meter Reading)の新たなアプローチを提案し,制約のないシナリオにおいてADMRのための新しいデータセット(UFPR-ADMR-v2)を提案する。 提案手法は, YOLOv4と新しい回帰手法(AngReg)を組み合わせることで, いくつかのポストプロセッシング手法を探索する。 従来のものと比べ、平均絶対誤差(MAE)は1,343から129に減少し、メーター認識率(MRR)は98.90%に達し、誤差は1キロワット時間(kWh)であった。

The replacement of analog meters with smart meters is costly, laborious, and far from complete in developing countries. The Energy Company of Parana (Copel) (Brazil) performs more than 4 million meter readings (almost entirely of non-smart devices) per month, and we estimate that 850 thousand of them are from dial meters. Therefore, an image-based automatic reading system can reduce human errors, create a proof of reading, and enable the customers to perform the reading themselves through a mobile application. We propose novel approaches for Automatic Dial Meter Reading (ADMR) and introduce a new dataset for ADMR in unconstrained scenarios, called UFPR-ADMR-v2. Our best-performing method combines YOLOv4 with a novel regression approach (AngReg), and explores several postprocessing techniques. Compared to previous works, it decreased the Mean Absolute Error (MAE) from 1,343 to 129 and achieved a meter recognition rate (MRR) of 98.90% -- with an error tolerance of 1 Kilowatt-hour (kWh).
翻訳日:2022-01-11 16:05:21 公開日:2022-01-08
# デカップリングでローカル機能が大幅に改善

Decoupling Makes Weakly Supervised Local Feature Better ( http://arxiv.org/abs/2201.02861v1 )

ライセンス: Link先を確認
Kunhong Li, LongguangWang, Li Liu, Qing Ran, Kai Xu, Yulan Guo(参考訳) 弱教師付き学習は、局所的特徴法が、密度の高いラベル付き対応を持つ大規模データセットの取得の障害を克服するのに役立つ。 しかし、弱監視では検出と記述ステップによる損失を区別できないため、合同記述検出パイプライン内で弱教師付き学習を直接行うと性能が低下する。 本稿では,弱教師付き局所的特徴学習に適した非結合型記述型検出パイプラインを提案する。 パイプライン内では、検出ステップは記述ステップから切り離され、差別的で堅牢な記述子を学ぶまで延期されます。 さらに,カメラのポーズ情報を明示的に使用して記述者学習を改善するために,直線対ウィンドウ検索戦略を導入する。 広汎な実験により,提案手法,すなわちPoSFeat (Camera Pose Supervised Feature) は,従来の完全かつ弱い教師付き手法よりも優れ,幅広い下流タスクにおける最先端性能を実現していることがわかった。

Weakly supervised learning can help local feature methods to overcome the obstacle of acquiring a large-scale dataset with densely labeled correspondences. However, since weak supervision cannot distinguish the losses caused by the detection and description steps, directly conducting weakly supervised learning within a joint describe-then-detect pipeline suffers limited performance. In this paper, we propose a decoupled describe-then-detect pipeline tailored for weakly supervised local feature learning. Within our pipeline, the detection step is decoupled from the description step and postponed until discriminative and robust descriptors are learned. In addition, we introduce a line-to-window search strategy to explicitly use the camera pose information for better descriptor learning. Extensive experiments show that our method, namely PoSFeat (Camera Pose Supervised Feature), outperforms previous fully and weakly supervised methods and achieves state-of-the-art performance on a wide range of downstream tasks.
翻訳日:2022-01-11 16:04:58 公開日:2022-01-08
# 分散電力予測のためのxgboostに基づく公平かつ効率的なハイブリッドフェデレーション学習フレームワーク

A Fair and Efficient Hybrid Federated Learning Framework based on XGBoost for Distributed Power Prediction ( http://arxiv.org/abs/2201.02783v1 )

ライセンス: Link先を確認
Haizhou Liu, Xuan Zhang, Xinwei Shen, Hongbin Sun(参考訳) 現代の電力システムでは、家庭用メーター、変圧器局、外部組織など、発電・消費に関するリアルタイムデータとその関連する特徴を様々な分散パーティに格納する。 これらの分散データの基盤となるパターンを正確な電力予測に活用するためには、協調的ではあるがプライバシ保護のトレーニングスキームとしてフェデレーション学習が必要である。 しかしながら、現在の連合学習フレームワークは、データの水平または垂直の分離に対処するために偏極化されており、両方が存在する場合を見落としてしまう傾向にある。 さらに、主流の水平的フェデレーション学習フレームワークでは、グラフデータセット上のツリーベースモデルに比べて正確で解釈可能なデータパターンを学ぶために、人工ニューラルネットワークのみが使用される。 そこで本稿では,XGBoostをベースとしたハイブリッド・フェデレーション学習フレームワークを提案する。 精度と解釈性を向上させるためにブーストツリーを導入することに加えて、水平および垂直の連合学習を組み合わせることで、局所的な異種パーティに特徴が散在し、各地方にサンプルが散在するシナリオに対処する。 さらに,各パーティが十分な情報の共有を得られるような動的タスク割り当て方式を設計し,各パーティの計算能力を完全に活用してトレーニング効率を向上させる。 提案フレームワークを採用する必要性を正当化するために,フォローアップケーススタディを提示する。 また, 公平性, 効率性, 正確性におけるフレームワークの利点を確認した。

In a modern power system, real-time data on power generation/consumpti on and its relevant features are stored in various distributed parties, including household meters, transformer stations and external organizations. To fully exploit the underlying patterns of these distributed data for accurate power prediction, federated learning is needed as a collaborative but privacy-preserving training scheme. However, current federated learning frameworks are polarized towards addressing either the horizontal or vertical separation of data, and tend to overlook the case where both are present. Furthermore, in mainstream horizontal federated learning frameworks, only artificial neural networks are employed to learn the data patterns, which are considered less accurate and interpretable compared to tree-based models on tabular datasets. To this end, we propose a hybrid federated learning framework based on XGBoost, for distributed power prediction from real-time external features. In addition to introducing boosted trees to improve accuracy and interpretability, we combine horizontal and vertical federated learning, to address the scenario where features are scattered in local heterogeneous parties and samples are scattered in various local districts. Moreover, we design a dynamic task allocation scheme such that each party gets a fair share of information, and the computing power of each party can be fully leveraged to boost training efficiency. A follow-up case study is presented to justify the necessity of adopting the proposed framework. The advantages of the proposed framework in fairness, efficiency and accuracy performance are also confirmed.
翻訳日:2022-01-11 15:41:57 公開日:2022-01-08
# lomar: フェデレート学習に対する毒殺防止策

LoMar: A Local Defense Against Poisoning Attack on Federated Learning ( http://arxiv.org/abs/2201.02873v1 )

ライセンス: Link先を確認
Xingyu Li, Zhe Qu, Shangqing Zhao, Bo Tang, Zhuo Lu, and Yao Liu(参考訳) 連合学習(federated learning, fl)は、ネットワーク内のリモートクライアントにトレーニングデータを分散し続ける、高効率な分散機械学習フレームワークを提供する。 FLはIoTデバイスを使用したプライバシ保護のモバイルエッジコンピューティングフレームワークを実現するが、最近の研究によると、このアプローチはリモートクライアント側からの攻撃を害する可能性がある。 FLに対する毒攻撃に対処するため,Lo}cal {Ma}licious Facto{r} (LoMar) と呼ばれる \textit{two-phase} 防衛アルゴリズムを提案する。 フェーズIでは,カーネル密度推定法を用いて,各リモートクライアントの相対分布を測定してモデル更新を評価する。 フェーズIIでは、悪意のある更新とクリーンな更新を統計的観点から区別するために最適なしきい値が近似される。 実世界の4つのデータセットに関する総合的な実験を行い、実験結果から、我々の防衛戦略がFLシステムを効果的に保護できることが示されている。 特に、ラベルフリッピング攻撃によるAmazonデータセットの防御性能は、FG+Krumと比較して、LoMarがターゲットラベルテストの精度を9,6.0\%$から9,8.8\%$に引き上げ、全体の平均テストの精度が9.0.1\%$から9,7.0\%$に向上したことを示している。

Federated learning (FL) provides a high efficient decentralized machine learning framework, where the training data remains distributed at remote clients in a network. Though FL enables a privacy-preserving mobile edge computing framework using IoT devices, recent studies have shown that this approach is susceptible to poisoning attacks from the side of remote clients. To address the poisoning attacks on FL, we provide a \textit{two-phase} defense algorithm called {Lo}cal {Ma}licious Facto{r} (LoMar). In phase I, LoMar scores model updates from each remote client by measuring the relative distribution over their neighbors using a kernel density estimation method. In phase II, an optimal threshold is approximated to distinguish malicious and clean updates from a statistical perspective. Comprehensive experiments on four real-world datasets have been conducted, and the experimental results show that our defense strategy can effectively protect the FL system. {Specifically, the defense performance on Amazon dataset under a label-flipping attack indicates that, compared with FG+Krum, LoMar increases the target label testing accuracy from $96.0\%$ to $98.8\%$, and the overall averaged testing accuracy from $90.1\%$ to $97.0\%$.
翻訳日:2022-01-11 15:41:31 公開日:2022-01-08
# 最適方向を用いた一対の線形多様体の確率的クラスタリング

Provable Clustering of a Union of Linear Manifolds Using Optimal Directions ( http://arxiv.org/abs/2201.02745v1 )

ライセンス: Link先を確認
Mostafa Rahmani(参考訳) 本稿では,サブスペースクラスタリング問題に対する数少ないクローズドフォームアルゴリズムの一つであるマトリックスファクトリゼーションに基づくクラスタリング(MFC)手法について述べる。 単純でクローズドフォームで計算効率が良いにもかかわらず、MFCは他の高度なサブスペースクラスタリング手法よりも多くの難解なシナリオで優れている。 本稿では,mfcとipursuit(innovation pursuit)アルゴリズムの相関関係を明らかにする。 両アルゴリズム (MFC/iPursuit) の重要な性能要因について光を当てる新たな理論的研究を行い, 両アルゴリズムがクラスタ間の顕著な交点に対して堅牢であることを示す。 重要なことは、部分空間間の距離を重要な性能要因として強調する他のアルゴリズムの理論的保証とは対照的に、MFC/iPursuitの性能はクラスタの革新的なコンポーネント間の距離に大きく依存していることが示される。

This paper focuses on the Matrix Factorization based Clustering (MFC) method which is one of the few closed form algorithms for the subspace clustering problem. Despite being simple, closed-form, and computation-efficien t, MFC can outperform the other sophisticated subspace clustering methods in many challenging scenarios. We reveal the connection between MFC and the Innovation Pursuit (iPursuit) algorithm which was shown to be able to outperform the other spectral clustering based methods with a notable margin especially when the span of clusters are close. A novel theoretical study is presented which sheds light on the key performance factors of both algorithms (MFC/iPursuit) and it is shown that both algorithms can be robust to notable intersections between the span of clusters. Importantly, in contrast to the theoretical guarantees of other algorithms which emphasized on the distance between the subspaces as the key performance factor and without making the innovation assumption, it is shown that the performance of MFC/iPursuit mainly depends on the distance between the innovative components of the clusters.
翻訳日:2022-01-11 15:37:27 公開日:2022-01-08
# wganの最適1-wasserstein距離

Optimal 1-Wasserstein Distance for WGANs ( http://arxiv.org/abs/2201.02824v1 )

ライセンス: Link先を確認
Arthur St\'ephanovitch, Ugo Tanielian, Beno\^it Cadre, Nicolas Klutchnikoff, G\'erard Biau(参考訳) Generative Adversarial Networksを支える数学的な力は、挑戦的な理論的問題を提起する。 生成する分布の幾何学的性質を特徴づける重要な問題に動機づけられ,有限サンプルと漸近レジームの両方におけるwasserstein gans (wgans) の詳細な解析を行った。 潜在空間が不定値であり、出力空間の次元によらず導出結果が妥当な特定の場合について検討する。 特に, 固定標本サイズにおいて, 最適WGANは標本点間の2乗ユークリッド距離の和を最小化する連結経路と密接に関連していることを示す。 また, WGAN が (1-ワッサーシュタイン距離に対して) 対象分布に近づき, サンプルサイズが無限大になる傾向にあるという事実を強調し, 生成的リプシッツ関数の族が適切に成長することを示した。 半離散状態における最適輸送理論の新たな結果を導出する。

The mathematical forces at work behind Generative Adversarial Networks raise challenging theoretical issues. Motivated by the important question of characterizing the geometrical properties of the generated distributions, we provide a thorough analysis of Wasserstein GANs (WGANs) in both the finite sample and asymptotic regimes. We study the specific case where the latent space is univariate and derive results valid regardless of the dimension of the output space. We show in particular that for a fixed sample size, the optimal WGANs are closely linked with connected paths minimizing the sum of the squared Euclidean distances between the sample points. We also highlight the fact that WGANs are able to approach (for the 1-Wasserstein distance) the target distribution as the sample size tends to infinity, at a given convergence rate and provided the family of generative Lipschitz functions grows appropriately. We derive in passing new results on optimal transport theory in the semi-discrete setting.
翻訳日:2022-01-11 15:37:09 公開日:2022-01-08
# 空間スペクトル全変動正規化を用いた非凸局所低ランク・スパース分離を用いたハイパースペクトル画像の雑音除去

Hyperspectral Image Denoising Using Non-convex Local Low-rank and Sparse Separation with Spatial-Spectral Total Variation Regularization ( http://arxiv.org/abs/2201.02812v1 )

ライセンス: Link先を確認
Chong Peng, Yang Liu, Yongyong Chen, Xinxin Wu, Andrew Cheng, Zhao Kang, Chenglizhao Chen, Qiang Cheng(参考訳) 本稿では,低ランク成分とスパース成分の双方に対して,より高精度な近似を同時に開発することを目的とした,HSI復調のための頑健な主成分分析のための新しい非凸手法を提案する。 特に、新しい方法は、各成分行列の局所的低ランクまたはカラム的にスパース特性を制限するために、対数決定式のランク近似と新しい $\ell_{2,\log}$ norm を採用する。 正規化縮小問題である$\ell_{2,\log}$-regularized shrinkage問題に対して、効率的な閉形式解を開発し、$\ell_{2,\log}$-shrinkage演算子と名づける。 新しい正規化と対応する演算子は、一般にカラムごとにスパーシティを必要とする他の問題で使用できる。 さらに,復元されたHSIの空間的・スペクトル的視点からグローバルな断片的滑らかさとスペクトル一貫性を高めるため,ログベース非凸RPCAモデルに空間スペクトル総変動正則化を課す。 シミュレーションおよび実HSIの広汎な実験により,提案手法の有効性が示された。

In this paper, we propose a novel nonconvex approach to robust principal component analysis for HSI denoising, which focuses on simultaneously developing more accurate approximations to both rank and column-wise sparsity for the low-rank and sparse components, respectively. In particular, the new method adopts the log-determinant rank approximation and a novel $\ell_{2,\log}$ norm, to restrict the local low-rank or column-wisely sparse properties for the component matrices, respectively. For the $\ell_{2,\log}$-regularized shrinkage problem, we develop an efficient, closed-form solution, which is named $\ell_{2,\log}$-shrinkage operator. The new regularization and the corresponding operator can be generally used in other problems that require column-wise sparsity. Moreover, we impose the spatial-spectral total variation regularization in the log-based nonconvex RPCA model, which enhances the global piece-wise smoothness and spectral consistency from the spatial and spectral views in the recovered HSI. Extensive experiments on both simulated and real HSIs demonstrate the effectiveness of the proposed method in denoising HSIs.
翻訳日:2022-01-11 15:33:19 公開日:2022-01-08
# コンピュータビジョンによるUAV作物画像からの農業プラントカタログ作成とデータフレームワークの構築

Agricultural Plant Cataloging and Establishment of a Data Framework from UAV-based Crop Images by Computer Vision ( http://arxiv.org/abs/2201.02885v1 )

ライセンス: Link先を確認
Maurice G\"under, Facundo R. Ispizua Yamati, Jana Kierdorf, Ribana Roscher, Anne-Katrin Mahlein, Christian Bauckhage(参考訳) 近代農業におけるUAVに基づく画像検索は、大量の空間的に参照された作物の画像データを収集することを可能にする。 しかし、大規模な実験では、UAV画像は複雑な天蓋構造に多量の作物を含むことに苦しむ。 特に時間的効果の観察においては、複数の画像上の個々の植物の認識と関連する情報の抽出が複雑になる。 本研究は,理解可能なコンピュータビジョン手法に基づいて,uavの作物画像の時間的・空間的識別と個別化を自動化するためのハンズオンワークフローを提案する。 実世界の2つのデータセット上でワークフローを評価する。 1つのデータセットは、成長サイクル全体を通してサトウキビの葉の斑点(真菌病)を観察するために記録されている。 もう1つは、カリフラワー植物の収穫予測に関するものである。 植物カタログは、複数のタイムポイントで見られる単一の植物画像の抽出に利用される。 これにより、大規模な時空間画像データセットを収集し、さまざまなデータレイヤを含むさらなる機械学習モデルをトレーニングすることができる。 提案手法は農業におけるUAVデータの分析と解釈を大幅に改善する。 参照データによる検証により,より複雑な深層学習に基づく認識手法と類似した精度を示す。 私たちのワークフローは、特に大規模なデータセットに対して、植物のカタログ作成と画像抽出のトレーニングを自動化できます。

UAV-based image retrieval in modern agriculture enables gathering large amounts of spatially referenced crop image data. In large-scale experiments, however, UAV images suffer from containing a multitudinous amount of crops in a complex canopy architecture. Especially for the observation of temporal effects, this complicates the recognition of individual plants over several images and the extraction of relevant information tremendously. In this work, we present a hands-on workflow for the automatized temporal and spatial identification and individualization of crop images from UAVs abbreviated as "cataloging" based on comprehensible computer vision methods. We evaluate the workflow on two real-world datasets. One dataset is recorded for observation of Cercospora leaf spot - a fungal disease - in sugar beet over an entire growing cycle. The other one deals with harvest prediction of cauliflower plants. The plant catalog is utilized for the extraction of single plant images seen over multiple time points. This gathers large-scale spatio-temporal image dataset that in turn can be applied to train further machine learning models including various data layers. The presented approach improves analysis and interpretation of UAV data in agriculture significantly. By validation with some reference data, our method shows an accuracy that is similar to more complex deep learning-based recognition techniques. Our workflow is able to automatize plant cataloging and training image extraction, especially for large datasets.
翻訳日:2022-01-11 15:32:56 公開日:2022-01-08
# DeHIN: 大規模な異種情報ネットワークを組み込む分散型フレームワーク

DeHIN: A Decentralized Framework for Embedding Large-scale Heterogeneous Information Networks ( http://arxiv.org/abs/2201.02757v1 )

ライセンス: Link先を確認
Mubashir Imran, Hongzhi Yin, Tong Chen, Zi Huang, Kai Zheng(参考訳) 異種情報ネットワーク(HIN)からの高次情報抽出・活用による異種性モデリングが近年,注目されている。 このようなヘテロジニアスネットワーク埋め込み(HNE)法は、小規模HINの均一性を効果的に活用する。 しかし、現実世界では、新しいノードと異なるタイプのリンクが連続的に導入され、HINのサイズが指数関数的に増加し、数十億規模のネットワークとなる。 このようなHINへのノード埋め込みの学習は、一般的に中央集権的な既存のHNEメソッドのパフォーマンスボトルネックを生み出す。 本稿では, 大規模HNEタスクを高効率かつ有効性保証で処理するために, 異種情報ネットワークのためのtextit{Decentralized Embedding Framework for Heterogeneous Information Network} (DeHIN) を提案する。 DeHINでは、HNEタスクに並列化を注入するためにハイパーグラフを利用する分散並列パイプラインを生成する。 DeHINは、ハイパーグラフとして大きなHINを革新的に定式化し、ハイパーエッジが意味的に類似したノードを接続するコンテキスト保存分割機構を提供する。 当社のフレームワークでは,木のようなパイプラインを採用して効率よくHINを分割する分散戦略を採用しています。 次に、各サブネットワークは、受信したパーティションからノード埋め込みをローカルに学習するためにディープ情報最大化定理を使用する分散ワーカーに割り当てられる。 さらに,すべてのサブネットワークから学習したノード埋め込みを共通のベクトル空間に正確に投影する新しい埋め込みアライメントスキームを考案し,リンク予測やノード分類などの下流タスクを可能にした。

Modeling heterogeneity by extraction and exploitation of high-order information from heterogeneous information networks (HINs) has been attracting immense research attention in recent times. Such heterogeneous network embedding (HNE) methods effectively harness the heterogeneity of small-scale HINs. However, in the real world, the size of HINs grow exponentially with the continuous introduction of new nodes and different types of links, making it a billion-scale network. Learning node embeddings on such HINs creates a performance bottleneck for existing HNE methods that are commonly centralized, i.e., complete data and the model are both on a single machine. To address large-scale HNE tasks with strong efficiency and effectiveness guarantee, we present \textit{Decentralized Embedding Framework for Heterogeneous Information Network} (DeHIN) in this paper. In DeHIN, we generate a distributed parallel pipeline that utilizes hypergraphs in order to infuse parallelization into the HNE task. DeHIN presents a context preserving partition mechanism that innovatively formulates a large HIN as a hypergraph, whose hyperedges connect semantically similar nodes. Our framework then adopts a decentralized strategy to efficiently partition HINs by adopting a tree-like pipeline. Then, each resulting subnetwork is assigned to a distributed worker, which employs the deep information maximization theorem to locally learn node embeddings from the partition it receives. We further devise a novel embedding alignment scheme to precisely project independently learned node embeddings from all subnetworks onto a common vector space, thus allowing for downstream tasks like link prediction and node classification.
翻訳日:2022-01-11 14:40:25 公開日:2022-01-08
# 一神経層を有する深部線形ネットワークのグローバル収束解析

Global Convergence Analysis of Deep Linear Networks with A One-neuron Layer ( http://arxiv.org/abs/2201.02761v1 )

ライセンス: Link先を確認
Kun Chen, Dachao Lin, Zhihua Zhang(参考訳) 本稿では、深層線形ネットワークの非局所収束解析を行うために、Eftekhariの研究に従う。 具体的には,2次損失下で1つのニューロンを持つ層を有するディープ線形ネットワークを最適化することを検討する。 勾配流下において任意の出発点を持つ軌道の収束点を記述し、サドル点の1つあるいは元の点に収束する経路を含む。 また、段階的に大域的最小値に収束する軌道の特定の収束率を示す。 これらの結果を得るために,本論文は主にエフテハリの研究の機械を拡張し,ランク安定集合と大域最小化収束集合を証明的に同定する。 また、定義の必要性を示す具体的な例を示す。 重要なことに、我々の研究結果は、ニューラルネットワークの文献を支配し、エフテハリの研究において良心的な初期化を制限した遅延トレーニング体制よりも、任意の初期化点から線形ニューラルネットワークを非局所的にグローバルに解析した初めてのものと思われる。 また、隠れたニューロンの仮定を1つも含まない一般線形ネットワークに結果を拡張することは、依然として困難な問題である。

In this paper, we follow Eftekhari's work to give a non-local convergence analysis of deep linear networks. Specifically, we consider optimizing deep linear networks which have a layer with one neuron under quadratic loss. We describe the convergent point of trajectories with arbitrary starting point under gradient flow, including the paths which converge to one of the saddle points or the original point. We also show specific convergence rates of trajectories that converge to the global minimizer by stages. To achieve these results, this paper mainly extends the machinery in Eftekhari's work to provably identify the rank-stable set and the global minimizer convergent set. We also give specific examples to show the necessity of our definitions. Crucially, as far as we know, our results appear to be the first to give a non-local global analysis of linear neural networks from arbitrary initialized points, rather than the lazy training regime which has dominated the literature of neural networks, and restricted benign initialization in Eftekhari's work. We also note that extending our results to general linear networks without one hidden neuron assumption remains a challenging open problem.
翻訳日:2022-01-11 14:39:57 公開日:2022-01-08
# 知識グラフ埋め込みモデルのスケーリング

Scaling Knowledge Graph Embedding Models ( http://arxiv.org/abs/2201.02791v1 )

ライセンス: Link先を確認
Nasrullah Sheikh, Xiao Qin, Berthold Reinwald, Chuan Lei(参考訳) リンク予測タスクのためのグラフニューラルネットワーク(GNN)をトレーニングするためのスケーラブルなソリューションの開発は、高い計算コストと巨大なメモリフットプリントを必要とする高いデータ依存関係のため、難しい。 本稿では,これらの課題に対処するためのリンク予測のための知識グラフ埋め込みモデルの学習方法を提案する。 この目的に向けて,自己充足分割,制約に基づく負サンプリング,エッジミニバッチトレーニングというアルゴリズム戦略を提案する。 分割戦略と制約に基づく負のサンプリングはどちらも、トレーニング中のクロスパーティションデータ転送を避ける。 実験の結果,GNNベースの知識グラフ埋め込みモデルのスケーリングソリューションは,ベンチマークデータセットの16倍の高速化を実現し,標準メトリクスの非分散手法と同等の性能を維持した。

Developing scalable solutions for training Graph Neural Networks (GNNs) for link prediction tasks is challenging due to the high data dependencies which entail high computational cost and huge memory footprint. We propose a new method for scaling training of knowledge graph embedding models for link prediction to address these challenges. Towards this end, we propose the following algorithmic strategies: self-sufficient partitions, constraint-based negative sampling, and edge mini-batch training. Both, partitioning strategy and constraint-based negative sampling, avoid cross partition data transfer during training. In our experimental evaluation, we show that our scaling solution for GNN-based knowledge graph embedding models achieves a 16x speed up on benchmark datasets while maintaining a comparable model performance as non-distributed methods on standard metrics.
翻訳日:2022-01-11 14:39:36 公開日:2022-01-08
# PocketNN: 純粋C++における直接フィードバックアライメントとポケットアクティベーションによるニューラルネットワークの整数のみのトレーニングと推論

PocketNN: Integer-only Training and Inference of Neural Networks via Direct Feedback Alignment and Pocket Activations in Pure C++ ( http://arxiv.org/abs/2201.02863v1 )

ライセンス: Link先を確認
Jaewoo Song and Fangzhen Lin(参考訳) 標準ディープラーニングアルゴリズムは浮動小数点実数を用いて実装される。 これは、専用の浮動小数点ユニット(FPU)を持たないローエンドデバイスに実装する際の障害となる。 その結果、tinymlの研究者は、整数演算のみを使用して、dnn(deep neural network)をローエンドデバイス上でトレーニングおよび実行できる機械学習アルゴリズムを検討した。 本稿では,PocketNNを提案する。PocketNNは,整数のみを用いたDNNのトレーニングと推論のための,純粋C++における概念実証フレームワークである。 他のアプローチとは異なり、PocketNNは明示的な量子化アルゴリズムやカスタマイズされた固定点形式を必要とせずに整数を直接操作する。 これは、整数専用DNN用に考案されたアクティベーション関数のファミリーであるポケットアクティベーションと、直接フィードバックアライメント(DFA)と呼ばれる新たなDNNトレーニングアルゴリズムによって実現された。 標準バックプロパゲーション(BP)とは異なり、DFAは各層を個別に訓練するので、整数のみの操作でBPを使用する場合の重要な問題である整数オーバーフローを避けることができる。 私たちはPocketNNを使って、有名な2つのデータセットMNISTとFashion-MNISTでDNNをトレーニングしました。 我々のPocketNNでトレーニングしたDNNは、MNISTデータセットとFashion-MNISTデータセットでそれぞれ96.98%と87.7%の精度を達成した。 精度は、BPと浮動小数点実数演算を用いて訓練された同等のDNNと非常によく似ており、それぞれ1.02%pと2.09%pであった。 最後に、PocketNNはオープンソースであり、依存関係なしで純粋なC++で実装されているため、ローエンドデバイスに対する高い互換性と移植性を持っています。

Standard deep learning algorithms are implemented using floating-point real numbers. This presents an obstacle for implementing them on low-end devices which may not have dedicated floating-point units (FPUs). As a result, researchers in TinyML have considered machine learning algorithms that can train and run a deep neural network (DNN) on a low-end device using integer operations only. In this paper we propose PocketNN, a light and self-contained proof-of-concept framework in pure C++ for the training and inference of DNNs using only integers. Unlike other approaches, PocketNN directly operates on integers without requiring any explicit quantization algorithms or customized fixed-point formats. This was made possible by pocket activations, which are a family of activation functions devised for integer-only DNNs, and an emerging DNN training algorithm called direct feedback alignment (DFA). Unlike the standard backpropagation (BP), DFA trains each layer independently, thus avoiding integer overflow which is a key problem when using BP with integer-only operations. We used PocketNN to train some DNNs on two well-known datasets, MNIST and Fashion-MNIST. Our experiments show that the DNNs trained with our PocketNN achieved 96.98% and 87.7% accuracies on MNIST and Fashion-MNIST datasets, respectively. The accuracies are very close to the equivalent DNNs trained using BP with floating-point real number operations, such that accuracy degradations were just 1.02%p and 2.09%p, respectively. Finally, our PocketNN has high compatibility and portability for low-end devices as it is open source and implemented in pure C++ without any dependencies.
翻訳日:2022-01-11 14:39:23 公開日:2022-01-08
# 注意に基づくランダム森林と汚染モデル

Attention-based Random Forest and Contamination Model ( http://arxiv.org/abs/2201.02880v1 )

ライセンス: Link先を確認
Lev V. Utkin and Andrei V. Konstantinov(参考訳) abrf (the attention-based random forest) と呼ばれる新しいアプローチと, 回帰と分類のためにランダム林 (rf) に注意機構を適用するための修正を提案する。 提案されたABRFモデルの背後にある主要なアイデアは、特定の方法で決定木にトレーニング可能なパラメータで注意重みを割り当てることである。 重みは、木の対応する葉に落ちるインスタンスと、同じ葉に落ちるインスタンスとの距離に依存する。 この考え方は、nadaraya-watson核回帰をrfの形で表現することに由来する。 一般的なアプローチの3つの変更が提案されている。 1つは、フーバーの汚染モデルを適用し、二次最適化や線形最適化の問題を解くことで注意重みを計算することに基づいている。 第2および第3の修正は、トレーニング可能なパラメータの計算に勾配に基づくアルゴリズムを使用する。 様々な回帰および分類データセットを用いた数値実験は,提案手法を例証する。

A new approach called ABRF (the attention-based random forest) and its modifications for applying the attention mechanism to the random forest (RF) for regression and classification are proposed. The main idea behind the proposed ABRF models is to assign attention weights with trainable parameters to decision trees in a specific way. The weights depend on the distance between an instance, which falls into a corresponding leaf of a tree, and instances, which fall in the same leaf. This idea stems from representation of the Nadaraya-Watson kernel regression in the form of a RF. Three modifications of the general approach are proposed. The first one is based on applying the Huber's contamination model and on computing the attention weights by solving quadratic or linear optimization problems. The second and the third modifications use the gradient-based algorithms for computing trainable parameters. Numerical experiments with various regression and classification datasets illustrate the proposed method.
翻訳日:2022-01-11 14:21:55 公開日:2022-01-08
# ディープニューラルネットワーク分類器を用いた医用画像の分割に対するスニーク攻撃

A Sneak Attack on Segmentation of Medical Images Using Deep Neural Network Classifiers ( http://arxiv.org/abs/2201.02771v1 )

ライセンス: Link先を確認
Shuyue Guan, Murray Loew(参考訳) 現在のディープラーニングセグメンテーションモデル(UNetや変種など)の代わりに、訓練された畳み込みニューラルネットワーク(CNN)分類器を用いて、画像分類のために分類対象から重要な特徴を自動的に抽出するセグメンテーション問題にアプローチする。 抽出した特徴をGrad-CAM (Gradient-weighted Class Activation Mapping) を用いて可視化し,ヒートマップを作成する。 この研究は、分類されたターゲットを分割するためにヒートマップが使えるかどうかを検証した。 また,熱マップを用いた画像を用いてCNN分類器の再訓練を行い,その性能について検討した。 平均dice係数を用いてセグメンテーション結果の評価を行った。 以上の結果から,温熱マップは部分腫瘍部位の特定と分画が可能であった。 しかし、CNN分類器のヒートマップのみがセグメンテーションの最適アプローチではないかもしれない。 また,cnn分類器の予測が主に腫瘍領域に依存し,grad-camのヒートマップの暗領域も分類に寄与していることを確認した。

Instead of using current deep-learning segmentation models (like the UNet and variants), we approach the segmentation problem using trained Convolutional Neural Network (CNN) classifiers, which automatically extract important features from classified targets for image classification. Those extracted features can be visualized and formed heatmaps using Gradient-weighted Class Activation Mapping (Grad-CAM). This study tested whether the heatmaps could be used to segment the classified targets. We also proposed an evaluation method for the heatmaps; that is, to re-train the CNN classifier using images filtered by heatmaps and examine its performance. We used the mean-Dice coefficient to evaluate segmentation results. Results from our experiments show that heatmaps can locate and segment partial tumor areas. But only use of the heatmaps from CNN classifiers may not be an optimal approach for segmentation. In addition, we have verified that the predictions of CNN classifiers mainly depend on tumor areas, and dark regions in Grad-CAM's heatmaps also contribute to classification.
翻訳日:2022-01-11 14:21:41 公開日:2022-01-08