このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20211121)

# 偽ニュース検出ツールと方法 -- レビュー

Fake News Detection Tools and Methods -- A Review ( http://arxiv.org/abs/2112.11185v1 )

ライセンス: Link先を確認
Sakshini Hangloo and Bhavna Arora(参考訳) 過去10年間で、Facebook、Twitter、Instagram、Weiboなどのソーシャルネットワークプラットフォームやマイクロブログサイトは、私たちの日々の活動の不可欠な部分となり、何十億ものユーザーが自分のビューを共有し、メッセージ、写真、ビデオの形で情報を流すために世界中で利用されている。 これらは政府機関が、認証済みのFacebookアカウントや公式Twitterハンドルを通じて重要な情報を広めるためにも使われている。 しかし、プロパガンダやうわさといった詐欺行為の多くは、ユーザーを毎日誤解させる可能性がある。 新型コロナウイルスの時代には、偽ニュースや噂が非常に広まり、この厳しい時期に混乱を引き起こした膨大な数で共有されている。 したがって、現在のシナリオではフェイクニュース検出の必要性は避けられない。 本稿では,インターネット上での偽ニュースの検出方法に関する最近の文献を調査した。 特に、まず、文献で検討されている偽ニュースと偽ニュースに関連する様々な用語について論じる。 第2に、Fake Newsをリアルタイムでデバンクできる、公開可能なさまざまなデータセットとさまざまなオンラインツールを強調します。 第3に,2つの領域,すなわち内容と社会的文脈に基づく偽ニュース検出手法について述べる。 最後に,フェイクニュースの除去に使用される各種手法の比較を行った。

In the past decade, the social networks platforms and micro-blogging sites such as Facebook, Twitter, Instagram, and Weibo have become an integral part of our day-to-day activities and is widely used all over the world by billions of users to share their views and circulate information in the form of messages, pictures, and videos. These are even used by government agencies to spread important information through their verified Facebook accounts and official Twitter handles, as they can reach a huge population within a limited time window. However, many deceptive activities like propaganda and rumor can mislead users on a daily basis. In these COVID times, fake news and rumors are very prevalent and are shared in a huge number which has created chaos in this tough time. And hence, the need for Fake News Detection in the present scenario is inevitable. In this paper, we survey the recent literature about different approaches to detect fake news over the Internet. In particular, we firstly discuss fake news and the various terms related to it that have been considered in the literature. Secondly, we highlight the various publicly available datasets and various online tools that are available and can debunk Fake News in real-time. Thirdly, we describe fake news detection methods based on two broader areas i.e., its content and the social context. Finally, we provide a comparison of various techniques that are used to debunk fake news.
翻訳日:2021-12-26 13:15:53 公開日:2021-11-21
# 解釈可能なCNN-LSTMモデルを用いた単一チャネル脳波の主観非依存性認識

Subject-Independent Drowsiness Recognition from Single-Channel EEG with an Interpretable CNN-LSTM model ( http://arxiv.org/abs/2112.10894v1 )

ライセンス: Link先を確認
Jian Cui, Zirui Lan, Tianhu Zheng, Yisi Liu, Olga Sourina, Lipo Wang, Wolfgang M\"uller-Wittig(参考訳) 脳波に基づく眠気認識では,各被験者のキャリブレーションが時間を要するため,被検者に依存しない認識が望ましい。 本稿では,単一チャネル脳波信号からの主観的非依存性認識のための新しい畳み込みニューラルネットワーク (CNN)-Long Short-Term Memory (LSTM) モデルを提案する。 主にブラックボックス分類器として扱われる既存のディープラーニングモデルとは異なり、提案モデルでは、サンプルのどの部分が分類モデルによって識別される重要な特徴を含んでいるかを明らかにすることにより、各入力サンプルの判断を説明することができる。 これはLSTM層が出力する隠れ状態を利用する可視化技術によって実現される。 その結果、従来の55.42%-69.27%のベースライン法と最先端のディープラーニング法よりも高い公立データセットにおいて、11人の被験者に対して平均72.97%の精度が得られた。 可視化の結果、モデルでは、異なる被験者の異なる精神状態に関連する脳波信号の有意義なパターンが発見された。

For EEG-based drowsiness recognition, it is desirable to use subject-independent recognition since conducting calibration on each subject is time-consuming. In this paper, we propose a novel Convolutional Neural Network (CNN)-Long Short-Term Memory (LSTM) model for subject-independent drowsiness recognition from single-channel EEG signals. Different from existing deep learning models that are mostly treated as black-box classifiers, the proposed model can explain its decisions for each input sample by revealing which parts of the sample contain important features identified by the model for classification. This is achieved by a visualization technique by taking advantage of the hidden states output by the LSTM layer. Results show that the model achieves an average accuracy of 72.97% on 11 subjects for leave-one-out subject-independent drowsiness recognition on a public dataset, which is higher than the conventional baseline methods of 55.42%-69.27%, and state-of-the-art deep learning methods. Visualization results show that the model has discovered meaningful patterns of EEG signals related to different mental states across different subjects.
翻訳日:2021-12-26 13:15:15 公開日:2021-11-21
# (参考訳) isomer: アスペクトに基づく感情分類のための2チャネル不均一依存注意ネットワーク [全文訳有]

Isomer: Transfer enhanced Dual-Channel Heterogeneous Dependency Attention Network for Aspect-based Sentiment Classification ( http://arxiv.org/abs/2112.03011v1 )

ライセンス: CC BY 4.0
Yukun Cao and Yijia Tang and Ziyue Wei and ChengKun Jin and Zeyu Miao and Yixin Fang and Haizhou Du and Feifei Xu(参考訳) アスペクトベース感情分類は、文中の特定のアスペクトの感情極性を予測することを目的としている。 しかし、既存のほとんどのメソッドは、短文の包括的文脈化特徴をカバーできない、あるいは追加のノードタイプや意味関係情報を考えることができない疎明さと曖昧さを持つ均質な依存関係グラフへの依存関係関係の構築を試みる。 これらの問題を解決するために,外部知識を組み込んだ不均質な依存グラフに対して2チャネルの注意を向け,他の追加情報を効果的に統合する isomer という感情分析モデルを提案する。 具体的には、異種依存グラフを用いて短いテキストをモデル化するために、異種依存注意ネットワークをアイソマーで考案した。 これらの異種依存グラフは、異なる種類の情報だけでなく、外部知識も含んでいる。 実験により,本モデルがベンチマークデータセットの最近のモデルよりも優れていることが示された。 さらに,提案手法は,情報的文脈的単語に焦点をあてる様々な情報特徴の重要性を捉えていることが示唆された。

Aspect-based sentiment classification aims to predict the sentiment polarity of a specific aspect in a sentence. However, most existing methods attempt to construct dependency relations into a homogeneous dependency graph with the sparsity and ambiguity, which cannot cover the comprehensive contextualized features of short texts or consider any additional node types or semantic relation information. To solve those issues, we present a sentiment analysis model named Isomer, which performs a dual-channel attention on heterogeneous dependency graphs incorporating external knowledge, to effectively integrate other additional information. Specifically, a transfer-enhanced dual-channel heterogeneous dependency attention network is devised in Isomer to model short texts using heterogeneous dependency graphs. These heterogeneous dependency graphs not only consider different types of information but also incorporate external knowledge. Experiments studies show that our model outperforms recent models on benchmark datasets. Furthermore, the results suggest that our method captures the importance of various information features to focus on informative contextual words.
翻訳日:2021-12-12 18:14:46 公開日:2021-11-21
# 顔表情と頭部電位推定に基づく感情学習システムのカスタマイズ

Customizing an Affective Tutoring System Based on Facial Expression and Head Pose Estimation ( http://arxiv.org/abs/2111.14262v1 )

ライセンス: Link先を確認
Mahdi Pourmirzaei, Gholam Ali Montazer, Ebrahim Mousavi(参考訳) 近年,eラーニングの主な問題は,コンテンツの分析から知能学習システム(ITS)による学習環境のパーソナライズへと移行している。 したがって、パーソナライズされた教育モデルを設計することで、学習者は学習目標を達成する上で成功し満足できる経験を得られる。 Affective Tutoring Systems (ATSs)は、学習者の感情状態を認識して反応できるITSの一種である。 本研究では,顔の感情認識,頭部ポーズ推定,学習者の認知スタイルに基づいて,学習環境をパーソナライズするシステムの設計,実装,評価を行った。 まず、AI(Intelligent Analyzer)と呼ばれるユニットが、学習者の表情と頭部角を認識する責任を負った。 次にATSは主にITS、IAの2つのユニットで構成された。 その結果、ATSでは、参加者はテストに合格する労力が少なかった。 言い換えれば、IAユニットが活性化されたとき、学習者はIAユニットが非活性化された者よりも、最終テストを少ない試行で通過することができる。 また,平均通算得点と学業満足度の観点からも改善が見られた。

In recent years, the main problem in e-learning has shifted from analyzing content to personalization of learning environment by Intelligence Tutoring Systems (ITSs). Therefore, by designing personalized teaching models, learners are able to have a successful and satisfying experience in achieving their learning goals. Affective Tutoring Systems (ATSs) are some kinds of ITS that can recognize and respond to affective states of learner. In this study, we designed, implemented, and evaluated a system to personalize the learning environment based on the facial emotions recognition, head pose estimation, and cognitive style of learners. First, a unit called Intelligent Analyzer (AI) created which was responsible for recognizing facial expression and head angles of learners. Next, the ATS was built which mainly made of two units: ITS, IA. Results indicated that with the ATS, participants needed less efforts to pass the tests. In other words, we observed when the IA unit was activated, learners could pass the final tests in fewer attempts than those for whom the IA unit was deactivated. Additionally, they showed an improvement in terms of the mean passing score and academic satisfaction.
翻訳日:2021-12-06 01:22:45 公開日:2021-11-21
# 適応学習型ニューラルネットワークを用いた非線形土木構造物の動的解析

Dynamic Analysis of Nonlinear Civil Engineering Structures using Artificial Neural Network with Adaptive Training ( http://arxiv.org/abs/2111.13759v1 )

ライセンス: Link先を確認
Xiao Pan, Zhizhao Wen, T.Y. Yang(参考訳) 地震励起を受ける構造物の動的解析は、特に、非常に小さな時間ステップを必要とする場合や、高い幾何学的および物質的非線形性が存在する場合において、時間を要する過程である。 このようなケースでパラメトリックな研究を行うのは、さらに面倒です。 近年のコンピュータグラフィックスハードウェアの進歩により、高非線形マッピングを学習できることで知られる人工ニューラルネットワークの効率的なトレーニングが可能になる。 本研究では,ニューラルネットワークを適応学習アルゴリズムで構築し,ノードの自動生成とレイヤの追加を可能にする。 活性化機能として双曲タンジェント関数が選択される。 確率勾配DescentとBack Propagationアルゴリズムがネットワークのトレーニングに採用されている。 ニューラルネットワークは、少数の隠れた層とノードで開始する。 トレーニング中、ネットワークのパフォーマンスは継続的に追跡され、ニューラルネットワークのキャパシティに達すると、隠れた層に新しいノードやレイヤが追加される。 トレーニングプロセスの終了時に、適切なアーキテクチャを持つネットワークが自動的に形成される。 ネットワークの性能は、非弾性せん断フレームやロッキング構造で検証されており、どちらも最初に有限要素プログラムで構築され、動的解析によってトレーニングデータを生成する。 その結果, 開発したネットワークは, 実測地記録により, せん断フレームと岩石構造物の時空応答を良好に予測できることがわかった。 提案したニューラルネットワークの効率についても検討し、FEモデルよりもニューラルネットワーク法により計算時間を43%削減できることを示した。 このことは、トレーニングされたネットワークを利用して、より効率的に構造物の揺らぎスペクトルを生成できることを示している。

Dynamic analysis of structures subjected to earthquake excitation is a time-consuming process, particularly in the case of extremely small time step required, or in the presence of high geometric and material nonlinearity. Performing parametric studies in such cases is even more tedious. The advancement of computer graphics hardware in recent years enables efficient training of artificial neural networks that are well-known to be capable of learning highly nonlinear mappings. In this study, artificial neural networks are developed with adaptive training algorithms, which enables automatic nodes generation and layers addition. The hyperbolic tangent function is selected as the activation function. Stochastic Gradient Descent and Back Propagation algorithms are adopted to train the networks. The neural networks initiate with a small number of hidden layers and nodes. During training, the performance of the network is continuously tracked, and new nodes or layers are added to the hidden layers if the neural network reaches its capacity. At the end of the training process, the network with appropriate architecture is automatically formed. The performance of the networks has been validated for inelastic shear frames, as well as rocking structures, of which both are first built in finite element program for dynamic analysis to generate training data. Results have shown the developed networks can successfully predict the time-history response of the shear frame and the rock structure subjected to real ground motion records. The efficiency of the proposed neural networks is also examined, which shows the computational time can be reduced by 43% by the neural networks method than FE models. This indicates the trained networks can be utilized to generate rocking spectrums of structures more efficiently which demands a large number of time-history analyses.
翻訳日:2021-12-06 01:22:27 公開日:2021-11-21
# 複数の受信者によるダイレクトメッセージネットワークのモデリング

Modelling Direct Messaging Networks with Multiple Recipients for Cyber Deception ( http://arxiv.org/abs/2111.11932v1 )

ライセンス: Link先を確認
Kristen Moore, Cody J. Christopher, David Liebowitz, Surya Nepal, Renee Selvey(参考訳) サイバー詐欺は、ネットワークやシステムを攻撃者やデータ泥棒から守るための有望なアプローチとして浮上している。 しかし、デプロイが比較的安価であるにもかかわらず、リッチでインタラクティブな偽装技術が主に手作りであるという事実から、大規模な現実的なコンテンツの生成は非常にコストがかかる。 最近の機械学習の改善により、リアルで魅惑的なシミュレートコンテンツの作成にスケールと自動化をもたらす機会が得られました。 本研究では,電子メールとインスタントメッセージ形式のグループ通信を大規模に自動生成するフレームワークを提案する。 組織内のこのようなメッセージングプラットフォームには、プライベートなコミュニケーションやドキュメント添付ファイルの中に多くの貴重な情報が含まれており、敵を魅了するターゲットとなっている。 このタイプのシステムをシミュレートする2つの重要な側面に対処します。参加者がいつ誰とコミュニケーションするかをモデル化し、シミュレートされた会話スレッドを投入するためにトピック付きマルチパーティテキストを生成します。 本稿では,lognormmix-netの時間的点過程を,shchurらによるインテンシティフリーモデリングアプローチに基づいて,その最初のアプローチとして提示する。 ~\cite{shchur2019intensity} ユニキャストおよびマルチキャスト通信のための生成モデルを作成する。 我々は,マルチパーティ会話スレッドを生成するために,微調整,事前訓練された言語モデルを用いることを実証する。 ライブメールサーバは、LogNormMix-Net TPP(通信タイムスタンプ、送信者および受信者を生成する)を言語モデルと結合し、マルチパーティの電子メールスレッドの内容を生成することでシミュレートされる。 本研究では,多くの現実主義的特性に対して生成されたコンテンツを評価し,モデルが相手の注意を惹きつけるコンテンツを生成することを奨励し,騙しの結果を得る。

Cyber deception is emerging as a promising approach to defending networks and systems against attackers and data thieves. However, despite being relatively cheap to deploy, the generation of realistic content at scale is very costly, due to the fact that rich, interactive deceptive technologies are largely hand-crafted. With recent improvements in Machine Learning, we now have the opportunity to bring scale and automation to the creation of realistic and enticing simulated content. In this work, we propose a framework to automate the generation of email and instant messaging-style group communications at scale. Such messaging platforms within organisations contain a lot of valuable information inside private communications and document attachments, making them an enticing target for an adversary. We address two key aspects of simulating this type of system: modelling when and with whom participants communicate, and generating topical, multi-party text to populate simulated conversation threads. We present the LogNormMix-Net Temporal Point Process as an approach to the first of these, building upon the intensity-free modeling approach of Shchur et al.~\cite{shchur2019intensity} to create a generative model for unicast and multi-cast communications. We demonstrate the use of fine-tuned, pre-trained language models to generate convincing multi-party conversation threads. A live email server is simulated by uniting our LogNormMix-Net TPP (to generate the communication timestamp, sender and recipients) with the language model, which generates the contents of the multi-party email threads. We evaluate the generated content with respect to a number of realism-based properties, that encourage a model to learn to generate content that will engage the attention of an adversary to achieve a deception outcome.
翻訳日:2021-11-24 17:22:14 公開日:2021-11-21
# (参考訳) pac学習用一様エルゴード通信ネットワーク [全文訳有]

PAC-Learning Uniform Ergodic Communicative Networks ( http://arxiv.org/abs/2111.10708v1 )

ライセンス: CC BY 4.0
Yihan He(参考訳) 本研究は,頂点間の通信でネットワークを学習する問題に対処する。 頂点間の通信は測度上の摂動という形で提示される。 本研究では,一様エルゴディックなランダムグラフプロセス(RGP)からサンプルを抽出し,興味のある問題に対する自然な数学的文脈を提供するシナリオについて検討した。 二元分類問題において, 得られた結果は一様学習可能性を与え, 最悪の場合の理論的限界となる。 私たちは構造的ラデマッハの複雑さを導入し、vc理論に自然に融合して最初の瞬間を上向きにした。 martingale法とmartonのカップリングにより、一様収束のためのテールバウンドを確立し、経験的リスク最小化のための一貫性を保証する。 この研究で高確率境界を得るために用いられる技術は、ネットワーク構造を伴わずに他の混合プロセスに独立した関心を持つ。

This work addressed the problem of learning a network with communication between vertices. The communication between vertices is presented in the form of perturbation on the measure. We studied the scenario where samples are drawn from a uniform ergodic Random Graph Process (RGPs for short), which provides a natural mathematical context for the problem of interest. For the binary classification problem, the result we obtained gives uniform learn-ability as the worst-case theoretical limits. We introduced the structural Rademacher complexity, which naturally fused into the VC theory to upperbound the first moment. With the martingale method and Marton's coupling, we establish the tail bound for uniform convergence and give consistency guarantee for empirical risk minimizer. The technique used in this work to obtain high probability bounds is of independent interest to other mixing processes with and without network structure.
翻訳日:2021-11-24 10:00:36 公開日:2021-11-21
# (参考訳) エネルギー変動推論による低差分点 [全文訳有]

Low-Discrepancy Points via Energetic Variational Inference ( http://arxiv.org/abs/2111.10722v1 )

ライセンス: CC BY 4.0
Yindong Chen, Yiwei Wang, Lulu Kang, Chun Liu(参考訳) 本稿では,最大平均偏差(mmd)として知られるカーネル偏差を最小化することにより,決定論的変分推論手法を提案し,低差点を生成する。 Wangらによる一般的なエネルギー的変動推論フレームワークに基づく。 al. (2021) では、カーネルの不一致を最小限に抑え、明示的なオイラースキームによって動的ODEシステムを解く。 得られたアルゴリズムをEVI-MMDと命名し、対象分布が完全に特定され、正規化定数まで部分的に特定され、訓練データの形で実証的に知られている例を通して示す。 その性能は、分布近似、数値積分、生成学習の応用における代替手法と比較して満足できる。 EVI-MMDアルゴリズムは既存のMDD-Descentアルゴリズムのボトルネックを克服する。 より洗練された構造と潜在的な利点を持つアルゴリズムは、EVIフレームワークの下で開発することができる。

In this paper, we propose a deterministic variational inference approach and generate low-discrepancy points by minimizing the kernel discrepancy, also known as the Maximum Mean Discrepancy or MMD. Based on the general energetic variational inference framework by Wang et. al. (2021), minimizing the kernel discrepancy is transformed to solving a dynamic ODE system via the explicit Euler scheme. We name the resulting algorithm EVI-MMD and demonstrate it through examples in which the target distribution is fully specified, partially specified up to the normalizing constant, and empirically known in the form of training data. Its performances are satisfactory compared to alternative methods in the applications of distribution approximation, numerical integration, and generative learning. The EVI-MMD algorithm overcomes the bottleneck of the existing MMD-descent algorithms, which are mostly applicable to two-sample problems. Algorithms with more sophisticated structures and potential advantages can be developed under the EVI framework.
翻訳日:2021-11-24 09:34:38 公開日:2021-11-21
# (参考訳) MaIL:イメージセグメンテーションの参照のための統一マスク画像言語トリモーダルネットワーク [全文訳有]

MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image Segmentation ( http://arxiv.org/abs/2111.10747v1 )

ライセンス: CC BY 4.0
Zizhang Li, Mengmeng Wang, Jianbiao Mei, Yong Liu(参考訳) 参照画像セグメント化は、与えられた言語表現で記述された参照のためのバイナリマスクを生成することを目的とした、典型的なマルチモーダルタスクである。 プリエントアーツはバイモーダルソリューションを採用し、エンコーダ-フュージョン-デコーダパイプライン内でイメージと言語を2つのモダリティとして扱う。 しかしながら、このパイプラインは2つの理由から、ターゲットタスクのサブ最適化である。 まず、ユニモーダルエンコーダが生成するハイレベルな機能を別々に融合するだけで、十分なクロスモーダル学習を妨げる。 第二に、ユニモーダルエンコーダは独立してプリトレーニングされ、プリトレーニングされたユニモーダルタスクとターゲットのマルチモーダルタスクとの間の不整合をもたらす。 さらに、このパイプラインは直感的に有用なインスタンスレベルの機能を無視するか、ほとんど利用しないことが多い。 これらの問題を解消するため、より簡潔なエンコーダデコーダパイプラインであるMaILと、Mask-Image-Language トリモーダルエンコーダを提案する。 具体的には、一様特徴抽出器とその融合モデルを深いモーダル相互作用エンコーダに統合し、異なるモーダル間の十分な特徴相互作用を容易にする。 一方、MaILは、ユニモーダルエンコーダがもはや不要であるため、第2の制限を直接回避する。 さらに,インスタンスレベルの特徴を明示的に強調し,より細かなセグメンテーション結果を促進する,追加のモダリティとしてインスタンスマスクを導入することを提案する。 提案されたMaILは、RefCOCO、RefCOCO+、G-Refを含む、頻繁に使用されるすべての参照イメージセグメンテーションデータセットに対して、新たな最先端のデータセットを設定した。 コードはまもなくリリースされる。

Referring image segmentation is a typical multi-modal task, which aims at generating a binary mask for referent described in given language expressions. Prior arts adopt a bimodal solution, taking images and languages as two modalities within an encoder-fusion-decod er pipeline. However, this pipeline is sub-optimal for the target task for two reasons. First, they only fuse high-level features produced by uni-modal encoders separately, which hinders sufficient cross-modal learning. Second, the uni-modal encoders are pre-trained independently, which brings inconsistency between pre-trained uni-modal tasks and the target multi-modal task. Besides, this pipeline often ignores or makes little use of intuitively beneficial instance-level features. To relieve these problems, we propose MaIL, which is a more concise encoder-decoder pipeline with a Mask-Image-Language trimodal encoder. Specifically, MaIL unifies uni-modal feature extractors and their fusion model into a deep modality interaction encoder, facilitating sufficient feature interaction across different modalities. Meanwhile, MaIL directly avoids the second limitation since no uni-modal encoders are needed anymore. Moreover, for the first time, we propose to introduce instance masks as an additional modality, which explicitly intensifies instance-level features and promotes finer segmentation results. The proposed MaIL set a new state-of-the-art on all frequently-used referring image segmentation datasets, including RefCOCO, RefCOCO+, and G-Ref, with significant gains, 3%-10% against previous best methods. Code will be released soon.
翻訳日:2021-11-24 09:04:56 公開日:2021-11-21
# (参考訳) 注意機構を有する深層ニューラルネットワークの効率的なソフトマックス近似 [全文訳有]

Efficient Softmax Approximation for Deep Neural Networks with Attention Mechanism ( http://arxiv.org/abs/2111.10770v1 )

ライセンス: CC BY 4.0
Ihor Vasyltsov, Wooseok Chang(参考訳) ディープニューラルネットワーク(DNN)の推論速度を加速するカスタムハードウェア(HW)が急速に進歩している。 これまで、ソフトマックス層は、多層パーセプトロンや畳み込みニューラルネットワークでは比較的小さいため、DNNがHWを加速する主な関心事ではなかった。 しかし,近年のDNNでは注目機構が広く採用されているため,ソフトマックス層の実装の費用対効果が非常に重要になっている。 本稿では,ルックアップテーブル(luts)を用いてソフトマックス計算を近似する2つの手法を提案する。 入力に正規化を適用すると、ソフトマックスの数値と分母の範囲が安定であるため、LUTの必要サイズは非常に小さい(約700バイト)。 さまざまなaiタスク(オブジェクト検出,機械翻訳,感情分析,意味等価性)とdnnモデル(detr,transformer,be rt)に対して,さまざまなベンチマーク(coco17,wmt14,wmt17, glue)を用いて提案手法を検証する。 8ビット近似により、許容精度の損失が$1.0\%$以下になることを示した。

There has been a rapid advance of custom hardware (HW) for accelerating the inference speed of deep neural networks (DNNs). Previously, the softmax layer was not a main concern of DNN accelerating HW, because its portion is relatively small in multi-layer perceptron or convolutional neural networks. However, as the attention mechanisms are widely used in various modern DNNs, a cost-efficient implementation of softmax layer is becoming very important. In this paper, we propose two methods to approximate softmax computation, which are based on the usage of LookUp Tables (LUTs). The required size of LUT is quite small (about 700 Bytes) because ranges of numerators and denominators of softmax are stable if normalization is applied to the input. We have validated the proposed technique over different AI tasks (object detection, machine translation, sentiment analysis, and semantic equivalence) and DNN models (DETR, Transformer, BERT) by a variety of benchmarks (COCO17, WMT14, WMT17, GLUE). We showed that 8-bit approximation allows to obtain acceptable accuracy loss below $1.0\%$.
翻訳日:2021-11-24 08:49:27 公開日:2021-11-21
# (参考訳) 音声認識言語は非依存か? 言語非依存音声特徴を用いた英語およびバングラ語の分析 [全文訳有]

Is Speech Emotion Recognition Language-Independent ? Analysis of English and Bangla Languages using Language-Independent Vocal Features ( http://arxiv.org/abs/2111.10776v1 )

ライセンス: CC BY 4.0
Fardin Saad, Hasan Mahmud, Md. Alamin Shaheen, Md. Kamrul Hasan, Paresha Farastu(参考訳) 音声から感情を認識する言語に依存しないアプローチは、いまだに不完全で困難な課題である。 本稿では,バングラ語と英語を用いて,感情と音声の区別が言語に依存しないかどうかを評価する。 この研究では、幸福、怒り、中立、悲しみ、嫌悪、恐怖といった感情が分類された。 最初の2つはバングラ語と英語の母語ベンガル語話者によって別々に開発された。 3つ目はトロント感情音声セット(TESS)で、カナダ出身の英語話者によって開発された。 言語非依存の韻律特徴を慎重に選択し、サポートベクターマシン(svm)モデルを採用し、3つの実験を行った。 最初の実験では、3つの音声セットのパフォーマンスを個別に測定した。 続いて第2の実験を行い,音声集合を合成して分類率を記録した。 そして,第3の実験では,異なる音声セットでモデルの学習とテストを行い,認識率を測定した。 本研究は、音声感情認識(SER)が言語に依存しないことを明らかにするが、この2つの言語では嫌悪や恐怖といった感情状態を認識しながら、多少の相違がある。 さらに,非母国語話者が母国語で表現するのと同じように,言語を通して感情を伝えることを推測した。

A language agnostic approach to recognizing emotions from speech remains an incomplete and challenging task. In this paper, we used Bangla and English languages to assess whether distinguishing emotions from speech is independent of language. The following emotions were categorized for this study: happiness, anger, neutral, sadness, disgust, and fear. We employed three Emotional Speech Sets, of which the first two were developed by native Bengali speakers in Bangla and English languages separately. The third was the Toronto Emotional Speech Set (TESS), which was developed by native English speakers from Canada. We carefully selected language-independent prosodic features, adopted a Support Vector Machine (SVM) model, and conducted three experiments to carry out our proposition. In the first experiment, we measured the performance of the three speech sets individually. This was followed by the second experiment, where we recorded the classification rate by combining the speech sets. Finally, in the third experiment we measured the recognition rate by training and testing the model with different speech sets. Although this study reveals that Speech Emotion Recognition (SER) is mostly language-independent , there is some disparity while recognizing emotional states like disgust and fear in these two languages. Moreover, our investigations inferred that non-native speakers convey emotions through speech, much like expressing themselves in their native tongue.
翻訳日:2021-11-24 08:31:52 公開日:2021-11-21
# (参考訳) グラフニューラルネットワークを用いた連合型ソーシャルレコメンデーション [全文訳有]

Federated Social Recommendation with Graph Neural Network ( http://arxiv.org/abs/2111.10778v1 )

ライセンス: CC BY 4.0
Zhiwei Liu, Liangwei Yang, Ziwei Fan, Hao Peng, Philip S. Yu(参考訳) 近年,レコメンダシステムの普及が進み,埋め込み学習によって商品に対するユーザの潜在的関心を予測するようになっている。 グラフニューラルネットワーク~(GNN)の最近の開発は、ユーザアイコングラフから埋め込みを学ぶための強力なバックボーンを持つレコメンデータシステムも提供する。 しかし、データ収集の難しさから、ユーザとイテムのインタラクションを活用することだけがコールドスタートの問題に悩まされる。 したがって、現在の取り組みは、ソーシャルレコメンデーション問題である、ユーザとイテムの相互作用によるソーシャル情報の融合を提案している。 既存の作業では、ソーシャルリンクとユーザとイテムの両方を同時に集約するためにGNNを使用している。 しかし、それらはすべて、ソーシャルリンクの集中ストレージと、ユーザのアイテムインタラクションを必要とするため、プライバシー上の懸念につながります。 さらに、General Data Protection Regulationの厳格なプライバシー保護によると、中央集権的なデータストレージは将来的には実現不可能であり、社会的レコメンデーションの分散フレームワークを推進している。 この目的のために、新しいフレームワークである \textbf{Fe}drated \textbf{So}cial recommendation with \textbf{G}raph Neural Network (FeSoG)を考案した。 まず、FeSoGは不均一性を扱うためにリレーショナルアテンションとアグリゲーションを採用する。 第二に、FeSoGはパーソナライズを保持するためにローカルデータを使用してユーザの埋め込みを推測する。 最後に、提案されたモデルは、プライバシ保護とトレーニング強化のために、アイテムサンプリングを伴う擬似ラベル技術を採用している。 3つの現実世界データセットに関する広範囲な実験は、社会的推薦とプライバシー保護の完了におけるfesogの有効性を正当化する。 社会的なレコメンデーションのための連合学習フレームワークを提案するのは,私たちの知識を最大限に活用するための最初の作業です。

Recommender systems have become prosperous nowadays, designed to predict users' potential interests in items by learning embeddings. Recent developments of the Graph Neural Networks~(GNNs) also provide recommender systems with powerful backbones to learn embeddings from a user-item graph. However, only leveraging the user-item interactions suffers from the cold-start issue due to the difficulty in data collection. Hence, current endeavors propose fusing social information with user-item interactions to alleviate it, which is the social recommendation problem. Existing work employs GNNs to aggregate both social links and user-item interactions simultaneously. However, they all require centralized storage of the social links and item interactions of users, which leads to privacy concerns. Additionally, according to strict privacy protection under General Data Protection Regulation, centralized data storage may not be feasible in the future, urging a decentralized framework of social recommendation. To this end, we devise a novel framework \textbf{Fe}drated \textbf{So}cial recommendation with \textbf{G}raph neural network (FeSoG). Firstly, FeSoG adopts relational attention and aggregation to handle heterogeneity. Secondly, FeSoG infers user embeddings using local data to retain personalization. Last but not least, the proposed model employs pseudo-labeling techniques with item sampling to protect the privacy and enhance training. Extensive experiments on three real-world datasets justify the effectiveness of FeSoG in completing social recommendation and privacy protection. We are the first work proposing a federated learning framework for social recommendation to the best of our knowledge.
翻訳日:2021-11-24 08:16:48 公開日:2021-11-21
# (参考訳) HoughCL: 集中型自己教師型学習におけるポジティブペアの発見 [全文訳有]

HoughCL: Finding Better Positive Pairs in Dense Self-supervised Learning ( http://arxiv.org/abs/2111.10794v1 )

ライセンス: CC BY 4.0
Yunsung Lee, Teakgyu Hong, Han-Cheol Cho, Junbum Cha, Seungryong Kim(参考訳) 近年,自己教師あり手法は画像レベルの表現学習において顕著な成果を示している。 それでも、イメージレベルの自己スーパービジョンは、オブジェクト検出やインスタンスセグメンテーションなどの密集した予測タスクに対して、学習表現を最適化する。 この問題に対処するため、近年、複数の自己教師付き学習手法が画像レベルのシングル埋め込みをピクセルレベルの高密度埋め込みに拡張した。 画像レベルの表現学習とは異なり、拡張の空間的変形のため、ピクセルレベルの正対をサンプリングすることは困難である。 従来の研究では、密接な埋め込みの間の歪んだ距離の類似性やしきい値の中で、勝者のすべてを使ってピクセルレベルの正対をサンプリングしていた。 しかし、これらのナイーブな手法は背景クラッタや外れ値問題で苦労することがある。 本稿では,Hough空間に基づく2つの高密度特徴間の幾何的整合性を実現するHough Contrastive Learning (HoughCL)を提案する。 HoughCLはバックグラウンドのクラッタやアウトレイラに対して堅牢性を実現する。 さらに,本手法は,ベースラインと比較して,学習可能なパラメータを加味せず,計算コストも小さめである。 提案手法は, 従来手法と比較して, 密集した微調整タスクにおいて, 優れた性能または同等の性能を示す。

Recently, self-supervised methods show remarkable achievements in image-level representation learning. Nevertheless, their image-level self-supervisions lead the learned representation to sub-optimal for dense prediction tasks, such as object detection, instance segmentation, etc. To tackle this issue, several recent self-supervised learning methods have extended image-level single embedding to pixel-level dense embeddings. Unlike image-level representation learning, due to the spatial deformation of augmentation, it is difficult to sample pixel-level positive pairs. Previous studies have sampled pixel-level positive pairs using the winner-takes-all among similarity or thresholding warped distance between dense embeddings. However, these naive methods can be struggled by background clutter and outliers problems. In this paper, we introduce Hough Contrastive Learning (HoughCL), a Hough space based method that enforces geometric consistency between two dense features. HoughCL achieves robustness against background clutter and outliers. Furthermore, compared to baseline, our dense positive pairing method has no additional learnable parameters and has a small extra computation cost. Compared to previous works, our method shows better or comparable performance on dense prediction fine-tuning tasks.
翻訳日:2021-11-24 07:50:17 公開日:2021-11-21
# (参考訳) vulcan: グラフニューラルネットワークと深層強化学習によるsteiner tree問題の解法 [全文訳有]

Vulcan: Solving the Steiner Tree Problem with Graph Neural Networks and Deep Reinforcement Learning ( http://arxiv.org/abs/2111.10810v1 )

ライセンス: CC BY 4.0
Haizhou Du and Zong Yan and Qiao Xiang and Qinqing Zhan(参考訳) グラフにおけるシュタイナー木問題(stp)は、与えられた頂点の集合を連結するグラフの最小重みの木を見つけることを目的としている。 これは古典的なNPハード組合せ最適化問題であり、多くの実世界の応用(VLSIチップ設計、輸送ネットワーク計画、無線センサーネットワークなど)がある。 多くの正確なアルゴリズムと近似アルゴリズムがSTP向けに開発されているが、それぞれ高い計算複雑性と弱い最悪の解保証に悩まされている。 ヒューリスティックアルゴリズムも開発されている。 しかし、それぞれが設計にアプリケーションドメインの知識を必要とし、特定のシナリオにのみ適合します。 最近報告された、同じnp-hard combinatorial問題の例が、同一または類似の組合せ構造を維持できるが、そのデータは主に異なるという観測結果に動機づけられ、stpの解法に機械学習技術を適用する可能性と利点について検討した。 そこで我々は,新しいグラフニューラルネットワークと深層強化学習に基づく新しいモデルVulcanを設計する。 Vulcanのコアは、高次元グラフ構造データ(すなわち、パス変更情報)を低次元ベクトル表現に変換する、新しくてコンパクトなグラフ埋め込みである。 STPインスタンスが与えられた場合、Vulcanはこの埋め込みを使用してパス関連情報をエンコードし、二重深度Qネットワーク(DDQN)に基づいた深度強化学習コンポーネントに符号化されたグラフを送信する。 STPに加えて、VulcanはSTPに還元することで、幅広いNPハード問題(SAT、MVC、X3Cなど)の解決策を見つけることができる。 Vulcanのプロトタイプを実装し、実世界および合成データセットを用いた広範囲な実験により、その有効性と効率を実証する。

Steiner Tree Problem (STP) in graphs aims to find a tree of minimum weight in the graph that connects a given set of vertices. It is a classic NP-hard combinatorial optimization problem and has many real-world applications (e.g., VLSI chip design, transportation network planning and wireless sensor networks). Many exact and approximate algorithms have been developed for STP, but they suffer from high computational complexity and weak worst-case solution guarantees, respectively. Heuristic algorithms are also developed. However, each of them requires application domain knowledge to design and is only suitable for specific scenarios. Motivated by the recently reported observation that instances of the same NP-hard combinatorial problem may maintain the same or similar combinatorial structure but mainly differ in their data, we investigate the feasibility and benefits of applying machine learning techniques to solving STP. To this end, we design a novel model Vulcan based on novel graph neural networks and deep reinforcement learning. The core of Vulcan is a novel, compact graph embedding that transforms highdimensional graph structure data (i.e., path-changed information) into a low-dimensional vector representation. Given an STP instance, Vulcan uses this embedding to encode its pathrelated information and sends the encoded graph to a deep reinforcement learning component based on a double deep Q network (DDQN) to find solutions. In addition to STP, Vulcan can also find solutions to a wide range of NP-hard problems (e.g., SAT, MVC and X3C) by reducing them to STP. We implement a prototype of Vulcan and demonstrate its efficacy and efficiency with extensive experiments using real-world and synthetic datasets.
翻訳日:2021-11-24 07:41:35 公開日:2021-11-21
# (参考訳) マルチスタイル・マルチビューコントラスト学習によるマンモグラフィ検出のためのドメイン一般化 [全文訳有]

Domain Generalization for Mammography Detection via Multi-style and Multi-view Contrastive Learning ( http://arxiv.org/abs/2111.10827v1 )

ライセンス: CC BY 4.0
Zheren Li, Zhiming Cui, Sheng Wang, Yuji Qi, Xi Ouyang, Qitian Chen, Yuezhi Yang, Zhong Xue, Dinggang Shen, Jie-Zhi Cheng(参考訳) マンモグラフィ診断において,病変検出は基本的な問題である。 ディープラーニング技術の進歩は、トレーニングデータが大きく、画像のスタイルや品質の面で十分に多様であることから、この課題に顕著な進展をもたらした。 特に、イメージスタイルの多様性は、主にベンダーファクタに起因する可能性がある。 しかし、ベンダーからできる限りのマンモグラムの収集は非常に高価であり、実験室規模の研究には非実用的である。 これにより、限られた資源で様々なベンダーにディープラーニングモデルの一般化能力をさらに高めるため、新しいコントラスト学習方式が開発される。 具体的には、backbone networkはまず、さまざまなベンダスタイルに不変な機能を組み込むための、マルチスタイルおよびマルチビューの教師なしセルフラーニングスキームでトレーニングされる。 その後、バックボーンネットワークは、特定の教師付き学習を伴う病変検出の下流タスクに再調整される。 提案手法は,4つのベンダーと1つの公開データセットのマンモグラムを用いて評価する。 実験結果から,本手法は目視領域と目視領域の両方における検出性能を効果的に向上し,多くの最先端(SOTA)一般化手法より優れていることが示唆された。

Lesion detection is a fundamental problem in the computer-aided diagnosis scheme for mammography. The advance of deep learning techniques have made a remarkable progress for this task, provided that the training data are large and sufficiently diverse in terms of image style and quality. In particular, the diversity of image style may be majorly attributed to the vendor factor. However, the collection of mammograms from vendors as many as possible is very expensive and sometimes impractical for laboratory-scale studies. Accordingly, to further augment the generalization capability of deep learning model to various vendors with limited resources, a new contrastive learning scheme is developed. Specifically, the backbone network is firstly trained with a multi-style and multi-view unsupervised self-learning scheme for the embedding of invariant features to various vendor-styles. Afterward, the backbone network is then recalibrated to the downstream task of lesion detection with the specific supervised learning. The proposed method is evaluated with mammograms from four vendors and one unseen public dataset. The experimental results suggest that our approach can effectively improve detection performance on both seen and unseen domains, and outperforms many state-of-the-art (SOTA) generalization methods.
翻訳日:2021-11-24 07:25:25 公開日:2021-11-21
# (参考訳) ニューラルネットワークのためのアクティブフォーミングによる学習 [全文訳有]

Learning by Active Forgetting for Neural Networks ( http://arxiv.org/abs/2111.10831v1 )

ライセンス: CC BY 4.0
Jian Peng, Xian Sun, Min Deng, Chao Tao, Bo Tang, Wenbo Li, Guohua Wu, QingZhu, Yu Liu, Tao Lin, Haifeng Li(参考訳) 記憶と忘れのメカニズムは、人間の学習記憶システムにおいて、同じコインの2つの側面である。 人間の脳の記憶機構に触発されて、現代の機械学習システムは、記憶力の向上を通じて生涯学習能力を持つマシンに貢献し、忘れ物は克服するアンタゴニストとして押し付けてきた。 それでも、このアイデアは半分しか見えません。 つい最近まで、脳は生まれながらに、すなわち、忘れは抽象的で豊かで柔軟な表現のための自然で活動的なプロセスであると主張する研究者が増えている。 本稿では,ニューラルネットワークを用いた能動学習機構による学習モデルを提案する。 活性欠失機構(afm)は、内部制御戦略(irs)を有する抑制ニューロン群からなる「プラグ・アンド・プレイ」欠失層(p\&pf)を介してニューラルネットワークに導入され、側方抑制機構および外部制御戦略(ers)を介して自己の絶滅率を調節し、抑制機構を介して興奮性ニューロンの絶滅率を調整する。 P\&PFは、自己適応構造、強力な一般化、長期学習と記憶、データとパラメータの摂動に対する堅牢性など、驚くべき利益をもたらすことを示した。 この研究は、学習プロセスにおける忘れることの重要性を強調し、ニューラルネットワークの基盤となるメカニズムを理解するための新しい視点を提供する。

Remembering and forgetting mechanisms are two sides of the same coin in a human learning-memory system. Inspired by human brain memory mechanisms, modern machine learning systems have been working to endow machine with lifelong learning capability through better remembering while pushing the forgetting as the antagonist to overcome. Nevertheless, this idea might only see the half picture. Up until very recently, increasing researchers argue that a brain is born to forget, i.e., forgetting is a natural and active process for abstract, rich, and flexible representations. This paper presents a learning model by active forgetting mechanism with artificial neural networks. The active forgetting mechanism (AFM) is introduced to a neural network via a "plug-and-play" forgetting layer (P\&PF), consisting of groups of inhibitory neurons with Internal Regulation Strategy (IRS) to adjust the extinction rate of themselves via lateral inhibition mechanism and External Regulation Strategy (ERS) to adjust the extinction rate of excitatory neurons via inhibition mechanism. Experimental studies have shown that the P\&PF offers surprising benefits: self-adaptive structure, strong generalization, long-term learning and memory, and robustness to data and parameter perturbation. This work sheds light on the importance of forgetting in the learning process and offers new perspectives to understand the underlying mechanisms of neural networks.
翻訳日:2021-11-24 07:16:03 公開日:2021-11-21
# (参考訳) キャリブレーション拡散テンソル推定 [全文訳有]

Calibrated Diffusion Tensor Estimation ( http://arxiv.org/abs/2111.10847v1 )

ライセンス: CC BY 4.0
Davood Karimi, Simon K. Warfield, Ali Gholipour(参考訳) 特にディープラーニングのような複雑で理解が難しいモデルでは、モデルの予測がどの程度不確実であるかを知ることが非常に望ましい。 拡散強調MRIにおける深層学習への関心は高まっているが,従来の研究はモデル不確実性の問題に対処していない。 本稿では,拡散テンソルを推定し,推定の不確実性を計算する深層学習手法を提案する。 データ依存の不確実性はネットワークから直接計算され、損失減衰によって学習される。 モデル不確かさはモンテカルロドロップアウトを用いて計算される。 また,予測された不確実性の質を評価する新しい手法を提案する。 本手法と標準最小二乗テンソル推定法とブートストラップに基づく不確実性計算法を比較した。 実験の結果,測定値が小さい場合,深層学習法の方が精度が高く,不確実性予測が標準法よりも精度が高いことがわかった。 提案手法によって計算された推定不確実性は,モデルのバイアスを強調し,領域シフトを検知し,測定における雑音の強さを反映する。 本研究では,ディープラーニングに基づく拡散MRI解析における予測の不確かさのモデル化の重要性と実用性を示す。

It is highly desirable to know how uncertain a model's predictions are, especially for models that are complex and hard to understand as in deep learning. Although there has been a growing interest in using deep learning methods in diffusion-weighted MRI, prior works have not addressed the issue of model uncertainty. Here, we propose a deep learning method to estimate the diffusion tensor and compute the estimation uncertainty. Data-dependent uncertainty is computed directly by the network and learned via loss attenuation. Model uncertainty is computed using Monte Carlo dropout. We also propose a new method for evaluating the quality of predicted uncertainties. We compare the new method with the standard least-squares tensor estimation and bootstrap-based uncertainty computation techniques. Our experiments show that when the number of measurements is small the deep learning method is more accurate and its uncertainty predictions are better calibrated than the standard methods. We show that the estimation uncertainties computed by the new method can highlight the model's biases, detect domain shift, and reflect the strength of noise in the measurements. Our study shows the importance and practical value of modeling prediction uncertainties in deep learning-based diffusion MRI analysis.
翻訳日:2021-11-24 07:00:36 公開日:2021-11-21
# (参考訳) デコル関連変数の重要性 [全文訳有]

Decorrelated Variable Importance ( http://arxiv.org/abs/2111.10853v1 )

ライセンス: CC BY 4.0
Isabella Verdinelli and Larry Wasserman(参考訳) ランダムフォレストやニューラルネットなどのブラックボックス予測手法が広く使われているため、解釈可能な予測という広範な目標の一環として、変数の重要性を定量化する手法の開発が新たに注目されている。 一般的なアプローチは、回帰モデルから共変数を落としてLOCO(Leave Out Covariates)として知られる変数重要パラメータを定義することである。 これは本質的にR-二乗の非パラメトリック版である。 このパラメータは非常に一般的であり、非パラメトリックに推定できるが、共変量間の相関に影響されるため、解釈が難しい。 本稿では,locoの修正版を定義することで相関効果を緩和する手法を提案する。 この新しいパラメータは非パラメトリックな推定が難しいが,半パラメトリックモデルを用いて推定する方法を示す。

Because of the widespread use of black box prediction methods such as random forests and neural nets, there is renewed interest in developing methods for quantifying variable importance as part of the broader goal of interpretable prediction. A popular approach is to define a variable importance parameter - known as LOCO (Leave Out COvariates) - based on dropping covariates from a regression model. This is essentially a nonparametric version of R-squared. This parameter is very general and can be estimated nonparametrically, but it can be hard to interpret because it is affected by correlation between covariates. We propose a method for mitigating the effect of correlation by defining a modified version of LOCO. This new parameter is difficult to estimate nonparametrically, but we show how to estimate it using semiparametric models.
翻訳日:2021-11-24 06:43:33 公開日:2021-11-21
# (参考訳) ディープニューラルネットワークによる付加学習 [全文訳有]

Accretionary Learning with Deep Neural Networks ( http://arxiv.org/abs/2111.10857v1 )

ライセンス: CC BY 4.0
Xinyu Wei, Biing-Hwang Fred Juang, Ouya Wang, Shenglong Zhou and Geoffrey Ye Li(参考訳) Deep Neural Networks(DNN)の基本的制限の1つは、新しい認知能力の獲得と蓄積ができないことである。 指定されたオブジェクトセットにない新しいオブジェクトクラスなどの新しいデータが現れると、従来のdnnは、それが必要とする基本的な定式化のため、それを認識できないだろう。 現在のソリューションは通常、新たな知識に対応するために、新たに拡張されたデータセットから、ネットワーク全体の再設計と再学習を行なう。 このプロセスは、人間の学習者とはまったく違います。 本稿では,人間の学習をエミュレートする新たな学習手法Accretionary Learning (AL)を提案する。 対応する学習構造はモジュール化されており、動的に拡張して新しい知識を登録し利用することができる。 付加学習の間、学習プロセスは、対象の集合が大きくなるにつれて、システムが完全に再設計され、再訓練される必要はない。 提案したDNN構造は,新しいデータクラスを学習する際の過去の知識を忘れない。 そこで本研究では,新しい構造と設計手法により,認知的複雑性の増大に対処し,全体的なパフォーマンスを安定させながら,システムを構築することができることを示す。

One of the fundamental limitations of Deep Neural Networks (DNN) is its inability to acquire and accumulate new cognitive capabilities. When some new data appears, such as new object classes that are not in the prescribed set of objects being recognized, a conventional DNN would not be able to recognize them due to the fundamental formulation that it takes. The current solution is typically to re-design and re-learn the entire network, perhaps with a new configuration, from a newly expanded dataset to accommodate new knowledge. This process is quite different from that of a human learner. In this paper, we propose a new learning method named Accretionary Learning (AL) to emulate human learning, in that the set of objects to be recognized may not be pre-specified. The corresponding learning structure is modularized, which can dynamically expand to register and use new knowledge. During accretionary learning, the learning process does not require the system to be totally re-designed and re-trained as the set of objects grows in size. The proposed DNN structure does not forget previous knowledge when learning to recognize new data classes. We show that the new structure and the design methodology lead to a system that can grow to cope with increased cognitive complexity while providing stable and superior overall performance.
翻訳日:2021-11-24 06:01:31 公開日:2021-11-21
# (参考訳) 閉型勾配を持つl1レギュラライザの2レベル学習(blorc) [全文訳有]

Bilevel learning of l1-regularizers with closed-form gradients(BLORC) ( http://arxiv.org/abs/2111.10858v1 )

ライセンス: CC BY 4.0
Avrajit Ghosh, Michael T. Mccann, Saiprasad Ravishankar(参考訳) 本稿では,近年の信号再構成問題において重要な要素であるスパーシティプロモーティング正則化器の教師付き学習法を提案する。 正規化器のパラメータを学習し、地上真理信号と測定ペアの訓練セットにおける再構成の平均二乗誤差を最小化する。 トレーニングには、非スムースな低レベル目標で難しい二段階最適化問題を解決することが含まれる。 双対問題によって与えられる低レベル変分問題の暗黙の閉形式解を用いてトレーニング損失の勾配を求める式を導出し、損失を最小限に抑えるために付随する勾配降下アルゴリズム(dubbed blorc)を提供する。 単純自然画像および1次元信号のデノージング実験により,提案手法が有意義な演算子を学習でき,計算された解析勾配は標準自動微分法よりも高速であることを示した。 提案手法はデノナイズに応用されるが,線形測定モデルによる逆問題に対して多種多様な適用が可能であり,幅広いシナリオに適用可能であると考えられる。

We present a method for supervised learning of sparsity-promoting regularizers, a key ingredient in many modern signal reconstruction problems. The parameters of the regularizer are learned to minimize the mean squared error of reconstruction on a training set of ground truth signal and measurement pairs. Training involves solving a challenging bilevel optimization problem with a nonsmooth lower-level objective. We derive an expression for the gradient of the training loss using the implicit closed-form solution of the lower-level variational problem given by its dual problem, and provide an accompanying gradient descent algorithm (dubbed BLORC) to minimize the loss. Our experiments on simple natural images and for denoising 1D signals show that the proposed method can learn meaningful operators and the analytical gradients calculated are faster than standard automatic differentiation methods. While the approach we present is applied to denoising, we believe that it can be adapted to a wide-variety of inverse problems with linear measurement models, thus giving it applicability in a wide range of scenarios.
翻訳日:2021-11-24 05:47:38 公開日:2021-11-21
# (参考訳) 運動補償平滑化による多様体(MoCo-SToRM)の動的イメージング [全文訳有]

Dynamic imaging using motion-compensated smoothness regularization on manifolds (MoCo-SToRM) ( http://arxiv.org/abs/2111.10887v1 )

ライセンス: CC BY 4.0
Qing Zou, Luis A. Torres, Sean B. Fain, Mathews Jacob(参考訳) 運動補償動的MRIのための教師なし深部多様体学習アルゴリズムを提案する。 自由呼吸肺MRIデータセットの運動場は多様体上に存在すると仮定する。 各時点の運動場は、時間的変動を捉える低次元の時変潜在ベクトルによって駆動される深い生成モデルの出力としてモデル化される。 各時点での画像は、上記運動場を用いて画像テンプレートの変形バージョンとしてモデル化される。 テンプレート、深部ジェネレータのパラメータ、潜伏ベクトルは、教師なしの方法でk-t空間データから学習される。 マニホールド運動モデルはレギュラライザとして機能し、ラジアルスポークやフレーム配置の少ない動き場と画像のジョイント推定を行う。 このアルゴリズムの有用性は、運動補償高分解能肺MRIの文脈で示される。

We introduce an unsupervised deep manifold learning algorithm for motion-compensated dynamic MRI. We assume that the motion fields in a free-breathing lung MRI dataset live on a manifold. The motion field at each time instant is modeled as the output of a deep generative model, driven by low-dimensional time-varying latent vectors that capture the temporal variability. The images at each time instant are modeled as the deformed version of an image template using the above motion fields. The template, the parameters of the deep generator, and the latent vectors are learned from the k-t space data in an unsupervised fashion. The manifold motion model serves as a regularizer, making the joint estimation of the motion fields and images from few radial spokes/frame well-posed. The utility of the algorithm is demonstrated in the context of motion-compensated high-resolution lung MRI.
翻訳日:2021-11-24 05:38:11 公開日:2021-11-21
# (参考訳) 変分多様体学習を用いたマルチスライスダイナミックMRIの関節アライメントと再構成 [全文訳有]

Joint alignment and reconstruction of multislice dynamic MRI using variational manifold learning ( http://arxiv.org/abs/2111.10889v1 )

ライセンス: CC BY 4.0
Qing Zou, Abdul Haseeb Ahmed, Prashant Nagpal, Sarv Priya, Rolf F Schulte, Mathews Jacob(参考訳) 自由呼吸型心臓MRIは、呼吸を持てない小児や他の集団に適用可能な、呼吸保持型脳MRIプロトコルの競合代替手段として出現している。 スライスからのデータは順次取得されるので、スライス毎に心/呼吸運動パターンが異なる可能性があり、現在の自由呼吸アプローチでは、スライス毎に独立して回復する。 スライス間冗長性を活用できないことに加えて、定量化のための画像の調整には手作業による介入や高度な後処理が必要となる。 これらの課題を克服するために,マルチスライスダイナミックMRIの関節アライメントと再構成のための教師なし変分学習手法を提案する。 提案手法は,各スライスに対する深部ネットワークのパラメータと潜伏ベクトルを併用して学習し,特定の対象のk-t空間データから運動誘起動的変動を捉える。 変分フレームワークは表現の非特異性を最小化し、改善されたアライメントと再構成を提供する。

Free-breathing cardiac MRI schemes are emerging as competitive alternatives to breath-held cine MRI protocols, enabling applicability to pediatric and other population groups that cannot hold their breath. Because the data from the slices are acquired sequentially, the cardiac/respiratory motion patterns may be different for each slice; current free-breathing approaches perform independent recovery of each slice. In addition to not being able to exploit the inter-slice redundancies, manual intervention or sophisticated post-processing methods are needed to align the images post-recovery for quantification. To overcome these challenges, we propose an unsupervised variational deep manifold learning scheme for the joint alignment and reconstruction of multislice dynamic MRI. The proposed scheme jointly learns the parameters of the deep network as well as the latent vectors for each slice, which capture the motion-induced dynamic variations, from the k-t space data of the specific subject. The variational framework minimizes the non-uniqueness in the representation, thus offering improved alignment and reconstructions.
翻訳日:2021-11-24 05:32:33 公開日:2021-11-21
# (参考訳) stein's unbiased risk estimatorを使ったディープイメージ [全文訳有]

Deep Image Prior using Stein's Unbiased Risk Estimator: SURE-DIP ( http://arxiv.org/abs/2111.10892v1 )

ライセンス: CC BY 4.0
Maneesh John, Hemant Kumar Aggarwal, Qing Zou, Mathews Jacob(参考訳) 広範なトレーニングデータに依存するディープラーニングアルゴリズムは、不適切な測定結果からイメージリカバリに革命をもたらしている。 超高解像度イメージングを含む多くのイメージングアプリケーションでは、トレーニングデータが不足している。 シングルショット画像回復のためのディープ画像先行アルゴリズム(DIP)を導入し、トレーニングデータの必要性を完全に排除した。 この方式の課題は、cnnパラメータのノイズへのオーバーフィットを最小限に抑えるために早期停止が必要であることである。 オーバーフィッティングを最小限に抑えるため,一般化されたStein's Unbiased Risk Estimation (GSURE)損失指標を導入する。 実験の結果,SURE-DIPアプローチはオーバーフィッティングの問題を最小限に抑え,従来のDIP方式よりも性能が大幅に向上した。 また、SURE-DIPアプローチをモデルベースアンローリングアーキテクチャと併用し、直接反転方式よりも優れた性能を提供する。

Deep learning algorithms that rely on extensive training data are revolutionizing image recovery from ill-posed measurements. Training data is scarce in many imaging applications, including ultra-high-resolutio n imaging. The deep image prior (DIP) algorithm was introduced for single-shot image recovery, completely eliminating the need for training data. A challenge with this scheme is the need for early stopping to minimize the overfitting of the CNN parameters to the noise in the measurements. We introduce a generalized Stein's unbiased risk estimate (GSURE) loss metric to minimize the overfitting. Our experiments show that the SURE-DIP approach minimizes the overfitting issues, thus offering significantly improved performance over classical DIP schemes. We also use the SURE-DIP approach with model-based unrolling architectures, which offers improved performance over direct inversion schemes.
翻訳日:2021-11-24 05:25:18 公開日:2021-11-21
# (参考訳) サプライズ最小化リビジョンオペレータ [全文訳有]

Surprise Minimization Revision Operators ( http://arxiv.org/abs/2111.10896v1 )

ライセンス: CC BY 4.0
Adrian Haret(参考訳) 信念の修正に対する顕著なアプローチは、標準の場合でさえ、驚きを最小化しようとしていると説明できるプロセスにおいて、事前の信念に可能な限り近い新しい信念を採用することを前提としている。 ここでは、先行する信念だけでなく、真理値の割り当て間の親しみやすい距離の概念から導かれる測度を用いて、新しい情報によって提供されるより広い文脈でサプライズが計算されるような、相対的サプライズと呼ばれるサプライズ尺度を提案し、既存のモデルを拡張する。 本稿では,AGMモールドの直感的合理性仮定を用いて,ダラル演算子や最近導入された距離ベースmin-max演算子などの文献における他のリビジョン演算子に対する表現結果を得る方法として,サプライズ最小化演算子を特徴付ける。

Prominent approaches to belief revision prescribe the adoption of a new belief that is as close as possible to the prior belief, in a process that, even in the standard case, can be described as attempting to minimize surprise. Here we extend the existing model by proposing a measure of surprise, dubbed relative surprise, in which surprise is computed with respect not just to the prior belief, but also to the broader context provided by the new information, using a measure derived from familiar distance notions between truth-value assignments. We characterize the surprise minimization revision operator thus defined using a set of intuitive rationality postulates in the AGM mould, along the way obtaining representation results for other existing revision operators in the literature, such as the Dalal operator and a recently introduced distance-based min-max operator.
翻訳日:2021-11-24 05:18:57 公開日:2021-11-21
# (参考訳) シーン認識閾値選択による産業機械の健康モニタリング [全文訳有]

Health Monitoring of Industrial machines using Scene-Aware Threshold Selection ( http://arxiv.org/abs/2111.10897v1 )

ライセンス: CC BY 4.0
Arshdeep Singh, Raju Arvind and Padmanabhan Rajan(参考訳) 本稿では,産業機械における異常を自動エンコーダを用いた非教師なし手法を提案する。 提案手法は,音声信号のログメルスペクトログラム表現を用いて学習する。 分類において,異常な機械に対して計算された復元誤差は,オートエンコーダの訓練に通常の機械音のみが使用されているため,通常の機械よりも大きいという仮説である。 閾値は正常機と異常機を区別するために選択される。 しかし、周囲の条件によって閾値が変化する。 周囲に関係なく適切なしきい値を選択するために,周辺環境を分類可能なシーン分類フレームワークを提案する。 これにより、周囲に関係なく閾値を適応的に選択することができる。 ファン,ポンプ,バルブ,スライドレールといった産業機械のMIMIIデータセットを用いて実験評価を行った。 実験分析の結果,適応しきい値を利用することで,与えられた周囲のみに対して計算した固定しきい値を用いて得られる性能が大幅に向上することが示された。

This paper presents an autoencoder based unsupervised approach to identify anomaly in an industrial machine using sounds produced by the machine. The proposed framework is trained using log-melspectrogram representations of the sound signal. In classification, our hypothesis is that the reconstruction error computed for an abnormal machine is larger than that of the a normal machine, since only normal machine sounds are being used to train the autoencoder. A threshold is chosen to discriminate between normal and abnormal machines. However, the threshold changes as surrounding conditions vary. To select an appropriate threshold irrespective of the surrounding, we propose a scene classification framework, which can classify the underlying surrounding. Hence, the threshold can be selected adaptively irrespective of the surrounding. The experiment evaluation is performed on MIMII dataset for industrial machines namely fan, pump, valve and slide rail. Our experiment analysis shows that utilizing adaptive threshold, the performance improves significantly as that obtained using the fixed threshold computed for a given surrounding only.
翻訳日:2021-11-24 04:53:33 公開日:2021-11-21
# (参考訳) 多エージェント深部強化学習を用いた再生可能エネルギー統合とマイクログリッドエネルギー取引 [全文訳有]

Renewable energy integration and microgrid energy trading using multi-agent deep reinforcement learning ( http://arxiv.org/abs/2111.10898v1 )

ライセンス: CC BY 4.0
Daniel J. B. Harrold, Jun Cao, Zhong Fan(参考訳) 本稿では, 再生可能エネルギーとトレーディングの価値を最大化することにより, マイクログリッドのエネルギーコスト削減に協力して働くハイブリッドエネルギー貯蔵システムの制御にマルチエージェント強化学習を用いる。 エージェントは、変動する需要、動的パーセールエネルギー価格、予測不可能な再生可能エネルギー発生の下で、短・中・長期の貯蔵に適した3種類のエネルギー貯蔵システムを制御することを学ばなければならない。 2つのケーススタディは、エネルギー貯蔵システムが動的価格の下で再生可能エネルギーをいかにうまく統合できるか、そして2つ目のケーススタディは、同じエージェントをアグリゲーターエージェントと一緒に利用して、エネルギーを自給自足の外部マイクログリッドに販売し、エネルギー料金を減らそうとしている。 この研究は、多エージェントの深層決定主義的政策勾配の分散実行による集中学習と、その最先端の変種により、単一のグローバルエージェントの制御よりもはるかに優れた性能を発揮することを示した。 また, マルチエージェントアプローチでは, 個別の報酬関数を用いることで, シングルコントロールエージェントよりも優れた効果が得られた。 他のマイクログリッドとの取引が可能で、単にユーティリティグリッドに売るのではなく、グリッドの節約を大幅に増やすことが判明した。

In this paper, multi-agent reinforcement learning is used to control a hybrid energy storage system working collaboratively to reduce the energy costs of a microgrid through maximising the value of renewable energy and trading. The agents must learn to control three different types of energy storage system suited for short, medium, and long-term storage under fluctuating demand, dynamic wholesale energy prices, and unpredictable renewable energy generation. Two case studies are considered: the first looking at how the energy storage systems can better integrate renewable energy generation under dynamic pricing, and the second with how those same agents can be used alongside an aggregator agent to sell energy to self-interested external microgrids looking to reduce their own energy bills. This work found that the centralised learning with decentralised execution of the multi-agent deep deterministic policy gradient and its state-of-the-art variants allowed the multi-agent methods to perform significantly better than the control from a single global agent. It was also found that using separate reward functions in the multi-agent approach performed much better than using a single control agent. Being able to trade with the other microgrids, rather than just selling back to the utility grid, also was found to greatly increase the grid's savings.
翻訳日:2021-11-24 04:45:57 公開日:2021-11-21
# (参考訳) Johnson Coverage hypothesis:L_p測定におけるk-meansとk-medianの近似性

Johnson Coverage Hypothesis: Inapproximability of k-means and k-median in L_p metrics ( http://arxiv.org/abs/2111.10912v1 )

ライセンス: CC BY 4.0
Vincent Cohen-Addad, Karthik C. S, and Euiwoong Lee(参考訳) K-medianとk-meansはクラスタリングアルゴリズムの最も一般的な2つの目的である。 集中的な努力にもかかわらず、これらの目的、特に$\ell_p$-metrics における近似可能性の理解は依然として大きなオープンな問題である。 本稿では,これらの目的について文献で知られている近似因子の硬さを$\ell_p$-metrics で大幅に改善する。 ジョンソン被覆仮説 (Johnson Coverage hypothesis, JCH) と呼ばれる新しい仮説を導入し、ジョンソングラフの会員グラフがジョンソングラフの部分グラフである場合でも、集合系上のよく研究された最大 k 被覆問題は 1-1/e 以上の因子に近似することが難しいことを概説する。 次に, cohen-addad と karthik (focs '19) が導入した埋め込み手法の一般化と合わせて, jch は一般メトリクスで得られる値に近い因子に対して $\ell_p$-metrics で k-median と k-means の近似結果のハードネスを示唆することを示した。 特に、JCH を仮定すると、k-平均の目的を近似することは困難である: $\bullet$ Discrete case:$\ell_1$-metric の3.94 と $\ell_2$-metric の1.73 の係数に対して、UGC で得られる前の係数 1.56 と 1.17 がそれぞれ改善される。 $\bullet$ 連続ケース:$\ell_1$-metric の2.10倍、$\ell_2$-metric の1.36倍の係数。 また、k-median の目的に対して、JCH でも同様の改善が得られる。 さらに,超グラフ頂点被覆に関するdinur et al. (sicomp '05) の研究を用いて,jch の弱バージョンを証明し,上述した cohen-addad と karthik (focs '19) のすべての結果を (ほぼ) 同一の近似可能性因子に復元する。

K-median and k-means are the two most popular objectives for clustering algorithms. Despite intensive effort, a good understanding of the approximability of these objectives, particularly in $\ell_p$-metrics, remains a major open problem. In this paper, we significantly improve upon the hardness of approximation factors known in literature for these objectives in $\ell_p$-metrics. We introduce a new hypothesis called the Johnson Coverage Hypothesis (JCH), which roughly asserts that the well-studied max k-coverage problem on set systems is hard to approximate to a factor greater than 1-1/e, even when the membership graph of the set system is a subgraph of the Johnson graph. We then show that together with generalizations of the embedding techniques introduced by Cohen-Addad and Karthik (FOCS '19), JCH implies hardness of approximation results for k-median and k-means in $\ell_p$-metrics for factors which are close to the ones obtained for general metrics. In particular, assuming JCH we show that it is hard to approximate the k-means objective: $\bullet$ Discrete case: To a factor of 3.94 in the $\ell_1$-metric and to a factor of 1.73 in the $\ell_2$-metric; this improves upon the previous factor of 1.56 and 1.17 respectively, obtained under UGC. $\bullet$ Continuous case: To a factor of 2.10 in the $\ell_1$-metric and to a factor of 1.36 in the $\ell_2$-metric; this improves upon the previous factor of 1.07 in the $\ell_2$-metric obtained under UGC. We also obtain similar improvements under JCH for the k-median objective. Additionally, we prove a weak version of JCH using the work of Dinur et al. (SICOMP '05) on Hypergraph Vertex Cover, and recover all the results stated above of Cohen-Addad and Karthik (FOCS '19) to (nearly) the same inapproximability factors but now under the standard NP$\neq$P assumption (instead of UGC).
翻訳日:2021-11-24 04:20:27 公開日:2021-11-21
# (参考訳) GANを用いた映像コンテンツスワッピング [全文訳有]

Video Content Swapping Using GAN ( http://arxiv.org/abs/2111.10916v1 )

ライセンス: CC BY-SA 4.0
Tingfung Lau, Sailun Xu, Xinze Wang(参考訳) ビデオ生成はコンピュータビジョンにおける興味深い問題である。 データ拡張、移動における特殊効果、AR/VRなど、非常に人気がある。 ディープラーニングの進歩により、この課題を解決するために多くの深層生成モデルが提案されている。 これらの深層生成モデルは、教師なしの方法で深い特徴表現を学習できるため、ラベルのない画像やビデオをすべてオンラインで利用できる。 これらのモデルは異なる種類のイメージを生成することもでき、ビジュアルアプリケーションにとって大きな価値がある。 しかし、ビデオの生成は、ビデオ内のオブジェクトの出現だけでなく、時間的な動きもモデル化する必要があるため、もっと難しいでしょう。 この作品では、ビデオのどのフレームもコンテンツに分解してポーズを取る。 まず,事前学習された人間のポーズ検出を用いて映像からポーズ情報を抽出し,生成モデルを用いてコンテンツコードとポーズコードに基づいて映像を合成する。

Video generation is an interesting problem in computer vision. It is quite popular for data augmentation, special effect in move, AR/VR and so on. With the advances of deep learning, many deep generative models have been proposed to solve this task. These deep generative models provide away to utilize all the unlabeled images and videos online, since it can learn deep feature representations with unsupervised manner. These models can also generate different kinds of images, which have great value for visual application. However generating a video would be much more challenging since we need to model not only the appearances of objects in the video but also their temporal motion. In this work, we will break down any frame in the video into content and pose. We first extract the pose information from a video using a pre-trained human pose detection and use a generative model to synthesize the video based on the content code and pose code.
翻訳日:2021-11-24 04:18:53 公開日:2021-11-21
# 長期記憶に基づく新しいスペクトルセンシングスキームの設計と実験的検証

Design of an Novel Spectrum Sensing Scheme Based on Long Short-Term Memory and Experimental Validation ( http://arxiv.org/abs/2111.10769v1 )

ライセンス: Link先を確認
Nupur Choudhury, Kandarpa Kumar Sarma, Chinmoy Kalita, Aradhana Misra(参考訳) スペクトルセンシングにより、重度の干渉があるにもかかわらず、認知無線システムは関連する信号を検出することができる。 既存のスペクトルセンシング技術のほとんどは、特定の仮定を持つ特定の信号ノイズモデルを使用し、特定の検出性能を導出する。 この不確実性に対処するため、学習ベースのアプローチが採用され、最近ではディープラーニングベースのツールが普及している。 本稿では,深層学習ネットワーク(DLN)の重要な要素である長期記憶(LSTM)に基づくスペクトルセンシング手法を提案する。 LSTMはスペクトルデータから暗黙的な特徴学習を容易にする。 DLNはいくつかの特徴を用いて訓練され,アダルム冥王星を用いた実証実験装置の助けを借りて,提案手法の有効性が検証された。 テストベッドはFMを用いて実世界のラジオ放送の主信号を取得するよう訓練される。 実験データからは,低信号対雑音比でも,現在のスペクトル検出法と比較して,検出精度と分類精度の面で良好に機能することが示された。

Spectrum sensing allows cognitive radio systems to detect relevant signals in despite the presence of severe interference. Most of the existing spectrum sensing techniques use a particular signal-noise model with certain assumptions and derive certain detection performance. To deal with this uncertainty, learning based approaches are being adopted and more recently deep learning based tools have become popular. Here, we propose an approach of spectrum sensing which is based on long short term memory (LSTM) which is a critical element of deep learning networks (DLN). Use of LSTM facilitates implicit feature learning from spectrum data. The DLN is trained using several features and the performance of the proposed sensing technique is validated with the help of an empirical testbed setup using Adalm Pluto. The testbed is trained to acquire the primary signal of a real world radio broadcast taking place using FM. Experimental data show that even at low signal to noise ratio, our approach performs well in terms of detection and classification accuracies, as compared to current spectrum sensing methods.
翻訳日:2021-11-23 17:28:18 公開日:2021-11-21
# ARMAS:音声セグメントのアクティブな再構築

ARMAS: Active Reconstruction of Missing Audio Segments ( http://arxiv.org/abs/2111.10891v1 )

ライセンス: Link先を確認
Sachin, Pokharel and Muhammad, Ali and Zohra, Cheddad and Abbas, Cheddad(参考訳) 近年, 深層学習アルゴリズムを用いて, 失われたセグメントや破損セグメントのディジタル音声信号再構成が盛んに行われている。 それでも、線形補間、位相符号化、トーン挿入といった従来の手法はまだ流行している。 しかし, ディザリング, ステガノグラフィ, 機械学習回帰器の融合による音声信号の再構成に関する研究は行われなかった。 そこで本稿では, ステガノグラフィー, ハーフトニング(ディザリング), 最先端浅層(RFランダムフォレストとSVR支援ベクトル回帰)と深層学習(LSTM-Long Short-Term Memory)の組み合わせを提案する。 結果(スペインと自己回帰法との比較を含む)は4つの異なる指標で評価される。 その結果,提案手法は有効であり,サイド情報(ノイズ・ラテント表現)ステガノグラフィが提供する音声信号の再構成が促進されることがわかった。 この研究はこのアプローチの最適化や異なる領域(つまり画像再構成)への変換に関心を惹きつけるかもしれない。

Digital audio signal reconstruction of lost or corrupt segment using deep learning algorithms has been explored intensively in the recent years. Nevertheless, prior traditional methods with linear interpolation, phase coding and tone insertion techniques are still in vogue. However, we found no research work on the reconstruction of audio signals with the fusion of dithering, steganography, and machine learning regressors. Therefore, this paper proposes the combination of steganography, halftoning (dithering), and state-of-the-art shallow (RF- Random Forest and SVR- Support Vector Regression) and deep learning (LSTM- Long Short-Term Memory) methods. The results (including comparison to the SPAIN and Autoregressive methods) are evaluated with four different metrics. The observations from the results show that the proposed solution is effective and can enhance the reconstruction of audio signals performed by the side information (noisy-latent representation) steganography provides. This work may trigger interest in the optimization of this approach and/or in transferring it to different domains (i.e., image reconstruction).
翻訳日:2021-11-23 17:28:01 公開日:2021-11-21
# 従業員ロスタリングのためのハイブリッド最適化アプローチ--swissgridでの事例と教訓

A hybrid optimization approach for employee rostering: Use cases at Swissgrid and lessons learned ( http://arxiv.org/abs/2111.10845v1 )

ライセンス: Link先を確認
Jangwon Park and Evangelos Vrettos(参考訳) 従業員ロースターリングは、従業員をオープンシフトに割り当てるプロセスである。 自動化は、手作業の負荷削減や柔軟な高品質なスケジュール作成など、ほぼすべての産業において、ユビキタスな実用的なメリットがあります。 本研究では,Mixed-Integer Linear Programming(MILP)と進化的アルゴリズムであるscatter Searchを組み合わせたハイブリッド手法を開発した。 このハイブリッド手法は、労働法の遵守を保証し、従業員の嗜好の満足度を最大化し、ワークロードを可能な限り均一に分配する。 何よりも、これは堅牢で効率的なアルゴリズムであり、最先端の商用解法を用いてmilp-aloneアプローチよりも桁違いに、複雑さから最適化に近い現実的な問題を一貫して解決する。 実用的な拡張とユースケースがいくつか提示され、swissgridで現在パイロット使用中のソフトウェアツールに組み込まれている。

Employee rostering is a process of assigning available employees to open shifts. Automating it has ubiquitous practical benefits for nearly all industries, such as reducing manual workload and producing flexible, high-quality schedules. In this work, we develop a hybrid methodology which combines Mixed-Integer Linear Programming (MILP) with scatter search, an evolutionary algorithm, having as use case the optimization of employee rostering for Swissgrid, where it is currently a largely manual process. The hybrid methodology guarantees compliance with labor laws, maximizes employees' preference satisfaction, and distributes workload as uniformly as possible among them. Above all, it is shown to be a robust and efficient algorithm, consistently solving realistic problems of varying complexity to near-optimality an order of magnitude faster than an MILP-alone approach using a state-of-the-art commercial solver. Several practical extensions and use cases are presented, which are incorporated into a software tool currently being in pilot use at Swissgrid.
翻訳日:2021-11-23 17:23:10 公開日:2021-11-21
# 無人自律システム評価のためのソフトウェアツール

A Software Tool for Evaluating Unmanned Autonomous Systems ( http://arxiv.org/abs/2111.10871v1 )

ライセンス: Link先を確認
Abdollah Homaifar, Ali Karimoddini, Mike Heiges, Mubbashar A. Khan, Berat A. Erol, Shabnam Nazmi(参考訳) ノースカロライナ農業技術州立大学(nc a&t)はジョージア工科大学(gtri)と協力して、自律システムの認識と行動状態を推測するシミュレーションベースの技術ツールを開発する手法を開発した。 これらの方法論は、国防総省(dod)のtest and evaluation(t&e)コミュニティに、これらのシステムの内部プロセスに関する深い洞察を提供する可能性がある。 この方法論は外部の観測のみを使用し、テスト中のシステムの内部処理および/または変更に関する完全な知識を必要としない。 本稿では,データ駆動型知的予測ツール(dipt)と呼ばれる,シミュレーションベースの技術ツールの例を示す。 diptは、共同探索任務が可能な多プラットフォーム無人航空機(uav)システムの試験のために開発された。 DIPTのグラフィカルユーザインタフェース(GUI)は、テスタが航空機の現在の動作状態を確認し、現在の目標検出状態を予測し、特定のタスクを割り当てる説明とともに、特定の振る舞いを示すための推論を提供する。

The North Carolina Agriculture and Technical State University (NC A&T) in collaboration with Georgia Tech Research Institute (GTRI) has developed methodologies for creating simulation-based technology tools that are capable of inferring the perceptions and behavioral states of autonomous systems. These methodologies have the potential to provide the Test and Evaluation (T&E) community at the Department of Defense (DoD) with a greater insight into the internal processes of these systems. The methodologies use only external observations and do not require complete knowledge of the internal processing of and/or any modifications to the system under test. This paper presents an example of one such simulation-based technology tool, named as the Data-Driven Intelligent Prediction Tool (DIPT). DIPT was developed for testing a multi-platform Unmanned Aerial Vehicle (UAV) system capable of conducting collaborative search missions. DIPT's Graphical User Interface (GUI) enables the testers to view the aircraft's current operating state, predicts its current target-detection status, and provides reasoning for exhibiting a particular behavior along with an explanation of assigning a particular task to it.
翻訳日:2021-11-23 17:20:43 公開日:2021-11-21
# 映像からのバイノーラル音声生成のための幾何学的マルチタスク学習

Geometry-Aware Multi-Task Learning for Binaural Audio Generation from Video ( http://arxiv.org/abs/2111.10882v1 )

ライセンス: Link先を確認
Rishabh Garg, Ruohan Gao, Kristen Grauman(参考訳) バイノーラルオーディオは、人間のリスナーに没入的な空間音体験を提供するが、既存のビデオにはバイノーラル録音がない。 本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声をバイノーラルオーディオに変換する音響空間化手法を提案する。 既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離して学習プロセスを導く。 特に, 室内インパルス応答, 音源位置とのコヒーレンス, 観測物体の形状の経時的一貫性を考慮し, バイノーラル音声生成のための幾何認識特徴を学習するマルチタスクフレームワークを開発した。 さらに,実環境においてリアルタイムなバイノーラルオーディオをシミュレートした大規模ビデオデータセットを提案する。 2つのデータセットにおいて,本手法の有効性を実証し,最新の結果を得た。

Binaural audio provides human listeners with an immersive spatial sound experience, but most existing videos lack binaural audio recordings. We propose an audio spatialization method that draws on visual information in videos to convert their monaural (single-channel) audio to binaural audio. Whereas existing approaches leverage visual features extracted directly from video frames, our approach explicitly disentangles the geometric cues present in the visual stream to guide the learning process. In particular, we develop a multi-task framework that learns geometry-aware features for binaural audio generation by accounting for the underlying room impulse response, the visual stream's coherence with the sound source(s) positions, and the consistency in geometry of the sounding objects over time. Furthermore, we introduce a new large video dataset with realistic binaural audio simulated for real-world scanned environments. On two datasets, we demonstrate the efficacy of our method, which achieves state-of-the-art results.
翻訳日:2021-11-23 17:15:25 公開日:2021-11-21
# 制約付き深層学習のための微分可能射影

Differentiable Projection for Constrained Deep Learning ( http://arxiv.org/abs/2111.10785v1 )

ライセンス: Link先を確認
Dou Huang, Haoran Zhang, Xuan Song and Ryosuke Shibasaki(参考訳) ディープニューラルネットワーク(DNN)は、さまざまな分野におけるさまざまなタスクの解決において、極めて優れたパフォーマンスを実現している。 しかし,従来のDNNモデルでは,ロスバックプロパゲーションによる地道値に着実にアプローチしている。 一部の応用では、基礎的な真理観測が従う制約など、いくつかの事前知識が容易に得られる。 本稿では,これらの制約から情報を取り込んでDNNの性能を高めるための一般的なアプローチを提案する。 理論的には、これらの問題をKKT条件が解けるような制約付き最適化問題として定式化することができる。 本稿では,時間を要するKKT条件を直接解決する代わりに,DNNにおける微分可能なプロジェクション層を提案する。 提案手法は微分可能であり,重い計算は不要である。 最後に,提案手法の性能評価のために,ランダムに生成された合成データセットとpascal vocデータセットを用いた画像分割タスクを用いた実験を行った。 実験の結果, 投影法が十分であり, ベースライン法を上回った。

Deep neural networks (DNNs) have achieved extraordinary performance in solving different tasks in various fields. However, the conventional DNN model is steadily approaching the ground-truth value through loss backpropagation. In some applications, some prior knowledge could be easily obtained, such as constraints which the ground truth observation follows. Here, we try to give a general approach to incorporate information from these constraints to enhance the performance of the DNNs. Theoretically, we could formulate these kinds of problems as constrained optimization problems that KKT conditions could solve. In this paper, we propose to use a differentiable projection layer in DNN instead of directly solving time-consuming KKT conditions. The proposed projection method is differentiable, and no heavy computation is required. Finally, we also conducted some experiments using a randomly generated synthetic dataset and image segmentation task using the PASCAL VOC dataset to evaluate the performance of the proposed projection method. Experimental results show that the projection method is sufficient and outperforms baseline methods.
翻訳日:2021-11-23 16:57:59 公開日:2021-11-21
# 医用画像におけるワンショット弱スーパービジョンセグメンテーション

One-shot Weakly-Supervised Segmentation in Medical Images ( http://arxiv.org/abs/2111.10773v1 )

ライセンス: Link先を確認
Wenhui Lei, Qi Su, Ran Gu, Na Wang, Xinglong Liu, Guotai Wang, Xiaofan Zhang, Shaoting Zhang(参考訳) 深層ニューラルネットワークは通常、医療画像のセグメンテーションにおいて優れた性能を達成するために、正確かつ大量のアノテーションを必要とする。 ワンショットセグメンテーションと弱い教師付き学習は、1つの注釈付き画像から新しいクラスを学習し、代わりに粗いラベルを活用することでラベル付けの努力を減らし、有望な研究方向である。 以前の作品は通常解剖学的構造を活用できず、クラス不均衡と低いコントラスト問題に苦しむ。 そこで我々は,ワンショット・弱教師付き3次元医用画像セグメンテーションの革新的枠組みを提案する。 まず,人体の解剖学的パターンが類似していると仮定して,注釈付きボリュームからラベルなしの3d画像へクリブルを投影する伝搬再構成ネットワークを提案する。 次に、解剖学的およびピクセルレベルの特徴に基づいて、スクリブルを洗練するために、デュアルレベル特徴量化モジュールが設計されている。 擬似マスクにスクリブルを拡大した後,ノイズラベル学習戦略を用いて新クラスのセグメンテーションモデルを訓練することができた。 1つの腹部と1つの頭頸部CTデータセットを用いた実験により,提案手法は最先端の方法よりも大幅に改善され,厳密なクラス不均衡や低コントラストの下でも頑健に機能することが示された。

Deep neural networks usually require accurate and a large number of annotations to achieve outstanding performance in medical image segmentation. One-shot segmentation and weakly-supervised learning are promising research directions that lower labeling effort by learning a new class from only one annotated image and utilizing coarse labels instead, respectively. Previous works usually fail to leverage the anatomical structure and suffer from class imbalance and low contrast problems. Hence, we present an innovative framework for 3D medical image segmentation with one-shot and weakly-supervised settings. Firstly a propagation-reconstr uction network is proposed to project scribbles from annotated volume to unlabeled 3D images based on the assumption that anatomical patterns in different human bodies are similar. Then a dual-level feature denoising module is designed to refine the scribbles based on anatomical- and pixel-level features. After expanding the scribbles to pseudo masks, we could train a segmentation model for the new class with the noisy label training strategy. Experiments on one abdomen and one head-and-neck CT dataset show the proposed method obtains significant improvement over the state-of-the-art methods and performs robustly even under severe class imbalance and low contrast.
翻訳日:2021-11-23 16:47:34 公開日:2021-11-21
# DuDoTrans-Dual-Domai n Transformer : Sparse-View CTにおけるSinogram Restorationの注意力向上

DuDoTrans: Dual-Domain Transformer Provides More Attention for Sinogram Restoration in Sparse-View CT Reconstruction ( http://arxiv.org/abs/2111.10790v1 )

ライセンス: Link先を確認
Ce Wang, Kun Shang, Haimiao Zhang, Qian Li, Yuan Hui, and S. Kevin Zhou(参考訳) x線シンノグラムからのct再構成は臨床診断に必須であるが、画像中のヨウ素放射線は可逆的損傷を誘発し、研究者は、シンノグラムビューのばらばらな集合から高品質のct画像を回収する、スパースビューct再構成の研究を促す。 スパースビューCT画像に現れるアーティファクトを緩和する反復モデルが提案されているが,計算コストは高すぎる。 そして、優れた性能と低い計算量により、ディープラーニングベースの手法が普及した。 しかし、これらの手法は cnn の \textbf{local} 特徴抽出能力と sinogram の \textbf{global} 特徴とのミスマッチを無視する。 この問題を克服するために,トランスフォーマの長距離依存性モデリング機能と拡張されたシンノグラムと生のシンノグラムの両方によるct画像の再構成による情報的シンノグラムの復元を同時に行うために, \textbf{du}al-\textbf{do}main \textbf{trans}former (\textbf{dudotrans})を提案する。 このような新しい設計により、NIH-AAPMデータセットとCOVID-19データセットの再構成性能は、より少ないパラメータでDuDoTransの有効性と一般化性を実験的に確認する。 広汎な実験は、スパースビューCT再構成のための異なるノイズレベルシナリオで頑健さを示す。 コードとモデルはhttps://github.com/D uDoTrans/CODEで公開されている。

While Computed Tomography (CT) reconstruction from X-ray sinograms is necessary for clinical diagnosis, iodine radiation in the imaging process induces irreversible injury, thereby driving researchers to study sparse-view CT reconstruction, that is, recovering a high-quality CT image from a sparse set of sinogram views. Iterative models are proposed to alleviate the appeared artifacts in sparse-view CT images, but the computation cost is too expensive. Then deep-learning-based methods have gained prevalence due to the excellent performances and lower computation. However, these methods ignore the mismatch between the CNN's \textbf{local} feature extraction capability and the sinogram's \textbf{global} characteristics. To overcome the problem, we propose \textbf{Du}al-\textbf{Do}main \textbf{Trans}former (\textbf{DuDoTrans}) to simultaneously restore informative sinograms via the long-range dependency modeling capability of Transformer and reconstruct CT image with both the enhanced and raw sinograms. With such a novel design, reconstruction performance on the NIH-AAPM dataset and COVID-19 dataset experimentally confirms the effectiveness and generalizability of DuDoTrans with fewer involved parameters. Extensive experiments also demonstrate its robustness with different noise-level scenarios for sparse-view CT reconstruction. The code and models are publicly available at https://github.com/D uDoTrans/CODE
翻訳日:2021-11-23 16:47:13 公開日:2021-11-21
# freqnet:dicrete cosine変換を用いた周波数領域画像超解像ネットワーク

FreqNet: A Frequency-domain Image Super-Resolution Network with Dicrete Cosine Transform ( http://arxiv.org/abs/2111.10800v1 )

ライセンス: Link先を確認
Runyuan Cai, Yue Ding, Hongtao Lu(参考訳) 単一画像超解像(SISR)は低分解能(LR)入力から高分解能(HR)出力を得ることを目的とした不適切な問題である。 既存のSISRは主に空間領域で動作し、平均2乗再構成誤差を最小限に抑える。 高ピーク信号-雑音比(PSNR)の結果にもかかわらず、モデルが望まれる高周波の詳細を正しく付加するかどうかを判断することは困難である。 いくつかの残留構造は、モデルが暗黙的に高周波の特徴に焦点を合わせるために提案されている。 しかし、空間領域のメトリクスからの解釈が限られているため、これらの人工的詳細性の検証方法が問題となっている。 本稿では、周波数領域の観点から直感的なパイプラインであるFreqNetを提案し、この問題を解決する。 既存の周波数領域の作業にインスパイアされ、画像を離散コサイン変換(DCT)ブロックに変換し、モデルを入力およびターゲットとするDCT特徴写像を得るように再構成する。 特殊なパイプラインを設計し,周波数領域タスクの性質に適合する周波数損失関数を提案する。 周波数領域におけるSISR法は、高周波情報を明示的に学習し、SR画像の忠実度と知覚品質を向上する。 さらに,本モデルが他の空間超解像モデルと統合され,sr出力の品質が向上することを示す。

Single image super-resolution(SIS R) is an ill-posed problem that aims to obtain high-resolution (HR) output from low-resolution (LR) input, during which extra high-frequency information is supposed to be added to improve the perceptual quality. Existing SISR works mainly operate in the spatial domain by minimizing the mean squared reconstruction error. Despite the high peak signal-to-noise ratios(PSNR) results, it is difficult to determine whether the model correctly adds desired high-frequency details. Some residual-based structures are proposed to guide the model to focus on high-frequency features implicitly. However, how to verify the fidelity of those artificial details remains a problem since the interpretation from spatial-domain metrics is limited. In this paper, we propose FreqNet, an intuitive pipeline from the frequency domain perspective, to solve this problem. Inspired by existing frequency-domain works, we convert images into discrete cosine transform (DCT) blocks, then reform them to obtain the DCT feature maps, which serve as the input and target of our model. A specialized pipeline is designed, and we further propose a frequency loss function to fit the nature of our frequency-domain task. Our SISR method in the frequency domain can learn the high-frequency information explicitly, provide fidelity and good perceptual quality for the SR images. We further observe that our model can be merged with other spatial super-resolution models to enhance the quality of their original SR output.
翻訳日:2021-11-23 16:46:41 公開日:2021-11-21
# 脳ネットワーク分類のための構造保存グラフカーネル

Structure-Preserving Graph Kernel for Brain Network Classification ( http://arxiv.org/abs/2111.10803v1 )

ライセンス: Link先を確認
Zhaomin Kong, Aditya Kendre, Jun Yu, Hao Peng, Carl Yang, Lichao Sun, Alex Leow and Lifang He(参考訳) 本稿では,コネクトーム解析のためのグラフベースカーネル学習手法を提案する。 具体的には、グラフ表現の中で自然に利用可能な構造を利用して、カーネルの事前知識をエンコードする方法を示す。 まず,コネクトームデータの自然対称グラフ表現から構造的特徴を直接抽出する行列分解法を提案した。 次に、それらを用いて、サポートベクタマシンに供給される構造パーバーリンググラフカーネルを導出する。 提案手法は臨床的に解釈可能であるという利点がある。 HIV感染症分類(DTIおよびfMRI由来のコネクトームデータ)と感情認識(EEG由来のコネクトームデータ)タスクの定量的評価は,提案手法の最先端性を示すものである。 その結果,感情調節作業中に脳波接続情報は主にアルファバンドに符号化されることがわかった。

This paper presents a novel graph-based kernel learning approach for connectome analysis. Specifically, we demonstrate how to leverage the naturally available structure within the graph representation to encode prior knowledge in the kernel. We first proposed a matrix factorization to directly extract structural features from natural symmetric graph representations of connectome data. We then used them to derive a structure-perseverin g graph kernel to be fed into the support vector machine. The proposed approach has the advantage of being clinically interpretable. Quantitative evaluations on challenging HIV disease classification (DTI- and fMRI-derived connectome data) and emotion recognition (EEG-derived connectome data) tasks demonstrate the superior performance of our proposed methods against the state-of-the-art. Results showed that relevant EEG-connectome information is primarily encoded in the alpha band during the emotion regulation task.
翻訳日:2021-11-23 16:46:15 公開日:2021-11-21
# カタストロフィックオーバーフィッティングにおける局所リニアリティと二重発色

Local Linearity and Double Descent in Catastrophic Overfitting ( http://arxiv.org/abs/2111.10754v1 )

ライセンス: Link先を確認
Varun Sivashankar and Nikil Selvam(参考訳) カタストロフィックオーバーフィッティング(英: Catastrophic Overfitting)は、FGSM(Fast Gradient Sign Method)によるAT(Adversarial Training)において観察される現象であり、テストの堅牢性はトレーニング段階では1つのエポックよりも急激に低下する。 以前の研究では、ロバスト性の喪失は入力空間に対するニューラルネットワークの$\textit{local linearity}$の急激な減少に起因しており、正規化項として局所線形測度を導入すると破滅的な過剰フィッティングを防ぐことが示されている。 単純なニューラルネットワークアーキテクチャを用いて、破滅的なオーバーフィッティングを防ぐために、高い局所線形性を維持することは、$\textit{sufficient}$であり、$\textit{necessaryではないことを実験的に実証した。 さらに、我々は、ネットワークの重み行列を直交させ、ネットワークの重みの直交性と局所線型性の間の接続を研究するために、FGSMを用いたATに正規化項を導入する。 最後に,逆行訓練過程における$\textit{double descend}$現象を同定する。

Catastrophic overfitting is a phenomenon observed during Adversarial Training (AT) with the Fast Gradient Sign Method (FGSM) where the test robustness steeply declines over just one epoch in the training stage. Prior work has attributed this loss in robustness to a sharp decrease in $\textit{local linearity}$ of the neural network with respect to the input space, and has demonstrated that introducing a local linearity measure as a regularization term prevents catastrophic overfitting. Using a simple neural network architecture, we experimentally demonstrate that maintaining high local linearity might be $\textit{sufficient}$ to prevent catastrophic overfitting but is not $\textit{necessary.}$ Further, inspired by Parseval networks, we introduce a regularization term to AT with FGSM to make the weight matrices of the network orthogonal and study the connection between orthogonality of the network weights and local linearity. Lastly, we identify the $\textit{double descent}$ phenomenon during the adversarial training process.
翻訳日:2021-11-23 16:07:47 公開日:2021-11-21
# 深層学習による小惑星探査のための3次元視覚追跡フレームワーク

3D Visual Tracking Framework with Deep Learning for Asteroid Exploration ( http://arxiv.org/abs/2111.10737v1 )

ライセンス: Link先を確認
Dong Zhou, Gunaghui Sun, Xiaopeng Hong(参考訳) 3D視覚追跡は、宇宙船がターゲットに柔軟に接近することを保証できる深宇宙探査プログラムにとって重要である。 本稿では,3次元追跡のための高精度かつリアルタイムな手法について述べる。 このトピックの公開データセットがほとんどないという事実を考慮すると、両眼ビデオシーケンス、深度マップ、様々な形状とテクスチャを持つ多様な小惑星の点雲を含む、新しい大規模な3D小惑星追跡データセットが提示される。 シミュレーションプラットフォームのパワーと利便性から、すべての2Dおよび3Dアノテーションが自動的に生成される。 本研究では,2dモノキュラートラッカと新しい軽量アモーダル軸配置バウンディングボックスネットワークであるa3boxnetを含む,track3dと呼ばれるディープラーニングベースの3dトラッキングフレームワークを提案する。 評価の結果,Track3Dは,ベースラインアルゴリズムと比較して,精度と精度の両方で最先端の3Dトラッキング性能を達成できることがわかった。 さらに, 2次元単眼追跡性能に優れた一般化能力を有する。

3D visual tracking is significant to deep space exploration programs, which can guarantee spacecraft to flexibly approach the target. In this paper, we focus on the studied accurate and real-time method for 3D tracking. Considering the fact that there are almost no public dataset for this topic, A new large-scale 3D asteroid tracking dataset is presented, including binocular video sequences, depth maps, and point clouds of diverse asteroids with various shapes and textures. Benefitting from the power and convenience of simulation platform, all the 2D and 3D annotations are automatically generated. Meanwhile, we propose a deep-learning based 3D tracking framework, named as Track3D, which involves 2D monocular tracker and a novel light-weight amodal axis-aligned bounding-box network, A3BoxNet. The evaluation results demonstrate that Track3D achieves state-of-the-art 3D tracking performance in both accuracy and precision, comparing to a baseline algorithm. Moreover, our framework has great generalization ability to 2D monocular tracking performance.
翻訳日:2021-11-23 15:50:27 公開日:2021-11-21
# FCOSR:空中物体検出のための簡易アンカーフリー回転検出器

FCOSR: A Simple Anchor-free Rotated Detector for Aerial Object Detection ( http://arxiv.org/abs/2111.10780v1 )

ライセンス: Link先を確認
Zhonghua Li, Biao Hou, Zitong Wu, Licheng Jiao, Bo Ren, Chen Yang(参考訳) 既存のアンカーベース指向オブジェクト検出手法は驚くべき結果を得たが、これらの手法にはいくつかの手動のプリセットボックスが必要である。 既存のアンカーフリーメソッドは通常複雑なアーキテクチャを持ち、デプロイは容易ではない。 本研究の目的は,空中画像検出をシンプルかつ容易に行うアルゴリズムを提案することである。 本稿では,FCOSをベースとした一段アンカーフリー回転物体検出器(FCOSR)について述べる。 FCOSRは単純なアーキテクチャであり、畳み込み層のみで構成されている。 本研究は,トレーニングフェーズのラベル割り当て戦略に焦点を当てている。 オリプスセンタサンプリング法を用いて,向き付けられた境界ボックス (obb) に適したサンプリング領域を定義する。 ファジィサンプル割り当て戦略は、重複するオブジェクトに対して適切なラベルを提供する。 サンプリング不足問題を解決するため、マルチレベルサンプリングモジュールを設計した。 これらの戦略は、より適切なラベルをトレーニングサンプルに割り当てる。 本アルゴリズムは, DOTA1.0, DOTA1.5, HRSC2016データセット上で, それぞれ79.25, 75.41, 90.15mAPを達成する。 FCOSRは単スケール評価において他の手法よりも優れた性能を示す。 我々は、軽量なFCOSRモデルをTensorRTフォーマットに変換し、単一のスケールでJetson Xavier NX上で10.68 FPSの速度でDOTA1.0上で73.93 mAPを達成する。 コードは以下の通り。 https://github.com/l zh420202/FCOSR

Existing anchor-base oriented object detection methods have achieved amazing results, but these methods require some manual preset boxes, which introduces additional hyperparameters and calculations. The existing anchor-free methods usually have complex architectures and are not easy to deploy. Our goal is to propose an algorithm which is simple and easy-to-deploy for aerial image detection. In this paper, we present a one-stage anchor-free rotated object detector (FCOSR) based on FCOS, which can be deployed on most platforms. The FCOSR has a simple architecture consisting of only convolution layers. Our work focuses on the label assignment strategy for the training phase. We use ellipse center sampling method to define a suitable sampling region for oriented bounding box (OBB). The fuzzy sample assignment strategy provides reasonable labels for overlapping objects. To solve the insufficient sampling problem, a multi-level sampling module is designed. These strategies allocate more appropriate labels to training samples. Our algorithm achieves 79.25, 75.41, and 90.15 mAP on DOTA1.0, DOTA1.5, and HRSC2016 datasets, respectively. FCOSR demonstrates superior performance to other methods in single-scale evaluation. We convert a lightweight FCOSR model to TensorRT format, which achieves 73.93 mAP on DOTA1.0 at a speed of 10.68 FPS on Jetson Xavier NX with single scale. The code is available at: https://github.com/l zh420202/FCOSR
翻訳日:2021-11-23 15:50:07 公開日:2021-11-21
# 3次元キーポイント知識エンジンを用いた画素レベルの2次元画像解析

Understanding Pixel-level 2D Image Semantics with 3D Keypoint Knowledge Engine ( http://arxiv.org/abs/2111.10817v1 )

ライセンス: Link先を確認
Yang You, Chengkun Li, Yujing Lou, Zhoujun Cheng, Liangwei Li, Lizhuang Ma, Weiming Wang, Cewu Lu(参考訳) ピクセルレベルの2dオブジェクトの意味理解は、コンピュータビジョンの重要なトピックであり、マシンが日々の生活の中で、オブジェクトを深く理解するのに役立つ。 しかし、以前のほとんどの方法は、エンドツーエンドだが3d空間で多くの情報を失う2dイメージの対応を直接トレーニングする。 本稿では,3次元領域で画像に対応する意味論を予測し,それを2次元画像に投影してピクセルレベルの理解を実現する新しい手法を提案する。 現在の画像データセットにない信頼できる3d意味ラベルを得るために,16のオブジェクトカテゴリから103,450のキーポイントと8,234の3dモデルを含むkeypointnetと呼ばれる大規模キーポイントナレッジエンジンを構築した。 本手法は3次元視覚の利点を活かし,オブジェクトの自己完結性と可視性を明確に判断することができる。 提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与える。

Pixel-level 2D object semantic understanding is an important topic in computer vision and could help machine deeply understand objects (e.g. functionality and affordance) in our daily life. However, most previous methods directly train on correspondences in 2D images, which is end-to-end but loses plenty of information in 3D spaces. In this paper, we propose a new method on predicting image corresponding semantics in 3D domain and then projecting them back onto 2D images to achieve pixel-level understanding. In order to obtain reliable 3D semantic labels that are absent in current image datasets, we build a large scale keypoint knowledge engine called KeypointNet, which contains 103,450 keypoints and 8,234 3D models from 16 object categories. Our method leverages the advantages in 3D vision and can explicitly reason about objects self-occlusion and visibility. We show that our method gives comparative and even superior results on standard semantic benchmarks.
翻訳日:2021-11-23 15:46:49 公開日:2021-11-21
# 識別された内部モデル: 敵攻撃に対する脳誘発オートエンコーダ

Denoised Internal Models: a Brain-Inspired Autoencoder against Adversarial Attacks ( http://arxiv.org/abs/2111.10844v1 )

ライセンス: Link先を確認
Kaiyuan Liu, Xingyu Li, Yi Zhou, Jisong Guan, Yurui Lai, Ge Zhang, Hang Su, Jiachen Wang, Chunxu Guo(参考訳) その大きな成功にもかかわらず、ディープラーニングは強固さに苦しめられている。つまり、深層ニューラルネットワークは、最も単純なものでさえ、敵対的な攻撃に対して非常に脆弱である。 近年の脳科学の発展に触発されて,この課題に取り組むための新しい自動エンコーダモデルであるdenoized internal models (dim)を提案する。 視覚信号処理のために人間の脳のパイプラインをシミュレートすると、DIMは2段階のアプローチを採用する。 最初の段階では、DIMはノイズと入力の寸法を減らし、視床の情報前処理を反映するためにデノイザーを使用する。 一次視覚野におけるメモリ関連トレースのスパースコーディングから着想を得た第2段階は、各カテゴリに1つずつの内部モデルを生成する。 敵攻撃42回以上のDIMを評価し, DIMは全攻撃に対して効果的に防御し, 総合的堅牢性ではSOTAよりも優れていた。

Despite its great success, deep learning severely suffers from robustness; that is, deep neural networks are very vulnerable to adversarial attacks, even the simplest ones. Inspired by recent advances in brain science, we propose the Denoised Internal Models (DIM), a novel generative autoencoder-based model to tackle this challenge. Simulating the pipeline in the human brain for visual signal processing, DIM adopts a two-stage approach. In the first stage, DIM uses a denoiser to reduce the noise and the dimensions of inputs, reflecting the information pre-processing in the thalamus. Inspired from the sparse coding of memory-related traces in the primary visual cortex, the second stage produces a set of internal models, one for each category. We evaluate DIM over 42 adversarial attacks, showing that DIM effectively defenses against all the attacks and outperforms the SOTA on the overall robustness.
翻訳日:2021-11-23 15:46:32 公開日:2021-11-21
# CpT: 3Dポイントクラウド処理のための畳み込み点変換器

CpT: Convolutional Point Transformer for 3D Point Cloud Processing ( http://arxiv.org/abs/2111.10866v1 )

ライセンス: Link先を確認
Chaitanya Kaul, Joshua Mitton, Hang Dai, Roderick Murray-Smith(参考訳) CpT: Convolutional Point Transformer - 3Dポイントクラウドデータの非構造化の性質を扱うための新しいディープラーニングアーキテクチャ。 CpTは、既存の注目ベースのConvolutions Neural Networksと、以前の3Dポイントクラウド処理トランスフォーマーの改善である。 動的に局所的な点集合を処理するために作られた畳み込み射影層を通して、新しく頑健な注意に基づく点集合を埋め込み込むことができるため、この効果を達成する。 結果として得られる点集合の埋め込みは入力点の置換に対して堅牢である。 我々の新しいCpTブロックは、ネットワーク構造の各層における動的グラフ計算によって得られる点の局所的な近傍に構築される。 完全に微分可能であり、点のグローバルな性質を学ぶために畳み込み層のように積み重ねることができる。 我々は,ModelNet40,ShapeNet Part Segmentation,S3DIS 3D屋内シーンセマンティックセマンティックセマンティックセマンティックセマンティックセマンティクスなどの標準ベンチマークデータセットを用いて,本モデルが既存の最先端手法と比較して,様々なポイントクラウド処理タスクに有効なバックボーンとして機能することを示す。

We present CpT: Convolutional point Transformer - a novel deep learning architecture for dealing with the unstructured nature of 3D point cloud data. CpT is an improvement over existing attention-based Convolutions Neural Networks as well as previous 3D point cloud processing transformers. It achieves this feat due to its effectiveness in creating a novel and robust attention-based point set embedding through a convolutional projection layer crafted for processing dynamically local point set neighbourhoods. The resultant point set embedding is robust to the permutations of the input points. Our novel CpT block builds over local neighbourhoods of points obtained via a dynamic graph computation at each layer of the networks' structure. It is fully differentiable and can be stacked just like convolutional layers to learn global properties of the points. We evaluate our model on standard benchmark datasets such as ModelNet40, ShapeNet Part Segmentation, and the S3DIS 3D indoor scene semantic segmentation dataset to show that our model can serve as an effective backbone for various point cloud processing tasks when compared to the existing state-of-the-art approaches.
翻訳日:2021-11-23 15:46:15 公開日:2021-11-21
# 非線形作用素に対する擬逆数

A Pseudo-Inverse for Nonlinear Operators ( http://arxiv.org/abs/2111.10755v1 )

ライセンス: Link先を確認
Eyal Gofer and Guy Gilboa(参考訳) ムーア・ペンローズ逆は物理学、統計学、工学の様々な分野で広く使われている。 その他の特徴として、超完全データの場合の線型作用素の反転の概念をよく捉えている。 データ科学では、非線形演算子は広く用いられる。 本稿では、非線形作用素に対する擬逆の基本的な性質を定義し、特徴付ける。 概念は広く定義されている。 最初は一般集合に対して、次にノルム空間の精製である。 ノルム空間に対する擬逆は、作用素が行列であるときにムーア・ペンローズ逆となる。 擬似逆数の存在条件と一意性を示し,その性質,すなわち連続性,作用素合成と射影作用素に対する値などについて理論的に考察する。 解析式は、ハードスレッディングやソフトスレッディングやReLUのようなよく知られた非可逆な非線形作用素の擬逆数に対して与えられる。 最後に,神経層を分析し,ウェーブレット閾値と正規化損失最小化との関係について論じる。

The Moore-Penrose inverse is widely used in physics, statistics and various fields of engineering. Among other characteristics, it captures well the notion of inversion of linear operators in the case of overcomplete data. In data science, nonlinear operators are extensively used. In this paper we define and characterize the fundamental properties of a pseudo-inverse for nonlinear operators. The concept is defined broadly. First for general sets, and then a refinement for normed spaces. Our pseudo-inverse for normed spaces yields the Moore-Penrose inverse when the operator is a matrix. We present conditions for existence and uniqueness of a pseudo-inverse and establish theoretical results investigating its properties, such as continuity, its value for operator compositions and projection operators, and others. Analytic expressions are given for the pseudo-inverse of some well-known, non-invertible, nonlinear operators, such as hard- or soft-thresholding and ReLU. Finally, we analyze a neural layer and discuss relations to wavelet thresholding and to regularized loss minimization.
翻訳日:2021-11-23 15:28:01 公開日:2021-11-21
# 資本化と再生 : アンケート調査より

Capitalization and Punctuation Restoration: a Survey ( http://arxiv.org/abs/2111.10746v1 )

ライセンス: Link先を確認
Vasile P\u{a}i\c{s}, Dan Tufi\c{s}(参考訳) 適切な句読と文字のケーシングを保証することは、複雑な自然言語処理アルゴリズムを適用するための重要な前処理ステップである。 これは、自動音声認識システムの生出力など、句読点やケーシングが欠落しているテキストソースにおいて特に重要である。 さらに、短いテキストメッセージとマイクロブログプラットフォームは、信頼できず、しばしば間違った句読点とケーシングを提供する。 本調査は,句読点の復元と単語の字幕の修正のための歴史技術と最先端技術の両方について概説する。 さらに、現在の課題や研究の方向性も強調されている。

Ensuring proper punctuation and letter casing is a key pre-processing step towards applying complex natural language processing algorithms. This is especially significant for textual sources where punctuation and casing are missing, such as the raw output of automatic speech recognition systems. Additionally, short text messages and micro-blogging platforms offer unreliable and often wrong punctuation and casing. This survey offers an overview of both historical and state-of-the-art techniques for restoring punctuation and correcting word casing. Furthermore, current challenges and research directions are highlighted.
翻訳日:2021-11-23 15:27:25 公開日:2021-11-21
# RETEROMプロジェクトによるルーマニア語のさらなる埋め込み

More Romanian word embeddings from the RETEROM project ( http://arxiv.org/abs/2111.10750v1 )

ライセンス: Link先を確認
Vasile P\u{a}i\c{s}, Dan Tufi\c{s}(参考訳) 自動的に学習される単語のベクトル表現は「単語埋め込み」としても知られ、自然言語処理アルゴリズムの基本的な構成要素となっている。 単語の埋め込みを構築するにはさまざまな方法とツールがある。 ほとんどのアプローチは生のテキストに依存しており、構築項目は単語の発生や文字n-gramである。 より詳細な研究は、テキストの前処理後に抽出された追加の言語的特徴を用いている。 形態学は、生のテキストと文字のn-gramからなるベクトル表現によって明らかに提供される。 構文と意味論の研究は、補題、パート・オブ・音声、構文、意味的依存といった付加的な特徴を持つベクトル表現からより利益を得ることができる。 ReTeRomプロジェクトの主要な目的の1つは、テキストの形態、構文、意味分析を含むルーマニアの自然言語処理のための高度な技術の開発である。 そこで我々は,使い勝手の良い単語埋め込みセットのオープンアクセスライブラリを開発し,使用する特徴(単語形式,文字n-gram,補題,ポーズなど),ベクトル長,ウィンドウ/コンテキストサイズ,周波数しきい値など)を特徴付ける。 この目的のために、コローラコーパス(p\u{a}i\c{s}、tufi\c{s}、2018)上の(単語の出現に基づく)単語埋め込みのセットは、レムマや音声の一部といった特定の特徴を用いて、同じコーパスから学習された新しい表現によってさらに拡張される。 さらに、ベクトルをよりよく理解し、探索するために、グラフィカルな表現はカスタマイズされたインターフェイスで利用できる。

Automatically learned vector representations of words, also known as "word embeddings", are becoming a basic building block for more and more natural language processing algorithms. There are different ways and tools for constructing word embeddings. Most of the approaches rely on raw texts, the construction items being the word occurrences and/or letter n-grams. More elaborated research is using additional linguistic features extracted after text preprocessing. Morphology is clearly served by vector representations constructed from raw texts and letter n-grams. Syntax and semantics studies may profit more from the vector representations constructed with additional features such as lemma, part-of-speech, syntactic or semantic dependants associated with each word. One of the key objectives of the ReTeRom project is the development of advanced technologies for Romanian natural language processing, including morphological, syntactic and semantic analysis of text. As such, we plan to develop an open-access large library of ready-to-use word embeddings sets, each set being characterized by different parameters: used features (wordforms, letter n-grams, lemmas, POSes etc.), vector lengths, window/context size and frequency thresholds. To this end, the previously created sets of word embeddings (based on word occurrences) on the CoRoLa corpus (P\u{a}i\c{s} and Tufi\c{s}, 2018) are and will be further augmented with new representations learned from the same corpus by using specific features such as lemmas and parts of speech. Furthermore, in order to better understand and explore the vectors, graphical representations will be available by customized interfaces.
翻訳日:2021-11-23 15:24:48 公開日:2021-11-21
# インパインティングによる自己教師付きポイントクラウド完成

Self-Supervised Point Cloud Completion via Inpainting ( http://arxiv.org/abs/2111.10701v1 )

ライセンス: Link先を確認
Himangi Mittal, Brian Okorn, Arpit Jangid, David Held(参考訳) 都市環境を航行する際には、追跡や回避が必要な多くの物体が密集している。 これらの部分スキャンによる計画と追跡は困難である。 この研究の目的は、これらの部分点雲の完成を学び、部分的観測のみを使用して物体の形状を完全に理解することである。 従来の手法では、ターゲットオブジェクトの完全な地味なアノテーションの助けを借りてこれを達成しており、これはシミュレーションデータセットでのみ利用可能である。 しかし、現実世界のLiDARデータではそのような基礎的な真実は利用できない。 そこで本研究では,完全基幹アノテーションを前提とせずに部分的スキャンのみをトレーニングした,自己教師付きポイントクラウド補完アルゴリズムであるPointPnCNetを提案する。 本手法はインペインティングによりこれを実現する。 入力データの一部を取り除き、欠落した領域を完了させるためにネットワークをトレーニングします。 初期クラウドにどのリージョンが隠されているのかを判断することは困難であるため、ネットワークは初期部分クラウドに欠落しているリージョンを含む完全なクラウドを完成させることを学ぶ。 提案手法は,合成データセットであるShapeNetと実世界のLiDARデータセットであるSemantic KITTIの両方において,教師なしおよび弱教師付き手法よりも優れていることを示す。

When navigating in urban environments, many of the objects that need to be tracked and avoided are heavily occluded. Planning and tracking using these partial scans can be challenging. The aim of this work is to learn to complete these partial point clouds, giving us a full understanding of the object's geometry using only partial observations. Previous methods achieve this with the help of complete, ground-truth annotations of the target objects, which are available only for simulated datasets. However, such ground truth is unavailable for real-world LiDAR data. In this work, we present a self-supervised point cloud completion algorithm, PointPnCNet, which is trained only on partial scans without assuming access to complete, ground-truth annotations. Our method achieves this via inpainting. We remove a portion of the input data and train the network to complete the missing region. As it is difficult to determine which regions were occluded in the initial cloud and which were synthetically removed, our network learns to complete the full cloud, including the missing regions in the initial partial cloud. We show that our method outperforms previous unsupervised and weakly-supervised methods on both the synthetic dataset, ShapeNet, and real-world LiDAR dataset, Semantic KITTI.
翻訳日:2021-11-23 15:06:00 公開日:2021-11-21
# 融合特徴を用いた分散教師なし視覚表現学習

Distributed Unsupervised Visual Representation Learning with Fused Features ( http://arxiv.org/abs/2111.10763v1 )

ライセンス: Link先を確認
Yawen Wu, Zhepeng Wang, Dewen Zeng, Meng Li, Yiyu Shi, Jingtong Hu(参考訳) フェデレーション学習(fl)により、分散クライアントは、各クライアントのトレーニングデータをローカルに保持しながら、予測のための共有モデルを学ぶことができる。 しかし、既存のflは、高いラベリングコストと専門知識の要件のため、不便で時には入手できないトレーニングのための完全なラベル付きデータを必要としている。 ラベルがないため、flは多くの現実的な設定では実用的ではない。 自己教師付き学習は、flが広く利用できるようなラベルのないデータから学習することで、この課題に対処できる。 自己教師付き学習アプローチであるContrastive Learning (CL)は、ラベルのないデータからデータ表現を効果的に学習することができる。 しかし、クライアントで収集された分散データは、通常、独立ではなく、クライアント間で同一の分散(非iid)であり、各クライアントは、clと学習された表現のパフォーマンスを低下させる少数のデータクラスしか持たない。 この問題に対処するために,我々は,機能融合と近隣マッチングという2つのアプローチからなる統合コントラスト学習フレームワークを提案する。 機能融合は、ローカル学習を改善するために各クライアントに正確なコントラスト情報としてリモート機能を提供する。 近隣のマッチングは、各クライアントのローカル機能とリモート機能とをさらに整合させ、クライアント間でよくクラスタ化された機能を学ぶことができる。 広範な実験により,提案手法の有効性が示された。 iidデータで他の手法を11\%上回り、集中型学習のパフォーマンスに匹敵する。

Federated learning (FL) enables distributed clients to learn a shared model for prediction while keeping the training data local on each client. However, existing FL requires fully-labeled data for training, which is inconvenient or sometimes infeasible to obtain due to the high labeling cost and the requirement of expertise. The lack of labels makes FL impractical in many realistic settings. Self-supervised learning can address this challenge by learning from unlabeled data such that FL can be widely used. Contrastive learning (CL), a self-supervised learning approach, can effectively learn data representations from unlabeled data. However, the distributed data collected on clients are usually not independent and identically distributed (non-IID) among clients, and each client may only have few classes of data, which degrades the performance of CL and learned representations. To tackle this problem, we propose a federated contrastive learning framework consisting of two approaches: feature fusion and neighborhood matching, by which a unified feature space among clients is learned for better data representations. Feature fusion provides remote features as accurate contrastive information to each client for better local learning. Neighborhood matching further aligns each client's local features to the remote features such that well-clustered features among clients can be learned. Extensive experiments show the effectiveness of the proposed framework. It outperforms other methods by 11\% on IID data and matches the performance of centralized learning.
翻訳日:2021-11-23 15:05:41 公開日:2021-11-21
# 高次元データ解析におけるリカバリ支援のためのデータ駆動線探索ルール

A Data-Driven Line Search Rule for Support Recovery in High-dimensional Data Analysis ( http://arxiv.org/abs/2111.10806v1 )

ライセンス: Link先を確認
Peili Li, Yuling Jiao, Xiliang Lu, Lican Kang(参考訳) 本研究では,このアルゴリズムを$\ell_0$ペナルティを持つ(非線形)回帰問題に適用する。 既存の$\ell_0$の最適化問題に対するアルゴリズムは、しばしば一定のステップサイズで実行され、適切なステップサイズの選択は、損失関数の厳密な凸性と滑らかさに依存するため、実用的な計算では計算が困難である。 支援検出とルート探索のアイデアのスプライトにおいて,適切なステップサイズを適応的に決定するための新しい効率的なデータ駆動行探索ルールを提案する。 提案アルゴリズムに結合する$\ell_2$エラーを,コスト関数の制約を伴わずに証明する。 線形回帰問題とロジスティック回帰問題における最先端アルゴリズムとの比較は,提案アルゴリズムの安定性,有効性,優越性を示す。

In this work, we consider the algorithm to the (nonlinear) regression problems with $\ell_0$ penalty. The existing algorithms for $\ell_0$ based optimization problem are often carried out with a fixed step size, and the selection of an appropriate step size depends on the restricted strong convexity and smoothness for the loss function, hence it is difficult to compute in practical calculation. In sprite of the ideas of support detection and root finding \cite{HJK2020}, we proposes a novel and efficient data-driven line search rule to adaptively determine the appropriate step size. We prove the $\ell_2$ error bound to the proposed algorithm without much restrictions for the cost functional. A large number of numerical comparisons with state-of-the-art algorithms in linear and logistic regression problems show the stability, effectiveness and superiority of the proposed algorithms.
翻訳日:2021-11-23 14:56:36 公開日:2021-11-21
# 確率的変動を低減したエンサンブル・エンサンブル・トランスファービリティ向上のためのアンサンブル・アタック

Stochastic Variance Reduced Ensemble Adversarial Attack for Boosting the Adversarial Transferability ( http://arxiv.org/abs/2111.10752v1 )

ライセンス: Link先を確認
Yifeng Xiong, Jiadong Lin, Min Zhang, John E. Hopcroft, Kun He(参考訳) ブラックボックスの敵攻撃は、深層学習のセキュリティ分野における実用性において、目覚ましい注目を集めている一方、ネットワークアーキテクチャやターゲットモデルの内部重みにアクセスできないため、非常に困難である。 例が複数のモデルに対して敵対的であり続けると、攻撃能力を他のモデルに移す可能性が高いという仮説に基づいて、アンサンブルベースの敵攻撃手法は効率的であり、ブラックボックス攻撃に広く使用される。 しかし、アンサンブル攻撃の方法はあまり研究されておらず、既存のアンサンブル攻撃は単にすべてのモデルの出力を均等に融合させるだけである。 本研究では,異なるモデル上での勾配のばらつきが局所光度を低下させる確率的勾配降下最適化プロセスとして,反復的アンサンブル攻撃を扱っている。 そこで本研究では,確率分散低減アンサンブル攻撃(SVRE)と呼ばれる,アンサンブルモデルの勾配変動を低減し,アンサンブル攻撃を最大限に活用する新たな攻撃手法を提案する。 標準のImageNetデータセットにおける実験結果から,提案手法が既存のアンサンブル攻撃を著しく上回り,敵の移動可能性を高めることが実証された。

The black-box adversarial attack has attracted impressive attention for its practical use in the field of deep learning security, meanwhile, it is very challenging as there is no access to the network architecture or internal weights of the target model. Based on the hypothesis that if an example remains adversarial for multiple models, then it is more likely to transfer the attack capability to other models, the ensemble-based adversarial attack methods are efficient and widely used for black-box attacks. However, ways of ensemble attack are rather less investigated, and existing ensemble attacks simply fuse the outputs of all the models evenly. In this work, we treat the iterative ensemble attack as a stochastic gradient descent optimization process, in which the variance of the gradients on different models may lead to poor local optima. To this end, we propose a novel attack method called the stochastic variance reduced ensemble (SVRE) attack, which could reduce the gradient variance of the ensemble models and take full advantage of the ensemble attack. Empirical results on the standard ImageNet dataset demonstrate that the proposed method could boost the adversarial transferability and outperforms existing ensemble attacks significantly.
翻訳日:2021-11-23 14:55:25 公開日:2021-11-21
# adversarial mask: 顔認識モデルに対する現実世界の敵意攻撃

Adversarial Mask: Real-World Adversarial Attack Against Face Recognition Models ( http://arxiv.org/abs/2111.10759v1 )

ライセンス: Link先を確認
Alon Zolfi and Shai Avidan and Yuval Elovici and Asaf Shabtai(参考訳) ディープラーニングベースの顔認識(fr)モデルは、新型コロナウイルス(covid-19)パンデミックで防護マスクを着用した場合でも、ここ数年で最先端のパフォーマンスを示している。 これらのモデルの優れたパフォーマンスを考えると、機械学習研究コミュニティは、その堅牢性に挑戦することへの関心が高まっている。 最初、研究者たちはデジタルドメインの敵攻撃を示し、その後、攻撃は物理ドメインに転送された。 しかし、多くの場合、物理的な領域での攻撃は目立っており、例えば、顔にステッカーを置くことが必要であり、現実世界の環境(例えば空港)で疑念を生じさせる可能性がある。 本稿では, 顔のマスクに注意深い図形を施した, 最先端のFRモデルに対する物理対角的普遍摂動(UAP)であるAdversarial Maskを提案する。 実験では,敵マスクの広い範囲のfrモデルアーキテクチャとデータセットへの移動性について検討した。 さらに,布製マスクに対向パターンを印刷することで実世界の実験において,敵向マスクの有効性を検証し,FRシステムではマスクを着用している参加者の3.34%(他の評価マスクと比較すると83.34%)しか識別できないことを確認した。

Deep learning-based facial recognition (FR) models have demonstrated state-of-the-art performance in the past few years, even when wearing protective medical face masks became commonplace during the COVID-19 pandemic. Given the outstanding performance of these models, the machine learning research community has shown increasing interest in challenging their robustness. Initially, researchers presented adversarial attacks in the digital domain, and later the attacks were transferred to the physical domain. However, in many cases, attacks in the physical domain are conspicuous, requiring, for example, the placement of a sticker on the face, and thus may raise suspicion in real-world environments (e.g., airports). In this paper, we propose Adversarial Mask, a physical adversarial universal perturbation (UAP) against state-of-the-art FR models that is applied on face masks in the form of a carefully crafted pattern. In our experiments, we examined the transferability of our adversarial mask to a wide range of FR model architectures and datasets. In addition, we validated our adversarial mask effectiveness in real-world experiments by printing the adversarial pattern on a fabric medical face mask, causing the FR system to identify only 3.34% of the participants wearing the mask (compared to a minimum of 83.34% with other evaluated masks).
翻訳日:2021-11-23 14:55:03 公開日:2021-11-21
# 深部特徴抽出によるCOVID-19検出

COVID-19 Detection through Deep Feature Extraction ( http://arxiv.org/abs/2111.10762v1 )

ライセンス: Link先を確認
Jash Dalvi, Aziz Bohra(参考訳) SARS-CoV2ウイルスはヒトに多くのトリブレーションを引き起こしている。 新型コロナウイルスに感染しているかどうかを正確に判断できる予測モデリングは必須である。 本研究は,ネットワークのバックボーンとして機能するResNet50を,ヘッドモデルとしてロジスティック回帰と組み合わせた,深い特徴抽出手法を用いた新しいアプローチを提案する。 提案されたモデルは、Kaggle COVID-19 Radiography Datasetでトレーニングされている。 提案モデルでは、新型コロナウイルスおよび正常X線画像クラスで100%のクロスバリデーション精度を実現する。 同様に、結合した3つのクラスでテストすると、提案モデルは98.84%の精度が得られる。

The SARS-CoV2 virus has caused a lot of tribulation to the human population. Predictive modeling that can accurately determine whether a person is infected with COVID-19 is imperative. The study proposes a novel approach that utilizes deep feature extraction technique, pre-trained ResNet50 acting as the backbone of the network, combined with Logistic Regression as the head model. The proposed model has been trained on Kaggle COVID-19 Radiography Dataset. The proposed model achieves a cross-validation accuracy of 100% on the COVID-19 and Normal X-Ray image classes. Similarly, when tested on combined three classes, the proposed model achieves 98.84% accuracy.
翻訳日:2021-11-23 14:54:37 公開日:2021-11-21
# xnodrとxnidr:畳み込みニューラルネットワークのための2つの精度と高速の完全連結層

XnODR and XnIDR: Two Accurate and Fast Fully Connected Layers For Convolutional Neural Networks ( http://arxiv.org/abs/2111.10854v1 )

ライセンス: Link先を確認
Jian Sun, Ali Pourramezan Fard, and Mohammad H. Mahoor(参考訳) カプセルネットワークは、視覚認識タスクのためのディープニューラルネットワークの特徴間の位置関係を定義するのに優れた能力を示すが、計算コストは高く、モバイルデバイス上での実行には適さない。 ボトルネックはカプセル間で使用される動的ルーティング機構の計算複雑性にある。 一方、XNOR-Netのようなニューラルネットワークは高速かつ計算効率が高いが、二項化過程における情報損失のため、比較的精度が低い。 本稿では,CapsFC層内における動的ルーティングの外部あるいは内部に線形プロジェクタをxnorizingすることで,フル接続層(FC)の新たなクラスを提案する。 特に,提案するfc層には,xnodr (xnorizing linear projector outside dynamic routing) とxnidr (xnorizing linear projector inside dynamic routing) の2つのバージョンがある。 それらの一般化をテストするために、MobileNet V2とResNet-50を別々に挿入する。 MNIST、CIFAR-10、MultiMNISTの3つのデータセットの実験は、その有効性を検証する。 実験の結果,xnodr と xnidr はネットワークの精度が低く,パラメータも少ない(例えば,2.99mパラメータの95.32\%精度と cifar-10 の311.22mフラップ)。

Although Capsule Networks show great abilities in defining the position relationship between features in deep neural networks for visual recognition tasks, they are computationally expensive and not suitable for running on mobile devices. The bottleneck is in the computational complexity of the Dynamic Routing mechanism used between capsules. On the other hand, neural networks such as XNOR-Net are fast and computationally efficient but have relatively low accuracy because of their information loss in the binarization process. This paper proposes a new class of Fully Connected (FC) Layers by xnorizing the linear projector outside or inside the Dynamic Routing within the CapsFC layer. Specifically, our proposed FC layers have two versions, XnODR (Xnorizing Linear Projector Outside Dynamic Routing) and XnIDR (Xnorizing Linear Projector Inside Dynamic Routing). To test their generalization, we insert them into MobileNet V2 and ResNet-50 separately. Experiments on three datasets, MNIST, CIFAR-10, MultiMNIST validate their effectiveness. Our experimental results demonstrate that both XnODR and XnIDR help networks to have high accuracy with lower FLOPs and fewer parameters (e.g., 95.32\% accuracy with 2.99M parameters and 311.22M FLOPs on CIFAR-10).
翻訳日:2021-11-23 14:53:41 公開日:2021-11-21
# 部分的スケッチに基づく画像検索のための奥行き強化注意回帰

Deep Reinforced Attention Regression for Partial Sketch Based Image Retrieval ( http://arxiv.org/abs/2111.10917v1 )

ライセンス: Link先を確認
Dingrong Wang, Hitesh Sapkota, Xumin Liu, Qi Yu(参考訳) Fine-Grained Sketch-Based Image Retrieval (FG-SBIR)は、クエリスケッチを与えられた大きなギャラリーから特定の画像を見つけることを目的としている。 多くの重要な領域(例えば犯罪活動追跡)でFG-SBIRが広く適用されているにもかかわらず、既存のアプローチは、スケッチの不要なストロークのような外部ノイズに敏感でありながら、依然として低い精度に悩まされている。 検索性能は、より実用的なオンザフライ設定でさらに劣化し、一部(ノイズの多い)ストロークだけで、対応する画像を取得することができる部分完備スケッチのみとなる。 本稿では,一意に設計された深部強化学習モデルを用いて,部分スケッチトレーニングと注意領域選択に対処する2段階探索を行うフレームワークを提案する。 オリジナルのスケッチの重要な領域にモデルの注意を向けることで、不要なストロークノイズに対して頑健であり、大きなマージンで精度を向上する。 局所的なスケッチを十分に探索し,参加すべき重要な領域を特定するために,局所探索のためのロケータネットワークを管理する標準偏差項を調整しながら,グローバル探索のための自己ストラップ型ポリシー勾配を実行する。 トレーニングプロセスは、強化損失と教師付き損失を統合したハイブリッド損失によってガイドされる。 部分スケッチを用いたオンザフライ画像検索プロセスに適合する動的ランキング報酬を開発する。 3つの公開データセット上で行った広範囲な実験により,提案手法は部分スケッチに基づく画像検索における最先端の性能を実現することを示す。

Fine-Grained Sketch-Based Image Retrieval (FG-SBIR) aims at finding a specific image from a large gallery given a query sketch. Despite the widespread applicability of FG-SBIR in many critical domains (e.g., crime activity tracking), existing approaches still suffer from a low accuracy while being sensitive to external noises such as unnecessary strokes in the sketch. The retrieval performance will further deteriorate under a more practical on-the-fly setting, where only a partially complete sketch with only a few (noisy) strokes are available to retrieve corresponding images. We propose a novel framework that leverages a uniquely designed deep reinforcement learning model that performs a dual-level exploration to deal with partial sketch training and attention region selection. By enforcing the model's attention on the important regions of the original sketches, it remains robust to unnecessary stroke noises and improve the retrieval accuracy by a large margin. To sufficiently explore partial sketches and locate the important regions to attend, the model performs bootstrapped policy gradient for global exploration while adjusting a standard deviation term that governs a locator network for local exploration. The training process is guided by a hybrid loss that integrates a reinforcement loss and a supervised loss. A dynamic ranking reward is developed to fit the on-the-fly image retrieval process using partial sketches. The extensive experimentation performed on three public datasets shows that our proposed approach achieves the state-of-the-art performance on partial sketch based image retrieval.
翻訳日:2021-11-23 14:53:15 公開日:2021-11-21
# カルマンフィルタによる自動制御器校正

Automated Controller Calibration by Kalman Filtering ( http://arxiv.org/abs/2111.10832v1 )

ライセンス: Link先を確認
Marcel Menner, Karl Berntorp, Stefano Di Cairano(参考訳) 本稿では,制御パラメータの校正手法を提案する。 このような制御パラメータの例としては、PIDコントローラの利得、最適制御のためのコスト関数の重み、フィルタ係数、スライディングモードコントローラの滑り面、ニューラルネットワークの重みなどがある。 したがって,提案手法は広い範囲のコントローラに適用可能である。 この方法は、クローズドループシステム操作のデータを用いて、システムの状態よりも制御パラメータを推定するカルマンフィルタを使用する。 制御パラメータキャリブレーションは、力学系の性能に関する仕様を包含するトレーニング目標によって駆動される。 このキャリブレーション法は,パラメータをオンラインかつ堅牢に調整し,計算効率が高く,データストレージの要件が低く,多くのリアルタイムアプリケーションにアピールする実装が容易である。 シミュレーションの結果,制御パラメータを高速に学習でき(閉ループコストの平均減衰率約24%),乱れを補償するパラメータを調整でき(追跡精度約29%の改善),騒音に強いことがわかった。 さらに,高忠実度車両シミュレータcarsimを用いたシミュレーションにより,複雑な力学系の制御器をオンラインに校正できることを示し,実世界のシステムへの適用性を示した。

This paper proposes a method for calibrating control parameters. Examples of such control parameters are gains of PID controllers, weights of a cost function for optimal control, filter coefficients, the sliding surface of a sliding mode controller, or weights of a neural network. Hence, the proposed method can be applied to a wide range of controllers. The method uses a Kalman filter that estimates control parameters rather than the system's state, using data of closed-loop system operation. The control parameter calibration is driven by a training objective, which encompasses specifications on the performance of the dynamical system. The calibration method tunes the parameters online and robustly, is computationally efficient, has low data storage requirements, and is easy to implement making it appealing for many real-time applications. Simulation results show that the method is able to learn control parameters quickly (approximately 24% average decay factor of closed-loop cost), is able to tune the parameters to compensate for disturbances (approximately 29% improvement on tracking precision), and is robust to noise. Further, a simulation study with the high-fidelity vehicle simulator CarSim shows that the method can calibrate controllers of a complex dynamical system online, which indicates its applicability to a real-world system.
翻訳日:2021-11-23 14:51:32 公開日:2021-11-21
# 公正ランキングシステムのためのエンドツーエンド学習

End-to-end Learning for Fair Ranking Systems ( http://arxiv.org/abs/2111.10723v1 )

ライセンス: Link先を確認
James Kotary, Ferdinando Fioretto, Pascal Van Hentenryck, Ziwei Zhu(参考訳) learning-to-rank問題では,ユーザクエリに最も関係のある項目の露出を最大化するために,項目のランク付けを目標としている。 このようなランキングシステムの望ましい特性は、特定の項目群間の公平性の概念を保証することである。 近年,学習からランクまでのシステムにおいて公正性は考慮されているが,現在の手法では,提案したランキングポリシーの公平性を保証することはできない。 本稿では,このギャップに対処し,公平度に制約のある学習のための統合最適化学習フレームワークspofr(smart predict and optimize for fair ranking)を提案する。 エンドツーエンドのSPOFRフレームワークは、制約付き最適化サブモデルを含み、公正性の制約を満たすことを保証するとともに、公正性ユーティリティトレードオフのきめ細かい制御を可能にするランキングポリシーを生成する。 SPOFRは、確立されたパフォーマンス指標に関して、最先端の公正学習システムを大幅に改善することが示されている。

The learning-to-rank problem aims at ranking items to maximize exposure of those most relevant to a user query. A desirable property of such ranking systems is to guarantee some notion of fairness among specified item groups. While fairness has recently been considered in the context of learning-to-rank systems, current methods cannot provide guarantees on the fairness of the proposed ranking policies. This paper addresses this gap and introduces Smart Predict and Optimize for Fair Ranking (SPOFR), an integrated optimization and learning framework for fairness-constrained learning to rank. The end-to-end SPOFR framework includes a constrained optimization sub-model and produces ranking policies that are guaranteed to satisfy fairness constraints while allowing for fine control of the fairness-utility tradeoff. SPOFR is shown to significantly improve current state-of-the-art fair learning-to-rank systems with respect to established performance metrics.
翻訳日:2021-11-23 14:08:54 公開日:2021-11-21
# ネットワーク表現学習:マクロとマイクロビュー

Network representation learning: A macro and micro view ( http://arxiv.org/abs/2111.10772v1 )

ライセンス: Link先を確認
Xueyi Liu, Jie Tang(参考訳) グラフは、現実世界のデータ整理に広く使われている宇宙のデータ構造である。 交通ネットワーク、社会ネットワーク、学術ネットワークのような様々なリアルワードネットワークはグラフで表現できる。 近年、ネットワークの頂点をネットワーク表現学習と呼ばれる低次元ベクトル空間に表現する手法が急速に発展している。 表現学習はグラフデータに基づく新しいアルゴリズムの設計を容易にする。 本稿では,ネットワーク表現学習に関する現在の文献を総合的に概観する。 既存のアルゴリズムは、浅い埋め込みモデル、異種ネットワーク埋め込みモデル、グラフニューラルネットワークベースモデルという3つのグループに分類される。 本稿では,各カテゴリの最先端アルゴリズムを概説し,これらのアルゴリズムの本質的な違いについて考察する。 この調査の利点の1つは、ネットワーク表現学習分野の開発をより深く理解するための深い洞察を提供するアルゴリズムの異なるカテゴリの基礎となる理論的基礎を体系的に研究することである。

Graph is a universe data structure that is widely used to organize data in real-world. Various real-word networks like the transportation network, social and academic network can be represented by graphs. Recent years have witnessed the quick development on representing vertices in the network into a low-dimensional vector space, referred to as network representation learning. Representation learning can facilitate the design of new algorithms on the graph data. In this survey, we conduct a comprehensive review of current literature on network representation learning. Existing algorithms can be categorized into three groups: shallow embedding models, heterogeneous network embedding models, graph neural network based models. We review state-of-the-art algorithms for each category and discuss the essential differences between these algorithms. One advantage of the survey is that we systematically study the underlying theoretical foundations underlying the different categories of algorithms, which offers deep insights for better understanding the development of the network representation learning field.
翻訳日:2021-11-23 14:08:38 公開日:2021-11-21
# 2つのテキストコーパスにおけるリードラグ関係認識のための共同動的トピックモデル

Jointly Dynamic Topic Model for Recognition of Lead-lag Relationship in Two Text Corpora ( http://arxiv.org/abs/2111.10846v1 )

ライセンス: Link先を確認
Yandi Zhu, Xiaoling Lu, Jingya Hong, and Feifei Wang(参考訳) 近年,トピック進化モデルが注目されている。 様々なトピック進化モデルが提案されているが、ほとんどの研究は単一の文書コーパスに焦点を当てている。 しかし実際には、複数のソースからのデータを簡単にアクセスでき、それらの間の関係も観察できる。 そして、複数のテキストコーパス間の関係を認識し、さらにこの関係を利用してトピックモデリングを改善することが大きな関心事である。 本研究では,2つのテキストコーパス間の特別な関係に着目し,その関係を「リード・ラグ関係」と定義する。 この関係は、あるテキストコーパスが将来他のテキストコーパスで議論されるトピックに影響を与える現象を特徴づける。 リード・ラグ関係を明らかにするために,協調的なトピックモデルを提案し,大規模テキストコーパスのモデリング問題に対処する組込み拡張を開発した。 認識されたリードラグ関係により、2つのテキストコーパスの類似性を把握でき、両方のコーパスにおけるトピック学習の質を向上させることができる。 合成データを用いた同時動的トピックモデリング手法の性能を数値的に検討する。 最後に,統計論文と卒業論文からなる2つのテキストコーパスに対して提案モデルを適用する。 その結果,提案モデルでは2つのコーパス間のリードラグ関係をよく認識でき,また2コーパス内の特定のトピックパターンや共有トピックパターンも発見できることがわかった。

Topic evolution modeling has received significant attentions in recent decades. Although various topic evolution models have been proposed, most studies focus on the single document corpus. However in practice, we can easily access data from multiple sources and also observe relationships between them. Then it is of great interest to recognize the relationship between multiple text corpora and further utilize this relationship to improve topic modeling. In this work, we focus on a special type of relationship between two text corpora, which we define as the "lead-lag relationship". This relationship characterizes the phenomenon that one text corpus would influence the topics to be discussed in the other text corpus in the future. To discover the lead-lag relationship, we propose a jointly dynamic topic model and also develop an embedding extension to address the modeling problem of large-scale text corpus. With the recognized lead-lag relationship, the similarities of the two text corpora can be figured out and the quality of topic learning in both corpora can be improved. We numerically investigate the performance of the jointly dynamic topic modeling approach using synthetic data. Finally, we apply the proposed model on two text corpora consisting of statistical papers and the graduation theses. Results show the proposed model can well recognize the lead-lag relationship between the two corpora, and the specific and shared topic patterns in the two corpora are also discovered.
翻訳日:2021-11-23 14:04:51 公開日:2021-11-21
# オフライン強化学習: 値関数近似の基本的な障壁

Offline Reinforcement Learning: Fundamental Barriers for Value Function Approximation ( http://arxiv.org/abs/2111.10919v1 )

ライセンス: Link先を確認
Dylan J. Foster, Akshay Krishnamurthy, David Simchi-Levi, Yunzong Xu(参考訳) 我々は,ログデータから意思決定方針を学ぶことを目的とした,オフライン強化学習問題を考える。 オフラインRL – 特に(値)関数近似と組み合わせて、大規模あるいは連続的な状態空間での一般化を可能にする – は、コストと時間のかかるオンラインデータ収集を回避し、安全クリティカルなドメインに適しているため、実際にはますます関連性が高まっている。 オフライン値関数近似法に対する既存のサンプル複雑性の保証は、(1)分布的仮定(すなわち、良いカバレッジ)と(2)表象的仮定(例えば、いくつかの$q$-値関数を表す能力)の両方を必要とする。 しかし、これらの条件の必要性とオフラインRLの基本的な限界は、数十年の研究にもかかわらずよく理解されていない。 これにより、Chen と Jiang (2019) は、集中可能性(カバレッジの最も標準的な概念)と実現可能性(最も弱い表現条件)だけではサンプル効率の悪いオフライン RL には十分でないと推測した。 一般に、集中性と実現可能性の両方が満たされたとしても、任意のアルゴリズムは非自明なポリシーを学ぶために状態空間の大きさのサンプル複雑性多項式を必要とすることを証明して、この予想を正に解決する。 その結果,サンプル効率の良いオフライン強化学習では,教師付き学習を超越した限定的カバレッジ条件や表現条件が必要となり,オフライン値関数近似手法の基本的な障壁となるオーバーカバーと呼ばれる現象が浮き彫りになる。 線形関数近似を用いた強化学習の結果,オンラインrlとオフラインrlの分離は一定次元においても任意に大きくなることがわかった。

We consider the offline reinforcement learning problem, where the aim is to learn a decision making policy from logged data. Offline RL -- particularly when coupled with (value) function approximation to allow for generalization in large or continuous state spaces -- is becoming increasingly relevant in practice, because it avoids costly and time-consuming online data collection and is well suited to safety-critical domains. Existing sample complexity guarantees for offline value function approximation methods typically require both (1) distributional assumptions (i.e., good coverage) and (2) representational assumptions (i.e., ability to represent some or all $Q$-value functions) stronger than what is required for supervised learning. However, the necessity of these conditions and the fundamental limits of offline RL are not well understood in spite of decades of research. This led Chen and Jiang (2019) to conjecture that concentrability (the most standard notion of coverage) and realizability (the weakest representation condition) alone are not sufficient for sample-efficient offline RL. We resolve this conjecture in the positive by proving that in general, even if both concentrability and realizability are satisfied, any algorithm requires sample complexity polynomial in the size of the state space to learn a non-trivial policy. Our results show that sample-efficient offline reinforcement learning requires either restrictive coverage conditions or representation conditions that go beyond supervised learning, and highlight a phenomenon called over-coverage which serves as a fundamental barrier for offline value function approximation methods. A consequence of our results for reinforcement learning with linear function approximation is that the separation between online and offline RL can be arbitrarily large, even in constant dimension.
翻訳日:2021-11-23 14:04:23 公開日:2021-11-21
# 深部確率推定

Deep Probability Estimation ( http://arxiv.org/abs/2111.10734v1 )

ライセンス: Link先を確認
Sheng Liu, Aakash Kaku, Weicheng Zhu, Matan Leibovich, Sreyas Mohan, Boyang Yu, Laure Zanna, Narges Razavian, Carlos Fernandez-Granda(参考訳) 信頼性の高い確率推定は、天気予報、医学的予後、自動運転車の衝突回避など、固有の不確実性が存在する現実の多くの応用において重要である。 確率推定モデルは観測された結果(例、雨が降ったかどうか、または患者が死んだかどうか)に基づいて訓練される。 したがって、問題は二分分類と類似しており、目的が特定の結果を予測するのではなく、確率を推定することである。 本研究の目的は、ディープニューラルネットワークを用いた高次元データからの確率推定を検討することである。 これらのモデルによって生じる確率を改善する方法はいくつか存在するが、それらは主にモデルの不確かさに関連する分類問題に焦点を当てている。 本質的不確実性のある問題の場合、地中確率にアクセスせずに性能を評価することは困難である。 これに対処するために、さまざまな計算可能なメトリクスを研究し比較するための合成データセットを構築します。 本稿では,レーダ画像からの降水予測,病理像からのがん患者の生存予測,ダシュカムビデオからの自動車事故の予測という,生来の不確実性を伴う3つの実世界の確率推定タスクに関する既存手法を評価する。 最後に,データから計算した経験的確率と一致した出力確率を促進するために,トレーニングプロセスを修正したニューラルネットワークを用いた確率推定手法を提案する。 この手法はシミュレーションや実世界のデータで既存の手法よりも優れている。

Reliable probability estimation is of crucial importance in many real-world applications where there is inherent uncertainty, such as weather forecasting, medical prognosis, or collision avoidance in autonomous vehicles. Probability-estimati on models are trained on observed outcomes (e.g. whether it has rained or not, or whether a patient has died or not), because the ground-truth probabilities of the events of interest are typically unknown. The problem is therefore analogous to binary classification, with the important difference that the objective is to estimate probabilities rather than predicting the specific outcome. The goal of this work is to investigate probability estimation from high-dimensional data using deep neural networks. There exist several methods to improve the probabilities generated by these models but they mostly focus on classification problems where the probabilities are related to model uncertainty. In the case of problems with inherent uncertainty, it is challenging to evaluate performance without access to ground-truth probabilities. To address this, we build a synthetic dataset to study and compare different computable metrics. We evaluate existing methods on the synthetic data as well as on three real-world probability estimation tasks, all of which involve inherent uncertainty: precipitation forecasting from radar images, predicting cancer patient survival from histopathology images, and predicting car crashes from dashcam videos. Finally, we also propose a new method for probability estimation using neural networks, which modifies the training process to promote output probabilities that are consistent with empirical probabilities computed from the data. The method outperforms existing approaches on most metrics on the simulated as well as real-world data.
翻訳日:2021-11-23 13:29:51 公開日:2021-11-21
# travlr: 今、あなたはそれを見て、あなたはそうしません! Visio-Linguistic Reasoning のクロスモーダル移動の評価

TraVLR: Now You See It, Now You Don't! Evaluating Cross-Modal Transfer of Visio-Linguistic Reasoning ( http://arxiv.org/abs/2111.10756v1 )

ライセンス: Link先を確認
Keng Ji Chow, Samson Tan, Min-Yen Kan(参考訳) 多くのヴィシオ言語(v+l)表現学習法が開発されているが、既存のデータセットでは、視覚と言語の概念を統一された空間で表現する程度を評価していない。 クロスリンガル・トランスファーと精神言語学の文献に着想を得て,v+lモデルのための新しい評価設定,ゼロショットクロスモーダルトランスファーを提案する。 既存のv+lベンチマークもデータセット全体のグローバル精度スコアを報告しており、モデルが失敗して成功した特定の推論タスクを特定するのが難しい。 この問題に対処し, クロスモーダル転送の評価を可能にするために, 4つのV+L推論タスクからなる合成データセットであるTraVLRを提案する。 それぞれの例はシーンをバイモーダルにエンコードし、関連する情報を失うことなく、トレーニング/テスト中にモダリティを落とすことができる。 travlrのトレーニングとテスト分布もタスク関連次元に沿って制限されており、分散一般化の評価を可能にする。 我々は4つの最先端のv+lモデルを評価し、同じモダリティからテストセットでうまく機能するが、全てのモデルはクロスモダリティ転送に失敗し、1つのモダリティの追加や削除に適応した成功が限定されていることを発見した。 先行研究と連動して,単純な空間関係を学ぶために大量のデータを必要とするモデルも見いだした。 我々は研究コミュニティのオープンチャレンジとしてTraVLRをリリースする。

Numerous visio-linguistic (V+L) representation learning methods have been developed, yet existing datasets do not evaluate the extent to which they represent visual and linguistic concepts in a unified space. Inspired by the crosslingual transfer and psycholinguistics literature, we propose a novel evaluation setting for V+L models: zero-shot cross-modal transfer. Existing V+L benchmarks also often report global accuracy scores on the entire dataset, rendering it difficult to pinpoint the specific reasoning tasks that models fail and succeed at. To address this issue and enable the evaluation of cross-modal transfer, we present TraVLR, a synthetic dataset comprising four V+L reasoning tasks. Each example encodes the scene bimodally such that either modality can be dropped during training/testing with no loss of relevant information. TraVLR's training and testing distributions are also constrained along task-relevant dimensions, enabling the evaluation of out-of-distribution generalisation. We evaluate four state-of-the-art V+L models and find that although they perform well on the test set from the same modality, all models fail to transfer cross-modally and have limited success accommodating the addition or deletion of one modality. In alignment with prior work, we also find these models to require large amounts of data to learn simple spatial relationships. We release TraVLR as an open challenge for the research community.
翻訳日:2021-11-23 13:28:52 公開日:2021-11-21
# (参考訳) cover information disentanglement: unbiased permutation importanceによるモデルの透明性 [全文訳有]

Covered Information Disentanglement: Model Transparency via Unbiased Permutation Importance ( http://arxiv.org/abs/2111.09744v2 )

ライセンス: CC BY-SA 4.0
Jo\~ao Pereira and Erik S.G. Stroes and Aeilko H. Zwinderman and Evgeni Levin(参考訳) モデルの透明性は、多くのドメインにおいて必須条件であり、機械学習研究でますます人気が高まっている分野である。 例えば、医学領域では、疾患の背後にあるメカニズムを明らかにすることは、治療や研究の方向性を指示する可能性があるため、診断自体よりも優先度が高いことが多い。 モデルグローバル予測を説明する最も一般的なアプローチの1つは、順列データのパフォーマンスがベースラインに対してベンチマークされる順列の重要性である。 しかし,本手法や他の関連手法は,提供情報の一部をカバーしているため,共変量の存在下での特徴の重要性を過小評価する。 そこで本研究では,すべての特徴情報を重ね合わせて置換重要度によって提供された値を補正する手法であるcovered information disentanglement (cid)を提案する。 さらに,マルコフ確率場と組み合わせてCIDを効率的に計算する方法を示す。 まず,コントロールトイデータセット上での順応重要度調整の効果を実証し,実世界医療データへの影響について考察する。

Model transparency is a prerequisite in many domains and an increasingly popular area in machine learning research. In the medical domain, for instance, unveiling the mechanisms behind a disease often has higher priority than the diagnostic itself since it might dictate or guide potential treatments and research directions. One of the most popular approaches to explain model global predictions is the permutation importance where the performance on permuted data is benchmarked against the baseline. However, this method and other related approaches will undervalue the importance of a feature in the presence of covariates since these cover part of its provided information. To address this issue, we propose Covered Information Disentanglement (CID), a method that considers all feature information overlap to correct the values provided by permutation importance. We further show how to compute CID efficiently when coupled with Markov random fields. We demonstrate its efficacy in adjusting permutation importance first on a controlled toy dataset and discuss its effect on real-world medical data.
翻訳日:2021-11-23 12:06:25 公開日:2021-11-21