このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20211113)

# (参考訳) 深層学習を用いた電子健康記録における認知障害の同定 [全文訳有]

Using Deep Learning to Identify Patients with Cognitive Impairment in Electronic Health Records ( http://arxiv.org/abs/2111.09115v1 )

ライセンス: CC BY 4.0
Tanish Tyagi (1), Colin G. Magdamo (1), Ayush Noori (1), Zhaozhi Li (1), Xiao Liu (1), Mayuresh Deodhar (1), Zhuoqiao Hong (1), Wendong Ge (1), Elissa M. Ye (1), Yi-han Sheu (1), Haitham Alabsi (1), Laura Brenner (1), Gregory K. Robbins (1), Sahar Zafar (1), Nicole Benson (1), Lidia Moura (1), John Hsu (1), Alberto Serrano-Pozo (1), Dimitry Prokopenko (1 and 2), Rudolph E. Tanzi (1 and 2), Bradley T.Hyman (1), Deborah Blacker (1), Shibani S. Mukerji (1), M. Brandon Westover (1), Sudeshna Das (1) ((1) Massachusetts General Hospital, Boston, MA, (2) McCance Center for Brain Health, Boston, MA)(参考訳) 認知症は認知低下を引き起こす神経変性疾患であり、世界中で5000万人以上の人々に影響を及ぼす。 認知症は医療専門家によって過小診断されており、認知症に苦しむ人は4人に1人しか診断されない。 診断が下された場合でも、患者のチャートに構造化された国際疾患分類(ICD)診断コードとして入力されない場合がある。 認知障害(CI)に関連する情報は、電子健康記録(EHR)にしばしば見られるが、専門家による臨床記録のマニュアルレビューは、時間がかかり、しばしばエラーが生じる。 これらのメモの自動マイニングは、認知障害のある患者をEHRデータにラベル付けする機会を与える。 我々は,認知障害患者を識別する自然言語処理(NLP)ツールを開発し,言語コンテキストが認知障害分類タスクのパフォーマンスを向上させることを実証した。 複雑な言語構造から学習可能な注目に基づくディープラーニングモデルを微調整し,ベースラインNLPモデル(0.84)と比較して精度(0.93)を大幅に向上した。 さらに, ディープラーニングNLPは認知症関連ICDコードや薬剤を使わずに認知症患者を識別できることを示した。

Dementia is a neurodegenerative disorder that causes cognitive decline and affects more than 50 million people worldwide. Dementia is under-diagnosed by healthcare professionals - only one in four people who suffer from dementia are diagnosed. Even when a diagnosis is made, it may not be entered as a structured International Classification of Diseases (ICD) diagnosis code in a patient's charts. Information relevant to cognitive impairment (CI) is often found within electronic health records (EHR), but manual review of clinician notes by experts is both time consuming and often prone to errors. Automated mining of these notes presents an opportunity to label patients with cognitive impairment in EHR data. We developed natural language processing (NLP) tools to identify patients with cognitive impairment and demonstrate that linguistic context enhances performance for the cognitive impairment classification task. We fine-tuned our attention based deep learning model, which can learn from complex language structures, and substantially improved accuracy (0.93) relative to a baseline NLP model (0.84). Further, we show that deep learning NLP can successfully identify dementia patients without dementia-related ICD codes or medications.
翻訳日:2021-11-19 03:55:23 公開日:2021-11-13
# 物理誘導損失関数による逆散乱の深層学習性能の向上

Physics-guided Loss Functions Improve Deep Learning Performance in Inverse Scattering ( http://arxiv.org/abs/2111.09109v1 )

ライセンス: Link先を確認
Zicheng Liu, Mayank Roy, Dilip K. Prasad, Krishna Agarwal(参考訳) 電磁的逆散乱問題(ISP)の解法は、固有の非線形性、不適切性、高価な計算コストのために困難である。 近年,深層ニューラルネットワーク(dnn)技術がispに適用され,従来法よりも優れた画像化が可能となった。 本稿では,dnnソルバと従来の反復アルゴリズムの類似性を解析し,物理現象が学習プロセスに効果的に組み入れられないかについて議論する。 我々は,DNNの学習過程において,近接場事前を含めることの重要性を示す。 本研究では,多重散乱に基づく近接場量(領域内の散乱場や誘導電流など)を組み込んだ損失関数の新しい設計を提案する。 物理誘導損失関数の効果は様々な数値実験を用いて研究されている。 損失関数の異なるISPソルバの長所と短所を要約する。

Solving electromagnetic inverse scattering problems (ISPs) is challenging due to the intrinsic nonlinearity, ill-posedness, and expensive computational cost. Recently, deep neural network (DNN) techniques have been successfully applied on ISPs and shown potential of superior imaging over conventional methods. In this paper, we analyse the analogy between DNN solvers and traditional iterative algorithms and discuss how important physical phenomena cannot be effectively incorporated in the training process. We show the importance of including near-field priors in the learning process of DNNs. To this end, we propose new designs of loss functions which incorporate multiple-scattering based near-field quantities (such as scattered fields or induced currents within domain of interest). Effects of physics-guided loss functions are studied using a variety of numerical experiments. Pros and cons of the investigated ISP solvers with different loss functions are summarized.
翻訳日:2021-11-18 15:27:13 公開日:2021-11-13
# (参考訳) hydragan 合成データ生成のための多元的多目的アプローチ [全文訳有]

HydraGAN A Multi-head, Multi-objective Approach to Synthetic Data Generation ( http://arxiv.org/abs/2111.07015v1 )

ライセンス: CC BY 4.0
Chance N DeSmet, Diane J Cook(参考訳) 合成データ生成は、現実世界の機械学習の限界を克服する。 従来の手法は高価なデータセットを増やすのに有用だが、一つの基準であるリアリズムを最適化するだけだ。 本稿では,複数の基準を最適化する合成データを生成する問題に取り組む。 この目標は、実際のデータがプライバシー保護のために合成データに置き換えられるときに必要である。 本稿では,複数の生成器と識別器エージェントをシステムに導入する合成データ生成の新しいアプローチであるhydraganを紹介する。 マルチエージェントGANは、プライバシ保護とデータリアリズムの目標を最適化する。 マルチエージェントトレーニングを容易にするために,ゲーム理論の原則を適用して平衡保証を行う。 我々は,HydraGANがデータリアリズムの最大化,モデル精度の最大化,再識別リスクの最小化という複数の基準で,3つのデータセットのベースライン手法よりも優れていることを観察した。

Synthetic data generation overcomes limitations of real-world machine learning. Traditional methods are valuable for augmenting costly datasets but only optimize one criterion: realism. In this paper, we tackle the problem of generating synthetic data that optimize multiple criteria. This goal is necessary when real data are replaced by synthetic for privacy preservation. We introduce HydraGAN, a new approach to synthetic data generation that introduces multiple generator and discriminator agents into the system. The multi-agent GAN optimizes the goal of privacy-preservation as well as data realism. To facilitate multi-agent training, we adapt game-theoretic principles to offer equilibrium guarantees. We observe that HydraGAN outperforms baseline methods for three datasets for multiple criteria of maximizing data realism, maximizing model accuracy, and minimizing re-identification risk.
翻訳日:2021-11-18 12:58:18 公開日:2021-11-13
# (参考訳) 心不全の超音波診断におけるリング理論を用いた大域二元化の大津閾値法の改善 [全文訳有]

Improving the Otsu Thresholding Method of Global Binarization Using Ring Theory for Ultrasonographies of Congestive Heart Failure ( http://arxiv.org/abs/2111.07031v1 )

ライセンス: CC BY 4.0
Alisa Rahim and Esley Torres(参考訳) リング理論は、環は2つの二元演算を加法と乗法の間に行うことができる代数的構造であると述べている。 バイナリ化(binarization)は、画素内の値がゼロから1に縮小され、0が光が存在しないこと、そして1が光が存在しないことを表す画像処理の方法である。 現在, 心不全の診断にはソノグラムが用いられている。 しかし、周囲の臓器や低品質の画像制作などにより、病気を象徴するプレイボーイのバニーシンボルの分離がますます困難になっている。 本稿では, 大津しきい値法について検討し, 超音波画像中の心不全指標の分離を改善するため, 異なる画像特徴を考慮した新しい要素を取り入れる。

Ring Theory states that a ring is an algebraic structure where two binary operations can be performed among the elements addition and multiplication. Binarization is a method of image processing where values within pixels are reduced to a scale from zero to one, with zero representing the most absence of light and one representing the most presence of light. Currently, sonograms are implemented in scanning for congestive heart failure. However, the renowned Playboy Bunny symbol representing the ailment becomes increasingly difficult to isolate due to surrounding organs and lower quality image productions. This paper examines the Otsu thresholding method and incorporates new elements to account for different image features meant to better isolate congestive heart failure indicators in ultrasound images.
翻訳日:2021-11-18 11:49:29 公開日:2021-11-13
# (参考訳) 反復学習:層二元化による二元重みニューラルネットワークの探索 [全文訳有]

Iterative Training: Finding Binary Weight Deep Neural Networks with Layer Binarization ( http://arxiv.org/abs/2111.07046v1 )

ライセンス: CC BY 4.0
Cheng-Chou Lan(参考訳) 低レイテンシやモバイルアプリケーションでは、計算の複雑さが低下し、メモリフットプリントが低下し、エネルギー効率が向上することが望まれる。 冗長パラメータを削除することで、多くの先行研究がこのニーズに対処する。 パラメータ量子化は浮動小数点算術を低い精度の固定点算術に置き換え、さらに複雑さを減らす。 量子化重みニューラルネットワークの典型的なトレーニングは、完全な量子化重みから始まります。 量子化はランダムノイズを生み出す。 このノイズを補償する手段として、訓練中は浮動小数点精度を維持しながら重みを定量化することを提案する。 ディープニューラルネットワークには多くのレイヤがある。 完全に量子化された重みネットワークに到達するには、1つの量子化層から始めて、さらに多くの層を量子化します。 層量化の順序が精度に影響することを示す。 ディープニューラルネットワークでは、順序数が大きい。 層量子化順序を導出するための感度事前学習を提案する。 重み二項化の最近の研究は、重み-入出力行列乗法を加算に置き換えている。 提案する反復学習を重み付け二元化に適用する。 実験では,MNIST,CIFAR-10,Imag eNetデータセット上の完全接続および畳み込みネットワークについて検討した。 完全二進法ではなく部分二進法の重みから、トレーニングがより大きく深いネットワークに対してより良い精度で完全二進法の重みネットワークに到達することを実証的に示す。 前列における層バイナライゼーションは、より良い精度をもたらす。 誘導層二元化は、それをさらに改善することができる。 改良は訓練期間の延長を犠牲にしている。

In low-latency or mobile applications, lower computation complexity, lower memory footprint and better energy efficiency are desired. Many prior works address this need by removing redundant parameters. Parameter quantization replaces floating-point arithmetic with lower precision fixed-point arithmetic, further reducing complexity. Typical training of quantized weight neural networks starts from fully quantized weights. Quantization creates random noise. As a way to compensate for this noise, during training, we propose to quantize some weights while keeping others in floating-point precision. A deep neural network has many layers. To arrive at a fully quantized weight network, we start from one quantized layer and then quantize more and more layers. We show that the order of layer quantization affects accuracies. Order count is large for deep neural networks. A sensitivity pre-training is proposed to guide the layer quantization order. Recent work in weight binarization replaces weight-input matrix multiplication with additions. We apply the proposed iterative training to weight binarization. Our experiments cover fully connected and convolutional networks on MNIST, CIFAR-10 and ImageNet datasets. We show empirically that, starting from partial binary weights instead of from fully binary ones, training reaches fully binary weight networks with better accuracies for larger and deeper networks. Layer binarization in the forward order results in better accuracies. Guided layer binarization can further improve that. The improvements come at a cost of longer training time.
翻訳日:2021-11-18 11:44:05 公開日:2021-11-13
# (参考訳) 知識蒸留型ニューラルネットワークによる顔のランドマーク点検出 [全文訳有]

Facial Landmark Points Detection Using Knowledge Distillation-Based Neural Networks ( http://arxiv.org/abs/2111.07047v1 )

ライセンス: CC BY 4.0
Ali Pourramezan Fard, Mohammad H. Mahoor(参考訳) 顔のランドマーク検出は多くの顔画像解析アプリケーションにとって重要なステップである。 いくつかのディープラーニングベースの手法はこのタスクで優れたパフォーマンスを達成したが、モバイルデバイス上での実行には適していないことが多い。 このような手法は多くのパラメータを持つネットワークに依存しており、トレーニングと推論に時間がかかる。 MobileNetsのような軽量ニューラルネットワークのトレーニングは、しばしば困難であり、モデルの精度は低い。 本稿では,知識蒸留(kd)に触発されて,顔ランドマーク検出のための軽量な学生ネットワーク(mobilenetv2)を訓練する新しい損失関数を提案する。 我々は,2つの教員ネットワーク,トレラント・Teacher と Tough-Teacher を学生ネットワークと組み合わせて利用する。 Tolerant-Teacherはアクティブな形状モデルによって作成されたソフトランドマークを使って訓練され、Tough-Teacherは地上の真実(別名ハードランドマーク)のランドマークを使って訓練される。 教師ネットワークによって予測される顔のランドマークポイントを利用するために,教師ネットワーク毎に補助損失(ALoss)を定義する。 さらに,2つの教員ネットワーク(EfficientNet-b3)によって予測される顔のランドマークを利用したKD-Lossと呼ばれる損失関数を定義し,学生ネットワークをハードランドマークの予測に向けて誘導する。 3つの難解な顔データセットを用いた実験結果から,提案手法は,高い精度で顔ランドマーク点を抽出できる,より訓練された学生ネットワークを実現する。

Facial landmark detection is a vital step for numerous facial image analysis applications. Although some deep learning-based methods have achieved good performances in this task, they are often not suitable for running on mobile devices. Such methods rely on networks with many parameters, which makes the training and inference time-consuming. Training lightweight neural networks such as MobileNets are often challenging, and the models might have low accuracy. Inspired by knowledge distillation (KD), this paper presents a novel loss function to train a lightweight Student network (e.g., MobileNetV2) for facial landmark detection. We use two Teacher networks, a Tolerant-Teacher and a Tough-Teacher in conjunction with the Student network. The Tolerant-Teacher is trained using Soft-landmarks created by active shape models, while the Tough-Teacher is trained using the ground truth (aka Hard-landmarks) landmark points. To utilize the facial landmark points predicted by the Teacher networks, we define an Assistive Loss (ALoss) for each Teacher network. Moreover, we define a loss function called KD-Loss that utilizes the facial landmark points predicted by the two pre-trained Teacher networks (EfficientNet-b3) to guide the lightweight Student network towards predicting the Hard-landmarks. Our experimental results on three challenging facial datasets show that the proposed architecture will result in a better-trained Student network that can extract facial landmark points with high accuracy.
翻訳日:2021-11-18 11:33:15 公開日:2021-11-13
# (参考訳) 一貫した支持証拠を用いた画像分類 [全文訳有]

Image Classification with Consistent Supporting Evidence ( http://arxiv.org/abs/2111.07048v1 )

ライセンス: CC BY 4.0
Peiqi Wang, Ruizhi Liao, Daniel Moyer, Seth Berkowitz, Steven Horng, Polina Golland(参考訳) 医療における機械学習モデルの採用には、エンドユーザーがシステムに信頼する必要がある。 予測にさらなる支持的な証拠を提供するモデルは、導入を促進することを約束します。 モデル予測に関して、一貫性のある証拠は互換性があり、十分なものであると定義する。 より一貫性のある証拠を促進するためのモデル不整合と正則化の尺度を提案する。 胸部x線写真からの浮腫重症度評価の文脈で,我々のアイデアを実証する。 我々は、一貫性のあるモデルが解釈をサポートしながら競争力を発揮することを実証的に示す。

Adoption of machine learning models in healthcare requires end users' trust in the system. Models that provide additional supportive evidence for their predictions promise to facilitate adoption. We define consistent evidence to be both compatible and sufficient with respect to model predictions. We propose measures of model inconsistency and regularizers that promote more consistent evidence. We demonstrate our ideas in the context of edema severity grading from chest radiographs. We demonstrate empirically that consistent models provide competitive performance while supporting interpretation.
翻訳日:2021-11-18 10:20:49 公開日:2021-11-13
# (参考訳) モデル構築による確率勾配のボルスター化 [全文訳有]

Bolstering Stochastic Gradient Descent with Model Building ( http://arxiv.org/abs/2111.07058v1 )

ライセンス: CC BY 4.0
S. Ilker Birbil, Ozgur Martin, Gonenc Onay, Figen Oztoprak(参考訳) 確率的勾配降下法とその変種は、機械学習問題を解決するための良好な収束率を達成するコア最適化アルゴリズムを構成する。 これらのアルゴリズムが手元のアプリケーション用に微調整されている場合、これらのレートは特に得られる。 このチューニングには膨大な計算コストが必要となるが,近年の研究では,ステップサイズを反復的に調整する行探索法により,これらのコストを削減できることが示されている。 本稿では,フォワードステップモデル構築に基づく新しいアルゴリズムを用いて,確率線探索の代替手法を提案する。 このモデル構築ステップには、ステップ化だけでなく、検索方向も調整できる2次情報が含まれる。 深層学習モデルパラメータが群(テンソル層)に含まれることに注目し,そのモデルを構築し,各パラメータ群に対する新しいステップを算出する。 この新しい対角化アプローチは、選択されたステップ長を適応させる。 収束率解析を行い、提案アルゴリズムがほとんどの問題においてより高速な収束とより良い一般化を実現することを示す。 また,本手法は幅広い初期ステップに対して収束するので,提案手法は非常に頑健であることを示す。

Stochastic gradient descent method and its variants constitute the core optimization algorithms that achieve good convergence rates for solving machine learning problems. These rates are obtained especially when these algorithms are fine-tuned for the application at hand. Although this tuning process can require large computational costs, recent work has shown that these costs can be reduced by line search methods that iteratively adjust the stepsize. We propose an alternative approach to stochastic line search by using a new algorithm based on forward step model building. This model building step incorporates a second-order information that allows adjusting not only the stepsize but also the search direction. Noting that deep learning model parameters come in groups (layers of tensors), our method builds its model and calculates a new step for each parameter group. This novel diagonalization approach makes the selected step lengths adaptive. We provide convergence rate analysis, and experimentally show that the proposed algorithm achieves faster convergence and better generalization in most problems. Moreover, our experiments show that the proposed method is quite robust as it converges for a wide range of initial stepsizes.
翻訳日:2021-11-18 10:04:03 公開日:2021-11-13
# (参考訳) PAMMELA:機械学習を用いた政策管理手法 [全文訳有]

PAMMELA: Policy Administration Methodology using Machine Learning ( http://arxiv.org/abs/2111.07060v1 )

ライセンス: CC BY 4.0
Varun Gumma, Barsha Mitra, Soumyadeep Dey, Pratik Shashikantbhai Patel, Sourabh Suman, Saptarshi Das(参考訳) 近年、ABAC(Attribute-Based Access Control)は、動的かつ協調的な環境におけるアクセス制御の強化に非常に人気があり、効果的になっている。 ABACの実装には、累積的にポリシーを形成する属性ベースのルールセットを作成する必要がある。 abacポリシーの設計 ab initioは、システム管理者にかなりの労力を要求する。 さらに、組織的な変更は、すでにデプロイされたポリシーに新しいルールを含める必要があるかもしれない。 この場合、ABAC政策全体を見直しるには、かなりの時間と管理の努力が必要である。 代わりに、ポリシーを漸進的に強化する方がよい。 本稿では,機械学習を用いた政策管理手法であるPAMMELAを提案し,システム管理者が新たなABACポリシーの作成や既存ポリシーの強化を支援する。 PAMMELAは、現在同様の組織で実施されているポリシーのルールを学ぶことによって、組織のための新しいポリシーを生成することができる。 政策強化のために、PAMMELAは既存のルールから集めた知識に基づいて新しいルールを推測することができる。 実験の結果,提案手法は,様々な機械学習評価指標と実行時間の観点から,合理的に優れた性能を提供することがわかった。

In recent years, Attribute-Based Access Control (ABAC) has become quite popular and effective for enforcing access control in dynamic and collaborative environments. Implementation of ABAC requires the creation of a set of attribute-based rules which cumulatively form a policy. Designing an ABAC policy ab initio demands a substantial amount of effort from the system administrator. Moreover, organizational changes may necessitate the inclusion of new rules in an already deployed policy. In such a case, re-mining the entire ABAC policy will require a considerable amount of time and administrative effort. Instead, it is better to incrementally augment the policy. Keeping these aspects of reducing administrative overhead in mind, in this paper, we propose PAMMELA, a Policy Administration Methodology using Machine Learning to help system administrators in creating new ABAC policies as well as augmenting existing ones. PAMMELA can generate a new policy for an organization by learning the rules of a policy currently enforced in a similar organization. For policy augmentation, PAMMELA can infer new rules based on the knowledge gathered from the existing rules. Experimental results show that our proposed approach provides a reasonably good performance in terms of the various machine learning evaluation metrics as well as execution time.
翻訳日:2021-11-18 09:48:16 公開日:2021-11-13
# (参考訳) 関節内挿レンズによる運動解析 [全文訳有]

Memotion Analysis through the Lens of Joint Embedding ( http://arxiv.org/abs/2111.07074v1 )

ライセンス: CC BY 4.0
Nethra Gunti, Sathyanarayanan Ramamoorthy, Parth Patwa, Amitava Das(参考訳) ジョイント埋め込み (JE) は、テキストがグラウンドキーとして残るベクトル空間にマルチモーダルデータをエンコードする方法であり、画像のようなモダリティはそのようなキーで固定される。 ミームは一般的にテキストが埋め込まれた画像である。 ミームは一般的に楽しむために使われるが、憎悪や偽の情報を広めるのにも用いられる。 いくつかのソーシャルプラットフォームへの普及とともに、ミームの自動分析が広く研究の話題になってきた。 本稿では,ジョイント埋め込みによる運動解析問題の最初の実験について報告する。 結果が微妙にsotaになる。

Joint embedding (JE) is a way to encode multi-modal data into a vector space where text remains as the grounding key and other modalities like image are to be anchored with such keys. Meme is typically an image with embedded text onto it. Although, memes are commonly used for fun, they could also be used to spread hate and fake information. That along with its growing ubiquity over several social platforms has caused automatic analysis of memes to become a widespread topic of research. In this paper, we report our initial experiments on Memotion Analysis problem through joint embeddings. Results are marginally yielding SOTA.
翻訳日:2021-11-18 09:33:58 公開日:2021-11-13
# (参考訳) UAVのインターネットのネットワーク化 : 課題とインテリジェントアプローチ [全文訳有]

Networking of Internet of UAVs: Challenges and Intelligent Approaches ( http://arxiv.org/abs/2111.07078v1 )

ライセンス: CC BY 4.0
Peng Yang, Xianbin Cao, Tony Q. S. Quek, and Dapeng Oliver Wu(参考訳) 無人航空機(I-UAV)ネットワークのインターネットは、UAV間の効果的な協力を通じて、迅速な、堅牢かつ費用対効果の高いセンシングおよび送信タスクを実現することを約束する。 有望な利益を得るためには、重要なI-UAVネットワークの問題に取り組む必要がある。 本稿では,i-uavネットワークをqos(quality-of-servi ce)駆動型ネットワーク,qoe(quality-of-expe rience)駆動型ネットワーク,状況対応型ネットワークの3つのカテゴリに分類する。 ネットワークの各カテゴリは、I-UAVミッションの安全かつ効率的な達成に深刻な影響を与える、新たな課題を提起している。 本稿では、これらの課題を詳細に分析し、I-UAVネットワーク問題に取り組むための対応するインテリジェントアプローチについて解説する。 さらに、高高度プラットフォーム(HAP)との協調によるI-UAVネットワークのスケーラビリティ向上効果を考慮し、統合されたHAPおよびI-UAVネットワークの概要と、それに対応するネットワーク課題とインテリジェントアプローチについて述べる。

Internet of unmanned aerial vehicle (I-UAV) networks promise to accomplish sensing and transmission tasks quickly, robustly, and cost-efficiently via effective cooperation among UAVs. To achieve the promising benefits, the crucial I-UAV networking issue should be tackled. This article argues that I-UAV networking can be classified into three categories, quality-of-service (QoS) driven networking, quality-of-experienc e (QoE) driven networking, and situation aware networking. Each category of networking poses emerging challenges which have severe effects on the safe and efficient accomplishment of I-UAV missions. This article elaborately analyzes these challenges and expounds on the corresponding intelligent approaches to tackle the I-UAV networking issue. Besides, considering the uplifting effect of extending the scalability of I-UAV networks through cooperating with high altitude platforms (HAPs), this article gives an overview of the integrated HAP and I-UAV networks and presents the corresponding networking challenges and intelligent approaches.
翻訳日:2021-11-18 09:30:56 公開日:2021-11-13
# (参考訳) d^2lv: 画像コピー検出のためのデータ駆動および局所検証手法 [全文訳有]

D^2LV: A Data-Driven and Local-Verification Approach for Image Copy Detection ( http://arxiv.org/abs/2111.07090v1 )

ライセンス: CC BY 4.0
Wenhao Wang, Yifan Sun, Weipu Zhang, Yi Yang(参考訳) 画像コピー検出は、実生活のソーシャルメディアにおいて非常に重要である。 本稿では、NeurIPS'21における画像類似性チャレンジ:マッチングトラックと競合するデータ駆動局所検証(D^2LV)手法を提案する。 d^2lvでは、教師なし事前訓練は教師なしのものと置き換えられる。 トレーニングでは,基本および6つの高度な変換セットを設計し,シンプルだが効果的なベースラインが堅牢な表現を学習する。 テスト中、グローバルローカルおよびローカルグローバルマッチング戦略が提案されている。 この戦略は参照画像とクエリ画像の局所的検証を行う。 提案手法が有効であることを示す実験を行った。 提案されたアプローチは、Facebook AI Image similarity Challenge: Matching Trackで1,103人中1位である。 コードとトレーニングされたモデルはhttps://github.com/W angWenhao0716/ISC-Tr ack1-Submissionで公開されている。

Image copy detection is of great importance in real-life social media. In this paper, a data-driven and local-verification (D^2LV) approach is proposed to compete for Image Similarity Challenge: Matching Track at NeurIPS'21. In D^2LV, unsupervised pre-training substitutes the commonly-used supervised one. When training, we design a set of basic and six advanced transformations, and a simple but effective baseline learns robust representation. During testing, a global-local and local-global matching strategy is proposed. The strategy performs local-verification between reference and query images. Experiments demonstrate that the proposed method is effective. The proposed approach ranks first out of 1,103 participants on the Facebook AI Image Similarity Challenge: Matching Track. The code and trained models are available at https://github.com/W angWenhao0716/ISC-Tr ack1-Submission.
翻訳日:2021-11-18 09:16:06 公開日:2021-11-13
# (参考訳) 古典的特徴選択と量子インスパイアされた次元削減法と合わせて、新しい重み付け方式とスペクトル時間特徴を持つ深部スパースオートエンコーダ極端学習機を用いた音声感情認識

Speech Emotion Recognition Using Deep Sparse Auto-Encoder Extreme Learning Machine with a New Weighting Scheme and Spectro-Temporal Features Along with Classical Feature Selection and A New Quantum-Inspired Dimension Reduction Method ( http://arxiv.org/abs/2111.07094v1 )

ライセンス: CC BY 4.0
Fatemeh Daneshfar, Seyed Jahanshah Kabudian(参考訳) 情緒的コンピューティングは人間と機械の関係において非常に重要である。 本稿では,音声信号に基づく音声感情認識(ser)システムを提案する。 このシステムは、特徴抽出、特徴選択、最後に特徴分類の3段階からなる。 第1段階では、韻律、スペクトル、スペクトル・時間的特徴など、新しく多様な特徴を組み合わせることにより、音声信号と声門波形信号の両方から、長期統計特徴の複雑な集合を抽出する。 SERシステムの課題の1つは、相関感情を区別することである。 これらの特徴は、音声の感情を識別し、類似した感情と異なる感情を認識できるSERの能力を高める。 この多数の次元を持つ特徴ベクトルは自然に冗長性を持つ。 第2段階では、古典的特徴選択技術と、特徴ベクトル次元を減少させる新しい量子インスピレーション技術を用いて、特徴ベクトル次元の数を減少させる。 第3段階では、最適化された特徴ベクトルは重み付き深絞り極端学習機械(ELM)分類器によって分類される。 分類器は、スパースランダム特徴学習、特異値分解(SVD)技術を用いた直交ランダム投影、一般化されたチコノフ正規化手法を用いた最終段階における識別的分類の3段階で分類を行う。 また、既存の感情データセットの多くは、データ不均衡分布の問題に悩まされており、それによって分類エラーが増加し、システム性能が低下する。 本稿では,既存の重み付け法よりも効率的なクラス不均衡に対処するための新しい重み付け法を提案する。 提案手法は3種類の感情データベースを用いて評価した。

Affective computing is very important in the relationship between man and machine. In this paper, a system for speech emotion recognition (SER) based on speech signal is proposed, which uses new techniques in different stages of processing. The system consists of three stages: feature extraction, feature selection, and finally feature classification. In the first stage, a complex set of long-term statistics features is extracted from both the speech signal and the glottal-waveform signal using a combination of new and diverse features such as prosodic, spectral, and spectro-temporal features. One of the challenges of the SER systems is to distinguish correlated emotions. These features are good discriminators for speech emotions and increase the SER's ability to recognize similar and different emotions. This feature vector with a large number of dimensions naturally has redundancy. In the second stage, using classical feature selection techniques as well as a new quantum-inspired technique to reduce the feature vector dimensionality, the number of feature vector dimensions is reduced. In the third stage, the optimized feature vector is classified by a weighted deep sparse extreme learning machine (ELM) classifier. The classifier performs classification in three steps: sparse random feature learning, orthogonal random projection using the singular value decomposition (SVD) technique, and discriminative classification in the last step using the generalized Tikhonov regularization technique. Also, many existing emotional datasets suffer from the problem of data imbalanced distribution, which in turn increases the classification error and decreases system performance. In this paper, a new weighting method has also been proposed to deal with class imbalance, which is more efficient than existing weighting methods. The proposed method is evaluated on three standard emotional databases.
翻訳日:2021-11-18 09:05:29 公開日:2021-11-13
# (参考訳) 平面およびクロスポーラライズサンドストーンフォトマイクログラフの自動粒界セグメンテーションのためのディープニューラルネットワーク [全文訳有]

Deep Neural Networks for Automatic Grain-matrix Segmentation in Plane and Cross-polarized Sandstone Photomicrographs ( http://arxiv.org/abs/2111.07102v1 )

ライセンス: CC BY 4.0
Rajdeep Das, Ajoy Mondal, Tapan Chakraborty, and Kuntal Ghosh(参考訳) 薄い部分の周囲マトリックス・セメントから粒を隔てている砂岩の粒分区分は, コンピュータによる鉱物同定と砂岩分類の第一段階である。 砂岩の顕微鏡像は多くの鉱物と周囲のマトリックス・セメントを含んでいる。 隣接する粒とマトリックスの区別はしばしば曖昧であり、粒分別が困難である。 これらの問題に対処するために文献には様々な解が存在するが、砂岩の岩石学の様々なパターンに対して頑健ではない。 本稿では,粒度区分をピクセル単位の2クラス(すなわち粒度と背景)の意味分割タスクとして定式化する。 本研究では,データ駆動型手法であるdeep semantic grain segmentation network (dsgsn) という,ディープラーニングベースのエンドツーエンドトレーニング可能なフレームワークを開発し,汎用的なソリューションを提供する。 著者たちの知識によれば、この研究はディープニューラルネットワークが穀物のセグメンテーション問題を解決するために研究される最初の研究である。 顕微鏡画像に対する広範囲な実験では,パラメータの大きい様々なセグメンテーションアーキテクチャよりも,セグメンテーション精度が向上した。

Grain segmentation of sandstone that is partitioning the grain from its surrounding matrix/cement in the thin section is the primary step for computer-aided mineral identification and sandstone classification. The microscopic images of sandstone contain many mineral grains and their surrounding matrix/cement. The distinction between adjacent grains and the matrix is often ambiguous, making grain segmentation difficult. Various solutions exist in literature to handle these problems; however, they are not robust against sandstone petrography's varied pattern. In this paper, we formulate grain segmentation as a pixel-wise two-class (i.e., grain and background) semantic segmentation task. We develop a deep learning-based end-to-end trainable framework named Deep Semantic Grain Segmentation network (DSGSN), a data-driven method, and provide a generic solution. As per the authors' knowledge, this is the first work where the deep neural network is explored to solve the grain segmentation problem. Extensive experiments on microscopic images highlight that our method obtains better segmentation accuracy than various segmentation architectures with more parameters.
翻訳日:2021-11-18 09:03:33 公開日:2021-11-13
# (参考訳) 時系列予測のためのNystr\"{o}m正規化

Nystr\"{o}m Regularization for Time Series Forecasting ( http://arxiv.org/abs/2111.07109v1 )

ライセンス: CC0 1.0
Zirui Sun, Mingwei Dai, Yao Wang, Shao-Bo Lin(参考訳) 本稿では,$\tau$-mixing 時系列の逐次サブサンプリングによる Nystr\"{o}m 正規化の学習速度解析に焦点を当てた。 最近開発された$\tau$-mixing 列に対する banach-valued bernstein の不等式と、二階分解に基づく積分演算子法を用いて、nystr\"{o}m のほぼ最適学習率を、$\tau$-mixing 時系列の逐次部分サンプリングで導出することに成功している。 大規模時系列データのシーケンシャルサブサンプリングによるNystr\"{o}m正規化の優れた学習性能を示すため,我々の理論的結果を検証するための数値実験を行った。 これらの結果は、Nystr\"{o}m正則化の適用範囲を、i.d.サンプルから非i.d.シーケンスへと拡張する。

This paper focuses on learning rate analysis of Nystr\"{o}m regularization with sequential sub-sampling for $\tau$-mixing time series. Using a recently developed Banach-valued Bernstein inequality for $\tau$-mixing sequences and an integral operator approach based on second-order decomposition, we succeed in deriving almost optimal learning rates of Nystr\"{o}m regularization with sequential sub-sampling for $\tau$-mixing time series. A series of numerical experiments are carried out to verify our theoretical results, showing the excellent learning performance of Nystr\"{o}m regularization with sequential sub-sampling in learning massive time series data. All these results extend the applicable range of Nystr\"{o}m regularization from i.i.d. samples to non-i.i.d. sequences.
翻訳日:2021-11-18 08:48:54 公開日:2021-11-13
# (参考訳) 画像コピー検出のための手技の袋と強固なベースライン [全文訳有]

Bag of Tricks and A Strong baseline for Image Copy Detection ( http://arxiv.org/abs/2111.08004v1 )

ライセンス: CC BY 4.0
Wenhao Wang, Weipu Zhang, Yifan Sun, Yi Yang(参考訳) 画像コピー検出は、実生活のソーシャルメディアにおいて非常に重要である。 本稿では,画像コピー検出のために,トリックの袋と強力なベースラインを提案する。 教師なしの事前訓練は、一般的に使用される教師なしの訓練に置き換えられる。 さらに、異なるクエリのスコアを安定化するための記述子ストレッチ戦略を設計する。 提案手法が有効であることを示す実験を行った。 提案されたベースラインは、Facebook AI Image similarity Challenge: Descriptor Trackの参加者526人中3位である。 コードとトレーニングされたモデルはhttps://github.com/W angWenhao0716/ISC-Tr ack2-Submissionで公開されている。

Image copy detection is of great importance in real-life social media. In this paper, a bag of tricks and a strong baseline are proposed for image copy detection. Unsupervised pre-training substitutes the commonly-used supervised one. Beyond that, we design a descriptor stretching strategy to stabilize the scores of different queries. Experiments demonstrate that the proposed method is effective. The proposed baseline ranks third out of 526 participants on the Facebook AI Image Similarity Challenge: Descriptor Track. The code and trained models are available at https://github.com/W angWenhao0716/ISC-Tr ack2-Submission.
翻訳日:2021-11-18 08:47:52 公開日:2021-11-13
# (参考訳) 自然言語の推論とパラフレーズによるパラフレーズの抽出とフィルタリング [全文訳有]

Extracting and filtering paraphrases by bridging natural language inference and paraphrasing ( http://arxiv.org/abs/2111.07119v1 )

ライセンス: CC BY 4.0
Matej Klemen, Marko Robnik-\v{S}ikonja(参考訳) パラフレージングは、より多様な生成または翻訳されたテキストに寄与できる有用な自然言語処理タスクである。 自然言語推論(NLI)とパラフレージングはいくつかの類似点を共有し、共同アプローチの恩恵を受けることができる。 本研究では,NLIデータセットからパラフレージングデータセットを抽出し,既存のパラフレージングデータセットをクリーニングするための新しい手法を提案する。 提案手法は,2つの文を相互に関連付けることができれば,これらはパラフレーズである。 単言語・クロスリンガル環境では,いくつかの大規模事前学習されたトランスフォーマー言語モデルを用いてアプローチを評価した。 その結果,既存の2つのパラフレージングデータセットにおいて,抽出したパラフレージングデータセットの品質と驚くほど高いノイズレベルが示された。

Paraphrasing is a useful natural language processing task that can contribute to more diverse generated or translated texts. Natural language inference (NLI) and paraphrasing share some similarities and can benefit from a joint approach. We propose a novel methodology for the extraction of paraphrasing datasets from NLI datasets and cleaning existing paraphrasing datasets. Our approach is based on bidirectional entailment; namely, if two sentences can be mutually entailed, they are paraphrases. We evaluate our approach using several large pretrained transformer language models in the monolingual and cross-lingual setting. The results show high quality of extracted paraphrasing datasets and surprisingly high noise levels in two existing paraphrasing datasets.
翻訳日:2021-11-18 08:39:02 公開日:2021-11-13
# マルチセット信号処理とエレクトロニクス

Multiset Signal Processing and Electronics ( http://arxiv.org/abs/2111.08514v1 )

ライセンス: Link先を確認
Luciano da F. Costa(参考訳) 多重集合は、要素の繰り返しを可能にする伝統的な概念の直感的な拡張であり、各要素の数がそれぞれの多重性として理解されるように見える。 最近の実数値関数への多重集合の一般化は、潜在的に負の値を考慮し、電子システムとしてのそれぞれの実装を含む多くの興味深い意味や応用への道を開いた。 基本的な多重集合演算には、集合補集合(符号変更)、交叉(2つの値の最小)、和(2つの値の最大値)、差と和(代数的な値と同一)が含まれる。 機能や信号に適用する場合、符号と結合符号の関数も必要となる。 信号が機能であることを考えると,本研究の目的は,マルチセットおよびマルチファンクション操作をアナログエレクトロニクスに効果的に翻訳できることである。 離散回路と集積回路のいずれにおいても,高性能な自己相関と相互相関が可能な実効マルチセット演算は比較的単純である。 また、ノイズスイッチングの問題についても概説する。 本研究はアナログ電子工学やデジタル電子工学、パターン認識、信号処理、深層学習における応用と関連する開発に大きな可能性を秘めている。

Multisets are an intuitive extension of the traditional concept of sets that allow repetition of elements, with the number of times each element appears being understood as the respective multiplicity. Recent generalizations of multisets to real-valued functions, accounting for possibly negative values, have paved the way to a number of interesting implications and applications, including respective implementations as electronic systems. The basic multiset operations include the set complementation (sign change), intersection (minimum between two values), union (maximum between two values), difference and sum (identical to the algebraic counterparts). When applied to functions or signals, the sign and conjoint sign functions are also required. Given that signals are functions, it becomes possible to effectively translate the multiset and multifunction operations to analog electronics, which is the objective of the present work. It is proposed that effective multiset operations capable of high performance self and cross-correlation can be obtained with relative simplicity in either discrete or integrated circuits. The problem of switching noise is also briefly discussed. The present results have great potential for applications and related developments in analog and digital electronics, as well as for pattern recognition, signal processing, and deep learning.
翻訳日:2021-11-17 16:19:45 公開日:2021-11-13
# 拡張フェデレーション学習による電気自動車ネットワークのエネルギー消費モデル

An Energy Consumption Model for Electrical Vehicle Networks via Extended Federated-learning ( http://arxiv.org/abs/2111.08472v1 )

ライセンス: Link先を確認
Shiliang Zhang(参考訳) 電気自動車(EV)は、エコサステナブル社会を促進するために上昇する。 それでも、EVの'レンジ不安'は、顧客の間で広く受け入れられることを妨げる。 本稿では,車両ネットワークにおけるバッテリー消費を推定し,エネルギー効率の高い経路計画を提供するフェデレーション学習モデルに基づく,距離不安の新たな解決法を提案する。 具体的には、新しいアプローチは連合学習構造を、異常検出と共有ポリシという2つのコンポーネントで拡張する。 第1のコンポーネントは、モデル学習の防止要因を特定し、第2のコンポーネントは、学習効率を維持するために共有が必要な場合に、車両ネットワーク間での情報共有のためのガイドラインを提供する。 この2つのコンポーネントは、ネットワーク内のデータ不均一性に対する学習の堅牢性を高めるために協力する。 数値実験を行い, 提案手法は検討した解と比較して, 時間的複雑さを増すことなく, 異種データ分布下における車両のバッテリ消費推定の精度を向上できることを示した。

Electrical vehicle (EV) raises to promote an eco-sustainable society. Nevertheless, the ``range anxiety'' of EV hinders its wider acceptance among customers. This paper proposes a novel solution to range anxiety based on a federated-learning model, which is capable of estimating battery consumption and providing energy-efficient route planning for vehicle networks. Specifically, the new approach extends the federated-learning structure with two components: anomaly detection and sharing policy. The first component identifies preventing factors in model learning, while the second component offers guidelines for information sharing amongst vehicle networks when the sharing is necessary to preserve learning efficiency. The two components collaborate to enhance learning robustness against data heterogeneities in networks. Numerical experiments are conducted, and the results show that compared with considered solutions, the proposed approach could provide higher accuracy of battery-consumption estimation for vehicles under heterogeneous data distributions, without increasing the time complexity or transmitting raw data among vehicle networks.
翻訳日:2021-11-17 16:15:29 公開日:2021-11-13
# 空間機械学習モデル診断 : モデルに依存しない距離ベースアプローチ

Spatial machine-learning model diagnostics: a model-agnostic distance-based approach ( http://arxiv.org/abs/2111.08478v1 )

ライセンス: Link先を確認
Alexander Brenning(参考訳) ブラックボックス機械学習(ML)モデルの説明には大きな進歩があったが、予測スキルと変数の重要性の観点からMLモデルの空間的振る舞いを解明する診断ツールがまだ存在しない。 本研究では,空間予測モデルに対する新しいモデルに依存しない評価と解釈ツールとして,空間予測誤差プロファイル(SPEP)と空間変数重要プロファイル(SVIP)を提案する。 その適合性は,環境科学的な文脈における地域化タスクと,リモートセンシング土地被覆分類による分類タスクの2つのケーススタディで実証された。 これらのケーススタディでは、統計学的手法、線形モデル、ランダムフォレスト、ハイブリッドアルゴリズムのSPEPとSVIPは、顕著な差異を示すが、関連する類似性も示している。 関係するクロスバリデーション手法の限界を概説し、モデル化者はモデル評価と解釈を意図した空間予測地平線に集中すべきであるとする。 対照的に自己相関の範囲は、空間的クロスバリデーションテストセットを定義するのに適した基準ではない。 この新しい診断ツールは空間データ科学のツールキットを充実させ、MLモデルの解釈、選択、設計を改善する可能性がある。

While significant progress has been made towards explaining black-box machine-learning (ML) models, there is still a distinct lack of diagnostic tools that elucidate the spatial behaviour of ML models in terms of predictive skill and variable importance. This contribution proposes spatial prediction error profiles (SPEPs) and spatial variable importance profiles (SVIPs) as novel model-agnostic assessment and interpretation tools for spatial prediction models with a focus on prediction distance. Their suitability is demonstrated in two case studies representing a regionalization task in an environmental-scienc e context, and a classification task from remotely-sensed land cover classification. In these case studies, the SPEPs and SVIPs of geostatistical methods, linear models, random forest, and hybrid algorithms show striking differences but also relevant similarities. Limitations of related cross-validation techniques are outlined, and the case is made that modelers should focus their model assessment and interpretation on the intended spatial prediction horizon. The range of autocorrelation, in contrast, is not a suitable criterion for defining spatial cross-validation test sets. The novel diagnostic tools enrich the toolkit of spatial data science, and may improve ML model interpretation, selection, and design.
翻訳日:2021-11-17 14:55:43 公開日:2021-11-13
# 一般的な製品ニューロン

Common Product Neurons ( http://arxiv.org/abs/2111.08516v1 )

ライセンス: Link先を確認
Luciano da F. Costa(参考訳) 本研究は,最近導入された実数値jaccardと一致指標と機能関数を用いて,人工ニューロンの性能比較を行った。 内部性指数と古典的相互相関も本研究に含まれる。 After presenting the basic concepts related to multisets and the adopted similarity metrics, including new results about the generalization of the family of real-valued Jaccard and conicidence indices to higher orders, we proceed to studying the response of a single neuron, not taking into account the output non-linearity (e.g.~sigmoid), respectively to the detection of a gaussian stimulus in presence of displacement, magnification, intensity variation, noise and interference from additional patterns. 実数値ジャカードと偶然のアプローチは、内在性指数や古典的相互相関よりもかなり堅牢で効果的である。 偶然に基づくニューロンは、考慮されたデータの種類と摂動に対して最高の全体的な性能を示す。 報告された概念、方法、結果は、パター認識や深層学習だけでなく、神経生物学や神経科学にも重大な影響を及ぼす。

The present work develops a comparative performance of artificial neurons obtained in terms of the recently introduced real-valued Jaccard and coincidence indices and respective functionals. The interiority index and classic cross-correlation are also included in our study. After presenting the basic concepts related to multisets and the adopted similarity metrics, including new results about the generalization of the family of real-valued Jaccard and conicidence indices to higher orders, we proceed to studying the response of a single neuron, not taking into account the output non-linearity (e.g.~sigmoid), respectively to the detection of a gaussian stimulus in presence of displacement, magnification, intensity variation, noise and interference from additional patterns. It is shown that the real-valued Jaccard and coincidence approaches are substantially more robust and effective than the interiority index and the classic cross-correlation. The coincidence based neurons are shown to have the best overall performance for the considered type of data and perturbations. The reported concepts, methods, and results, have substantial implications not only for patter recognition and deep learning, but also regarding neurobiology and neuroscience.
翻訳日:2021-11-17 14:55:05 公開日:2021-11-13
# (参考訳) MC-CIM: ベイジアンエッジインテリジェンスのためのモンテカルロドロップアウトを用いた計算メモリ [全文訳有]

MC-CIM: Compute-in-Memory with Monte-Carlo Dropouts for Bayesian Edge Intelligence ( http://arxiv.org/abs/2111.07125v1 )

ライセンス: CC BY 4.0
Priyesh Shukla, Shamma Nasrin, Nastaran Darabi, Wilfred Gomes, and Amit Ranjan Trivedi(参考訳) 我々は,強靭だが低消費電力,ベイズエッジインテリジェンスのためのCIMフレームワークであるMC-CIMを提案する。 決定論的重みを持つディープニューラルネットワーク(DNN)は、予測の不確実性を表現できないため、手術ロボティクスのような誤予測の結果が致命的なアプリケーションに重大なリスクをもたらす。 この制限に対処するため、ベイジアンによるDNNの推測が注目されている。 ベイズ推論を用いることで、予測自体だけでなく、リスク対応を計画するための予測信頼度も抽出できる。 しかし、DNNのベイジアン推定は計算コストが高く、リアルタイムおよび/またはエッジデプロイメントには適さない。 モンテカルロ・ドロップアウト(MC-Dropout)を用いたベイズDNNの近似は,計算複雑性の低下とともに高いロバスト性を示した。 本手法の計算効率を向上させるために,メモリ内重み入力スカラー製品に加えて,メモリ内確率的ドロップアウトが可能な新しいcimモジュールを提案する。 また, MC-Dropout の計算再利用による再計算も提案する。 さらに、組合せ最適化手法を活用し、ランダムインスタンスを最適に順序付けしてmc-dropout全体のワークロードを最小化する方法についても論じる。 提案したCIMに基づくMC-Dropout実行のMNIST文字認識と自律ドローンの視覚的オドメトリー(VO)への適用について論じる。 この枠組みは、MC-CIMが課した非イデオロギーの中で、確実に予測信頼性を与える。 16x31 SRAMアレイ、0.85Vサプライ、16nm低待機電力(LSTP)技術が提案されたMC-CIMは、最も最適な計算と周辺構成における確率的推論の27.8 pJを消費し、典型的な実行に比べて43%のエネルギーを節約している。

We propose MC-CIM, a compute-in-memory (CIM) framework for robust, yet low power, Bayesian edge intelligence. Deep neural networks (DNN) with deterministic weights cannot express their prediction uncertainties, thereby pose critical risks for applications where the consequences of mispredictions are fatal such as surgical robotics. To address this limitation, Bayesian inference of a DNN has gained attention. Using Bayesian inference, not only the prediction itself, but the prediction confidence can also be extracted for planning risk-aware actions. However, Bayesian inference of a DNN is computationally expensive, ill-suited for real-time and/or edge deployment. An approximation to Bayesian DNN using Monte Carlo Dropout (MC-Dropout) has shown high robustness along with low computational complexity. Enhancing the computational efficiency of the method, we discuss a novel CIM module that can perform in-memory probabilistic dropout in addition to in-memory weight-input scalar product to support the method. We also propose a compute-reuse reformulation of MC-Dropout where each successive instance can utilize the product-sum computations from the previous iteration. Even more, we discuss how the random instances can be optimally ordered to minimize the overall MC-Dropout workload by exploiting combinatorial optimization methods. Application of the proposed CIM-based MC-Dropout execution is discussed for MNIST character recognition and visual odometry (VO) of autonomous drones. The framework reliably gives prediction confidence amidst non-idealities imposed by MC-CIM to a good extent. Proposed MC-CIM with 16x31 SRAM array, 0.85 V supply, 16nm low-standby power (LSTP) technology consumes 27.8 pJ for 30 MC-Dropout instances of probabilistic inference in its most optimal computing and peripheral configuration, saving 43% energy compared to typical execution.
翻訳日:2021-11-17 13:25:02 公開日:2021-11-13
# (参考訳) 文書画像からの複雑な表構造の視覚的理解 [全文訳有]

Visual Understanding of Complex Table Structures from Document Images ( http://arxiv.org/abs/2111.07129v1 )

ライセンス: CC BY 4.0
Sachin Raja, Ajoy Mondal, and C V Jawahar(参考訳) 文書の包括的理解には表構造認識が必要である。 非構造化ビジネスドキュメントのテーブルは、レイアウトの多様性、コンテンツのアライメントの相違、空のセルの存在などにより、解析が困難である。 この問題は、視覚的または言語的文脈または両方を用いて個々の細胞を特定することの難しさのため、特に難しい。 テーブル細胞(空の細胞を含む)の正確な検出は構造抽出を単純化し、これが我々の研究の焦点となる。 本稿では,テーブル内のセル固有のアライメントを抽出し,高速な最適化を実現するオブジェクト検出に基づく新しいディープモデルを提案する。 細胞を正確に検出しているにもかかわらず、多列/カラムスパンニング細胞の存在下での長距離行/カラム依存性の捕捉が困難であるため、高密度テーブルの構造を認識することは依然として困難である。 そこで我々は,新しい線形グラフに基づく定式化による構造認識の向上も目指している。 セマンティクスの観点からは、テーブル内の空のセルの重要性を強調する。 これらの細胞を考慮に入れた上で,評価基準の強化を提案する。 最後に,人間の認識にインスパイアされたアノテーション型評価データセットを導入し,この問題に対する新たなアプローチを提案する。 我々のフレームワークは、ベンチマークデータセットの平均F1スコアを2.7%改善する。

Table structure recognition is necessary for a comprehensive understanding of documents. Tables in unstructured business documents are tough to parse due to the high diversity of layouts, varying alignments of contents, and the presence of empty cells. The problem is particularly difficult because of challenges in identifying individual cells using visual or linguistic contexts or both. Accurate detection of table cells (including empty cells) simplifies structure extraction and hence, it becomes the prime focus of our work. We propose a novel object-detection-bas ed deep model that captures the inherent alignments of cells within tables and is fine-tuned for fast optimization. Despite accurate detection of cells, recognizing structures for dense tables may still be challenging because of difficulties in capturing long-range row/column dependencies in presence of multi-row/column spanning cells. Therefore, we also aim to improve structure recognition by deducing a novel rectilinear graph-based formulation. From a semantics perspective, we highlight the significance of empty cells in a table. To take these cells into account, we suggest an enhancement to a popular evaluation criterion. Finally, we introduce a modestly sized evaluation dataset with an annotation style inspired by human cognition to encourage new approaches to the problem. Our framework improves the previous state-of-the-art performance by a 2.7% average F1-score on benchmark datasets.
翻訳日:2021-11-17 13:04:30 公開日:2021-11-13
# (参考訳) ニューラル・アーキテクチャ・サーチにおける一発探索空間中毒に向けて [全文訳有]

Towards One Shot Search Space Poisoning in Neural Architecture Search ( http://arxiv.org/abs/2111.07138v1 )

ライセンス: CC BY 4.0
Nayan Saxena, Robert Wu and Rohan Jain(参考訳) ニューラルネットワーク探索(NAS)アルゴリズムであるENAS(Efficient NAS)の,探索空間へのデータ非依存的中毒攻撃に対するロバスト性を,慎重に設計された非効率な操作で評価する。 我々は、ENASコントローラの設計上の欠陥を利用して、分類タスクにおける予測性能を低下させる手法を実証的に実証した。 検索空間に2つの毒素処理を注入することで、cifar-10データセット上の子ネットワークの予測エラー率を最大90%まで膨らませる。

We evaluate the robustness of a Neural Architecture Search (NAS) algorithm known as Efficient NAS (ENAS) against data agnostic poisoning attacks on the original search space with carefully designed ineffective operations. We empirically demonstrate how our one shot search space poisoning approach exploits design flaws in the ENAS controller to degrade predictive performance on classification tasks. With just two poisoning operations injected into the search space, we inflate prediction error rates for child networks upto 90% on the CIFAR-10 dataset.
翻訳日:2021-11-17 12:51:01 公開日:2021-11-13
# (参考訳) 複雑な環境下における物体追跡のための新しい性能対策 [全文訳有]

New Performance Measures for Object Tracking under Complex Environments ( http://arxiv.org/abs/2111.07145v1 )

ライセンス: CC BY 4.0
Ajoy Mondal(参考訳) 改良された追跡アルゴリズムの品質を評価するために, 基礎的真理と基礎的真理を含まない様々な性能測定方法が存在する。 既存の一般的な測度 - 平均中心位置誤差 (ACLE) と平均追跡精度 (ATA) は、ある複雑な環境下でオブジェクトを追跡するために開発されたアルゴリズムの品質を定量化するために混乱を引き起こすことがある。 本稿では,このような複雑な環境下での追跡アルゴリズムの質を評価するために,地中真理情報に基づく3つの新しい補助的性能指標を提案する。 さらに,ACLEとATAの2つの既存手法と,そのような複雑な条件下での追跡アルゴリズムの定量化のための3つの新しい手法を組み合わせることで,一つの性能測定法を開発した。 いくつかの例と実験の結果は、このような複雑な環境下でオブジェクトを追跡するための1つのアルゴリズムを定量化するための既存の手法よりも良いと結論づけている。

Various performance measures based on the ground truth and without ground truth exist to evaluate the quality of a developed tracking algorithm. The existing popular measures - average center location error (ACLE) and average tracking accuracy (ATA) based on ground truth, may sometimes create confusion to quantify the quality of a developed algorithm for tracking an object under some complex environments (e.g., scaled or oriented or both scaled and oriented object). In this article, we propose three new auxiliary performance measures based on ground truth information to evaluate the quality of a developed tracking algorithm under such complex environments. Moreover, one performance measure is developed by combining both two existing measures ACLE and ATA and three new proposed measures for better quantifying the developed tracking algorithm under such complex conditions. Some examples and experimental results conclude that the proposed measure is better than existing measures to quantify one developed algorithm for tracking objects under such complex environments.
翻訳日:2021-11-17 12:44:57 公開日:2021-11-13
# (参考訳) SocialBERT -- オンラインソーシャルネットワーク言語モデリング用トランスフォーマー [全文訳有]

SocialBERT -- Transformers for Online SocialNetwork Language Modelling ( http://arxiv.org/abs/2111.07148v1 )

ライセンス: CC BY 4.0
Ilia Karpov and Nick Kartashev(参考訳) 現代言語理解タスクのユビキタスさは、データソースが提供するすべての知識を利用する汎用的かつ高効率なモデルの開発に関係している。 本研究では,テキスト分析中に著者のネットワークにおける位置に関する知識を利用する最初のモデルであるSocialBERを提案する。 ソーシャルネットワーク情報を学習するためのモデルについて検討し,ベースラインBERTモデルへのインジェクトに成功した。 評価の結果、この情報を埋め込むことは、与えられた著者の確率モデルの品質を7.5%まで向上させ、優れた一般化を維持していることが示された。 提案したモデルは、選択されたソーシャルネットワークの大多数のグループでトレーニングされており、これまで未知のグループで作業することが可能である。 得られたモデルは、実験のコードと同様に、適用されたタスクでダウンロードおよび使用することができる。

The ubiquity of the contemporary language understanding tasks gives relevance to the development of generalized, yet highly efficient models that utilize all knowledge, provided by the data source. In this work, we present SocialBERT - the first model that uses knowledge about the author's position in the network during text analysis. We investigate possible models for learning social network information and successfully inject it into the baseline BERT model. The evaluation shows that embedding this information maintains a good generalization, with an increase in the quality of the probabilistic model for the given author up to 7.5%. The proposed model has been trained on the majority of groups for the chosen social network, and still able to work with previously unknown groups. The obtained model, as well as the code of our experiments, is available for download and use in applied tasks.
翻訳日:2021-11-17 12:31:36 公開日:2021-11-13
# (参考訳) 根尖部X線撮影における新しいアプローチ [全文訳有]

Developing a Novel Approach for Periapical Dental Radiographs Segmentation ( http://arxiv.org/abs/2111.07156v1 )

ライセンス: CC BY 4.0
Elaheh Hatami Majoumerd, Farshad Tajeripour(参考訳) 画像処理技術は、ヒトの識別や法医学的歯学、歯番号、歯列検出、歯周病解析などの歯科研究に広く用いられている。 歯科画像の最も難しい部分の1つは、歯のセグメンテーションと、歯を分離する方法である。 そこで本研究では, 歯根欠損歯を少なくとも1本含む根尖部x線画像の自動分割法を提案する。 このアプローチの結果は、骨病変検出の初期段階として利用することができる。 提案アルゴリズムは2段階からなる。 第1段階は前処理である。 このアルゴリズムの第2部と主部は回転度を計算し、歯の分離に積分投影法を用いる。 実験の結果, このアルゴリズムは頑健であり, 精度が向上した。

Image processing techniques has been widely used in dental researches such as human identification and forensic dentistry, teeth numbering, dental carries detection and periodontal disease analysis. One of the most challenging parts in dental imaging is teeth segmentation and how to separate them from each other. In this paper, an automated method for teeth segmentation of Periapical dental x-ray images which contain at least one root-canalled tooth is proposed. The result of this approach can be used as an initial step in bone lesion detection. The proposed algorithm is made of two stages. The first stage is pre-processing. The second and main part of this algorithm calculated rotation degree and uses the integral projection method for tooth isolation. Experimental results show that this algorithm is robust and achieves high accuracy.
翻訳日:2021-11-17 12:19:51 公開日:2021-11-13
# (参考訳) 高次元カーネル法における学習ダイナミクスの3段階

The Three Stages of Learning Dynamics in High-Dimensional Kernel Methods ( http://arxiv.org/abs/2111.07167v1 )

ライセンス: CC BY 4.0
Nikhil Ghosh, Song Mei, Bin Yu(参考訳) ディープラーニングの仕組みを理解するためには,ニューラルネットワークのトレーニングダイナミクスを理解することが重要である。 これらの力学に関するいくつかの興味深い仮説は、経験的に観察された現象に基づいているが、そのような現象がいつ、なぜ起こるのかに関する理論的な理解は限られている。 本稿では,sgd学習ニューラルネットワークの限界ダイナミクスであるカーネル最小二乗対象における勾配流れの学習ダイナミクスについて考察する。 精度の高い高次元の漸近的手法を用いて、適合したモデルのダイナミクスを2つの「世界」で特徴づける: オラクルワールドでは、モデルは人口分布に基づいて訓練され、実証ワールドでは、モデルはサンプルデータセットで訓練される。 カーネル上の穏やかな条件と$l^2$目標回帰関数の下では、トレーニングダイナミクスは2つの世界のモデルの振る舞いによって特徴づけられる3つの段階を示す。 我々の理論的結果は、興味深い深層学習現象を数学的に定式化する。 具体的には、sgdがより複雑な関数を徐々に学習し、「ディープブートストラップ」現象があることを示し、第2段階では、経験的トレーニングエラーがはるかに小さいにもかかわらず、両世界のテストエラーは近いままである。 最後に、2つの異なるカーネルのダイナミクスを比較し、より高速なトレーニングはより良い一般化には必要ないことを示す具体例を示す。

To understand how deep learning works, it is crucial to understand the training dynamics of neural networks. Several interesting hypotheses about these dynamics have been made based on empirically observed phenomena, but there exists a limited theoretical understanding of when and why such phenomena occur. In this paper, we consider the training dynamics of gradient flow on kernel least-squares objectives, which is a limiting dynamics of SGD trained neural networks. Using precise high-dimensional asymptotics, we characterize the dynamics of the fitted model in two "worlds": in the Oracle World the model is trained on the population distribution and in the Empirical World the model is trained on a sampled dataset. We show that under mild conditions on the kernel and $L^2$ target regression function the training dynamics undergo three stages characterized by the behaviors of the models in the two worlds. Our theoretical results also mathematically formalize some interesting deep learning phenomena. Specifically, in our setting we show that SGD progressively learns more complex functions and that there is a "deep bootstrap" phenomenon: during the second stage, the test error of both worlds remain close despite the empirical training error being much smaller. Finally, we give a concrete example comparing the dynamics of two different kernels which shows that faster training is not necessary for better generalization.
翻訳日:2021-11-17 12:12:57 公開日:2021-11-13
# (参考訳) クロスモーダルコントラスト学習による接地言語による説明可能な意味空間

Explainable Semantic Space by Grounding Language to Vision with Cross-Modal Contrastive Learning ( http://arxiv.org/abs/2111.07180v1 )

ライセンス: CC BY 4.0
Yizhen Zhang, Minkyu Choi, Kuan Han, Zhongming Liu(参考訳) 自然言語処理では、ほとんどのモデルはテキストからのみ意味表現を学習しようとする。 学習された表現は分布的意味論を符号化するが、物理世界に関する知識に繋がることができない。 対照的に、人間は知覚と行動の概念を基礎づけることで言語を学び、脳は認識のための基底的意味論を符号化する。 この概念と近年の視覚言語学習の研究に触発されて、視覚における言語学習を基礎付けるための2ストリームモデルを構築した。 このモデルはvggベースのビジュアルストリームとbertベースの言語ストリームを含んでいる。 2つの流れは結合表現空間に合流する。 クロスモーダルなコントラスト学習を通じて、モデルはまず、視覚的および言語表現とMS COCOデータセットとの整合性を学ぶ。 モデルはさらに、クロスモーダルアテンションモジュールを介して言語クエリを持つ視覚オブジェクトを検索し、視覚ゲノムデータセットと双線型演算子を介して検索されたオブジェクト間の視覚関係を推測する。 トレーニング後、このモデルの言語ストリームは、視覚的に接地した意味空間に概念を埋め込むことができるスタンドアロン言語モデルである。 この意味空間は人間の直観と神経生物学的知識で説明できる主次元を示す。 この意味空間における単語の埋め込みは、人間の定義した意味的特徴のノルムを予測し、知覚的に特有のクラスタに分離される。 さらに,視覚的接地言語モデルでは,視覚知識に基づく合成言語理解と,画像やテキスト,それらの組み合わせに基づくクエリを用いたマルチモーダル画像検索を可能にする。

In natural language processing, most models try to learn semantic representations merely from texts. The learned representations encode the distributional semantics but fail to connect to any knowledge about the physical world. In contrast, humans learn language by grounding concepts in perception and action and the brain encodes grounded semantics for cognition. Inspired by this notion and recent work in vision-language learning, we design a two-stream model for grounding language learning in vision. The model includes a VGG-based visual stream and a Bert-based language stream. The two streams merge into a joint representational space. Through cross-modal contrastive learning, the model first learns to align visual and language representations with the MS COCO dataset. The model further learns to retrieve visual objects with language queries through a cross-modal attention module and to infer the visual relations between the retrieved objects through a bilinear operator with the Visual Genome dataset. After training, the language stream of this model is a stand-alone language model capable of embedding concepts in a visually grounded semantic space. This semantic space manifests principal dimensions explainable with human intuition and neurobiological knowledge. Word embeddings in this semantic space are predictive of human-defined norms of semantic features and are segregated into perceptually distinctive clusters. Furthermore, the visually grounded language model also enables compositional language understanding based on visual knowledge and multimodal image search with queries based on images, texts, or their combinations.
翻訳日:2021-11-17 12:11:55 公開日:2021-11-13
# (参考訳) 連続時間系列のための学習ニューラルモデル [全文訳有]

Learning Neural Models for Continuous-Time Sequences ( http://arxiv.org/abs/2111.07189v1 )

ライセンス: CC BY 4.0
Vinayak Gupta(参考訳) オンライン購入、健康記録、空間移動などの人間の活動によって生成される大量のデータは、連続して連続するイベントのシーケンスとして記憶される。 このようなシーケンス上でディープラーニングの方法を学ぶことは、イベントタイムスタンプ、イベント間時間ギャップ、イベントタイプ、イベント間の影響を、異なるシーケンス内および異なるシーケンス間でモデル化する、非常に簡単なタスクです。 この状況は、制限されたデータ、不完全なシーケンス、プライバシー制限など、データ収集に関連する制約によってさらに悪化する。 本稿では,本研究の方向性として,連続時間イベントシーケンス(cte)の特性を考察し,前述の問題を克服するために頑健でスケーラブルなニューラルネットワークモデルを設計することを目的とする。 本研究では,mtpp(marked temporal point process)を用いてイベントの生成分布をモデル化し,実世界の幅広い問題に対処する。 さらに,最先端のベースラインに対する提案手法の有効性を強調し,今後の研究課題を報告する。

The large volumes of data generated by human activities such as online purchases, health records, spatial mobility etc. are stored as a sequence of events over a continuous time. Learning deep learning methods over such sequences is a non-trivial task as it involves modeling the ever-increasing event timestamps, inter-event time gaps, event types, and the influences between events -- within and across different sequences. This situation is further exacerbated by the constraints associated with data collection e.g. limited data, incomplete sequences, privacy restrictions etc. With the research direction described in this work, we aim to study the properties of continuous-time event sequences (CTES) and design robust yet scalable neural network-based models to overcome the aforementioned problems. In this work, we model the underlying generative distribution of events using marked temporal point processes (MTPP) to address a wide range of real-world problems. Moreover, we highlight the efficacy of the proposed approaches over the state-of-the-art baselines and later report the ongoing research problems.
翻訳日:2021-11-17 12:10:36 公開日:2021-11-13
# (参考訳) physxnet: 服装者の学習クロスダイナミクスのためのカスタマイズ可能なアプローチ [全文訳有]

PhysXNet: A Customizable Approach for LearningCloth Dynamics on Dressed People ( http://arxiv.org/abs/2111.07195v1 )

ライセンス: CC BY 4.0
Jordi Sanchez-Riera, Albert Pumarola and Francesc Moreno-Noguer(参考訳) physxnetは,ヒトの3dスケルトン運動シーケンスから変形可能な衣服のダイナミックスを予測するための学習ベースの手法である。 提案手法は, 様々な衣服に適応し, トポロジを変えることができるが, 再訓練は不要である。 このようなシミュレーションは通常、手動の人間の専門知識を必要とする物理エンジンによって行われ、計算集約的な計算の対象となる。 対照的にphysxnetは、完全に微分可能なディープネットワークであり、推論によってミリ秒単位で密度の高い布のメッシュの形状を推定できるため、より大きなディープラーニングアーキテクチャのレイヤとして容易にデプロイすることができる。 この効率は、空間的衣服変位をエンコードした3次元uvマップに基づいて、我々が検討する衣服の特定のパラメータ化によって達成される。 この問題は、人間の体操空間(無装身メッシュの3次元UVマップで表される)と衣服変位UVマップとのマッピングとして定式化され、実測可能な変形を強制する判別器を用いた条件付きGANを用いて学習する。 我々は、50種類の人間の行動の下で変形をシミュレートする3つの衣服テンプレート、トップ、ボトム、ドレスを同時にトレーニングする。 それにもかかわらず、我々が検討するuvマップ表現は、多くの異なる布のトポロジをカプセル化することができ、テストでは、特別なトレーニングを行わなくても、衣料品をシミュレートすることができる。 PhysXNetは物理エンジンで計算されたものに非常に近い布の変形をもたらし、ディープラーニングパイプラインに効率的に組み込むための扉を開く。

We introduce PhysXNet, a learning-based approach to predict the dynamics of deformable clothes given 3D skeleton motion sequences of humans wearing these clothes. The proposed model is adaptable to a large variety of garments and changing topologies, without need of being retrained. Such simulations are typically carried out by physics engines that require manual human expertise and are subjectto computationally intensive computations. PhysXNet, by contrast, is a fully differentiable deep network that at inference is able to estimate the geometry of dense cloth meshes in a matter of milliseconds, and thus, can be readily deployed as a layer of a larger deep learning architecture. This efficiency is achieved thanks to the specific parameterization of the clothes we consider, based on 3D UV maps encoding spatial garment displacements. The problem is then formulated as a mapping between the human kinematics space (represented also by 3D UV maps of the undressed body mesh) into the clothes displacement UV maps, which we learn using a conditional GAN with a discriminator that enforces feasible deformations. We train simultaneously our model for three garment templates, tops, bottoms and dresses for which we simulate deformations under 50 different human actions. Nevertheless, the UV map representation we consider allows encapsulating many different cloth topologies, and at test we can simulate garments even if we did not specifically train for them. A thorough evaluation demonstrates that PhysXNet delivers cloth deformations very close to those computed with the physical engine, opening the door to be effectively integrated within deeplearning pipelines.
翻訳日:2021-11-17 11:42:48 公開日:2021-11-13
# BinSketch を用いたカテゴリーデータの効率的なバイナリ埋め込み

Efficient Binary Embedding of Categorical Data using BinSketch ( http://arxiv.org/abs/2111.07163v1 )

ライセンス: Link先を確認
Bhisham Dev Verma and Rameshwar Pratap and Debajyoti Bera(参考訳) 本研究では,次元還元アルゴリズム,akaについて述べる。 分類的データセットのスケッチです 提案したスケッチアルゴリズムであるCabinは高次元のカテゴリベクトルから低次元のバイナリスケッチを構築し,距離推定アルゴリズムであるChamはスケッチからのみ2つの元のベクトル間のハミング距離の近似を計算する。 適切な見積もりを理論的に保証するためにchamが要求するスケッチの最小次元は、データポイントのスパース性のみに依存するため、スパースデータセットを含む多くの現実シナリオで有用である。 我々は,本手法の厳密な理論的解析を行い,100万以上の次元を含む複数の高次元実世界のデータセットに関する広範な実験を行った。 cabinとcham duoは、rmse、all-pairsの類似性、クラスタリングといったタスクに対して、完全なデータセットや他の次元の削減技術と比べ、非常に高速で正確なアプローチであることを示している。

In this work, we present a dimensionality reduction algorithm, aka. sketching, for categorical datasets. Our proposed sketching algorithm Cabin constructs low-dimensional binary sketches from high-dimensional categorical vectors, and our distance estimation algorithm Cham computes a close approximation of the Hamming distance between any two original vectors only from their sketches. The minimum dimension of the sketches required by Cham to ensure a good estimation theoretically depends only on the sparsity of the data points - making it useful for many real-life scenarios involving sparse datasets. We present a rigorous theoretical analysis of our approach and supplement it with extensive experiments on several high-dimensional real-world data sets, including one with over a million dimensions. We show that the Cabin and Cham duo is a significantly fast and accurate approach for tasks such as RMSE, all-pairs similarity, and clustering when compared to working with the full dataset and other dimensionality reduction techniques.
翻訳日:2021-11-16 17:56:20 公開日:2021-11-13
# 高校生への変分オートエンコーダの導入

Introducing Variational Autoencoders to High School Students ( http://arxiv.org/abs/2111.07036v1 )

ライセンス: Link先を確認
Zhuoyue Lyu, Safinah Ali, Cynthia Breazeal(参考訳) 生成人工知能(AI)モデルは、芸術媒体を用いて、K-12の学生をAI教育に導入する魅力的な方法であり、それゆえ、K-12のAI教育者から注目を集めている。 これまでのcreative aiのカリキュラムは、主にgan(generative adversarial network)に重点を置いていたが、それ以来ジェネレーティブaiの分野で一般的になっている、自己回帰モデル、変分オートエンコーダ(mutational autoencoder、vaes)、その他の生成モデルにはあまり注意を払っていない。 VAEsの潜在空間構造と補間能力は、AI、創造芸術、哲学の学際的学習を効果的に基礎づけることができる。 そこで我々は,高校生にVAEについて教える授業を設計した。 我々はWebベースのゲームを開発し、哲学的な比喩であるPlatoの洞窟を使って、VAEの仕組みを紹介した。 学生はGoogle Colabのノートブックを使って、手書きの数字でVAEを訓練して理解を深めました。 最後に、SketchRNNやMusicVAEといったクリエイティブなVAEツールの探索をガイドし、彼らが学んだことと現実世界のアプリケーションとのつながりを描きました。 本論文は,22名の学生を対象に,パイロット研究から得られた知見と授業設計について述べる。 我々のアプローチは、学生に新しいAI概念を教えるのに効果的であることがわかった。

Generative Artificial Intelligence (AI) models are a compelling way to introduce K-12 students to AI education using an artistic medium, and hence have drawn attention from K-12 AI educators. Previous Creative AI curricula mainly focus on Generative Adversarial Networks (GANs) while paying less attention to Autoregressive Models, Variational Autoencoders (VAEs), or other generative models, which have since become common in the field of generative AI. VAEs' latent-space structure and interpolation ability could effectively ground the interdisciplinary learning of AI, creative arts, and philosophy. Thus, we designed a lesson to teach high school students about VAEs. We developed a web-based game and used Plato's cave, a philosophical metaphor, to introduce how VAEs work. We used a Google Colab notebook for students to re-train VAEs with their hand-written digits to consolidate their understandings. Finally, we guided the exploration of creative VAE tools such as SketchRNN and MusicVAE to draw the connection between what they learned and real-world applications. This paper describes the lesson design and shares insights from the pilot studies with 22 students. We found that our approach was effective in teaching students about a novel AI concept.
翻訳日:2021-11-16 17:53:15 公開日:2021-11-13
# 深部強化学習を用いた連続行動空間におけるUASの障害物回避

Obstacle Avoidance for UAS in Continuous Action Space Using Deep Reinforcement Learning ( http://arxiv.org/abs/2111.07037v1 )

ライセンス: Link先を確認
Jueming Hu, Xuxi Yang, Weichang Wang, Peng Wei, Lei Ying, Yongming Liu(参考訳) 小型無人航空機の障害物回避は、将来の都市航空移動 (uam) と無人航空機システム (uas) の交通管理 (utm) の安全性に不可欠である。 リアルタイムのロバストなドローン誘導には多くの技術があるが、その多くがエアスペースとコントロールを区別して解決し、UASの柔軟なコマンドを提供するためには、さらなる経路の平滑化が必要になる。 無人航空機の運用の安全かつ効率的な計算指導を行うため,我々はPPOに基づく深層強化学習アルゴリズムを用いて,自律型UASを目的地まで誘導し,連続制御による障害物回避を図っている。 提案するシナリオ状態表現と報酬関数は、方向角と速度の両方の連続制御に連続状態空間をマッピングすることができる。 提案手法の有効性を検証するため,静的および移動障害物を用いた数値実験を行った。 環境と安全運転境界に関する不確かさを詳細に検討した。 その結果,提案モデルは正確かつ堅牢なガイダンスを提供し,99%以上の成功率で競合を解消できることがわかった。

Obstacle avoidance for small unmanned aircraft is vital for the safety of future urban air mobility (UAM) and Unmanned Aircraft System (UAS) Traffic Management (UTM). There are many techniques for real-time robust drone guidance, but many of them solve in discretized airspace and control, which would require an additional path smoothing step to provide flexible commands for UAS. To provide a safe and efficient computational guidance of operations for unmanned aircraft, we explore the use of a deep reinforcement learning algorithm based on Proximal Policy Optimization (PPO) to guide autonomous UAS to their destinations while avoiding obstacles through continuous control. The proposed scenario state representation and reward function can map the continuous state space to continuous control for both heading angle and speed. To verify the performance of the proposed learning framework, we conducted numerical experiments with static and moving obstacles. Uncertainties associated with the environments and safety operation bounds are investigated in detail. Results show that the proposed model can provide accurate and robust guidance and resolve conflict with a success rate of over 99%.
翻訳日:2021-11-16 17:52:53 公開日:2021-11-13
# トランスフォーマーネットワークを用いたセッションアウェアアイテム合成推薦

Session-aware Item-combination Recommendation with Transformer Network ( http://arxiv.org/abs/2111.07154v1 )

ライセンス: Link先を確認
Tzu-Heng Lin, Chen Gao(参考訳) 本稿では,IEEE BigData Cup 2021: RLベースのRecSys (Track 1: Item Combination Prediction)のソリューションについて詳述する。 まず,データセットに関する探索的データ解析を行い,その結果をフレームワーク設計に活用する。 具体的には,ユーザからのフィードバックやアンロックされたセッションの予測,セッション認識による重み付け損失,クリック動作予測によるマルチタスク,ランダムネス・イン・セッション拡張などを行う。 kaggle における最後の私的リーダボードでは,分類精度 0.39224 で2位にランクインした。

In this paper, we detailedly describe our solution for the IEEE BigData Cup 2021: RL-based RecSys (Track 1: Item Combination Prediction). We first conduct an exploratory data analysis on the dataset and then utilize the findings to design our framework. Specifically, we use a two-headed transformer-based network to predict user feedback and unlocked sessions, along with the proposed session-aware reweighted loss, multi-tasking with click behavior prediction, and randomness-in-sessio n augmentation. In the final private leaderboard on Kaggle, our method ranked 2nd with a categorization accuracy of 0.39224.
翻訳日:2021-11-16 17:52:35 公開日:2021-11-13
# 異方性ガウス混合モデルにおけるミニマックス教師付きクラスタリング:ロバスト補間の新しい考察

Minimax Supervised Clustering in the Anisotropic Gaussian Mixture Model: A new take on Robust Interpolation ( http://arxiv.org/abs/2111.07041v1 )

ライセンス: Link先を確認
Stanislav Minsker, Mohamed Ndaoud and Yiqiu Shen(参考訳) 2成分異方性ガウス混合モデルの下での教師付きクラスタリング問題を高次元および非漸近設定で検討した。 まず、このフレームワークにおけるクラスタリングのミニマックスリスクに対して、下位および一致する上限を導出する。 また, 線形判別分析(LDA)分類器は, ミニマックス感において準最適であることが判明した。 次に、$\ell_2$-regularized supervised least squares 分類器のリスクを正確に特徴づける。 我々は,ノイズの共分散構造に対する軽度の仮定の下で,補間解が正規化分類器を上回る可能性があることを推定する。 また, 信号が共分散の「クリーン」部分と一致している場合, 適切に定義されたアライメントの概念のために, 補間は雑音の共分散の腐敗に対して頑健であることを示す。 我々の知る限りでは、この特異な現象は、補間に関する急速に成長している文献ではまだ研究されていない。 補間は良性だけでなく最適であり、場合によってはロバストなものであると結論づける。

We study the supervised clustering problem under the two-component anisotropic Gaussian mixture model in high dimensions and in the non-asymptotic setting. We first derive a lower and a matching upper bound for the minimax risk of clustering in this framework. We also show that in the high-dimensional regime, the linear discriminant analysis (LDA) classifier turns out to be sub-optimal in the minimax sense. Next, we characterize precisely the risk of $\ell_2$-regularized supervised least squares classifiers. We deduce the fact that the interpolating solution may outperform the regularized classifier, under mild assumptions on the covariance structure of the noise. Our analysis also shows that interpolation can be robust to corruption in the covariance of the noise when the signal is aligned with the "clean" part of the covariance, for the properly defined notion of alignment. To the best of our knowledge, this peculiar phenomenon has not yet been investigated in the rapidly growing literature related to interpolation. We conclude that interpolation is not only benign but can also be optimal, and in some cases robust.
翻訳日:2021-11-16 17:43:23 公開日:2021-11-13
# 高次元深層学習:$l^2(\mathbb{r}^d,\gamma_d)$の解析関数のニューラルネットワーク近似

Deep Learning in High Dimension: Neural Network Approximation of Analytic Functions in $L^2(\mathbb{R}^d,\gamma_d)$ ( http://arxiv.org/abs/2111.07080v1 )

ライセンス: Link先を確認
Christoph Schwab and Jakob Zech(参考訳) 人工深層ニューラルネットワークでは、解析関数 $f:\mathbb{r}^d\to\mathbb{r}$ に対して、$l^2(\mathbb{r}^d,\gamma_d)$ ここで$d\in {\mathbb{n}}\cup\{ \infty \}$ のノルムで表現率を証明する。 ここで、$\gamma_d$ は $\mathbb{R}^d$ 上のガウス積確率測度を表す。 特に、整数 $k\geq 2$ に対する ReLU と ReLU${}^k$ の活性化を考える。 d\in\mathbb{n}$ の場合、指数収束率は$l^2(\mathbb{r}^d,\gamma_d)$である。 f:\mathbb{r}^{\mathbb{n}}\to\mathbb{r}$, with $\gamma_\infty$ denoting an infinite (gaussian) product measure on $\mathbb{r}^{\mathbb{n}}$, if $d=\infty$, under appropriate smoothness and sparsity assumptions on $f:\mathbb{r}^{\mathbb{n}}\to\mathbb{r}$, with $\gamma_\infty$ denoting a infinite (gausssian) product measure on $\mathbb{r}^{\mathbb{n}}$ では、次元に依存しない表現率境界を $l^2(\mathbb{r}^{\mathbb{n}},\gamma_\infty)$ のノルムで証明する。 速度は、$\mathbb{C}^d$ のストリップの積への写像 $f$ の(解析的連続の)定量化された正則性にのみ依存する。 対数ガウス確率場入力による楕円型PDEの応答面に対する深いReLU-NNの表現速度境界を証明した。

For artificial deep neural networks, we prove expression rates for analytic functions $f:\mathbb{R}^d\to\mathbb{R}$ in the norm of $L^2(\mathbb{R}^d,\gamma_d)$ where $d\in {\mathbb{N}}\cup\{ \infty \}$. Here $\gamma_d$ denotes the Gaussian product probability measure on $\mathbb{R}^d$. We consider in particular ReLU and ReLU${}^k$ activations for integer $k\geq 2$. For $d\in\mathbb{N}$, we show exponential convergence rates in $L^2(\mathbb{R}^d,\gamma_d)$. In case $d=\infty$, under suitable smoothness and sparsity assumptions on $f:\mathbb{R}^{\mathbb{N}}\to\mathbb{R}$, with $\gamma_\infty$ denoting an infinite (Gaussian) product measure on $\mathbb{R}^{\mathbb{N}}$, we prove dimension-independen t expression rate bounds in the norm of $L^2(\mathbb{R}^{\mathbb{N}},\gamma_\infty)$. The rates only depend on quantified holomorphy of (an analytic continuation of) the map $f$ to a product of strips in $\mathbb{C}^d$. As an application, we prove expression rate bounds of deep ReLU-NNs for response surfaces of elliptic PDEs with log-Gaussian random field inputs.
翻訳日:2021-11-16 17:43:07 公開日:2021-11-13
# 逆数検出における複数モデル表現の寄与度の測定

Measuring the Contribution of Multiple Model Representations in Detecting Adversarial Instances ( http://arxiv.org/abs/2111.07035v1 )

ライセンス: Link先を確認
Daniel Steinberg, Paul Munro(参考訳) ディープラーニングモデルは、さまざまなタスクに使用されています。 コンピュータビジョン、自然言語処理、音声認識、その他の分野で広く使われている。 これらのモデルは多くのシナリオでうまく機能しているが、敵攻撃に弱いことが示されている。 このことが、そのような攻撃を特定または/または防御する方法の研究の拡散につながった。 我々のゴールは、敵インスタンス検出のために複数の基盤モデルを使用することによる貢献を探求することである。 本稿では,複数のモデルからの表現を組み込んだ2つのアプローチについて述べる。 追加モデルの利用による検出効果を測定するための制御実験を考案する。 多くのシナリオについて検討した結果,表現の抽出に使用する基礎モデルの数によって,性能が向上することが示された。

Deep learning models have been used for a wide variety of tasks. They are prevalent in computer vision, natural language processing, speech recognition, and other areas. While these models have worked well under many scenarios, it has been shown that they are vulnerable to adversarial attacks. This has led to a proliferation of research into ways that such attacks could be identified and/or defended against. Our goal is to explore the contribution that can be attributed to using multiple underlying models for the purpose of adversarial instance detection. Our paper describes two approaches that incorporate representations from multiple models for detecting adversarial examples. We devise controlled experiments for measuring the detection impact of incrementally utilizing additional models. For many of the scenarios we consider, the results show that performance increases with the number of underlying models used for extracting representations.
翻訳日:2021-11-16 17:41:59 公開日:2021-11-13
# 下流臨床結果に対するウェアラブルタイムリーのコントラスト学習の評価

Evaluating Contrastive Learning on Wearable Timeseries for Downstream Clinical Outcomes ( http://arxiv.org/abs/2111.07089v1 )

ライセンス: Link先を確認
Kevalee Shah, Dimitris Spathis, Chi Ian Tang, Cecilia Mascolo(参考訳) 人為的な健康データ(ウェアラブル)を大量に収集するが、機械学習モデルにアノテートするプロセスは実用的ではない。 本稿では,これまで視覚領域に応用されていたsimclrやbyolなどのコントラスト損失を用いた自己教師付きアプローチを,睡眠,心臓,代謝といった様々な疾患の下流分類タスクの高次元健康信号に適用する方法について述べる。 この目的のために,データ拡張ステップと全体アーキテクチャを適応させ,教師付き学習と敵対的非教師付き表現学習法を含む他の最先端手法を比較し,データ(着用可能なトレース)の時間的性質に適合させ,5つの下流タスクを評価する。 我々は,SimCLRが下流評価タスクの大部分において,敵法と完全教師付き手法よりも優れており,全自己教師付き手法が完全教師付き手法より優れていることを示す。 本研究は,ウェアラブル時系列領域に適用する対照的手法の包括的なベンチマークを提供し,下流臨床結果に対するタスク非依存表現の期待を示す。

Vast quantities of person-generated health data (wearables) are collected but the process of annotating to feed to machine learning models is impractical. This paper discusses ways in which self-supervised approaches that use contrastive losses, such as SimCLR and BYOL, previously applied to the vision domain, can be applied to high-dimensional health signals for downstream classification tasks of various diseases spanning sleep, heart, and metabolic conditions. To this end, we adapt the data augmentation step and the overall architecture to suit the temporal nature of the data (wearable traces) and evaluate on 5 downstream tasks by comparing other state-of-the-art methods including supervised learning and an adversarial unsupervised representation learning method. We show that SimCLR outperforms the adversarial method and a fully-supervised method in the majority of the downstream evaluation tasks, and that all self-supervised methods outperform the fully-supervised methods. This work provides a comprehensive benchmark for contrastive methods applied to the wearable time-series domain, showing the promise of task-agnostic representations for downstream clinical outcomes.
翻訳日:2021-11-16 17:41:50 公開日:2021-11-13
# Pseudo射影演算子:非周期周波数の予測に基づくフィルタリングへのディープラーニングの適用

The Pseudo Projection Operator: Applications of Deep Learning to Projection Based Filtering in Non-Trivial Frequency Regimes ( http://arxiv.org/abs/2111.07140v1 )

ライセンス: Link先を確認
Matthew L. Weiss, Nathan C. Frey, Siddharth Samsi, Randy C. Paffenroth and Vijay Gadepally(参考訳) 従来の周波数ベースプロジェクションフィルタ(PO)は、ノイズが存在する周波数を除去する一連の変換を通じて、信号とノイズを分離する。 しかし、この手法は、周波数に信号とノイズが含まれており、これらの周波数が重なり合わないという事前知識に依存しており、実際は達成が難しい。 これらの問題に対処するため、我々はPseudo Projection Operator (PPO)というPO-neural network hybrid modelを導入し、ニューラルネットワークを利用して周波数選択を行う。 本研究では、ロチェスター大学のマルチモーダル音楽演奏データセットにおけるppo, po, denoising autoencoder (dae) のフィルタリング機能と、様々なノイズタイプの比較を行った。 ほとんどの実験では、PPOはPOとDAEの両方より優れています。 これらの結果をもとに,PPOの物理・生物科学における問題点のフィルタリングへの応用を提案する。

Traditional frequency based projection filters, or projection operators (PO), separate signal and noise through a series of transformations which remove frequencies where noise is present. However, this technique relies on a priori knowledge of what frequencies contain signal and noise and that these frequencies do not overlap, which is difficult to achieve in practice. To address these issues, we introduce a PO-neural network hybrid model, the Pseudo Projection Operator (PPO), which leverages a neural network to perform frequency selection. We compare the filtering capabilities of a PPO, PO, and denoising autoencoder (DAE) on the University of Rochester Multi-Modal Music Performance Dataset with a variety of added noise types. In the majority of experiments, the PPO outperforms both the PO and DAE. Based upon these results, we suggest future application of the PPO to filtering problems in the physical and biological sciences.
翻訳日:2021-11-16 17:41:30 公開日:2021-11-13
# 部分空間表現と軽量低ランクテンソル規則化による高スペクトル混合ノイズ除去

Hyperspectral Mixed Noise Removal via Subspace Representation and Weighted Low-rank Tensor Regularization ( http://arxiv.org/abs/2111.07044v1 )

ライセンス: Link先を確認
Hang Zhou, Yanchi Su, Zhanshan Li(参考訳) 近年、画像から抽出された成分の低位特性は、マンハイパースペクトル画像の雑音化法で検討されている。 しかしながら、これらの手法は通常、非局所空間自己相似性(NSS)や大域スペクトル相関(GSC)といった事前情報を利用するために3次元テンソルを2次元行列や1次元ベクトルに展開する。 さらに, HSIのもともとの高次元空間において, 行列とテンソルに特異値分解演算が関与しているため, 計算負荷の重い問題に悩まされることが多い。 我々は,超スペクトル画像の混合雑音を取り除くために,部分空間表現と重み付き低ランクテンソル正規化(SWLRTR)をモデルに採用する。 具体的には、スペクトル帯域間でGSCを利用するために、ノイズの多いHSIを低次元のサブ空間に投影し、計算を単純化する。 その後、減像部分空間の先行を特徴付けるために、重み付き低ランクテンソル正規化項を導入する。 さらに,非凸問題を解くために,交互最小化に基づくアルゴリズムを設計する。 シミュレーションおよび実データを用いた実験により、SWLRTR法は他の超分光法よりも定量的かつ視覚的に優れた性能を示した。

Recently, the low-rank property of different components extracted from the image has been considered in man hyperspectral image denoising methods. However, these methods usually unfold the 3D tensor to 2D matrix or 1D vector to exploit the prior information, such as nonlocal spatial self-similarity (NSS) and global spectral correlation (GSC), which break the intrinsic structure correlation of hyperspectral image (HSI) and thus lead to poor restoration quality. In addition, most of them suffer from heavy computational burden issues due to the involvement of singular value decomposition operation on matrix and tensor in the original high-dimensionality space of HSI. We employ subspace representation and the weighted low-rank tensor regularization (SWLRTR) into the model to remove the mixed noise in the hyperspectral image. Specifically, to employ the GSC among spectral bands, the noisy HSI is projected into a low-dimensional subspace which simplified calculation. After that, a weighted low-rank tensor regularization term is introduced to characterize the priors in the reduced image subspace. Moreover, we design an algorithm based on alternating minimization to solve the nonconvex problem. Experiments on simulated and real datasets demonstrate that the SWLRTR method performs better than other hyperspectral denoising methods quantitatively and visually.
翻訳日:2021-11-16 17:35:37 公開日:2021-11-13
# 浅層制御器を用いた深部強化学習:PIDチューニングへの実験的応用

Deep Reinforcement Learning with Shallow Controllers: An Experimental Application to PID Tuning ( http://arxiv.org/abs/2111.07171v1 )

ライセンス: Link先を確認
Nathan P. Lawrence, Michael G. Forbes, Philip D. Loewen, Daniel G. McClement, Johan U. Backstrom, R. Bhushan Gopaluni(参考訳) deep reinforcement learning (rl) は、プロセスモデルに依存しない一般的な力学系の制御戦略を生成するための最適化駆動フレームワークである。 良い結果はシミュレーションで報告されている。 本稿では,実際の物理システム上での最先端RLアルゴリズムの実現における課題について述べる。 ソフトウェアと既存のハードウェア間の相互作用、実験設計とサンプル効率、入力制約の対象となるトレーニング、アルゴリズムと制御法則の解釈可能性などがある。 私たちのアプローチの核心は、トレーニング可能なRLポリシーとしてPIDコントローラを使用することです。 pidコントローラは標準的なプログラマブルなロジックコントローラで容易に実装できるため、コントロールシステムに追加のハードウェアを追加する必要はなく、制御法則はパラメータ空間の"safe"領域で容易に初期化できる。

Deep reinforcement learning (RL) is an optimization-driven framework for producing control strategies for general dynamical systems without explicit reliance on process models. Good results have been reported in simulation. Here we demonstrate the challenges in implementing a state of the art deep RL algorithm on a real physical system. Aspects include the interplay between software and existing hardware; experiment design and sample efficiency; training subject to input constraints; and interpretability of the algorithm and control law. At the core of our approach is the use of a PID controller as the trainable RL policy. In addition to its simplicity, this approach has several appealing features: No additional hardware needs to be added to the control system, since a PID controller can easily be implemented through a standard programmable logic controller; the control law can easily be initialized in a "safe'' region of the parameter space; and the final product -- a well-tuned PID controller -- has a form that practitioners can reason about and deploy with confidence.
翻訳日:2021-11-16 17:32:34 公開日:2021-11-13
# 節別アフィンニューラルネットワーク制御器の安定化

Reliably-stabilizing piecewise-affine neural network controllers ( http://arxiv.org/abs/2111.07183v1 )

ライセンス: Link先を確認
Filippo Fabiani, Paul J. Goulart(参考訳) モデル予測制御(MPC)ポリシーのニューラルネットワーク(NN)近似に影響を与える一般的な問題は、NNベースのコントローラの動作の下でクローズドループシステムの安定性を評価するための分析ツールがないことである。 本稿では,そのような制御器の性能を定量化したり,与えられたMPCスキームの望ましい特性を保った線形整列ユニット(ReLU)で最小限の複雑性NNを設計するための一般的な手順を提案する。 nn-basedとmpc-based state-to-inputマッピングの近似誤差を定量化することにより,まず2つの鍵量,すなわち最悪の場合誤差とリプシッツ定数を含む適切な条件を確立し,閉ループシステムの安定性を保証する。 次に、これらの量を正確に計算するオフライン混合整数最適化法を開発した。 これらの技術は、ReLUに基づくMPC制御則の近似の安定性と性能を証明するのに十分な条件を提供する。

A common problem affecting neural network (NN) approximations of model predictive control (MPC) policies is the lack of analytical tools to assess the stability of the closed-loop system under the action of the NN-based controller. We present a general procedure to quantify the performance of such a controller, or to design minimum complexity NNs with rectified linear units (ReLUs) that preserve the desirable properties of a given MPC scheme. By quantifying the approximation error between NN-based and MPC-based state-to-input mappings, we first establish suitable conditions involving two key quantities, the worst-case error and the Lipschitz constant, guaranteeing the stability of the closed-loop system. We then develop an offline, mixed-integer optimization-based method to compute those quantities exactly. Together these techniques provide conditions sufficient to certify the stability and performance of a ReLU-based approximation of an MPC control law.
翻訳日:2021-11-16 17:32:18 公開日:2021-11-13
# スケルトンベース行動認識のための中央差分グラフ畳み込み演算子

A Central Difference Graph Convolutional Operator for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2111.06995v1 )

ライセンス: Link先を確認
Shuangyan Miao, Yonghong Hou, Zhimin Gao, Mingliang Xu, and Wanqing Li(参考訳) 本稿では, 中心差分グラフ畳み込み(central difference graph convolution, cdgc)と呼ばれる新しいグラフ畳み込み演算子を提案する。 バニラグラフ畳み込み操作のようなノード情報を集約するだけでなく、勾配情報も集約できる。 追加のパラメータを導入することなく、CDGCは既存のグラフ畳み込みネットワーク(GCN)のバニラグラフ畳み込みを置き換えることができる。 さらに,CDGCの高速化版を開発し,学習速度を大幅に向上させた。 NTU RGB+D 60と120の2つの一般的な大規模データセットの実験は、提案したCDGCの有効性を実証した。 コードはhttps://github.com/i esymiao/CD-GCNで入手できる。

This paper proposes a new graph convolutional operator called central difference graph convolution (CDGC) for skeleton based action recognition. It is not only able to aggregate node information like a vanilla graph convolutional operation but also gradient information. Without introducing any additional parameters, CDGC can replace vanilla graph convolution in any existing Graph Convolutional Networks (GCNs). In addition, an accelerated version of the CDGC is developed which greatly improves the speed of training. Experiments on two popular large-scale datasets NTU RGB+D 60 & 120 have demonstrated the efficacy of the proposed CDGC. Code is available at https://github.com/i esymiao/CD-GCN.
翻訳日:2021-11-16 16:21:24 公開日:2021-11-13
# 因子畳み込みニューラルネットワーク

Factorial Convolution Neural Networks ( http://arxiv.org/abs/2111.07072v1 )

ライセンス: Link先を確認
Jaemo Sung, Eun-Sung Jung(参考訳) 近年、GoogleNetは、オブジェクト検出のための視覚的特徴を抽出する基盤畳み込みニューラルネットワーク(CNN)の1つとして、かなりの注目を集めている。 しかし、異なる性質の要素を連結する際に、汚染された深い特徴の課題を経験する。 また、GoogleNetは完全に軽量なCNNではないため、リソース不足のアプリケーションドメインに適用するための実行オーバーヘッドがまだたくさんある。 したがって、これらの機能的課題を克服するために、新しいcnnであるfactornetが提案されている。 FactorNet CNNは、複数の独立したサブCNNで構成され、深い視覚的特徴の異なる側面をエンコードし、重みパラメータや浮動小数点演算の点ではるかに少ない実行オーバーヘッドを持つ。 FactorNet を Faster-RCNN フレームワークに組み込むことで、FacterNet は \ignore{a 5\%} の精度を最小限に向上させ、リアルタイムオブジェクト検出システムで設定された KITTI オブジェクト検出ベンチマークデータセット全体を通して、GoolgleNet を高速化することを示した。

In recent years, GoogleNet has garnered substantial attention as one of the base convolutional neural networks (CNNs) to extract visual features for object detection. However, it experiences challenges of contaminated deep features when concatenating elements with different properties. Also, since GoogleNet is not an entirely lightweight CNN, it still has many execution overheads to apply to a resource-starved application domain. Therefore, a new CNNs, FactorNet, has been proposed to overcome these functional challenges. The FactorNet CNN is composed of multiple independent sub CNNs to encode different aspects of the deep visual features and has far fewer execution overheads in terms of weight parameters and floating-point operations. Incorporating FactorNet into the Faster-RCNN framework proved that FactorNet gives \ignore{a 5\%} better accuracy at a minimum and produces additional speedup over GoolgleNet throughout the KITTI object detection benchmark data set in a real-time object detection system.
翻訳日:2021-11-16 16:21:15 公開日:2021-11-13
# where to look:強化学習を用いた視覚認識のための統一注意モデル

Where to Look: A Unified Attention Model for Visual Recognition with Reinforcement Learning ( http://arxiv.org/abs/2111.07169v1 )

ライセンス: Link先を確認
Gang Chen(参考訳) リカレントニューラルネットワークを視覚注意に利用するという考えは、コンピュータビジョンコミュニティで人気を集めている。 リカレントアテンションモデル(ram)は、スコープを拡大するために、より大きなパッチサイズを持つスピープを活用するが、高いばらつきと不安定性をもたらす可能性がある。 例えば、大きな画像の興味の対象を探索するために高分散のガウス的ポリシーが必要であり、ランダムな探索や不安定な学習を引き起こす可能性がある。 本稿では,トップダウンとボトムアップを一体化して視覚的注意を繰り返すことを提案する。 本モデルでは,画像ピラミッドとQラーニングを利用して,トップダウンアテンションメカニズムにおける関心領域を抽出し,ボトムアップアプローチのポリシー探索を指導する。 さらに、ボトムアップのリカレントニューラルネットワークにさらに2つの制約を加えて、よりよい探索を可能にします。 我々は、エンドツーエンドの強化学習フレームワークでモデルを訓練し、視覚的分類タスクにおける手法を評価する。 実験結果は、視覚分類タスクにおける畳み込みニューラルネットワーク(CNN)ベースラインとボトムアップ繰り返し注意モデルより優れている。

The idea of using the recurrent neural network for visual attention has gained popularity in computer vision community. Although the recurrent attention model (RAM) leverages the glimpses with more large patch size to increasing its scope, it may result in high variance and instability. For example, we need the Gaussian policy with high variance to explore object of interests in a large image, which may cause randomized search and unstable learning. In this paper, we propose to unify the top-down and bottom-up attention together for recurrent visual attention. Our model exploits the image pyramids and Q-learning to select regions of interests in the top-down attention mechanism, which in turn to guide the policy search in the bottom-up approach. In addition, we add another two constraints over the bottom-up recurrent neural networks for better exploration. We train our model in an end-to-end reinforcement learning framework, and evaluate our method on visual classification tasks. The experimental results outperform convolutional neural networks (CNNs) baseline and the bottom-up recurrent attention models on visual classification tasks.
翻訳日:2021-11-16 16:20:59 公開日:2021-11-13
# 動的グラフにおける進化の学習

Learning to Evolve on Dynamic Graphs ( http://arxiv.org/abs/2111.07032v1 )

ライセンス: Link先を確認
Xintao Xiang and Tiancheng Huang and Donglin Wang(参考訳) 動的グラフにおける表現学習は、グラフとノードの特徴のトポロジーが異なるため、難しい問題である。 これにより、グラフトポロジ情報と時間情報の両方を効果的にキャプチャできるモデルが必要となる。 既存の作業の多くはリカレントニューラルネットワーク(RNN)上に構築されており、動的グラフの時間的情報を正確に把握するために使用されるため、RNNの欠点を継承する。 本稿では,グラフ情報と時間情報を協調的に学習する新しいアルゴリズムであるLearning to Evolve on Dynamic Graphs (LEDG)を提案する。 具体的には、勾配に基づくメタ学習を用いて、スナップショット上のRNNよりも優れた一般化能力を持つ更新戦略を学習する。 モデルに依存しないため、動的グラフ上でメッセージパッシングベースのグラフニューラルネットワーク(GNN)をトレーニングすることができる。 表現力を高めるために、埋め込みを時間埋め込みとグラフ内埋め込みに分解する。 各種データセットとダウンストリームタスクの実験を行い,本手法の有効性を検証する実験結果を得た。

Representation learning in dynamic graphs is a challenging problem because the topology of graph and node features vary at different time. This requires the model to be able to effectively capture both graph topology information and temporal information. Most existing works are built on recurrent neural networks (RNNs), which are used to exact temporal information of dynamic graphs, and thus they inherit the same drawbacks of RNNs. In this paper, we propose Learning to Evolve on Dynamic Graphs (LEDG) - a novel algorithm that jointly learns graph information and time information. Specifically, our approach utilizes gradient-based meta-learning to learn updating strategies that have better generalization ability than RNN on snapshots. It is model-agnostic and thus can train any message passing based graph neural network (GNN) on dynamic graphs. To enhance the representation power, we disentangle the embeddings into time embeddings and graph intrinsic embeddings. We conduct experiments on various datasets and down-stream tasks, and the experimental results validate the effectiveness of our method.
翻訳日:2021-11-16 16:06:22 公開日:2021-11-13
# 心理学的・頻度的特徴を用いたクラウドソーシングデータにおける調音音声の聴取知覚の予測

Prediction of Listener Perception of Argumentative Speech in a Crowdsourced Data Using (Psycho-)Linguistic and Fluency Features ( http://arxiv.org/abs/2111.07130v1 )

ライセンス: Link先を確認
Yu Qiao, Sourabh Zanwar, Rishab Bhattacharyya, Daniel Wiechmann, Wei Zhou, Elma Kerz, Ralf Schl\"uter(参考訳) 重要なコミュニケーション能力の1つは、単調な言論の流動性を維持する能力と、説得力のある立場を主張する洗練された言語を作り出す能力である。 本稿では,110人の発話から7時間からなる議論的発話のクラウドソーシングデータセットにおいて,TEDトークスタイルの感情評価を予測することを目的とする。 音声サンプルは3つの話題に関するタスクプロンプトによって抽出された。 サンプルは、14の感情カテゴリーを含む737人の人格から合計2211のレーティングを受けた。 本稿では,TEDトーク音声の大規模データセット上で事前学習したモデルを微調整することで,これらのカテゴリを予測できる分類タスクを提案する。 本稿では,最先端自動音声認識システムと,自動テキスト解析システムから得られた人間解釈可能な言語特徴の多種多様な組み合わせを用いた。 分類精度は14の分類カテゴリーで60%以上であり、最高性能は「インフォームティヴ」で72%であった。 二次実験ではSP-LIMEを用いて異なるグループの特徴の相対的重要性を決定した。

One of the key communicative competencies is the ability to maintain fluency in monologic speech and the ability to produce sophisticated language to argue a position convincingly. In this paper we aim to predict TED talk-style affective ratings in a crowdsourced dataset of argumentative speech consisting of 7 hours of speech from 110 individuals. The speech samples were elicited through task prompts relating to three debating topics. The samples received a total of 2211 ratings from 737 human raters pertaining to 14 affective categories. We present an effective approach to the classification task of predicting these categories through fine-tuning a model pre-trained on a large dataset of TED talks public speeches. We use a combination of fluency features derived from a state-of-the-art automatic speech recognition system and a large set of human-interpretable linguistic features obtained from an automatic text analysis system. Classification accuracy was greater than 60% for all 14 rating categories, with a peak performance of 72% for the rating category 'informative'. In a secondary experiment, we determined the relative importance of features from different groups using SP-LIME.
翻訳日:2021-11-16 15:22:45 公開日:2021-11-13
# トロルの祝宴 --オンライン毒性に対する反ナラティブのエンゲージメント分析

A feast for trolls -- Engagement analysis of counternarratives against online toxicity ( http://arxiv.org/abs/2111.07188v1 )

ライセンス: Link先を確認
Tom De Smedt, Pierre Vou\'e, Sylvia Jaki, Emily Duffy, Lydia El-Khouri(参考訳) 本報告はオンライン毒性に対する反ナラティブの関与分析である。 2020年2月から2021年7月までにソーシャルメディア上で1500万以上の有害なメッセージが検出された。 1000人以上のダッシュボードユーザーが、ビジュアルミーム、テキスト、AI生成テキストの組み合わせで有害なメッセージに反応した。 これは、オンラインヘイトを緩和するための自己規制アプローチに関する、新たな現実的な洞察につながります。

This report provides an engagement analysis of counternarratives against online toxicity. Between February 2020 and July 2021, we observed over 15 million toxic messages on social media identified by our fine-grained, multilingual detection AI. Over 1,000 dashboard users responded to toxic messages with combinations of visual memes, text, or AI-generated text, or they reported content. This leads to new, real-life insights on self-regulatory approaches for the mitigation of online hate.
翻訳日:2021-11-16 15:22:29 公開日:2021-11-13
# ランドマーク形状記述子発見のための教師なし画像登録の活用

Leveraging Unsupervised Image Registration for Discovery of Landmark Shape Descriptor ( http://arxiv.org/abs/2111.07009v1 )

ライセンス: Link先を確認
Riddhish Bhalodia, Shireen Elhabian, Ladislav Kavan, Ross Whitaker(参考訳) 現在の生物学的・医学的な研究において、統計形状モデリング(ssm)は解剖学/形態学の特徴付けに不可欠な枠組みを提供する。 このような分析は、集団のサンプルで見られる比較的少数の幾何学的に一貫した特徴の同定によってしばしば引き起こされる。 これらの特徴はその後、人口形状の変化に関する情報を提供することができる。 密接な対応モデルによって計算が容易になり、次元の縮小が続くと解釈可能な低次元形状記述子が得られる。 しかし、そのような対応を得るための自動的な方法は、通常、画像のセグメンテーションと重要な前処理が必要であり、計算量と人的資源の両方に課税される。 多くの場合、セグメンテーションとその後の処理は手動のガイダンスと解剖学的専門知識を必要とする。 本稿では,後続解析のための形状記述子として直接使用できる画像からランドマークを検出するための,自己教師付きディープラーニング手法を提案する。 我々は、ランドマーク駆動のイメージ登録を主要なタスクとして使用し、ニューラルネットワークにイメージを適切に登録するランドマークを見つけるように強制する。 また、ニューラルネットワークの堅牢な最適化を可能にし、ランドマークが画像領域に均一にまたがることを保証する正規化項を提案する。 提案手法は分割と前処理を回避し、2D画像や3D画像のみを用いて使用可能な形状記述子を直接生成する。 さらに,事前形状情報をモデルに統合可能なトレーニング損失関数の2つの変種を提案する。 このフレームワークを複数の2dおよび3dデータセットに適用して形状記述子を取得し,様々な用途における有用性を分析する。

In current biological and medical research, statistical shape modeling (SSM) provides an essential framework for the characterization of anatomy/morphology. Such analysis is often driven by the identification of a relatively small number of geometrically consistent features found across the samples of a population. These features can subsequently provide information about the population shape variation. Dense correspondence models can provide ease of computation and yield an interpretable low-dimensional shape descriptor when followed by dimensionality reduction. However, automatic methods for obtaining such correspondences usually require image segmentation followed by significant preprocessing, which is taxing in terms of both computation as well as human resources. In many cases, the segmentation and subsequent processing require manual guidance and anatomy specific domain expertise. This paper proposes a self-supervised deep learning approach for discovering landmarks from images that can directly be used as a shape descriptor for subsequent analysis. We use landmark-driven image registration as the primary task to force the neural network to discover landmarks that register the images well. We also propose a regularization term that allows for robust optimization of the neural network and ensures that the landmarks uniformly span the image domain. The proposed method circumvents segmentation and preprocessing and directly produces a usable shape descriptor using just 2D or 3D images. In addition, we also propose two variants on the training loss function that allows for prior shape information to be integrated into the model. We apply this framework on several 2D and 3D datasets to obtain their shape descriptors, and analyze their utility for various applications.
翻訳日:2021-11-16 14:55:34 公開日:2021-11-13
# 画像・映像品質評価のための強固なベースライン

A strong baseline for image and video quality assessment ( http://arxiv.org/abs/2111.07104v1 )

ライセンス: Link先を確認
Shaoguo Wen, Junle Wang(参考訳) 本稿では,画像と映像の知覚的品質評価のための簡易かつ効果的な統一モデルを提案する。 通常、複雑なネットワークアーキテクチャで構成されたり、複数の機能ブランチの連結に依存する既存のモデルとは対照的に、我々のモデルはバックボーンネットワーク(resnet18)から派生した1つのグローバル機能のみを適用することで、同等のパフォーマンスを達成する。 いくつかのトレーニングトリックと組み合わせて、提案されたモデルは、パブリックデータセットとプライベートデータセットのSOTAモデルの現在のベースラインを超えている。 提案したアーキテクチャに基づいて,UGCビデオの野生化,圧縮を伴うPGCビデオの圧縮,圧縮を伴うゲームビデオの3つの一般的な現実シナリオに対して,十分に訓練されたモデルをリリースする。 これら3つの事前訓練されたモデルは、品質評価に直接適用したり、よりカスタマイズされた使用のためにさらに微調整することができる。 提案されたモデルのコード、SDK、および事前トレーニングされた重み付けはすべて、https://github.com/T encent/CenseoQoEで公開されている。

In this work, we present a simple yet effective unified model for perceptual quality assessment of image and video. In contrast to existing models which usually consist of complex network architecture, or rely on the concatenation of multiple branches of features, our model achieves a comparable performance by applying only one global feature derived from a backbone network (i.e. resnet18 in the presented work). Combined with some training tricks, the proposed model surpasses the current baselines of SOTA models on public and private datasets. Based on the architecture proposed, we release the models well trained for three common real-world scenarios: UGC videos in the wild, PGC videos with compression, Game videos with compression. These three pre-trained models can be directly applied for quality assessment, or be further fine-tuned for more customized usages. All the code, SDK, and the pre-trained weights of the proposed models are publicly available at https://github.com/T encent/CenseoQoE.
翻訳日:2021-11-16 14:55:13 公開日:2021-11-13
# マルコフジャンプシステムの同定と適応制御:サンプル複雑性と後悔境界

Identification and Adaptive Control of Markov Jump Systems: Sample Complexity and Regret Bounds ( http://arxiv.org/abs/2111.07018v1 )

ライセンス: Link先を確認
Yahya Sattar and Zhe Du and Davoud Ataee Tarzanagh and Laura Balzano and Necmiye Ozay and Samet Oymak(参考訳) 未知の力学系を効果的に制御する方法を学ぶことは、インテリジェントな自律システムにとって重要である。 このタスクは、基盤となるダイナミクスが時間とともに変化する場合、大きな課題になります。 本稿では,未知のマルコフジャンプ線形系(mjs)を2次目標に最適化するために制御する問題を考察する。 MJSの識別に基づく適応制御をモデルベースの観点から検討する。 まず, システム状態, 入力, モードの単一軌跡から, モードスイッチの進化の基盤となるマルコフ遷移行列とともに, MJS が各モードの力学を学習するためのシステム同定アルゴリズムを提案する。 混合時間引数によって、このアルゴリズムのサンプル複雑性は$\mathcal{o}(1/\sqrt{t})$であることが示される。 そこで我々は,システム同定と等価な制御を併用して適応制御方式を提案し,制御器をエピソード方式で適応させる。 サンプルの複雑さの結果と最近の摂動解析結果とを組み合わせることで、エピソードの長さが適切に選択されると、提案された適応制御スキームが$\mathcal{o}(\sqrt{t})$ regretを達成し、システムの部分的な知識とともに$\mathcal{o}(polylog(t))$に改善できることを証明します。 我々の実証戦略はマルコフジャンプとMJSに共通する安定性の弱い概念を扱うイノベーションを導入している。 我々の分析は、学習精度と制御性能に影響を与えるシステム理論量に関する洞察を提供する。 数値シミュレーションはこれらの知見をさらに強化するために提示される。

Learning how to effectively control unknown dynamical systems is crucial for intelligent autonomous systems. This task becomes a significant challenge when the underlying dynamics are changing with time. Motivated by this challenge, this paper considers the problem of controlling an unknown Markov jump linear system (MJS) to optimize a quadratic objective. By taking a model-based perspective, we consider identification-based adaptive control for MJSs. We first provide a system identification algorithm for MJS to learn the dynamics in each mode as well as the Markov transition matrix, underlying the evolution of the mode switches, from a single trajectory of the system states, inputs, and modes. Through mixing-time arguments, sample complexity of this algorithm is shown to be $\mathcal{O}(1/\sqrt{T})$. We then propose an adaptive control scheme that performs system identification together with certainty equivalent control to adapt the controllers in an episodic fashion. Combining our sample complexity results with recent perturbation results for certainty equivalent control, we prove that when the episode lengths are appropriately chosen, the proposed adaptive control scheme achieves $\mathcal{O}(\sqrt{T})$ regret, which can be improved to $\mathcal{O}(polylog(T))$ with partial knowledge of the system. Our proof strategy introduces innovations to handle Markovian jumps and a weaker notion of stability common in MJSs. Our analysis provides insights into system theoretic quantities that affect learning accuracy and control performance. Numerical simulations are presented to further reinforce these insights.
翻訳日:2021-11-16 14:52:30 公開日:2021-11-13
# 複数視点からの多目的シーンのオブジェクト中心表現の学習

Learning Object-Centric Representations of Multi-Object Scenes from Multiple Views ( http://arxiv.org/abs/2111.07117v1 )

ライセンス: Link先を確認
Li Nanbo, Cian Eastwood, Robert B. Fisher(参考訳) 多目的シーンのオブジェクト中心表現を学習することは、マシンインテリジェンスに対する有望なアプローチであり、高レベルの推論と視覚感覚データからの制御を促進する。 しかし、教師なしオブジェクト中心のシーン表現に対する現在のアプローチは、シーンの複数の観察から情報を集約することができない。 結果として、これらの「シングルビュー」メソッドは、単一の2次元観察(ビュー)のみに基づいて3dシーンの表現を形成する。 当然、これはいくつかの不正確さをもたらし、これらの方法は単視点の空間的曖昧さの犠牲になる。 そこで我々は,マルチビューとマルチオブジェクトネットワーク (mulmon) を提案する。マルチビューを利用して,マルチオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。 マルチオブジェクト・マルチビューシナリオの主な技術的難しさ -- ビュー間のオブジェクト対応を維持する -- を回避するために、mulmon氏は複数のビューにわたるシーンの潜在オブジェクト表現を反復的に更新する。 これらの反復的な更新が空間情報を確実に集約して完全な3Dシーン理解を形成するようにするために、MulMONはトレーニング中に新しい視点からシーンの出現を予測するよう依頼される。 実験により,MulMONは単一視点法よりも空間的曖昧さをよく解決し,より正確で不整合なオブジェクト表現を学習し,新しい視点のオブジェクトセグメンテーションを予測するために新たな機能を実現する。

Learning object-centric representations of multi-object scenes is a promising approach towards machine intelligence, facilitating high-level reasoning and control from visual sensory data. However, current approaches for unsupervised object-centric scene representation are incapable of aggregating information from multiple observations of a scene. As a result, these "single-view" methods form their representations of a 3D scene based only on a single 2D observation (view). Naturally, this leads to several inaccuracies, with these methods falling victim to single-view spatial ambiguities. To address this, we propose The Multi-View and Multi-Object Network (MulMON) -- a method for learning accurate, object-centric representations of multi-object scenes by leveraging multiple views. In order to sidestep the main technical difficulty of the multi-object-multi-v iew scenario -- maintaining object correspondences across views -- MulMON iteratively updates the latent object representations for a scene over multiple views. To ensure that these iterative updates do indeed aggregate spatial information to form a complete 3D scene understanding, MulMON is asked to predict the appearance of the scene from novel viewpoints during training. Through experiments, we show that MulMON better-resolves spatial ambiguities than single-view methods -- learning more accurate and disentangled object representations -- and also achieves new functionality in predicting object segmentations for novel viewpoints.
翻訳日:2021-11-16 14:34:48 公開日:2021-11-13
# コンテキスト自己回帰を用いたフルアテンションに基づくニューラルアーキテクチャ探索

Full-attention based Neural Architecture Search using Context Auto-regression ( http://arxiv.org/abs/2111.07139v1 )

ライセンス: Link先を確認
Yuan Zhou, Haiyang Wang, Shuwei Huo and Boyu Wang(参考訳) 視覚タスクの性能向上に向けた最近の進歩として,自己注意型アーキテクチャが出現している。 自己注意型ネットワークのためのアーキテクチャのマニュアル決定は専門家の経験に依存しており、様々なシナリオに自動的に適応することはできない。 一方、neural architecture search (nas) は、ニューラルネットワークの自動設計を大幅に進歩させた。 したがって、NAS手法を用いて、より優れた自己注意アーキテクチャを自動的に発見することが適切である。 しかし,一様セル型検索空間と長期的コンテンツ依存の欠如から,既存のnas手法をアテンションネットワークの検索に直接使用することは困難である。 この問題に対処するため,本研究では,フルアテンションに基づくNAS手法を提案する。 より具体的には、ネットワークの異なる層に様々な注意操作を適用できるステージワイド検索空間が構築されている。 グローバルな特徴を抽出するために,コンテキスト自動回帰を用いた自己教師付き検索アルゴリズムを提案する。 提案手法の有効性を検証するため,画像分類,きめ細かい画像認識,ゼロショット画像検索など,様々な学習課題について広範な実験を行った。 実験結果から,本手法が要求された探索効率を保証しつつ,高性能でフルアテンションなアーキテクチャを発見できることを示す。

Self-attention architectures have emerged as a recent advancement for improving the performance of vision tasks. Manual determination of the architecture for self-attention networks relies on the experience of experts and cannot automatically adapt to various scenarios. Meanwhile, neural architecture search (NAS) has significantly advanced the automatic design of neural architectures. Thus, it is appropriate to consider using NAS methods to discover a better self-attention architecture automatically. However, it is challenging to directly use existing NAS methods to search attention networks because of the uniform cell-based search space and the lack of long-term content dependencies. To address this issue, we propose a full-attention based NAS method. More specifically, a stage-wise search space is constructed that allows various attention operations to be adopted for different layers of a network. To extract global features, a self-supervised search algorithm is proposed that uses context auto-regression to discover the full-attention architecture. To verify the efficacy of the proposed methods, we conducted extensive experiments on various learning tasks, including image classification, fine-grained image recognition, and zero-shot image retrieval. The empirical results show strong evidence that our method is capable of discovering high-performance, full-attention architectures while guaranteeing the required search efficiency.
翻訳日:2021-11-16 14:33:53 公開日:2021-11-13
# uet-headpose: センサベースのトップビューヘッドポーズデータセット

UET-Headpose: A sensor-based top-view head pose dataset ( http://arxiv.org/abs/2111.07039v1 )

ライセンス: Link先を確認
Linh Nguyen Viet, Tuan Nguyen Dinh, Hoang Nguyen Viet, Duc Tran Minh, Long Tran Quoc(参考訳) 頭部姿勢推定は、3次元ベクトルの予測に関連する問題を解決することを目的とした課題であり、人間とロボットの相互作用や顧客の行動に多くの応用に役立つ。 従来の研究では、頭部ポーズデータを収集するための正確な方法が提案されている。 しかしこれらの方法は、ディープカメラや複雑な実験室環境の設定のような高価なデバイスを必要とする。 そこで本研究では,トップビュー・ヘッドポーズデータを用いたヘッドポーズ画像の収集に効率的なコストと簡易な設定を施した新しい手法,すなわちuet-headposeデータセットを提案する。 この方法は、深度カメラの代わりに絶対方向センサーを使用し、迅速かつ安価に設定できるが、良い結果が得られている。 実験を通じて、我々のデータセットは、その分布とCMU Panoptic Dataset \cite{CMU}のような利用可能なデータセットの違いを示した。 UET-Headposeデータセットやその他のヘッドポーズデータセットの使用に加えて、特にトップビュー画像において、UET-Headposeデータセットによるヘッドポーズ推定結果を大幅に上回るFSANet-Wideと呼ばれるフルレンジモデルも導入する。 また、このモデルは非常に軽量で、小さな画像を撮ります。

Head pose estimation is a challenging task that aims to solve problems related to predicting three dimensions vector, that serves for many applications in human-robot interaction or customer behavior. Previous researches have proposed some precise methods for collecting head pose data. But those methods require either expensive devices like depth cameras or complex laboratory environment setup. In this research, we introduce a new approach with efficient cost and easy setup to collecting head pose images, namely UET-Headpose dataset, with top-view head pose data. This method uses an absolute orientation sensor instead of Depth cameras to be set up quickly and small cost but still ensure good results. Through experiments, our dataset has been shown the difference between its distribution and available dataset like CMU Panoptic Dataset \cite{CMU}. Besides using the UET-Headpose dataset and other head pose datasets, we also introduce the full-range model called FSANet-Wide, which significantly outperforms head pose estimation results by the UET-Headpose dataset, especially on top-view images. Also, this model is very lightweight and takes small size images.
翻訳日:2021-11-16 14:31:08 公開日:2021-11-13
# 単語埋め込みに基づく近隣知識を用いたキーワード抽出

Keyphrase Extraction Using Neighborhood Knowledge Based on Word Embeddings ( http://arxiv.org/abs/2111.07198v1 )

ライセンス: Link先を確認
Yuchen Liang and Mohammed J. Zaki(参考訳) キーワード抽出(英: Keyphrase extract)は、文書内の主要なトピックのリストを提供する、テキスト文書中のいくつかの興味深いフレーズを見つけるタスクである。 既存のグラフベースのモデルの多くは、共起リンクを結合指標として使用し、構文要素の関係をモデル化している。 しかし、ある単語は文書内で異なる表現形式を持ち、いくつかの同義語を持つこともある。 単に共起情報を使うことは、この情報をキャプチャできない。 本稿では、単語埋め込みを背景知識として活用し、単語間グラフに意味情報を加えることにより、グラフベースのランキングモデルを強化する。 提案手法は,確立されたベンチマークデータセットを用いて評価し,単語の埋め込み近傍情報によりモデル性能が向上することを示す。

Keyphrase extraction is the task of finding several interesting phrases in a text document, which provide a list of the main topics within the document. Most existing graph-based models use co-occurrence links as cohesion indicators to model the relationship of syntactic elements. However, a word may have different forms of expression within the document, and may have several synonyms as well. Simply using co-occurrence information cannot capture this information. In this paper, we enhance the graph-based ranking model by leveraging word embeddings as background knowledge to add semantic information to the inter-word graph. Our approach is evaluated on established benchmark datasets and empirical results show that the word embedding neighborhood information improves the model performance.
翻訳日:2021-11-16 14:30:49 公開日:2021-11-13
# ナレッジトレースによる学習データ指導戦略

Learning Data Teaching Strategies Via Knowledge Tracing ( http://arxiv.org/abs/2111.07083v1 )

ライセンス: Link先を確認
Ghodai Abdelrahman, Qing Wang(参考訳) 教育は人間の学習において基本的な役割を担っている。 通常、人間の指導戦略は、学習の進捗を高める方法で教材を調整するための生徒の知識の進歩を評価することを伴う。 人間の教師は、タスクにおける重要な学習概念に関する生徒の知識をトレースすることでこれを達成できる。 現在の機械学習の指導方法は、学習タスクの基盤となる学習概念に注意を払わずに個々のトレーニングサンプルの進捗を直接評価する傾向があるため、このような教育戦略は機械学習ではまだうまく活用されていない。 本稿では,学習課題における複数の学習概念の知識の進歩を追跡することにより,学習モデルのためのデータ指導戦略を最適化する,知識拡張データ教育(kadt)と呼ばれる新しい手法を提案する。 具体的には、KADT法は、潜在学習概念の観点から、学生モデルの知識進捗を動的に捉えるための知識追跡モデルを含む。 次に,授業ラベルに関して生徒モデルの知識表現を蒸留する注意プーリング機構を開発し,批判的学習サンプルに対するデータ指導戦略の開発を可能にした。 本研究では,知識追跡,感情分析,映画推薦,画像分類を含む4つの異なる機械学習タスクにおけるkadt法の性能評価を行った。 最先端の手法と比較した結果は、KADTが全てのタスクにおいて他よりも一貫して優れていることを実証的に検証している。

Teaching plays a fundamental role in human learning. Typically, a human teaching strategy would involve assessing a student's knowledge progress for tailoring the teaching materials in a way that enhances the learning progress. A human teacher would achieve this by tracing a student's knowledge over important learning concepts in a task. Albeit, such teaching strategy is not well exploited yet in machine learning as current machine teaching methods tend to directly assess the progress on individual training samples without paying attention to the underlying learning concepts in a learning task. In this paper, we propose a novel method, called Knowledge Augmented Data Teaching (KADT), which can optimize a data teaching strategy for a student model by tracing its knowledge progress over multiple learning concepts in a learning task. Specifically, the KADT method incorporates a knowledge tracing model to dynamically capture the knowledge progress of a student model in terms of latent learning concepts. Then we develop an attention pooling mechanism to distill knowledge representations of a student model with respect to class labels, which enables to develop a data teaching strategy on critical training samples. We have evaluated the performance of the KADT method on four different machine learning tasks including knowledge tracing, sentiment analysis, movie recommendation, and image classification. The results comparing to the state-of-the-art methods empirically validate that KADT consistently outperforms others on all tasks.
翻訳日:2021-11-16 14:06:37 公開日:2021-11-13
# カリキュラム学習の統計的便益について

On the Statistical Benefits of Curriculum Learning ( http://arxiv.org/abs/2111.07126v1 )

ライセンス: Link先を確認
Ziping Xu and Ambuj Tewari(参考訳) カリキュラム学習(Curriculum Learning, CL)は、機械学習のトレーニング戦略である。 しかし、CLの利点に関する明確な理論的理解はいまだに欠けている。 本稿では,マルチタスク線形回帰問題におけるCLの利点について,構造化および非構造化条件下で検討する。 両方の設定において、最適なカリキュラムを提供するオラクルと、適切なカリキュラムをエージェントが適応的に学習しなければならない託宣なしでCLのミニマックスレートを導出する。 その結果、アダプティブ・ラーニングは、非構造化環境ではオラクルの学習よりも基本的に難しくなりますが、単に構造化された設定で少し余分な用語を導入するだけです。 理論と実践をつなぐために,先述のミニマックス率と比較し,局所予測利得の高いタスクを選択する一般的な経験的手法の正当性を示す。

Curriculum learning (CL) is a commonly used machine learning training strategy. However, we still lack a clear theoretical understanding of CL's benefits. In this paper, we study the benefits of CL in the multitask linear regression problem under both structured and unstructured settings. For both settings, we derive the minimax rates for CL with the oracle that provides the optimal curriculum and without the oracle, where the agent has to adaptively learn a good curriculum. Our results reveal that adaptive learning can be fundamentally harder than the oracle learning in the unstructured setting, but it merely introduces a small extra term in the structured setting. To connect theory with practice, we provide justification for a popular empirical method that selects tasks with highest local prediction gain by comparing its guarantees with the minimax rates mentioned above.
翻訳日:2021-11-16 14:05:00 公開日:2021-11-13
# 抽出法的要約のためのロバスト深層強化学習

Robust Deep Reinforcement Learning for Extractive Legal Summarization ( http://arxiv.org/abs/2111.07158v1 )

ライセンス: Link先を確認
Duy-Hung Nguyen, Bao-Sinh Nguyen, Nguyen Viet Dung Nghiem, Dung Tien Le, Mim Amina Khatun, Minh-Tien Nguyen, and Hung Le(参考訳) 法律文書は、しばしば長く複雑な構造やスタイルを持つため、法律文書の自動要約は重要な課題であり、それでも難しい課題である。 最近の深層モデルの訓練されたエンドツーエンドの差分損失は、自然テキストを十分に要約することができるが、法律領域に適用すると、結果が限られている。 本稿では,強化学習を用いて,現行の深層要約モデルの訓練を行い,法域における性能向上を図ることを提案する。 この目的のために、近似ポリシー最適化手法を採用し、語彙と意味の基準を満たす候補要約の生成を促す新しい報酬関数を導入する。 提案手法は,異なる要約バックボーンのトレーニングに応用し,3つの法定データセットにおける一貫性と大幅なパフォーマンス向上を観察する。

Automatic summarization of legal texts is an important and still a challenging task since legal documents are often long and complicated with unusual structures and styles. Recent advances of deep models trained end-to-end with differentiable losses can well-summarize natural text, yet when applied to legal domain, they show limited results. In this paper, we propose to use reinforcement learning to train current deep summarization models to improve their performance on the legal domain. To this end, we adopt proximal policy optimization methods and introduce novel reward functions that encourage the generation of candidate summaries satisfying both lexical and semantic criteria. We apply our method to training different summarization backbones and observe a consistent and significant performance gain across 3 public legal datasets.
翻訳日:2021-11-16 13:36:04 公開日:2021-11-13
# lomef:グローバルモデル時系列予測のための局所的な説明を生成するフレームワーク

LoMEF: A Framework to Produce Local Explanations for Global Model Time Series Forecasts ( http://arxiv.org/abs/2111.07001v1 )

ライセンス: Link先を確認
Dilini Rajapaksha, Christoph Bergmeir, Rob J Hyndman(参考訳) 複数の時系列にまたがってトレーニングされたグローバル予測モデル(GFM)は多くの予測競合や実世界のアプリケーションにおいて、単変量予測アプローチと比較して優れた結果を示している。 ETSやARIMAのような統計予測モデルの人気の1つの側面は、その相対的な単純さと解釈可能性(関連するラグ、傾向、季節性など)である。 これにより、予測に基づいて意思決定を行う際に、予測を理解することなくステークホルダーの信頼と信頼を減らすことができる。 この問題を軽減するために,本研究では,GFMからの予測を説明するために,新しい局所モデルに依存しない解釈可能性アプローチを提案する。 本研究は,1段階のグローバルブラックボックスモデル予測として,ブートストラップや直接的に得られる近隣地域のサンプル上でのGFMの予測に基づいて,解釈可能な(例えばETS)とみなす簡易な単変量代理モデルを訓練する。 その後, 正確性, 忠実性, 安定性, 理解性などの質的, 量的側面の両方において, グローバルモデルの予測に対する説明を評価し, アプローチの利点を示すことができる。

Global Forecasting Models (GFM) that are trained across a set of multiple time series have shown superior results in many forecasting competitions and real-world applications compared with univariate forecasting approaches. One aspect of the popularity of statistical forecasting models such as ETS and ARIMA is their relative simplicity and interpretability (in terms of relevant lags, trend, seasonality, and others), while GFMs typically lack interpretability, especially towards particular time series. This reduces the trust and confidence of the stakeholders when making decisions based on the forecasts without being able to understand the predictions. To mitigate this problem, in this work, we propose a novel local model-agnostic interpretability approach to explain the forecasts from GFMs. We train simpler univariate surrogate models that are considered interpretable (e.g., ETS) on the predictions of the GFM on samples within a neighbourhood that we obtain through bootstrapping or straightforwardly as the one-step-ahead global black-box model forecasts of the time series which needs to be explained. After, we evaluate the explanations for the forecasts of the global models in both qualitative and quantitative aspects such as accuracy, fidelity, stability and comprehensibility, and are able to show the benefits of our approach.
翻訳日:2021-11-16 13:22:45 公開日:2021-11-13
# 視覚変換器に関する調査

A Survey of Visual Transformers ( http://arxiv.org/abs/2111.06091v2 )

ライセンス: Link先を確認
Yang Liu, Yao Zhang, Yixin Wang, Feng Hou, Jin Yuan, Jiang Tian, Yang Zhang, Zhongchao Shi, Jianping Fan, Zhiqiang He(参考訳) 注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。 この重要な成果に触発されて、Transformerのようなアーキテクチャをコンピュータビジョン(CV)の分野に適用する先駆的な研究が最近行われ、様々なCVタスクにおいてその効果が示された。 コンボリューションニューラルネット(cnn)と比較して、視覚トランスフォーマーはimagenet、coco、ade20kといった複数のベンチマークで印象的なパフォーマンスを達成している。 本稿では,3つの基本的なCVタスク(分類,検出,セグメンテーション)に対して,100以上の視覚変換器を包括的に検討し,その動機,構造,利用シナリオに応じてこれらの手法を体系化する分類法を提案する。 トレーニング設定と指向タスクの違いから,これらのメソッドをさまざまな構成で評価して,さまざまなベンチマークではなく,簡単かつ直感的な比較を行った。 さらに我々は、トランスフォーマーが視覚的およびシーケンシャルなトランスフォーマー間のギャップを埋めるために、高レベルのセマンティックな埋め込みをスラックするなど、多くのアーキテクチャから際立つことができるような、必要不可欠な側面を明らかにした。 最後に、3つの将来的な研究方向が、さらなる投資のために提案されている。

Transformer, an attention-based encoder-decoder architecture, has revolutionized the field of natural language processing. Inspired by this significant achievement, some pioneering works have recently been done on adapting Transformerliked architectures to Computer Vision (CV) fields, which have demonstrated their effectiveness on various CV tasks. Relying on competitive modeling capability, visual Transformers have achieved impressive performance on multiple benchmarks such as ImageNet, COCO, and ADE20k as compared with modern Convolution Neural Networks (CNN). In this paper, we have provided a comprehensive review of over one hundred different visual Transformers for three fundamental CV tasks (classification, detection, and segmentation), where a taxonomy is proposed to organize these methods according to their motivations, structures, and usage scenarios. Because of the differences in training settings and oriented tasks, we have also evaluated these methods on different configurations for easy and intuitive comparison instead of only various benchmarks. Furthermore, we have revealed a series of essential but unexploited aspects that may empower Transformer to stand out from numerous architectures, e.g., slack high-level semantic embeddings to bridge the gap between visual and sequential Transformers. Finally, three promising future research directions are suggested for further investment.
翻訳日:2021-11-16 10:12:38 公開日:2021-11-13