このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。 技術的な詳細は開発者のBlogで紹介します。

下表は最大200件を表示しています。

PDF登録状況(最新200件)


TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 階層的ビジョンモデルにおけるスパース符号化による推論

Inference via Sparse Coding in a Hierarchical Vision Model ( http://arxiv.org/abs/2108.01548v1 )

ライセンス: CC BY 4.0
Joshua Bowren, Luis Sanchez-Giraldo, and Odelia Schwartz(参考訳) スパースコーディングは、計算の利点と生物学とのつながりのために、視覚野のモデルに取り入れられている。 しかし、空間性のレベルが視覚的タスクのパフォーマンスにどのように貢献するかはよく理解されていない。 本研究では、スパース符号化を既存の階層型v2モデル(hosoya and hyv\"arinen, 2015)に統合しているが、独立成分分析(ica)をスパース度を制御する明示的なスパース符号化に置き換えている。 トレーニング後、スパース符号化基底は、曲線やコーナーのような質的に異なる構造に類似した高いスパース度で機能する。 モデルの寄与度は,物体の分類を含む画像分類タスクと,図形の分類,テクスチャの分類,二線刺激間の角度予測を含む中レベルの視覚に関連するタスクで評価した。 さらに,v2 (freeman et al., 2013) で報告されたテクスチャ感度尺度と,削除された領域推定タスクとの比較検討を行った。 実験の結果,スパース符号化は画像の分類においてICAよりも悪い結果を示したが,スパース符号化の疎度を増大させることで,V2のテクスチャ感度レベルと削除画像領域の推測に適合できるのはスパース符号化のみであった。 より大きな削除画像領域に対する推論が可能になった。 スパース符号化におけるこの推論機能を実現するメカニズムを以下に説明する。

Sparse coding has been incorporated in models of the visual cortex for its computational advantages and connection to biology. But how the level of sparsity contributes to performance on visual tasks is not well understood. In this work, sparse coding has been integrated into an existing hierarchical V2 model (Hosoya and Hyv\"arinen, 2015), but replacing the Independent Component Analysis (ICA) with an explicit sparse coding in which the degree of sparsity can be controlled. After training, the sparse coding basis functions with a higher degree of sparsity resembled qualitatively different structures, such as curves and corners. The contributions of the models were assessed with image classification tasks, including object classification, and tasks associated with mid-level vision including figure-ground classification, texture classification, and angle prediction between two line stimuli. In addition, the models were assessed in comparison to a texture sensitivity measure that has been reported in V2 (Freeman et al., 2013), and a deleted-region inference task. The results from the experiments show that while sparse coding performed worse than ICA at classifying images, only sparse coding was able to better match the texture sensitivity level of V2 and infer deleted image regions, both by increasing the degree of sparsity in sparse coding. Higher degrees of sparsity allowed for inference over larger deleted image regions. The mechanism that allows for this inference capability in sparse coding is described here.
公開日:2021-08-03
翻訳日:2021-08-04 14:49:14
# (参考訳) 統計および人工知能を用いた不正情報サイバー攻撃検出モデルの有効性

Efficacy of Statistical and Artificial Intelligence-based False Information Cyberattack Detection Models for Connected Vehicles ( http://arxiv.org/abs/2108.01124v1 )

ライセンス: CC BY 4.0
Sakib Mahmud Khan, Gurcan Comert, Mashrur Chowdhury(参考訳) 接続された車両(CV)は、他のCVや接続されたインフラとの外部接続のために、車両自体や他の接続された車両や道路インフラの安全性を即座に損なうサイバー攻撃に脆弱である。 そのようなサイバー攻撃の1つは偽情報攻撃であり、外部の攻撃者は接続された車両に不正確な情報を注入し、最終的には前方衝突警告のような安全クリティカルなアプリケーションを妥協することで破滅的な結果をもたらす。 このような攻撃イベントの発生とターゲットは非常にダイナミックであり、リアルタイムおよび準リアルタイム検出が困難になる。 変更点モデルは、偽の情報攻撃によるリアルタイム異常検出に使用できる。 本稿では,CVデータにおけるサイバー攻撃検出のための予測最大化,累積要約,ベイズオンライン変更点アルゴリズムの3つの変化点統計モデルの評価を行った。 また、データセットの既知のパターンや未知のパターンを検出するために使用できるデータ駆動人工知能(AI)モデルでは、CVデータ内のリアルタイム異常を検出する可能性がある。 我々は、6つのAIモデルを用いて偽情報攻撃を検出し、攻撃を検出する性能を、開発した変更点モデルと比較した。 本研究は,AIモデルの性能よりもリアルタイムの偽情報攻撃検出において,変化点モデルの方が優れていることを示す。 トレーニング要件のない変更点モデルは、接続された車両における偽情報攻撃検出のためのAIモデルに代わる、実現可能かつ計算的に効率的である。

Connected vehicles (CVs), because of the external connectivity with other CVs and connected infrastructure, are vulnerable to cyberattacks that can instantly compromise the safety of the vehicle itself and other connected vehicles and roadway infrastructure. One such cyberattack is the false information attack, where an external attacker injects inaccurate information into the connected vehicles and eventually can cause catastrophic consequences by compromising safety-critical applications like the forward collision warning. The occurrence and target of such attack events can be very dynamic, making real-time and near-real-time detection challenging. Change point models, can be used for real-time anomaly detection caused by the false information attack. In this paper, we have evaluated three change point-based statistical models; Expectation Maximization, Cumulative Summation, and Bayesian Online Change Point Algorithms for cyberattack detection in the CV data. Also, data-driven artificial intelligence (AI) models, which can be used to detect known and unknown underlying patterns in the dataset, have the potential of detecting a real-time anomaly in the CV data. We have used six AI models to detect false information attacks and compared the performance for detecting the attacks with our developed change point models. Our study shows that change points models performed better in real-time false information attack detection compared to the performance of the AI models. Change point models having the advantage of no training requirements can be a feasible and computationally efficient alternative to AI models for false information attack detection in connected vehicles.
公開日:2021-08-02
翻訳日:2021-08-04 14:48:48
# (参考訳) クエリ指向多文書要約におけるマニフォールドランキングにおけるクエリ拡張の利用

Using Query Expansion in Manifold Ranking for Query-Oriented Multi-Document Summarization ( http://arxiv.org/abs/2108.01441v1 )

ライセンス: CC BY-SA 4.0
Quanye Jia, Rui Liu and Jianying Lin(参考訳) 多様体のランク付けはクエリ指向のマルチドキュメント要約にうまく適用されている。 文間の関係を利用するだけでなく、与えられたクエリと文の関係も利用する。 しかし、元のクエリの情報はしばしば不十分である。 そこで本研究では,この問題を解くために,多様体ランキングに組み合わされたクエリ拡張手法を提案する。 本手法は,問合せ語自身と知識ベースワードネットの情報を利用して同義語で問合せを展開するだけでなく,問合せ集合の情報を用いて様々な方法で問合せを展開する(拡張,分散展開,テキストランク拡大)。 従来の問合せ拡張法と比較して,複数の問合せ拡張法を組み合わせることにより,問合せ情報の表現性が向上すると同時に,マニホールドランキングに有用な試みを行う。 さらに,単語の重複度と単語間の近接度を用いて文間の類似度を算出する。 DUC 2006 と DUC2007 のデータセットを用いて実験を行い,提案手法がシステム性能を大幅に向上し,最先端システムに匹敵するシステムを実現することを示す。

Manifold ranking has been successfully applied in query-oriented multi-document summarization. It not only makes use of the relationships among the sentences, but also the relationships between the given query and the sentences. However, the information of original query is often insufficient. So we present a query expansion method, which is combined in the manifold ranking to resolve this problem. Our method not only utilizes the information of the query term itself and the knowledge base WordNet to expand it by synonyms, but also uses the information of the document set itself to expand the query in various ways (mean expansion, variance expansion and TextRank expansion). Compared with the previous query expansion methods, our method combines multiple query expansion methods to better represent query information, and at the same time, it makes a useful attempt on manifold ranking. In addition, we use the degree of word overlap and the proximity between words to calculate the similarity between sentences. We performed experiments on the datasets of DUC 2006 and DUC2007, and the evaluation results show that the proposed query expansion method can significantly improve the system performance and make our system comparable to the state-of-the-art systems.
公開日:2021-07-31
翻訳日:2021-08-04 14:48:23
# (参考訳) Recommenderシステムにおける強化学習によるシーケンス適応

Sequence Adaptation via Reinforcement Learning in Recommender Systems ( http://arxiv.org/abs/2108.01442v1 )

ライセンス: CC BY 4.0
Stefanos Antaris, Dimitrios Rafailidis(参考訳) ユーザが異なるシーケンシャルパターンを持つという事実を考慮すると、最先端のレコメンデーション戦略の主な欠点は、モデルのトレーニングに入力としてユーザとイテムインタラクションの固定シーケンス長が必要であることである。 これはレコメンデーションの精度を制限し、実際にはユーザーはシーケンシャルなレコメンデーションで異なるトレンドに従う。 したがって、ベースライン戦略は重要なシーケンシャルなインタラクションを無視したり、ユーザーのシーケンシャルな振る舞いに応じて冗長なインタラクションを持つモデルにノイズを加えることができる。 そこで本研究では,SARモデルを提案する。SARモデルはシーケンスパターンを学習するだけでなく,パーソナライズされた方法でユーザ同士のインタラクションのシーケンス長を調整する。 まず,ユーザの状態表現を一定の時間ステップで考慮し,rlエージェントが最適なシーケンス長をアクションとして計算しようとするアクタ-クリティックフレームワークを設計する。 さらに,コンピテンシーレコメンデーションの精度を批評家ネットワークの期待累積報酬と整合させると共に,アクターネットワークとのシーケンス長をパーソナライズした方法で適応させるように,共同損失関数を最適化する。 実世界の4つのデータセットに対する実験により,提案モデルがいくつかのベースラインアプローチよりも優れていることを示す。 最後に、実装をhttps://github.com/s tefanosantaris/sarで公開しています。

Accounting for the fact that users have different sequential patterns, the main drawback of state-of-the-art recommendation strategies is that a fixed sequence length of user-item interactions is required as input to train the models. This might limit the recommendation accuracy, as in practice users follow different trends on the sequential recommendations. Hence, baseline strategies might ignore important sequential interactions or add noise to the models with redundant interactions, depending on the variety of users' sequential behaviours. To overcome this problem, in this study we propose the SAR model, which not only learns the sequential patterns but also adjusts the sequence length of user-item interactions in a personalized manner. We first design an actor-critic framework, where the RL agent tries to compute the optimal sequence length as an action, given the user's state representation at a certain time step. In addition, we optimize a joint loss function to align the accuracy of the sequential recommendations with the expected cumulative rewards of the critic network, while at the same time we adapt the sequence length with the actor network in a personalized manner. Our experimental evaluation on four real-world datasets demonstrates the superiority of our proposed model over several baseline approaches. Finally, we make our implementation publicly available at https://github.com/s tefanosantaris/sar.
公開日:2021-07-31
翻訳日:2021-08-04 14:48:04
# (参考訳) the devil is in the gan: defending deep generative models against backdoor attack (英語)

The Devil is in the GAN: Defending Deep Generative Models Against Backdoor Attacks ( http://arxiv.org/abs/2108.01644v1 )

ライセンス: CC BY 4.0
Ambrish Rawat, Killian Levacher, Mathieu Sinn(参考訳) Deep Generative Models (DGM) は、複雑な高次元多様体からデータを合成することができる。 dgmsの業界応用には、(半)教師付き機械学習のパフォーマンス向上や公平さやプライバシーの懸念を軽減するためのデータ拡張が含まれている。 大規模なdgmは訓練が難しいことで悪名高く、専門的なスキル、大量のデータ、膨大な計算リソースを必要とする。 したがって、多くの企業が、未検証のサードパーティ(例えばオープンソースモデルリポジトリ)から事前訓練済みのDGMをソーシングすることに頼ることが期待できる。 本稿で示すように、そのようなデプロイメントシナリオは新たな攻撃面を生じさせ、敵が犠牲者組織内の機械学習開発パイプライン全体の完全性を損なう可能性がある。 具体的には,正規操作下で正規データを合成する破壊型dgmと,トリガー分布からサンプリングされた入力に対して指定された目標出力を生成する新たなトレーニング時間攻撃について述べる。 敵が乱数生成を克服する制御によって、有害なデータが機械学習開発パイプラインに入る様々なリスクを課し、被害者組織に物質的または評判的なダメージを与える可能性がある。 我々の攻撃は、攻撃ステルスと忠実性の二重目的を組み合わせた敵の損失関数に基づいている。 本稿では,GAN(Generative Adversarial Networks)やVAE(VAE),データドメイン(イメージ,オーディオ)など,さまざまなDGMアーキテクチャの有効性を示す。 我々の実験は、大規模産業レベルのDGMであっても、我々の攻撃は控えめな計算努力で実施できることを示している。 また,異なる防衛手法(静的・動的モデルと出力検査に基づく)の有効性について検討し,DGMの安全な使用方法を示す実用的な防衛戦略を定めている。

Deep Generative Models (DGMs) allow users to synthesize data from complex, high-dimensional manifolds. Industry applications of DGMs include data augmentation to boost performance of (semi-)supervised machine learning, or to mitigate fairness or privacy concerns. Large-scale DGMs are notoriously hard to train, requiring expert skills, large amounts of data and extensive computational resources. Thus, it can be expected that many enterprises will resort to sourcing pre-trained DGMs from potentially unverified third parties, e.g.~open source model repositories. As we show in this paper, such a deployment scenario poses a new attack surface, which allows adversaries to potentially undermine the integrity of entire machine learning development pipelines in a victim organization. Specifically, we describe novel training-time attacks resulting in corrupted DGMs that synthesize regular data under normal operations and designated target outputs for inputs sampled from a trigger distribution. Depending on the control that the adversary has over the random number generation, this imposes various degrees of risk that harmful data may enter the machine learning development pipelines, potentially causing material or reputational damage to the victim organization. Our attacks are based on adversarial loss functions that combine the dual objectives of attack stealth and fidelity. We show its effectiveness for a variety of DGM architectures (Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs)) and data domains (images, audio). Our experiments show that - even for large-scale industry-grade DGMs - our attack can be mounted with only modest computational efforts. We also investigate the effectiveness of different defensive approaches (based on static/dynamic model and output inspections) and prescribe a practical defense strategy that paves the way for safe usage of DGMs.
公開日:2021-08-03
翻訳日:2021-08-04 14:47:41
# (参考訳) ネットワーク支援潜在空間進化による辞書攻撃のためのマスタフェイス生成

Generating Master Faces for Dictionary Attacks with a Network-Assisted Latent Space Evolution ( http://arxiv.org/abs/2108.01077v1 )

ライセンス: CC BY 4.0
Ron Shmelkin, Tomer Friedlander, Lior Wolf(参考訳) マスターフェイス(master face)は、人口の大部分に顔認証を渡す顔画像である。 これらの顔は、ユーザー情報にアクセスせずに、成功の可能性の高いユーザーを偽装するのに使うことができる。 StyleGANフェイスジェネレータの潜伏埋め込み空間における進化的アルゴリズムを用いて,これらの顔の最適化を行う。 複数の進化戦略を比較し,適応度評価を加えることなく,有望なサンプルの方向に探索を指示するためにニューラルネットワークを用いた新しいアプローチを提案する。 以上の結果から,3つの主要な深部顔認識システムにおいて,マスタフェイスが10未満の人口(40%以上)を高い範囲でカバーすることが可能であることが判明した。

A master face is a face image that passes face-based identity-authenticat ion for a large portion of the population. These faces can be used to impersonate, with a high probability of success, any user, without having access to any user information. We optimize these faces, by using an evolutionary algorithm in the latent embedding space of the StyleGAN face generator. Multiple evolutionary strategies are compared, and we propose a novel approach that employs a neural network in order to direct the search in the direction of promising samples, without adding fitness evaluations. The results we present demonstrate that it is possible to obtain a high coverage of the population (over 40%) with less than 10 master faces, for three leading deep face recognition systems.
公開日:2021-08-01
翻訳日:2021-08-04 14:47:11
# (参考訳) ソナー画像の事前学習モデル

Pre-trained Models for Sonar Images ( http://arxiv.org/abs/2108.01111v1 )

ライセンス: CC BY 4.0
Matias Valdenegro-Toro and Alan Preciado-Grijalva and Bilal Wehbe(参考訳) 機械学習とニューラルネットワークは現在、ソナー知覚においてユビキタスだが、ソナー画像のためのデータや事前学習されたモデルがないため、コンピュータビジョン分野に遅れをとっている。 本稿では,Mine Debris Turntableデータセットを提示し,このデータセットでトレーニングしたトレーニング済みニューラルネットワークを生成し,ソナー画像の未学習モデルのギャップを埋めることを目的とした。 Resnet 20、MobileNets、DenseNet121、SqueezeNet、MiniXception、AutoencoderをMine Debrisのターンテーブルデータセット上で、32 x 32から96 x 96までの入力画像サイズでトレーニングしています。 また,gemini 720i ソナーを用いて収集したデータを用いて,低ショット分類のためのトランスファー・ラーニングを用いたモデルの評価を行った。 両データセットにおいて,事前学習したモデルが,低値 (クラス毎10~30サンプル) で良好な分類精度を達成できる優れた特徴を持つことを示す。 Geminiデータセットは、機能が他の種類のソナーセンサーに転送されることを検証する。 トレーニング済みのモデルとターンテーブルデータセットの公開リリースによるコミュニティのメリットを期待しています。

Machine learning and neural networks are now ubiquitous in sonar perception, but it lags behind the computer vision field due to the lack of data and pre-trained models specifically for sonar images. In this paper we present the Marine Debris Turntable dataset and produce pre-trained neural networks trained on this dataset, meant to fill the gap of missing pre-trained models for sonar images. We train Resnet 20, MobileNets, DenseNet121, SqueezeNet, MiniXception, and an Autoencoder, over several input image sizes, from 32 x 32 to 96 x 96, on the Marine Debris turntable dataset. We evaluate these models using transfer learning for low-shot classification in the Marine Debris Watertank and another dataset captured using a Gemini 720i sonar. Our results show that in both datasets the pre-trained models produce good features that allow good classification accuracy with low samples (10-30 samples per class). The Gemini dataset validates that the features transfer to other kinds of sonar sensors. We expect that the community benefits from the public release of our pre-trained models and the turntable dataset.
公開日:2021-08-02
翻訳日:2021-08-04 14:46:57
# (参考訳) 対脚把持検出のためのダブルドットネットワーク

Double-Dot Network for Antipodal Grasp Detection ( http://arxiv.org/abs/2108.01527v1 )

ライセンス: CC BY 4.0
Yao Wang, Yangtao Zheng, Boyang Gao and Di Huang(参考訳) 本論文では,ダブルドットネットワーク(dd-net)と呼ばれる対脚把持検出のための新しい深層学習手法を提案する。 これは最近のアンカーフリーオブジェクト検出フレームワークに準拠しており、経験的な事前セットアンカーに依存しないため、見えないオブジェクトに対してより一般化し柔軟な予測を可能にする。 具体的には、広く使われている5次元矩形とは異なり、グリッパー配置は指先の一対として定義される。 このような指先をローカライズするために効果的なCNNアーキテクチャを導入し、改良のための補助センターの助けを借りて、把握候補を正確かつ堅牢に推測する。 さらに,把持の質を測定するための特殊損失関数の設計を行い,対象検出に採用される境界ボックスのiouスコアとは対照的に,把持検出タスクに一貫性があることを示す。 シミュレーションとロボット実験の両方が実行され、dd-netは目に見えない物体の処理においてより優れていることを示している。

This paper proposes a new deep learning approach to antipodal grasp detection, named Double-Dot Network (DD-Net). It follows the recent anchor-free object detection framework, which does not depend on empirically pre-set anchors and thus allows more generalized and flexible prediction on unseen objects. Specifically, unlike the widely used 5-dimensional rectangle, the gripper configuration is defined as a pair of fingertips. An effective CNN architecture is introduced to localize such fingertips, and with the help of auxiliary centers for refinement, it accurately and robustly infers grasp candidates. Additionally, we design a specialized loss function to measure the quality of grasps, and in contrast to the IoU scores of bounding boxes adopted in object detection, it is more consistent to the grasp detection task. Both the simulation and robotic experiments are executed and state of the art accuracies are achieved, showing that DD-Net is superior to the counterparts in handling unseen objects.
公開日:2021-08-03
翻訳日:2021-08-04 14:46:36
# (参考訳) 拡張顕微鏡から位相トランスフォーマーへ : アルツハイマー病研究のための細胞画像解析の新しいアプローチ

From augmented microscopy to the topological transformer: a new approach in cell image analysis for Alzheimer's research ( http://arxiv.org/abs/2108.01625v1 )

ライセンス: CC BY 4.0
Wooseok Jung(参考訳) 細胞画像解析はアルツハイマー病の研究において、細胞機能を抑制するa$\beta$タンパク質の存在を検出するのに不可欠である。 ディープラーニングは、低レベルのデータのみを実りある検査に十分なものにすることで、プロセスをスピードアップする。 Unetは,マルチクラスセマンティックスセグメンテーションの性能を比較することで,拡張顕微鏡に最も適していることがわかった。 我々は,Unetモデルを用いて,光電場画像中の原子核を捕捉する拡張顕微鏡法を開発し,入力画像を位相情報列に変換する。 画像の前処理と地中生成の選択に関して, 交点オーバー結合に関する性能は一致している。 特定の細胞型のデータを用いたトレーニングモデルでは、ある程度の転送学習が適用される。 トポロジカルトランスフォーマーは、与えられた細胞の画像の幾何学的情報を含む永続シルエットまたはランドスケープシグネチャを抽出することを目的としている。 この特徴抽出は、画像を1次元データの集合として研究し、計算コストを大幅に削減する。 トランスフォーマを用いて, 位相的特徴のみに依存するセルタイプによるセルイメージのグルーピングを試みる。 SVM, XGBoost, LGBM, および単純な畳み込みニューラルネットワーク分類器の性能は, 従来の画像分類より劣る。 しかし,本研究では,画像解析のための深層学習とトポロジーを組み合わせることで,生体医学研究における新たな視点を開拓する。

Cell image analysis is crucial in Alzheimer's research to detect the presence of A$\beta$ protein inhibiting cell function. Deep learning speeds up the process by making only low-level data sufficient for fruitful inspection. We first found Unet is most suitable in augmented microscopy by comparing performance in multi-class semantics segmentation. We develop the augmented microscopy method to capture nuclei in a brightfield image and the transformer using Unet model to convert an input image into a sequence of topological information. The performance regarding Intersection-over-Un ion is consistent concerning the choice of image preprocessing and ground-truth generation. Training model with data of a specific cell type demonstrates transfer learning applies to some extent. The topological transformer aims to extract persistence silhouettes or landscape signatures containing geometric information of a given image of cells. This feature extraction facilitates studying an image as a collection of one-dimensional data, substantially reducing computational costs. Using the transformer, we attempt grouping cell images by their cell type relying solely on topological features. Performances of the transformers followed by SVM, XGBoost, LGBM, and simple convolutional neural network classifiers are inferior to the conventional image classification. However, since this research initiates a new perspective in biomedical research by combining deep learning and topology for image analysis, we speculate follow-up investigation will reinforce our genuine regime.
公開日:2021-08-03
翻訳日:2021-08-04 14:46:20
# (参考訳) 音声における助詞の自動認識

Automatic recognition of suprasegmentals in speech ( http://arxiv.org/abs/2108.01122v1 )

ライセンス: CC BY 4.0
Jiahong Yuan, Neville Ryant, Xingyu Cai, Kenneth Church, Mark Liberman(参考訳) 自動音声認識に成功しているCTCを用いた微調整wav2vec 2.0による上顎骨の自動認識の改善の試みを報告する。 本手法は,音節,音調,ピッチアクセントの自動認識における最先端性の向上を実証する。 声調最終音や声調音節を認識単位としてセグメント情報を利用することで、マンダリン音調認識を大幅に改善することができる。 言語モデルは、音節を認識単位として使用する場合に役立つが、音調が認識単位である場合には役に立たない。 最後に、マンダリン音の認識は、微調整wav2vec 2.0における2つのタスクを組み合わせることで、英語の音素認識の恩恵を受けることができる。

This study reports our efforts to improve automatic recognition of suprasegmentals by fine-tuning wav2vec 2.0 with CTC, a method that has been successful in automatic speech recognition. We demonstrate that the method can improve the state-of-the-art on automatic recognition of syllables, tones, and pitch accents. Utilizing segmental information, by employing tonal finals or tonal syllables as recognition units, can significantly improve Mandarin tone recognition. Language models are helpful when tonal syllables are used as recognition units, but not helpful when tones are recognition units. Finally, Mandarin tone recognition can benefit from English phoneme recognition by combing the two tasks in fine-tuning wav2vec 2.0.
公開日:2021-08-02
翻訳日:2021-08-04 14:45:54
# (参考訳) 音声感情認識における音素単位の役割

The Role of Phonetic Units in Speech Emotion Recognition ( http://arxiv.org/abs/2108.01132v1 )

ライセンス: CC BY 4.0
Jiahong Yuan, Xingyu Cai, Renjie Zheng, Liang Huang, Kenneth Church(参考訳) 本稿では,Wav2vec 2.0を用いた感情依存音声認識による感情認識手法を提案する。 提案手法は,ベンチマーク感情データセットであるIEMOCAPにおいて,これまでに報告された結果よりも大幅に改善された。 データセットや言語間の感情認識の正確性と堅牢性の観点から異なるタイプの音声単位が採用され、比較される。 音素モデル,幅広い音韻クラス,音節のモデルは全て発話モデルを大幅に上回り,音声単位が有効であり,音声感情認識に組み込むべきであることを示す。 最高のパフォーマンスは、幅広い音素クラスを使用することです。 感情認識タスクのための幅広い音韻クラスを最適なものにするには、さらなる研究が必要である。 最後に、wav2vec 2.0を微調整することで、音素よりも粗い音素単位や大きな音素単位を認識できることがわかりました。

We propose a method for emotion recognition through emotiondependent speech recognition using Wav2vec 2.0. Our method achieved a significant improvement over most previously reported results on IEMOCAP, a benchmark emotion dataset. Different types of phonetic units are employed and compared in terms of accuracy and robustness of emotion recognition within and across datasets and languages. Models of phonemes, broad phonetic classes, and syllables all significantly outperform the utterance model, demonstrating that phonetic units are helpful and should be incorporated in speech emotion recognition. The best performance is from using broad phonetic classes. Further research is needed to investigate the optimal set of broad phonetic classes for the task of emotion recognition. Finally, we found that Wav2vec 2.0 can be fine-tuned to recognize coarser-grained or larger phonetic units than phonemes, such as broad phonetic classes and syllables.
公開日:2021-08-02
翻訳日:2021-08-04 14:45:41
# (参考訳) NLG出力におけるエラーのアンダーレポートとその対策

Underreporting of errors in NLG output, and what to do about it ( http://arxiv.org/abs/2108.01182v1 )

ライセンス: CC BY 4.0
Emiel van Miltenburg, Miruna-Adriana Clinciu, Ond\v{r}ej Du\v{s}ek, Dimitra Gkatzia, Stephanie Inglis, Leo Lepp\"anen, Saad Mahamood, Emma Manning, Stephanie Schoch, Craig Thomson, Luou Wen(参考訳) 我々は,自然言語生成システムで発生するさまざまなエラーについて,厳密なアンダーレポーティングを観察する。 なぜなら、ミスはシステムがまだ改善されるべき場所を示す重要な指標だからです。 著者が全体的なパフォーマンス指標を報告していない場合、研究コミュニティは‘最先端’の研究によって示される特定の弱点について暗黙に残されている。 過誤報告の度合いを定量化するために,本研究では,誤りの特定,解析,報告を推奨する。

We observe a severe under-reporting of the different kinds of errors that Natural Language Generation systems make. This is a problem, because mistakes are an important indicator of where systems should still be improved. If authors only report overall performance metrics, the research community is left in the dark about the specific weaknesses that are exhibited by `state-of-the-art 7; research. Next to quantifying the extent of error under-reporting, this position paper provides recommendations for error identification, analysis and reporting.
公開日:2021-08-02
翻訳日:2021-08-04 14:45:27
# (参考訳) m2h2:会話におけるユーモア認識のためのマルチモーダルヒンディー語データセット

M2H2: A Multimodal Multiparty Hindi Dataset For Humor Recognition in Conversations ( http://arxiv.org/abs/2108.01260v1 )

ライセンス: CC BY-SA 4.0
Dushyant Singh Chauhan, Gopendra Vikram Singh, Navonil Majumder, Amir Zadeh, Asif Ekbal, Pushpak Bhattacharyya, Louis-philippe Morency, and Soujanya Poria(参考訳) 会話における感情認識は、多モーダルなセッティング(テキスト、音響、視覚など)を含む対話理解の重要性から、近年人気を集めている課題である。 ユーモアのデータセットはほとんど英語で書かれている。 しかし、多言語コンテンツが著しく伸びているため、多言語情報アクセスをサポートするモデルやシステムの構築には大きな需要がある。 そこで本研究では,テレビシリーズ『Shrimaan Shrimati Phir Se』の13話から6,191発の発声を含む会話におけるマルチモーダル・マルチパーティHindi Humor(M2H2)認識データセットを提案する。 それぞれの発話はユーモア/非感情ラベルでアノテートされ、音響、視覚、テキストのモダリティを含む。 本稿では,会話におけるユーモア認識のためのコンテキスト情報とマルチモーダル情報の重要性を示す。 M2H2データセットにおける実験結果から,マルチモーダル情報はユーモア認識のための単調な情報を補完することが示された。 データセットとベースラインはhttp://www.iitp.ac.i n/~ai-nlp-ml/resourc es.htmlとhttps://github.com/d eclare-lab/M2H2-data setで入手できる。

Humor recognition in conversations is a challenging task that has recently gained popularity due to its importance in dialogue understanding, including in multimodal settings (i.e., text, acoustics, and visual). The few existing datasets for humor are mostly in English. However, due to the tremendous growth in multilingual content, there is a great demand to build models and systems that support multilingual information access. To this end, we propose a dataset for Multimodal Multiparty Hindi Humor (M2H2) recognition in conversations containing 6,191 utterances from 13 episodes of a very popular TV series "Shrimaan Shrimati Phir Se". Each utterance is annotated with humor/non-humor labels and encompasses acoustic, visual, and textual modalities. We propose several strong multimodal baselines and show the importance of contextual and multimodal information for humor recognition in conversations. The empirical results on M2H2 dataset demonstrate that multimodal information complements unimodal information for humor recognition. The dataset and the baselines are available at http://www.iitp.ac.i n/~ai-nlp-ml/resourc es.html and https://github.com/d eclare-lab/M2H2-data set.
公開日:2021-08-03
翻訳日:2021-08-04 14:45:19
# (参考訳) ニューラルマシン翻訳のための動的頭部重要度計算機構

A Dynamic Head Importance Computation Mechanism for Neural Machine Translation ( http://arxiv.org/abs/2108.01377v1 )

ライセンス: CC BY 4.0
Akshay Goindani and Manish Shrivastava(参考訳) 複数のアテンションヘッドを使用するマルチパラレルアテンション機構は、ニューラルネットワーク翻訳(nmt)やテキスト分類など、様々な用途においてトランスフォーマーモデルの性能を高める。 マルチヘッドアテンション機構では、異なるヘッドが入力の異なる部分に参加する。 しかし、制限は、複数のヘッドが入力の同じ部分に参加する可能性があり、結果として複数のヘッドが冗長になる。 したがって、モデルリソースは未利用である。 これを避けるための1つのアプローチは、特定の重要度スコアに基づいて、最小の重要度を推定することである。 本研究では,入力に対する頭部の重要性を動的に計算する動的頭部重要度計算機構(DHICM)の設計に焦点を当てる。 我々の洞察は、多視点の注意と共に追加の注意層を設計し、入力とともに多視点の注意の出力を利用して、各頭部の重要度を計算することである。 さらに、モデルがすべてのヘッドに同じスコアを割り当てることを防ぐために、余分な損失関数を追加し、より重要なヘッドを特定し、性能を即興的に向上させる。 異なる言語を用いたNMTにおけるDHICMの性能解析を行った。 異なるデータセットの実験によると、DHICMは従来のTransformerベースのアプローチよりも、特にトレーニングデータが少ない場合には、大きなマージンでパフォーマンスが向上する。

Multiple parallel attention mechanisms that use multiple attention heads facilitate greater performance of the Transformer model for various applications e.g., Neural Machine Translation (NMT), text classification. In multi-head attention mechanism, different heads attend to different parts of the input. However, the limitation is that multiple heads might attend to the same part of the input, resulting in multiple heads being redundant. Thus, the model resources are under-utilized. One approach to avoid this is to prune least important heads based on certain importance score. In this work, we focus on designing a Dynamic Head Importance Computation Mechanism (DHICM) to dynamically calculate the importance of a head with respect to the input. Our insight is to design an additional attention layer together with multi-head attention, and utilize the outputs of the multi-head attention along with the input, to compute the importance for each head. Additionally, we add an extra loss function to prevent the model from assigning same score to all heads, to identify more important heads and improvise performance. We analyzed performance of DHICM for NMT with different languages. Experiments on different datasets show that DHICM outperforms traditional Transformer-based approach by large margin, especially, when less training data is available.
公開日:2021-08-03
翻訳日:2021-08-04 14:45:00
# (参考訳) $\textrm{WeaSuL}^{\pi}$:Weakly Supervised Dialogue Policy Learning: Reward Estimation for Multi-turn Dialogue

$\textrm{WeaSuL}^{\pi}$: Weakly Supervised Dialogue Policy Learning: Reward Estimation for Multi-turn Dialogue ( http://arxiv.org/abs/2108.01487v1 )

ライセンス: CC BY-SA 4.0
Anant Khandelwal(参考訳) マルチターン設定におけるインテリジェントな対話システムは,高品質な応答を生成するだけでなく,対話の長期的成功につながる可能性のある応答を生成する必要がある。 しかし,現在のアプローチでは応答品質は向上したが,対話データに現れる訓練信号は見過ごされている。 これらの信号を利用して、弱い教師付きトレーニングデータを生成し、ダイアログポリシーと報奨推定器を学習し、成功(リワード)会話の今後の方向性を予測するためのアクション(応答の生成)を行う。 エージェントとユーザとの対話(教師付き学習目的のエージェントに似てモデル化された)をシミュレートし、互いに対話する。 エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。 それぞれの擬似状態-作用対は、セマンティック関連、セマンティックコヒーレンス、一貫性フローの3つの品質モジュールで評価される(弱いアノテーションとして機能する)。 2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、自動評価と人的判断の両方で会話を成功させることを示す。

An intelligent dialogue system in a multi-turn setting should not only generate the responses which are of good quality, but it should also generate the responses which can lead to long-term success of the dialogue. Although, the current approaches improved the response quality, but they over-look the training signals present in the dialogue data. We can leverage these signals to generate the weakly supervised training data for learning dialog policy and reward estimator, and make the policy take actions (generates responses) which can foresee the future direction for a successful (rewarding) conversation. We simulate the dialogue between an agent and a user (modelled similar to an agent with supervised learning objective) to interact with each other. The agent uses dynamic blocking to generate ranked diverse responses and exploration-exploita tion to select among the Top-K responses. Each simulated state-action pair is evaluated (works as a weak annotation) with three quality modules: Semantic Relevant, Semantic Coherence and Consistent Flow. Empirical studies with two benchmarks indicate that our model can significantly out-perform the response quality and lead to a successful conversation on both automatic evaluation and human judgement.
公開日:2021-08-01
翻訳日:2021-08-04 14:44:38
# (参考訳) ExBERT: 自然言語推論のための外部知識強化BERT

ExBERT: An External Knowledge Enhanced BERT for Natural Language Inference ( http://arxiv.org/abs/2108.01589v1 )

ライセンス: CC BY-SA 4.0
Amit Gajbhiye, Noura Al Moubayed, Steven Bradley(参考訳) BERTのようなニューラルネットワーク表現モデルは、大規模非構造化コーパスで事前訓練されており、現実世界のコモンセンス知識に明確な根拠がなく、推論や推論に必要な事実を記憶できないことが多い。 自然言語推論(英: natural language inference、nli)は、言語と現実世界の常識知識の共通理解に依存する難しい推論タスクである。 我々は,外部知識源からの実世界のコモンセンス知識による文脈表現を強化し,BERTの言語理解と推論能力を向上させるために,external Knowledge Enhanced BERT (ExBERT) と呼ばれるNLIの新しいモデルを導入する。 ExBERTは、BERTから得られた文脈表現を最大限に活用し、知識グラフから関連する外部知識を取得し、検索した外部知識を符号化する。 我々のモデルは、入力に対する推論に必要な外部知識コンテキストを適応的に組み込む。 挑戦的なSciTailとSNLIベンチマークに関する大規模な実験では、ExBERTの有効性が示され、従来の最先端技術と比較して、SciTailでは95.9%、SNLIでは91.5%の精度が得られた。

Neural language representation models such as BERT, pre-trained on large-scale unstructured corpora lack explicit grounding to real-world commonsense knowledge and are often unable to remember facts required for reasoning and inference. Natural Language Inference (NLI) is a challenging reasoning task that relies on common human understanding of language and real-world commonsense knowledge. We introduce a new model for NLI called External Knowledge Enhanced BERT (ExBERT), to enrich the contextual representation with real-world commonsense knowledge from external knowledge sources and enhance BERT's language understanding and reasoning capabilities. ExBERT takes full advantage of contextual word representations obtained from BERT and employs them to retrieve relevant external knowledge from knowledge graphs and to encode the retrieved external knowledge. Our model adaptively incorporates the external knowledge context required for reasoning over the inputs. Extensive experiments on the challenging SciTail and SNLI benchmarks demonstrate the effectiveness of ExBERT: in comparison to the previous state-of-the-art, we obtain an accuracy of 95.9% on SciTail and 91.5% on SNLI.
公開日:2021-08-03
翻訳日:2021-08-04 14:44:17
# (参考訳) 境界知識翻訳に基づく参照意味セグメンテーション

Boundary Knowledge Translation based Reference Semantic Segmentation ( http://arxiv.org/abs/2108.01075v1 )

ライセンス: CC BY 4.0
Lechao Cheng, Zunlei Feng, Xinchao Wang, Ya Jie Liu, Jie Lei, Mingli Song(参考訳) 画像中の未知のタイプの参照オブジェクトが与えられた場合、人間の観察者は、他の画像で同じカテゴリのオブジェクトを見つけ、その視覚的境界を正確に判断することができる。 このような人間の視覚認知能力は、現在のコンピュータビジョンの研究スペクトルに欠如しているように見える。 例えば、既存のセグメンテーションネットワークは、膨大な量のラベル付きデータを頼りにしており、収集や注釈に手間がかかり、またセグメンテーションネットワークのパフォーマンスはカテゴリの数が増えるにつれて低下する傾向にある。 本稿では,視覚境界知識翻訳を行うための参照セマンティックセマンティックネットワーク(Ref-Net)を提案する。 Ref-Netには参照セグメンテーションモジュール(RSM)と境界知識翻訳モジュール(BKTM)が含まれている。 人間の認識機構にインスパイアされたrsmは、参照オブジェクトの特徴に基づいて同じカテゴリオブジェクトをセグメンテーションするためにのみ考案された。 一方、BKTMでは、2つの境界識別器の分岐を導入し、対象オブジェクトの内部および外部の境界セグメンテーションを対角的に行い、オープンソースデータセットの注釈付き境界知識をセグメンテーションネットワークに変換する。 発掘実験では、数十の細かい注釈付きサンプルをガイダンスとして、Ref-Netは6つのデータセットの完全な教師付きメソッドと同等の結果を得ることを示した。

Given a reference object of an unknown type in an image, human observers can effortlessly find the objects of the same category in another image and precisely tell their visual boundaries. Such visual cognition capability of humans seems absent from the current research spectrum of computer vision. Existing segmentation networks, for example, rely on a humongous amount of labeled data, which is laborious and costly to collect and annotate; besides, the performance of segmentation networks tend to downgrade as the number of the category increases. In this paper, we introduce a novel Reference semantic segmentation Network (Ref-Net) to conduct visual boundary knowledge translation. Ref-Net contains a Reference Segmentation Module (RSM) and a Boundary Knowledge Translation Module (BKTM). Inspired by the human recognition mechanism, RSM is devised only to segment the same category objects based on the features of the reference objects. BKTM, on the other hand, introduces two boundary discriminator branches to conduct inner and outer boundary segmentation of the target objectin an adversarial manner, and translate the annotated boundary knowledge of open-source datasets into the segmentation network. Exhaustive experiments demonstrate that, with tens of finely-grained annotated samples as guidance, Ref-Net achieves results on par with fully supervised methods on six datasets.
公開日:2021-08-01
翻訳日:2021-08-04 14:43:57
# (参考訳) CanvasVAE: ベクトルグラフ文書の生成を学ぶ

CanvasVAE: Learning to Generate Vector Graphic Documents ( http://arxiv.org/abs/2108.01249v1 )

ライセンス: CC BY 4.0
Kota Yamaguchi(参考訳) ベクトルグラフィック文書は解像度のないコンパクトなフォーマットで視覚要素を提示し、クリエイティブなアプリケーションでよく見られる。 本研究では,ベクトルグラフィック文書の生成モデルを学習しようと試みる。 ベクトルグラフィック文書を,キャンバスに関連付けられた属性と形状,画像,テキストなどの視覚要素の列によって定義し,文書の表現を学習するための変分自動エンコーダを訓練する。 私たちは、occluded要素を含む完全なドキュメント構造を備えたオンラインサービスからデザインテンプレートの新しいデータセットを収集します。 実験では、canvasvae というモデルがベクトル図形文書の生成的モデリングにおいて強力なベースラインとなっていることを示す。

Vector graphic documents present visual elements in a resolution free, compact format and are often seen in creative applications. In this work, we attempt to learn a generative model of vector graphic documents. We define vector graphic documents by a multi-modal set of attributes associated to a canvas and a sequence of visual elements such as shapes, images, or texts, and train variational auto-encoders to learn the representation of the documents. We collect a new dataset of design templates from an online service that features complete document structure including occluded elements. In experiments, we show that our model, named CanvasVAE, constitutes a strong baseline for generative modeling of vector graphic documents.
公開日:2021-08-03
翻訳日:2021-08-04 14:43:35
# (参考訳) 弱教師付きセマンティクスセグメンテーションのための適応的親和性損失と誤った擬似ラベル細分化

Adaptive Affinity Loss and Erroneous Pseudo-Label Refinement for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2108.01344v1 )

ライセンス: CC BY 4.0
Xiangrong Zhang, Zelin Peng, Peng Zhu, Tianyang Zhang, Chen Li, Huiyu Zhou, Licheng Jiao(参考訳) セマンティックセグメンテーションは過去10年間で継続的に研究され、確立された技術の大部分は教師付きモデルに基づいている。 近年、画像レベルの弱い教師付きセマンティックセグメンテーション(wsss)がデータラベリング効率により注目されている。 本稿では,多段階アプローチの親和性学習を単段モデルに組み込むことを提案する。 具体的には,局所的なペアワイズ親和性を徹底的に学習するために適応親和性損失を導入する。 このように、深層ニューラルネットワークを使用して、最終予測モジュールの性能を改善しながら、トレーニングフェーズで包括的な意味情報を提供する。 一方,疑似ラベルに誤りが存在することを考慮し,オーバーフィッティングを緩和する新しいラベル再割り当て損失を提案する。 pascal voc 2012データセットでは、提案手法の有効性を評価するために、他の標準の単段法よりも優れ、複数の多段法と同等の性能を達成している。

Semantic segmentation has been continuously investigated in the last ten years, and majority of the established technologies are based on supervised models. In recent years, image-level weakly supervised semantic segmentation (WSSS), including single- and multi-stage process, has attracted large attention due to data labeling efficiency. In this paper, we propose to embed affinity learning of multi-stage approaches in a single-stage model. To be specific, we introduce an adaptive affinity loss to thoroughly learn the local pairwise affinity. As such, a deep neural network is used to deliver comprehensive semantic information in the training phase, whilst improving the performance of the final prediction module. On the other hand, considering the existence of errors in the pseudo labels, we propose a novel label reassign loss to mitigate over-fitting. Extensive experiments are conducted on the PASCAL VOC 2012 dataset to evaluate the effectiveness of our proposed approach that outperforms other standard single-stage methods and achieves comparable performance against several multi-stage methods.
公開日:2021-08-03
翻訳日:2021-08-04 14:43:23
# (参考訳) evo-vit: ダイナミックビジョントランスフォーマーのための低速トークン進化

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer ( http://arxiv.org/abs/2108.01390v1 )

ライセンス: CC0 1.0
Yifan Xu, Zhijie Zhang, Mengdan Zhang, Kekai Sheng, Ke Li, Weiming Dong, Liqing Zhang, Changsheng Xu, Xing Sun(参考訳) 視覚変換器は最近爆発的な人気を得たが、計算コストは依然として深刻な問題である。 視覚トランスフォーマーの最近の効率的な設計は、2つのパイプライン、すなわち局所空間前置および非構造トークンプラニングに基づく構造的圧縮に従う。 しかしながら、ラフトークンの刈り取りは、局所空間に必要不可欠な空間構造を壊す。 2つのパイプラインの利点を生かすために、この研究は、各インスタンスのインフォーマティブなトークンを動的に識別し、完全な空間構造と情報フローを維持しながら、トレーニングと推論の複雑さを縮小することを目指している。 この目的を達成するために,視覚変換器の自己モチベーションの遅いトークン進化手法であるEvo-ViTを提案する。 具体的には,視覚トランスフォーマー特有のグローバルクラスの注意を生かして,非構造化インスタンス単位のトークン選択を行う。 そこで本稿では,情報トークンとプレースホルダトークンの更新を提案する。 情報の流れと空間構造を保証する低速な更新機構のおかげで、evo-vitはトレーニングプロセスの初期段階から、フラット構造とディープナロー構造のバニラトランスフォーマを加速することができる。 実験により,提案手法は画像分類において同等の性能を維持しつつ,視覚変換器の計算コストを大幅に削減できることを示した。 例えば,0.4%のtop-1精度を犠牲にしながら,deit-sを60%以上のスループットで高速化する。

Vision transformers have recently received explosive popularity, but huge computational cost is still a severe issue. Recent efficient designs for vision transformers follow two pipelines, namely, structural compression based on local spatial prior and non-structural token pruning. However, rough token pruning breaks the spatial structure that is indispensable for local spatial prior. To take advantage of both two pipelines, this work seeks to dynamically identify uninformative tokens for each instance and trim down both the training and inference complexity while maintain complete spatial structure and information flow. To achieve this goal, we propose Evo-ViT, a self-motivated slow-fast token evolution method for vision transformers. Specifically, we conduct unstructured instance-wise token selection by taking advantage of the global class attention that is unique to vision transformers. Then, we propose to update information tokens and placeholder tokens that contribute little to the final prediction with different computational properties, namely, slow-fast updating. Thanks to the slow-fast updating mechanism that guarantees information flow and spatial structure, our Evo-ViT can accelerate vanilla transformers of both flat and deep-narrow structures from the very beginning of the training process. Experimental results demonstrate that the proposed method can significantly reduce the computational costs of vision transformers while maintaining comparable performance on image classification. For example, our method accelerates DeiT-S by over 60% throughput while only sacrificing 0.4% top-1 accuracy.
公開日:2021-08-03
翻訳日:2021-08-04 14:43:04
# (参考訳) ハイパースペクトル画像認識のためのドメインアダプタネットワーク

Domain Adaptor Networks for Hyperspectral Image Recognition ( http://arxiv.org/abs/2108.01555v1 )

ライセンス: CC BY 4.0
Gustavo Perez and Subhransu Maji(参考訳) 本研究では,3チャンネルカラー画像に訓練されたネットワークを,多数のチャネルを有する超スペクトル領域に適用する問題を考える。 そこで本稿では,ImageNetなどの大規模カラー画像データセットでトレーニングされたネットワークと互換性のある入力をマップするドメインアダプタネットワークを提案する。 アダプタは、スクラッチからネットワークをトレーニングすることが効果的でない小さなハイパースペクトルデータセットで学習することができる。 適応者を訓練するためのアーキテクチャや戦略を調査し、複数のハイパースペクトルデータセットからなるベンチマークで評価する。 線形射影や部分集合選択のような単純なスキームは、しばしば最も効果的であるが、場合によっては性能が低下する可能性がある。 また,ネットワークの中間層に新たなマルチビューアダプタを組み込むことにより,さらなる改善を実現する。 これらの適応子が提供する精度と計算トレードオフを特徴付けるために,ベンチマークのトレーニング例の数を変えることで,広範な実験を行う。

We consider the problem of adapting a network trained on three-channel color images to a hyperspectral domain with a large number of channels. To this end, we propose domain adaptor networks that map the input to be compatible with a network trained on large-scale color image datasets such as ImageNet. Adaptors enable learning on small hyperspectral datasets where training a network from scratch may not be effective. We investigate architectures and strategies for training adaptors and evaluate them on a benchmark consisting of multiple hyperspectral datasets. We find that simple schemes such as linear projection or subset selection are often the most effective, but can lead to a loss in performance in some cases. We also propose a novel multi-view adaptor where of the inputs are combined in an intermediate layer of the network in an order invariant manner that provides further improvements. We present extensive experiments by varying the number of training examples in the benchmark to characterize the accuracy and computational trade-offs offered by these adaptors.
公開日:2021-08-03
翻訳日:2021-08-04 14:42:37
# (参考訳) SPG-VTON:多目的仮想試行のための意味予測ガイダンス

SPG-VTON: Semantic Prediction Guidance for Multi-pose Virtual Try-on ( http://arxiv.org/abs/2108.01578v1 )

ライセンス: CC BY 4.0
Bingwen Hu, Ping Liu, Zhedong Zheng, and Mingwu Ren(参考訳) イメージベースの仮想試着は、多様な人間のポーズの下で、ターゲットのインショップ服を基準人物に適合させることが難しい。 以前の作品では、特定のポーズで対象人物に希望の服を移す際に、衣料品の詳細(テクスチャ、ロゴ、パターンなど)を保存することに焦点を当てていた。 しかし、既存のメソッドをマルチ目的仮想トライオンに拡張する際、既存のメソッドのパフォーマンスは大幅に低下した。 本稿では,目的の衣服を任意のポーズで基準人物に適合させることができる,エンドツーエンド意味予測ガイダンスマルチポステッド仮想試着ネットワーク(spg-vton)を提案する。 具体的には、SPG-VTONは3つのサブモジュールから構成される。 まず、意味予測モジュール(SPM)が所望のセマンティックマップを生成する。 予測されたセマンティックマップは、望ましい衣服領域を特定し、粗い試着画像を生成するためのより豊富なガイダンスを提供する。 第二に、CWM(Crothes Warping Module)は、予測されたセマンティックマップと所望のポーズに従って、洋服を所望の形状にワープする。 具体的には, 衣服の反りを緩和するために, 導電性サイクル一貫性の損失を導入する。 第3に、試着合成モジュール(TSM)は、粗い結果と歪んだ服を組み合わせ、最終的な仮想試着画像を生成し、所望の服の詳細と所望のポーズで保存する。 さらに,顔の外観を洗練し,最終的な仮想トライオン結果の同一性を維持するために,顔のアイデンティティ損失を導入する。 提案手法を,最大規模の多目的データセット(MPV)とDeepFashionデータセットで評価する。 定性的かつ定量的な実験は、SPG-VTONが最先端の手法よりも優れており、背景やアクセサリの変更、すなわち帽子やハンドバッグなどのデータノイズに対して堅牢であり、現実のシナリオに優れたスケーラビリティを示すことを示している。

Image-based virtual try-on is challenging in fitting a target in-shop clothes into a reference person under diverse human poses. Previous works focus on preserving clothing details ( e.g., texture, logos, patterns ) when transferring desired clothes onto a target person under a fixed pose. However, the performances of existing methods significantly dropped when extending existing methods to multi-pose virtual try-on. In this paper, we propose an end-to-end Semantic Prediction Guidance multi-pose Virtual Try-On Network (SPG-VTON), which could fit the desired clothing into a reference person under arbitrary poses. Concretely, SPG-VTON is composed of three sub-modules. First, a Semantic Prediction Module (SPM) generates the desired semantic map. The predicted semantic map provides more abundant guidance to locate the desired clothes region and produce a coarse try-on image. Second, a Clothes Warping Module (CWM) warps in-shop clothes to the desired shape according to the predicted semantic map and the desired pose. Specifically, we introduce a conductible cycle consistency loss to alleviate the misalignment in the clothes warping process. Third, a Try-on Synthesis Module (TSM) combines the coarse result and the warped clothes to generate the final virtual try-on image, preserving details of the desired clothes and under the desired pose. Besides, we introduce a face identity loss to refine the facial appearance and maintain the identity of the final virtual try-on result at the same time. We evaluate the proposed method on the most massive multi-pose dataset (MPV) and the DeepFashion dataset. The qualitative and quantitative experiments show that SPG-VTON is superior to the state-of-the-art methods and is robust to the data noise, including background and accessory changes, i.e., hats and handbags, showing good scalability to the real-world scenario.
公開日:2021-08-03
翻訳日:2021-08-04 14:42:25
# (参考訳) カザフ語・ロシア語・英語における多言語エンドツーエンド音声認識の検討

A Study of Multilingual End-to-End Speech Recognition for Kazakh, Russian, and English ( http://arxiv.org/abs/2108.01280v1 )

ライセンス: CC BY 4.0
Saida Mussakhojayeva, Yerbolat Khassanov, Huseyin Atakan Varol(参考訳) 我々は、カザフスタンで使われている3つの言語(カザフ語、ロシア語、英語)に対して、1つのエンドツーエンド(E2E)自動音声認識(ASR)モデルを訓練する。 まず,トランスフォーマーネットワークに基づく多言語e2e asrの開発について述べるとともに,上記の言語について広範な評価を行った。 また,出力グラフ集合の構成の2つの変種を比較した。 さらに,多言語E2E ASRの認識性能に及ぼすLMとデータ拡張技術の影響を評価した。 さらに,トレーニングや評価のためのデータセットをいくつか提示する。 実験結果から,多言語モデルでは,同じ数のパラメータを持つ単言語ベースラインに匹敵する性能が得られた。 最善の単言語モデルと多言語モデルはそれぞれ20.9%と20.5%の単語誤り率を達成した。 実験と結果の再現性を確保するため、トレーニングレシピ、データセット、トレーニング済みモデルを共有します。

We study training a single end-to-end (E2E) automatic speech recognition (ASR) model for three languages used in Kazakhstan: Kazakh, Russian, and English. We first describe the development of multilingual E2E ASR based on Transformer networks and then perform an extensive assessment on the aforementioned languages. We also compare two variants of output grapheme set construction: combined and independent. Furthermore, we evaluate the impact of LMs and data augmentation techniques on the recognition performance of the multilingual E2E ASR. In addition, we present several datasets for training and evaluation purposes. Experiment results show that the multilingual models achieve comparable performances to the monolingual baselines with a similar number of parameters. Our best monolingual and multilingual models achieved 20.9% and 20.5% average word error rates on the combined test set, respectively. To ensure the reproducibility of our experiments and results, we share our training recipes, datasets, and pre-trained models.
公開日:2021-08-03
翻訳日:2021-08-04 14:41:50
# (参考訳) ロボットグラスピング・マニピュレーションコンペティションの課題と進展

Research Challenges and Progress in Robotic Grasping and Manipulation Competitions ( http://arxiv.org/abs/2108.01483v1 )

ライセンス: CC BY 4.0
Yu Sun, Joe Falco, Maximo A. Roa, and Berk Calli(参考訳) 本稿では,ロボットグリップ・マニピュレーション・コンペティション(RGMC)におけるロボットの把握と操作に関する最近の研究動向について述べる。 まず,ロボット操作分野に関する過去のベンチマークとコンペの概要について述べる。 次に,RGMCにおける操作タスク設計の方法論について議論する。 近年,各タスクの主要な課題を詳細に分析し,競合するチームのパフォーマンスに基づいて最も困難な側面を特定している。 このような分析は、ロボット操作領域の今後の研究方向を決定する洞察に富んでいると信じている。

This paper discusses recent research progress in robotic grasping and manipulation in the light of the latest Robotic Grasping and Manipulation Competitions (RGMCs). We first provide an overview of past benchmarks and competitions related to the robotics manipulation field. Then, we discuss the methodology behind designing the manipulation tasks in RGMCs. We provide a detailed analysis of key challenges for each task and identify the most difficult aspects based on the competing teams' performance in recent years. We believe that such an analysis is insightful to determine the future research directions for the robotic manipulation domain.
公開日:2021-08-03
翻訳日:2021-08-04 14:41:37
# (参考訳) 人工知能のソフトウェア工学への応用 : 従来の知恵に挑戦するレビュー

The application of artificial intelligence in software engineering: a review challenging conventional wisdom ( http://arxiv.org/abs/2108.01591v1 )

ライセンス: CC BY 4.0
Feras A. Batarseh, Rasika Mohod, Abhinav Kumar, Justin Bui(参考訳) 人工知能(AI)の分野は、最近の研究、ツール開発、アプリケーションのデプロイの急増を目撃している。 複数のソフトウェア企業が、インテリジェントなシステム開発に重点を移しており、他の多くの企業は、既存のプロセスにAIパラダイムをデプロイしている。 並行して、学術研究コミュニティは、従来のエンジニアリング問題に対するソリューションを提供するために、AIパラダイムを注入している。 同様に、AIは明らかにソフトウェア工学(SE)に有用であることが証明されている。 seフェーズ(要求、設計、開発、テスト、リリース、メンテナンス)を観察すると、複数のaiパラダイム(ニューラルネットワーク、機械学習、知識ベースシステム、自然言語処理など)がプロセスを改善するために適用され、se分野が直面している多くの大きな課題を取り除けることが明らかになります。 この調査章は、SEに適用されるAIの最も一般的な方法のレビューである。 このレビューでは、要件フェーズの1975~2017年、46のAI駆動メソッド、設計のための19、開発のための15、テストのための68、リリースとメンテナンスのための15の方法を取り上げている。 さらに、この章の目的は3つある: まず、以下の質問に答える: seライフサイクルには十分な知性があるか? SEにAIを適用するには、何が必要ですか? 次に、SEフェーズとAIの規律の重複を計測し、フォーミュライズし、評価する。 最後に、この章は、現在の伝統的な知恵(すなわち、最先端技術)に挑戦し、行動を呼び起こし、進路を再定義するために真剣な質問を行うことを目的とする。

The field of artificial intelligence (AI) is witnessing a recent upsurge in research, tools development, and deployment of applications. Multiple software companies are shifting their focus to developing intelligent systems; and many others are deploying AI paradigms to their existing processes. In parallel, the academic research community is injecting AI paradigms to provide solutions to traditional engineering problems. Similarly, AI has evidently been proved useful to software engineering (SE). When one observes the SE phases (requirements, design, development, testing, release, and maintenance), it becomes clear that multiple AI paradigms (such as neural networks, machine learning, knowledge-based systems, natural language processing) could be applied to improve the process and eliminate many of the major challenges that the SE field has been facing. This survey chapter is a review of the most commonplace methods of AI applied to SE. The review covers methods between years 1975-2017, for the requirements phase, 46 major AI-driven methods are found, 19 for design, 15 for development, 68 for testing, and 15 for release and maintenance. Furthermore, the purpose of this chapter is threefold; firstly, to answer the following questions: is there sufficient intelligence in the SE lifecycle? What does applying AI to SE entail? Secondly, to measure, formulize, and evaluate the overlap of SE phases and AI disciplines. Lastly, this chapter aims to provide serious questions to challenging the current conventional wisdom (i.e., status quo) of the state-of-the-art, craft a call for action, and to redefine the path forward.
公開日:2021-08-03
翻訳日:2021-08-04 14:41:29
# (参考訳) マンダリンASRにおける脱カップリング認識と転写

Decoupling recognition and transcription in Mandarin ASR ( http://arxiv.org/abs/2108.01129v1 )

ライセンス: CC BY 4.0
Jiahong Yuan, Xingyu Cai, Dongji Gao, Renjie Zheng, Liang Huang, Kenneth Church(参考訳) 近年の音声認識(ASR)に関する文献の多くは、エンドツーエンドのアプローチを採っている。 文字体系が音と密接に関連している英語とは異なり、漢字(ハンジー)は音ではなく意味を表す。 本研究では,(1)音声 ->Pinyinと(2)Pinyin ->Hanziの2つのサブタスクにハンジを分解することを提案する。 オーディオをファクタする -> この方法でHanziタスクは、Aishell-1コーパス上で3.9%のCER(文字エラー率)を達成する。

Much of the recent literature on automatic speech recognition (ASR) is taking an end-to-end approach. Unlike English where the writing system is closely related to sound, Chinese characters (Hanzi) represent meaning, not sound. We propose factoring audio -> Hanzi into two sub-tasks: (1) audio -> Pinyin and (2) Pinyin -> Hanzi, where Pinyin is a system of phonetic transcription of standard Chinese. Factoring the audio -> Hanzi task in this way achieves 3.9% CER (character error rate) on the Aishell-1 corpus, the best result reported on this dataset so far.
公開日:2021-08-02
翻訳日:2021-08-04 14:41:03
# (参考訳) 混合音声入力における注意に基づくニューラルASRの性能評価

The Performance Evaluation of Attention-Based Neural ASR under Mixed Speech Input ( http://arxiv.org/abs/2108.01245v1 )

ライセンス: CC BY 4.0
Bradley He, Martin Radfar(参考訳) 雑音条件下でのアテンションベースニューラルASRの性能を評価するため、現在の傾向は、様々なノイズのある音声データをモデルに提示し、全体的な単語/音素誤り率(W/PER)を測定することである。 一般に、2人以上の話者が活動するカクテルパーティーのセットアップでこれらのモデルがどのように機能するかは不明である。 本稿では、音声信号の混合を、リステン、アテンド、スペル(LAS)として知られる一般的な注目に基づくニューラルネットワークに、異なるターゲット対干渉比(TIR)で提示し、音素誤り率を測定する。 特に、2つの音素がいつ混合され、予測される音素になるのかを詳細に調べ、この方法では、音素の最も可能性の高い予測が与えられるモデルを構築します。 TIR = 0 dB で LAS を混合音声信号で提示すると,PER は 65% 増加し,その性能は TIR = 30 dB で未混合シナリオに近づいた。 その結果,混合音素信号で提示されたモデルでは,元の音素信号の評価において高い確率を持つモデルが予測される傾向がみられた。

In order to evaluate the performance of the attention based neural ASR under noisy conditions, the current trend is to present hours of various noisy speech data to the model and measure the overall word/phoneme error rate (W/PER). In general, it is unclear how these models perform when exposed to a cocktail party setup in which two or more speakers are active. In this paper, we present the mixtures of speech signals to a popular attention-based neural ASR, known as Listen, Attend, and Spell (LAS), at different target-to-interferen ce ratio (TIR) and measure the phoneme error rate. In particular, we investigate in details when two phonemes are mixed what will be the predicted phoneme; in this fashion we build a model in which the most probable predictions for a phoneme are given. We found a 65% relative increase in PER when LAS was presented with mixed speech signals at TIR = 0 dB and the performance approaches the unmixed scenario at TIR = 30 dB. Our results show the model, when presented with mixed phonemes signals, tend to predict those that have higher accuracies during evaluation of original phoneme signals.
公開日:2021-08-03
翻訳日:2021-08-04 14:40:51
# (参考訳) 映像中の移動物体の連続深さ

Consistent Depth of Moving Objects in Video ( http://arxiv.org/abs/2108.01166v1 )

ライセンス: CC BY 4.0
Zhoutong Zhang, Forrester Cole, Richard Tucker, William T. Freeman, Tali Dekel(参考訳) 移動カメラで撮影した通常の映像から任意の移動物体を含む動的シーンの深さを推定する手法を提案する。 フレーム間の対応する点の深さ予測は、3次元において可塑性で滑らかな運動を誘導すべきである。 我々は、この目的を、入力ビデオ全体にわたって補助的なシーンフロー予測MLPを用いて、深度予測CNNをタンデムで訓練する新しいテストタイムトレーニングフレームワークで定式化する。 異なる時間ステップでシーンフロー予測MLPを逐次アンロールすることで、局所的なスムーズな動きを3Dに直接課すショートレンジシーンフローと、広いベースラインで複数ビューの整合性制約を課すロングレンジシーンフローの両方を計算する。 様々な移動物体(ペット、人間、車)やカメラの動きを含む様々な挑戦的なビデオで、正確かつ時間的に一貫性のある結果を示す。 深度マップは、物体や照明の挿入など、奥行きと動きを認識したビデオ編集効果を数多く生み出す。

We present a method to estimate depth of a dynamic scene, containing arbitrary moving objects, from an ordinary video captured with a moving camera. We seek a geometrically and temporally consistent solution to this underconstrained problem: the depth predictions of corresponding points across frames should induce plausible, smooth motion in 3D. We formulate this objective in a new test-time training framework where a depth-prediction CNN is trained in tandem with an auxiliary scene-flow prediction MLP over the entire input video. By recursively unrolling the scene-flow prediction MLP over varying time steps, we compute both short-range scene flow to impose local smooth motion priors directly in 3D, and long-range scene flow to impose multi-view consistency constraints with wide baselines. We demonstrate accurate and temporally coherent results on a variety of challenging videos containing diverse moving objects (pets, people, cars), as well as camera motion. Our depth maps give rise to a number of depth-and-motion aware video editing effects such as object and lighting insertion.
公開日:2021-08-02
翻訳日:2021-08-04 14:40:29
# (参考訳) Multispectral Vineyard Segmentation: ディープラーニングアプローチ

Multispectral Vineyard Segmentation: A Deep Learning approach ( http://arxiv.org/abs/2108.01200v1 )

ライセンス: CC BY 4.0
T. Barros, P. Conde, G. Gon\c{c}alves, C. Premebida, M. Monteiro, C.S.S. Ferreira, U.J. Nunes(参考訳) デジタル農業は、地中海地域の関連作物であるブドウ園を含む農業分野に適用される自動化と計算知能の技術的発展により、ここ数年で大きく発展してきた。 本稿では, 実世界のブドウ畑におけるワイン検出のためのセマンティックセグメンテーションについて, 最先端のディープセグメンテーションネットワークと従来の教師なし手法を探索して検討する。 カメラデータは、高解像度カラーカメラと5バンドマルチスペクトル熱カメラを備えたデュアルイメージングセンサーペイロードを備えた無人航空システム(UAS)を用いて、ブドウ園で収集された。 ポルトガル中部の3つの異なるブドウ畑を表すマルチモーダルデータセットでは、セグメンテーションネットワークと教師なしの方法の広範な実験が行われている。 また,NIRバンドを用いた従来の(ディープでない)アプローチは競争力のある結果を示した。 また, マルチモーダリティはブドウのセグメンテーションの性能をわずかに向上させるが, NIRスペクトルだけではほとんどのデータセットで十分であることがわかった。 コードとデータセットは、 \url{https://github.com/C ybonic/DL_vineyard_s egmentation_study.gi tで公開されている。

Digital agriculture has evolved significantly over the last few years due to the technological developments in automation and computational intelligence applied to the agricultural sector, including vineyards which are a relevant crop in the Mediterranean region. In this paper, a study of semantic segmentation for vine detection in real-world vineyards is presented by exploring state-of-the-art deep segmentation networks and conventional unsupervised methods. Camera data was collected on vineyards using an Unmanned Aerial System (UAS) equipped with a dual imaging sensor payload, namely a high-resolution color camera and a five-band multispectral and thermal camera. Extensive experiments of the segmentation networks and unsupervised methods have been performed on multimodal datasets representing three distinct vineyards located in the central region of Portugal. The reported results indicate that the best segmentation performances are obtained with deep networks, while traditional (non-deep) approaches using the NIR band shown competitive results. The results also show that multimodality slightly improves the performance of vine segmentation but the NIR spectrum alone generally is sufficient on most of the datasets. The code and dataset are publicly available on \url{https://github.com/C ybonic/DL_vineyard_s egmentation_study.gi t
公開日:2021-08-02
翻訳日:2021-08-04 14:40:09
# (参考訳) MixMicrobleedNet: nnU-Netを用いた脳微小血腫のセグメンテーション

MixMicrobleedNet: segmentation of cerebral microbleeds using nnU-Net ( http://arxiv.org/abs/2108.01389v1 )

ライセンス: CC BY 4.0
Hugo J. Kuijf(参考訳) 脳微小血腫は、MRI(MRI)で視認できる小さな低濃度病変であり、勾配エコー、T2*、感受性強調画像(SWI)を呈する。 脳微小出血の評価は主に視覚検査によって行われる。 過去10年間、評価を助けるセミオートマチックなツールが登場し、最近ではマイクロ出血検出のための完全に自動化されたツールが登場した。 本研究では,マイクロブラインドセグメンテーションのための完全自動化ツールとして,nnU-Netの利用について検討する。 データは ``where is valdo''' によって提供された。 MICCAI 2021の挑戦。 最後のメソッドは、すべてのデータ(fold = `all')でトレーニングされた ``3D full resolution U-Net'' 構成の nnU-Net で構成されている。 nnu-netのポストプロセッシングオプションは使用されなかった。 トレーニングデータに対する自己評価の結果,推定サイクリングは0.80,偽発見率は0.16,偽陰性率は0.15であった。 VALDOチャレンジのテストセットに関する最終評価が保留されています。 結果の視覚検査では、報告された偽陽性のほとんどは、視覚評価中に見逃されたかもしれない実際の微血である可能性が示された。 ソースコードはhttps://github.com/h jkuijf/mixmicrobleed net。 dockerコンテナhjkuijf/mixmicroblee dnetはhttps://hub.docker.c om/r/hjkuijf/mixmicr obleednetからプルできる。

Cerebral microbleeds are small hypointense lesions visible on magnetic resonance imaging (MRI) with gradient echo, T2*, or susceptibility weighted (SWI) imaging. Assessment of cerebral microbleeds is mostly performed by visual inspection. The past decade has seen the rise of semi-automatic tools to assist with rating and more recently fully automatic tools for microbleed detection. In this work, we explore the use of nnU-Net as a fully automated tool for microbleed segmentation. Data was provided by the ``Where is VALDO?'' challenge of MICCAI 2021. The final method consists of nnU-Net in the ``3D full resolution U-Net'' configuration trained on all data (fold = `all'). No post-processing options of nnU-Net were used. Self-evaluation on the training data showed an estimated Dice of 0.80, false discovery rate of 0.16, and false negative rate of 0.15. Final evaluation on the test set of the VALDO challenge is pending. Visual inspection of the results showed that most of the reported false positives could be an actual microbleed that might have been missed during visual rating. Source code is available at: https://github.com/h jkuijf/MixMicrobleed Net . The docker container hjkuijf/mixmicroblee dnet can be pulled from https://hub.docker.c om/r/hjkuijf/mixmicr obleednet .
公開日:2021-08-03
翻訳日:2021-08-04 14:39:51
# (参考訳) トランジェントに基づく離散力学系の分類

Classification of Discrete Dynamical Systems Based on Transients ( http://arxiv.org/abs/2108.01573v1 )

ライセンス: CC BY 4.0
Barbora Hudcov\'a and Tom\'a\v{s} Mikolov(参考訳) 人工進化が可能なシステムを開発するためには、どのシステムが複雑な振る舞いを生成できるかを特定する必要がある。 決定論的離散空間と時間力学系の任意のクラスに適用可能な新しい分類法を提案する。 この方法は、ループに入る前に、所定のシステムにおける平均計算時間の漸近挙動を分類することに基づいている。 動的システムの様々なクラスにわたる順序づけられた振る舞いからカオスへの相転移に対応する行動の臨界領域を特定することができた。 本手法が様々な計算システムに適用可能であることを示すために,セルオートマトン,チューリングマシン,ランダムブールネットワークの分類結果を示す。 さらに, この手法を用いて2次元セルオートマトンを分類し, 興味深く複雑なダイナミックスを持つ人を自動的に見つける。 私たちは、複雑な構造が出現するシステムを設計するために、我々の仕事が使えると信じています。 また、open-ended evolution (ray (1991), ofria et al のモデル化の試みの様々なバージョンを比較するのに使うことができる。 (2004年)、チャノン(2006年)。

In order to develop systems capable of artificial evolution, we need to identify which systems can produce complex behavior. We present a novel classification method applicable to any class of deterministic discrete space and time dynamical systems. The method is based on classifying the asymptotic behavior of the average computation time in a given system before entering a loop. We were able to identify a critical region of behavior that corresponds to a phase transition from ordered behavior to chaos across various classes of dynamical systems. To show that our approach can be applied to many different computational systems, we demonstrate the results of classifying cellular automata, Turing machines, and random Boolean networks. Further, we use this method to classify 2D cellular automata to automatically find those with interesting, complex dynamics. We believe that our work can be used to design systems in which complex structures emerge. Also, it can be used to compare various versions of existing attempts to model open-ended evolution (Ray (1991), Ofria et al. (2004), Channon (2006)).
公開日:2021-08-03
翻訳日:2021-08-04 14:39:30
# (参考訳) 量子化に基づくエッジの多目的リカレントニューラルネットワーク最適化

Multi-objective Recurrent Neural Networks Optimization for the Edge -- a Quantization-based Approach ( http://arxiv.org/abs/2108.01192v1 )

ライセンス: CC BY 4.0
Nesma M. Rezk, Tomas Nordstr\"om, Dimitrios Stathis, Zain Ul-Abdin, Eren Erdal Aksoy, Ahmed Hemani(参考訳) ディープラーニングモデルの圧縮は、このようなモデルをエッジデバイスにデプロイする上で、極めて重要である。 圧縮中にハードウェアモデルとアプリケーション制約を組み込むことは利点を最大化するが、特定のケースのために特別に設計する。 したがって圧縮を自動化する必要がある。 最適圧縮法パラメータの探索は最適化問題と考えられる。 本稿では,ハードウェア効率と推論誤差を混合精度量子化の目的とする多目的ハードウェアアウェア量子化(mohaq)手法を提案する。 提案手法は,2つのステップに依存して,大規模検索空間における候補解の評価を可能にする。 まず, 学習後の量子化を高速解法評価に適用する。 第二に,検索空間内でのみ選択された解を学習し,ビーコンとして利用し,他の解に対する再学習の効果を知るための検索手法「ビーコン検索」を提案する。 最適化ポテンシャルを評価するために,timitデータセットを用いた音声認識モデルを選択した。 このモデルは、他のリカレントユニットよりもかなりスピードアップするため、Simple Recurrent Unit (SRU) に基づいている。 提案手法をSiLagoとBitfusionの2つのプラットフォーム上での動作に適用した。 実験評価の結果, sru は誤差の大幅な増加を伴わず, 最大 12 倍まで圧縮でき, 誤差は 1.5 % の誤差増加に留まらず, 最大 8 倍まで圧縮できることがわかった。 シアゴでは、推論のみの探索により、最大速度アップと省エネルギーのそれぞれ80\%と64\%を達成する解を見つけ、誤差は0.5%増加した。 ビットフュージョンでは、sramサイズが小さい制約により、ビーコンベースの検索は推論のみ検索のエラーゲインを4ポイント減らし、ビットフュージョンのベースラインと比較して最大速度が47倍に向上した。

The compression of deep learning models is of fundamental importance in deploying such models to edge devices. Incorporating hardware model and application constraints during compression maximizes the benefits but makes it specifically designed for one case. Therefore, the compression needs to be automated. Searching for the optimal compression method parameters is considered an optimization problem. This article introduces a Multi-Objective Hardware-Aware Quantization (MOHAQ) method, which considers both hardware efficiency and inference error as objectives for mixed-precision quantization. The proposed method makes the evaluation of candidate solutions in a large search space feasible by relying on two steps. First, post-training quantization is applied for fast solution evaluation. Second, we propose a search technique named "beacon-based search" to retrain selected solutions only in the search space and use them as beacons to know the effect of retraining on other solutions. To evaluate the optimization potential, we chose a speech recognition model using the TIMIT dataset. The model is based on Simple Recurrent Unit (SRU) due to its considerable speedup over other recurrent units. We applied our method to run on two platforms: SiLago and Bitfusion. Experimental evaluations showed that SRU can be compressed up to 8x by post-training quantization without any significant increase in the error and up to 12x with only a 1.5 percentage point increase in error. On SiLago, the inference-only search found solutions that achieve 80\% and 64\% of the maximum possible speedup and energy saving, respectively, with a 0.5 percentage point increase in the error. On Bitfusion, with a constraint of a small SRAM size, beacon-based search reduced the error gain of inference-only search by 4 percentage points and increased the possible reached speedup to be 47x compared to the Bitfusion baseline.
公開日:2021-08-02
翻訳日:2021-08-04 14:39:16
# (参考訳) 変分アクター臨界アルゴリズム

Variational Actor-Critic Algorithms ( http://arxiv.org/abs/2108.01215v1 )

ライセンス: CC BY 4.0
Yuhua Zhu, Lexing Ying(参考訳) 本稿では,値関数とポリシーの両方に対する変分定式化に基づく変分的アクタ-批判的アルゴリズムのクラスを提案する。 変分定式化の目的関数は、値関数を最大化する部分とベルマン残基を最小化する部分の2つの部分からなる。 値関数とポリシ更新を併用したバニラ勾配降下に加えて,収束を高速化するために,クリッピング法とフリップ法という2つの変種を提案する。 また,ベルマン残差の原因子が十分大きい場合には,アルゴリズムの不動点が最適方針に近いことも証明する。

We introduce a class of variational actor-critic algorithms based on a variational formulation over both the value function and the policy. The objective function of the variational formulation consists of two parts: one for maximizing the value function and the other for minimizing the Bellman residual. Besides the vanilla gradient descent with both the value function and the policy updates, we propose two variants, the clipping method and the flipping method, in order to speed up the convergence. We also prove that, when the prefactor of the Bellman residual is sufficiently large, the fixed point of the algorithm is close to the optimal policy.
公開日:2021-08-03
翻訳日:2021-08-04 14:38:44
# (参考訳) 量子ニューラルネットワーク:概念,応用,課題

Quantum Neural Networks: Concepts, Applications, and Challenges ( http://arxiv.org/abs/2108.01468v1 )

ライセンス: CC BY 4.0
Yunseok Kwak, Won Joon Yun, Soyi Jung, Joongheon Kim(参考訳) 量子ディープラーニングは、ディープニューラルネットワークのトレーニングに量子コンピューティング技術を使用する研究分野である。 ディープラーニングと量子コンピューティングの研究トピックと方向性は長い間分離されてきたが、量子回路が人工ニューラルネットワークのように振る舞うことを発見し、量子ディープラーニングの研究が広く採用されている。 本稿では,量子深層学習の背景と基本原理を説明し,その成果を紹介する。 その後、複数の観点から量子ディープラーニング研究の課題について論じる。 最後に,量子深層学習の今後の研究の方向性と応用分野について述べる。

Quantum deep learning is a research field for the use of quantum computing techniques for training deep neural networks. The research topics and directions of deep learning and quantum computing have been separated for long time, however by discovering that quantum circuits can act like artificial neural networks, quantum deep learning research is widely adopted. This paper explains the backgrounds and basic principles of quantum deep learning and also introduces major achievements. After that, this paper discusses the challenges of quantum deep learning research in multiple perspectives. Lastly, this paper presents various future research directions and application fields of quantum deep learning.
公開日:2021-08-02
翻訳日:2021-08-04 14:38:35
# (参考訳) 非重複データを用いたクロスドメインレコメンデーションのためのヒンジ損失に基づくコードブック転送

A Hinge-Loss based Codebook Transfer for Cross-Domain Recommendation with Nonoverlapping Data ( http://arxiv.org/abs/2108.01473v1 )

ライセンス: CC BY 4.0
Sowmini Devi Veeramachaneni, Arun K Pujari, Vineet Padmanabhan and Vikas Kumar(参考訳) Recommender System(RS)、特にコラボレーティブフィルタリング(CF)ベースのRSは、多くのeコマースアプリケーションにおいて重要な役割を担っている。 インターネット上で検索される情報が増えるにつれて、利用者は自分の興味のあるアイテムを見つけることが難しくなり、rsはそうしたタスクの助けとなることが多い。 近年の研究では、アイテムスペースが増加し、ユーザによって評価されるアイテムの数が大幅に減少するにつれて、スパーシリティのような問題が発生することが示されている。 疎度問題を緩和するために、疎度ドメイン(ソース)からのデータがスパースドメイン(ターゲット)の欠落するエントリを予測するために考慮される転送学習技術が用いられている。 本稿では,両ドメインがユーザとアイテムの重複を伴わない場合のドメイン間推薦のための転送学習手法を提案する。 我々のアプローチでは、ソースからターゲットドメインへの知識の転送は、新しい方法で行われます。 ソースドメインのコードブック(クラスタレベルレーティングパターン)を取得するために、共クラスタ技術を利用する。 ヒンジ損失関数を利用することで、学習したソースドメインのコードブックをターゲットに転送する。 ヒンジ損失を損失関数として用いることは新規であり、転送学習では試みられていない。 提案手法は,ベンチマークデータセット上でのターゲット行列の近似を改善することを実証する。

Recommender systems(RS), especially collaborative filtering(CF) based RS, has been playing an important role in many e-commerce applications. As the information being searched over the internet is rapidly increasing, users often face the difficulty of finding items of his/her own interest and RS often provides help in such tasks. Recent studies show that, as the item space increases, and the number of items rated by the users become very less, issues like sparsity arise. To mitigate the sparsity problem, transfer learning techniques are being used wherein the data from dense domain(source) is considered in order to predict the missing entries in the sparse domain(target). In this paper, we propose a transfer learning approach for cross-domain recommendation when both domains have no overlap of users and items. In our approach the transferring of knowledge from source to target domain is done in a novel way. We make use of co-clustering technique to obtain the codebook (cluster-level rating pattern) of source domain. By making use of hinge loss function we transfer the learnt codebook of the source domain to target. The use of hinge loss as a loss function is novel and has not been tried before in transfer learning. We demonstrate that our technique improves the approximation of the target matrix on benchmark datasets.
公開日:2021-08-02
翻訳日:2021-08-04 14:38:27
# (参考訳) ニューラルネットワークトレーニングのためのバッチ正規化事前条件

Batch Normalization Preconditioning for Neural Network Training ( http://arxiv.org/abs/2108.01110v1 )

ライセンス: CC BY 4.0
Susanna Lange, Kyle Helfrich, Qiang Ye(参考訳) バッチ正規化(BN)は、ディープラーニングにおいて一般的なユビキタスな手法であり、トレーニング時間を短縮し、ニューラルネットワークの一般化性能を向上させることが示されている。 その成功にもかかわらず、BNは理論的にはよく理解されていない。 非常に小さなミニバッチサイズやオンライン学習での使用には適していない。 本稿では,バッチ正規化事前条件(BNP)と呼ばれる新しい手法を提案する。 BNで行われているようなバッチ正規化層を明示的に正規化する代わりに、BNPはトレーニング中にパラメータ勾配を直接条件付けすることで正規化を適用する。 これは損失関数のヘッセン行列を改善するために設計され、訓練中に収束する。 1つの利点は、BNPがミニバッチサイズに制約されず、オンライン学習環境で機能することである。 さらに、BNとの接続は、BNがトレーニングをどのように改善し、BNが畳み込みニューラルネットワークのような特別なアーキテクチャに適用されるかに関する理論的洞察を提供する。

Batch normalization (BN) is a popular and ubiquitous method in deep learning that has been shown to decrease training time and improve generalization performance of neural networks. Despite its success, BN is not theoretically well understood. It is not suitable for use with very small mini-batch sizes or online learning. In this paper, we propose a new method called Batch Normalization Preconditioning (BNP). Instead of applying normalization explicitly through a batch normalization layer as is done in BN, BNP applies normalization by conditioning the parameter gradients directly during training. This is designed to improve the Hessian matrix of the loss function and hence convergence during training. One benefit is that BNP is not constrained on the mini-batch size and works in the online learning setting. Furthermore, its connection to BN provides theoretical insights on how BN improves training and how BN is applied to special architectures such as convolutional neural networks.
公開日:2021-08-02
翻訳日:2021-08-04 14:38:07
# (参考訳) 自律走行車交通画像分類のためのハイブリッド古典量子深層学習モデル

Hybrid Classical-Quantum Deep Learning Models for Autonomous Vehicle Traffic Image Classification Under Adversarial Attack ( http://arxiv.org/abs/2108.01125v1 )

ライセンス: CC BY 4.0
Reek Majumder, Sakib Mahmud Khan, Fahim Ahmed, Zadid Khan, Frank Ngeni, Gurcan Comert, Judith Mwakalonge, Dimitra Michalaka, Mashrur Chowdhury(参考訳) 画像分類は、公道で走行する自動運転車(AV)に対して有効であり、画像誤分類に基づく行動は深刻な結果をもたらす可能性がある。 トラフィックサイン画像は、AVがトラフィックサイン認識に使用している機械学習モデルに対する敵攻撃によって、誤って分類することができる。 敵の攻撃に対してレジリエントな分類モデルを構築するために,量子層と古典層の両方を持つハイブリッドディープラーニングモデルを用いた。 我々の目標は、中規模量子技術の現在をサポートするために、古典量子移動学習モデルのハイブリッドディープラーニングアーキテクチャの研究である。 我々はこれらのハイブリッドモデルに対する様々なホワイトボックス攻撃の影響を評価した。 ハイブリッドモデルの古典的な部分は、事前訓練されたResnet18モデルからの畳み込みネットワークを含み、高次元LISAトラフィックサイン画像データセットから情報的特徴を抽出する。 古典的プロセッサからの出力は、様々な量子ゲートからなる量子層を通してさらに処理され、絡み合いや重ね合わせのような様々な量子力学的特徴をサポートする。 我々は,複数の量子回路の組み合わせをテストして,トレーニングデータの削減による分類精度の向上と,攻撃時の古典量子深層学習モデルに対するレジリエンスの向上を検証した。

Image classification must work for autonomous vehicles (AV) operating on public roads, and actions performed based on image misclassification can have serious consequences. Traffic sign images can be misclassified by an adversarial attack on machine learning models used by AVs for traffic sign recognition. To make classification models resilient against adversarial attacks, we used a hybrid deep-learning model with both the quantum and classical layers. Our goal is to study the hybrid deep-learning architecture for classical-quantum transfer learning models to support the current era of intermediate-scale quantum technology. We have evaluated the impacts of various white box adversarial attacks on these hybrid models. The classical part of hybrid models includes a convolution network from the pre-trained Resnet18 model, which extracts informative features from a high dimensional LISA traffic sign image dataset. The output from the classical processor is processed further through the quantum layer, which is composed of various quantum gates and provides support to various quantum mechanical features like entanglement and superposition. We have tested multiple combinations of quantum circuits to provide better classification accuracy with decreasing training data and found better resiliency for our hybrid classical-quantum deep learning model during attacks compared to the classical-only machine learning models.
公開日:2021-08-02
翻訳日:2021-08-04 14:37:53
# (参考訳) インシデント検出のためのハイブリッド量子古典ニューラルネットワーク

Hybrid Quantum-Classical Neural Network for Incident Detection ( http://arxiv.org/abs/2108.01127v1 )

ライセンス: CC BY 4.0
Zadid Khan, Sakib Mahmud Khan, Jean Michel Tine, Ayse Turhan Comert, Diamon Rice, Gurcan Comert, Dimitra Michalaka, Judith Mwakalonge, Reek Majumdar, Mashrur Chowdhury(参考訳) リアルタイムインシデント検出モデルの効率と信頼性は、影響を受ける廊下の交通安全と運用条件に直接影響する。 最近のクラウドベースの量子コンピューティングインフラストラクチャの出現と、ノイズの多い中間スケール量子デバイスにおけるイノベーションにより、リアルタイムインシデント検出精度を向上させるために活用できる量子エンハンスアルゴリズムの新しい時代が明らかになった。 本研究では、古典的および量子機械学習(ML)モデルを含むハイブリッド機械学習モデルを開発し、コネクテッドカー(CV)データを用いてインシデントを特定する。 ハイブリッドモデルのインシデント検出性能を,ベースライン古典MLモデルに対して評価した。 このフレームワークは、様々なインシデントシナリオのためのマイクロシミュレーションツールのデータを用いて評価される。 その結果,4量子ビットの量子層を含むハイブリッドニューラルネットワークは,トレーニングデータがない場合には,他のベースラインモデルよりも優れていることがわかった。 十分なトレーニングデータを持つds-1,トレーニングデータ不足のds-2,ds-3の3つのデータセットを作成した。 ハイブリッドモデルは、それぞれDS-1、DS-2、DS-3の98.9%、98.3%、96.6%のリコールを達成する。 ds-2とds-3では、ハイブリッドモデルによって達成されたf2-score(インシデントを正確に識別するためのモデルの性能)は、古典的なモデルと比較してそれぞれ1.9%と7.8%であった。 これは、cvsに共通するデータ不足により、ハイブリッドmlモデルが従来のモデルよりもパフォーマンスが向上することを示している。 量子コンピューティングインフラストラクチャの継続的な改善により、利用可能なデータが不十分な場合、量子MLモデルはCV関連のアプリケーションにとって有望な代替となる可能性がある。

The efficiency and reliability of real-time incident detection models directly impact the affected corridors' traffic safety and operational conditions. The recent emergence of cloud-based quantum computing infrastructure and innovations in noisy intermediate-scale quantum devices have revealed a new era of quantum-enhanced algorithms that can be leveraged to improve real-time incident detection accuracy. In this research, a hybrid machine learning model, which includes classical and quantum machine learning (ML) models, is developed to identify incidents using the connected vehicle (CV) data. The incident detection performance of the hybrid model is evaluated against baseline classical ML models. The framework is evaluated using data from a microsimulation tool for different incident scenarios. The results indicate that a hybrid neural network containing a 4-qubit quantum layer outperforms all other baseline models when there is a lack of training data. We have created three datasets; DS-1 with sufficient training data, and DS-2 and DS-3 with insufficient training data. The hybrid model achieves a recall of 98.9%, 98.3%, and 96.6% for DS-1, DS-2, and DS-3, respectively. For DS-2 and DS-3, the average improvement in F2-score (measures model's performance to correctly identify incidents) achieved by the hybrid model is 1.9% and 7.8%, respectively, compared to the classical models. It shows that with insufficient data, which may be common for CVs, the hybrid ML model will perform better than the classical models. With the continuing improvements of quantum computing infrastructure, the quantum ML models could be a promising alternative for CV-related applications when the available data is insufficient.
公開日:2021-08-02
翻訳日:2021-08-04 14:37:32
# (参考訳) OVERT:非線形システムのためのニューラルネットワーク制御ポリシーの安全性検証アルゴリズム

OVERT: An Algorithm for Safety Verification of Neural Network Control Policies for Nonlinear Systems ( http://arxiv.org/abs/2108.01220v1 )

ライセンス: CC BY 4.0
Chelsea Sidrane, Amir Maleki, Ahmed Irfan, Mykel J. Kochenderfer(参考訳) 深層学習法は制御ポリシーの作成に使用できるが、安全性の確認は困難である。 結果として生じるネットワークは非線形であり、しばしば非常に大きい。 そこで本研究では,非線形離散時間閉ループ力学系のニューラルネットワーク制御ポリシーによる安全性検証のための音響アルゴリズムであるovertを提案する。 overtの斬新さは、古典的形式的手法文学のアイデアと、新しいニューラルネットワーク検証文学のアイデアを組み合わせることにある。 OVERT の中心的な概念は、最適にきつく片方向の線形境界を持つ非線形関数を抽象化することである。 このような分割線形境界は、reluニューラルネットワーク検証ツールへのシームレスな統合のために設計されている。 OVERTは、到達可能なセットを計算したり、実行可能性クエリを直接解決することで、バウンダリタイムの安全性を証明できる。 いくつかの古典的ベンチマーク例に対する安全性検証の様々な例を示す。 overtは、計算時間と到達可能な集合のタイト性の両方において、既存の方法と好適に比較できる。

Deep learning methods can be used to produce control policies, but certifying their safety is challenging. The resulting networks are nonlinear and often very large. In response to this challenge, we present OVERT: a sound algorithm for safety verification of nonlinear discrete-time closed loop dynamical systems with neural network control policies. The novelty of OVERT lies in combining ideas from the classical formal methods literature with ideas from the newer neural network verification literature. The central concept of OVERT is to abstract nonlinear functions with a set of optimally tight piecewise linear bounds. Such piecewise linear bounds are designed for seamless integration into ReLU neural network verification tools. OVERT can be used to prove bounded-time safety properties by either computing reachable sets or solving feasibility queries directly. We demonstrate various examples of safety verification for several classical benchmark examples. OVERT compares favorably to existing methods both in computation time and in tightness of the reachable set.
公開日:2021-08-03
翻訳日:2021-08-04 14:37:08
# (参考訳) 絡み合いは十分か? 制御可能な音楽生成のための潜在表現について

Is Disentanglement enough? On Latent Representations for Controllable Music Generation ( http://arxiv.org/abs/2108.01450v1 )

ライセンス: CC BY 4.0
Ashis Pati, Alexander Lerch(参考訳) 制御性の向上や、生成したデータの1つ以上の属性を操作する能力は、音楽の深い生成モデルという文脈における関心の対象となっている。 この方向の最近の試みは、変動の基盤となる要因が明確に分離されるように、データから絡み合った表現を学習することに依存している。 本稿では,変分オートエンコーダ(vae)アーキテクチャに基づく異なる教師付き異方性学習アルゴリズムを用いて系統的な学習を行い,異方性と制御性の関係に注目した。 実験により,強い識別エンコーダを訓練するために異なる形態の監督を用いることにより,高いディエンタグルメントを実現することができた。 しかし、強い生成デコーダが存在しない場合、絡み合いは必ずしも制御性を意味するとは限らない。 VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。 この目的のために我々は,許容範囲の制御性に関して,潜在空間の品質を評価するための方法や指標も提案する。

Improving controllability or the ability to manipulate one or more attributes of the generated data has become a topic of interest in the context of deep generative models of music. Recent attempts in this direction have relied on learning disentangled representations from data such that the underlying factors of variation are well separated. In this paper, we focus on the relationship between disentanglement and controllability by conducting a systematic study using different supervised disentanglement learning algorithms based on the Variational Auto-Encoder (VAE) architecture. Our experiments show that a high degree of disentanglement can be achieved by using different forms of supervision to train a strong discriminative encoder. However, in the absence of a strong generative decoder, disentanglement does not necessarily imply controllability. The structure of the latent space with respect to the VAE-decoder plays an important role in boosting the ability of a generative model to manipulate different attributes. To this end, we also propose methods and metrics to help evaluate the quality of a latent space with respect to the afforded degree of controllability.
公開日:2021-08-01
翻訳日:2021-08-04 14:36:54
# (参考訳) ドイツ音声ディープフェイクの作成と検出

Creation and Detection of German Voice Deepfakes ( http://arxiv.org/abs/2108.01469v1 )

ライセンス: CC BY 4.0
Vanessa Barnekow, Dominik Binder, Niclas Kromrey, Pascal Munaretto, Andreas Schaad and Felix Schmieder(参考訳) 機械学習技術の助けを借りて音声合成はここ数年で急速に進歩し、[1]、最近は最初の高名な詐欺事件が報告されている([2])。 オンライン教育における会議ツールの利用が増加している今、私たちはいかに簡単か(つまり)を疑問視している。 必要なデータ、ハードウェア、スキルセット) 説得力のある音声の偽造を作ることです。 参加者のトレーニングデータの量(例)を分析します。 学生)は実際に他の参加者の声(例えば)を偽装する必要がある。 教授)。 我々は、ボイスディープフェイクを作成する際の現在の技術状況の分析と、音声をコピーするのにどれだけの労力が必要かの詳細な技術的ガイダンスと証拠を提供する。 100人以上の参加者を対象にしたユーザスタディでは、実声と偽声の識別がいかに難しいかが示されています。 教授の本当の声と偽の声を区別できるのはたったの37%) ドイツ語とオンラインの教育環境に焦点をあて、社会的な意味を議論するとともに、機械学習技術を用いてそのような偽物を検出する方法を実証する。

Synthesizing voice with the help of machine learning techniques has made rapid progress over the last years [1] and first high profile fraud cases have been recently reported [2]. Given the current increase in using conferencing tools for online teaching, we question just how easy (i.e. needed data, hardware, skill set) it would be to create a convincing voice fake. We analyse how much training data a participant (e.g. a student) would actually need to fake another participants voice (e.g. a professor). We provide an analysis of the existing state of the art in creating voice deep fakes, as well as offer detailed technical guidance and evidence of just how much effort is needed to copy a voice. A user study with more than 100 participants shows how difficult it is to identify real and fake voice (on avg. only 37 percent can distinguish between real and fake voice of a professor). With a focus on German language and an online teaching environment we discuss the societal implications as well as demonstrate how to use machine learning techniques to possibly detect such fakes.
公開日:2021-08-02
翻訳日:2021-08-04 14:36:38
# (参考訳) ニュートンステップの計算はヘッセン累積より速い

Computing the Newton-step faster than Hessian accumulation ( http://arxiv.org/abs/2108.01219v1 )

ライセンス: CC BY 4.0
Akshay Srinivasan, Emanuel Todorov(参考訳) N$決定変数を持つ一般関数のニュートンステップの計算は、$O(N^3)$ flopsを取る。 本稿では、関数の計算グラフを考えると、この境界は$o(m\tau^3)$となり、ここで$\tau, m$ はグラフのツリー分解の幅と大きさであることを示す。 提案アルゴリズムは,LQRに基づく非線形最適制御法を一般化し,ヘシアンが高密度である場合でも,反復複雑度において非自明なゲインを提供する。

Computing the Newton-step of a generic function with $N$ decision variables takes $O(N^3)$ flops. In this paper, we show that given the computational graph of the function, this bound can be reduced to $O(m\tau^3)$, where $\tau, m$ are the width and size of a tree-decomposition of the graph. The proposed algorithm generalizes nonlinear optimal-control methods based on LQR to general optimization problems and provides non-trivial gains in iteration-complexity even in cases where the Hessian is dense.
公開日:2021-08-02
翻訳日:2021-08-04 14:36:22
# (参考訳) 貯留層計算のためのタスク非依存メトリクス

Task Agnostic Metrics for Reservoir Computing ( http://arxiv.org/abs/2108.01512v1 )

ライセンス: CC BY 4.0
Jake Love, Jeroen Mulkers, George Bourianoff, Jonathan Leliaert and Karin Everschor-Sitte(参考訳) 物理貯水池計算は時間的パターン認識を物理的に直接行うことができる計算パラダイムである。 非線形力学系をエキサイティングにし、状態の変化を線形に分類することで、シナプスで相互接続された数百万のニューロンからなるモジュラーシステムを構築することなく、機械学習タスクを解くことができる高エネルギー効率デバイスを作成できる。 選択力学系は、非線形性、複雑性、フェージングメモリという3つの望ましい性質を持ち、効果的な貯水池として機能する必要がある。 これら3つの要件のそれぞれについてタスク非依存の定量的測定を行い、エコー状態ネットワークと模擬磁気スカイミオンベース貯水池の2つの貯水池を例示する。 一般に, 減衰率の低いシステムは, 3つの指標すべてにおいて高い値に達することを示す。 入力信号強度については、メモリ容量と貯水池の挙動の非線形性との間に自然なトレードオフがある。 典型的なタスク依存型貯水池計算ベンチマークとは対照的に、これらのメトリクスは単一の入力信号から並列に評価することができ、パラメータ探索を劇的に高速化し、効率的で高性能な貯水池を設計することができる。

Physical reservoir computing is a computational paradigm that enables temporal pattern recognition to be performed directly in physical matter. By exciting non-linear dynamical systems and linearly classifying their changes in state, we can create highly energy-efficient devices capable of solving machine learning tasks without the need to build a modular system consisting of millions of neurons interconnected by synapses. The chosen dynamical system must have three desirable properties: non-linearity, complexity, and fading memory to act as an effective reservoir. We present task agnostic quantitative measures for each of these three requirements and exemplify them for two reservoirs: an echo state network and a simulated magnetic skyrmion-based reservoir. We show that, in general, systems with lower damping reach higher values in all three performance metrics. Whilst for input signal strength, there is a natural trade-off between memory capacity and non-linearity of the reservoir's behaviour. In contrast to typical task-dependent reservoir computing benchmarks, these metrics can be evaluated in parallel from a single input signal, drastically speeding up the parameter search to design efficient and high-performance reservoirs.
公開日:2021-08-03
翻訳日:2021-08-04 14:36:13
# (参考訳) エピソード困難に対する一様サンプリング [全文訳有]

Uniform Sampling over Episode Difficulty ( http://arxiv.org/abs/2108.01662v1 )

ライセンス: CC BY 4.0
S\'ebastien M. R. Arnold, Guneet S. Dhillon, Avinash Ravichandran, Stefano Soatto(参考訳) エピソディクストレーニングは、限定されたラベル付きデータを持つタスクでモデルをトレーニングするための、数少ない学習の中核となる要素である。 その成功にもかかわらず、エピソディクスのトレーニングはほとんど未熟であり、エピソードをサンプリングする最良の方法は何ですか? 本稿では,まず,その難易度に基づいてエピソードサンプリング分布を近似する手法を提案する。 本手法を用いて, エピソード難易度を均一にサンプリングすることで, カリキュラムや簡単な, ハードマイニングなど, 他のサンプリング手法よりも優れた結果が得られる。 提案手法はアルゴリズム非依存であるので,これらの知見を活用し,多くのエピソディック学習アルゴリズムにおける数発学習精度を向上させることができる。 提案手法の有効性を,一般的な数ショット学習データセット,アルゴリズム,ネットワークアーキテクチャ,プロトコルで実証する。

Episodic training is a core ingredient of few-shot learning to train models on tasks with limited labelled data. Despite its success, episodic training remains largely understudied, prompting us to ask the question: what is the best way to sample episodes? In this paper, we first propose a method to approximate episode sampling distributions based on their difficulty. Building on this method, we perform an extensive analysis and find that sampling uniformly over episode difficulty outperforms other sampling schemes, including curriculum and easy-/hard-mining. As the proposed sampling method is algorithm agnostic, we can leverage these insights to improve few-shot learning accuracies across many episodic training algorithms. We demonstrate the efficacy of our method across popular few-shot learning datasets, algorithms, network architectures, and protocols.
公開日:2021-08-03
翻訳日:2021-08-04 14:35:21
# PyEuroVoc: EuroVoc記述子を用いた多言語法的文書分類ツール

PyEuroVoc: A Tool for Multilingual Legal Document Classification with EuroVoc Descriptors ( http://arxiv.org/abs/2108.01139v1 )

ライセンス: Link先を確認
Andrei-Marius Avram, Vasile Pais, Dan Tufis(参考訳) EuroVocは欧州連合の機関の立法文書を整理するために作られた多言語シソーラスである。 特殊性の異なるレベルにある何千ものカテゴリを含み、記述者はおよそ30の言語で法的文書によって標的にされている。 本研究では,現代トランスフォーマーに基づく事前学習型言語モデルを用いて,22言語を対象としたEuroVoc分類のための統一フレームワークを提案する。 我々は、トレーニングされたモデルの性能を広範囲に研究し、同じデータセット上で、同様のツールであるJEXによって得られた結果が大幅に改善されたことを示す。 コードと微調整されたモデルは、トレーニングされたモデルの重みをロードし、新しいドキュメントを分類するプロセスを容易にするプログラムインターフェイスとともに、オープンソース化された。

EuroVoc is a multilingual thesaurus that was built for organizing the legislative documentary of the European Union institutions. It contains thousands of categories at different levels of specificity and its descriptors are targeted by legal texts in almost thirty languages. In this work we propose a unified framework for EuroVoc classification on 22 languages by fine-tuning modern Transformer-based pretrained language models. We study extensively the performance of our trained models and show that they significantly improve the results obtained by a similar tool - JEX - on the same dataset. The code and the fine-tuned models were open sourced, together with a programmatic interface that eases the process of loading the weights of a trained model and of classifying a new document.
公開日:2021-08-02
翻訳日:2021-08-04 14:10:57
# sphereface2: 顔認識に必要なのはバイナリ分類のみ

SphereFace2: Binary Classification is All You Need for Deep Face Recognition ( http://arxiv.org/abs/2108.01513v1 )

ライセンス: Link先を確認
Yandong Wen, Weiyang Liu, Adrian Weller, Bhiksha Raj, Rita Singh(参考訳) 最先端のディープフェイス認識手法は、ソフトマックスベースのマルチクラス分類フレームワークで主に訓練されている。 人気があり効果があるにもかかわらず、これらの手法には経験的性能を制限するいくつかの欠点がある。 本稿では,まず,既存のマルチクラス分類フレームワークにおける学習と評価の相違を同定し,ソフトマックス正規化の「競合的」性質に起因する潜在的な限界について考察する。 これらの制約により,SphereFace2と呼ばれる新しいバイナリ分類学習フレームワークを提案する。 既存の方法とは対照的に、SphereFace2はソフトマックス正規化と対応する閉集合仮定を回避している。 これにより、トレーニングと評価のギャップを効果的に埋め、各バイナリ分類タスクによって表現を個別に改善することができる。 特定のパフォーマンスのよい損失関数を設計するだけでなく、この"one-vs-all"バイナリ分類フレームワークの一般的な原則をいくつか要約して、現在の競合メソッドよりも優れています。 sphereface2が最先端のディープ顔認識手法を一貫して上回ることを証明するため,人気のあるベンチマークを総合的に実験した。

State-of-the-art deep face recognition methods are mostly trained with a softmax-based multi-class classification framework. Despite being popular and effective, these methods still have a few shortcomings that limit empirical performance. In this paper, we first identify the discrepancy between training and evaluation in the existing multi-class classification framework and then discuss the potential limitations caused by the "competitive" nature of softmax normalization. Motivated by these limitations, we propose a novel binary classification training framework, termed SphereFace2. In contrast to existing methods, SphereFace2 circumvents the softmax normalization, as well as the corresponding closed-set assumption. This effectively bridges the gap between training and evaluation, enabling the representations to be improved individually by each binary classification task. Besides designing a specific well-performing loss function, we summarize a few general principles for this "one-vs-all" binary classification framework so that it can outperform current competitive methods. We conduct comprehensive experiments on popular benchmarks to demonstrate that SphereFace2 can consistently outperform current state-of-the-art deep face recognition methods.
公開日:2021-08-03
翻訳日:2021-08-04 14:10:43
# RAIN: モーション予測のための強化ハイブリッドアテンション推論ネットワーク

RAIN: Reinforced Hybrid Attention Inference Network for Motion Forecasting ( http://arxiv.org/abs/2108.01316v1 )

ライセンス: Link先を確認
Jiachen Li and Fan Yang and Hengbo Ma and Srikanth Malla and Masayoshi Tomizuka and Chiho Choi(参考訳) 動き予測は、様々な領域(例えば、自律運転、人間とロボットの相互作用)において重要な役割を果たす。 しかし、観察された要素は異なるレベルの重要性を持つ。 いくつかの情報は、特定の状況における予測に無関係または気を散らすかもしれない。 この問題に対処するために,ハイブリットアテンション機構に基づく動的キー情報の選択とランク付けを行う汎用動作予測フレームワーク(RAIN)を提案する。 汎用フレームワークは、多エージェント軌道予測と人間の動き予測タスクをそれぞれ処理するためにインスタンス化される。 前者のタスクでは、モデルがグラフ表現を持つエージェント間の関係を認識し、それらの相対的重要性を決定する。 後者のタスクでは、モデルが人間の運動の時間的近接と依存を捉えることを学ぶ。 また、フレームワークの異なるモジュールのパラメータを最適化するための交互トレーニング戦略を備えた効果的な2段階トレーニングパイプラインを提案する。 本手法は,様々な領域における合成シミュレーションと運動予測ベンチマークの両方の枠組みを検証し,最先端の予測性能を実現するだけでなく,解釈可能かつ合理的なハイブリッド注意重み付けも提供することを実証した。

Motion forecasting plays a significant role in various domains (e.g., autonomous driving, human-robot interaction), which aims to predict future motion sequences given a set of historical observations. However, the observed elements may be of different levels of importance. Some information may be irrelevant or even distracting to the forecasting in certain situations. To address this issue, we propose a generic motion forecasting framework (named RAIN) with dynamic key information selection and ranking based on a hybrid attention mechanism. The general framework is instantiated to handle multi-agent trajectory prediction and human motion forecasting tasks, respectively. In the former task, the model learns to recognize the relations between agents with a graph representation and to determine their relative significance. In the latter task, the model learns to capture the temporal proximity and dependency in long-term human motions. We also propose an effective double-stage training pipeline with an alternating training strategy to optimize the parameters in different modules of the framework. We validate the framework on both synthetic simulations and motion forecasting benchmarks in different domains, demonstrating that our method not only achieves state-of-the-art forecasting performance, but also provides interpretable and reasonable hybrid attention weights.
公開日:2021-08-03
翻訳日:2021-08-04 14:10:25
# より正確: 多様性とエンティティ改訂医療反応の生成

More but Correct: Generating Diversified and Entity-revised Medical Response ( http://arxiv.org/abs/2108.01266v1 )

ライセンス: Link先を確認
Bin Li, Encheng Chen, Hongru Liu, Yixuan Weng, Bin Sun, Shutao Li, Yongping Bai and Meiling Hu(参考訳) 医療対話生成 (MDG) は, 患者とリアルタイムにコミュニケーションし, 幅広い応用可能性で臨床診断の効率化を図る, インテリジェントコンサルティングのための医療対話システムを構築することを目的としている。 本稿では,2021年中国知識グラフ・意味コンピューティングコンペティション(ccks)コンペティションにおいて,対話履歴に基づいてコンテキスト一貫性と医学的意味のある応答を生成するための枠組みを提案する。 本稿では,対話モデルに予測されたエンティティを融合機構で付加し,異なる情報源からの情報を活用することによって,エンティティ予測とエンティティ認識対話生成からなるパイプラインシステムを提案する。 復号段階では,エンティティ修正横ビームサーチ(EDBS)と呼ばれる新しい復号機構を提案し,エンティティの正しさを向上し,最終応答の長さと品質を向上する。 提案手法は,CCKS と International Conference on Learning Representations (ICLR) 2021 Workshop Machine Learning for Preventing and Combating Pandemics (MLPCP) Track 1 Entity-Aware MED competitions に勝つ。

Medical Dialogue Generation (MDG) is intended to build a medical dialogue system for intelligent consultation, which can communicate with patients in real-time, thereby improving the efficiency of clinical diagnosis with broad application prospects. This paper presents our proposed framework for the Chinese MDG organized by the 2021 China conference on knowledge graph and semantic computing (CCKS) competition, which requires generating context-consistent and medically meaningful responses conditioned on the dialogue history. In our framework, we propose a pipeline system composed of entity prediction and entity-aware dialogue generation, by adding predicted entities to the dialogue model with a fusion mechanism, thereby utilizing information from different sources. At the decoding stage, we propose a new decoding mechanism named Entity-revised Diverse Beam Search (EDBS) to improve entity correctness and promote the length and quality of the final response. The proposed method wins both the CCKS and the International Conference on Learning Representations (ICLR) 2021 Workshop Machine Learning for Preventing and Combating Pandemics (MLPCP) Track 1 Entity-aware MED competitions, which demonstrate the practicality and effectiveness of our method.
公開日:2021-08-03
翻訳日:2021-08-04 14:10:05
# アラビア語ツイートにおける皮肉の検出と定量化

sarcasm detection and quantification in arabic tweets ( http://arxiv.org/abs/2108.01425v1 )

ライセンス: Link先を確認
Bashar Talafha, Muhy Eddin Za'ter, Samer Suleiman, Mahmoud Al-Ayyoub, Mohammed N. Al-Kabi(参考訳) テキスト中のサーカズムを予測する役割は、自動サーカズム検出(automatic sarcasm detection)として知られている。 感傷的テキストにおけるサルカズムの有病率と課題を考えると、ほとんどの感情分析タスクにおいてこれは重要な段階である。 世界中のユーザーの間で、さまざまなソーシャルメディアプラットフォームの人気と利用が高まり、人々は日々の会話やソーシャルメディアの投稿、ツイートでますます皮肉を使い続けており、特定の話題や問題に対する感情を表現する手段として考えられている。 人気が高まった結果、研究者は様々な言語、特に英語のテキストからサルカズムを検出する研究に焦点を合わせ始めた。 しかし, サルカシックテキストの性質から, サルカシム検出の課題は難しい課題であり, 話題, 地域, ユーザの精神性, その他の要因によって, 相対的に, 他者とは大きく異なる場合がある。 これらの課題に加えて、アラビア語におけるサルカズム検出は、形態学的に豊かであるなど、アラビア語の複雑さによって独自の課題を抱えており、多くの方言は互いに大きく異なるが、低資源である。 近年では、コーパスの作成と収集、ワークショップの編成、ベースラインモデルの確立など、アラビア語におけるサルカム検出の課題に取り組む研究の試みはごくわずかである。 本稿は,ツイートから収集したサーカズム検出のための新しい人文注釈付きアラビア語コーパスの作成と,アラビア語ツイートにおけるサーカズム検出と定量化のための新しいアプローチの実現を目的としている。 提案手法は,分類ではなく回帰問題としてこの問題に取り組み,二項分類の代わりにサルカズムのレベルを予測しようとする。

The role of predicting sarcasm in the text is known as automatic sarcasm detection. Given the prevalence and challenges of sarcasm in sentiment-bearing text, this is a critical phase in most sentiment analysis tasks. With the increasing popularity and usage of different social media platforms among users around the world, people are using sarcasm more and more in their day-to-day conversations, social media posts and tweets, and it is considered as a way for people to express their sentiment about some certain topics or issues. As a result of the increasing popularity, researchers started to focus their research endeavors on detecting sarcasm from a text in different languages especially the English language. However, the task of sarcasm detection is a challenging task due to the nature of sarcastic texts; which can be relative and significantly differs from one person to another depending on the topic, region, the user's mentality and other factors. In addition to these challenges, sarcasm detection in the Arabic language has its own challenges due to the complexity of the Arabic language, such as being morphologically rich, with many dialects that significantly vary between each other, while also being lowly resourced. In recent years, only few research attempts started tackling the task of sarcasm detection in Arabic, including creating and collecting corpora, organizing workshops and establishing baseline models. This paper intends to create a new humanly annotated Arabic corpus for sarcasm detection collected from tweets, and implementing a new approach for sarcasm detection and quantification in Arabic tweets. The annotation technique followed in this paper is unique in sarcasm detection and the proposed approach tackles the problem as a regression problem instead of classification; i.e., the model attempts to predict the level of sarcasm instead of binary classification.
公開日:2021-08-03
翻訳日:2021-08-04 14:09:42
# eva:大規模生成事前学習を伴うオープンドメイン中国語対話システム

EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training ( http://arxiv.org/abs/2108.01547v1 )

ライセンス: Link先を確認
Hao Zhou, Pei Ke, Zheng Zhang, Yuxian Gu, Yinhe Zheng, Chujie Zheng, Yida Wang, Chen Henry Wu, Hao Sun, Xiaocong Yang, Bosi Wen, Xiaoyan Zhu, Minlie Huang, Jie Tang(参考訳) 事前学習された言語モデルは対話システムの生成能力を大幅に向上させたが、オープンドメインの中国語対話システムは英語の対話データやモデルサイズによって制限されている。 本稿では,2.8Bパラメータを持つ中国最大の事前学習対話モデルを含む中国語対話システムであるEVAを提案する。 このモデルを構築するために、様々なソーシャルメディアからWDC-Dialogueという名前の中国語対話データセットを収集する。 このデータセットは1.4Bコンテキスト応答ペアを含み、EVAの事前学習コーパスとして使用される。 自動評価と人間の評価に関する広範囲な実験は、evaが他の中国語の事前学習された対話モデル、特に人間のボット会話のマルチターン対話モデルよりも優れていることを示している。

Although pre-trained language models have remarkably enhanced the generation ability of dialogue systems, open-domain Chinese dialogue systems are still limited by the dialogue data and the model size compared with English ones. In this paper, we propose EVA, a Chinese dialogue system that contains the largest Chinese pre-trained dialogue model with 2.8B parameters. To build this model, we collect the largest Chinese dialogue dataset named WDC-Dialogue from various public social media. This dataset contains 1.4B context-response pairs and is used as the pre-training corpus of EVA. Extensive experiments on automatic and human evaluation show that EVA outperforms other Chinese pre-trained dialogue models especially in the multi-turn interaction of human-bot conversations.
公開日:2021-08-03
翻訳日:2021-08-04 14:09:13
# 時空間グラフ畳み込みネットワークのためのスケルトン分割戦略

Skeleton Split Strategies for Spatial Temporal Graph Convolution Networks ( http://arxiv.org/abs/2108.01309v1 )

ライセンス: Link先を確認
Motasem S. Alsawadi and Miguel Rio(参考訳) 人体の骨格表現は、この作業に有効であることが証明されている。 骨格はグラフ形式で表現される。 しかし、グラフのトポロジーはユークリッドベースのデータのように構成されない。 そこで,スケルトングラフ上で畳み込み演算を行う新しい手法を提案する。 我々の提案はYanらによって提案されたST-GCNフレームワークに基づいている。 [1]. 本研究では,ST-GCNフレームワークにおけるラベルマッピング手法の改良について述べる。 畳み込み操作の代替手法として,3つの分割プロセス(完全距離分割,接続分割,インデックス分割)を導入する。 評価のために,NTU-RGB+DとKineeticsの2つのベンチマークデータセットを用いて実験を行った。 以上の結果から, 分割プロセスはすべて従来の分割戦略より優れており, 付加的なトレーニングパラメータの重み付けを伴わずに, トレーニング中により安定であることが示唆された。 そこで本提案手法は,屋内環境を対象とした日常生活認識システムを中心としたリアルタイムアプリケーションに,より現実的なソリューションを提供する。

A skeleton representation of the human body has been proven to be effective for this task. The skeletons are presented in graphs form-like. However, the topology of a graph is not structured like Euclidean-based data. Therefore, a new set of methods to perform the convolution operation upon the skeleton graph is presented. Our proposal is based upon the ST-GCN framework proposed by Yan et al. [1]. In this study, we present an improved set of label mapping methods for the ST-GCN framework. We introduce three split processes (full distance split, connection split, and index split) as an alternative approach for the convolution operation. To evaluate the performance, the experiments presented in this study have been trained using two benchmark datasets: NTU-RGB+D and Kinetics. Our results indicate that all of our split processes outperform the previous partition strategies and are more stable during training without using the edge importance weighting additional training parameter. Therefore, our proposal can provide a more realistic solution for real-time applications centred on daily living recognition systems activities for indoor environments.
公開日:2021-08-03
翻訳日:2021-08-04 14:09:00
# 30日間にわたる画像の人気予測

Predicting Popularity of Images Over 30 Days ( http://arxiv.org/abs/2108.01326v1 )

ライセンス: Link先を確認
Amartya Dutta, Ferdous Ahmed Barbhuiya(参考訳) 現在の作品は、アップロードされる前に画像の人気を予測しようとする問題に対処している。 この方法はFlickrの画像に特化している。 各画像の社会的特徴とアップロードしたユーザーの特徴が記録されている。 また、データセットは、30日間にわたって各画像によって得られたビューの基底真理値である各画像のエンゲージメントスコアも含む。 この研究は、ユーザーと画像の社会的特徴と画像の視覚的特徴を用いて、Flickr上の画像の人気を30日間にわたって予測することを目的としている。 この方法では、画像のエンゲージメントシーケンスは、画像のスケールと形状の2つの独立した量に依存すると言える。 画像の形状とスケールが予測されると、それらを組み合わせて、30日以上にわたる画像の予測シーケンスを得る。 現在の作業は、ある憶測と改善の提案を持って、同じ方向に進めた以前の作業に続くものだ。

The current work deals with the problem of attempting to predict the popularity of images before even being uploaded. This method is specifically focused on Flickr images. Social features of each image as well as that of the user who had uploaded it, have been recorded. The dataset also includes the engagement score of each image which is the ground truth value of the views obtained by each image over a period of 30 days. The work aims to predict the popularity of images on Flickr over a period of 30 days using the social features of the user and the image, as well as the visual features of the images. The method states that the engagement sequence of an image can be said to depend on two independent quantities, namely scale and shape of an image. Once the shape and scale of an image have been predicted, combining them the predicted sequence of an image over 30 days is obtained. The current work follows a previous work done in the same direction, with certain speculations and suggestions of improvement.
公開日:2021-08-03
翻訳日:2021-08-04 14:08:46
# BiLSTMに基づく機械学習によるアラビア語のソフトスペル誤りの訂正

Correcting Arabic Soft Spelling Mistakes using BiLSTM-based Machine Learning ( http://arxiv.org/abs/2108.01141v1 )

ライセンス: Link先を確認
Gheith A. Abandah, Ashraf Suyyagh, Mohammed Z. Khedher(参考訳) ソフトスペル誤り(Soft spelling error)とは、アラビア語話者や外国語学習者の間で広く見られる綴りミスの一種である。 これらの誤りのいくつかは、自然界におけるタイポグラフィ的である。 アラビア文字の正書法的なバリエーションと、それらの正しい用法を規定する複雑な規則が原因である。 多くの人々がこれらの規則を禁止し、同じ音質の音をすると、しばしばそのような文字を混同する。 本稿では,このタイプの誤りを訂正する双方向長短期記憶ネットワークを提案する。 我々は一連のBiLSTMネットワークを開発し、訓練し、評価し、比較する。 我々は文字レベルでスペル補正問題にアプローチする。 我々は古典と現代の両方のアラビア語のテキストを扱う。 我々はこの問題を1対1のシーケンス転写問題として扱う。 ソフトアラビアエラークラスは, 1対1のシーケンス転写を保存するために, 欠落と加算ミスを包含するので, 1対1のシーケンシングを維持し, コストのかかるエンコーダ-デコーダアーキテクチャを使わない, 簡単な低リソースかつ効果的な手法を提案する。 我々は、変換入力と確率的エラーインジェクションアプローチを用いてスペルミスを修正するためにbilstmモデルを訓練する。 2つのBiLSTMレイヤを持ち、ドロップアウト正規化を使用し、エラー注入率40%の後者のトレーニングアプローチを用いてトレーニングされる構成を推奨する。 最良のモデルは、注入されたエラーの96.4%を補正し、ソフトスペルの実際のテストセットで1.28%低い文字誤り率を達成する。

Soft spelling errors are a class of spelling mistakes that is widespread among native Arabic speakers and foreign learners alike. Some of these errors are typographical in nature. They occur due to orthographic variations of some Arabic letters and the complex rules that dictate their correct usage. Many people forgo these rules, and given the identical phonetic sounds, they often confuse such letters. In this paper, we propose a bidirectional long short-term memory network that corrects this class of errors. We develop, train, evaluate, and compare a set of BiLSTM networks. We approach the spelling correction problem at the character level. We handle Arabic texts from both classical and modern standard Arabic. We treat the problem as a one-to-one sequence transcription problem. Since the soft Arabic errors class encompasses omission and addition mistakes, to preserve the one-to-one sequence transcription, we propose a simple low-resource yet effective technique that maintains the one-to-one sequencing and avoids using a costly encoder-decoder architecture. We train the BiLSTM models to correct the spelling mistakes using transformed input and stochastic error injection approaches. We recommend a configuration that has two BiLSTM layers, uses the dropout regularization, and is trained using the latter training approach with error injection rate of 40%. The best model corrects 96.4% of the injected errors and achieves a low character error rate of 1.28% on a real test set of soft spelling mistakes.
公開日:2021-08-02
翻訳日:2021-08-04 14:08:32
# RareDis corpus: まれな疾患, その徴候, 症状を注記したコーパス

The RareDis corpus: a corpus annotated with rare diseases, their signs and symptoms ( http://arxiv.org/abs/2108.01204v1 )

ライセンス: Link先を確認
Claudia Mart\'inez-deMiguel and Isabel Segura-Bedmar and Esteban Chac\'on-Solano and Sara Guerrero-Aspizua(参考訳) RareDis corpus には5,000以上の稀な疾患があり、約6,000の臨床症状が注記されている。 さらに、インターアノテータ協定の評価は比較的高い合意を示している(F1-measure is equal to 83.5% under exact Match criteria for the entity and equal to 81.3% for the relations)。 これらの結果から, このコーパスは高品質であり, 稀な疾患に注がれたコーパスが不足しているため, この分野にとって重要なステップとなる。 これにより、これらの稀な疾患の診断と治療を容易にし、これらの患者の生活の質を劇的に改善するNLPのさらなる応用への扉を開くことができる。

The RareDis corpus contains more than 5,000 rare diseases and almost 6,000 clinical manifestations are annotated. Moreover, the Inter Annotator Agreement evaluation shows a relatively high agreement (F1-measure equal to 83.5% under exact match criteria for the entities and equal to 81.3% for the relations). Based on these results, this corpus is of high quality, supposing a significant step for the field since there is a scarcity of available corpus annotated with rare diseases. This could open the door to further NLP applications, which would facilitate the diagnosis and treatment of these rare diseases and, therefore, would improve dramatically the quality of life of these patients.
公開日:2021-08-02
翻訳日:2021-08-04 14:08:08
# your fairness: group fairness of pretrained language models in toxic text classification (英語)

Your fairness may vary: Group fairness of pretrained language models in toxic text classification ( http://arxiv.org/abs/2108.01250v1 )

ライセンス: Link先を確認
Ioana Baldini, Dennis Wei, Karthikeyan Natesan Ramamurthy, Mikhail Yurochkin, Moninder Singh(参考訳) 有毒テキスト分類のための10種以上の微調整LMにおける性能・公正トレードオフについて検討した。 大規模モデルと正規モデルと圧縮モデルとの偏りに関して,ブランケット文は作成できないことを実証的に示す。 さらに,公平性に依存しないパフォーマンス指標に注目することで,公平性特性の異なるモデルに繋がる可能性が示唆された。

We study the performance-fairness trade-off in more than a dozen fine-tuned LMs for toxic text classification. We empirically show that no blanket statement can be made with respect to the bias of large versus regular versus compressed models. Moreover, we find that focusing on fairness-agnostic performance metrics can lead to models with varied fairness characteristics.
公開日:2021-08-03
翻訳日:2021-08-04 14:07:54
# AdvRush: 逆ロバストなニューラルネットワークの検索

AdvRush: Searching for Adversarially Robust Neural Architectures ( http://arxiv.org/abs/2108.01289v1 )

ライセンス: Link先を確認
Jisoo Mok, Byunggook Na, Hyeokjun Choe, Sungroh Yoon(参考訳) 深層ニューラルネットワークは、その驚くべきパフォーマンスで世界を喜ばせ続けている。 しかし、その予測は、人間には受け入れられない敵の例によって腐敗する傾向がある。 敵の例に対するニューラルネットワークの堅牢性を改善するための現在の取り組みは、より堅牢な方向にニューラルネットワークの重みを更新する堅牢なトレーニング手法の開発に焦点を当てている。 本研究では、重みパラメータのトレーニングを超えて、本質的な頑健性を持つ対向的に堅牢なニューラルアーキテクチャを設計する問題を考察する。 本稿では, ニューラルネットワークの本質的な頑健性は, 入力ロスランドスケープの滑らかさによって表現できることを, トレーニング手法によらず, 新たな対向的ロバスト性を考慮したニューラルアーキテクチャ探索アルゴリズムAdvRushを提案する。 入力損失のスムースなランドスケープを持つ候補アーキテクチャを好むレギュラライザを通じて、advrushは、敵対的にロバストなニューラルネットワークアーキテクチャをうまく発見する。 AdvRushの包括的な理論的モチベーションとともに、さまざまなベンチマークデータセットに対するAdvRushの有効性を示すために、多数の実験を行っている。 特に、CIFAR-10では、AdvRushは標準訓練後のFGSM攻撃で55.91%の堅牢な精度を達成し、7段階のPGD攻撃訓練後にAutoAttackで50.04%の堅牢な精度を達成した。

Deep neural networks continue to awe the world with their remarkable performance. Their predictions, however, are prone to be corrupted by adversarial examples that are imperceptible to humans. Current efforts to improve the robustness of neural networks against adversarial examples are focused on developing robust training methods, which update the weights of a neural network in a more robust direction. In this work, we take a step beyond training of the weight parameters and consider the problem of designing an adversarially robust neural architecture with high intrinsic robustness. We propose AdvRush, a novel adversarial robustness-aware neural architecture search algorithm, based upon a finding that independent of the training method, the intrinsic robustness of a neural network can be represented with the smoothness of its input loss landscape. Through a regularizer that favors a candidate architecture with a smoother input loss landscape, AdvRush successfully discovers an adversarially robust neural architecture. Along with a comprehensive theoretical motivation for AdvRush, we conduct an extensive amount of experiments to demonstrate the efficacy of AdvRush on various benchmark datasets. Notably, on CIFAR-10, AdvRush achieves 55.91% robust accuracy under FGSM attack after standard training and 50.04% robust accuracy under AutoAttack after 7-step PGD adversarial training.
公開日:2021-08-03
翻訳日:2021-08-04 14:07:44
# リフト型適応グラフウェーブレットを用いたスペクトルグラフ畳み込みネットワーク

Spectral Graph Convolutional Networks WithLifting-based Adaptive Graph Wavelets ( http://arxiv.org/abs/2108.01660v1 )

ライセンス: Link先を確認
Mingxing Xu, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong and Pascal Frossard(参考訳) スペクトルグラフ畳み込みネットワーク(SGCN)は、確立されたグラフ信号処理フレームワークのプリズムを通じて、その解釈可能性から、グラフ表現学習において注目を集めている。 しかし、既存のSGCNは、手前のグラフやタスク上の信号に適応できない厳密な変換を持つグラフ畳み込みの実装に限られている。 本稿では,適応グラフウェーブレットを用いたグラフ畳み込みを実装した新しいスペクトルグラフ畳み込みネットワークを提案する。 具体的には、適応グラフウェーブレットをニューラルネットワークパラメータ化昇降構造で学習し、グラフ構造とノードの特徴を共同で考慮するために、構造認識注意型昇降操作が開発される。 拡散ウェーブレットに基づき,非二部グラフ分割による構造的情報損失の軽減を図る。 設計により、結果のウェーブレット変換の局所性と空間性が保証され、大小のグラフに対する昇降構造のスケーラビリティが保証される。 さらに,学習したウェーブレットを用いてスパースグラフ表現を学習し,その拡張性と解釈性を向上し,局所的で効率的でスケーラブルなスペクトルグラフ畳み込みを実現する。 学習したグラフ表現がノードの置換に不変であることを保証するため、ネットワークの入力時にレイヤを使用し、そのローカルなトポロジ情報に基づいてノードを並べ替える。 ベンチマーク引用およびバイオインフォマティクスグラフデータセットにおけるノードレベルおよびグラフレベルの表現学習タスクにおける提案ネットワークを評価する。 大規模な実験は、既存のSGCNよりも精度、効率、スケーラビリティの点で提案されたネットワークの優位性を実証している。

Spectral graph convolutional networks (SGCNs) have been attracting increasing attention in graph representation learning partly due to their interpretability through the prism of the established graph signal processing framework. However, existing SGCNs are limited in implementing graph convolutions with rigid transforms that could not adapt to signals residing on graphs and tasks at hand. In this paper, we propose a novel class of spectral graph convolutional networks that implement graph convolutions with adaptive graph wavelets. Specifically, the adaptive graph wavelets are learned with neural network-parameterize d lifting structures, where structure-aware attention-based lifting operations are developed to jointly consider graph structures and node features. We propose to lift based on diffusion wavelets to alleviate the structural information loss induced by partitioning non-bipartite graphs. By design, the locality and sparsity of the resulting wavelet transform as well as the scalability of the lifting structure for large and varying-size graphs are guaranteed. We further derive a soft-thresholding filtering operation by learning sparse graph representations in terms of the learned wavelets, which improves the scalability and interpretablity, and yield a localized, efficient and scalable spectral graph convolution. To ensure that the learned graph representations are invariant to node permutations, a layer is employed at the input of the networks to reorder the nodes according to their local topology information. We evaluate the proposed networks in both node-level and graph-level representation learning tasks on benchmark citation and bioinformatics graph datasets. Extensive experiments demonstrate the superiority of the proposed networks over existing SGCNs in terms of accuracy, efficiency and scalability.
公開日:2021-08-03
翻訳日:2021-08-04 14:07:19
# グラフサイド情報を用いた多腕バンディットの純粋探査

Pure Exploration in Multi-armed Bandits with Graph Side Information ( http://arxiv.org/abs/2108.01152v1 )

ライセンス: Link先を確認
Parth K.Thaker, Nikhil Rao, Mohit Malu, Gautam Dasarathy(参考訳) グラフ側情報を用いたマルチアームバンディットの純粋探索について検討する。 特に、与えられた任意のグラフに対してアーム報酬が滑らかであるという仮定の下で、固定信頼設定における最高のアーム(および最良に近いアーム)識別問題を考える。 これは、検討中のオプションやアクションの類似性に関する情報をしばしば持っている現実世界の純粋な爆発シナリオを捉えている。 本稿では,この問題に対する新しいアルゴリズムgrub(graph based ucb)を提案し,その性能を理論的に評価し,グラフ側情報の有効性を明らかにした。 この理論を実験結果で補完し, 利用可能なグラフサイド情報を利用することで, 純粋な探索手法よりも大幅に改善できることを示す。

We study pure exploration in multi-armed bandits with graph side-information. In particular, we consider the best arm (and near-best arm) identification problem in the fixed confidence setting under the assumption that the arm rewards are smooth with respect to a given arbitrary graph. This captures a range of real world pure-exploration scenarios where one often has information about the similarity of the options or actions under consideration. We propose a novel algorithm GRUB (GRaph based UcB) for this problem and provide a theoretical characterization of its performance that elicits the benefit of the graph-side information. We complement our theory with experimental results that show that capitalizing on available graph side information yields significant improvements over pure exploration methods that are unable to use this information.
公開日:2021-08-02
翻訳日:2021-08-04 14:06:55
# アンサンブル特徴セレクタの安定性の高速推定法

Fast Estimation Method for the Stability of Ensemble Feature Selectors ( http://arxiv.org/abs/2108.01485v1 )

ライセンス: Link先を確認
Rina Onda, Zhengyan Gao, Masaaki Kotera, Kenta Oono(参考訳) より良い解釈と堅牢な予測のために、機能セレクタは \textit{stable} であることが望ましい。 ensemblingは機能セレクタの安定性向上に有効であることが知られている。 アンサンブルは時間を要するため、アンサンブル特徴セレクタの安定性を推定するために計算コストを削減することが望ましい。 本稿では,特徴セレクタのシミュレータを提案し,アンサンブル特徴セレクタの安定性を高速に推定する。 我々の知る限りでは、アンサンブル特徴セレクタの安定性を推定し、理論的かつ経験的に計算時間を短縮する最初の研究である。

It is preferred that feature selectors be \textit{stable} for better interpretabity and robust prediction. Ensembling is known to be effective for improving the stability of feature selectors. Since ensembling is time-consuming, it is desirable to reduce the computational cost to estimate the stability of the ensemble feature selectors. We propose a simulator of a feature selector, and apply it to a fast estimation of the stability of ensemble feature selectors. To the best of our knowledge, this is the first study that estimates the stability of ensemble feature selectors and reduces the computation time theoretically and empirically.
公開日:2021-08-03
翻訳日:2021-08-04 14:06:43
# 空間的偏りのない生成モデルに向けて

Toward Spatially Unbiased Generative Models ( http://arxiv.org/abs/2108.01285v1 )

ライセンス: Link先を確認
Jooyoung Choi, Jungbeom Lee, Yonghyun Jeong, Sungroh Yoon(参考訳) 最近の画像生成モデルは顕著な生成性能を示している。 しかしそれらは、私たちが空間バイアスと呼ぶデータセットの強い位置選好を反映している。 そのため、発電機は見えない場所やスケールでサンプルをレンダリングする。 生成者は空間的コンテンツを描画するために暗黙的な位置エンコーディングに頼る。 我々の観測から、発電機の暗黙的な位置符号化は翻訳変種であり、発電機は空間的に偏っている。 この問題に対処するために、生成器の各スケールで明示的な位置エンコーディングを注入することを提案する。 空間的偏りのないジェネレータを学習することにより,ganインバージョン,マルチスケール生成,任意のサイズの生成,アスペクト比など,複数のタスクにおけるジェネレータの堅牢な使用が促進される。 さらに,本手法は拡散確率モデルのデノベーションにも適用可能であることを示す。

Recent image generation models show remarkable generation performance. However, they mirror strong location preference in datasets, which we call spatial bias. Therefore, generators render poor samples at unseen locations and scales. We argue that the generators rely on their implicit positional encoding to render spatial content. From our observations, the generator's implicit positional encoding is translation-variant, making the generator spatially biased. To address this issue, we propose injecting explicit positional encoding at each scale of the generator. By learning the spatially unbiased generator, we facilitate the robust use of generators in multiple tasks, such as GAN inversion, multi-scale generation, generation of arbitrary sizes and aspect ratios. Furthermore, we show that our method can also be applied to denoising diffusion probabilistic models.
公開日:2021-08-03
翻訳日:2021-08-04 14:06:34
# モデルはどこへ行くのか? 説明可能性のためのパラメータ空間塩分マップ

Where do Models go Wrong? Parameter-Space Saliency Maps for Explainability ( http://arxiv.org/abs/2108.01335v1 )

ライセンス: Link先を確認
Roman Levin, Manli Shu, Eitan Borgnia, Furong Huang, Micah Goldblum, Tom Goldstein(参考訳) 従来のサリエンシーマップは、ニューラルネットワークの予測が高感度な入力特徴を強調している。 私たちは、ネットワークパラメータを入力ではなく識別し、分析し、誤った決定に責任を負うという、サリエンシーに対する別のアプローチを取ります。 類似したパラメータを誤動作させるサンプルは意味的に類似していることがわかった。 また、間違った分類されたサンプルに対して最も健全なパラメータをプルーニングすることは、しばしばモデルの振る舞いを改善することを示す。 さらに、1つのサンプルで最も有望なパラメータを微調整すると、同様の理由で誤分類された他のサンプルでエラー訂正が行われる。 提案手法では,画像特徴がどのように特定のネットワークコンポーネントの動作不良を引き起こすかを明らかにするインプットスペースサリエンシー手法も導入する。 さらに、データセットとケーススタディレベルの両方において、サリエンシマップの意義を厳格に検証する。

Conventional saliency maps highlight input features to which neural network predictions are highly sensitive. We take a different approach to saliency, in which we identify and analyze the network parameters, rather than inputs, which are responsible for erroneous decisions. We find that samples which cause similar parameters to malfunction are semantically similar. We also show that pruning the most salient parameters for a wrongly classified sample often improves model behavior. Furthermore, fine-tuning a small number of the most salient parameters on a single sample results in error correction on other samples that are misclassified for similar reasons. Based on our parameter saliency method, we also introduce an input-space saliency technique that reveals how image features cause specific network components to malfunction. Further, we rigorously validate the meaningfulness of our saliency maps on both the dataset and case-study levels.
公開日:2021-08-03
翻訳日:2021-08-04 14:06:22
# 深層学習検出のための微生物コロニーデータセットAGAR

AGAR a microbial colony dataset for deep learning detection ( http://arxiv.org/abs/2108.01234v1 )

ライセンス: Link先を確認
Sylwia Majchrowska, Jaros{\l}aw Paw{\l}owski, Grzegorz Gu{\l}a, Tomasz Bonus, Agata Hanas, Adam Loch, Agnieszka Pawlak, Justyna Roszkowiak, Tomasz Golan, and Zuzanna Drulis-Kawa(参考訳) Annotated Germs for Automated Recognition (AGAR)データセットは、寒天板上に培養された微生物コロニーの画像データベースである。 5つの異なる微生物の18万枚の写真を単一または混合培養し、2つの異なるカメラで様々な照明条件下で撮影する。 全ての画像は「可算」、「非可算」、そして「空」に分類され、コロニーの位置と種同定(合計336442コロニー)を持つ微生物学者によって「可算」クラスに分類される。 本研究では,データセット自体とその開発過程について述べる。 第2部では,オブジェクト検出のためのディープニューラルネットワークアーキテクチャ,すなわち高速r-cnnとカスケードr-cnnの性能をagarデータセットで評価した。 その結果,ペトリ皿写真に基づく微生物の局在と分類のプロセスを自動化する深層学習の可能性が確認された。 さらに、AGARはこの種のデータセットとサイズの最初の公開データセットであり、将来の機械学習モデルの開発を促進する。 これらの研究で使用されるデータはhttps://agar.neurosy s.com/で見ることができる。

The Annotated Germs for Automated Recognition (AGAR) dataset is an image database of microbial colonies cultured on agar plates. It contains 18000 photos of five different microorganisms as single or mixed cultures, taken under diverse lighting conditions with two different cameras. All the images are classified into "countable", "uncountable", and "empty", with the "countable" class labeled by microbiologists with colony location and species identification (336442 colonies in total). This study describes the dataset itself and the process of its development. In the second part, the performance of selected deep neural network architectures for object detection, namely Faster R-CNN and Cascade R-CNN, was evaluated on the AGAR dataset. The results confirmed the great potential of deep learning methods to automate the process of microbe localization and classification based on Petri dish photos. Moreover, AGAR is the first publicly available dataset of this kind and size and will facilitate the future development of machine learning models. The data used in these studies can be found at https://agar.neurosy s.com/.
公開日:2021-08-03
翻訳日:2021-08-04 14:06:10
# 大規模微分プライベートベルト

Large-Scale Differentially Private BERT ( http://arxiv.org/abs/2108.01624v1 )

ライセンス: Link先を確認
Rohan Anil, Badih Ghazi, Vineet Gupta, Ravi Kumar, Pasin Manurangsi(参考訳) 本研究では,DP-SGDを用いたBERT-Largeの大規模事前学習について検討する。 本稿では, バッチサイズを数百万(メガバッチ)にスケールアップすることで, BERT のDP-SGD ステップの有用性が向上し, バッチサイズの増加による効率の向上が図られている。 我々の実装は、XLAコンパイラ[XLA17]と協調してJAX[BFH+18, FJL18]プリミティブを有効利用することにより、DP-SGDステップのオーバーヘッドが最小化されることを実証した最近の[SVK20]の成果に基づいている。 実装では2mのバッチサイズで60.5%のマスキング言語モデル精度を実現し,$\epsilon = 5.36$ で実装した。 この数を観点で見ると、非プライベートなBERTモデルは$\sim$70%の精度が得られる。

In this work, we study the large-scale pretraining of BERT-Large with differentially private SGD (DP-SGD). We show that combined with a careful implementation, scaling up the batch size to millions (i.e., mega-batches) improves the utility of the DP-SGD step for BERT; we also enhance its efficiency by using an increasing batch size schedule. Our implementation builds on the recent work of [SVK20], who demonstrated that the overhead of a DP-SGD step is minimized with effective use of JAX [BFH+18, FJL18] primitives in conjunction with the XLA compiler [XLA17]. Our implementation achieves a masked language model accuracy of 60.5% at a batch size of 2M, for $\epsilon = 5.36$. To put this number in perspective, non-private BERT models achieve an accuracy of $\sim$70%.
公開日:2021-08-03
翻訳日:2021-08-04 14:05:51
# 制約付きマルチクリトリアパスプラニングの学習による予測

Learning-based Preference Prediction for Constrained Multi-Criteria Path-Planning ( http://arxiv.org/abs/2108.01080v1 )

ライセンス: Link先を確認
Kevin Osanlou, Christophe Guettier, Andrei Bursuc, Tristan Cazenave and Eric Jacopin(参考訳) 単一基準最適化問題における探索アルゴリズムでは,学習に基づく手法がますます普及している。 対照的に、多重基準最適化には、多くのアプリケーションが存在するにもかかわらず、アプローチが著しく少ない。 自律地上車両(AGV)のための制約された経路計画(Constrained path-planning for autonomous Ground Vehicles,AGV)は、一般に、災害救助や災害救助の目的で、オフロード環境においてAGVが展開される。 エージェントは以下のジレンマに直面することができる: 既知の基準に従ってソース決定経路を最適化し、運用上の制約の下で不確実な基準を満たす。 既知の基準は、距離を表すパスのコストに関連付けられている。 不確かな基準は、人間の介入を必要とせずに経路を走行する可能性を示す。 これは、車両の物理、探索された地形の状態、気象条件など、様々な外部パラメータに依存する。 本研究では,オフラインシミュレーションによって得られた知識を,不確実性を予測するためにニューラルネットワークモデルをトレーニングすることで活用する。 このモデルをパスプランナーに統合し、オンラインで問題を解決します。 最後に,現実的なAGVシナリオの実験を行い,提案手法では人的介入の頻度を低くし,経路距離を限定的に増加させる。

Learning-based methods are increasingly popular for search algorithms in single-criterion optimization problems. In contrast, for multiple-criteria optimization there are significantly fewer approaches despite the existence of numerous applications. Constrained path-planning for Autonomous Ground Vehicles (AGV) is one such application, where an AGV is typically deployed in disaster relief or search and rescue applications in off-road environments. The agent can be faced with the following dilemma : optimize a source-destination path according to a known criterion and an uncertain criterion under operational constraints. The known criterion is associated to the cost of the path, representing the distance. The uncertain criterion represents the feasibility of driving through the path without requiring human intervention. It depends on various external parameters such as the physics of the vehicle, the state of the explored terrains or weather conditions. In this work, we leverage knowledge acquired through offline simulations by training a neural network model to predict the uncertain criterion. We integrate this model inside a path-planner which can solve problems online. Finally, we conduct experiments on realistic AGV scenarios which illustrate that the proposed framework requires human intervention less frequently, trading for a limited increase in the path distance.
公開日:2021-08-02
翻訳日:2021-08-04 14:05:33
# マルチアームバンドアルゴリズムを用いたEコマースにおけるコンテンツ推薦の適応的最適化

Adaptively Optimize Content Recommendation Using Multi Armed Bandit Algorithms in E-commerce ( http://arxiv.org/abs/2108.01440v1 )

ライセンス: Link先を確認
Ding Xiang, Becky West, Jiaqi Wang, Xiquan Cui, Jinzhou Huang(参考訳) 電子商取引サイトは、買い物の摩擦を減らし、顧客満足度を高めるために、利用者に最もタイムリーな情報を提供することを目指している。 適応最適化アルゴリズムの一種であるマルチ武装バンドモデル(MAB)は、そのような目的のために可能なアプローチを提供する。 本稿では,3つの古典的MABアルゴリズム,epsilon-greedy,Thom pson sample (TS),Upper confidence bound 1 (UCB1) を用いて動的コンテンツレコメンデーションを解析し,これらのアルゴリズムを内部で開発して実世界のeコマースユースケースを解決する。 まず,非定常報酬分布を用いたシミュレーション購入データセットを用いて3つのmabアルゴリズムを解析し,トラヒック割り当てのダイナミクスとアルゴリズムの累積報酬について検討した。 第2に、3つのMABアルゴリズムの累積報酬と、実際のA/Bテストデータセットを用いた1000以上の試行を比較する。 競合するレコメンデーションの成功率の差が大きいほど、MABアルゴリズムはより累積的な報奨が得られることがわかった。 さらに、TSは異なるテストシナリオ下での平均累積報酬が最も高いことを示している。 第3に,eコマースにおける遅延報酬問題を克服し,アプリホームページ上でオンラインコンテンツの最適化を可能にするバッチ更新MABアルゴリズムを開発した。 最先端比較では、バッチ更新MABアルゴリズム、サードパーティMABソリューション、デフォルトビジネスロジック間の実A/Bテストを行う。 その結果、バッチ更新されたmabアルゴリズムは、外部mabサービスに比べて2.9%、相対クリックスルー率(ctr)が1.4%、相対変換率(cvr)が16.1%、さらに相対ctrが2.9%、相対cvrが1.4%増加した。

E-commerce sites strive to provide users the most timely relevant information in order to reduce shopping frictions and increase customer satisfaction. Multi armed bandit models (MAB) as a type of adaptive optimization algorithms provide possible approaches for such purposes. In this paper, we analyze using three classic MAB algorithms, epsilon-greedy, Thompson sampling (TS), and upper confidence bound 1 (UCB1) for dynamic content recommendations, and walk through the process of developing these algorithms internally to solve a real world e-commerce use case. First, we analyze the three MAB algorithms using simulated purchasing datasets with non-stationary reward distributions to simulate the possible time-varying customer preferences, where the traffic allocation dynamics and the accumulative rewards of different algorithms are studied. Second, we compare the accumulative rewards of the three MAB algorithms with more than 1,000 trials using actual historical A/B test datasets. We find that the larger difference between the success rates of competing recommendations the more accumulative rewards the MAB algorithms can achieve. In addition, we find that TS shows the highest average accumulative rewards under different testing scenarios. Third, we develop a batch-updated MAB algorithm to overcome the delayed reward issue in e-commerce and enable an online content optimization on our App homepage. For a state-of-the-art comparison, a real A/B test among our batch-updated MAB algorithm, a third-party MAB solution, and the default business logic are conducted. The result shows that our batch-updated MAB algorithm outperforms the counterparts and achieves 6.13% relative click-through rate (CTR) increase and 16.1% relative conversion rate (CVR) increase compared to the default experience, and 2.9% relative CTR increase and 1.4% relative CVR increase compared to the external MAB service.
公開日:2021-07-30
翻訳日:2021-08-04 14:05:13
# 連系・自律型自動車充電におけるリスク対応学習システム

Risk Adversarial Learning System for Connected and Autonomous Vehicle Charging ( http://arxiv.org/abs/2108.01466v1 )

ライセンス: Link先を確認
Md. Shirajum Munir, Ki Tae Kim, Kyi Thar, Dusit Niyato, and Choong Seon Hong(参考訳) 本稿では,コネクテッド・自動運転車充電インフラ(CAV-CI)のための合理的意思決定支援システム(RDSS)の設計について述べる。 検討されたCAV-CIでは、配電システムオペレーター(DSO)が電気自動車供給装置(EVSE)を配備し、人間駆動のコネクテッドカー(CV)と自動運転車(AV)のためのEV充電設備を提供する。 人力EVによる充電要求は、実際の需要よりもエネルギーと充電時間を必要とすると不合理になる。 したがって、各EVSEのスケジューリングポリシーは、CVとAVの両方の充電要求を満たすために、不合理充電要求を適応的に蓄積しなければならない。 そこで, DSOにおけるRDSS問題を定式化し, DSOの遅延リスクを満たすことにより充電能力利用を最大化することを目的とする。 そこで我々は,データインフォームド方式でCVによる不合理な動作に適応する合理的報酬最大化問題を考案した。 本稿では, 定式化rdss問題を解くために, cav-ci のリスク回避型マルチエージェント学習システム (ramals) を提案する。 RAMALSでは、DSOは各EVSEに毒性リスクを知らせる集中型リスク対抗剤(RAA)として機能する。 その後、各EVSEは自己学習エージェントの役割を担い、RAAからのアドバイスに対処することで、自身のEVセッションを適応的にスケジュールする。 実験の結果、提案されたRAMALSは充電速度が46.6%向上し、EVSEのアクティブ充電時間は約28.6%改善し、現在展開されているACN EVSEシステムや他のベースラインと比較して少なくとも33.3%のエネルギー利用が可能であることが示された。

In this paper, the design of a rational decision support system (RDSS) for a connected and autonomous vehicle charging infrastructure (CAV-CI) is studied. In the considered CAV-CI, the distribution system operator (DSO) deploys electric vehicle supply equipment (EVSE) to provide an EV charging facility for human-driven connected vehicles (CVs) and autonomous vehicles (AVs). The charging request by the human-driven EV becomes irrational when it demands more energy and charging period than its actual need. Therefore, the scheduling policy of each EVSE must be adaptively accumulated the irrational charging request to satisfy the charging demand of both CVs and AVs. To tackle this, we formulate an RDSS problem for the DSO, where the objective is to maximize the charging capacity utilization by satisfying the laxity risk of the DSO. Thus, we devise a rational reward maximization problem to adapt the irrational behavior by CVs in a data-informed manner. We propose a novel risk adversarial multi-agent learning system (RAMALS) for CAV-CI to solve the formulated RDSS problem. In RAMALS, the DSO acts as a centralized risk adversarial agent (RAA) for informing the laxity risk to each EVSE. Subsequently, each EVSE plays the role of a self-learner agent to adaptively schedule its own EV sessions by coping advice from RAA. Experiment results show that the proposed RAMALS affords around 46.6% improvement in charging rate, about 28.6% improvement in the EVSE's active charging time and at least 33.3% more energy utilization, as compared to a currently deployed ACN EVSE system, and other baselines.
公開日:2021-08-02
翻訳日:2021-08-04 14:04:39
# GTSNEによるデータの可視化

Visualizing Data using GTSNE ( http://arxiv.org/abs/2108.01301v1 )

ライセンス: Link先を確認
Songting Shi(参考訳) 本稿では,2次元地図における高次元データポイントを可視化する新しいGTSNEを提案する。 この手法は、データ内の局所的な近傍構造とマクロ構造の両方をキャプチャすることで、よりよく視覚化できるt-SNEのバリエーションである。 これは連続な低次元多様体上の高次元データにとって特に重要である。 本稿では,様々なデータセット上でのGTSNEの性能を概説し,t-SNEやUMAPなどのアート手法と比較する。 GTSNEが生成した可視化は、マクロ構造保存に関するほぼすべてのデータセットで生成された他の技術よりも優れている。

We present a new method GTSNE to visualize high-dimensional data points in the two dimensional map. The technique is a variation of t-SNE that produces better visualizations by capturing both the local neighborhood structure and the macro structure in the data. This is particularly important for high-dimensional data that lie on continuous low-dimensional manifolds. We illustrate the performance of GTSNE on a wide variety of datasets and compare it the state of art methods, including t-SNE and UMAP. The visualizations produced by GTSNE are better than those produced by the other techniques on almost all of the datasets on the macro structure preservation.
公開日:2021-08-03
翻訳日:2021-08-04 14:04:10
# 共同活動認識と動き予測のための非局所グラフ畳み込みネットワーク

Non-local Graph Convolutional Network for joint Activity Recognition and Motion Prediction ( http://arxiv.org/abs/2108.01518v1 )

ライセンス: Link先を確認
Dianhao Zhang, Ngo Anh Vien, Mien Van, Sean McLoone(参考訳) 3次元骨格に基づく運動予測と行動認識は、人間の行動分析における2つの中間課題である。 本研究では,グラフ畳み込みニューラルネットワークと連続ニューラルネットワークの利点を融合した動き文脈モデリング手法を提案する。 本研究では、LSTMエンコーダデコーダと非局所特徴抽出アテンション機構を用いて、人間の骨格データの空間的相関と運動フレーム間の時間的相関をモデル化する。 提案するネットワークは,動作認識のための2つの出力分岐と,性能向上のための協調訓練を行うFuture Motion Predictionの1つを含むことができる。 また,Human 3.6M,CMU Mocap,NTU RGB-Dデータセットによる実験結果から,提案手法はベースラインLSTM法で最高の予測能力を提供するとともに,他の最先端手法と同等の性能を実現する。

3D skeleton-based motion prediction and activity recognition are two interwoven tasks in human behaviour analysis. In this work, we propose a motion context modeling methodology that provides a new way to combine the advantages of both graph convolutional neural networks and recurrent neural networks for joint human motion prediction and activity recognition. Our approach is based on using an LSTM encoder-decoder and a non-local feature extraction attention mechanism to model the spatial correlation of human skeleton data and temporal correlation among motion frames. The proposed network can easily include two output branches, one for Activity Recognition and one for Future Motion Prediction, which can be jointly trained for enhanced performance. Experimental results on Human 3.6M, CMU Mocap and NTU RGB-D datasets show that our proposed approach provides the best prediction capability among baseline LSTM-based methods, while achieving comparable performance to other state-of-the-art methods.
公開日:2021-08-03
翻訳日:2021-08-04 14:04:00
# 勾配手術による領域一般化

Domain Generalization via Gradient Surgery ( http://arxiv.org/abs/2108.01621v1 )

ライセンス: Link先を確認
Lucas Mansilla, Rodrigo Echeveste, Diego H. Milone, Enzo Ferrante(参考訳) 実生活のアプリケーションでは、トレーニングとテストドメイン間でデータ分散が変化するシナリオに機械学習モデルが直面することが多い。 トレーニングで見たものとは異なる分布の予測を行うことを目的としている場合、ドメインの一般化問題が発生する。 この問題に対処するメソッドは、複数のソースドメインのデータを使用してモデルを学び、このモデルを対象とする未認識ドメインに適用する。 私たちの仮説は、複数のドメインでトレーニングする場合、各ミニバッチ内の矛盾する勾配には、テストドメインを含む他のドメインと無関係な個々のドメイン特有の情報が含まれているということです。 放置された場合、そのような不一致は一般化性能を低下させる可能性がある。 本稿では、ドメインシフトシナリオに現れる矛盾する勾配を特徴付け、その効果を緩和するための勾配手術に基づく新しい勾配合意戦略を考案する。 提案手法を3つの多領域データセットを用いて画像分類タスクにおいて検証し,提案する合意戦略の価値を示し,ドメインシフトシナリオにおけるディープラーニングモデルの一般化能力を高める。

In real-life applications, machine learning models often face scenarios where there is a change in data distribution between training and test domains. When the aim is to make predictions on distributions different from those seen at training, we incur in a domain generalization problem. Methods to address this issue learn a model using data from multiple source domains, and then apply this model to the unseen target domain. Our hypothesis is that when training with multiple domains, conflicting gradients within each mini-batch contain information specific to the individual domains which is irrelevant to the others, including the test domain. If left untouched, such disagreement may degrade generalization performance. In this work, we characterize the conflicting gradients emerging in domain shift scenarios and devise novel gradient agreement strategies based on gradient surgery to alleviate their effect. We validate our approach in image classification tasks with three multi-domain datasets, showing the value of the proposed agreement strategy in enhancing the generalization capability of deep learning models in domain shift scenarios.
公開日:2021-08-03
翻訳日:2021-08-04 14:03:43
# 電気的ピーク需要予測

Electrical peak demand forecasting- A review ( http://arxiv.org/abs/2108.01393v1 )

ライセンス: Link先を確認
Shuang Dai, Fanlin Meng, Hongsheng Dai, Qian Wang and Xizhong Chen(参考訳) 電力システムは、高度測定インフラとローカルエネルギー応用(例)のロールアウトによって急速に進化している。 送電・配電両レベルで断続的再生可能エネルギーの浸透が増加することに加え、高いランダム性と予測可能性の低いピーク負荷需要を特徴付けるため、電力網のセキュリティに脅威をもたらす。 負荷負荷を満たすために大量の電力を蓄えておくことは経済的にも環境的にも適さないため、電力系統の運用を最適化するためには、効率的なピーク需要管理戦略と信頼性の高いピーク負荷予測手法が不可欠である。 この目的のために本論文では,ピーク負荷需要予測手法について,タイムリーかつ包括的に概観する。 私たちの知る限りでは、このようなトピックに関する包括的なレビューはこれが初めてです。 本稿では,まずピーク負荷需要予測の正確かつ統一的な問題定義を行う。 第2に,ピーク負荷予測手法に関する139の論文を体系的にレビューし,その手法を時系列に基づいて異なるステージに分類した。 第3に,ピーク負荷予測手法の比較分析を要約し,予測性能を改善するための最適化手法について述べる。 論文は,レビュー論文の包括的要約と今後の研究方向性に関する議論で締めくくられる。

The power system is undergoing rapid evolution with the roll-out of advanced metering infrastructure and local energy applications (e.g. electric vehicles) as well as the increasing penetration of intermittent renewable energy at both transmission and distribution level, which characterizes the peak load demand with stronger randomness and less predictability and therefore poses a threat to the power grid security. Since storing large quantities of electricity to satisfy load demand is neither economically nor environmentally friendly, effective peak demand management strategies and reliable peak load forecast methods become essential for optimizing the power system operations. To this end, this paper provides a timely and comprehensive overview of peak load demand forecast methods in the literature. To our best knowledge, this is the first comprehensive review on such topic. In this paper we first give a precise and unified problem definition of peak load demand forecast. Second, 139 papers on peak load forecast methods were systematically reviewed where methods were classified into different stages based on the timeline. Thirdly, a comparative analysis of peak load forecast methods are summarized and different optimizing methods to improve the forecast performance are discussed. The paper ends with a comprehensive summary of the reviewed papers and a discussion of potential future research directions.
公開日:2021-08-03
翻訳日:2021-08-04 14:03:26
# 重み付けによる条件モーメント条件からの因果関係の学習

Learning Causal Relationships from Conditional Moment Conditions by Importance Weighting ( http://arxiv.org/abs/2108.01312v1 )

ライセンス: Link先を確認
Masahiro Kato and Haruo Kakehi and Kenichiro McAlinn and Shota Yasui(参考訳) 条件付きモーメント条件下での因果関係の学習を検討する。 非条件モーメント条件での因果推論とは異なり、条件モーメント条件は因果推論、特に複雑で高次元の設定において深刻な問題を引き起こす。 そこで本稿では,条件密度比を用いた重み付けにより条件のモーメント条件を非条件のモーメント条件に変換する手法を提案する。 そして,この変換を用いて条件付きモーメント条件をうまく近似する手法を提案する。 提案手法により,無条件モーメント条件,例えば一般化モーメント法などの因果パラメータを簡便に推定する手法を採用することができる。 実験では,提案手法が既存手法とよく比較できることを確認した。

We consider learning causal relationships under conditional moment conditions. Unlike causal inference under unconditional moment conditions, conditional moment conditions pose serious challenges for causal inference, especially in complex, high-dimensional settings. To address this issue, we propose a method that transforms conditional moment conditions to unconditional moment conditions through importance weighting using the conditional density ratio. Then, using this transformation, we propose a method that successfully approximates conditional moment conditions. Our proposed approach allows us to employ methods for estimating causal parameters from unconditional moment conditions, such as generalized method of moments, adequately in a straightforward manner. In experiments, we confirm that our proposed method performs well compared to existing methods.
公開日:2021-08-03
翻訳日:2021-08-04 14:03:08
# saber: 不均一ロボットの自律走行のためのデータ駆動モーションプランナー

SABER: Data-Driven Motion Planner for Autonomously Navigating Heterogeneous Robots ( http://arxiv.org/abs/2108.01262v1 )

ライセンス: Link先を確認
Alexander Schperberg, Stephanie Tsuei, Stefano Soatto, Dennis Hong(参考訳) 我々は,異種ロボットチームをグローバル目標に向かって移動させながら,不確定な環境での障害を回避するためのデータ駆動アプローチを用いた,エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。 まず,確率モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。 第二に、リカレントニューラルネットワークはSMPC有限時間地平線解における将来の不確かさを素早く推定するために用いられ、様々な同時局所化およびマッピングアルゴリズムの不確実性出力に基づいて訓練される。 2つ以上のロボットが通信範囲内にある場合、これらの不確実性は分散カルマンフィルタリングアプローチによって更新される。 最後に、ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。 本手法は地上と空中のロボットで同時に実証される(コード:https://github.com/ AlexS28/SABER)。

We present an end-to-end online motion planning framework that uses a data-driven approach to navigate a heterogeneous robot team towards a global goal while avoiding obstacles in uncertain environments. First, we use stochastic model predictive control (SMPC) to calculate control inputs that satisfy robot dynamics, and consider uncertainty during obstacle avoidance with chance constraints. Second, recurrent neural networks are used to provide a quick estimate of future state uncertainty considered in the SMPC finite-time horizon solution, which are trained on uncertainty outputs of various simultaneous localization and mapping algorithms. When two or more robots are in communication range, these uncertainties are then updated using a distributed Kalman filtering approach. Lastly, a Deep Q-learning agent is employed to serve as a high-level path planner, providing the SMPC with target positions that move the robots towards a desired global goal. Our complete methods are demonstrated on a ground and aerial robot simultaneously (code available at: https://github.com/A lexS28/SABER).
公開日:2021-08-03
翻訳日:2021-08-04 14:02:55
# 発話フローモデリングと事実正規化を支援する対話要約

Dialogue Summarization with Supporting Utterance Flow Modeling and Fact Regularization ( http://arxiv.org/abs/2108.01268v1 )

ライセンス: Link先を確認
Wang Chen, Piji Li, Hou Pong Chan, Irwin King(参考訳) 対話要約は、与えられた対話の要点を示す要約を生成することを目的としている。 本研究では,2つの新しいモジュール,すなわち,emph{ supporting utterance flow modeling module} と \emph{fact regularization module} との対話要約のためのエンドツーエンドニューラルネットワークを提案する。 支援発話フローモデリングは、フォーカスを前者から後者へスムーズにシフトさせることにより、コヒーレントな要約を生成するのに役立つ。 事実正則化は、生成した要約がモデルトレーニング中の基幹的要約と現実的に整合することを奨励し、生成した要約の推論時間における事実的正当性を改善するのに役立つ。 さらに,対話要約のためのベンチマークデータセットも新たに導入する。 既存のデータセットと新しく導入されたデータセットの両方に対する大規模な実験は、我々のモデルの有効性を実証している。

Dialogue summarization aims to generate a summary that indicates the key points of a given dialogue. In this work, we propose an end-to-end neural model for dialogue summarization with two novel modules, namely, the \emph{supporting utterance flow modeling module} and the \emph{fact regularization module}. The supporting utterance flow modeling helps to generate a coherent summary by smoothly shifting the focus from the former utterances to the later ones. The fact regularization encourages the generated summary to be factually consistent with the ground-truth summary during model training, which helps to improve the factual correctness of the generated summary in inference time. Furthermore, we also introduce a new benchmark dataset for dialogue summarization. Extensive experiments on both existing and newly-introduced datasets demonstrate the effectiveness of our model.
公開日:2021-08-03
翻訳日:2021-08-04 14:02:38
# 対話モデルの評価方法:アプローチのレビュー

How to Evaluate Your Dialogue Models: A Review of Approaches ( http://arxiv.org/abs/2108.01369v1 )

ライセンス: Link先を確認
Xinmeng Li, Wansen Wu, Long Qin and Quanjun Yin(参考訳) 対話システムの品質評価は未検討の問題である。 評価手法の最近の進化は,既存手法の明示的かつ包括的分析を求める調査の動機となった。 まず,評価手法を,自動評価,人間主導評価,ユーザシミュレータに基づく評価という3つのクラスに分けた。 そして、各クラスは主要な特徴と関連する評価指標で覆われています。 また,対話手法の評価に適したベンチマークの存在についても詳細に述べる。 最後に,評価手法を新たなフロンティアに導くために,いくつかのオープンイシューが指摘されている。

Evaluating the quality of a dialogue system is an understudied problem. The recent evolution of evaluation method motivated this survey, in which an explicit and comprehensive analysis of the existing methods is sought. We are first to divide the evaluation methods into three classes, i.e., automatic evaluation, human-involved evaluation and user simulator based evaluation. Then, each class is covered with main features and the related evaluation metrics. The existence of benchmarks, suitable for the evaluation of dialogue techniques are also discussed in detail. Finally, some open issues are pointed out to bring the evaluation method into a new frontier.
公開日:2021-08-03
翻訳日:2021-08-04 14:02:23
# リンク不足は予測可能か? 知識グラフ補完のための推論ベンチマーク

Are Missing Links Predictable? An Inferential Benchmark for Knowledge Graph Completion ( http://arxiv.org/abs/2108.01387v1 )

ライセンス: Link先を確認
Yixin Cao, Kuang Jun, Ming Gao, Aoying Zhou, Yonggang Wen and Tat-Seng Chua(参考訳) inferwikiは知識グラフ補完(kgc)データセットで、推論能力、仮定、パターンにおいて既存のベンチマークを改善します。 まず、各テストサンプルはトレーニングセットの支持データで予測可能である。 そこで本研究では,従来のランダムスプリットではなく,ルール誘導型列車/テスト生成の利用を提案する。 第二に、InferWikiは、オープンワールドの仮定に従って評価を開始し、手動で注釈付けされた負と未知のトリプルを提供することで、クローズドワールドの仮定の推論困難を改善する。 第3に、包括的評価のための様々な推論パターン(例えば、経路長と型)を含める。 実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。 結果と実証分析によりinferwikiの必要性と品質が示された。 それにもかかわらず、様々な仮定とパターン間の性能ギャップは、その難しさを示し、将来の研究方向性を刺激する。 私たちのデータセットはhttps://github.com/T aoMiner/inferwikiにある。

We present InferWiki, a Knowledge Graph Completion (KGC) dataset that improves upon existing benchmarks in inferential ability, assumptions, and patterns. First, each testing sample is predictable with supportive data in the training set. To ensure it, we propose to utilize rule-guided train/test generation, instead of conventional random split. Second, InferWiki initiates the evaluation following the open-world assumption and improves the inferential difficulty of the closed-world assumption, by providing manually annotated negative and unknown triples. Third, we include various inference patterns (e.g., reasoning path length and types) for comprehensive evaluation. In experiments, we curate two settings of InferWiki varying in sizes and structures, and apply the construction process on CoDEx as comparative datasets. The results and empirical analyses demonstrate the necessity and high-quality of InferWiki. Nevertheless, the performance gap among various inferential assumptions and patterns presents the difficulty and inspires future research direction. Our datasets can be found in https://github.com/T aoMiner/inferwiki
公開日:2021-08-03
翻訳日:2021-08-04 14:02:16
# 神経線維経路モデリングのための計算幾何学的アプローチ

A computational geometry approach for modeling neuronal fiber pathways ( http://arxiv.org/abs/2108.01175v1 )

ライセンス: Link先を確認
S. Shailja, Angela Zhang, and B.S. Manjunath(参考訳) 神経線維の高レベルトポロジー構造をモデル化する新規で効率的なアルゴリズムを提案する。 トラクトグラフィーは、脳内の白質経路の幾何学を示す3次元の複雑な神経線維を構成する。 しかし,ほとんどのトラクトグラフィー解析手法は時間がかかり,難易度が高い。 ホワイトマターファイバの接続を容易にすることを目的とした,計算幾何学に基づくトラクトグラフィー表現を開発した。 神経線維経路の軌跡から、幾何学的に重要な事象を符号化し、3次元脳空間における点対応を計算する軌跡の進化をモデル化する。 軌道間距離は、トラクトグラムの局所的あるいは大域的表現を可能にするモデルの粒度を制御するパラメータとして用いられる。 アルツハイマー病患者研究の拡散mriデータを用いて, 本モデルから気道像の特徴を抽出し, アルツハイマー病患者を正常なコントロールと区別する。 アルゴリズムのソフトウェア実装はgithubで公開されている。

We propose a novel and efficient algorithm to model high-level topological structures of neuronal fibers. Tractography constructs complex neuronal fibers in three dimensions that exhibit the geometry of white matter pathways in the brain. However, most tractography analysis methods are time consuming and intractable. We develop a computational geometry-based tractography representation that aims to simplify the connectivity of white matter fibers. Given the trajectories of neuronal fiber pathways, we model the evolution of trajectories that encodes geometrically significant events and calculate their point correspondence in the 3D brain space. Trajectory inter-distance is used as a parameter to control the granularity of the model that allows local or global representation of the tractogram. Using diffusion MRI data from Alzheimer's patient study, we extract tractography features from our model for distinguishing the Alzheimer's subject from the normal control. Software implementation of our algorithm is available on GitHub.
公開日:2021-08-02
翻訳日:2021-08-04 14:01:59
# マルチイメージ融合と層分離のためのニューラルイメージ表現

Neural Image Representations for Multi-Image Fusion and Layer Separation ( http://arxiv.org/abs/2108.01199v1 )

ライセンス: Link先を確認
Seonghyeon Nam, Marcus A. Brubaker, Michael S. Brown(参考訳) 本稿では,複数の画像を1つの座標ベースニューラル表現に調整・融合するフレームワークを提案する。 私たちのフレームワークは、カメラのエゴモーションとシーンの小さな変更による不一致のあるバーストイメージをターゲットにしています。 シーンの動きの仮定によるアライメント戦略,すなわち,視点平面(すなわちホモグラフィ),最小限のシーン変化を伴う光流,および顕著な咬合と解離を伴う光流について述べる。 このフレームワークは、複数の入力を単一の神経暗黙関数に効果的に組み合わせ、参照フレームとして画像を選択する必要がない。 本稿では,このマルチフレーム融合フレームワークを様々な層分離タスクに利用する方法を示す。

We propose a framework for aligning and fusing multiple images into a single coordinate-based neural representations. Our framework targets burst images that have misalignment due to camera ego motion and small changes in the scene. We describe different strategies for alignment depending on the assumption of the scene motion, namely, perspective planar (i.e., homography), optical flow with minimal scene change, and optical flow with notable occlusion and disocclusion. Our framework effectively combines the multiple inputs into a single neural implicit function without the need for selecting one of the images as a reference frame. We demonstrate how to use this multi-frame fusion framework for various layer separation tasks.
公開日:2021-08-02
翻訳日:2021-08-04 14:01:44
# 低解像度顔認識のための深層競争型ペナルティ学習

Deep Rival Penalized Competitive Learning for Low-resolution Face Recognition ( http://arxiv.org/abs/2108.01286v1 )

ライセンス: Link先を確認
Peiying Li, Shikui Tu, Lei Xu(参考訳) 現在の顔認識タスクは、通常高品質な顔画像で実行されるが、実際には、ほとんどの顔画像は、例えばビデオ監視によって、制約のない条件下で撮影される。 既存の方法は、ノイズ過収を避けるためにデータ不確実性を学習したり、正規化ソフトマックス損失のアングルまたはコサイン空間にマージンを追加してターゲットロジットをペナルティ化することで、クラス内コンパクト性とクラス間不一致を強制する。 本稿では,低分解能(LR)画像における深層顔認識のための深部Rival Penalized Competitive Learning (RPCL)を提案する。 RPCLのアイデアにインスパイアされた本手法は,入力画像に対する最大の非ターゲットロジットとして定義される競合ロジットの規制をさらに強化する。 対象のロジットに対するペナル化のみを考慮した既存の手法とは異なり,本手法は対象のラベルに対する学習を強化するだけでなく,逆方向,すなわち非学習を競合のラベルから遠ざけている。 総合的な実験により,本手法は既存の最先端手法を改良し,LR顔認識に非常に堅牢であることを示す。

Current face recognition tasks are usually carried out on high-quality face images, but in reality, most face images are captured under unconstrained or poor conditions, e.g., by video surveillance. Existing methods are featured by learning data uncertainty to avoid overfitting the noise, or by adding margins to the angle or cosine space of the normalized softmax loss to penalize the target logit, which enforces intra-class compactness and inter-class discrepancy. In this paper, we propose a deep Rival Penalized Competitive Learning (RPCL) for deep face recognition in low-resolution (LR) images. Inspired by the idea of the RPCL, our method further enforces regulation on the rival logit, which is defined as the largest non-target logit for an input image. Different from existing methods that only consider penalization on the target logit, our method not only strengthens the learning towards the target label, but also enforces a reverse direction, i.e., becoming de-learning, away from the rival label. Comprehensive experiments demonstrate that our method improves the existing state-of-the-art methods to be very robust for LR face recognition.
公開日:2021-08-03
翻訳日:2021-08-04 14:01:30
# 弱教師付き意味セグメンテーションに対する動的特徴正規化損失

Dynamic Feature Regularized Loss for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2108.01296v1 )

ライセンス: Link先を確認
Bingfeng Zhang, Jimin Xiao, Yao Zhao(参考訳) 我々は、スクリブルレベルのアノテーションで弱教師付きセマンティックセグメンテーションに取り組むことに注力する。 正規化損失は、このタスクの効果的な解決策であることが証明されている。 しかし、ほとんどの既存の正規化損失は、静的な浅い特徴(色、空間情報)を利用して正規化されたカーネルを計算し、このような静的な浅い特徴は複雑なケースでペアワイズピクセルの関係を記述できないため、最終的な性能を制限する。 本稿では,異なる画素間の関係を表現するのに十分な情報を集約するために,浅層と深層の両方の機能を利用して動的に更新する新しい正規化損失を提案する。 さらに,正確な深層機能を提供するため,視覚トランスフォーマーをバックボーンとして採用し,機能一貫性ヘッドの設計を行い,対方向の特徴関係を訓練する。 多くの鐘や笛で多段階のトレーニング戦略を採用するほとんどのアプローチとは異なり、私たちのアプローチはエンドツーエンドで直接トレーニングすることができる。 大規模な実験により,本手法は新たな最先端性能を実現し,他の手法よりも6倍以上のmIoU増加率で優れていた。

We focus on tackling weakly supervised semantic segmentation with scribble-level annotation. The regularized loss has been proven to be an effective solution for this task. However, most existing regularized losses only leverage static shallow features (color, spatial information) to compute the regularized kernel, which limits its final performance since such static shallow features fail to describe pair-wise pixel relationship in complicated cases. In this paper, we propose a new regularized loss which utilizes both shallow and deep features that are dynamically updated in order to aggregate sufficient information to represent the relationship of different pixels. Moreover, in order to provide accurate deep features, we adopt vision transformer as the backbone and design a feature consistency head to train the pair-wise feature relationship. Unlike most approaches that adopt multi-stage training strategy with many bells and whistles, our approach can be directly trained in an end-to-end manner, in which the feature consistency head and our regularized loss can benefit from each other. Extensive experiments show that our approach achieves new state-of-the-art performances, outperforming other approaches by a significant margin with more than 6\% mIoU increase.
公開日:2021-08-03
翻訳日:2021-08-04 14:01:10
# I3CL:任意型シーンテキスト検出のための事例間協調学習

I3CL:Intra- and Inter-Instance Collaborative Learning for Arbitrary-shaped Scene Text Detection ( http://arxiv.org/abs/2108.01343v1 )

ライセンス: Link先を確認
Jian Ye, Jing Zhang, Juhua Liu, Bo Du and Dacheng Tao(参考訳) 自然シーンにおける任意の形状のテキスト検出手法は,(1)テキストインスタンスの隙間における破壊検出,(2)背景コンテキストの異なる任意型テキストインスタンスの不正確な検出という2つの重要な課題に直面している。 これらの課題に対処するため,事例間協調学習(I3CL)と呼ばれる新しい手法を提案する。 具体的には,テキストインスタンス内の局所的および長い範囲で,より優れたキャラクタ表現とギャップ特徴表現を協調的に学習できる,複数の受容場を持つ効果的な畳み込みモジュールを設計した。 2つ目の課題に対処するために、異なるテキストインスタンス間の依存関係を利用するインスタンスベースのトランスフォーマーモジュールと、共有背景からグローバルコンテキストを活用するピクセルベースのトランスフォーマーモジュールを考案し、より差別的なテキスト特徴表現を協調的に学習する。 このようにして、I3CLは、統合されたエンドツーエンドのトレーニング可能なフレームワークにおいて、インスタンス内およびインスタンス間依存関係を効果的に活用できる。 実験の結果、提案されたi3clは3つの挑戦的な公開ベンチマーク(icdar2019-artではf-測定値76.4%、全テキストでは86.2%、ctw-1500では85.8%)で新しい最先端のパフォーマンスを設定できることがわかった。 さらに、ResNeSt-101バックボーンを持つI3CLは、ICDAR2019-ArTのリーダーボードで1位となった。 ソースコードは一般公開される予定だ。

Existing methods for arbitrary-shaped text detection in natural scenes face two critical issues, i.e., 1) fracture detections at the gaps in a text instance; and 2) inaccurate detections of arbitrary-shaped text instances with diverse background context. To address these issues, we propose a novel method named Intra- and Inter-Instance Collaborative Learning (I3CL). Specifically, to address the first issue, we design an effective convolutional module with multiple receptive fields, which is able to collaboratively learn better character and gap feature representations at local and long ranges inside a text instance. To address the second issue, we devise an instance-based transformer module to exploit the dependencies between different text instances and a pixel-based transformer module to exploit the global context from the shared background, which are able to collaboratively learn more discriminative text feature representations. In this way, I3CL can effectively exploit the intra- and inter-instance dependencies together in a unified end-to-end trainable framework. Experimental results show that the proposed I3CL sets new state-of-the-art performances on three challenging public benchmarks, i.e., an F-measure of 76.4% on ICDAR2019-ArT, 86.2% on Total-Text, and 85.8% on CTW-1500. Besides, I3CL with ResNeSt-101 backbone ranked 1st place on the ICDAR2019-ArT leaderboard. The source code will be made publicly available.
公開日:2021-08-03
翻訳日:2021-08-04 14:00:50
# テキスト・画像合成のためのサイクル一貫性逆GAN

Cycle-Consistent Inverse GAN for Text-to-Image Synthesis ( http://arxiv.org/abs/2108.01361v1 )

ライセンス: Link先を確認
Hao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao(参考訳) 本稿では,テキスト記述から画像を自動的に生成・操作するためのテキスト対画像合成のオープン研究課題について検討する。 一般的な方法は、主にgan生成の条件としてテキストを使用し、テキスト誘導画像生成および操作タスクの異なるモデルを訓練する。 本稿では,テキスト対画像生成タスクとテキスト誘導画像操作タスクの両方に対して,周期整合逆gan(ci-gan)の新たな統一フレームワークを提案する。 具体的には、まずテキスト入力なしでGANモデルをトレーニングし、高い多様性と品質の画像を生成する。 そして、GAN変換モデルを学び、画像をGAN潜在空間に変換し、各画像の反転潜時符号を取得し、より堅牢で一貫した逆潜時符号を学習するためのサイクル一貫性トレーニングを導入する。 さらに,テキスト表現と潜在コード間の類似性モデルを学習することにより,学習したganモデルの潜在空間意味を明らかにする。 テキスト誘導最適化モジュールでは,逆潜在符号を最適化することにより,所望の意味属性を持つ画像を生成する。 Recipe1MとCUBデータセットの大規模な実験により,提案手法の有効性が検証された。

This paper investigates an open research task of text-to-image synthesis for automatically generating or manipulating images from text descriptions. Prevailing methods mainly use the text as conditions for GAN generation, and train different models for the text-guided image generation and manipulation tasks. In this paper, we propose a novel unified framework of Cycle-consistent Inverse GAN (CI-GAN) for both text-to-image generation and text-guided image manipulation tasks. Specifically, we first train a GAN model without text input, aiming to generate images with high diversity and quality. Then we learn a GAN inversion model to convert the images back to the GAN latent space and obtain the inverted latent codes for each image, where we introduce the cycle-consistency training to learn more robust and consistent inverted latent codes. We further uncover the latent space semantics of the trained GAN model, by learning a similarity model between text representations and the latent codes. In the text-guided optimization module, we generate images with the desired semantic attributes by optimizing the inverted latent codes. Extensive experiments on the Recipe1M and CUB datasets validate the efficacy of our proposed framework.
公開日:2021-08-03
翻訳日:2021-08-04 14:00:23
# サーモラピッドコンポジションを用いたAI型廃棄物分類器

AI Based Waste classifier with Thermo-Rapid Composting ( http://arxiv.org/abs/2108.01394v1 )

ライセンス: Link先を確認
Saswati kumari behera, Aouthithiye Barathwaj SR Y, Vasundhara L, Saisudha G, Haariharan N C(参考訳) 廃棄物処理は、特に大都市では、非常に複雑で難しいプロセスである。 巨大な人力を必要とし、電気や燃料など他の資源も利用している。 これにより、最新の技術の助けを借りて新しい方法を使う必要が生じる。 本稿では,コンピュータビジョン (CV) と深層学習 (DL) を用いた新しい廃棄物分類手法を提案する。 廃棄物分類能力をさらに向上するため、サポートマシンベクトル(SVM)が使用される。 また, コンポスト化による分解性廃棄物の分解も行う。 本稿では, 都市ごみの分別について主に研究してきた。 このモデルでは、機械学習(ML)ベースのツールである畳み込みニューラルネットワーク(CNN)に基づいて開発されたオブジェクトを、コンピュータビジョンベースのアルゴリズムであるYOLOv3(You Only Look Once)を用いて検出する。 それらは、特に画像指向データから特徴を抽出するために広く使用される。 本稿では, より迅速かつ効率的な廃棄物分類手法を提案する。 bkc (brkley method of composting) により生分解性廃棄物を分解する。

Waste management is a certainly a very complex and difficult process especially in very large cities. It needs immense man power and also uses up other resources such as electricity and fuel. This creates a need to use a novel method with help of latest technologies. Here in this article we present a new waste classification technique using Computer Vision (CV) and deep learning (DL). To further improve waste classification ability, support machine vectors (SVM) are used. We also decompose the degradable waste with help of rapid composting. In this article we have mainly worked on segregation of municipal solid waste (MSW). For this model, we use YOLOv3 (You Only Look Once) a computer vision-based algorithm popularly used to detect objects which is developed based on Convolution Neural Networks (CNNs) which is a machine learning (ML) based tool. They are extensively used to extract features from a data especially image-oriented data. In this article we propose a waste classification technique which will be faster and more efficient. And we decompose the biodegradable waste by Berkley Method of composting (BKC)
公開日:2021-08-03
翻訳日:2021-08-04 14:00:05
# 学習境界ボックスアジャスタによる弱教師付き物体検出の促進

Boosting Weakly Supervised Object Detection via Learning Bounding Box Adjusters ( http://arxiv.org/abs/2108.01499v1 )

ライセンス: Link先を確認
Bowen Dong and Zitong Huang and Yuelin Guo and Qilong Wang and Zhenxing Niu and Wangmeng Zuo(参考訳) 高価なインスタンスレベルのオブジェクトアノテーションを避けるため、WSOD(Weakly-supervis ed Object Detection)が最近の話題として登場した。 しかし、既存のほとんどのWSODメソッドのバウンディングボックスは、主に事前計算された提案によって決定され、したがって正確なオブジェクトローカライゼーションにおいて制限される。 本稿では,よくアノテーションされた補助データセットから境界ボックス回帰知識を活用し,ローカライズ性能を向上させるための問題設定を擁護する。 まず,学習可能なバウンディングボックスアジャスタ(lbbas)をクラスに依存しない多段階のトレーニング方法で探索するために,注釈付き補助データセットを用いた。 そして、LBBAをベースとしたWSODのトレーニングには、LBBAと非オーバーラップクラス付き弱アノテーションデータセットのみを使用する。 そのため,我々のLBBAは,補助的注釈付きデータセットの漏洩を回避しつつ,実装に便利で経済的である。 特に,二段階最適化問題として学習境界ボックス調整器を定式化し,EMのような多段階学習アルゴリズムを提案する。 次に、LBBAボイスされたWSODに対して、さらに多段階のスキームを示す。 さらに、提案分類を改善するためにマスキング戦略を採用する。 本手法の有効性を実験的に検証した。 提案手法は,WSOD法と知識伝達モデルに対して,同様の問題設定で良好に機能する。 コードは \url{https://github.com/D ongSky/lbba_boosted_ wsod} で公開されている。

Weakly-supervised object detection (WSOD) has emerged as an inspiring recent topic to avoid expensive instance-level object annotations. However, the bounding boxes of most existing WSOD methods are mainly determined by precomputed proposals, thereby being limited in precise object localization. In this paper, we defend the problem setting for improving localization performance by leveraging the bounding box regression knowledge from a well-annotated auxiliary dataset. First, we use the well-annotated auxiliary dataset to explore a series of learnable bounding box adjusters (LBBAs) in a multi-stage training manner, which is class-agnostic. Then, only LBBAs and a weakly-annotated dataset with non-overlapped classes are used for training LBBA-boosted WSOD. As such, our LBBAs are practically more convenient and economical to implement while avoiding the leakage of the auxiliary well-annotated dataset. In particular, we formulate learning bounding box adjusters as a bi-level optimization problem and suggest an EM-like multi-stage training algorithm. Then, a multi-stage scheme is further presented for LBBA-boosted WSOD. Additionally, a masking strategy is adopted to improve proposal classification. Experimental results verify the effectiveness of our method. Our method performs favorably against state-of-the-art WSOD methods and knowledge transfer model with similar problem setting. Code is publicly available at \url{https://github.com/D ongSky/lbba_boosted_ wsod}.
公開日:2021-08-03
翻訳日:2021-08-04 13:59:51
# ディープganを用いたクロススペクトルクロスレゾリューション虹彩認識

Deep GAN-Based Cross-Spectral Cross-Resolution Iris Recognition ( http://arxiv.org/abs/2108.01569v1 )

ライセンス: Link先を確認
Moktari Mostofa, Salman Mohamadi, Jeremy Dawson, and Nasser M. Nasrabadi(参考訳) 近年、クロススペクトル虹彩認識は、個人のアイデンティティを確立するための有望なバイオメトリックアプローチとして現れている。 しかし、異なるスペクトル帯域で取得した虹彩画像(すなわち、可視(VIS)虹彩プローブと近赤外(NIR)虹彩画像のギャラリーとのマッチング)は、帯域内NIRマッチングと比較して顕著な性能劣化を示す。 そこで本研究では,クロススペクトルiris認識の精度をさらに高めるために,dcgan(deep convolutional generative adversarial network)アーキテクチャについて検討した。 さらに,従来の文献と異なり,古典的クロススペクトルマッチング問題領域に分解能差を導入する。 我々は,条件付き生成対向ネットワーク(cGAN)をバックボーンアーキテクチャとして用いた2つの異なる手法を開発した。 第1のアプローチでは、クロスレゾリューションとクロススペクトルマッチングの問題を、クロスレゾリューションとクロススペクトルタスクを同一の解像度と同一のスペクトルに共同で翻訳するcGANを訓練することで同時に解決する。 第2のアプローチでは、VISとNIRのアイリス像を低次元の埋め込み領域に投影する一対のcGANモジュールからなる合成逆数ネットワーク(cpGAN)アーキテクチャを設計し、同一対象の2つのアイリスモードから特徴ベクトル間の最大一対の類似性を確保する。

In recent years, cross-spectral iris recognition has emerged as a promising biometric approach to establish the identity of individuals. However, matching iris images acquired at different spectral bands (i.e., matching a visible (VIS) iris probe to a gallery of near-infrared (NIR) iris images or vice versa) shows a significant performance degradation when compared to intraband NIR matching. Hence, in this paper, we have investigated a range of deep convolutional generative adversarial network (DCGAN) architectures to further improve the accuracy of cross-spectral iris recognition methods. Moreover, unlike the existing works in the literature, we introduce a resolution difference into the classical cross-spectral matching problem domain. We have developed two different techniques using the conditional generative adversarial network (cGAN) as a backbone architecture for cross-spectral iris matching. In the first approach, we simultaneously address the cross-resolution and cross-spectral matching problem by training a cGAN that jointly translates cross-resolution as well as cross-spectral tasks to the same resolution and within the same spectrum. In the second approach, we design a coupled generative adversarial network (cpGAN) architecture consisting of a pair of cGAN modules that project the VIS and NIR iris images into a low-dimensional embedding domain to ensure maximum pairwise similarity between the feature vectors from the two iris modalities of the same subject.
公開日:2021-08-03
翻訳日:2021-08-04 13:59:29
# 一般化されたソースフリードメイン適応

Generalized Source-free Domain Adaptation ( http://arxiv.org/abs/2108.01614v1 )

ライセンス: Link先を確認
Shiqi Yang, Yaxing Wang, Joost van de Weijer, Luis Herranz, Shangling Jui(参考訳) ドメイン適応(da)は、ソースドメインから学んだ知識をラベルなしのターゲットドメインに転送することを目的としている。 最近の研究はソースフリードメイン適応(SFDA)に取り組み、ソース事前学習モデルのみがターゲットドメインへの適応に利用できる。 しかし、これらの手法は実際のアプリケーションにおいて高い実用的価値を持つソース性能を維持することを考慮していない。 本稿では,学習モデルが対象領域と対象領域の両方で良好に動作し,適応中に現在のラベルなしのターゲットデータのみにアクセスする必要がある,一般化されたソースフリードメイン適応 (g-sfda) と呼ばれる新しいドメイン適応パラダイムを提案する。 まず,提案するローカル構造クラスタリング (LSC) は,ソースデータがない場合に,そのモデルが対象領域に適応する,意味的に類似した特徴をクラスタリングすることを目的としている。 第2に、スパースドメインアテンション(SDA)を提案し、異なるドメインの異なる特徴チャネルを活性化するためにバイナリドメイン固有のアテンションを生成し、一方、ドメインアテンションは、ソース情報を保持するために順応中の勾配を調整するために利用される。 実験では,本手法は既存の DA 法や SFDA 法と同等以上の精度で,特に VisDA の最先端性能 (85.4%) を達成でき,本手法は単一ないし複数のターゲットドメインに適応した後,すべてのドメインで有効である。 コードはhttps://github.com/A lbert0147/G-SFDAで入手できる。

Domain adaptation (DA) aims to transfer the knowledge learned from a source domain to an unlabeled target domain. Some recent works tackle source-free domain adaptation (SFDA) where only a source pre-trained model is available for adaptation to the target domain. However, those methods do not consider keeping source performance which is of high practical value in real world applications. In this paper, we propose a new domain adaptation paradigm called Generalized Source-free Domain Adaptation (G-SFDA), where the learned model needs to perform well on both the target and source domains, with only access to current unlabeled target data during adaptation. First, we propose local structure clustering (LSC), aiming to cluster the target features with its semantically similar neighbors, which successfully adapts the model to the target domain in the absence of source data. Second, we propose sparse domain attention (SDA), it produces a binary domain specific attention to activate different feature channels for different domains, meanwhile the domain attention will be utilized to regularize the gradient during adaptation to keep source information. In the experiments, for target performance our method is on par with or better than existing DA and SFDA methods, specifically it achieves state-of-the-art performance (85.4%) on VisDA, and our method works well for all domains after adapting to single or multiple target domains. Code is available in https://github.com/A lbert0147/G-SFDA.
公開日:2021-08-03
翻訳日:2021-08-04 13:59:01
# Del-Net:モバイルカメラISPのためのシングルステージネットワーク

Del-Net: A Single-Stage Network for Mobile Camera ISP ( http://arxiv.org/abs/2108.01623v1 )

ライセンス: Link先を確認
Saumya Gupta, Diplav Srivastava, Umang Chaturvedi, Anurag Jain, Gaurav Khandelwal(参考訳) スマートフォンがプライマリキャプチャーデバイスとして普及しているため、スマートフォンで撮影された画像の品質は重要な仕様である。 スマートフォンカメラにおける従来の画像信号処理(ISP)パイプラインは、原センサーデータから高品質のsRGBイメージを逐次再構成する複数の画像処理ステップで構成されている。 これらのステップは、デモサイシング、デノージング、ホワイトバランス、ガンマ補正、カラーエンハンスメントなどで構成される。 それぞれ手作りのアルゴリズムを用いて順次実行されるので、各処理モジュールからの残差は最終再構成信号に蓄積される。 このように、従来のispパイプラインは、画像をキャプチャしながら異なる照明条件と関連するノイズレベルにまたがる一般化性の観点から、再構成品質が限られている。 畳み込みニューラルネットワーク(cnn)を用いた深層学習手法は,画像のデノイジングやコントラスト強調,スーパーレゾリューション,デブラリングなど,画像関連課題の解決に広く利用されている。 さらに, 深層学習手法を用いたsRGB変換へのRAWの最近のアプローチも発表されているが, メモリ要求やMult-Addの多さからすると, モバイルカメラISPには適さない。 本稿では,スマートフォンの展開に適した複雑さでISPパイプライン全体を学ぶために,単一のエンドツーエンドディープラーニングモデルであるDelNetを提案する。 del-netは、色のようなグローバルな特徴を捉えるために空間的およびチャネル的注意力を利用するマルチスケールアーキテクチャである。 検証のために提案したDel-Netが魅力的な再構成品質を実現することを示す。

The quality of images captured by smartphones is an important specification since smartphones are becoming ubiquitous as primary capturing devices. The traditional image signal processing (ISP) pipeline in a smartphone camera consists of several image processing steps performed sequentially to reconstruct a high quality sRGB image from the raw sensor data. These steps consist of demosaicing, denoising, white balancing, gamma correction, colour enhancement, etc. Since each of them are performed sequentially using hand-crafted algorithms, the residual error from each processing module accumulates in the final reconstructed signal. Thus, the traditional ISP pipeline has limited reconstruction quality in terms of generalizability across different lighting conditions and associated noise levels while capturing the image. Deep learning methods using convolutional neural networks (CNN) have become popular in solving many image-related tasks such as image denoising, contrast enhancement, super resolution, deblurring, etc. Furthermore, recent approaches for the RAW to sRGB conversion using deep learning methods have also been published, however, their immense complexity in terms of their memory requirement and number of Mult-Adds make them unsuitable for mobile camera ISP. In this paper we propose DelNet - a single end-to-end deep learning model - to learn the entire ISP pipeline within reasonable complexity for smartphone deployment. Del-Net is a multi-scale architecture that uses spatial and channel attention to capture global features like colour, as well as a series of lightweight modified residual attention blocks to help with denoising. For validation, we provide results to show the proposed Del-Net achieves compelling reconstruction quality.
公開日:2021-08-03
翻訳日:2021-08-04 13:58:33
# トリガー障害:セマンティクスセグメンテーションにおける局所敵攻撃からの学習によるアウトオブディストリビューション検出

Triggering Failures: Out-Of-Distribution detection by learning from local adversarial attacks in Semantic Segmentation ( http://arxiv.org/abs/2108.01634v1 )

ライセンス: Link先を確認
Victor Besnier, Andrei Bursuc, David Picard, Alexandre Briot(参考訳) 本稿では,セマンティクスセグメンテーションにおけるout-of-distribution( ood)オブジェクトの検出に取り組む。 文献を解析した結果、現在の手法は正確か高速かのどちらかであり、実世界のアプリケーションでは使い勝手が制限されないことがわかった。 そこで我々は,OOD検出をセグメント化タスクから切り離し,単に出力ではなくセグメント化ネットワーク全体を観察し,セグメント化ネットワークの盲点を利用してOOD検出のためのトレーニングデータを生成し,画像内の局所化領域に生成したデータに集中してOODオブジェクトをシミュレートする,という4つの設計原則に従って,共通的な欠点を軽減することを提案する。 我々の主な貢献は、Local Adversarial Attacks (LAA)に基づく専用トレーニングスキームに関連するObsNetと呼ばれる新しいOOD検出アーキテクチャである。 我々は,多数のアブレーション研究を通して,アプローチの健全性を検証する。 また,3つの異なるデータセットの文献の10種類の手法と比較して,速度と精度の両面で最高の性能が得られることを示す。

In this paper, we tackle the detection of out-of-distribution (OOD) objects in semantic segmentation. By analyzing the literature, we found that current methods are either accurate or fast but not both which limits their usability in real world applications. To get the best of both aspects, we propose to mitigate the common shortcomings by following four design principles: decoupling the OOD detection from the segmentation task, observing the entire segmentation network instead of just its output, generating training data for the OOD detector by leveraging blind spots in the segmentation network and focusing the generated data on localized regions in the image to simulate OOD objects. Our main contribution is a new OOD detection architecture called ObsNet associated with a dedicated training scheme based on Local Adversarial Attacks (LAA). We validate the soundness of our approach across numerous ablation studies. We also show it obtains top performances both in speed and accuracy when compared to ten recent methods of the literature on three different datasets.
公開日:2021-08-03
翻訳日:2021-08-04 13:58:07
# Shift-Robust GNN: 局所グラフトレーニングデータの限界を克服する

Shift-Robust GNNs: Overcoming the Limitations of Localized Graph Training data ( http://arxiv.org/abs/2108.01099v1 )

ライセンス: Link先を確認
Qi Zhu, Natalia Ponomareva, Jiawei Han, Bryan Perozzi(参考訳) 半教師付き学習タスクのためのグラフニューラルネットワーク(GNN)の設計への関心が高まっている。 残念なことに、この研究はトレーニングで使用するためにラベル付けされたノードがランダム(すなわちランダム)で一様に選択されたと仮定している。 IIDサンプルである)。 しかし、多くの現実世界のシナリオでは、グラフノードのラベルを集めるのにコストがかかり、本質的にバイアスがかかります。 GNNは、トレーニングデータに存在する過剰な正規性に過度に適合することにより、この現象が発生した場合の一般化を損なう可能性がある。 本研究では、偏りのあるトレーニングデータとグラフの真の推論分布の分布差を考慮に入れたShift-Robust GNN(SR-GNN)を提案する。 sr-gnnは、トレーニング用のラベルとデータセットの残りの部分を備えたノード間の分散シフトの存在をgnnモデルに適応させる。 本稿では,sr-gnnが他のgnnベースラインよりも精度が高く,バイアスドトレーニングデータによって引き起こされる悪影響の少なくとも(約40%)を除去し,sr-gnnが他のgnnベースラインよりも優れる,半教師付き学習のための共通gnnベンチマークデータセット上でのバイアスドトレーニングデータセットを用いた各種実験におけるsr-gnnの有効性を示す。 最も大きなデータセットであるogb-arxivでは、ベースラインに対する2%の絶対的な改善が観察され、負の効果の30%が減少する。

There has been a recent surge of interest in designing Graph Neural Networks (GNNs) for semi-supervised learning tasks. Unfortunately this work has assumed that the nodes labeled for use in training were selected uniformly at random (i.e. are an IID sample). However in many real world scenarios gathering labels for graph nodes is both expensive and inherently biased -- so this assumption can not be met. GNNs can suffer poor generalization when this occurs, by overfitting to superfluous regularities present in the training data. In this work we present a method, Shift-Robust GNN (SR-GNN), designed to account for distributional differences between biased training data and the graph's true inference distribution. SR-GNN adapts GNN models for the presence of distributional shifts between the nodes which have had labels provided for training and the rest of the dataset. We illustrate the effectiveness of SR-GNN in a variety of experiments with biased training datasets on common GNN benchmark datasets for semi-supervised learning, where we see that SR-GNN outperforms other GNN baselines by accuracy, eliminating at least (~40%) of the negative effects introduced by biased training data. On the largest dataset we consider, ogb-arxiv, we observe an 2% absolute improvement over the baseline and reduce 30% of the negative effects.
公開日:2021-08-02
翻訳日:2021-08-04 13:57:48
# MBDP:ダブルドロップアウト計画によるロバストネスとサンプル効率の両立に向けたモデルベースアプローチ

MBDP: A Model-based Approach to Achieve both Robustness and Sample Efficiency via Double Dropout Planning ( http://arxiv.org/abs/2108.01295v1 )

ライセンス: Link先を確認
Wanpeng Zhang, Xi Xiao, Yao Yao, Mingzhe Chen, Dijun Luo(参考訳) モデルに基づく強化学習は、過剰なサンプル要求を解決するための広く受け入れられているソリューションである。 しかし、ダイナミクスモデルの予測は、しばしば十分に正確ではなく、結果として生じるバイアスは、不十分な堅牢性のために壊滅的な決定を引き起こす可能性がある。 したがって,高いサンプリング効率を維持しつつモデルベースrlアルゴリズムのロバスト性を向上させる方法について検討することが望まれる。 本稿では,ロバスト性と効率のバランスをとるために,モデルベースダブルドロップアウト計画(MBDP)を提案する。 MBDPは2種類のドロップアウト機構から構成されており、ロールアウト・ドロップアウトは少量のサンプル効率でロバスト性を改善することを目的としており、モデル・ドロップアウトはロバスト性をわずかに犠牲にして損失効率を補うように設計されている。 相補的な方法で組み合わせることで、MBDPは、2つの対応するドロップアウト比を調整することによって、異なる堅牢性と効率性の要求を満たす柔軟な制御機構を提供する。 MBDPは理論的にも実験的にも有効である。

Model-based reinforcement learning is a widely accepted solution for solving excessive sample demands. However, the predictions of the dynamics models are often not accurate enough, and the resulting bias may incur catastrophic decisions due to insufficient robustness. Therefore, it is highly desired to investigate how to improve the robustness of model-based RL algorithms while maintaining high sampling efficiency. In this paper, we propose Model-Based Double-dropout Planning (MBDP) to balance robustness and efficiency. MBDP consists of two kinds of dropout mechanisms, where the rollout-dropout aims to improve the robustness with a small cost of sample efficiency, while the model-dropout is designed to compensate for the lost efficiency at a slight expense of robustness. By combining them in a complementary way, MBDP provides a flexible control mechanism to meet different demands of robustness and efficiency by tuning two corresponding dropout ratios. The effectiveness of MBDP is demonstrated both theoretically and experimentally.
公開日:2021-08-03
翻訳日:2021-08-04 13:57:22
# GalaxAI:宇宙船テレメトリデータの解釈解析のための機械学習ツールボックス

GalaxAI: Machine learning toolbox for interpretable analysis of spacecraft telemetry data ( http://arxiv.org/abs/2108.01407v1 )

ライセンス: Link先を確認
Ana Kostovska, Matej Petkovic\'c, Toma\v{z} Stepi\v{s}nik, Luke Lucas, Timothy Finn, Jos\'e Mart\'inez-Heras, Pan\v{c}e Panov, Sa\v{s}o D\v{z}eroski, Alessandro Donati, Nikola Simidjievski, Dragi Kocev(参考訳) 宇宙船テレメトリデータの効率的かつ解釈可能なエンドツーエンド分析のための汎用機械学習ツールボックスであるGalaxAIを提案する。 GalaxAIは、多変量時系列解析、分類、回帰、構造化された出力予測に様々な機械学習アルゴリズムを使用し、高スループットの異種データを扱うことができる。 これらの手法は、堅牢で正確な予測モデルの構築を可能にし、宇宙船の監視と運用計画の異なるタスクに適用される。 さらに重要なのは、モデルの正確な構築に加えて、GalaxAIは可視化レイヤを実装し、ミッションスペシャリストやオペレータに、データ分析プロセスの完全な詳細かつ解釈可能なビューを提供する。 2つの異なる宇宙船に関する2つのユースケースにおけるガラクシーの有用性と汎用性を示す: i)マーズが熱エネルギーを消費する解析と計画、ii)ヴァン・アレンベルトを通る積分の交差を予測する。

We present GalaxAI - a versatile machine learning toolbox for efficient and interpretable end-to-end analysis of spacecraft telemetry data. GalaxAI employs various machine learning algorithms for multivariate time series analyses, classification, regression and structured output prediction, capable of handling high-throughput heterogeneous data. These methods allow for the construction of robust and accurate predictive models, that are in turn applied to different tasks of spacecraft monitoring and operations planning. More importantly, besides the accurate building of models, GalaxAI implements a visualisation layer, providing mission specialists and operators with a full, detailed and interpretable view of the data analysis process. We show the utility and versatility of GalaxAI on two use-cases concerning two different spacecraft: i) analysis and planning of Mars Express thermal power consumption and ii) predicting of INTEGRAL's crossings through Van Allen belts.
公開日:2021-08-03
翻訳日:2021-08-04 13:57:07
# 階層表現と明示記憶:グラフニューラルネットワークを用いた3次元シーングラフの効果的なナビゲーションポリシーの学習

Hierarchical Representations and Explicit Memory: Learning Effective Navigation Policies on 3D Scene Graphs using Graph Neural Networks ( http://arxiv.org/abs/2108.01176v1 )

ライセンス: Link先を確認
Zachary Ravichandran, Lisa Peng, Nathan Hughes, J. Daniel Griffith, Luca Carlone(参考訳) 表現は、ロボットが効果的なナビゲーションポリシーを学ぶために不可欠である。 近年の研究では、深度推定や2次元セマンティックセグメンテーションのような中レベルの知覚的抽象化が、生センサデータ(例えばRGB画像)の代わりに観測として提供される場合、より効果的なポリシーをもたらすことが示されている。 しかし、そのようなポリシーは、中レベルの抽象から潜在的な3次元の情景特性を学ばなければならない。 対照的に、3Dシーングラフのような高レベルの階層表現は、シーンの幾何学、トポロジ、セマンティクスを明示的に提供し、ナビゲーションに魅力的な表現を与える。 本稿では,高レベルの階層表現を活用し,ナビゲーションポリシーを学習する強化学習フレームワークを提案する。 この目的に向けて,グラフニューラルネットワークアーキテクチャを提案し,エージェント中心の機能空間に3次元シーングラフを埋め込む方法を示す。 シーングラフの各ノードに対して,ロボットの軌跡の記憶を明示的に保持しつつ,占有率と意味的コンテントをキャプチャする機能を用いる。 対象探索課題において,一般的なビジュモータポリシーに対する提案手法の有効性を実証する。 これらの実験とアブレーション研究により,本手法はより効果的な対象探索行動をもたらし,長期記憶が向上し,階層的な情報を利用してナビゲーションの目的を導出することを示す。

Representations are crucial for a robot to learn effective navigation policies. Recent work has shown that mid-level perceptual abstractions, such as depth estimates or 2D semantic segmentation, lead to more effective policies when provided as observations in place of raw sensor data (e.g., RGB images). However, such policies must still learn latent three-dimensional scene properties from mid-level abstractions. In contrast, high-level, hierarchical representations such as 3D scene graphs explicitly provide a scene's geometry, topology, and semantics, making them compelling representations for navigation. In this work, we present a reinforcement learning framework that leverages high-level hierarchical representations to learn navigation policies. Towards this goal, we propose a graph neural network architecture and show how to embed a 3D scene graph into an agent-centric feature space, which enables the robot to learn policies for low-level action in an end-to-end manner. For each node in the scene graph, our method uses features that capture occupancy and semantic content, while explicitly retaining memory of the robot trajectory. We demonstrate the effectiveness of our method against commonly used visuomotor policies in a challenging object search task. These experiments and supporting ablation studies show that our method leads to more effective object search behaviors, exhibits improved long-term memory, and successfully leverages hierarchical information to guide its navigation objectives.
公開日:2021-08-02
翻訳日:2021-08-04 13:56:51
# デスク組織:空間関係学習におけるマルチモーダル入力の効果

Desk Organization: Effect of Multimodal Inputs on Spatial Relational Learning ( http://arxiv.org/abs/2108.01254v1 )

ライセンス: Link先を確認
Ryan Rowe, Shivam Singhal, Daqing Yi, Tapomayukh Bhattacharjee and Siddhartha S. Srinivasa(参考訳) ロボットが3次元の世界で操作し、人間と対話するには、周囲の物体間の空間的関係を学習する必要がある。 世界の状況に関する推論には、視覚(V$)や触覚(H$)など、さまざまな感覚モダリティからの入力が必要となる。 そこで我々は, 空間的対象を平面上にどのように配置するかを, 組織的「推奨」に従って学習する。 我々は、視覚と触覚のモダリティから受ける複数の特徴を人間がどう配置するかを調べることで、この問題をモデル化する。 しかし、組織的習慣は、構造と定着の両方において大きく異なる。 ユーザの組織的好みに対処するために、与えられたオブジェクトの特定の人間の認識された有用性を知らせる追加のモダリティ ''utility' (u$)を追加します。 モデルは、一般化(多くの異なる人々)または調整(一人あたり)として訓練された。 我々は、マルチタスクの正確な分類に焦点を当てたランダムフォレストと、組織的習慣に対する理解しやすい洞察を提供するマルコフ論理ネットワークの2つのモデルを使用している。 このモデルは, 固定的な組織制約を用いて学習可能な合成データと, 90%以上の精度でランダム林が達成された人為的データの両方に適用された。 組織にとって、$\{h, u, v\}$ modalities, $uv$ と $huv$ のすべての組み合わせが最も有益であった。 フォローアップ研究では,ランダムな森林組織とランダムなモデルで比較し,デスク組織の選好を推定した。 平均して、参加者はランダムな森林モデルを5ポイント様のスケールで4.15とし、ランダムなモデルでは1.84とした。

For robots to operate in a three dimensional world and interact with humans, learning spatial relationships among objects in the surrounding is necessary. Reasoning about the state of the world requires inputs from many different sensory modalities including vision ($V$) and haptics ($H$). We examine the problem of desk organization: learning how humans spatially position different objects on a planar surface according to organizational ''preference''. We model this problem by examining how humans position objects given multiple features received from vision and haptic modalities. However, organizational habits vary greatly between people both in structure and adherence. To deal with user organizational preferences, we add an additional modality, ''utility'' ($U$), which informs on a particular human's perceived usefulness of a given object. Models were trained as generalized (over many different people) or tailored (per person). We use two types of models: random forests, which focus on precise multi-task classification, and Markov logic networks, which provide an easily interpretable insight into organizational habits. The models were applied to both synthetic data, which proved to be learnable when using fixed organizational constraints, and human-study data, on which the random forest achieved over 90% accuracy. Over all combinations of $\{H, U, V\}$ modalities, $UV$ and $HUV$ were the most informative for organization. In a follow-up study, we gauged participants preference of desk organizations by a generalized random forest organization vs. by a random model. On average, participants rated the random forest models as 4.15 on a 5-point Likert scale compared to 1.84 for the random model
公開日:2021-08-03
翻訳日:2021-08-04 13:56:26
# エネルギーシステム最適化アルゴリズムにおける分散ヒューリスティックスのための動的通信トポロジ

Dynamic communication topologies for distributed heuristics in energy system optimization algorithms ( http://arxiv.org/abs/2108.01380v1 )

ライセンス: Link先を確認
Stefanie Holly and Astrid Nie{\ss}e(参考訳) 通信トポロジは分散最適化ヒューリスティックの設計において重要な側面である。 これは、探索空間の探索と利用に影響し、エネルギーシステムにおいて重要なインフラを運用するアプリケーションにおいて、ソリューションの品質、収束速度、コラボレーションコストといった面での最適化性能に影響を与える可能性がある。 本研究では,シミュレート・アニーリングの原理に基づいて,実行時の通信トポロジーを適用する手法を提案する。 我々は、模範的な分散最適化ヒューリスティックの性能に関する一般的な静的トポロジと比較する。 最後に,フィットネスランドスケープ特性と性能指標の相関について検討した。

The communication topology is an essential aspect in designing distributed optimization heuristics. It can influence the exploration and exploitation of the search space and thus the optimization performance in terms of solution quality, convergence speed and collaboration costs, all relevant aspects for applications operating critical infrastructure in energy systems. In this work, we present an approach for adapting the communication topology during runtime, based on the principles of simulated annealing. We compare the approach to common static topologies regarding the performance of an exemplary distributed optimization heuristic. Finally, we investigate the correlations between fitness landscape properties and defined performance metrics.
公開日:2021-08-03
翻訳日:2021-08-04 13:55:57
# 3次元SLAMにおけるセグメントベースループ閉鎖のためのLiDAR強度画像の記述力について

On the descriptive power of LiDAR intensity images for segment-based loop closing in 3-D SLAM ( http://arxiv.org/abs/2108.01383v1 )

ライセンス: Link先を確認
Jan Wietrzykowski and Piotr Skrzypczy\'nski(参考訳) 本稿では,セグメントの視覚的文脈を考慮した記述子を用いたlidar slamのセグメントベースグローバルローカライズ手法の拡張を提案する。 合成LiDAR強度画像から得られる視覚的コンテキストを学習するディープニューラルネットワークの新しいアーキテクチャを提案する。 このアプローチにより、単一のマルチビームLiDARがリッチで記述性の高いロケーションシグネチャを生成することができる。 この手法は2つの公開データセットでテストされ、新しい記述子の記述性の向上とSLAMでのより信頼性の高いループクロージャ検出を示す。 ネットワークの注意分析は,3次元セグメントのみに限らず,より広い文脈に焦点を絞ることの重要性を示す。

We propose an extension to the segment-based global localization method for LiDAR SLAM using descriptors learned considering the visual context of the segments. A new architecture of the deep neural network is presented that learns the visual context acquired from synthetic LiDAR intensity images. This approach allows a single multi-beam LiDAR to produce rich and highly descriptive location signatures. The method is tested on two public datasets, demonstrating an improved descriptiveness of the new descriptors, and more reliable loop closure detection in SLAM. Attention analysis of the network is used to show the importance of focusing on the broader context rather than only on the 3-D segment.
公開日:2021-08-03
翻訳日:2021-08-04 13:55:47
# 都市空調計画における航空車両のスケジューリング

Scheduling Aerial Vehicles in an Urban Air Mobility Scheme ( http://arxiv.org/abs/2108.01608v1 )

ライセンス: Link先を確認
Emmanouil S. Rigas, Panayiotis Kolios, Georgios Ellinas(参考訳) 人口の多い都市はいくつかの困難に直面しており、そのうちの1つは交通渋滞である。 近年では、この問題に対処する手段として、大企業や組織によって、都市空気移動の概念が進められており、このアプローチが急速に定着している。 このディスラプティブな技術は、顧客が大都市内の場所を移動できるよりも、雇用のための航空車両(avs)である。 このコンセプトは、一般的にバッテリーを動力とする電動モーターを使用するため、交通渋滞を劇的に減らし、大気汚染を減らす可能性がある。 本研究は、顧客へのAVの割り当てを計画し、最低限の高度で飛行させることで、サービスされた顧客を最大化し、AVのエネルギー消費を最小限にすることを目的としている。 当初、Integer Linear Program (ILP) の定式化が提示され、オフラインで最適に解決され、続いてほぼ最適アルゴリズムによって、一度に1つのAVを段階的に解決し、スケーラビリティの問題に対処し、多数のロケーション、AV、顧客要求を含む問題のスケジューリングを可能にする。

Highly populated cities face several challenges, one of them being the intense traffic congestion. In recent years, the concept of Urban Air Mobility has been put forward by large companies and organizations as a way to address this problem, and this approach has been rapidly gaining ground. This disruptive technology involves aerial vehicles (AVs) for hire than can be utilized by customers to travel between locations within large cities. This concept has the potential to drastically decrease traffic congestion and reduce air pollution, since these vehicles typically use electric motors powered by batteries. This work studies the problem of scheduling the assignment of AVs to customers, having as a goal to maximize the serviced customers and minimize the energy consumption of the AVs by forcing them to fly at the lowest possible altitude. Initially, an Integer Linear Program (ILP) formulation is presented, that is solved offline and optimally, followed by a near-optimal algorithm, that solves the problem incrementally, one AV at a time, to address scalability issues, allowing scheduling in problems involving large numbers of locations, AVs, and customer requests.
公開日:2021-08-03
翻訳日:2021-08-04 13:55:35
# 複数発話対話システムにおけるユーザ主導の繰り返しに基づくリカバリ

User-Initiated Repetition-Based Recovery in Multi-Utterance Dialogue Systems ( http://arxiv.org/abs/2108.01208v1 )

ライセンス: Link先を確認
Hoang Long Nguyen, Vincent Renkens, Joris Pelemans, Srividya Pranavi Potharaju, Anil Kumar Nalamalapu, Murat Akbacak(参考訳) 認識エラーは人間のコミュニケーションによく見られる。 同様のエラーは、しばしば対話システムや仮想アシスタントにおいて望ましくない振る舞いを引き起こす。 人間同士のコミュニケーションでは、誤認識された単語やフレーズを繰り返し繰り返すことで回復することができるが、人間同士のコミュニケーションでは、この回復メカニズムは利用できない。 本稿では,このギャップを埋めて,誤解された単語を繰り返すことで,仮想アシスタントの音声認識誤差を補正するシステムを提案する。 ユーザがフレーズの一部を繰り返すと、システムは元のクエリを書き換えて修正を組み込む。 この書き換えにより、仮想アシスタントは元のクエリをうまく理解することができる。 本稿では,不正確に理解された発話と訂正のフォローアップを融合することにより,書き直しクエリを生成できる,エンドツーエンドの2段階注意ポインタネットワークを提案する。 このタスクのために収集したデータに関するモデルを評価し,提案モデルをルールベースベースラインと標準ポインターネットワークと比較する。 また,提案手法が規則ベースのベースラインを上回り,アノテートされたデータに対して2%の誤報率で単語誤り率を19%削減することを示した。

Recognition errors are common in human communication. Similar errors often lead to unwanted behaviour in dialogue systems or virtual assistants. In human communication, we can recover from them by repeating misrecognized words or phrases; however in human-machine communication this recovery mechanism is not available. In this paper, we attempt to bridge this gap and present a system that allows a user to correct speech recognition errors in a virtual assistant by repeating misunderstood words. When a user repeats part of the phrase the system rewrites the original query to incorporate the correction. This rewrite allows the virtual assistant to understand the original query successfully. We present an end-to-end 2-step attention pointer network that can generate the the rewritten query by merging together the incorrectly understood utterance with the correction follow-up. We evaluate the model on data collected for this task and compare the proposed model to a rule-based baseline and a standard pointer network. We show that rewriting the original query is an effective way to handle repetition-based recovery and that the proposed model outperforms the rule based baseline, reducing Word Error Rate by 19% relative at 2% False Alarm Rate on annotated data.
公開日:2021-08-02
翻訳日:2021-08-04 13:55:15
# 音響フュージョン:動的環境における音源定位と視覚SLAM

AcousticFusion: Fusing Sound Source Localization to Visual SLAM in Dynamic Environments ( http://arxiv.org/abs/2108.01246v1 )

ライセンス: Link先を確認
Tianwei Zhang, Huayan Zhang, Xiaofei Li, Junfeng Chen, Tin Lun Lam and Sethu Vijayakumar(参考訳) 人や他のエージェントのような環境内の動的オブジェクトは、既存の同時ローカライゼーションとマッピング(SLAM)アプローチの課題を引き起こす。 動的環境に対処するために、コンピュータビジョン研究者は通常、これらの動的物体を除去するために学習に基づく物体検出器を適用する。 しかし、これらの物体検出器は、移動ロボットのオンボード処理には計算コストが高すぎる。 実運用においては,車載音源定位により効果的に検出できる騒音音を発生する。 音源オブジェクトの方向情報は、音の到着方向(DoA)推定によって効率よく得ることができるが、深さ推定は困難である。 そこで,本稿では,音源方向をrgb-d画像に融合し,マルチロボットslamシステムにおける動的障害物の影響を解消する,新しい音声・視覚融合手法を提案する。 異なる動的環境におけるマルチロボットSLAMの実験結果から,提案手法は非常に小さな計算資源を用いて,非常に安定した自己局所化結果が得られることが示された。

Dynamic objects in the environment, such as people and other agents, lead to challenges for existing simultaneous localization and mapping (SLAM) approaches. To deal with dynamic environments, computer vision researchers usually apply some learning-based object detectors to remove these dynamic objects. However, these object detectors are computationally too expensive for mobile robot on-board processing. In practical applications, these objects output noisy sounds that can be effectively detected by on-board sound source localization. The directional information of the sound source object can be efficiently obtained by direction of sound arrival (DoA) estimation, but depth estimation is difficult. Therefore, in this paper, we propose a novel audio-visual fusion approach that fuses sound source direction into the RGB-D image and thus removes the effect of dynamic obstacles on the multi-robot SLAM system. Experimental results of multi-robot SLAM in different dynamic environments show that the proposed method uses very small computational resources to obtain very stable self-localization results.
公開日:2021-08-03
翻訳日:2021-08-04 13:54:55
# 生体画像分割のための領域的損失

Region-wise Loss for Biomedical Image Segmentation ( http://arxiv.org/abs/2108.01405v1 )

ライセンス: Link先を確認
Juan Miguel Valverde, Jussi Tohka(参考訳) バイオメディカルイメージセグメンテーションのための領域ワイド(RW)ロスを提案する。 領域的損失は多様であり、クラス不均衡と画素の重要性を同時に考慮することができ、ソフトマックス出力とrwマップとの画素的乗算として容易に実装できる。 提案した地域的損失フレームワークでは,アクティブ・コンターや境界損失といった特定の損失関数を適切なRWマップと同様に再構成し,それらの類似点と,それらの損失関数を理解するための新たな視点を明らかにする。 本研究では,境界損失距離マップなどの特定のRWマップによる観測された最適化不安定性について検討し,そのような不安定性を回避するために数学的に座屈した原理を導入する。 この原理は、任意のデータセットに優れた適応性を提供し、余分な正規化項や最適化のトリックなしで、事実上収束を保証する。 この原理に従うと、直交RW写像と呼ばれる境界距離写像の単純なバージョンを提案し、Dice、Focal、Bundaryの3つの異なるセグメンテーションタスクにおいて、Dice係数やHausdorff距離と類似あるいはより良いDice係数で最先端の性能を達成する。 境界損失距離マップによって提供される最適化の不安定性を定量化し、修正されたRWマップが安定して最適化できることを実証的に示す。 すべての実験を実行するコードは、https://github.com/j mlipman/regionwiselo ssで公開されています。

We propose Region-wise (RW) loss for biomedical image segmentation. Region-wise loss is versatile, can simultaneously account for class imbalance and pixel importance, and it can be easily implemented as the pixel-wise multiplication between the softmax output and a RW map. We show that, under the proposed Region-wise loss framework, certain loss functions, such as Active Contour and Boundary loss, can be reformulated similarly with appropriate RW maps, thus revealing their underlying similarities and a new perspective to understand these loss functions. We investigate the observed optimization instability caused by certain RW maps, such as Boundary loss distance maps, and we introduce a mathematically-groun ded principle to avoid such instability. This principle provides excellent adaptability to any dataset and practically ensures convergence without extra regularization terms or optimization tricks. Following this principle, we propose a simple version of boundary distance maps called rectified RW maps that, as we demonstrate in our experiments, achieve state-of-the-art performance with similar or better Dice coefficients and Hausdorff distances than Dice, Focal, and Boundary losses in three distinct segmentation tasks. We quantify the optimization instability provided by Boundary loss distance maps, and we empirically show that our rectified RW maps are stable to optimize. The code to run all our experiments is publicly available at: https://github.com/j mlipman/RegionWiseLo ss.
公開日:2021-08-03
翻訳日:2021-08-04 13:54:37
# hypercolor:ゲームシーン人口のための自動カラー3dモデル合成のためのハイパーネットワークアプローチ

HyperColor: A HyperNetwork Approach for Synthesizing Auto-colored 3D Models for Game Scenes Population ( http://arxiv.org/abs/2108.01411v1 )

ライセンス: Link先を確認
Ivan Kostiuk, Przemys{\l}aw Stachura, S{\l}awomir K. Tadeja, Tomasz Trzci\'nski, Przemys{\l}aw Spurek(参考訳) 3Dゲームシーンをデザインするのは面倒な作業で、かなりの作業が必要になります。 通常、このタスクはゲームシーン内の3Dモデルの合成、着色、配置を含む。 この作業量を減らすために、ゲームシーン開発の一部の側面を自動化するために機械学習を適用することができる。 初期の研究では、機械学習によるゲームシーンの背景の自動生成にすでに取り組んでいた。 しかし、モデル自動着色は未熟な問題である。 3dモデルの自動着色は、特にカラフルなマルチパートオブジェクトのデジタル表現を扱う場合、難しい課題である。 そのような場合、各部分のオブジェクトの構成と着色スキームを ‘understand' しなければならない。 既存のシングルステージメソッドには、オブジェクトのセグメンテーションの必要性や、最終的なモデルを生成するために組み立てなければならない個々のパーツの生成など、独自の注意点がある。 自動カラー3dモデルを合成するための2段階のトレーニングアプローチを提案することで,これらの制限に対処する。 第1段階では、3Dオブジェクトを表す3D点雲を得るが、第2段階では、そのような雲内の点に色を割り当てる。 次に、いわゆる三角測量トリックを利用して、与えられたメッシュ三角形の頂点を表す彩色点の補間に基づいて、表面を彩色した3次元メッシュを生成する。 このアプローチにより、スムーズなカラー化スキームが生成できます。 実験により, 従来の単段階技術と比較して, 形状復元と色付けの両面で良好な結果が得られた。

Designing a 3D game scene is a tedious task that often requires a substantial amount of work. Typically, this task involves synthesis, coloring, and placement of 3D models within the game scene. To lessen this workload, we can apply machine learning to automate some aspects of the game scene development. Earlier research has already tackled automated generation of the game scene background with machine learning. However, model auto-coloring remains an underexplored problem. The automatic coloring of a 3D model is a challenging task, especially when dealing with the digital representation of a colorful, multipart object. In such a case, we have to ``understand'' the object's composition and coloring scheme of each part. Existing single-stage methods have their own caveats such as the need for segmentation of the object or generating individual parts that have to be assembled together to yield the final model. We address these limitations by proposing a two-stage training approach to synthesize auto-colored 3D models. In the first stage, we obtain a 3D point cloud representing a 3D object, whilst in the second stage, we assign colors to points within such cloud. Next, by leveraging the so-called triangulation trick, we generate a 3D mesh in which the surfaces are colored based on interpolation of colored points representing vertices of a given mesh triangle. This approach allows us to generate a smooth coloring scheme. Experimental evaluation shows that our two-stage approach gives better results in terms of shape reconstruction and coloring when compared to traditional single-stage techniques.
公開日:2021-08-03
翻訳日:2021-08-04 13:54:11
# 高ダイナミックレンジイメージングのためのウェーブレットネットワーク

Wavelet-Based Network For High Dynamic Range Imaging ( http://arxiv.org/abs/2108.01434v1 )

ライセンス: Link先を確認
Tianhong Dai, Wei Li, Xilei Cao, Jianzhuang Liu, Xu Jia, Ales Leonardis, Youliang Yan, Shanxin Yuan(参考訳) high dynamic range (hdr) imaging from multiple low dynamic range (ldr) images シーンやオブジェクトの動きによって引き起こされるゴーストアーティファクトに悩まされている。 オプティカルフローベースやエンドツーエンドのディープラーニングベースのソリューションといった既存の手法は、詳細な復元やゴーストアーティファクトの削除といったエラーが発生しやすい。 総合的な実証的証拠は、大きな前景運動によって引き起こされるゴーストアーティファクトが主に低周波信号であり、詳細は主として高周波信号であることを示している。 本研究では、周波数領域でHDR融合を行うための新しい周波数誘導エンドツーエンドディープニューラルネットワーク(FHDRNet)を提案し、離散ウェーブレット変換(DWT)を用いて入力を異なる周波数帯域に分解する。 低周波信号は特定のゴーストアーティファクトを避けるために使用され、高周波信号は詳細を保存するために使用される。 U-Netをバックボーンとして用いることで,モジュールのマージと周波数誘導アップサンプリングモジュールの2つの新しいモジュールを提案する。 マージモジュールは、低周波成分にアテンション機構を適用して、大きな前景運動によるゴーストに対処する。 周波数ガイドアップサンプリングモジュールは、複数の周波数固有のコンポーネントから詳細をリッチに再構成する。 さらに、RAW領域におけるマルチフレームHDRイメージングアルゴリズムのトレーニングと評価のために、新しいRAWデータセットを作成する。 公開データセットとRAWデータセットを用いて大規模な実験を行い、提案したFHDRNetが最先端の性能を達成することを示す。

High dynamic range (HDR) imaging from multiple low dynamic range (LDR) images has been suffering from ghosting artifacts caused by scene and objects motion. Existing methods, such as optical flow based and end-to-end deep learning based solutions, are error-prone either in detail restoration or ghosting artifacts removal. Comprehensive empirical evidence shows that ghosting artifacts caused by large foreground motion are mainly low-frequency signals and the details are mainly high-frequency signals. In this work, we propose a novel frequency-guided end-to-end deep neural network (FHDRNet) to conduct HDR fusion in the frequency domain, and Discrete Wavelet Transform (DWT) is used to decompose inputs into different frequency bands. The low-frequency signals are used to avoid specific ghosting artifacts, while the high-frequency signals are used for preserving details. Using a U-Net as the backbone, we propose two novel modules: merging module and frequency-guided upsampling module. The merging module applies the attention mechanism to the low-frequency components to deal with the ghost caused by large foreground motion. The frequency-guided upsampling module reconstructs details from multiple frequency-specific components with rich details. In addition, a new RAW dataset is created for training and evaluating multi-frame HDR imaging algorithms in the RAW domain. Extensive experiments are conducted on public datasets and our RAW dataset, showing that the proposed FHDRNet achieves state-of-the-art performance.
公開日:2021-08-03
翻訳日:2021-08-04 13:53:49
# ロボティクスにおける人間検出のクロスモーダル解析--産業ケーススタディ

Cross-Modal Analysis of Human Detection for Robotics: An Industrial Case Study ( http://arxiv.org/abs/2108.01495v1 )

ライセンス: Link先を確認
Timm Linder, Narunas Vaskevicius, Robert Schirmer, Kai O. Arras(参考訳) センサーと学習アルゴリズムの進歩は、特に自動運転車の歩行者検出や消費者設定での近距離人検出など、ロボットによる人間の検出に対するソリューションの成熟に繋がった。 この進歩にもかかわらず、単純な質問は「人検出タスクに最適なセンサーとアルゴリズムの組み合わせはどれか? 答えるのは難しい 本稿では,ロボット工学で一般的に使用されるセンサとアルゴリズムの組み合わせの系統的相互モーダル分析を行うことにより,この問題に対処する。 本研究では,2Dレンジデータ,3Dライダー,RGB-Dデータに対する最先端の人体検知器の性能と,その選択した組み合わせを比較した。 産業目標領域におけるデータ不足の関連問題をさらに解決し、3Dポイントクラウドにおける人間の検出に関する最近の研究は、主に自動運転シナリオに焦点を当てている。 これらの手法をロボット工学への応用に活用するために,強力な画像ベースRGB-D検出器を拡張して,弱い3次元境界ボックスラベルの形でライダー検出器の相互監視を行う,シンプルかつ効果的なマルチセンサ転送学習戦略を利用する。 その結果, 検出性能, 一般化, フレームレート, 計算要求の点で, 異なるアプローチの差異が大きいことがわかった。 当社のユースケースには、幅広いサービスロボットアプリケーションの代表的課題が含まれているため、これらの結果は、さらなる研究のための関連するオープンな課題を示し、ロボットシステムの設計を実践者に価値ある支援を提供すると信じています。

Advances in sensing and learning algorithms have led to increasingly mature solutions for human detection by robots, particularly in selected use-cases such as pedestrian detection for self-driving cars or close-range person detection in consumer settings. Despite this progress, the simple question "which sensor-algorithm combination is best suited for a person detection task at hand?" remains hard to answer. In this paper, we tackle this issue by conducting a systematic cross-modal analysis of sensor-algorithm combinations typically used in robotics. We compare the performance of state-of-the-art person detectors for 2D range data, 3D lidar, and RGB-D data as well as selected combinations thereof in a challenging industrial use-case. We further address the related problems of data scarcity in the industrial target domain, and that recent research on human detection in 3D point clouds has mostly focused on autonomous driving scenarios. To leverage these methodological advances for robotics applications, we utilize a simple, yet effective multi-sensor transfer learning strategy by extending a strong image-based RGB-D detector to provide cross-modal supervision for lidar detectors in the form of weak 3D bounding box labels. Our results show a large variance among the different approaches in terms of detection performance, generalization, frame rates and computational requirements. As our use-case contains difficulties representative for a wide range of service robot applications, we believe that these results point to relevant open challenges for further research and provide valuable support to practitioners for the design of their robot system.
公開日:2021-08-03
翻訳日:2021-08-04 13:53:24
# 2つの新しい冠動脈造影検査法

Two New Stenoses Detection Methods of Coronary Angiograms ( http://arxiv.org/abs/2108.01516v1 )

ライセンス: Link先を確認
Yaofang Liu, Xinyue Zhang, Wenlong Wan, Shaoyu Liu, Yingdi Liu, Hu Liu, Xueying Zeng, Qing Zhang(参考訳) 冠動脈造影は冠動脈疾患の診断における「ゴールドスタンダード」である。 冠状動脈病変の検出法と冠動脈造影法における冠動脈病変の程度の評価は, 主観的, 効果的でないのが現状である。 冠動脈造影検査では2つの血管病変検出法が提案されている。 1つ目は、冠動脈全体を自動的に分割し、ステノシーをマークする自動的方法である。 2つ目はインタラクティブな方法です。 この方法では、ユーザは、特定の血管セグメントのステノシスを検出するために、開始点と終了点を与えるだけでよい。 提案手法は血管構造の異なる血管造影にロバストであることが判明した。 本発明の自動検出方法は、血管の直径を効果的に測定し、異なる血管造影でステンドースをマークすることができる。 さらに,対話型検出法の結果が真のステンス状態を正確に反映できることを示す。 提案手法は各種血管造影に有効であり,臨床実践において相互に補完することができる。 第1の方法は予備スクリーニングに使用することができ、第2の方法はさらなる定量分析に使用することができる。 冠動脈疾患の臨床診断のレベルを向上させる可能性がある。

Coronary angiography is the "gold standard" for the diagnosis of coronary heart disease. At present, the methods for detecting coronary artery stenoses and evaluating the degree of it in coronary angiograms are either subjective or not efficient enough. Two vascular stenoses detection methods in coronary angiograms are proposed to assist the diagnosis. The first one is an automatic method, which can automatically segment the entire coronary vessels and mark the stenoses. The second one is an interactive method. With this method, the user only needs to give a start point and an end point to detect the stenoses of a certain vascular segment. We have shown that the proposed tracking methods are robust for angiograms with various vessel structure. The automatic detection method can effectively measure the diameter of the vessel and mark the stenoses in different angiograms. Further investigation proves that the results of interactive detection method can accurately reflect the true stenoses situation. The proposed automatic method and interactive method are effective in various angiograms and can complement each other in clinical practice. The first method can be used for preliminary screening and the second method can be used for further quantitative analysis. It has the potential to improve the level of clinical diagnosis of coronary heart disease.
公開日:2021-08-03
翻訳日:2021-08-04 13:52:56
# 現代のオープンソースのビジュアルSLAM手法の比較

Comparison of modern open-source visual SLAM approaches ( http://arxiv.org/abs/2108.01654v1 )

ライセンス: Link先を確認
Dinar Sharafutdinov, Mark Griguletskii, Pavel Kopanev, Mikhail Kurenkov, Gonzalo Ferrer, Aleksey Burkov, Aleksei Gonnochenko, Dzmitry Tsetserukou(参考訳) SLAMはロボット工学とコンピュータビジョンにおける最も基本的な研究分野の1つである。 最先端のソリューションは精度と安定性の観点から大きく進歩している。 残念ながら、すべてのアプローチがオープンソースソリューションとして利用でき、無料で利用できるわけではない。 それらのいくつかの結果は再現が困難であり、共通のデータセットの比較が欠如している。 本研究では,最先端のオープンソース手法の比較分析を行う。 精度,計算性能,堅牢性,耐故障性に基づくアルゴリズムの評価を行った。 さらに,実践的な観点から,データセットの比較,およびアルゴリズムの分析について述べる。 この研究の結果は、SLAM研究者にいくつかの重要な疑問を提起している。

SLAM is one of the most fundamental areas of research in robotics and computer vision. State of the art solutions has advanced significantly in terms of accuracy and stability. Unfortunately, not all the approaches are available as open-source solutions and free to use. The results of some of them are difficult to reproduce, and there is a lack of comparison on common datasets. In our work, we make a comparative analysis of state of the art open-source methods. We assess the algorithms based on accuracy, computational performance, robustness, and fault tolerance. Moreover, we present a comparison of datasets as well as an analysis of algorithms from a practical point of view. The findings of the work raise several crucial questions for SLAM researchers.
公開日:2021-08-03
翻訳日:2021-08-04 13:52:37
# 脳MRIの年齢推定のためのタスクガイド付きジェネレータネットワークを用いた画像強調

Image Augmentation Using a Task Guided Generative Adversarial Network for Age Estimation on Brain MRI ( http://arxiv.org/abs/2108.01659v1 )

ライセンス: Link先を確認
Ruizhe Li, Matteo Bastiani, Dorothee Auer, Christian Wagner, and Xin Chen(参考訳) MRI(MRI)に基づく脳年齢推定は、神経変性疾患の早期診断において活発な研究領域である。 アルツハイマー、パーキンソン、ハンティントンなど) 若いグループのために 高齢者や脳の未発達者のためにです 深層学習法は、脳年齢推定を含む多くの医療画像解析タスクにおいて最先端のパフォーマンスを達成した。 しかし、ディープラーニングモデルの性能と一般性は、トレーニングデータセットの量と品質に大きく依存している。 脳MRIデータの収集と注釈付けはどちらも非常に時間がかかる。 本稿では,データ不足問題を解決するため,gan(generative adversarial network)に基づく画像合成手法を提案する。 既存のganベースの手法とは異なり、ganのジェネレータの終端にタスク誘導分岐(年齢推定のための回帰モデル)を統合する。 従来のGAN損失にタスク誘導損失を加えることで、学習された低次元の潜在空間と合成画像はよりタスク固有となる。 合成画像と実画像を組み合わせてモデルトレーニングを行うことで、ダウンストリームタスクのパフォーマンス向上を支援する。 提案手法は, 年齢推定のためのパブリック脳MRIデータセットを用いて評価した。 提案手法は, 深層畳み込みニューラルネットワークに基づく回帰モデルと, タスク誘導分岐を伴わないgan画像合成法を上回った(統計的に有意な)。 さらに重要なのは、画像空間内の年齢関連脳領域の識別を可能にすることだ。 コードはgithubで入手できる(https://github.com/ ruizhe-l/tgb-gan)。

Brain age estimation based on magnetic resonance imaging (MRI) is an active research area in early diagnosis of some neurodegenerative diseases (e.g. Alzheimer, Parkinson, Huntington, etc.) for elderly people or brain underdevelopment for the young group. Deep learning methods have achieved the state-of-the-art performance in many medical image analysis tasks, including brain age estimation. However, the performance and generalisability of the deep learning model are highly dependent on the quantity and quality of the training data set. Both collecting and annotating brain MRI data are extremely time-consuming. In this paper, to overcome the data scarcity problem, we propose a generative adversarial network (GAN) based image synthesis method. Different from the existing GAN-based methods, we integrate a task-guided branch (a regression model for age estimation) to the end of the generator in GAN. By adding a task-guided loss to the conventional GAN loss, the learned low-dimensional latent space and the synthesised images are more task-specific. It helps to boost the performance of the down-stream task by combining the synthesised images and real images for model training. The proposed method was evaluated on a public brain MRI data set for age estimation. Our proposed method outperformed (statistically significant) a deep convolutional neural network based regression model and the GAN-based image synthesis method without the task-guided branch. More importantly, it enables the identification of age-related brain regions in the image space. The code is available on GitHub (https://github.com/ ruizhe-l/tgb-gan).
公開日:2021-08-03
翻訳日:2021-08-04 13:52:31
# 認知を真剣に考える:認知の一般物理学

Taking Cognition Seriously: A generalised physics of cognition ( http://arxiv.org/abs/2108.01229v1 )

ライセンス: Link先を確認
Sophie Alyx Taylor, Son Cao Tran, and Dan V. Nicolau Jr(参考訳) 圏論のレンズによる複素系の研究は、一貫して強力なアプローチであることが証明されている。 認知は同一のカテゴリー論的治療にふさわしいと提案する。 高い計算能力を有する認知システムを考えることで,実用上の問題を生じさせる基本的な物理的トレードオフが存在することを示す。 次に,これを体系的に行う方法について検討し,概念空間上のゲージ場における位相的欠陥の現象を調べる前に,「認知圏」に対するいくつかの要件を提案する。

The study of complex systems through the lens of category theory consistently proves to be a powerful approach. We propose that cognition deserves the same category-theoretic treatment. We show that by considering a highly-compact cognitive system, there are fundamental physical trade-offs resulting in a utility problem. We then examine how to do this systematically, and propose some requirements for "cognitive categories", before investigating the phenomenona of topological defects in gauge fields over conceptual spaces.
公開日:2021-08-03
翻訳日:2021-08-04 13:52:10
# 脳信号による人間の読み理解

Understanding Human Reading Comprehension with brain signals ( http://arxiv.org/abs/2108.01360v1 )

ライセンス: Link先を確認
Ziyi Ye, Xiaohui Xie, Yiqun Liu, Zhihong Wang, Xuesong Chen, Min Zhang, Shaoping Ma(参考訳) 読解は、多くの人間の脳活動を伴う複雑な認知過程である。 多くの研究が読解過程における読解パターンと注意割当機構を研究している。 しかし、人間の脳が理解している時に何が起こるかは分かっておらず、情報取得性能を高めるために、この情報を暗黙のフィードバックとして活用する方法も分かっていない。 脳波などの脳イメージング技術の進歩により、ほぼリアルタイムで高精度な脳信号を収集することができる。 神経イメージング技術を用いて,脳活動の理解度を調査するための実験室ベースのユーザスタディを慎重に設計する。 本研究は,ユーザの情報ニーズを満足できる内容や,不可能な内容など,さまざまなタイプのコンテンツによって神経応答が変化することを示す。 本研究は, 認知的負荷, 意味論的理解, 推論処理などの認知活動が, 読解時のマイクロスケールにおいて, 神経反応の基盤となることを示唆する。 認知活動におけるこれらの検出可能な違いに着想を得て,脳波の特徴に基づく教師あり学習モデルを構築した。 その結果,脳信号による性能向上が期待できることがわかった。 これらの結果から,脳信号は読解時の人間とコンピュータの相互作用を高める上で有用なフィードバックであることが示唆された。

Reading comprehension is a complex cognitive process involving many human brain activities. Plenty of works have studied the reading patterns and attention allocation mechanisms in the reading process. However, little is known about what happens in human brain during reading comprehension and how we can utilize this information as implicit feedback to facilitate information acquisition performance. With the advances in brain imaging techniques such as EEG, it is possible to collect high-precision brain signals in almost real time. With neuroimaging techniques, we carefully design a lab-based user study to investigate brain activities during reading comprehension. Our findings show that neural responses vary with different types of contents, i.e., contents that can satisfy users' information needs and contents that cannot. We suggest that various cognitive activities, e.g., cognitive loading, semantic-thematic understanding, and inferential processing, at the micro-time scale during reading comprehension underpin these neural responses. Inspired by these detectable differences in cognitive activities, we construct supervised learning models based on EEG features for two reading comprehension tasks: answer sentence classification and answer extraction. Results show that it is feasible to improve their performance with brain signals. These findings imply that brain signals are valuable feedback for enhancing human-computer interactions during reading comprehension.
公開日:2021-08-03
翻訳日:2021-08-04 13:52:02
# プラズモン誘起透過における非線形波動の学習

Learning Nonlinear Waves in Plasmon-induced Transparency ( http://arxiv.org/abs/2108.01508v1 )

ライセンス: Link先を確認
Jiaxi Cheng(参考訳) プラズモン誘起透過(pit)は、非線形波などの領域で重要な現象を見つける複雑な非線形ダイナミクスを示す。 しかし、そのような非線形解はシュリンガー方程式のパラメータと異なるポテンシャルの選択に敏感に依存する。 この複雑さにもかかわらず、機械学習コミュニティは回帰による複雑なデータセットの予測において顕著な効率性を開発した。 本稿では, プラズモン誘起透過性メタマテリアルシステムにおける非線形ソリトンの複雑な伝播を予測するために, 誘導モデルの解析的, 数値的アプローチを必要とせず, 応用ポテンシャルを持つrecurrent neural network (rnn) 手法を検討する。 本手法は,与えられた初期条件とポテンシャルのみから非線形ソリトンの伝播予測に成功していることを示す。 長い短期記憶(LSTM)人工ニューラルネットワークによるシミュレーションと予測の結果の顕著な一致を実証する。 この研究で提示されたフレームワークは、シュル=オディンガー型方程式、例えばコールド原子系や非線形ファイバー光学における非線形ダイナミクスを用いた量子システムや非線形波におけるrnnの応用に対する新たな展望を開く。

Plasmon-induced transparency (PIT) displays complex nonlinear dynamics that find critical phenomena in areas such as nonlinear waves. However, such a nonlinear solution depends sensitively on the selection of parameters and different potentials in the Schr\"odinger equation. Despite this complexity, the machine learning community has developed remarkable efficiencies in predicting complicated datasets by regression. Here, we consider a recurrent neural network (RNN) approach to predict the complex propagation of nonlinear solitons in plasmon-induced transparency metamaterial systems with applied potentials bypassing the need for analytical and numerical approaches of a guiding model. We demonstrate the success of this scheme on the prediction of the propagation of the nonlinear solitons solely from a given initial condition and potential. We prove the prominent agreement of results in simulation and prediction by long short-term memory (LSTM) artificial neural networks. The framework presented in this work opens up a new perspective for the application of RNN in quantum systems and nonlinear waves using Schr\"odinger-type equations, for example, the nonlinear dynamics in cold-atom systems and nonlinear fiber optics.
公開日:2021-07-31
翻訳日:2021-08-04 13:51:43
# エスタギオスにおけるアグリパメントの諸相

Metodos de Agrupamentos em dois Estagios ( http://arxiv.org/abs/2108.01123v1 )

ライセンス: Link先を確認
Jefferson Souza, Teresa Ludermir(参考訳) 本研究では,二段階クラスタリング手法について検討する。 SOMK、SOMAK、ASCAK、SoINAKの4つの技術が提案された。 SOMKはSOM(Self-Organizing Maps)とK-meansアルゴリズム、SOMAKはSOM、Ant K-means(AK)アルゴリズム、ASCAKはASCA(Ant System-based Clustering Algorithm)、AKアルゴリズム、SOINAKはSOINN(Self-Organizin g Incremental Neural Network)で構成されている。 SOINAKはパターン認識問題に適用した場合に提案した4つの手法の中で優れた性能を示した。

This work investigates the use of two-stage clustering methods. Four techniques were proposed: SOMK, SOMAK, ASCAK and SOINAK. SOMK is composed of a SOM (Self-Organizing Maps) followed by the K-means algorithm, SOMAK is a combination of SOM followed by the Ant K-means (AK) algorithm, ASCAK is composed by the ASCA (Ant System-based Clustering Algorithm) and AK algorithms, SOINAK is composed by the Self-Organizing Incremental Neural Network (SOINN) and AK. SOINAK presented a better performance among the four proposed techniques when applied to pattern recognition problems.
公開日:2021-08-02
翻訳日:2021-08-04 13:51:25
# ニューラルネットワークトランスフォーマによる神経集団活動の表現学習

Representation learning for neural population activity with Neural Data Transformers ( http://arxiv.org/abs/2108.01210v1 )

ライセンス: Link先を確認
Joel Ye, Chethan Pandarinath(参考訳) 神経集団活動は、基礎となる動的構造を反映するように理論化されている。 この構造は、リカレントニューラルネットワーク(RNN)に基づくような明示的なダイナミックスを持つ状態空間モデルを使用して正確にキャプチャすることができる。 しかし、ダイナミックスを明示的にモデル化するために繰り返しを使用するには、データのシーケンシャルな処理が必要である。 ここでは、非リカレントな代替手段であるNeural Data Transformer (NDT)を紹介する。 rnnsによくモデル化された到達タスク中に、既知のダイナミクスとサル運動野からのデータを持つ合成データセットに適用することにより、ndtの自律力学系をキャプチャする能力をテストする。 NDTはこれらのデータセットと最先端のリカレントモデルをモデル化する。 さらに、その非再帰は3.9msの推論を可能にし、リアルタイムアプリケーションのループ時間の範囲内で、サル到達データセットのリカレントベースラインよりも6倍以上高速である。 これらの結果は、自律神経集団力学をモデル化するために明示的な力学モデルは必要ないことを示唆している。 コード: https://github.com/s nel-repo/neural-data -transformers

Neural population activity is theorized to reflect an underlying dynamical structure. This structure can be accurately captured using state space models with explicit dynamics, such as those based on recurrent neural networks (RNNs). However, using recurrence to explicitly model dynamics necessitates sequential processing of data, slowing real-time applications such as brain-computer interfaces. Here we introduce the Neural Data Transformer (NDT), a non-recurrent alternative. We test the NDT's ability to capture autonomous dynamical systems by applying it to synthetic datasets with known dynamics and data from monkey motor cortex during a reaching task well-modeled by RNNs. The NDT models these datasets as well as state-of-the-art recurrent models. Further, its non-recurrence enables 3.9ms inference, well within the loop time of real-time applications and more than 6 times faster than recurrent baselines on the monkey reaching dataset. These results suggest that an explicit dynamics model is not necessary to model autonomous neural population dynamics. Code: https://github.com/s nel-repo/neural-data -transformers
公開日:2021-08-02
翻訳日:2021-08-04 13:51:09
# memorize, factorize, be na\"ive: ctr予測のための最適特徴間相互作用法

Memorize, Factorize, or be Na\"ive: Learning Optimal Feature Interaction Methods for CTR Prediction ( http://arxiv.org/abs/2108.01265v1 )

ライセンス: Link先を確認
Fuyuan Lyu, Xing Tang, Huifeng Guo, Ruiming Tang, Xiuqiang He, Rui Zhang, Xue Liu(参考訳) クリックスルー率予測は、商用レコメンデータシステムにおける中核的なタスクの1つである。 ユーザが特定の項目をクリックした確率と,その項目の特徴を予測することを目的としている。 特徴相互作用は非線形性をもたらすため、CTR予測モデルの性能向上のために広く採用されている。 したがって、機能相互作用を効果的にモデル化することは、研究と産業の両方において大きな注目を集めている。 現在の手法は,(1)特徴の相互作用をモデル化せず,原特徴のみを使用せず,(2)特徴の相互作用を明示的に認識し,トレーニング可能な埋め込みを割り当てることで特徴の相互作用を記憶する記憶的手法,(3)原特徴の潜伏ベクトルを学習し,因子化関数を通じて暗黙的に特徴の相互作用をモデル化する分解的手法,の3つのクラスに分類される。 研究により、これらの方法の1つだけで特徴的相互作用のモデリングは、異なる特徴的相互作用の独特な特徴のために準最適であることが示されている。 この問題に対処するため,まずOptInterというフレームワークを提案し,各機能間相互作用に最適なモデリング手法を提案する。 最先端の深部CTRモデルはOptInterのインスタンスと見なすことができる。 また,OptInterの機能を実現するために,最適なモデリング手法を自動検索する学習アルゴリズムを導入する。 4つの大きなデータセットについて広範な実験を行う。 実験の結果,OptInterは最先端のベースライン深部CTRモデルを最大2.21%改善することがわかった。 また,ベースラインよりも優れた暗記法と比較して,最大91%のパラメータを削減した。 また,オプトインターの異なる成分の影響を調べるため,いくつかのアブレーション研究を行った。 最後に optinter の結果について解釈可能な議論を行う。

Click-through rate prediction is one of the core tasks in commercial recommender systems. It aims to predict the probability of a user clicking a particular item given user and item features. As feature interactions bring in non-linearity, they are widely adopted to improve the performance of CTR prediction models. Therefore, effectively modelling feature interactions has attracted much attention in both the research and industry field. The current approaches can generally be categorized into three classes: (1) na\"ive methods, which do not model feature interactions and only use original features; (2) memorized methods, which memorize feature interactions by explicitly viewing them as new features and assigning trainable embeddings; (3) factorized methods, which learn latent vectors for original features and implicitly model feature interactions through factorization functions. Studies have shown that modelling feature interactions by one of these methods alone are suboptimal due to the unique characteristics of different feature interactions. To address this issue, we first propose a general framework called OptInter which finds the most suitable modelling method for each feature interaction. Different state-of-the-art deep CTR models can be viewed as instances of OptInter. To realize the functionality of OptInter, we also introduce a learning algorithm that automatically searches for the optimal modelling method. We conduct extensive experiments on four large datasets. Our experiments show that OptInter improves the best performed state-of-the-art baseline deep CTR models by up to 2.21%. Compared to the memorized method, which also outperforms baselines, we reduce up to 91% parameters. In addition, we conduct several ablation studies to investigate the influence of different components of OptInter. Finally, we provide interpretable discussions on the results of OptInter.
公開日:2021-08-03
翻訳日:2021-08-04 13:50:50
# Fashion Recommendationの解決 - the Farfetch Challenge

Solving Fashion Recommendation -- The Farfetch Challenge ( http://arxiv.org/abs/2108.01314v1 )

ライセンス: Link先を確認
Manish Pathak, Aditya Jain(参考訳) 推奨エンジンは、売り手とエンドユーザーの両方にとって、現代のeコマース体験に不可欠なものだ。 正確な推奨は収益の向上とユーザエクスペリエンスの向上につながる。 本稿では,ecml pkdd farfetch ファッションレコメンデーションチャレンジの解決策を提示する。この課題の目的は,ユーザがファッションアイテムのセットを提示した場合にクリックする確率を最大化することである。 我々は二項分類問題としてこの問題にアプローチした。 我々の勝利解は、超パラメータチューニングのための分類器としてCatboostとベイズ最適化を利用する。 我々のベースラインモデルは検証セットで0.5153のMRRを達成した。 ハイパーパラメータのベイズ最適化は、検証セットのmrrを0.5240に改善した。 テストセットの最終提案は 0.5257 の mrr を達成した。

Recommendation engines are integral to the modern e-commerce experience, both for the seller and the end user. Accurate recommendations lead to higher revenue and better user experience. In this paper, we are presenting our solution to ECML PKDD Farfetch Fashion Recommendation Challenge.The goal of this challenge is to maximize the chances of a click when the users are presented with set of fashion items. We have approached this problem as a binary classification problem. Our winning solution utilizes Catboost as the classifier and Bayesian Optimization for hyper parameter tuning. Our baseline model achieved MRR of 0.5153 on the validation set. Bayesian optimization of hyper parameters improved the MRR to 0.5240 on the validation set. Our final submission on the test set achieved a MRR of 0.5257.
公開日:2021-08-03
翻訳日:2021-08-04 13:50:22
# 入射チャネル推定を用いたFDD質量MIMOのスケーラブルビームフォーミングのためのニューラルキャリブレーション

Neural Calibration for Scalable Beamforming in FDD Massive MIMO with Implicit Channel Estimation ( http://arxiv.org/abs/2108.01529v1 )

ライセンス: Link先を確認
Yifan Ma, Yifei Shen, Xianghao Yu, Jun Zhang, S.H. Song, Khaled B. Letaief(参考訳) 周波数分割多重化 (fdd) 多重入力多重出力 (mimo) システムではチャネル推定とビームフォーミングが重要な役割を果たす。 しかし、これら2つのモジュールは2つのスタンドアロンコンポーネントとして扱われており、グローバルシステムの最適性を達成するのが困難である。 本稿では,基地局のビームフォーマーを,受信したアップリンクパイロットに従って直接最適化し,明示的なチャネル推定をバイパスする深層学習に基づく手法を提案する。 すべてのモジュールをディープニューラルネットワーク(DNN)に置き換える、既存の完全なデータ駆動アプローチとは異なり、エンドツーエンドの設計のスケーラビリティを向上させるために、ニューラルキャリブレーション法が提案されている。 特に、従来の時間効率アルゴリズム、すなわち最小二乗(LS)チャネル推定器とゼロ強制(ZF)ビームフォーマのバックボーンを保存し、DNNを用いて入力をキャリブレーションして性能を向上させる。 次に、定式化資源割り当て問題の置換同値性を特定し、低複雑さニューラルネットワークアーキテクチャを設計する。 シミュレーションの結果,大規模無線ネットワークにおけるスペクトル効率とスケーラビリティの両面から,提案手法がベンチマーク方式よりも優れていることを示す。

Channel estimation and beamforming play critical roles in frequency-division duplexing (FDD) massive multiple-input multiple-output (MIMO) systems. However, these two modules have been treated as two stand-alone components, which makes it difficult to achieve a global system optimality. In this paper, we propose a deep learning-based approach that directly optimizes the beamformers at the base station according to the received uplink pilots, thereby, bypassing the explicit channel estimation. Different from the existing fully data-driven approach where all the modules are replaced by deep neural networks (DNNs), a neural calibration method is proposed to improve the scalability of the end-to-end design. In particular, the backbone of conventional time-efficient algorithms, i.e., the least-squares (LS) channel estimator and the zero-forcing (ZF) beamformer, is preserved and DNNs are leveraged to calibrate their inputs for better performance. The permutation equivariance property of the formulated resource allocation problem is then identified to design a low-complexity neural network architecture. Simulation results will show the superiority of the proposed neural calibration method over benchmark schemes in terms of both the spectral efficiency and scalability in large-scale wireless networks.
公開日:2021-08-03
翻訳日:2021-08-04 13:50:09
# 線形畳み込みネットワークの幾何学

Geometry of Linear Convolutional Networks ( http://arxiv.org/abs/2108.01538v1 )

ライセンス: Link先を確認
Kathl\'en Kohn, Thomas Merkh, Guido Mont\'ufar, Matthew Trager(参考訳) 本稿では,線形畳み込みニューラルネットワーク(LCN)で表される関数群について検討する。 これらの函数は、入力空間から出力空間への線型写像の集合の半代数部分集合を形成する。 対照的に、完全連結線型ネットワークで表される函数の族は代数集合を形成する。 LCNで表される関数は、ある分解を許容する多項式と同一視できることを観察し、この視点を用いて、ネットワークのアーキテクチャが結果の関数空間の幾何学に与える影響を記述する。 さらに, lcn上の対象関数の最適化, 関数空間およびパラメータ空間における臨界点の解析, 勾配降下に対する動的不変量の記述について検討した。 全体として、LCNの最適化されたパラメータは、しばしば層をまたいだ繰り返しフィルタや、繰り返しフィルタとして分解できるフィルタに対応すると予測する。 また,この結果を示す数値的および記号的実験を行い,小建築の景観を詳細に分析した。

We study the family of functions that are represented by a linear convolutional neural network (LCN). These functions form a semi-algebraic subset of the set of linear maps from input space to output space. In contrast, the families of functions represented by fully-connected linear networks form algebraic sets. We observe that the functions represented by LCNs can be identified with polynomials that admit certain factorizations, and we use this perspective to describe the impact of the network's architecture on the geometry of the resulting function space. We further study the optimization of an objective function over an LCN, analyzing critical points in function space and in parameter space, and describing dynamical invariants for gradient descent. Overall, our theory predicts that the optimized parameters of an LCN will often correspond to repeated filters across layers, or filters that can be decomposed as repeated filters. We also conduct numerical and symbolic experiments that illustrate our results and present an in-depth analysis of the landscape for small architectures.
公開日:2021-08-03
翻訳日:2021-08-04 13:49:48
# 最適スライス配置のための深部強化学習

Controlled Deep Reinforcement Learning for Optimized Slice Placement ( http://arxiv.org/abs/2108.01544v1 )

ライセンス: Link先を確認
Jose Jurandir Alves Esteves, Amina Boubendir, Fabrice Guillemin, Pierre Sens(参考訳) 本稿では,ネットワークスライス配置最適化の課題を解決するために,階層型深層強化学習(HA-DRL)と呼ぶハイブリッドMLヒューリスティックアプローチを提案する。 提案手法は,スライス配置と仮想ネットワーク埋め込み(vne)のための最近の深層強化学習(drl)の成果を活用し,効率的なヒューリスティックアルゴリズムが示す信頼性の高い動作に優先順位を与えることで,行動空間の探索を最適化するヒューリスティック関数を用いる。 評価結果から, HA-DRLアルゴリズムは, 強化学習のみに基づく最先端手法と比較して, スライス受入率を向上させる効率的なスライス配置ポリシーの学習を促進できることが示唆された。

We present a hybrid ML-heuristic approach that we name "Heuristically Assisted Deep Reinforcement Learning (HA-DRL)" to solve the problem of Network Slice Placement Optimization. The proposed approach leverages recent works on Deep Reinforcement Learning (DRL) for slice placement and Virtual Network Embedding (VNE) and uses a heuristic function to optimize the exploration of the action space by giving priority to reliable actions indicated by an efficient heuristic algorithm. The evaluation results show that the proposed HA-DRL algorithm can accelerate the learning of an efficient slice placement policy improving slice acceptance ratio when compared with state-of-the-art approaches that are based only on reinforcement learning.
公開日:2021-08-03
翻訳日:2021-08-04 13:49:32
# ユニバーサル学習による記憶のあるターゲットチャネルにおけるレーダ追跡のための波形選択

Waveform Selection for Radar Tracking in Target Channels With Memory via Universal Learning ( http://arxiv.org/abs/2108.01181v1 )

ライセンス: Link先を確認
Charles E. Thornton, R. Michael Buehrer, Anthony F. Martone(参考訳) 追跡レーダでは、ターゲットの軌跡と動的干渉により、センシング環境はしばしばトラック持続時間を大きく変化させる。 シーンの状態に関する部分的な情報を用いてレーダの波形を適応させることは、多くの実用的なシナリオにおいてパフォーマンスの利点をもたらすことが示されている。 さらに、レーダー測定は時間相関が強く、メモリベースの学習アルゴリズムは波形選択戦略を効果的に学習することができる。 本研究では,レーダー環境インタフェースの圧縮モデルをコンテキストツリーとして構築するレーダシステムについて検討する。 radarは、このコンテキストツリーベースのモデルを使用して、信号に依存したターゲットチャネル内の波形を選択する。 このアプローチは、レーダーに定数 U が未知の順序 U < $\infty$ のマルコフ過程として表現できる任意の定常目標チャネルに対する平均コスト最適ポリシーに漸近的に収束することが保証されている。 提案手法はシミュレーション実験で検証され、2つの最先端波形選択方式による追跡性能の向上が示されている。

In tracking radar, the sensing environment often varies significantly over a track duration due to the target's trajectory and dynamic interference. Adapting the radar's waveform using partial information about the state of the scene has been shown to provide performance benefits in many practical scenarios. Moreover, radar measurements generally exhibit strong temporal correlation, allowing memory-based learning algorithms to effectively learn waveform selection strategies. This work examines a radar system which builds a compressed model of the radar-environment interface in the form of a context-tree. The radar uses this context tree-based model to select waveforms in a signal-dependent target channel, which may respond adversarially to the radar's strategy. This approach is guaranteed to asymptotically converge to the average-cost optimal policy for any stationary target channel that can be represented as a Markov process of order U < $\infty$, where the constant U is unknown to the radar. The proposed approach is tested in a simulation study, and is shown to provide tracking performance improvements over two state-of-the-art waveform selection schemes.
公開日:2021-08-02
翻訳日:2021-08-04 13:49:19
# 信号時間論理仕様のためのネットワーク遅延を用いた深層強化学習に基づくネットワーク制御

Deep Reinforcement Learning Based Networked Control with Network Delays for Signal Temporal Logic Specifications ( http://arxiv.org/abs/2108.01317v1 )

ライセンス: Link先を確認
Junya Ikemoto and Toshimitsu Ushio(参考訳) 本稿では,信号時相論理(stl)仕様のためのネットワーク遅延を考慮したネットワーク制御系の設計について述べる。 システムダイナミクスとネットワーク遅延の両方が未知である場合を考える。 stlの公式の満足度は現在の状態だけでなくシステムの挙動にも基づいているため、マルコフ決定過程(英語版)(mdp)の拡張を提案し、これは$\tau\delta$-mdpと呼ばれ、$\tau\delta$-mdpを用いてネットワーク遅延下でstlの公式の満足度を評価することができる。 その後,$\tau\delta$-MDPに基づくディープニューラルネットワークを構築し,学習アルゴリズムを提案する。 また,シミュレーションにより,提案アルゴリズムの学習性能を実証する。

We present a novel deep reinforcement learning (DRL)-based design of a networked controller with network delays for signal temporal logic (STL) specifications. We consider the case in which both the system dynamics and network delays are unknown. Because the satisfaction of an STL formula is based not only on the current state but also on the behavior of the system, we propose an extension of the Markov decision process (MDP), which is called a $\tau\delta$-MDP, such that we can evaluate the satisfaction of the STL formula under the network delays using the $\tau\delta$-MDP. Thereafter, we construct deep neural networks based on the $\tau\delta$-MDP and propose a learning algorithm. Through simulations, we also demonstrate the learning performance of the proposed algorithm.
公開日:2021-08-03
翻訳日:2021-08-04 13:48:59
# ランダム射影ニューラルネットワークを用いた剛常微分方程式の数値解法

Numerical Solution of Stiff Ordinary Differential Equations with Random Projection Neural Networks ( http://arxiv.org/abs/2108.01584v1 )

ライセンス: Link先を確認
Evangelos Galaris, Francesco Calabr\`o, Daniela di Serafino, Constantinos Siettos(参考訳) 本稿では,ランダム射影ニューラルネットワーク(rpnn)に基づく数値スキームを提案し,厳密な問題に着目した常微分方程式(odes)の解法を提案する。 特に,単一隠れ層フィードフォワードニューラルネットワークであるExtreme Learning Machineを用いて,幅が一様分布の確率変数であり,入力と隠蔽層の間の重みの値が1に等しいように設定した。 数値解は、ガウス・ニュートン法を用いて出力重みに関して解く非線形代数方程式の系を構築することにより得られる。 For our illustrations, we apply the proposed machine learning approach to solve two benchmark stiff problems, namely the Rober and the van der Pol ones (the latter with large values of the stiffness parameter), and we perform a comparison with well-established methods such as the adaptive Runge-Kutta method based on the Dormand-Prince pair, and a variable-step variable-order multistep solver based on numerical differentiation formulas, as implemented in the \texttt{ode45} and \texttt{ode15s} MATLAB functions, respectively. 提案手法は剛性に影響されずに良好な数値近似精度が得られることを示し,同様に \texttt{ode45} と \texttt{ode15s} 関数を上回った。 重要なことに、固定数のコロケーションポイントを用いたトレーニングでは、古典的時間積分法とは対照的に、提案手法は領域全体の解を近似する。

We propose a numerical scheme based on Random Projection Neural Networks (RPNN) for the solution of Ordinary Differential Equations (ODEs) with a focus on stiff problems. In particular, we use an Extreme Learning Machine, a single-hidden layer Feedforward Neural Network with Radial Basis Functions which widths are uniformly distributed random variables, while the values of the weights between the input and the hidden layer are set equal to one. The numerical solution is obtained by constructing a system of nonlinear algebraic equations, which is solved with respect to the output weights using the Gauss-Newton method. For our illustrations, we apply the proposed machine learning approach to solve two benchmark stiff problems, namely the Rober and the van der Pol ones (the latter with large values of the stiffness parameter), and we perform a comparison with well-established methods such as the adaptive Runge-Kutta method based on the Dormand-Prince pair, and a variable-step variable-order multistep solver based on numerical differentiation formulas, as implemented in the \texttt{ode45} and \texttt{ode15s} MATLAB functions, respectively. We show that our proposed scheme yields good numerical approximation accuracy without being affected by the stiffness, thus outperforming in same cases the \texttt{ode45} and \texttt{ode15s} functions. Importantly, upon training using a fixed number of collocation points, the proposed scheme approximates the solution in the whole domain in contrast to the classical time integration methods.
公開日:2021-08-03
翻訳日:2021-08-04 13:48:45
# 深層学習法による楕円二元星の自動分類

Automatic classification of eclipsing binary stars using deep learning methods ( http://arxiv.org/abs/2108.01640v1 )

ライセンス: Link先を確認
Michal \v{C}okina, Viera Maslej-Kre\v{s}\v{n}\'akov\'a, Peter Butka, \v{S}tefan Parimucha(参考訳) 過去数十年の間に、ロボット望遠鏡の開発において大きな進歩が達成され、結果として、地上と宇宙の両方のスカイサーベイが、膨大な量の新しい観測データの源となっている。 これらのデータは、光度曲線に隠された連星に関する多くの情報を含んでいる。 膨大な量の天文データが集められているため、すべてのデータが手作業で処理され分析されることを期待するのは合理的ではない。 そこで本研究では,深層学習手法を用いて,黄道2重星の自動分類に注目する。 我々の分類器は二元星の光曲線を2つのクラスに分類するためのツールを提供する。 ELISaソフトウェアを用いて合成データを取得し,それを分類器の訓練に利用した。 評価のために、観測された連星の100光度曲線を収集し、複数の分類器を評価した。 半分解した2重星を分離した。 最高の性能の分類器は、双方向長短期記憶(LSTM)と1次元畳み込みニューラルネットワークを組み合わせて、評価セットで98%の精度を達成した。 半脱離した二元星を省略すると、100%の精度で分類できる。

In the last couple of decades, tremendous progress has been achieved in developing robotic telescopes and, as a result, sky surveys (both terrestrial and space) have become the source of a substantial amount of new observational data. These data contain a lot of information about binary stars, hidden in their light curves. With the huge amount of astronomical data gathered, it is not reasonable to expect all the data to be manually processed and analyzed. Therefore, in this paper, we focus on the automatic classification of eclipsing binary stars using deep learning methods. Our classifier provides a tool for the categorization of light curves of binary stars into two classes: detached and over-contact. We used the ELISa software to obtain synthetic data, which we then used for the training of the classifier. For evaluation purposes, we collected 100 light curves of observed binary stars, in order to evaluate a number of classifiers. We evaluated semi-detached eclipsing binary stars as detached. The best-performing classifier combines bidirectional Long Short-Term Memory (LSTM) and a one-dimensional convolutional neural network, which achieved 98% accuracy on the evaluation set. Omitting semi-detached eclipsing binary stars, we could obtain 100% accuracy in classification.
公開日:2021-08-03
翻訳日:2021-08-04 13:48:24
# (参考訳) 深部生成予備因子を用いたロバスト圧縮MRI

Robust Compressed Sensing MRI with Deep Generative Priors ( http://arxiv.org/abs/2108.01368v1 )

ライセンス: CC BY 4.0
Ajil Jalal and Marius Arvinte and Giannis Daras and Eric Price and Alexandros G. Dimakis and Jonathan I. Tamir(参考訳) CSGMフレームワーク(Bora-Jalal-Price-Di makis'17)は,逆問題解決のための強力なツールであることを示す。 しかしながら、これまでこのフレームワークは、特定のデータセット(例えば、人間の顔やmnist桁)でのみ実証的に成功しており、分散サンプルでは性能が低下していることが知られている。 本稿では,臨床mriデータに対するcsgmフレームワークの初めて成功した応用について述べる。 我々は、高速MRIデータセットから脳スキャンに先立って生成をトレーニングし、Langevin dynamicsによる後部サンプリングが高品質な再構成を実現することを示す。 さらに, 実験と理論により, 後方サンプリングは地中分布および測定過程の変化に頑健であることが示された。 私たちのコードとモデルは、 \url{https://github.com/u tcsilab/csgm-mri-lan gevin} で利用可能です。

The CSGM framework (Bora-Jalal-Price-Di makis'17) has shown that deep generative priors can be powerful tools for solving inverse problems. However, to date this framework has been empirically successful only on certain datasets (for example, human faces and MNIST digits), and it is known to perform poorly on out-of-distribution samples. In this paper, we present the first successful application of the CSGM framework on clinical MRI data. We train a generative prior on brain scans from the fastMRI dataset, and show that posterior sampling via Langevin dynamics achieves high quality reconstructions. Furthermore, our experiments and theory show that posterior sampling is robust to changes in the ground-truth distribution and measurement process. Our code and models are available at: \url{https://github.com/u tcsilab/csgm-mri-lan gevin}.
公開日:2021-08-03
翻訳日:2021-08-04 13:47:52
# (参考訳) 説明可能なAIのための知識集約型言語理解

Knowledge-intensive Language Understanding for Explainable AI ( http://arxiv.org/abs/2108.01174v1 )

ライセンス: CC BY 4.0
Amit Sheth, Manas Gaur, Kaushik Roy, Keyur Faldu(参考訳) aiシステムは様々な領域で広く採用されている。 同時に、一部のドメインでのさらなる採用は、AIシステムが人間に害を与えないように完全に信頼できないために妨げられている。 公平性、プライバシ、透明性、説明可能性に関する懸念に加えて、AIシステムにおける信頼を開発する上でも重要だ。 信頼できるAIについて述べたように、トラストは理解によって生まれる。 AI主導の意思決定の仕方と、どの決定要因が含まれているかを理解することが不可欠である。 AIシステムを説明するサブ領域はXAIとして知られるようになった。 AIシステムの複数の側面の説明には、データの持つ可能性のあるバイアス、サンプルスペースの特定の領域におけるデータポイントの欠如、データ収集の公正性、機能の重要性などが含まれる。 しかし、これらに加えて、ドメインの専門家が「ドメイン知識」に基づいて意思決定を行う方法と同様に、意思決定に直接関係する人間中心の説明を持つことが重要である。 aiシステムの信頼性向上につながるaiシステムの成果(分類、推奨、予測など)を理解し検証するには、人間が理解し、使用する明示的なドメイン知識が必要となる。

AI systems have seen significant adoption in various domains. At the same time, further adoption in some domains is hindered by inability to fully trust an AI system that it will not harm a human. Besides the concerns for fairness, privacy, transparency, and explainability are key to developing trusts in AI systems. As stated in describing trustworthy AI "Trust comes through understanding. How AI-led decisions are made and what determining factors were included are crucial to understand." The subarea of explaining AI systems has come to be known as XAI. Multiple aspects of an AI system can be explained; these include biases that the data might have, lack of data points in a particular region of the example space, fairness of gathering the data, feature importances, etc. However, besides these, it is critical to have human-centered explanations that are directly related to decision-making similar to how a domain expert makes decisions based on "domain knowledge," that also include well-established, peer-validated explicit guidelines. To understand and validate an AI system's outcomes (such as classification, recommendations, predictions), that lead to developing trust in the AI system, it is necessary to involve explicit domain knowledge that humans understand and use.
公開日:2021-08-02
翻訳日:2021-08-04 13:47:38
# (参考訳) 麻痺性イレウス患者の死亡予測のためのプロセスマイニングモデル

Process Mining Model to Predict Mortality in Paralytic Ileus Patients ( http://arxiv.org/abs/2108.01267v1 )

ライセンス: CC BY 4.0
Maryam Pishgar, Martha Razo, Julian Theis, and Houshang Darabi(参考訳) 麻痺性イレウス (PI) 患者は集中治療室 (ICU) に入院すると死亡リスクが高く, 死亡率は40%である。 PI患者の死亡予測に関する最小限の研究がある。 piと診断されたicu患者のより正確な予測モデルが必要である。 当科では入院24時間後のICU患者の死亡率予測におけるパフォーマンス改善について検討した。 PMPI(Process Mining Model, Process Mining Model to predict death of PI patients)は,糖尿病ICU患者の院内死亡の予測に用いる作業の修正である。 PMPIは、既存の文献の最良の結果と比較すると、ROC曲線(AUC)スコアが0.82であるエリアと類似している。 PMPIは、患者の医療履歴、イベントに関連する時間、および予測のための人口統計情報を使用する。 PMPI予測フレームワークは、医療チームがPIのICU患者に対する治療とケアのより良い決定をし、寿命を延ばすのに役立つ可能性がある。

Paralytic Ileus (PI) patients are at high risk of death when admitted to the Intensive care unit (ICU), with mortality as high as 40\%. There is minimal research concerning PI patient mortality prediction. There is a need for more accurate prediction modeling for ICU patients diagnosed with PI. This paper demonstrates performance improvements in predicting the mortality of ICU patients diagnosed with PI after 24 hours of being admitted. The proposed framework, PMPI(Process Mining Model to predict mortality of PI patients), is a modification of the work used for prediction of in-hospital mortality for ICU patients with diabetes. PMPI demonstrates similar if not better performance with an Area under the ROC Curve (AUC) score of 0.82 compared to the best results of the existing literature. PMPI uses patient medical history, the time related to the events, and demographic information for prediction. The PMPI prediction framework has the potential to help medical teams in making better decisions for treatment and care for ICU patients with PI to increase their life expectancy.
公開日:2021-08-03
翻訳日:2021-08-04 13:47:20
# (参考訳) 反事実的説明によるループ型強化学習の収束の促進

Accelerating the Convergence of Human-in-the-Loop Reinforcement Learning with Counterfactual Explanations ( http://arxiv.org/abs/2108.01358v1 )

ライセンス: CC BY 4.0
Jakob Karalus, Felix Lindner(参考訳) 人間のフィードバックから対話的に学習する能力は、新しい社会的設定でロボットを可能にする。 例えば、初心者のユーザーは、新しいタスクでサービスロボットを自然とインタラクティブに訓練することができる。 Human-in-the-loop Reinforcement Learning (HRL)は、人間のフィードバックと強化学習(RL)技術を組み合わせてこの問題に対処する。 最先端のインタラクティブな学習技術は、収束が遅いため、人間にとってイライラする経験が生まれる。 この研究は、既存のTAMERフレームワークを拡張して、2つの異なる種類の反現実的説明で人間からのフィードバックを強化することでこの問題に対処する。 我々は、特にトレーニングの重要な初期段階において、収束を改善するための拡張の成功を実証する。

The capability to interactively learn from human feedback would enable robots in new social settings. For example, novice users could train service robots in new tasks naturally and interactively. Human-in-the-loop Reinforcement Learning (HRL) addresses this issue by combining human feedback and reinforcement learning (RL) techniques. State-of-the-art interactive learning techniques suffer from slow convergence, thus leading to a frustrating experience for the human. This work approaches this problem by extending the existing TAMER Framework with the possibility to enhance human feedback with two different types of counterfactual explanations. We demonstrate our extensions' success in improving the convergence, especially in the crucial early phases of the training.
公開日:2021-08-03
翻訳日:2021-08-04 13:47:02
# (参考訳) 統計的検査による接地表現の類似性

Grounding Representation Similarity with Statistical Testing ( http://arxiv.org/abs/2108.01661v1 )

ライセンス: CC BY 4.0
Frances Ding, Jean-Stanislas Denain, Jacob Steinhardt(参考訳) ニューラルネットワークの振る舞いを理解するために、最近の研究は、正準相関分析(cca)、中心核アライメント(cka)、その他の相似性尺度を用いて、異なるネットワークの学習表現を定量的に比較している。 残念なことに、これらの広く使われている尺度は、例えば、ランダムな初期化でのみ異なるディープネットワークが同様の表現を学ぶなど、基本的な観測に異を唱えることが多い。 これらの意見の相違は、どちらが、もし、この相違策を信じるべきかという疑問を提起する。 具体的なテストを通じて、この問題を根拠にするためのフレームワークを提供する: 測定は機能的振る舞いに影響を与える変化や、そうでない変化に対する特異性に敏感でなければならない。 我々は,分布シフトに対する精度の検証や頑健性,ランダム初期化の変化や主成分の削除など,様々な機能的動作を通じてこれを定量化する。 現在のメトリクスにはさまざまな弱点があることに気付き、古典的なベースラインが驚くほどうまく機能していることに気付き、すべてのメトリクスが失敗しているように見える設定を強調します。

To understand neural network behavior, recent works quantitatively compare different networks' learned representations using canonical correlation analysis (CCA), centered kernel alignment (CKA), and other dissimilarity measures. Unfortunately, these widely used measures often disagree on fundamental observations, such as whether deep networks differing only in random initialization learn similar representations. These disagreements raise the question: which, if any, of these dissimilarity measures should we believe? We provide a framework to ground this question through a concrete test: measures should have sensitivity to changes that affect functional behavior, and specificity against changes that do not. We quantify this through a variety of functional behaviors including probing accuracy and robustness to distribution shift, and examine changes such as varying random initialization and deleting principal components. We find that current metrics exhibit different weaknesses, note that a classical baseline performs surprisingly well, and highlight settings where all metrics appear to fail, thus providing a challenge set for further improvement.
公開日:2021-08-03
翻訳日:2021-08-04 13:46:50
# (参考訳) リソースの異なるタスクに対する弾性的アーキテクチャ探索

Elastic Architecture Search for Diverse Tasks with Different Resources ( http://arxiv.org/abs/2108.01224v1 )

ライセンス: CC BY 4.0
Jing Liu, Bohan Zhuang, Mingkui Tan, Xu Liu, Dinh Phung, Yuanqing Li, Jianfei Cai(参考訳) テスト時にクラス群に対応するリソース制約と関心のあるタスクを動的に指定する,リソースの異なるタスクに対する効率的な配置という新たな課題について検討する。 以前のnasアプローチでは、すべてのクラスのアーキテクチャを同時に設計することを目指している。 簡単な解決策は、各デプロイメントシナリオのスクラッチからアーキテクチャを検索することだが、計算集約的で実用的ではない。 これを解決するために、様々なリソース制約のある多様なタスクに対して、実行時に即時特殊化を可能にする、Elastic Architecture Search (EAS)と呼ばれる斬新で一般的なフレームワークを提案する。 この目的のために,まず,タスクドロップアウト戦略を用いてオーバーパラメータネットワークを効果的にトレーニングし,トレーニング中にタスクをアンタングルする手法を提案する。 このようにして、結果のモデルは推論時に次のタスクが落ちるのに頑健です。 十分に訓練された過パラメータネットワークに基づいて、単一のフォワードパス内で最適なアーキテクチャを得るための効率的なアーキテクチャジェネレータを提案する。 2つの画像分類データセットでの実験では、easは最先端のnasメソッドよりも桁違いに速い性能でよりコンパクトなネットワークを見つけることができる。 例えば、提案したEASは、50のデプロイメントシナリオに対して0.1秒以内でコンパクトアーキテクチャを見つけます。

We study a new challenging problem of efficient deployment for diverse tasks with different resources, where the resource constraint and task of interest corresponding to a group of classes are dynamically specified at testing time. Previous NAS approaches seek to design architectures for all classes simultaneously, which may not be optimal for some individual tasks. A straightforward solution is to search an architecture from scratch for each deployment scenario, which however is computation-intensiv e and impractical. To address this, we present a novel and general framework, called Elastic Architecture Search (EAS), permitting instant specializations at runtime for diverse tasks with various resource constraints. To this end, we first propose to effectively train the over-parameterized network via a task dropout strategy to disentangle the tasks during training. In this way, the resulting model is robust to the subsequent task dropping at inference time. Based on the well-trained over-parameterized network, we then propose an efficient architecture generator to obtain optimal architectures within a single forward pass. Experiments on two image classification datasets show that EAS is able to find more compact networks with better performance while remarkably being orders of magnitude faster than state-of-the-art NAS methods. For example, our proposed EAS finds compact architectures within 0.1 second for 50 deployment scenarios.
公開日:2021-08-03
翻訳日:2021-08-04 13:46:32
# (参考訳) 身体リハビリテーションにおける行動の正しさの分類

Classifying action correctness in physical rehabilitation exercises ( http://arxiv.org/abs/2108.01375v1 )

ライセンス: CC BY-SA 4.0
Alina Miron and Crina Grosan(参考訳) 本稿では,人間の動作や行動の正しさを評価する上で,機械学習が果たす役割に焦点を当てる。 このタスクはジェスチャーやアクション認識よりも難しいことが証明されている。 最近のデータセットでの一連の実験を通じて、機械学習アルゴリズムは特定のアクションに対して良い結果をもたらすことができるが、アクションの誤った実行を別のアクションの正しい実行として分類する罠に陥る可能性があることを実証する。

The work in this paper focuses on the role of machine learning in assessing the correctness of a human motion or action. This task proves to be more challenging than the gesture and action recognition ones. We will demonstrate, through a set of experiments on a recent dataset, that machine learning algorithms can produce good results for certain actions, but can also fall into the trap of classifying an incorrect execution of an action as a correct execution of another action.
公開日:2021-08-03
翻訳日:2021-08-04 13:46:11
# (参考訳) 確率型インスタンスフィルタを用いた雑音耐性深度学習

Noise-Resistant Deep Metric Learning with Probabilistic Instance Filtering ( http://arxiv.org/abs/2108.01431v1 )

ライセンス: CC BY 4.0
Chang Liu, Han Yu, Boyang Li, Zhiqi Shen, Zhanning Gao, Peiran Ren, Xuansong Xie, Lizhen Cui, Chunyan Miao(参考訳) ノイズラベルは現実世界のデータによく見られ、ディープニューラルネットワークの性能劣化を引き起こす。 データを手動で掃除することは労働集約的で時間を要する。 従来の研究は主にノイズラベルに対する分類モデルの強化に重点を置いていたが、ディープ・メトリック・ラーニング(DML)のノイズラベルに対する堅牢性はいまだによく研究されていない。 本稿では,DMLに対する確率的ランク付けに基づくインスタンス選択(PRISM)手法を提案することにより,この重要なギャップを埋める。 PRISMはラベルがクリーンである確率を計算し、潜在的にノイズの多いサンプルをフィルタリングする。 具体的には,(1)潜在的にノイズの多いデータとクリーンデータの平均的類似度を計算する平均的類似度法(avgsim),2)avgsimが維持するセンターをプロキシベースで訓練されたプロキシで置き換えるプロキシ類似度法(proxysim),3)各データクラスに対するvon mises-fisher分布類似度を推定するvon mises-fisher distribution similarity(vmf-sim)の3つの方法を提案する。 このような設計により、提案手法は、サンプルの大多数がノイズの多いdmlの困難な状況に対処することができる。 合成および実世界のノイズデータセットの大規模な実験により、提案手法は適切なトレーニング時間内に、最高の最先端ベースラインアプローチと比較して最大8.37%精度が達成されている。

Noisy labels are commonly found in real-world data, which cause performance degradation of deep neural networks. Cleaning data manually is labour-intensive and time-consuming. Previous research mostly focuses on enhancing classification models against noisy labels, while the robustness of deep metric learning (DML) against noisy labels remains less well-explored. In this paper, we bridge this important gap by proposing Probabilistic Ranking-based Instance Selection with Memory (PRISM) approach for DML. PRISM calculates the probability of a label being clean, and filters out potentially noisy samples. Specifically, we propose three methods to calculate this probability: 1) Average Similarity Method (AvgSim), which calculates the average similarity between potentially noisy data and clean data; 2) Proxy Similarity Method (ProxySim), which replaces the centers maintained by AvgSim with the proxies trained by proxy-based method; and 3) von Mises-Fisher Distribution Similarity (vMF-Sim), which estimates a von Mises-Fisher distribution for each data class. With such a design, the proposed approach can deal with challenging DML situations in which the majority of the samples are noisy. Extensive experiments on both synthetic and real-world noisy dataset show that the proposed approach achieves up to 8.37% higher Precision@1 compared with the best performing state-of-the-art baseline approaches, within reasonable training time.
公開日:2021-08-03
翻訳日:2021-08-04 13:46:03
# (参考訳) 心理的インフォームドによるソーシャルメディアの抑うつの分析 [全文訳有]

A Psychologically Informed Part-of-Speech Analysis of Depression in Social Media ( http://arxiv.org/abs/2108.00279v1 )

ライセンス: CC BY 4.0
Ana-Maria Bucur, Ioana R. Podin\u{a} and Liviu P. Dinu(参考訳) 本研究では,抑うつを伴うソーシャルメディア利用者の言論を幅広く分析する。 心理学の研究によると、うつ病のユーザーは自己中心であり、自分自身に夢中になり、自分の生活や感情についてより反感を抱く傾向にある。 本研究の目的は,大規模データセットと計算手法を用いて談話の定量的探索を行うことである。 我々は、Early Risk Prediction on the Internet Workshop (eRisk) 2018から公開されているうつ病データセットを使用して、音声の特徴とそれに基づくいくつかの指標を抽出する。 その結果, 既往の心理学文献から, うつ病と非うつ病では統計的に有意な差が認められた。 我々の研究は、うつ病の個人がソーシャルメディアプラットフォーム上で自己表現する方法に関する洞察を提供し、より良い情報処理モデルによって精神疾患の監視と予防に役立つ。

In this work, we provide an extensive part-of-speech analysis of the discourse of social media users with depression. Research in psychology revealed that depressed users tend to be self-focused, more preoccupied with themselves and ruminate more about their lives and emotions. Our work aims to make use of large-scale datasets and computational methods for a quantitative exploration of discourse. We use the publicly available depression dataset from the Early Risk Prediction on the Internet Workshop (eRisk) 2018 and extract part-of-speech features and several indices based on them. Our results reveal statistically significant differences between the depressed and non-depressed individuals confirming findings from the existing psychology literature. Our work provides insights regarding the way in which depressed individuals are expressing themselves on social media platforms, allowing for better-informed computational models to help monitor and prevent mental illnesses.
公開日:2021-07-31
翻訳日:2021-08-04 13:45:05
# (参考訳) 戦略同定のための逆強化学習 [全文訳有]

Inverse Reinforcement Learning for Strategy Identification ( http://arxiv.org/abs/2108.00293v1 )

ライセンス: CC BY 4.0
Mark Rucker, Stephen Adams, Roy Hayes, Peter A. Beling(参考訳) 敵対的環境では、一方が相手の戦略を特定することで有利になる。 例えば、戦闘ゲームでは、相手の戦略が過度に攻撃的であると判断された場合、相手の攻撃性を悪用する罠を敷くことができる。 しかし、相手の戦略は必ずしも明確ではなく、その行動の観察から推測する必要があるかもしれない。 本稿では,逆強化学習(irl)を用いて,敵環境における戦略を特定することを提案する。 具体的には,1) 予め定義された3つの戦略から生成されたゲーム戦闘データに対するこの概念の実証,2) 戦略識別を達成するためにIRLを使用するための枠組みについて述べる。 数値実験により,回収した報酬を様々な手法で識別できることが示されている。 本稿では,回収した報酬を視覚的に表示し,教師なし学習を用いてクラスタ化し,教師なし学習者を用いて分類する。

In adversarial environments, one side could gain an advantage by identifying the opponent's strategy. For example, in combat games, if an opponents strategy is identified as overly aggressive, one could lay a trap that exploits the opponent's aggressive nature. However, an opponent's strategy is not always apparent and may need to be estimated from observations of their actions. This paper proposes to use inverse reinforcement learning (IRL) to identify strategies in adversarial environments. Specifically, the contributions of this work are 1) the demonstration of this concept on gaming combat data generated from three pre-defined strategies and 2) the framework for using IRL to achieve strategy identification. The numerical experiments demonstrate that the recovered rewards can be identified using a variety of techniques. In this paper, the recovered reward are visually displayed, clustered using unsupervised learning, and classified using a supervised learner.
公開日:2021-07-31
翻訳日:2021-08-04 13:33:31
# (参考訳) 補間可能アンタングルを用いたフェア表現学習 [全文訳有]

Fair Representation Learning using Interpolation Enabled Disentanglement ( http://arxiv.org/abs/2108.00295v1 )

ライセンス: CC BY 4.0
Akshita Jha, Bhanukiran Vinzamuri, Chandan K. Reddy(参考訳) 現実の問題を解決するための機械学習コミュニティへの関心が高まっているため、これらのブラックボックスモデルによる予測の公平さと監査に注目して、意思決定の背後にある隠れた理由を明らかにすることが重要になっている。 本稿では,2つの課題を解決するための新しい手法を提案する。 (a) 下流タスクにおける学習表現の有用性を確保しつつ,同時に公平な不等角表現を学習できるか, (b) 提案手法がいつ公平かつ正確になるかに関する理論的洞察を提供することができるか。 前者に対応するために,補間可能外乱を用いた公正表現学習法FRIEDを提案する。 我々のアーキテクチャでは、批判に基づく敵対的枠組みを取り入れることで、潜伏空間の補間点をより現実的なものにする。 これにより、データ多様体を効果的にキャプチャし、下流予測タスクにおける学習表現の有用性を高めることができる。 分類器に基づく条件付き相互情報推定を用いたフェアネス精度トレードオフ理論を考案し、後者の課題に対処する。 我々は,FRIEDが表,テキスト,画像データセットなど,異なるモダリティのデータセットに対して有効であることを示す。 FRIEDが学習した表現は、既存のベースラインに比べて全体的に公平であり、下流予測タスクにも正確である。 さらに、FRIEDを現実世界の医療クレームデータセットで評価し、オピオイドのアドディクションパターンに関する有用な洞察を提供する専門家支援モデル監査研究を行う。

With the growing interest in the machine learning community to solve real-world problems, it has become crucial to uncover the hidden reasoning behind their decisions by focusing on the fairness and auditing the predictions made by these black-box models. In this paper, we propose a novel method to address two key issues: (a) Can we simultaneously learn fair disentangled representations while ensuring the utility of the learned representation for downstream tasks, and (b)Can we provide theoretical insights into when the proposed approach will be both fair and accurate. To address the former, we propose the method FRIED, Fair Representation learning using Interpolation Enabled Disentanglement. In our architecture, by imposing a critic-based adversarial framework, we enforce the interpolated points in the latent space to be more realistic. This helps in capturing the data manifold effectively and enhances the utility of the learned representation for downstream prediction tasks. We address the latter question by developing a theory on fairness-accuracy trade-offs using classifier-based conditional mutual information estimation. We demonstrate the effectiveness of FRIED on datasets of different modalities - tabular, text, and image datasets. We observe that the representations learned by FRIED are overall fairer in comparison to existing baselines and also accurate for downstream prediction tasks. Additionally, we evaluate FRIED on a real-world healthcare claims dataset where we conduct an expert aided model auditing study providing useful insights into opioid ad-diction patterns.
公開日:2021-07-31
翻訳日:2021-08-04 13:20:21
# (参考訳) グラフニューラルネットワークによる多変量時系列計算 [全文訳有]

Multivariate Time Series Imputation by Graph Neural Networks ( http://arxiv.org/abs/2108.00298v1 )

ライセンス: CC BY 4.0
Andrea Cini, Ivan Marisca, Cesare Alippi(参考訳) 欠落した値と不完全な時系列を扱うことは、実世界のアプリケーションから来るデータを扱うとき、労力と時間を要する必然的なタスクである。 効果的な時空間表現は、異なる場所のセンサーから得られる情報を利用することで、不特定の時間データを再構築することができる。 しかし、標準手法は、相互接続されたセンサーのネットワークに存在する非線形時間と空間依存性を捉えるのに不足しており、利用可能な(しばしば強い)関係情報を十分に活用していない。 特に、ディープラーニングに基づく最先端の計算手法の多くは、関係性の側面を明示的にモデル化せず、いずれにせよ、構造化時空間データを適切に表現できる処理フレームワークを利用していない。 逆にグラフニューラルネットワークは最近、リレーショナルインダクティブバイアスでシーケンシャルデータを処理するための表現力と拡張性の両方を備えたツールとして人気が高まっている。 本稿では,多変量時系列計算の文脈におけるグラフニューラルネットワークの最初の評価について述べる。 特に,多変量時系列の異なるチャネルにおいて,メッセージパッシングを通じて空間-時間表現を学習し,行方不明データを再構成することを目的とした,grilと呼ばれる新しいグラフニューラルネットワークアーキテクチャを提案する。 予備実験の結果,本モデルは,平均絶対誤差が20%を超える場合が多い関連するベンチマークのインプテーションタスクにおいて,最先端の手法を上回っていることがわかった。

Dealing with missing values and incomplete time series is a labor-intensive and time-consuming inevitable task when handling data coming from real-world applications. Effective spatio-temporal representations would allow imputation methods to reconstruct missing temporal data by exploiting information coming from sensors at different locations. However, standard methods fall short in capturing the nonlinear time and space dependencies existing within networks of interconnected sensors and do not take full advantage of the available - and often strong - relational information. Notably, most of state-of-the-art imputation methods based on deep learning do not explicitly model relational aspects and, in any case, do not exploit processing frameworks able to adequately represent structured spatio-temporal data. Conversely, graph neural networks have recently surged in popularity as both expressive and scalable tools for processing sequential data with relational inductive biases. In this work, we present the first assessment of graph neural networks in the context of multivariate time series imputation. In particular, we introduce a novel graph neural network architecture, named GRIL, which aims at reconstructing missing data in the different channels of a multivariate time series by learning spatial-temporal representations through message passing. Preliminary empirical results show that our model outperforms state-of-the-art methods in the imputation task on relevant benchmarks with mean absolute error improvements often higher than 20%.
公開日:2021-07-31
翻訳日:2021-08-04 13:06:00
# (参考訳) 創造的NLGシステムの人的評価:最近の論文の学際的調査 [全文訳有]

Human Evaluation of Creative NLG Systems: An Interdisciplinary Survey on Recent Papers ( http://arxiv.org/abs/2108.00308v1 )

ライセンス: CC BY-SA 4.0
Mika H\"am\"al\"ainen and Khalid Alnajjar(参考訳) 我々は,INLG 2020 と ICCC 2020 で発表された創造的自然言語生成に関する論文の中で,人間の評価を調査した。 最も一般的な人間の評価方法は、通常5ポイントのスケールでスケールされたサーベイであるが、他の多くのあまり一般的ではない方法が存在する。 最もよく評価されるパラメータは、意味、構文的正しさ、新規性、関連性、感情的価値などである。 今後の評価の指針は, 生成システムの目標を明確に定義すること, できるだけ具体的な質問をすること, 評価設定を複数の異なる評価設定を用いてテストすること, 評価プロセス全体と潜在的なバイアスを明確に報告すること, そして, 評価結果を最も典型的な統計を報告することよりも, より深い方法で分析することである。

We survey human evaluation in papers presenting work on creative natural language generation that have been published in INLG 2020 and ICCC 2020. The most typical human evaluation method is a scaled survey, typically on a 5 point scale, while many other less common methods exist. The most commonly evaluated parameters are meaning, syntactic correctness, novelty, relevance and emotional value, among many others. Our guidelines for future evaluation include clearly defining the goal of the generative system, asking questions as concrete as possible, testing the evaluation setup, using multiple different evaluation setups, reporting the entire evaluation process and potential biases clearly, and finally analyzing the evaluation results in a more profound way than merely reporting the most typical statistics.
公開日:2021-07-31
翻訳日:2021-08-04 12:48:13
# (参考訳) 密度行列に基づく電子力学の統計的学習法 [全文訳有]

Statistical learning method for predicting density-matrix based electron dynamics ( http://arxiv.org/abs/2108.00318v1 )

ライセンス: CC BY 4.0
Prachi Gupta, Harish S. Bhat, Karnamohit Ranka, Christine M. Isborn(参考訳) 電子密度行列の時系列から分子ハミルトン行列を学習するための統計的手法を開発した。 従来の手法をより広い分子系に拡張し, 物理特性を組み込んで次元を減少させるとともに, リッジ回帰法のような正則化手法をマルチコリニア性に応用した。 学習したハミルトニアンにより、時間依存ハートリーフォック(TDHF)方程式を解くことで、時間内の電子密度を伝播し、フィールドフリーおよびフィールドオンシナリオのダイナミクスを予測することができる。 トレーニングデータに類似したフィールドオフ軌跡と,トレーニングデータ以外のフィールドオン軌跡の双方について,予測力学と基底真理の密接な定量的一致を観察する。

We develop a statistical method to learn a molecular Hamiltonian matrix from a time-series of electron density matrices. We extend our previous method to larger molecular systems by incorporating physical properties to reduce dimensionality, while also exploiting regularization techniques like ridge regression for addressing multicollinearity. With the learned Hamiltonian we can solve the Time-Dependent Hartree-Fock (TDHF) equation to propagate the electron density in time, and predict its dynamics for field-free and field-on scenarios. We observe close quantitative agreement between the predicted dynamics and ground truth for both field-off trajectories similar to the training data, and field-on trajectories outside of the training data.
公開日:2021-07-31
翻訳日:2021-08-04 12:33:06
# (参考訳) 微分プライベート確率凸最適化の高速化 [全文訳有]

Faster Rates of Differentially Private Stochastic Convex Optimization ( http://arxiv.org/abs/2108.00331v1 )

ライセンス: CC BY 4.0
Jinyan Su and Di Wang(参考訳) 本稿では,微分的にプライベートな確率凸最適化(dp-sco)の問題を再検討し,一般凸関数と強凸関数のこれまでの結果よりも高速な特殊種類の関数に対して過剰な集団リスクを与える。 本論文の第1部では,人口リスク関数がtysbakovノイズ条件 (tnc) を満たす場合について,パラメータ$\theta>1$ で検討する。 具体的には、損失関数に関するいくつかの穏やかな仮定の下で、出力が$\tilde{O}((\frac{1}{\sqrt{n}}+\frac{\sqrt{d\log \frac{1}{\delta}}}{n\epsilon})^\frac{\theta}{\theta-1})$ for $(\epsilon, \delta)$-DP if $\theta\geq 2$ ここで$n$はサンプルサイズであり、$d$は空間の次元である。 次に、非効率な問題に対処し、$\text{Poly}(\log n)$ factor で上限を改善し、既知の $\bar{\theta}$ に対して $\theta\geq \bar{\theta}>1$ の場合に拡張する。 次に、パラメータ$\theta>1$のtncを満たす人口関数の過剰な人口リスクは、$\omega((\frac{d}{n\epsilon})^\frac{\theta}{\theta-1}) $と$\omega((\frac{\sqrt{d\log \frac{1}{\delta}}}{n\epsilon})^\frac{\theta}{\theta-1})$で、$\epsilon$-dpと$(\epsilon, \delta)$-dpで常に低いことを示す。 第2部では,人口リスク関数が強い凸である特別な場合に焦点を当てる。 以前の研究とは異なり、損失関数は「非負」であり、人口リスクの最適値は「十分小さい」と仮定する。 これらの仮定により、サンプルサイズ$n$が十分大きい場合、任意の$\tau\geq 1$ in $(\epsilon,\delta)$- DPモデルに対して、出力が$O(\frac{d\log\frac{1}{\delta}}{n^2\epsilon^2}+\frac{1}{n^{\tau}})の上限を達成できる新しい方法を提案する。

In this paper, we revisit the problem of Differentially Private Stochastic Convex Optimization (DP-SCO) and provide excess population risks for some special classes of functions that are faster than the previous results of general convex and strongly convex functions. In the first part of the paper, we study the case where the population risk function satisfies the Tysbakov Noise Condition (TNC) with some parameter $\theta>1$. Specifically, we first show that under some mild assumptions on the loss functions, there is an algorithm whose output could achieve an upper bound of $\tilde{O}((\frac{1}{\sqrt{n}}+\frac{\sqrt{d\log \frac{1}{\delta}}}{n\epsilon})^\frac{\theta}{\theta-1})$ for $(\epsilon, \delta)$-DP when $\theta\geq 2$, here $n$ is the sample size and $d$ is the dimension of the space. Then we address the inefficiency issue, improve the upper bounds by $\text{Poly}(\log n)$ factors and extend to the case where $\theta\geq \bar{\theta}>1$ for some known $\bar{\theta}$. Next we show that the excess population risk of population functions satisfying TNC with parameter $\theta>1$ is always lower bounded by $\Omega((\frac{d}{n\epsilon})^\frac{\theta}{\theta-1}) $ and $\Omega((\frac{\sqrt{d\log \frac{1}{\delta}}}{n\epsilon})^\frac{\theta}{\theta-1})$ for $\epsilon$-DP and $(\epsilon, \delta)$-DP, respectively. In the second part, we focus on a special case where the population risk function is strongly convex. Unlike the previous studies, here we assume the loss function is {\em non-negative} and {\em the optimal value of population risk is sufficiently small}. With these additional assumptions, we propose a new method whose output could achieve an upper bound of $O(\frac{d\log\frac{1}{\delta}}{n^2\epsilon^2}+\frac{1}{n^{\tau}})$ for any $\tau\geq 1$ in $(\epsilon,\delta)$- DP model if the sample size $n$ is sufficiently large.
公開日:2021-07-31
翻訳日:2021-08-04 12:20:29
# (参考訳) いつ辞めるかを知る:リアルタイム顔アライメントのためのパッチアライメントによる選択的カスケード回帰 [全文訳有]

Knowing When to Quit: Selective Cascaded Regression with Patch Attention for Real-Time Face Alignment ( http://arxiv.org/abs/2108.00377v2 )

ライセンス: CC0 1.0
Gil Shapira, Noga Levy, Ishay Goldin, Roy J. Jevnisek(参考訳) 顔のランドマーク(FLM)推定は多くの顔関連アプリケーションにおいて重要な要素である。 本研究では,精度と速度の両方を最適化し,両者のトレードオフを探究する。 私たちの重要な観察は、すべての顔が等しく作られるわけではないということです。 中性表現を持つ正面の顔は、極端なポーズや表情を持つ顔よりも早く収束する。 サンプルを区別するために、各反復後の回帰誤差を予測するためにモデルを訓練する。 現在のイテレーションが十分に正確であれば、反復をやめ、冗長なイテレーションを節約し、精度を保ちます。 また、隣り合うパッチが重なるにつれて、少数のパッチしか持たないすべての顔ランドマーク(flm)を、大きな正確さを犠牲にすることなく推測できることも観察した。 アーキテクチャ的には,パッチ自体の情報に応じてパッチ重み付けを計算し,パッチ機能の表現力を高める,細粒度の局所パッチアテンションモジュールを備えた,マルチスケールでパッチベース,軽量な機能抽出器を提供する。 本研究は,顔のランドマークを回帰する際に,モデルがどこに出席しているかを推定するためにパッチアテンションデータを解析し,人間の顔アテンションと比較する。 我々のモデルはモバイルデバイスGPU上でリアルタイムに動作し、95Mega Multiply-Add(MMA)演算で1000MMA未満の最先端メソッドをすべて上回り、300W挑戦データセットでは平均エラーが8.16である。

Facial landmarks (FLM) estimation is a critical component in many face-related applications. In this work, we aim to optimize for both accuracy and speed and explore the trade-off between them. Our key observation is that not all faces are created equal. Frontal faces with neutral expressions converge faster than faces with extreme poses or expressions. To differentiate among samples, we train our model to predict the regression error after each iteration. If the current iteration is accurate enough, we stop iterating, saving redundant iterations while keeping the accuracy in check. We also observe that as neighboring patches overlap, we can infer all facial landmarks (FLMs) with only a small number of patches without a major accuracy sacrifice. Architecturally, we offer a multi-scale, patch-based, lightweight feature extractor with a fine-grained local patch attention module, which computes a patch weighting according to the information in the patch itself and enhances the expressive power of the patch features. We analyze the patch attention data to infer where the model is attending when regressing facial landmarks and compare it to face attention in humans. Our model runs in real-time on a mobile device GPU, with 95 Mega Multiply-Add (MMA) operations, outperforming all state-of-the-art methods under 1000 MMA, with a normalized mean error of 8.16 on the 300W challenging dataset.
公開日:2021-08-03
翻訳日:2021-08-04 11:47:29
# (参考訳) FAQ回答のためのConveRT [全文訳有]

ConveRT for FAQ Answering ( http://arxiv.org/abs/2108.00719v2 )

ライセンス: CC BY 4.0
Maxime De Bruyn, Ehsan Lotfi, Jeska Buhmann, Walter Daelemans(参考訳) 知識豊富なfaqチャットボットは、あらゆる組織にとって貴重なリソースです。 従来のコールセンタやFAQ Webページとは異なり、インスタントレスポンスを提供し、常に利用できる。 COVID19チャットボットを運用した経験から、英語以外の言語でFAQに答えるリソースが不足していることが分かりました。 英語には強力で効率的な検索ベースモデルが存在するが、同じ量のトレーニングデータを持っていない他の言語ではまれである。 本研究では、英語のSOTA会話エージェントであるConveRTを、トレーニングデータが少ない他の言語に適応させる、新しい保持手順を提案する。 これを初めて、オランダのfaqがcovid-19ワクチンに関する質問に答えるタスクに適用しました。 低データ体制と高データ体制におけるオープンソースの代替手段よりも優れた性能を示す。

Knowledgeable FAQ chatbots are a valuable resource to any organization. Unlike traditional call centers or FAQ web pages, they provide instant responses and are always available. Our experience running a COVID19 chatbot revealed the lack of resources available for FAQ answering in non-English languages. While powerful and efficient retrieval-based models exist for English, it is rarely the case for other languages which do not have the same amount of training data available. In this work, we propose a novel pretaining procedure to adapt ConveRT, an English SOTA conversational agent, to other languages with less training data available. We apply it for the first time to the task of Dutch FAQ answering related to the COVID19 vaccine. We show it performs better than an open-source alternative in a low-data regime and high-data regime.
公開日:2021-08-03
翻訳日:2021-08-04 11:34:47
# (参考訳) クロスドメインオブジェクト検出のための多レベル知識転送 [全文訳有]

Multilevel Knowledge Transfer for Cross-Domain Object Detection ( http://arxiv.org/abs/2108.00977v2 )

ライセンス: CC BY 4.0
Botos Csaba, Xiaojuan Qi, Arslan Chaudhry, Puneet Dokania, Philip Torr(参考訳) ドメインシフトはよく知られた問題であり、特定のドメイン(ソース)でトレーニングされたモデルは、異なるドメイン(ターゲット)のサンプルに公開してもうまく機能しない。 ドメインシフトに適応できる教師なしの方法は、ターゲットから追加の注釈付きトレーニングデータを必要とせずに、ソースデータの有効活用を可能にするため、非常に望ましい。 実際、対象領域から十分な量の注釈付きデータを取得することは、実現不可能かつ極めて高価である。 本研究では,オブジェクト検出タスクにおける領域シフト問題に対処する。 我々のアプローチは、ソースとターゲットドメインの間のドメインシフトを徐々に取り除くことに依存している。 このアプローチの重要な要素は, (a) 画素レベルでソースをターゲットドメインにマッピングすること, (b) 教師ネットワークをマップしたソースと無注釈のターゲットドメインで訓練すること, (c) 教師から得られた擬似ラベルを用いて学生ネットワークを訓練することである。 実験的に、ドメインシフトを含む挑戦的なシナリオをテストすると、さまざまな最先端技術に対して、一貫して大きなパフォーマンス向上が得られる。

Domain shift is a well known problem where a model trained on a particular domain (source) does not perform well when exposed to samples from a different domain (target). Unsupervised methods that can adapt to domain shift are highly desirable as they allow effective utilization of the source data without requiring additional annotated training data from the target. Practically, obtaining sufficient amount of annotated data from the target domain can be both infeasible and extremely expensive. In this work, we address the domain shift problem for the object detection task. Our approach relies on gradually removing the domain shift between the source and the target domains. The key ingredients to our approach are -- (a) mapping the source to the target domain on pixel-level; (b) training a teacher network on the mapped source and the unannotated target domain using adversarial feature alignment; and (c) finally training a student network using the pseudo-labels obtained from the teacher. Experimentally, when tested on challenging scenarios involving domain shift, we consistently obtain significantly large performance gains over various recent state of the art approaches.
公開日:2021-08-03
翻訳日:2021-08-04 11:28:39
# licHEE:多粒化による言語モデル事前学習の改善

LICHEE: Improving Language Model Pre-training with Multi-grained Tokenization ( http://arxiv.org/abs/2108.00801v2 )

ライセンス: Link先を確認
Weidong Guo, Mingjun Zhao, Lusheng Zhang, Di Niu, Jinwen Luo, Zhenhua Liu, Zhenyang Li and Jianbo Tang(参考訳) 大規模コーパスに基づく言語モデルの事前学習は、豊富な文脈表現の構築において大きな成功を収め、様々な自然言語理解(NLU)タスクにおいて大きなパフォーマンス向上をもたらした。 この成功にもかかわらず、BERTのような現在の事前訓練された言語モデルのほとんどは、単一の粒度のトークン化に基づいて訓練されており、通常は粒度の細かい文字やサブワードで訓練されている。 本稿では,入力テキストの多粒度情報を効率的に組み込むための,シンプルで効果的な事前学習手法であるlicHEEを提案する。 本手法は,様々な事前学習言語モデルに適用でき,表現能力を向上させることができる。 CLUE と SuperGLUE で行った大規模な実験により,提案手法は中国語と英語の多種多様な NLU タスクに対して,余分な推論コストを伴わずに包括的な改善を実現し,また,我々の最高のアンサンブルモデルがCLUE ベンチマーク競争における最先端性能を達成することを示した。

Language model pre-training based on large corpora has achieved tremendous success in terms of constructing enriched contextual representations and has led to significant performance gains on a diverse range of Natural Language Understanding (NLU) tasks. Despite the success, most current pre-trained language models, such as BERT, are trained based on single-grained tokenization, usually with fine-grained characters or sub-words, making it hard for them to learn the precise meaning of coarse-grained words and phrases. In this paper, we propose a simple yet effective pre-training method named LICHEE to efficiently incorporate multi-grained information of input text. Our method can be applied to various pre-trained language models and improve their representation capability. Extensive experiments conducted on CLUE and SuperGLUE demonstrate that our method achieves comprehensive improvements on a wide variety of NLU tasks in both Chinese and English with little extra inference cost incurred, and that our best ensemble model achieves the state-of-the-art performance on CLUE benchmark competition.
公開日:2021-08-03
翻訳日:2021-08-04 11:07:52
# 複雑物体相互作用下におけるニューラルな自由視点性能レンダリング

Neural Free-Viewpoint Performance Rendering under Complex Human-object Interactions ( http://arxiv.org/abs/2108.00362v2 )

ライセンス: Link先を確認
Guoxing Sun, Xin Chen, Yizhang Chen, Anqi Pang, Pei Lin, Yuheng Jiang, Lan Xu, Jingya Wang, Jingyi Yu(参考訳) 人間と物体のインタラクションの4次元再構築は没入型vr/ar体験と人間の活動理解に不可欠である。 近年の進歩は、細かなRGB入力から細かな幾何学やテクスチャ結果の回復には至っていない。 本稿では,粗いRGBストリームのみから,任意の斬新な視点での対話シナリオにおいて,人間と物体の高画質な形状と写真リアルなテクスチャの両方を生成するニューラルヒューマンパフォーマンスキャプチャ・レンダリングシステムを提案する。 人間とオブジェクトの相互作用によって引き起こされる複雑なオクルージョンに対処するために、階層的なシーン分離戦略を採用し、人間とオブジェクトのボリュームリコンストラクションとニューラルレンダリングを行う。 具体的には、幾何学的再構成のために、人間の再構成とオブジェクトの再構成を相関関係と共同で検討する、対話型オブジェクトキャプチャー方式を提案する。 4次元オブジェクトダイナミックリコンストラクションのために, 咬合認識型ヒューマンリコンストラクションとロバストなヒューマンアウェアオブジェクトトラッキングを提案する。 ニューラルネットワークのテクスチャレンダリングのために,方向認識型ニューラルブレンディング重み学習と時空間テクスチャ補完を組み合わせた階層的ヒューマンオブジェクトレンダリング手法を提案する。 大規模な実験により,人間と物体の相互作用に挑戦する自由視点で高品質な幾何学とテクスチャ再構築を実現する手法の有効性が示された。

4D reconstruction of human-object interaction is critical for immersive VR/AR experience and human activity understanding. Recent advances still fail to recover fine geometry and texture results from sparse RGB inputs, especially under challenging human-object interactions scenarios. In this paper, we propose a neural human performance capture and rendering system to generate both high-quality geometry and photo-realistic texture of both human and objects under challenging interaction scenarios in arbitrary novel views, from only sparse RGB streams. To deal with complex occlusions raised by human-object interactions, we adopt a layer-wise scene decoupling strategy and perform volumetric reconstruction and neural rendering of the human and object. Specifically, for geometry reconstruction, we propose an interaction-aware human-object capture scheme that jointly considers the human reconstruction and object reconstruction with their correlations. Occlusion-aware human reconstruction and robust human-aware object tracking are proposed for consistent 4D human-object dynamic reconstruction. For neural texture rendering, we propose a layer-wise human-object rendering scheme, which combines direction-aware neural blending weight learning and spatial-temporal texture completion to provide high-resolution and photo-realistic texture results in the occluded scenarios. Extensive experiments demonstrate the effectiveness of our approach to achieve high-quality geometry and texture reconstruction in free viewpoints for challenging human-object interactions.
公開日:2021-08-03
翻訳日:2021-08-04 11:07:30
# SSPU-Net: 微分レンダリングによる自己監視ポイントクラウドアップサンプリング

SSPU-Net: Self-Supervised Point Cloud Upsampling via Differentiable Rendering ( http://arxiv.org/abs/2108.00454v2 )

ライセンス: Link先を確認
Yifan Zhao, Le Hui, Jin Xie(参考訳) 3dセンサーから得られる点雲は通常は希薄である。 既存の手法は主に、密度の高い真理点雲を用いて監督された方法でスパース点雲をサンプリングすることに焦点を当てている。 本稿では,地中真理を使わずに高密度の点雲を生成する自己教師付き点雲アップサンプリングネットワーク(SSPU-Net)を提案する。 そこで我々は,入力スパース点雲と高密度点雲との整合性を利用して形状と描画画像を生成する。 具体的には、まず、スパース点雲の局所的な幾何学的構造を利用して点補間のための重みを学習する、スパース点雲を増幅する隣の膨張ユニット(NEU)を提案する。 そこで我々は,DRU(Dariable Point Cloud rendering Unit)をネットワークのエンドツーエンドモジュールとして開発し,ポイントクラウドをマルチビュー画像にレンダリングする。 最後に, 形状不連続損失と画像不一致損失を定式化してネットワークをトレーニングし, スパースと高密度点雲の形状が可能な限り一貫するようにした。 CADおよびスキャンしたデータセットの大規模な結果から,本手法が自己教師型で優れた結果を得られることを示す。 コードはhttps://github.com/f pthink/SSPU-Netで入手できる。

Point clouds obtained from 3D sensors are usually sparse. Existing methods mainly focus on upsampling sparse point clouds in a supervised manner by using dense ground truth point clouds. In this paper, we propose a self-supervised point cloud upsampling network (SSPU-Net) to generate dense point clouds without using ground truth. To achieve this, we exploit the consistency between the input sparse point cloud and generated dense point cloud for the shapes and rendered images. Specifically, we first propose a neighbor expansion unit (NEU) to upsample the sparse point clouds, where the local geometric structures of the sparse point clouds are exploited to learn weights for point interpolation. Then, we develop a differentiable point cloud rendering unit (DRU) as an end-to-end module in our network to render the point cloud into multi-view images. Finally, we formulate a shape-consistent loss and an image-consistent loss to train the network so that the shapes of the sparse and dense point clouds are as consistent as possible. Extensive results on the CAD and scanned datasets demonstrate that our method can achieve impressive results in a self-supervised manner. Code is available at https://github.com/f pthink/SSPU-Net.
公開日:2021-08-03
翻訳日:2021-08-04 11:07:04
# Sequoia: 継続的な学習研究を統合するソフトウェアフレームワーク

Sequoia: A Software Framework to Unify Continual Learning Research ( http://arxiv.org/abs/2108.01005v2 )

ライセンス: Link先を確認
Fabrice Normandin, Florian Golemo, Oleksiy Ostapenko, Pau Rodriguez, Matthew D Riemer, Julio Hurtado, Khimya Khetarpal, Dominic Zhao, Ryan Lindeborg, Timoth\'ee Lesort, Laurent Charlin, Irina Rish, Massimo Caccia(参考訳) 連続学習(cl)の分野は、非定常環境とデータ分散とのインタラクションを通じて、時間とともに知識とスキルを蓄積するアルゴリズムの開発を目指している。 CLの進行度を測定することは、CL問題に関する多くの評価手順(セット)とアルゴリズム解(メソッド)が出現し、それぞれがCL問題に関して潜在的に不連続な仮定を持つため困難である。 本研究では,各設定を仮定の集合として捉える。 次に、CLにおける研究環境のツリー型階層を作成し、より一般的な設定がより制限的な仮定を持つ人の親となる。 これにより、遺伝を利用して研究を共有、再利用することが可能となり、与えられた設定の方法を開発することで、子供にも直接適用することができる。 私たちはこのアイデアをSequoiaという,CSL(Continuous Supervised Learning)ドメインとCRL(Continuous Reinforcement Learning)ドメインの両方のさまざまな設定を備えた,公開可能なソフトウェアフレームワークとしてインスタンス化しています。 sequoiaには、拡張やカスタマイズが容易なメソッドスイートや、サードパーティライブラリのより専門的なメソッドも含まれている。 我々は,この新たなパラダイムとその最初の実装が,CLにおける研究の統合と加速の基礎となることを願っている。 www.github.com/lebri ce/Sequoia.comを訪問すれば、木を育てられる。

The field of Continual Learning (CL) seeks to develop algorithms that accumulate knowledge and skills over time through interaction with non-stationary environments and data distributions. Measuring progress in CL can be difficult because a plethora of evaluation procedures (ettings) and algorithmic solutions (methods) have emerged, each with their own potentially disjoint set of assumptions about the CL problem. In this work, we view each setting as a set of assumptions. We then create a tree-shaped hierarchy of the research settings in CL, in which more general settings become the parents of those with more restrictive assumptions. This makes it possible to use inheritance to share and reuse research, as developing a method for a given setting also makes it directly applicable onto any of its children. We instantiate this idea as a publicly available software framework called Sequoia, which features a variety of settings from both the Continual Supervised Learning (CSL) and Continual Reinforcement Learning (CRL) domains. Sequoia also includes a growing suite of methods which are easy to extend and customize, in addition to more specialized methods from third-party libraries. We hope that this new paradigm and its first implementation can serve as a foundation for the unification and acceleration of research in CL. You can help us grow the tree by visiting www.github.com/lebri ce/Sequoia.
公開日:2021-08-03
翻訳日:2021-08-04 11:06:41
# (参考訳) Speech2Affective Gestures: 対人感情表現学習による音声合成

Speech2AffectiveGest ures: Synthesizing Co-Speech Gestures with Generative Adversarial Affective Expression Learning ( http://arxiv.org/abs/2108.00262v2 )

ライセンス: CC BY 4.0
Uttaran Bhattacharya and Elizabeth Childs and Nicholas Rewkowski and Dinesh Manocha(参考訳) そこで本稿では, 感情表現を適切に表現し, 3次元ポーズを合成する生成的対人ネットワークを提案する。 本ネットワークは,入力音声とシードポーズから符号化された特徴の組込み空間からジェスチャを合成するジェネレータと,合成されたポーズシーケンスと実3Dポーズシーケンスを識別する識別器とから構成される。 我々は,入力音声から出力されるメル周波数ケプストラム係数とテキストの書き起こしを利用して,所望の感情と関連する感情の手がかりを学習する。 マルチスケール空間時間グラフ畳み込みを用いた情緒的エンコーダを設計し,3次元ポーズ列を潜在ポーズに基づく情緒的特徴に変換する。 私たちは、私たちのジェネレータの両方で、感情エンコーダを使って、種子のポーズから感情的な特徴を学び、ジェスチャー合成をガイドし、私たちの識別器は、適切な感情的な表現を含むように、合成されたジェスチャーを強制します。 音声からのジェスチャー合成のための2つのベンチマークデータセット、TED Gesture DatasetとGENEA Challenge 2020 Datasetについて広範な評価を行った。 最良ベースラインと比較して,平均絶対関節誤差を10~33%,平均加速度差を8~58%,Fr'echet Gesture Distanceを21~34%改善した。 また, 被験者の約15.28%が, 合成したジェスチャーの方が分かりやすいと回答し, 被験者の約16.32%は, ジェスチャーが発話に合った感情表現を持っていると感じた。

We present a generative adversarial network to synthesize 3D pose sequences of co-speech upper-body gestures with appropriate affective expressions. Our network consists of two components: a generator to synthesize gestures from a joint embedding space of features encoded from the input speech and the seed poses, and a discriminator to distinguish between the synthesized pose sequences and real 3D pose sequences. We leverage the Mel-frequency cepstral coefficients and the text transcript computed from the input speech in separate encoders in our generator to learn the desired sentiments and the associated affective cues. We design an affective encoder using multi-scale spatial-temporal graph convolutions to transform 3D pose sequences into latent, pose-based affective features. We use our affective encoder in both our generator, where it learns affective features from the seed poses to guide the gesture synthesis, and our discriminator, where it enforces the synthesized gestures to contain the appropriate affective expressions. We perform extensive evaluations on two benchmark datasets for gesture synthesis from the speech, the TED Gesture Dataset and the GENEA Challenge 2020 Dataset. Compared to the best baselines, we improve the mean absolute joint error by 10--33%, the mean acceleration difference by 8--58%, and the Fr\'echet Gesture Distance by 21--34%. We also conduct a user study and observe that compared to the best current baselines, around 15.28% of participants indicated our synthesized gestures appear more plausible, and around 16.32% of participants felt the gestures had more appropriate affective expressions aligned with the speech.
公開日:2021-08-03
翻訳日:2021-08-04 11:05:22
# (参考訳) DNN特徴バックボーンの再考による逆ロバストとドメイン一般化可能なステレオマッチングに向けて [全文訳有]

Towards Adversarially Robust and Domain Generalizable Stereo Matching by Rethinking DNN Feature Backbones ( http://arxiv.org/abs/2108.00335v1 )

ライセンス: CC BY 4.0
Kelvin Cheng, Christopher Healey, Tianfu Wu(参考訳) ステレオマッチングは、最近Deep Neural Networks (DNN)を使用して顕著な進歩をみせた。 でも どれぐらい頑丈なの? DNNが壊滅的な性能低下を伴う敵意の脆弱性に悩まされることはよく知られているが、ステレオマッチングの状況はさらに悪化している。 本稿ではまず,ホワイトボックス攻撃の一種が最先端の手法に失敗する可能性を示す。 この攻撃はステレオマッチングにおいて提案した立体拘束型射影勾配降下法(PGD)によって学習される。 この観察は、DNNベースのステレオマッチングの展開に対する深刻な懸念を引き起こす。 逆境の脆弱性と並行して、DNNベースのステレオマッチングは一般的に、現実のパイプラインへのシミュレーションの下で訓練される。 本稿では,学習可能なDNNベースの特徴バックボーンを,完全に取り除いたり,左参照画像にのみ適用することで,逆ロスや領域一般化可能なステレオマッチングに再考する。 原入力ステレオ画像の古典的マルチスケール・サーチ変換(ローカルバイナリ・パターン)を用いてマッチングコストを計算し、次いでマッチング問題を解いたHourglassヘッドサブネットワークを積み重ねる。 実験では,提案手法をSceneFlowデータセットとKITTI2015ベンチマークで検証した。 これは、最先端の方法に匹敵する精度を保ちながら、逆のロバスト性を大幅に改善する。 また、微調整を行わない場合、シミュレーション(SceneFlow)からリアル(KITTI)データセットへの一般化性も向上する。

Stereo matching has recently witnessed remarkable progress using Deep Neural Networks (DNNs). But, how robust are they? Although it has been well-known that DNNs often suffer from adversarial vulnerability with a catastrophic drop in performance, the situation is even worse in stereo matching. This paper first shows that a type of weak white-box attacks can fail state-of-the-art methods. The attack is learned by a proposed stereo-constrained projected gradient descent (PGD) method in stereo matching. This observation raises serious concerns for the deployment of DNN-based stereo matching. Parallel to the adversarial vulnerability, DNN-based stereo matching is typically trained under the so-called simulation to reality pipeline, and thus domain generalizability is an important problem. This paper proposes to rethink the learnable DNN-based feature backbone towards adversarially-robust and domain generalizable stereo matching, either by completely removing it or by applying it only to the left reference image. It computes the matching cost volume using the classic multi-scale census transform (i.e., local binary pattern) of the raw input stereo images, followed by a stacked Hourglass head sub-network solving the matching problem. In experiments, the proposed method is tested in the SceneFlow dataset and the KITTI2015 benchmark. It significantly improves the adversarial robustness, while retaining accuracy performance comparable to state-of-the-art methods. It also shows better generalizability from simulation (SceneFlow) to real (KITTI) datasets when no fine-tuning is used.
公開日:2021-07-31
翻訳日:2021-08-04 11:04:22
# (参考訳) exemplar reconstruction を用いたオープンセット分類器の学習 [全文訳有]

Learning Few-shot Open-set Classifiers using Exemplar Reconstruction ( http://arxiv.org/abs/2108.00340v1 )

ライセンス: CC BY 4.0
Sayak Nag, Dripta S. Raychaudhuri, Sujoy Paul, Amit K. Roy-Chowdhury(参考訳) 本研究では,未確認のカテゴリ (オープンセット分類) からサンプルを識別する方法の問題点について検討する。 ごく少数のサンプルを持つクラスのよい抽象化を学ぶことの難しさは、未発見のカテゴリからサンプルを検出するのを極めて困難にしている。 多くの開集合数ショット分類法は、オープンクラス標本の均一な確率を示すためにソフトマックススコアを正規化しているが、このアプローチはしばしば不正確である。 その代わり,オープンクラスサンプルを共同で検出するメタラーニング手法を提案するとともに,メトリクスベースの分類によるクラスからサンプルを分類する手法を提案する。 クラスの代表として機能する例は、トレーニングデータセットで提供されるか、フィーチャードメインで見積もられる。 Reconstructing Exemplar based Few-shot Open-set Classifier (ReFOCS) と名付けられた我々のフレームワークは、さまざまなデータセットでテストされており、実験結果は、我々の手法を新しい最先端技術として明確に強調している。

We study the problem of how to identify samples from unseen categories (open-set classification) when there are only a few samples given from the seen categories (few-shot setting). The challenge of learning a good abstraction for a class with very few samples makes it extremely difficult to detect samples from the unseen categories; consequently, open-set recognition has received minimal attention in the few-shot setting. Most open-set few-shot classification methods regularize the softmax score to indicate uniform probability for open class samples but we argue that this approach is often inaccurate, especially at a fine-grained level. Instead, we propose a novel exemplar reconstruction-based meta-learning strategy for jointly detecting open class samples, as well as, categorizing samples from seen classes via metric-based classification. The exemplars, which act as representatives of a class, can either be provided in the training dataset or estimated in the feature domain. Our framework, named Reconstructing Exemplar based Few-shot Open-set ClaSsifier (ReFOCS), is tested on a wide variety of datasets and the experimental results clearly highlight our method as the new state of the art.
公開日:2021-07-31
翻訳日:2021-08-04 10:45:05
# (参考訳) LASOR: 正確な3D画像と形状を学習する : 合成オクルージョンデータとニューラルネットワークレンダリング [全文訳有]

LASOR: Learning Accurate 3D Human Pose and Shape Via Synthetic Occlusion-Aware Data and Neural Mesh Rendering ( http://arxiv.org/abs/2108.00351v1 )

ライセンス: CC BY 4.0
Kaibing Yang, Renshu Gu, Masahiro Toyoura and Gang Xu(参考訳) 人間のポーズと形状推定のタスクにおける重要な課題は、自己閉塞、対人閉塞、対人閉塞を含む閉塞である。 多様な正確なポーズや形状のトレーニングデータの欠如は、特に野生のオクルージョンのあるシーンにおいて、大きなボトルネックとなっている。 本稿では, 対人咬合の場合のポーズと形状の推定に焦点をあてるとともに, 対人咬合や自己閉塞も扱う。 咬合対応シルエットと2dキーポイントデータを合成し,smplポーズと形状パラメータを直接回帰する枠組みを提案する。 ニューラル3dメッシュレンダラは、シルエットをオンザフライで監視可能にするために活用され、形状推定の大幅な改善に寄与する。 さらに、パノラマ視点におけるキーポイントとシルエット駆動のトレーニングデータを合成し、既存のデータセットにおける視点の多様性の欠如を補う。 実験の結果,3DPWデータセットのポーズ精度では最先端であり,形状精度ではランク1法よりも明らかに優れていた。 また,SSP-3Dでは形状予測精度が向上した。

A key challenge in the task of human pose and shape estimation is occlusion, including self-occlusions, object-human occlusions, and inter-person occlusions. The lack of diverse and accurate pose and shape training data becomes a major bottleneck, especially for scenes with occlusions in the wild. In this paper, we focus on the estimation of human pose and shape in the case of inter-person occlusions, while also handling object-human occlusions and self-occlusion. We propose a framework that synthesizes occlusion-aware silhouette and 2D keypoints data and directly regress to the SMPL pose and shape parameters. A neural 3D mesh renderer is exploited to enable silhouette supervision on the fly, which contributes to great improvements in shape estimation. In addition, keypoints-and-silhou ette-driven training data in panoramic viewpoints are synthesized to compensate for the lack of viewpoint diversity in any existing dataset. Experimental results show that we are among state-of-the-art on the 3DPW dataset in terms of pose accuracy and evidently outperform the rank-1 method in terms of shape accuracy. Top performance is also achieved on SSP-3D in terms of shape prediction accuracy.
公開日:2021-08-01
翻訳日:2021-08-04 10:27:50
# (参考訳) badencoder: 自己教師付き学習における事前学習エンコーダに対するバックドア攻撃 [全文訳有]

BadEncoder: Backdoor Attacks to Pre-trained Encoders in Self-Supervised Learning ( http://arxiv.org/abs/2108.00352v1 )

ライセンス: CC BY 4.0
Jinyuan Jia and Yupei Liu and Neil Zhenqiang Gong(参考訳) コンピュータビジョンにおける自己教師あり学習は、大量のラベルのない画像または(画像、テキスト)ペアを使用して画像エンコーダを事前学習することを目的としている。 事前トレーニングされたイメージエンコーダは、少数のラベル付きトレーニングデータで下流タスクのための下流分類器を構築する機能抽出器として使用できる。 本研究では,自己教師型学習の最初のバックドア攻撃であるBadEncoderを提案する。 特に我々のbadencoderは、バックドアを事前学習したイメージエンコーダに注入し、ダウンストリームタスク用のバックドアイメージエンコーダに基づいて構築された下流の分類器が同時にバックドアの動作を継承するようにします。 我々は,BadEncoderを最適化問題として定式化し,それを解決するための勾配降下法を提案し,クリーンな画像エンコーダからバックドア画像エンコーダを生成する。 複数のデータセットに対する実験結果から,BadEncoderは下流分類器の精度を保ちながら高い攻撃成功率を達成することが示された。 また,実世界の画像エンコーダであるgoogleのイメージエンコーダをimagenetで事前学習し,openaiのコントラスト型言語画像前訓練(clip)画像エンコーダをインターネットから4億組(画像,テキスト)のペアで事前学習して,badencoderの有効性を示す。 さらに,神経洗浄やmntdなどの防御,パッチガード(証明可能な防御)についても検討した。 以上の結果から,BadEncoderに対する防衛は不十分であり,BadEncoderに対する新たな防衛の必要性を強調している。 私たちのコードは、https://github.com/j jy 1994/BadEncoder.comで公開されています。

Self-supervised learning in computer vision aims to pre-train an image encoder using a large amount of unlabeled images or (image, text) pairs. The pre-trained image encoder can then be used as a feature extractor to build downstream classifiers for many downstream tasks with a small amount of or no labeled training data. In this work, we propose BadEncoder, the first backdoor attack to self-supervised learning. In particular, our BadEncoder injects backdoors into a pre-trained image encoder such that the downstream classifiers built based on the backdoored image encoder for different downstream tasks simultaneously inherit the backdoor behavior. We formulate our BadEncoder as an optimization problem and we propose a gradient descent based method to solve it, which produces a backdoored image encoder from a clean one. Our extensive empirical evaluation results on multiple datasets show that our BadEncoder achieves high attack success rates while preserving the accuracy of the downstream classifiers. We also show the effectiveness of BadEncoder using two publicly available, real-world image encoders, i.e., Google's image encoder pre-trained on ImageNet and OpenAI's Contrastive Language-Image Pre-training (CLIP) image encoder pre-trained on 400 million (image, text) pairs collected from the Internet. Moreover, we consider defenses including Neural Cleanse and MNTD (empirical defenses) as well as PatchGuard (a provable defense). Our results show that these defenses are insufficient to defend against BadEncoder, highlighting the needs for new defenses against our BadEncoder. Our code is publicly available at: https://github.com/j jy1994/BadEncoder.
公開日:2021-08-01
翻訳日:2021-08-04 10:09:30
# (参考訳) ellipsdf:バイレベル楕円と符号付き距離関数記述による関節物体のポーズと形状最適化 [全文訳有]

ELLIPSDF: Joint Object Pose and Shape Optimization with a Bi-level Ellipsoid and Signed Distance Function Description ( http://arxiv.org/abs/2108.00355v1 )

ライセンス: CC BY 4.0
Mo Shan, Qiaojun Feng, You-Yi Jau, Nikolay Atanasov(参考訳) 自律システムは、オブジェクトレベルのタスク仕様を理解し安全に実行するために、環境の意味と幾何学を理解する必要がある。 本稿では,複数視点のRGB-Dカメラ観測からオブジェクトレベルマップを推定するための,共同オブジェクトポーズと形状最適化のための表現的かつコンパクトなモデルを提案する。 モデルは、環境中の物体のアイデンティティ、位置、方向、形状をキャプチャするので、表現力がある。 これは、暗黙のオブジェクト形状の低次元潜在表現に依存しており、大きなマルチカテゴリオブジェクトマップのオンボード保存を可能にするためコンパクトである。 単一オブジェクト表現フォーマットに依存する他の作品とは異なり、我々のアプローチは粗いレベルのスケールと細かいレベルの形状の詳細の両方をキャプチャする双レベルオブジェクトモデルを持っています。 本手法は大規模実世界のscannetデータセット上で評価し,最先端手法と比較した。

Autonomous systems need to understand the semantics and geometry of their surroundings in order to comprehend and safely execute object-level task specifications. This paper proposes an expressive yet compact model for joint object pose and shape optimization, and an associated optimization algorithm to infer an object-level map from multi-view RGB-D camera observations. The model is expressive because it captures the identities, positions, orientations, and shapes of objects in the environment. It is compact because it relies on a low-dimensional latent representation of implicit object shape, allowing onboard storage of large multi-category object maps. Different from other works that rely on a single object representation format, our approach has a bi-level object model that captures both the coarse level scale as well as the fine level shape details. Our approach is evaluated on the large-scale real-world ScanNet dataset and compared against state-of-the-art methods.
公開日:2021-08-01
翻訳日:2021-08-04 09:36:55
# (参考訳) 有限ポジション選択関数によるSticky-Datalog+/-の拡張:トラクタビリティ、アルゴリズム、最適化

Extending Sticky-Datalog+/- via Finite-Position Selection Functions: Tractability, Algorithms, and Optimization ( http://arxiv.org/abs/2108.00903v2 )

ライセンス: CC BY 4.0
Leopoldo Bertossi, Mostafa Milani(参考訳) weakly-sticky(ws) datalog+/-は、粘着性と非循環性の条件に基づいて定義されるdatalog+/-プログラムクラスの表現力のあるメンバーである。 WS プログラム上での接続型クエリ応答 (QA) について検討し,データ複雑性のトラクタビリティを確立した。 しかし,実効的なQAアルゴリズムの設計と実装とその最適化は未完成である。 このギャップを埋めるために、私たちはまず、追跡手順の振る舞いの観点から、StickyとWSプログラムを研究します。 我々は、チェイスのスティッキネス特性を、チェイス中に有限の値が現れる述語位置を選択する(そして提供する)オラクルの一般化されたスティッキネス(gsch)モジュロに拡張する。 これらの位置のサブセットのみを提供する選択関数 S の粘度変調は、GSCh のセマンティックサブクラス sch(S) を定義する。 選択関数を持つプログラムクラスには、Sticky と WS と、WS を含むジョイント弱スティックプログラムの導入と特徴付けを行う別の構文クラス、すなわち JWS がある。 これら3つのクラスの選択関数は計算可能であり、外部の計算不可能なオラクルは必要ない。 本稿では,一般選択関数 s に対するクラス sch(s) におけるプログラムのボトムアップ qa アルゴリズムを提案する。 WSと異なり、JWSはマジックセットのクエリ最適化の下でクローズされている。 その結果、一般的な多項式時間QAアルゴリズムとマジックセット最適化の両方を具体化し、WSに適用することができる。

Weakly-Sticky(WS) Datalog+/- is an expressive member of the family of Datalog+/- program classes that is defined on the basis of the conditions of stickiness and weak-acyclicity. Conjunctive query answering (QA) over the WS programs has been investigated, and its tractability in data complexity has been established. However, the design and implementation of practical QA algorithms and their optimizations have been open. In order to fill this gap, we first study Sticky and WS programs from the point of view of the behavior of the chase procedure. We extend the stickiness property of the chase to that of generalized stickiness of the chase (GSCh) modulo an oracle that selects (and provides) the predicate positions where finitely values appear during the chase. Stickiness modulo a selection function S that provides only a subset of those positions defines sch(S), a semantic subclass of GSCh. Program classes with selection functions include Sticky and WS, and another syntactic class that we introduce and characterize, namely JWS, of jointly-weakly-stick y programs, which contains WS. The selection functions for these last three classes are computable, and no external, possibly non-computable oracle is needed. We propose a bottom-up QA algorithm for programs in the class sch(S), for a general selection function S. As a particular case, we obtain a polynomial-time QA algorithm for JWS and weakly-sticky programs. Unlike WS, JWS turns out to be closed under magic-sets query optimization. As a consequence, both the generic polynomial-time QA algorithm and its magic-set optimization can be particularized and applied to WS.
公開日:2021-08-03
翻訳日:2021-08-04 09:17:31
# トランスファーラーニング手法を用いた地盤構造データ付き変圧器マップマッチングモデル

Transformer-based Map Matching Model with Limited Ground-Truth Data using Transfer-Learning Approach ( http://arxiv.org/abs/2108.00439v2 )

ライセンス: Link先を確認
Zhixiong Jin, Seongjin Choi, Hwasoo Yeo(参考訳) 多くの軌道ベースのアプリケーションでは、生のgpsトラジェクタをデジタルマップの道路網にマッピングする必要がある。 従来のマップマッチング手法では,マップマッチング問題に対処するためにルールベースのアルゴリズムが用いられてきたが,本論文ではデータの観点からマップマッチングの課題を考察し,深層学習に基づくマップマッチングモデルを提案する。 トランスフォーマーを用いた地図マッチングモデルを構築し,トランスファー学習手法を提案する。 合成軌道データを生成して変圧器モデルの事前学習を行い, モデル開発コストを最小化し, 実物間ギャップを低減した。 3つの指標(平均ハミング距離、f-score、bleu)を2つのレベル(ポイントとセグメントレベル)で測定し、モデルの性能を評価する。 その結果,提案モデルが既存モデルを上回ることがわかった。 さらに、マップマッチングプロセスをプロットするためにトランスの注意重みを使用し、モデルがどのように道路セグメントと正しく一致しているかを見出す。

In many trajectory-based applications, it is necessary to map raw GPS trajectories onto road networks in digital maps, which is commonly referred to as a map-matching process. While most previous map-matching methods have focused on using rule-based algorithms to deal with the map-matching problems, in this paper, we consider the map-matching task from the data perspective, proposing a deep learning-based map-matching model. We build a Transformer-based map-matching model with a transfer learning approach. We generate synthetic trajectory data to pre-train the Transformer model and then fine-tune the model with a limited number of ground-truth data to minimize the model development cost and reduce the real-to-virtual gap. Three metrics (Average Hamming Distance, F-score, and BLEU) at two levels (point and segment level) are used to evaluate the model performance. The results indicate that the proposed model outperforms existing models. Furthermore, we use the attention weights of the Transformer to plot the map-matching process and find how the model matches the road segments correctly.
公開日:2021-08-03
翻訳日:2021-08-04 09:16:28
# (参考訳) 実用的マスキングによる社会的意味検出の改善とサロゲートファインチューニング [全文訳有]

Improving Social Meaning Detection with Pragmatic Masking and Surrogate Fine-Tuning ( http://arxiv.org/abs/2108.00356v1 )

ライセンス: CC BY 4.0
Chiyu Zhang, Muhammad Abdul-Mageed, AbdelRahim Elmadany, El Moatez Billah Nagoudi(参考訳) Masked Language Model (MLM) は、たとえ有用であっても下流の微調整の目的とミスマッチしているとして、事前に訓練されている。 本研究では,社会的な意味のタスクに有用な幅広い概念のセットに向けて,事前学習された表現を促進するための2つの戦略として,実用的なマスキングと微調整を提案する。 提案手法をテストするため,ソーシャルな意味検出のための15種類のTwitterデータセットのベンチマークを新たに導入した。 提案手法は,マルチタスク学習や大規模データセットで事前学習したドメイン固有言語モデルといった他のトランスファー学習手法よりも優れながら,競合ベースラインよりも2.34%のf1を達成している。 トレーニングデータのわずか5%(ごく少数)で、我々の手法は68.74%の平均的なF1を印象的に実現し、3つの異なる言語の6つのデータセットを含むゼロショット設定で有望な結果を観察する。

Masked language models (MLMs) are pretrained with a denoising objective that, while useful, is in a mismatch with the objective of downstream fine-tuning. We propose pragmatic masking and surrogate fine-tuning as two strategies that exploit social cues to drive pre-trained representations toward a broad set of concepts useful for a wide class of social meaning tasks. To test our methods, we introduce a new benchmark of 15 different Twitter datasets for social meaning detection. Our methods achieve 2.34% F1 over a competitive baseline, while outperforming other transfer learning methods such as multi-task learning and domain-specific language models pretrained on large datasets. With only 5% of training data (severely few-shot), our methods enable an impressive 68.74% average F1, and we observe promising results in a zero-shot setting involving six datasets from three different languages.
公開日:2021-08-01
翻訳日:2021-08-04 09:15:07
# (参考訳) 自律走行車におけるエージェントアウェア状態推定 [全文訳有]

Agent-aware State Estimation in Autonomous Vehicles ( http://arxiv.org/abs/2108.00366v1 )

ライセンス: CC BY 4.0
Shane Parr, Ishan Khatri, Justin Svegliato, and Shlomo Zilberstein(参考訳) 自律システムは、複数のエージェントの動作が共有グローバル状態によって協調される環境で動作することが多い。 したがって、グローバル状態の信頼性の高い推定は、マルチエージェント環境での運用に成功するために重要である。 エージェントアウェア状態推定 - 環境における他のエージェントの振る舞いを観察した状態の間接的推定を計算するためのフレームワークである。 また、遷移非依存のエージェント認識状態推定(エージェント認識状態推定の抽出可能なクラス)を導入し、推論の速度が環境内のエージェントの数と線形にスケール可能であることを示す。 一例として、直接観測の完全な損失の場合の交通信号分類をモデル化する。 本手法は,複数方向からの車両の挙動の観測を考慮し,様々な擬似閉塞シナリオで設定した実世界の自動運転車データに対して,既存の交通専用HMM法よりも精度が高いことを示す。

Autonomous systems often operate in environments where the behavior of multiple agents is coordinated by a shared global state. Reliable estimation of the global state is thus critical for successfully operating in a multi-agent setting. We introduce agent-aware state estimation -- a framework for calculating indirect estimations of state given observations of the behavior of other agents in the environment. We also introduce transition-independe nt agent-aware state estimation -- a tractable class of agent-aware state estimation -- and show that it allows the speed of inference to scale linearly with the number of agents in the environment. As an example, we model traffic light classification in instances of complete loss of direct observation. By taking into account observations of vehicular behavior from multiple directions of traffic, our approach exhibits accuracy higher than that of existing traffic light-only HMM methods on a real-world autonomous vehicle data set under a variety of simulated occlusion scenarios.
公開日:2021-08-01
翻訳日:2021-08-04 08:52:10
# (参考訳) ミリ波質量MIMOシステムにおけるNOMAを用いたCNNチャネル推定 [全文訳有]

CNN based Channel Estimation using NOMA for mmWave Massive MIMO System ( http://arxiv.org/abs/2108.00367v1 )

ライセンス: CC BY 4.0
Anu T S and Tara Raveendran(参考訳) 非直交多重アクセス(NOMA)方式は、第5世代(5G)無線通信における主要な課題に対処するために積極的に検討されている。 チャネル推定は、NOMAスキームがミリ波(mmWave)の大規模マルチインプットマルチアウトプット(MIMO)システムと統合されるシナリオにおいて非常に難しい。 チャネルの正確な推定は、Duo-NOMAとmmWaveのペアリングの利点を利用するために不可欠である。 本稿では,ハイブリッドアーキテクチャ上に構築されたMIMO(Multiple-input multiple-output)システムのチャネルを推定するために,畳み込みニューラルネットワーク(CNN)に基づくアプローチを提案する。 まず、ユーザはチャネルゲインに基づいて異なるクラスタにグループ化され、ビームフォーミング技術により、所望のクラスタの方向の信号を最大化する。 まず、受信した信号からチャネルの粗い推定を行い、この推定をCNNへの入力として与え、チャネル係数を詳細に推定する。 数値図は,提案手法が最小二乗推定,最小平均二乗誤差(MMSE)推定を上回り,クラマー・ラオ境界(CRB)に近いことを示している。

Non-Orthogonal Multiple Access (NOMA) schemes are being actively explored to address some of the major challenges in 5th Generation (5G) Wireless communications. Channel estimation is exceptionally challenging in scenarios where NOMA schemes are integrated with millimeter wave (mmWave) massive multiple-input multiple-output (MIMO) systems. An accurate estimation of the channel is essential in exploiting the benefits of the pairing of the duo-NOMA and mmWave. This paper proposes a convolutional neural network (CNN) based approach to estimate the channel for NOMA based millimeter wave (mmWave) massive multiple-input multiple-output (MIMO) systems built on a hybrid architecture. Initially, users are grouped into different clusters based on their channel gains and beamforming technique is performed to maximize the signal in the direction of desired cluster. A coarse estimation of the channel is first made from the received signal and this estimate is given as the input to CNN to fine estimate the channel coefficients. Numerical illustrations show that the proposed method outperforms least square (LS) estimate, minimum mean square error (MMSE) estimate and are close to the Cramer-Rao Bound (CRB).
公開日:2021-08-01
翻訳日:2021-08-04 08:39:12
# (参考訳) いつ辞めるかを知る:リアルタイム顔アライメントのためのパッチアライメントによる選択的カスケード回帰 [全文訳有]

Knowing When to Quit: Selective Cascaded Regression with Patch Attention for Real-Time Face Alignment ( http://arxiv.org/abs/2108.00377v1 )

ライセンス: CC0 1.0
Gil Shapira, Noga Levy, Ishay Goldin, Roy J. Jevnisek(参考訳) 顔のランドマーク(FLM)推定は多くの顔関連アプリケーションにおいて重要な要素である。 本研究では,精度と速度の両方を最適化し,両者のトレードオフを探究する。 私たちの重要な観察は、すべての顔が等しく作られるわけではないということです。 中性表現を持つ正面の顔は、極端なポーズや表情を持つ顔よりも早く収束する。 サンプルを区別するために、各反復後の回帰誤差を予測するためにモデルを訓練する。 現在のイテレーションが十分に正確であれば、反復をやめ、冗長なイテレーションを節約し、精度を保ちます。 また、隣り合うパッチが重なるにつれて、少数のパッチしか持たないすべての顔ランドマーク(flm)を、大きな正確さを犠牲にすることなく推測できることも観察した。 アーキテクチャ的には,パッチ自体の情報に応じてパッチ重み付けを計算し,パッチ機能の表現力を高める,細粒度の局所パッチアテンションモジュールを備えた,マルチスケールでパッチベース,軽量な機能抽出器を提供する。 本研究は,顔のランドマークを回帰する際に,モデルがどこに出席しているかを推定するためにパッチアテンションデータを解析し,人間の顔アテンションと比較する。 我々のモデルはモバイルデバイスGPU上でリアルタイムに動作し、95Mega Multiply-Add(MMA)演算で1000MMA未満の最先端メソッドをすべて上回り、300W挑戦データセットでは平均エラーが8.16である。

Facial landmarks (FLM) estimation is a critical component in many face-related applications. In this work, we aim to optimize for both accuracy and speed and explore the trade-off between them. Our key observation is that not all faces are created equal. Frontal faces with neutral expressions converge faster than faces with extreme poses or expressions. To differentiate among samples, we train our model to predict the regression error after each iteration. If the current iteration is accurate enough, we stop iterating, saving redundant iterations while keeping the accuracy in check. We also observe that as neighboring patches overlap, we can infer all facial landmarks (FLMs) with only a small number of patches without a major accuracy sacrifice. Architecturally, we offer a multi-scale, patch-based, lightweight feature extractor with a fine-grained local patch attention module, which computes a patch weighting according to the information in the patch itself and enhances the expressive power of the patch features. We analyze the patch attention data to infer where the model is attending when regressing facial landmarks and compare it to face attention in humans. Our model runs in real-time on a mobile device GPU, with 95 Mega Multiply-Add (MMA) operations, outperforming all state-of-the-art methods under 1000 MMA, with a normalized mean error of 8.16 on the 300W challenging dataset.
公開日:2021-08-01
翻訳日:2021-08-04 08:31:03
# (参考訳) 前景セグメンテーションのための視覚境界知識翻訳 [全文訳有]

Visual Boundary Knowledge Translation for Foreground Segmentation ( http://arxiv.org/abs/2108.00379v1 )

ライセンス: CC BY 4.0
Zunlei Feng, Lechao Cheng, Xinchao Wang, Xiang Wang, Yajie Liu, Xiangtong Du, Mingli Song(参考訳) 画像の中の未知のタイプのオブジェクトと向き合うと、人間は視覚の境界を無力かつ正確に伝えることができる。 この認識機構と基礎となる一般化能力は、大規模カテゴリアノテートトレーニングサンプルに依存する最先端の画像セグメンテーションネットワークとは対照的である。 本稿では,視覚境界知識を明示的に考慮したモデルの構築を試みた。 具体的には,境界知識翻訳(BKT)と呼ばれる新しいタスクについて検討する。 完全なラベル付きカテゴリのセットを与えられたBKTは、ラベル付きカテゴリから学んだ視覚境界知識を、ラベル付きサンプルのみを提供する新しいカテゴリのセットに変換することを目的としている。 そこで本研究では,セグメンテーションネットワークと2つの境界識別器からなる翻訳セグメンテーションネットワーク(Trans-Net)を提案する。 境界認識自己監視機構と組み合わされたセグメンテーションネットワークは、前景セグメンテーションを行うように考案され、一方2つの判別器は、光監督下で新しいカテゴリの正確なセグメンテーションを保証するために、逆向きに協調して動作する。 探索実験では、数十のラベル付きサンプルのみをガイダンスとして、Trans-Netは完全な教師付き手法と同等に密接な結果が得られることを示した。

When confronted with objects of unknown types in an image, humans can effortlessly and precisely tell their visual boundaries. This recognition mechanism and underlying generalization capability seem to contrast to state-of-the-art image segmentation networks that rely on large-scale category-aware annotated training samples. In this paper, we make an attempt towards building models that explicitly account for visual boundary knowledge, in hope to reduce the training effort on segmenting unseen categories. Specifically, we investigate a new task termed as Boundary Knowledge Translation (BKT). Given a set of fully labeled categories, BKT aims to translate the visual boundary knowledge learned from the labeled categories, to a set of novel categories, each of which is provided only a few labeled samples. To this end, we propose a Translation Segmentation Network (Trans-Net), which comprises a segmentation network and two boundary discriminators. The segmentation network, combined with a boundary-aware self-supervised mechanism, is devised to conduct foreground segmentation, while the two discriminators work together in an adversarial manner to ensure an accurate segmentation of the novel categories under light supervision. Exhaustive experiments demonstrate that, with only tens of labeled samples as guidance, Trans-Net achieves close results on par with fully supervised methods.
公開日:2021-08-01
翻訳日:2021-08-04 08:18:10
# (参考訳) 限定ラベルを用いたエッジ競合病的肝血管分画 [全文訳有]

Edge-competing Pathological Liver Vessel Segmentation with Limited Labels ( http://arxiv.org/abs/2108.00384v1 )

ライセンス: CC BY 4.0
Zunlei Feng, Zhonghua Wang, Xinchao Wang, Xiuming Zhang, Lechao Cheng, Jie Lei, Yuexuan Wang, Mingli Song(参考訳) 微小血管浸潤(MVI)は肝細胞癌の主要な予後因子であり,最も死亡率の高い悪性腫瘍の1つである。 MVIの診断には、肝細胞癌細胞を含む血管を発見し、医師の経験に大きく依存する各血管の数をカウントする必要があるが、主に主観的で時間を要する。 しかし,病理像からのMVI検出に適したアルゴリズムは存在しない。 本稿では,血管,mvi,肝細胞癌を分類した522個のスライド画像を含む最初の病理肝画像データセットを収集した。 MVIを自動診断する第1のステップは、正確な血管分割である。 超大サイズ、マルチスケール血管、ぼやけた血管縁などの病的肝臓画像の特異な特徴は、正確な血管分割を困難にする。 収集したデータセットに基づいて,セグメント化ネットワークと2つのエッジセグメント判別器を含むエッジ競合容器セグメンテーションネットワーク(evs-net)を提案する。 エッジアウェアの自己スーパービジョン機構と組み合わされたセグメンテーションネットワークは、制限されたラベル付きパッチで容器セグメンテーションを行うために考案された。 一方,2つの判別器を導入して,分断された容器と背景が相反的に残存した特徴を含むか否かを判別する。 訓練段階では、エッジの予測位置を比較できる2つの判別器が考案される。 徹底的な実験により、ラベル付きパッチのみを伴って、evs-netは完全に監督された方法の密接な性能を実現し、病的肝血管分画に便利なツールを提供することが示されている。 コードはhttps://github.com/z ju-vipa/EVS-Netで公開されている。

The microvascular invasion (MVI) is a major prognostic factor in hepatocellular carcinoma, which is one of the malignant tumors with the highest mortality rate. The diagnosis of MVI needs discovering the vessels that contain hepatocellular carcinoma cells and counting their number in each vessel, which depends heavily on experiences of the doctor, is largely subjective and time-consuming. However, there is no algorithm as yet tailored for the MVI detection from pathological images. This paper collects the first pathological liver image dataset containing 522 whole slide images with labels of vessels, MVI, and hepatocellular carcinoma grades. The first and essential step for the automatic diagnosis of MVI is the accurate segmentation of vessels. The unique characteristics of pathological liver images, such as super-large size, multi-scale vessel, and blurred vessel edges, make the accurate vessel segmentation challenging. Based on the collected dataset, we propose an Edge-competing Vessel Segmentation Network (EVS-Net), which contains a segmentation network and two edge segmentation discriminators. The segmentation network, combined with an edge-aware self-supervision mechanism, is devised to conduct vessel segmentation with limited labeled patches. Meanwhile, two discriminators are introduced to distinguish whether the segmented vessel and background contain residual features in an adversarial manner. In the training stage, two discriminators are devised tocompete for the predicted position of edges. Exhaustive experiments demonstrate that, with only limited labeled patches, EVS-Net achieves a close performance of fully supervised methods, which provides a convenient tool for the pathological liver vessel segmentation. Code is publicly available at https://github.com/z ju-vipa/EVS-Net.
公開日:2021-08-01
翻訳日:2021-08-04 08:00:38
# (参考訳) 文字レベル情報を用いたトークンベースのエンコーダの強化 [全文訳有]

Learning to Look Inside: Augmenting Token-Based Encoders with Character-Level Information ( http://arxiv.org/abs/2108.00391v1 )

ライセンス: CC BY-SA 4.0
Yuval Pinter, Amanda Stent, Mark Dredze, Jacob Eisenstein(参考訳) 一般的に使用されるトランスフォーマー言語モデルは、事前トレーニングの前に変更不能なサブワード語彙を設定するトークン化スキーマに依存しており、ドメインシフト、新規な単語形成、その他の語彙ミスマッチのソースに関係なく、すべての下流タスクに適用される。 近年の研究では、"token-free"モデルは文字やバイトで直接トレーニングできることが示されているが、これらのモデルをスクラッチからトレーニングするにはかなりの計算資源が必要である。 本稿では,既存のトークンベースモデルに文字レベルの情報を加える手法であるXRayEmbを提案する。 xrayembは、文字列のベクトル表現を計算する文字レベルの「エンコーダ」と、その内部表現から文字配列へ復号する生成成分から構成されている。 我々は,XRayEmbの学習ベクトルを事前学習したトークン埋め込みのシーケンスに組み込むことで,自己回帰型およびマスク付き事前学習型トランスフォーマーアーキテクチャ,およびシーケンシャルレベルおよびシーケンスタグタスク,特に非標準英語テキストの性能向上に役立つことを示す。

Commonly-used transformer language models depend on a tokenization schema which sets an unchangeable subword vocabulary prior to pre-training, destined to be applied to all downstream tasks regardless of domain shift, novel word formations, or other sources of vocabulary mismatch. Recent work has shown that "token-free" models can be trained directly on characters or bytes, but training these models from scratch requires substantial computational resources, and this implies discarding the many domain-specific models that were trained on tokens. In this paper, we present XRayEmb, a method for retrofitting existing token-based models with character-level information. XRayEmb is composed of a character-level "encoder" that computes vector representations of character sequences, and a generative component that decodes from the internal representation to a character sequence. We show that incorporating XRayEmb's learned vectors into sequences of pre-trained token embeddings helps performance on both autoregressive and masked pre-trained transformer architectures and on both sequence-level and sequence tagging tasks, particularly on non-standard English text.
公開日:2021-08-01
翻訳日:2021-08-04 07:43:51
# (参考訳) 自律システム組み込みGPUプラットフォームへの展開のためのYOLOv4に基づく圧縮対象検出モデルの開発 [全文訳有]

Developing a Compressed Object Detection Model based on YOLOv4 for Deployment on Embedded GPU Platform of Autonomous System ( http://arxiv.org/abs/2108.00392v1 )

ライセンス: CC BY 4.0
Issac Sim, Ju-Hyung Lim, Young-Wan Jang, JiHwan You, SeonTaek Oh, and Young-Keun Kim(参考訳) 最新のCNNベースのオブジェクト検出モデルは極めて正確だが、リアルタイムに実行するには高性能GPUが必要である。 メモリ容量が限られている組み込みシステムでは、メモリサイズと速度の面で依然として重い。 自律システムの物体検出は組み込みプロセッサ上で実行されるため、検出精度を維持しつつ、検出ネットワークをできるだけ光として圧縮することが好ましい。 一般的な軽量検出モデルがいくつかあるが、安全運転アプリケーションには精度が低すぎる。 そこで本研究では,自律システム上でのリアルタイムかつ安全な運転用アプリケーションの精度損失を最小限に抑えつつ,高い比で圧縮されたYOffleNetと呼ばれる新しい物体検出モデルを提案する。 バックボーンネットワークアーキテクチャはYOLOv4に基づいているが、高計算負荷のCSP DenseNetをShuffleNetの軽量モジュールに置き換えることで、ネットワークを大幅に圧縮できる。 kittiデータセットを用いた実験では、組込みgpuシステム(nvidia jetson agx xavier)上で46fpsの高速化が可能なyolov4-sよりも4.7倍圧縮された。 高圧縮比と比較して、精度は85.8% mAPにわずかに低下し、YOLOv4-sよりわずか2.6%低い。 そこで提案したネットワークは,リアルタイムかつ高精度な物体検出アプリケーションのために,自律システムの組み込みシステムに展開する可能性が高いことを示した。

Latest CNN-based object detection models are quite accurate but require a high-performance GPU to run in real-time. They still are heavy in terms of memory size and speed for an embedded system with limited memory space. Since the object detection for autonomous system is run on an embedded processor, it is preferable to compress the detection network as light as possible while preserving the detection accuracy. There are several popular lightweight detection models but their accuracy is too low for safe driving applications. Therefore, this paper proposes a new object detection model, referred as YOffleNet, which is compressed at a high ratio while minimizing the accuracy loss for real-time and safe driving application on an autonomous system. The backbone network architecture is based on YOLOv4, but we could compress the network greatly by replacing the high-calculation-loa d CSP DenseNet with the lighter modules of ShuffleNet. Experiments with KITTI dataset showed that the proposed YOffleNet is compressed by 4.7 times than the YOLOv4-s that could achieve as fast as 46 FPS on an embedded GPU system(NVIDIA Jetson AGX Xavier). Compared to the high compression ratio, the accuracy is reduced slightly to 85.8% mAP, that is only 2.6% lower than YOLOv4-s. Thus, the proposed network showed a high potential to be deployed on the embedded system of the autonomous system for the real-time and accurate object detection applications.
公開日:2021-08-01
翻訳日:2021-08-04 07:25:11
# (参考訳) ディープグラフマッチングは、混合整数線形プログラミングと合致する - 自分のリスクでリラックスするか?

Deep graph matching meets mixed-integer linear programming: Relax at your own risk ? ( http://arxiv.org/abs/2108.00394v1 )

ライセンス: CC BY 4.0
Zhoubo Xu, Puqing Chen, Romain Raveaux, Xin Yang, Huadong Liu(参考訳) グラフマッチングは、特にコンピュータビジョンの分野で広く注目を集めている重要な問題である。 近年,最先端の手法が深層学習にグラフマッチングを取り入れようとしている。 しかし、グラフマッチングアルゴリズムがモデルでどのような役割を果たすのかを説明する研究はない。 そこで本研究では,グラフマッチング問題のMILP定式化を統合するアプローチを提案する。 この定式化は最適に解かれ、固有のベースラインを提供する。 一方、グラフマッチングソルバの最適保証を解放し、品質レベルを導入することにより、同様のアプローチが導出される。 この品質レベルは、グラフマッチング解決器によって提供されるソリューションの品質を制御する。 さらに、グラフマッチング問題のいくつかの緩和をテストに適用する。 実験により,いくつかの理論的知見が得られ,深部グラフマッチング手法の方向性を導出する。

Graph matching is an important problem that has received widespread attention, especially in the field of computer vision. Recently, state-of-the-art methods seek to incorporate graph matching with deep learning. However, there is no research to explain what role the graph matching algorithm plays in the model. Therefore, we propose an approach integrating a MILP formulation of the graph matching problem. This formulation is solved to optimal and it provides inherent baseline. Meanwhile, similar approaches are derived by releasing the optimal guarantee of the graph matching solver and by introducing a quality level. This quality level controls the quality of the solutions provided by the graph matching solver. In addition, several relaxations of the graph matching problem are put to the test. Our experimental evaluation gives several theoretical insights and guides the direction of deep graph matching methods.
公開日:2021-08-01
翻訳日:2021-08-04 06:49:33
# (参考訳) BORM:屋内シーン認識のためのベイズオブジェクト関係モデル [全文訳有]

BORM: Bayesian Object Relation Model for Indoor Scene Recognition ( http://arxiv.org/abs/2108.00397v1 )

ライセンス: CC BY 4.0
Liguang Zhou, Jun Cen, Xingchao Wang, Zhenglong Sun, Tin Lun Lam, Yangsheng Xu(参考訳) シーン認識はロボット知覚の基本的なタスクである。 人間にとって、シーン認識は、現実世界のオブジェクト知識が豊富にあるため合理的である。 事前のオブジェクト知識を人間からシーン認識に転送するというアイデアは重要であるが、それでもあまり役に立たない。 本稿では,室内シーン表現に有意義なオブジェクト表現を用いることを提案する。 まず,改良されたオブジェクトモデル(IOM)をベースラインとして,屋内シーンに関連するリッチなオブジェクトカテゴリを持つADE20Kデータセット上で事前学習したシーン解析アルゴリズムを導入する。 対象の共起や対関係を解析するために,ベイズ的対象関係モデル(BORM)としてベイズ的視点からIOMを定式化する。 一方,提案手法はシーン認識のためのベイズ対象関係モデル (cborm) としてplacescnnモデルに組み込まれ, 削減されたplaces365データセット, sun rgb-dデータセットにおいて, 再トレーニングを行わず, 最先端の手法を著しく上回っている。 コードはhttps://github.com/h szhoushen/borm.orgにある。

Scene recognition is a fundamental task in robotic perception. For human beings, scene recognition is reasonable because they have abundant object knowledge of the real world. The idea of transferring prior object knowledge from humans to scene recognition is significant but still less exploited. In this paper, we propose to utilize meaningful object representations for indoor scene representation. First, we utilize an improved object model (IOM) as a baseline that enriches the object knowledge by introducing a scene parsing algorithm pretrained on the ADE20K dataset with rich object categories related to the indoor scene. To analyze the object co-occurrences and pairwise object relations, we formulate the IOM from a Bayesian perspective as the Bayesian object relation model (BORM). Meanwhile, we incorporate the proposed BORM with the PlacesCNN model as the combined Bayesian object relation model (CBORM) for scene recognition and significantly outperforms the state-of-the-art methods on the reduced Places365 dataset, and SUN RGB-D dataset without retraining, showing the excellent generalization ability of the proposed method. Code can be found at https://github.com/h szhoushen/borm.
公開日:2021-08-01
翻訳日:2021-08-04 06:48:40
# (参考訳) 中国語注釈文の感性分析のためのトランスフォーマーエンコーダGRU(T-E-GRU) [全文訳有]

Transformer-Encoder- GRU (T-E-GRU) for Chinese Sentiment Analysis on Chinese Comment Text ( http://arxiv.org/abs/2108.00400v1 )

ライセンス: CC BY 4.0
Binlong Zhang, Wei Zhou(参考訳) 中国語感情分析(csa)は、その複雑さと不確実性から、自然言語処理における課題の1つである。 トランスフォーマは意味的特徴をキャプチャすることに成功しているが、シーケンス特徴をキャプチャするために位置符号化を使用するため、リカレントモデルに比べて大きな欠点がある。 本稿では, トランスフォーマーエンコーダとGRUを組み合わせた中国語感情分析のためのT-E-GRUを提案する。 我々は中国の3つのコメントデータセットの実験を行った。 中国語のコメントテキストにおける句読点の混同を考慮し,文節化能力のある句読点を選択的に保持する。 実験結果から,T-E-GRUは古典的再帰モデルおよび再帰モデルよりも注目度が高いことがわかった。

Chinese sentiment analysis (CSA) has always been one of the challenges in natural language processing due to its complexity and uncertainty. Transformer has succeeded in capturing semantic features, but it uses position encoding to capture sequence features, which has great shortcomings compared with the recurrent model. In this paper, we propose T-E-GRU for Chinese sentiment analysis, which combine transformer encoder and GRU. We conducted experiments on three Chinese comment datasets. In view of the confusion of punctuation marks in Chinese comment texts, we selectively retain some punctuation marks with sentence segmentation ability. The experimental results show that T-E-GRU outperforms classic recurrent model and recurrent model with attention.
公開日:2021-08-01
翻訳日:2021-08-04 06:30:42
# (参考訳) 基本セルオートマタの計算階層 [全文訳有]

Computational Hierarchy of Elementary Cellular Automata ( http://arxiv.org/abs/2108.00415v1 )

ライセンス: CC BY 4.0
Barbora Hudcov\'a and Tom\'a\v{s} Mikolov(参考訳) セルオートマタの複雑さは、伝統的に計算能力によって測定される。 しかし、そのようなシステムの並列性に適した難解な計算タスクを選択することは困難である。 私たちはオートマトンが互いにエミュレートする能力を研究し、この概念を使って自然に出現するタスクの集合を定義します。 本研究は,基本的なセルオートマトンについて述べるが,コアアイデアは他の計算システムにも拡張できる。 我々は,どのセルオートマトンをエミュレートできるかを示すグラフを計算し,カオスオートマトンだけが非自明にオートマトンをエミュレートできないことを示す。 最後に,エミュレーションの概念を用いて,離散計算システムに適したカオスの定義を提案する。 我々の研究は、チューリング完全かつ計算効率のよい並列計算システムの設計に役立つと信じている。

The complexity of cellular automata is traditionally measured by their computational capacity. However, it is difficult to choose a challenging set of computational tasks suitable for the parallel nature of such systems. We study the ability of automata to emulate one another, and we use this notion to define such a set of naturally emerging tasks. We present the results for elementary cellular automata, although the core ideas can be extended to other computational systems. We compute a graph showing which elementary cellular automata can be emulated by which and show that certain chaotic automata are the only ones that cannot emulate any automata non-trivially. Finally, we use the emulation notion to suggest a novel definition of chaos that we believe is suitable for discrete computational systems. We believe our work can help design parallel computational systems that are Turing-complete and also computationally efficient.
公開日:2021-08-01
翻訳日:2021-08-04 06:18:24
# (参考訳) 精密農業用エッジ上のDNNによる害虫の自動検出 [全文訳有]

Automated Pest Detection with DNN on the Edge for Precision Agriculture ( http://arxiv.org/abs/2108.00421v1 )

ライセンス: CC BY-SA 4.0
Andrea Albanese, Matteo Nardello, and Davide Brunelli(参考訳) 人工知能は、農業分野を含むいくつかの経済活動、特にアプリケーションの監視と制御をスムーズに推進してきた。 しかし、完全に機能する機械学習(ML)を搭載した低消費電力センシングデバイスの研究は、スマート農業において依然として断片化され、制限されている。 生物ストレスは作物の収量減少の主な原因の1つである。 コンピュータビジョン技術におけるディープラーニングの開発により、画像による害虫感染の自律的検出は、タイムリーな作物病診断の重要な研究方向となっている。 本稿では,果実果樹園内の害虫感染を連続的に検出し,ml機能を強化した組込みシステムを提案する。 組み込みソリューションは低消費電力の組み込みセンシングシステムとNeural Acceleratorを使って、一般的なフェロモンベースのトラップ内で画像をキャプチャして処理することができる。 3つの異なるMLアルゴリズムがトレーニングされ、デプロイされ、プラットフォームの能力を強調している。 さらに, エネルギー収穫機能の統合により, 電池寿命の延長が図られている。 その結果,農夫の介入なしに無期限に害虫感染処理を自動化できることが示唆された。

Artificial intelligence has smoothly penetrated several economic activities, especially monitoring and control applications, including the agriculture sector. However, research efforts toward low-power sensing devices with fully functional machine learning (ML) on-board are still fragmented and limited in smart farming. Biotic stress is one of the primary causes of crop yield reduction. With the development of deep learning in computer vision technology, autonomous detection of pest infestation through images has become an important research direction for timely crop disease diagnosis. This paper presents an embedded system enhanced with ML functionalities, ensuring continuous detection of pest infestation inside fruit orchards. The embedded solution is based on a low-power embedded sensing system along with a Neural Accelerator able to capture and process images inside common pheromone-based traps. Three different ML algorithms have been trained and deployed, highlighting the capabilities of the platform. Moreover, the proposed approach guarantees an extended battery life thanks to the integration of energy harvesting functionalities. Results show how it is possible to automate the task of pest infestation for unlimited time without the farmer's intervention.
公開日:2021-08-01
翻訳日:2021-08-04 06:06:15
# (参考訳) 逆注意と条件層正規化を用いたテキストスタイル転送におけるコンテンツ保存の強化 [全文訳有]

Enhancing Content Preservation in Text Style Transfer Using Reverse Attention and Conditional Layer Normalization ( http://arxiv.org/abs/2108.00449v1 )

ライセンス: CC0 1.0
Dongkyu Lee, Zhiliang Tian, Lanqing Xue, Nevin L. Zhang(参考訳) テキストスタイル転送は、文章の内容を維持しながら文のスタイル(例えば感情)を変更することを目的としている。 一般的なアプローチは、与えられた文をスタイルのないコンテンツ表現にマッピングすることであり、コンテンツ表現はターゲットスタイルを持つデコーダに供給される。 従来のフィルタリング方式では、トークンレベルでのスタイルによるトークンを完全に取り除いたため、コンテンツ情報が失われる。 本稿では,各トークンのスタイル情報を逆注意で暗黙的に削除することにより,コンテンツの保存性を高めることを提案する。 さらに、対象のスタイル表現を構築する際にコンテンツ情報を融合し、コンテンツに関して動的にする。 本手法は,スタイル非依存のコンテンツ表現だけでなく,転送スタイルにおけるコンテンツ依存のスタイル表現も生成する。 実験の結果,本手法はコンテンツ保存の点で最先端のベースラインよりも高いマージンを示した。 加えて、スタイル転送の正確さとフラレンシーの面でも競争力がある。

Text style transfer aims to alter the style (e.g., sentiment) of a sentence while preserving its content. A common approach is to map a given sentence to content representation that is free of style, and the content representation is fed to a decoder with a target style. Previous methods in filtering style completely remove tokens with style at the token level, which incurs the loss of content information. In this paper, we propose to enhance content preservation by implicitly removing the style information of each token with reverse attention, and thereby retain the content. Furthermore, we fuse content information when building the target style representation, making it dynamic with respect to the content. Our method creates not only style-independent content representation, but also content-dependent style representation in transferring style. Empirical results show that our method outperforms the state-of-the-art baselines by a large margin in terms of content preservation. In addition, it is also competitive in terms of style transfer accuracy and fluency.
公開日:2021-08-01
翻訳日:2021-08-04 05:45:12
# (参考訳) 局所注意認識機能を用いた自己教師付き学習 [全文訳有]

Self-supervised Learning with Local Attention-Aware Feature ( http://arxiv.org/abs/2108.00475v1 )

ライセンス: CC BY 4.0
Trung X. Pham, Rusty John Lloyd Mina, Dias Issa, Chang D. Yoo(参考訳) 本研究では,グローバル・ローカル・アウェアな視覚特徴を生成するための自己教師型学習手法を提案する。 我々のアプローチは、入力サンプルの特定の画像変換とパッチ画像との区別をモデルで訓練することに基づいている。 このアプローチを利用して、提案手法は、tiny-imagenetデータセットで1.03%、stl-10データセットで2.32%、以前のベストコンペティタを上回ることができる。 さらに,本手法は,STL-10データセットの完全教師付き学習法よりも優れている。 実験結果と可視化は,グローバルおよびローカルな注意認識型視覚表現の学習に成功していることを示す。

In this work, we propose a novel methodology for self-supervised learning for generating global and local attention-aware visual features. Our approach is based on training a model to differentiate between specific image transformations of an input sample and the patched images. Utilizing this approach, the proposed method is able to outperform the previous best competitor by 1.03% on the Tiny-ImageNet dataset and by 2.32% on the STL-10 dataset. Furthermore, our approach outperforms the fully-supervised learning method on the STL-10 dataset. Experimental results and visualizations show the capability of successfully learning global and local attention-aware visual representations.
公開日:2021-08-01
翻訳日:2021-08-04 05:32:25
# (参考訳) 実現されたボラティリティ予測:金融用語埋め込みによる機械学習

Realised Volatility Forecasting: Machine Learning via Financial Word Embedding ( http://arxiv.org/abs/2108.00480v1 )

ライセンス: CC BY 4.0
Eghbal Rahimikia, Stefan Zohren, Ser-Huang Poon(参考訳) 我々は、dow jones newswiresのテキストニュースフィードデータベースから、最新の金融用語を埋め込んだfintextを開発した。 この単語を機械学習モデルに組み込むことで、2007年7月27日から2016年11月18日までの23株のボラティリティー上昇日におけるボラティリティ予測性能が大幅に向上した。 単語埋め込みとリミットオーダーブックデータを用いた別の機械学習モデルを組み合わせた単純なアンサンブルモデルにより、通常とジャンプの変動日の両方で最高の予測性能が得られる。 最後に,統合勾配とshap(shapley additive descriptions)を用いて,結果をより説明しやすくし,モデル比較をより透明にする。

We develop FinText, a novel, state-of-the-art, financial word embedding from Dow Jones Newswires Text News Feed Database. Incorporating this word embedding in a machine learning model produces a substantial increase in volatility forecasting performance on days with volatility jumps for 23 NASDAQ stocks from 27 July 2007 to 18 November 2016. A simple ensemble model, combining our word embedding and another machine learning model that uses limit order book data, provides the best forecasting performance for both normal and jump volatility days. Finally, we use Integrated Gradients and SHAP (SHapley Additive exPlanations) to make the results more 'explainable' and the model comparisons more transparent.
公開日:2021-08-01
翻訳日:2021-08-04 05:24:48
# (参考訳) BundleTrack: インスタンスやカテゴリレベルの3Dモデルのない新しいオブジェクトのための6D Pose Tracking [全文訳有]

BundleTrack: 6D Pose Tracking for Novel Objects without Instance or Category-Level 3D Models ( http://arxiv.org/abs/2108.00516v1 )

ライセンス: CC BY 4.0
Bowen Wen and Kostas Bekris(参考訳) ビデオシーケンス中の物体の6Dポーズを追跡することはロボット操作にとって重要である。 しかしながら、ほとんどの以前の取り組みは、ターゲットオブジェクトのCADモデル(少なくともカテゴリレベル)がオフライントレーニングやオンラインテンプレートマッチングで利用できるとしばしば想定している。 この研究は、3dモデルに依存しない新しいオブジェクトの6dポーズトラッキングのための一般的なフレームワークである bundletrack を提案している。 セグメンテーションとロバストな特徴抽出のためのディープラーニングの最近の進歩の補完的属性と、時空間的一貫性のためのメモリによるポーズグラフ最適化を活用する。 これにより、大きな閉塞や物体の動きなど、様々な困難なシナリオ下での長期の低ドリフト追跡が可能になる。 2つの公開ベンチマークによる総合的な実験により、提案手法は最先端のカテゴリーレベルの6D追跡法や動的SLAM法よりも大幅に優れていることが示された。 オブジェクトインスタンスCADモデルに依存する最先端の手法と比較すると,提案手法では情報要求が減っているにもかかわらず,同等の性能が得られる。 CUDAの効率的な実装は、フレームワーク全体に対して10Hzのリアルタイムパフォーマンスを提供する。 https://github.com/w enbowen123/bundletra ck

Tracking the 6D pose of objects in video sequences is important for robot manipulation. Most prior efforts, however, often assume that the target object's CAD model, at least at a category-level, is available for offline training or during online template matching. This work proposes BundleTrack, a general framework for 6D pose tracking of novel objects, which does not depend upon 3D models, either at the instance or category-level. It leverages the complementary attributes of recent advances in deep learning for segmentation and robust feature extraction, as well as memory-augmented pose graph optimization for spatiotemporal consistency. This enables long-term, low-drift tracking under various challenging scenarios, including significant occlusions and object motions. Comprehensive experiments given two public benchmarks demonstrate that the proposed approach significantly outperforms state-of-art, category-level 6D tracking or dynamic SLAM methods. When compared against state-of-art methods that rely on an object instance CAD model, comparable performance is achieved, despite the proposed method's reduced information requirements. An efficient implementation in CUDA provides a real-time performance of 10Hz for the entire framework. Code is available at: https://github.com/w enbowen123/BundleTra ck
公開日:2021-08-01
翻訳日:2021-08-04 05:23:25
# (参考訳) RNNで必要なのはゲートではない [全文訳有]

Gates are not what you need in RNNs ( http://arxiv.org/abs/2108.00527v1 )

ライセンス: CC BY 4.0
Ronalds Zakovskis, Andis Draguns, Eliza Gaile, Emils Ozolins, Karlis Freivalds(参考訳) リカレントニューラルネットワークは多くの領域で盛んである。 その結果、新しいRNN細胞は、通常、新しいオリジナルな方法でゲートを作成したり使用したりすることで、継続的に開発される。 しかし、もしRNNのゲートが冗長であると言ったらどうでしょう? 本稿では,従来のセルに勝って1つのゲートを使わないResidual Recurrent Unit(RRU)と呼ばれる新しいリカレントセルを提案する。 これは、線形変換、ReLU、正規化と共に、残りのショートカット接続に基づいている。 このセルの有効性を評価するために,多声楽曲のモデル化,言語モデル,感情分析など,最近提案されたモグラファイタlstmとの比較を行った。 実験の結果,RRUは従来のゲートユニットよりも優れていることがわかった。 また、パラメータ選択に対する堅牢性も向上し、チューニングをあまり行わずに、新しいタスクに即座に適用できる。 TensorFlowでRRUを実装しており、コードはhttps://github.com/L UMII-Syslab/RRUで公開されている。

Recurrent neural networks have flourished in many areas. Consequently, we can see new RNN cells being developed continuously, usually by creating or using gates in a new, original way. But what if we told you that gates in RNNs are redundant? In this paper, we propose a new recurrent cell called Residual Recurrent Unit (RRU) which beats traditional cells and does not employ a single gate. It is based on the residual shortcut connection together with linear transformations, ReLU, and normalization. To evaluate our cell's effectiveness, we compare its performance against the widely-used GRU and LSTM cells and the recently proposed Mogrifier LSTM on several tasks including, polyphonic music modeling, language modeling, and sentiment analysis. Our experiments show that RRU outperforms the traditional gated units on most of these tasks. Also, it has better robustness to parameter selection, allowing immediate application in new tasks without much tuning. We have implemented the RRU in TensorFlow, and the code is made available at https://github.com/L UMII-Syslab/RRU .
公開日:2021-08-01
翻訳日:2021-08-04 05:06:11
# (参考訳) mmWaveネットワークにおけるスケジューリングのための強化学習手法 [全文訳有]

A Reinforcement Learning Approach for Scheduling in mmWave Networks ( http://arxiv.org/abs/2108.00548v1 )

ライセンス: CC BY 4.0
Mine Gokce Dogan, Yahya H. Ezzeldin, Christina Fragouli, Addison W. Bohannon(参考訳) 我々は、リンクがブロックされ、ノードが故障する(例えば、敵対的な軍事環境において)mmWaveネットワーク上で、所望の速度で通信したいソースを考察する。 本稿では,リンク容量やネットワークトポロジの知識を使わずに,ネットワーク内の情報フローに適応する,最先端のsoft actor-critic (sac) 深層強化学習アルゴリズムについて検討する。 数値評価の結果,本アルゴリズムは動的環境においても所望の速度を達成でき,ブロッキングに対して頑健であることがわかった。

We consider a source that wishes to communicate with a destination at a desired rate, over a mmWave network where links are subject to blockage and nodes to failure (e.g., in a hostile military environment). To achieve resilience to link and node failures, we here explore a state-of-the-art Soft Actor-Critic (SAC) deep reinforcement learning algorithm, that adapts the information flow through the network, without using knowledge of the link capacities or network topology. Numerical evaluations show that our algorithm can achieve the desired rate even in dynamic environments and it is robust against blockage.
公開日:2021-08-01
翻訳日:2021-08-04 04:52:28
# (参考訳) cybonto: サイバーセキュリティのための人間認知デジタル双子を目指して [全文訳有]

Cybonto: Towards Human Cognitive Digital Twins for Cybersecurity ( http://arxiv.org/abs/2108.00551v1 )

ライセンス: CC BY 4.0
Tam N. Nguyen(参考訳) サイバー防御は反応し、遅い。 平均して、time-to-remedyはtime-to-compromiseの数百倍大きい。 ますます複雑化する脅威の状況に対して、Digital Twins(DT)や、特にHuman Digital Twins(HDT)は、複数の知識ドメインにわたって大規模なシミュレーションを実行する機能を提供する。 シミュレートされた結果は、敵の行動や戦術についての洞察を与え、より積極的なサイバー防衛戦略をもたらす。 本稿では,Cybonto概念フレームワークの提案を通じて,サイバーセキュリティのためのDTとHDTのビジョンを初めて固める。 この論文はシボントオントロジーにも貢献し、20のタイムテスト心理学理論に基づく108の構成要素と数千の認知関連パスを公式に文書化している。 最後に,108構造体の解析に20のネットワーク集中アルゴリズムを適用した。 識別されたトップ10の構成物は、dtの未来に向けて現在のデジタル認知アーキテクチャの拡張を要求する。

Cyber defense is reactive and slow. On average, the time-to-remedy is hundreds of times larger than the time-to-compromise. In response to the expanding ever-more-complex threat landscape, Digital Twins (DTs) and particularly Human Digital Twins (HDTs) offer the capability of running massive simulations across multiple knowledge domains. Simulated results may offer insights into adversaries' behaviors and tactics, resulting in better proactive cyber-defense strategies. For the first time, this paper solidifies the vision of DTs and HDTs for cybersecurity via the Cybonto conceptual framework proposal. The paper also contributes the Cybonto ontology, formally documenting 108 constructs and thousands of cognitive-related paths based on 20 time-tested psychology theories. Finally, the paper applied 20 network centrality algorithms in analyzing the 108 constructs. The identified top 10 constructs call for extensions of current digital cognitive architectures in preparation for the DT future.
公開日:2021-08-01
翻訳日:2021-08-04 04:38:31
# (参考訳) PSE-Match:並列セマンティック埋め込みを用いた視点のない位置認識手法 [全文訳有]

PSE-Match: A Viewpoint-free Place Recognition Method with Parallel Semantic Embedding ( http://arxiv.org/abs/2108.00552v1 )

ライセンス: CC0 1.0
Peng Yin, Lingyun Xu, Anton Egorov and Bing Li(参考訳) 自動運転車の正確なローカライゼーションは、特に複雑な都市部や、高精度GPSが利用できない地下環境において、自律性と運転安全のために不可欠である。 しかし、現在のオドメトリ推定は、ロバストなグローバルローカライゼーションを必要とせず、長期航法におけるドリフト問題を引き起こす可能性がある。 主な課題は、動的環境の干渉下でのシーンのばらつきと、異なる視点からの観察とオブジェクトレイアウトの効果的な知覚である。 これらの課題に対処するため、PSE-Matchは、3次元ポイントクラウドモデルから分離されたセマンティック属性の並列意味解析に基づく視点自由な位置認識手法である。 元々のポイントクラウドと比較すると、セマンティクス属性の観測されたばらつきは小さい。 PSE-Matchは、分岐場所学習ネットワークを組み込んで、球面調和領域を通じて異なる意味的属性を並列にキャプチャする。 既存のベンチマークデータセットとフィールド内の2つのデータセットを用いて,提案手法は,上位1検索で平均70%以上,上位10検索で平均95%以上のリコールを達成した。 PSE-Matchはまた、限られたトレーニングデータセットで明らかな一般化能力を示した。

Accurate localization on autonomous driving cars is essential for autonomy and driving safety, especially for complex urban streets and search-and-rescue subterranean environments where high-accurate GPS is not available. However current odometry estimation may introduce the drifting problems in long-term navigation without robust global localization. The main challenges involve scene divergence under the interference of dynamic environments and effective perception of observation and object layout variance from different viewpoints. To tackle these challenges, we present PSE-Match, a viewpoint-free place recognition method based on parallel semantic analysis of isolated semantic attributes from 3D point-cloud models. Compared with the original point cloud, the observed variance of semantic attributes is smaller. PSE-Match incorporates a divergence place learning network to capture different semantic attributes parallelly through the spherical harmonics domain. Using both existing benchmark datasets and two in-field collected datasets, our experiments show that the proposed method achieves above 70% average recall with top one retrieval and above 95% average recall with top ten retrieval cases. And PSE-Match has also demonstrated an obvious generalization ability with a limited training dataset.
公開日:2021-08-01
翻訳日:2021-08-04 04:29:17
# (参考訳) FLASH: ハードウェア最適化による高速ニューラルネットワーク検索 [全文訳有]

FLASH: Fast Neural Architecture Search with Hardware Optimization ( http://arxiv.org/abs/2108.00568v1 )

ライセンス: CC0 1.0
Guihong Li, Sumit K. Mandal, Umit Y. Ogras, Radu Marculescu(参考訳) neural architecture search(nas)は、効率的で高性能なディープニューラルネットワーク(dnn)を設計するための有望な技術である。 MLアプリケーションのパフォーマンス要件が継続的に増加するにつれて、ハードウェアアクセラレータはDNN設計において中心的な役割を果たすようになる。 この傾向により、ほとんどの実際のアプリケーションではNASはさらに複雑で時間がかかります。 本稿では,実ハードウェアプラットフォーム上でのDNNの精度と性能を最適化する非常に高速なNAS手法であるFLASHを提案する。 まず,DNNのトポロジ的特性をスキップ接続(例えばDenseNets,ResNets,Wi de-ResNets,MobileNet s)で定量化する解析指標であるNN-Degreeを提案する。 新たに提案されたNN-Degreeでは、トレーニング不要なNASを1秒以内に実行し、63億以上の構成を持つ巨大な検索スペースから25のサンプルをトレーニングして精度予測器を構築することができます。 第二に、ターゲットハードウェア上で推論を行うことにより、分析モデルを微調整し、標準のMLデータセットを実行しながら、各種DNNアーキテクチャのレイテンシ、面積、エネルギー消費量を推定する。 第三に,対象ハードウェアの面積,レイテンシ,エネルギー消費を考慮しつつ,モデルアーキテクチャの協調設計プロセスを最適化するために,単純化ホモロジーグローバル最適化(SHGO)に基づく階層的アルゴリズムを構築した。 最先端のnasアプローチと比較して,提案する階層型shgoベースのアルゴリズムは4桁以上の高速化を実現する(具体的には,提案アルゴリズムの実行時間は約0.1秒である)。 最後に、実験により、FLASHは異なるハードウェアアーキテクチャに容易に転送可能であることを示し、3秒未満でRaspberry Pi-3Bプロセッサ上でNASを実行できることを示した。

Neural architecture search (NAS) is a promising technique to design efficient and high-performance deep neural networks (DNNs). As the performance requirements of ML applications grow continuously, the hardware accelerators start playing a central role in DNN design. This trend makes NAS even more complicated and time-consuming for most real applications. This paper proposes FLASH, a very fast NAS methodology that co-optimizes the DNN accuracy and performance on a real hardware platform. As the main theoretical contribution, we first propose the NN-Degree, an analytical metric to quantify the topological characteristics of DNNs with skip connections (e.g., DenseNets, ResNets, Wide-ResNets, and MobileNets). The newly proposed NN-Degree allows us to do training-free NAS within one second and build an accuracy predictor by training as few as 25 samples out of a vast search space with more than 63 billion configurations. Second, by performing inference on the target hardware, we fine-tune and validate our analytical models to estimate the latency, area, and energy consumption of various DNN architectures while executing standard ML datasets. Third, we construct a hierarchical algorithm based on simplicial homology global optimization (SHGO) to optimize the model-architecture co-design process, while considering the area, latency, and energy consumption of the target hardware. We demonstrate that, compared to the state-of-the-art NAS approaches, our proposed hierarchical SHGO-based algorithm enables more than four orders of magnitude speedup (specifically, the execution time of the proposed algorithm is about 0.1 seconds). Finally, our experimental evaluations show that FLASH is easily transferable to different hardware architectures, thus enabling us to do NAS on a Raspberry Pi-3B processor in less than 3 seconds.
公開日:2021-08-01
翻訳日:2021-08-04 04:08:10
# (参考訳) ベルの不等式の実験的違反 [全文訳有]

Ab-initio experimental violation of Bell inequalities ( http://arxiv.org/abs/2108.00574v1 )

ライセンス: CC BY 4.0
Davide Poderini, Emanuele Polino, Giovanni Rodari, Alessia Suprano, Rafael Chaves and Fabio Sciarrino(参考訳) ベルの不等式違反は、デバイスに依存しない量子情報のパラダイム的例である:データの非古典性は、デバイスの機能に関する知識がなくても認証される。 しかし実際には、全てのベルの実験は基礎となる物理的メカニズムの正確な理解に依存している。 真にブラックボックスなシナリオで非古典的行動を目撃することは可能か? 本稿では,このab-initioタスクの解法として,計算的,実験的に提案する。 Stochastic Nelder-Meadアルゴリズムに基づく堅牢な自動最適化アプローチを利用する。 測定装置をブラックボックスとして処理し,観測値のみに依存する適応プロトコルは,様々なフォトニック状態,測定応答,ベルシナリオの反復回数に制限された後,最適なベル不等式違反にアプローチする。 特に,未知の状態や測定値からのランダム性認証に活用する。 本研究は、デバイス非依存量子技術の実験的な実装のための新しい会場を開設し、自動化アルゴリズムのパワーを実証する。

The violation of a Bell inequality is the paradigmatic example of device-independent quantum information: the nonclassicality of the data is certified without the knowledge of the functioning of devices. In practice, however, all Bell experiments rely on the precise understanding of the underlying physical mechanisms. Given that, it is natural to ask: Can one witness nonclassical behaviour in a truly black-box scenario? Here we propose and implement, computationally and experimentally, a solution to this ab-initio task. It exploits a robust automated optimization approach based on the Stochastic Nelder-Mead algorithm. Treating preparation and measurement devices as black-boxes, and relying on the observed statistics only, our adaptive protocol approaches the optimal Bell inequality violation after a limited number of iterations for a variety photonic states, measurement responses and Bell scenarios. In particular, we exploit it for randomness certification from unknown states and measurements. Our results demonstrate the power of automated algorithms, opening a new venue for the experimental implementation of device-independent quantum technologies.
公開日:2021-08-02
翻訳日:2021-08-04 03:42:43
# (参考訳) セマンティックParseからの論理一貫性テキスト生成 [全文訳有]

Logic-Consistency Text Generation from Semantic Parses ( http://arxiv.org/abs/2108.00577v1 )

ライセンス: CC BY 4.0
Chang Shu, Yusen Zhang, Xiangyu Dong, Peng Shi, Tao Yu, Rui Zhang(参考訳) 意味構文解析からのテキスト生成は、論理形式やsqlクエリなどの形式表現入力のためのテキスト記述を生成することである。 1)データ不足の制約を伴う複雑で集中的な内部ロジック,(2)論理一貫性のための自動評価指標の欠如,という2つの理由により,これは難しい。 そこで本稿では,この2つの課題を解決するために,まずsnowballを提案する。snowballは意味構文解析から論理一貫性のあるテキスト生成のためのフレームワークであり,反復学習手順を用いて,品質制御を伴う学習セットを反復的に強化する。 第2に,意味構文解析と生成テキストの論理的一貫性を評価するための新しい自動メトリクスblecを提案する。 Logic2TextとSpiderという2つのベンチマークデータセットの実験結果は、SNOWBALLフレームワークがBLECと人的評価の両方における論理一貫性を向上させることを実証している。 さらに, BLEU, ROUGE, BLEURTなどの汎用自動測定値よりも, BLECは人的評価と論理的に一致していることが明らかとなった。 私たちのデータとコードはhttps://github.com/c iaranshu/relogicで利用可能です。

Text generation from semantic parses is to generate textual descriptions for formal representation inputs such as logic forms and SQL queries. This is challenging due to two reasons: (1) the complex and intensive inner logic with the data scarcity constraint, (2) the lack of automatic evaluation metrics for logic consistency. To address these two challenges, this paper first proposes SNOWBALL, a framework for logic consistent text generation from semantic parses that employs an iterative training procedure by recursively augmenting the training set with quality control. Second, we propose a novel automatic metric, BLEC, for evaluating the logical consistency between the semantic parses and generated texts. The experimental results on two benchmark datasets, Logic2Text and Spider, demonstrate the SNOWBALL framework enhances the logic consistency on both BLEC and human evaluation. Furthermore, our statistical analysis reveals that BLEC is more logically consistent with human evaluation than general-purpose automatic metrics including BLEU, ROUGE and, BLEURT. Our data and code are available at https://github.com/C iaranshu/relogic.
公開日:2021-08-02
翻訳日:2021-08-04 03:15:51
# (参考訳) 私のモデルは正しい証拠を使っているか? Evidence-based Tabular Reasoning の体系的プローブ [全文訳有]

Is My Model Using The Right Evidence? Systematic Probes for Examining Evidence-Based Tabular Reasoning ( http://arxiv.org/abs/2108.00578v1 )

ライセンス: CC BY 4.0
Vivek Gupta, Riyaz A. Bhat, Atreya Ghosal, Manish Srivastava, Maneesh Singh, Vivek Srikumar(参考訳) ニューラルモデルは、推論を含むNLPタスクにまたがる最先端のパフォーマンスを定期的に報告するが、そのアウトプットは正しく使用されず、インプットに提示されたエビデンスを推論することがしばしば観察される。 適切な理由のあるモデルは、入力の適切な部分に従うことが期待され、サンプル間の予測において自己一貫性を持ち、入力のスプリアスパターンを避け、基礎となる事前学習された言語モデルから、ニュアンス的で文脈に敏感な方法でバイアスを無視する(例えば、)。 偽造品の扱い) 今日のモデルはそうなるのか? 本稿では,表データに対する推論の問題を用いて,この問題を考察する。 入力の表的な性質は、上述した特性を対象とする系統的なプローブを認めるため、研究に特に適している。 a) 関連する証拠を見逃すこと、(b) 仮説や知識バイアスに苦しむこと、(c) 表形式の入力の前提に頼らずに、事前学習された言語モデルからの注釈的アーティファクトや知識に頼ること。

While neural models routinely report state-of-the-art performance across NLP tasks involving reasoning, their outputs are often observed to not properly use and reason on the evidence presented to them in the inputs. A model that reasons properly is expected to attend to the right parts of the input, be self-consistent in its predictions across examples, avoid spurious patterns in inputs, and to ignore biasing from its underlying pre-trained language model in a nuanced, context-sensitive fashion (e.g. handling counterfactuals). Do today's models do so? In this paper, we study this question using the problem of reasoning on tabular data. The tabular nature of the input is particularly suited for the study as it admits systematic probes targeting the properties listed above. Our experiments demonstrate that a BERT-based model representative of today's state-of-the-art fails to properly reason on the following counts: it often (a) misses the relevant evidence, (b) suffers from hypothesis and knowledge biases, and, (c) relies on annotation artifacts and knowledge from pre-trained language models as primary evidence rather than relying on reasoning on the premises in the tabular input.
公開日:2021-08-02
翻訳日:2021-08-04 02:59:04
# (参考訳) Dilated Convolutional Swin Transformer を用いた混雑群集の局所化 [全文訳有]

Congested Crowd Instance Localization with Dilated Convolutional Swin Transformer ( http://arxiv.org/abs/2108.00584v1 )

ライセンス: CC BY 4.0
Junyu Gao, Maoguo Gong, Xuelong Li(参考訳) クラウドローカライゼーションは、クラウドカウントから進化した新しいコンピュータビジョンタスクである。 後者とは違って、各インスタンスの正確な位置情報を提供し、群衆シーン全体の数字をカウントするだけでなく、特に非常に混雑した群衆シーンにおいて大きな課題をもたらす。 本稿では,高濃度の群衆シーンにおける正確なインスタンスローカライズを実現する方法に着目し,従来のモデルの特徴抽出能力が目標のオクルージョンや画像のぼかしなどにより低下する問題を緩和する。 そこで本研究では,混み合った群衆シーンに対する拡張畳み込みスウィントランス(dcst)を提案する。 具体的には、ウィンドウベースの視覚変換器をクラウドローカライゼーションタスクに導入し、表現学習の能力を効果的に向上させる。 そして、よく設計された拡張畳み込みモジュールを変圧器のいくつかの異なるステージに挿入して、大域的文脈情報を強化する。 広範な実験により、提案手法の有効性が証明され、5つの人気のあるデータセットで最先端のパフォーマンスが得られた。 特に,提案モデルでは, 局所化およびカウント性能の観点から, 77.5\%のF1値と84.2のMAE値をそれぞれ達成している。

Crowd localization is a new computer vision task, evolved from crowd counting. Different from the latter, it provides more precise location information for each instance, not just counting numbers for the whole crowd scene, which brings greater challenges, especially in extremely congested crowd scenes. In this paper, we focus on how to achieve precise instance localization in high-density crowd scenes, and to alleviate the problem that the feature extraction ability of the traditional model is reduced due to the target occlusion, the image blur, etc. To this end, we propose a Dilated Convolutional Swin Transformer (DCST) for congested crowd scenes. Specifically, a window-based vision transformer is introduced into the crowd localization task, which effectively improves the capacity of representation learning. Then, the well-designed dilated convolutional module is inserted into some different stages of the transformer to enhance the large-range contextual information. Extensive experiments evidence the effectiveness of the proposed methods and achieve state-of-the-art performance on five popular datasets. Especially, the proposed model achieves F1-measure of 77.5\% and MAE of 84.2 in terms of localization and counting performance, respectively.
公開日:2021-08-02
翻訳日:2021-08-04 02:36:43
# (参考訳) SimCLRによる半教師学習, 移行学習, 知識蒸留 [全文訳有]

Semi-Supervising Learning, Transfer Learning, and Knowledge Distillation with SimCLR ( http://arxiv.org/abs/2108.00587v1 )

ライセンス: CC BY 4.0
Khoi Nguyen, Yen Nguyen, Bao Le(参考訳) 半教師付き学習の分野における最近のブレークスルーは、最先端の従来の教師付き学習手法と一致する結果を得た。 コンピュータビジョンにおける最も成功した半教師付き学習アプローチは、膨大な量のラベル付きデータを活用すること、データ拡張と変換を通じて一般的な表現を学ぶこと、擬似ラベルを作成し、異なる損失関数を実装し、最終的にこれらの知識をタスク固有のより小さなモデルに転送することである。 本稿では,コンピュータビジョンのための最先端の半教師付き学習フレームワークであるsimclrの3つの異なる側面の分析を行う。 まず,コントラスト学習の特性を微調整で解析し,コントラスト学習がこのような手法を成功させる要因であることを理解する。 第二に, 教員育成パラダイムによる知識蒸留の研究である。 教師と生徒が同じベースモデルを共有すると、知識蒸留がより良い結果をもたらすことを観察する。 最後に、転送学習の仕組みと、異なるデータセット上のクラス数との関係について検討する。 その結果, 授業数が少ない場合, 転校学習の成績は良好であった。

Recent breakthroughs in the field of semi-supervised learning have achieved results that match state-of-the-art traditional supervised learning methods. Most successful semi-supervised learning approaches in computer vision focus on leveraging huge amount of unlabeled data, learning the general representation via data augmentation and transformation, creating pseudo labels, implementing different loss functions, and eventually transferring this knowledge to more task-specific smaller models. In this paper, we aim to conduct our analyses on three different aspects of SimCLR, the current state-of-the-art semi-supervised learning framework for computer vision. First, we analyze properties of contrast learning on fine-tuning, as we understand that contrast learning is what makes this method so successful. Second, we research knowledge distillation through teacher-forcing paradigm. We observe that when the teacher and the student share the same base model, knowledge distillation will achieve better result. Finally, we study how transfer learning works and its relationship with the number of classes on different data sets. Our results indicate that transfer learning performs better when number of classes are smaller.
公開日:2021-08-02
翻訳日:2021-08-04 02:12:24
# (参考訳) gtnet:guided transformer network for detection human-object interaction [全文訳有]

GTNet:Guided Transformer Network for Detecting Human-Object Interactions ( http://arxiv.org/abs/2108.00596v1 )

ライセンス: CC BY 4.0
A S M Iftekhar, Satish Kumar, R. Austin McEver, Suya You, B.S. Manjunath(参考訳) human-object interaction (hoi) 検出タスクは、人間をローカライズし、オブジェクトをローカライズし、人間とオブジェクトのペア間の相互作用を予測することを指す。 HOIは、複雑な視覚シーンを真に理解するための基本的なステップの1つと考えられている。 hoiの検出には、相対的な空間構成とオブジェクトセマンティクスを利用して、人間のオブジェクトペア間の相互作用を強調する画像の突出した空間領域を見つけることが重要である。 この問題は、自己注意に基づくガイド型トランスネットワークであるGTNetによって解決されている。 GTNetは、V-COCOとHICO-DETの両方のデータセットにおいて、この空間的コンテキスト情報を自己注意を介して人間とオブジェクトの視覚的特徴にエンコードし、過去の技術結果よりも4%-6%改善する。 コードはオンラインで入手できる。

The human-object interaction (HOI) detection task refers to localizing humans, localizing objects, and predicting the interactions between each human-object pair. HOI is considered one of the fundamental steps in truly understanding complex visual scenes. For detecting HOI, it is important to utilize relative spatial configurations and object semantics to find salient spatial regions of images that highlight the interactions between human object pairs. This issue is addressed by the proposed self-attention based guided transformer network, GTNet. GTNet encodes this spatial contextual information in human and object visual features via self-attention while achieving a 4%-6% improvement over previous state of the art results on both the V-COCO and HICO-DET datasets. Code will be made available online.
公開日:2021-08-02
翻訳日:2021-08-04 02:04:45
# (参考訳) マルチタスク学習のための正確なpareto最適探索:paretoの最前線を巡る

Exact Pareto Optimal Search for Multi-Task Learning: Touring the Pareto Front ( http://arxiv.org/abs/2108.00597v1 )

ライセンス: CC BY 4.0
Debabrata Mahapatra, Vaibhav Rajan(参考訳) マルチタスク学習(mtl)は、複数の相関タスクに対してディープニューラルネットワークモデルをトレーニングするための確立されたパラダイムである。 多くの場合、タスクの目的が衝突し、モデル構築中にそれらの間のトレードオフが必要になる。 このような場合、MTLモデルは勾配に基づく多目的最適化(MOO)を用いて1つ以上のパレート最適解を求めることができる。 MTLアプリケーションで一般的な要件は、タスク固有の目的関数に関してユーザの好みを満たすパレート最適(EPO)ソリューションを見つけることである。 さらに、モデル一般化を改善するためには、トレーニング中に重量に関する様々な制約を課す必要がある。 これらの要件に対処するには、パレート前面だけでなく入力優先方向への降下を許容する探索方向が必要であるため、制約の範囲内で、高次元勾配にスケールする方法では困難である。 我々は,このような探索方向を設計・理論的に解析し,ボックスと等式制約が課された場合を含むEPOソリューションを見つけるために,収束の理論的保証のある最初のスケーラブルアルゴリズムを開発する。 本手法は,複数の勾配降下と注意深く制御された上昇を組み合わせることで,パレート前線を原理的に横断し,初期化に頑健な手法である。 このことはパレート前線の体系的な探索にも役立ち、多基準意思決定にパレート前線の近似に役立てる。 実験結果から,提案アルゴリズムはベンチマークMTLデータセットとMOO問題において競合する手法よりも優れていた。

Multi-Task Learning (MTL) is a well-established paradigm for training deep neural network models for multiple correlated tasks. Often the task objectives conflict, requiring trade-offs between them during model building. In such cases, MTL models can use gradient-based multi-objective optimization (MOO) to find one or more Pareto optimal solutions. A common requirement in MTL applications is to find an {\it Exact} Pareto optimal (EPO) solution, which satisfies user preferences with respect to task-specific objective functions. Further, to improve model generalization, various constraints on the weights may need to be enforced during training. Addressing these requirements is challenging because it requires a search direction that allows descent not only towards the Pareto front but also towards the input preference, within the constraints imposed and in a manner that scales to high-dimensional gradients. We design and theoretically analyze such search directions and develop the first scalable algorithm, with theoretical guarantees of convergence, to find an EPO solution, including when box and equality constraints are imposed. Our unique method combines multiple gradient descent with carefully controlled ascent to traverse the Pareto front in a principled manner, making it robust to initialization. This also facilitates systematic exploration of the Pareto front, that we utilize to approximate the Pareto front for multi-criteria decision-making. Empirical results show that our algorithm outperforms competing methods on benchmark MTL datasets and MOO problems.
公開日:2021-08-02
翻訳日:2021-08-04 01:48:29
# (参考訳) tabpert: 表の摂動に有効なプラットフォーム [全文訳有]

TabPert: An Effective Platform for Tabular Perturbation ( http://arxiv.org/abs/2108.00603v1 )

ライセンス: CC BY 4.0
Nupur Jain, Vivek Gupta, Anshul Rai, Gaurav Kumar(参考訳) 推論能力を真に把握するには、偽データを用いて自然言語推論モデルを評価する必要がある。 TabPertは、そのような偽データの生成を支援して、モデル表の推論問題を評価することで、これを促進する。 TabPertを使えば、ユーザはテーブルを更新し、関連する仮説を変更し、ラベルを変更し、仮説分類に重要な行をハイライトすることができる。 tabpertは、テーブルの自動生成に使用されるテクニックに関する情報と、挑戦的な仮説を生成するための戦略もキャプチャする。 これらの反事実テーブルと仮説、およびメタデータは、既存のモデルの欠点を体系的かつ定量的に探究するために使用できる。

To truly grasp reasoning ability, a Natural Language Inference model should be evaluated on counterfactual data. TabPert facilitates this by assisting in the generation of such counterfactual data for assessing model tabular reasoning issues. TabPert allows a user to update a table, change its associated hypotheses, change their labels, and highlight rows that are important for hypothesis classification. TabPert also captures information about the techniques used to automatically produce the table, as well as the strategies employed to generate the challenging hypotheses. These counterfactual tables and hypotheses, as well as the metadata, can then be used to explore an existing model's shortcomings methodically and quantitatively.
公開日:2021-08-02
翻訳日:2021-08-04 01:47:03
# (参考訳) ニューロンミラー信号を用いたバケット型PCAニューラルネットワーク [全文訳有]

Bucketed PCA Neural Networks with Neurons Mirroring Signals ( http://arxiv.org/abs/2108.00605v1 )

ライセンス: CC BY 4.0
Jackie Shen(参考訳) 深いニューラルネットワーク(DNN)をベンチマークするために、トランスフォーメーションを備えたバケット付きPCAニューラルネットワーク(PCA-NN)を開発した。 ほとんどの古典的PCAモデルは、還元表現を確立するためにトレーニングデータセット全体にPCAを適用し、高階多項式分類器のような非ネットワークツールを使用する。 対照的に、バケット付きPCA-NNは、2つの連続したフェーズで構築される個々のバケットにPCAを適用し、ニューラルネットワークの真のアーキテクチャを保持する。 これにより、dnnのespとapple対appleの公平な比較が容易になる。 多くの印象的なDNNによって達成された大きな精度は、バケツ入りPCA-NNによって説明できる可能性がある(例:MNISTデータセットの98%のうち96%)。 多くのDNNと比較して、バケット付きPCA-NNの3つのビルディングブロックは概念的に理解しやすい。 さらに、DNNで広く見られる準ランダムニューロンとは異なり、PCAニューロンは入力信号に類似または反映しており、結果としてより容易に解読できる。

The bucketed PCA neural network (PCA-NN) with transforms is developed here in an effort to benchmark deep neural networks (DNN's), for problems on supervised classification. Most classical PCA models apply PCA to the entire training data set to establish a reductive representation and then employ non-network tools such as high-order polynomial classifiers. In contrast, the bucketed PCA-NN applies PCA to individual buckets which are constructed in two consecutive phases, as well as retains a genuine architecture of a neural network. This facilitates a fair apple-to-apple comparison to DNN's, esp. to reveal that a major chunk of accuracy achieved by many impressive DNN's could possibly be explained by the bucketed PCA-NN (e.g., 96% out of 98% for the MNIST data set as an example). Compared with most DNN's, the three building blocks of the bucketed PCA-NN are easier to comprehend conceptually - PCA, transforms, and bucketing for error correction. Furthermore, unlike the somewhat quasi-random neurons ubiquitously observed in DNN's, the PCA neurons resemble or mirror the input signals and are more straightforward to decipher as a result.
公開日:2021-08-02
翻訳日:2021-08-04 01:35:00
# (参考訳) 教師なし領域適応のための多重分類器に基づく最大分類器不一致 [全文訳有]

Multiple Classifiers Based Maximum Classifier Discrepancy for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2108.00610v1 )

ライセンス: CC BY 4.0
Yiju Yang, Taejoon Kim, Guanghui Wang(参考訳) 画像分類のための教師なし領域適応タスクにおいて、2つの分類器構造間の最大分類器の差に基づく対立訓練は大きな成功を収めた。 このアプローチは2つの分類器の構造を採用するが、単純かつ直感的であるが、学習された分類境界は新しい領域のデータ特性をうまく表現していないかもしれない。 本稿では,構造を複数の分類器に拡張し,性能をさらに向上することを提案する。 この目的のために、より単純な分類器の追加手法を提案する。 我々は、分類器が互いに異なるという原則を用いて、複数の分類器に対する差分損失関数を構築する。 損失関数構築メソッドによって、任意の数の分類器を元のフレームワークに追加することができる。 提案手法は広範囲な実験評価によって検証される。 平均的に3つの分類器の構造を採用すると、精度と効率のトレードオフとして最高の性能が得られることを実証する。 最小限の計算コストで、提案手法は元のアルゴリズムを大幅に改善することができる。

Adversarial training based on the maximum classifier discrepancy between the two classifier structures has achieved great success in unsupervised domain adaptation tasks for image classification. The approach adopts the structure of two classifiers, though simple and intuitive, the learned classification boundary may not well represent the data property in the new domain. In this paper, we propose to extend the structure to multiple classifiers to further boost its performance. To this end, we propose a very straightforward approach to adding more classifiers. We employ the principle that the classifiers are different from each other to construct a discrepancy loss function for multiple classifiers. Through the loss function construction method, we make it possible to add any number of classifiers to the original framework. The proposed approach is validated through extensive experimental evaluations. We demonstrate that, on average, adopting the structure of three classifiers normally yields the best performance as a trade-off between the accuracy and efficiency. With minimum extra computational costs, the proposed approach can significantly improve the original algorithm.
公開日:2021-08-02
翻訳日:2021-08-04 01:23:47
# (参考訳) 軽度医用画像分割術におけるマスク再留置術

Recurrent Mask Refinement for Few-Shot Medical Image Segmentation ( http://arxiv.org/abs/2108.00622v1 )

ライセンス: CC BY 4.0
Hao Tang, Xingwei Liu, Shanlin Sun, Xiangyi Yan, and Xiaohui Xie(参考訳) 深層畳み込みニューラルネットワークは医用画像セグメンテーションで大きな成功を収めているが、通常、トレーニングのために手動アノテーションを備えた大きなデータセットを必要とし、目に見えないクラスに一般化するのは難しい。 わずかにラベル付き例から新しいクラスを学ぶことで、これらの課題に対処するチャンスは、ほとんどない。 本研究では, プロトタイプネットワークに基づく医療画像分割のための新しいフレームワークを提案する。 我々のイノベーションは、2つの重要なモジュールの設計にある: 1)前景と背景領域の間の局所的な関係の特徴を捉えるために相関を利用するコンテキスト関係エンコーダ(cre)、2)コンテキスト関係の変化を捉え、反復的にセグメンテーションマスクを洗練するためにcreとプロトタイプネットワークを繰り返し使用する反復マスクリファインメントモジュールである。 2つの腹部CTデータセットと1つの腹部MRIデータセットを用いた実験により、提案手法は、それぞれDSCの平均16.32%、8.45%、および6.24%で最先端の方法よりも大幅に改善された。 コードは公開されている。

Although having achieved great success in medical image segmentation, deep convolutional neural networks usually require a large dataset with manual annotations for training and are difficult to generalize to unseen classes. Few-shot learning has the potential to address these challenges by learning new classes from only a few labeled examples. In this work, we propose a new framework for few-shot medical image segmentation based on prototypical networks. Our innovation lies in the design of two key modules: 1) a context relation encoder (CRE) that uses correlation to capture local relation features between foreground and background regions; and 2) a recurrent mask refinement module that repeatedly uses the CRE and a prototypical network to recapture the change of context relationship and refine the segmentation mask iteratively. Experiments on two abdomen CT datasets and an abdomen MRI dataset show the proposed method obtains substantial improvement over the state-of-the-art methods by an average of 16.32%, 8.45% and 6.24% in terms of DSC, respectively. Code is publicly available.
公開日:2021-08-02
翻訳日:2021-08-04 01:09:42
# (参考訳) 学習型二元化ニューラルネットワークによるMaxSAT評価2021のための計画 [全文訳有]

Planning with Learned Binarized Neural Networks Benchmarks for MaxSAT Evaluation 2021 ( http://arxiv.org/abs/2108.00633v1 )

ライセンス: CC BY 4.0
Buser Say, Scott Sanner, Jo Devriendt, Jakob Nordstr\"om, Peter J. Stuckey(参考訳) この文書では、状態遷移関数が二項化ニューラルネットワーク(BNN)の形式で学習された自動計画問題の簡単な紹介を行い、この問題に対する一般的なMaxSATエンコーディングを示し、MaxSAT Evaluation 2021のベンチマークとして提出されたナビゲーション、インベントリコントロール、システム管理者、セルダの4つのドメインについて説明する。

This document provides a brief introduction to learned automated planning problem where the state transition function is in the form of a binarized neural network (BNN), presents a general MaxSAT encoding for this problem, and describes the four domains, namely: Navigation, Inventory Control, System Administrator and Cellda, that are submitted as benchmarks for MaxSAT Evaluation 2021.
公開日:2021-08-02
翻訳日:2021-08-04 01:08:30
# (参考訳) LSATから - 複雑推論の進歩と課題- [全文訳有]

From LSAT: The Progress and Challenges of Complex Reasoning ( http://arxiv.org/abs/2108.00648v1 )

ライセンス: CC BY 4.0
Siyuan Wang, Zhongkun Liu, Wanjun Zhong, Ming Zhou, Zhongyu Wei, Zhumin Chen and Nan Duan(参考訳) 複雑な推論は、複雑なルールに基づいて正しい推論を描くことを目的としている。 人間の知性の目印として、明示的な読解、論理的知識の解釈、複雑な規則の適用などが含まれる。 本稿では,LSAT(Law School Admission Test)の3つの課題を,解析的推論,論理的推論,読解的理解を含む体系的に研究することで,複雑な推論に一歩前進する。 本稿では,これら3つのタスクを統合し,lsatテストにおいて印象的な総合的性能を実現するためのハイブリッド推論システムを提案する。 実験の結果,本システムには複雑な推論能力,特に基本的な読解能力と論理的推論能力が備わっていることがわかった。 さらに、事前学習されたモデルとタスク固有の推論モジュールを組み合わせることで、複雑な推論においてシンボル知識を個別の解釈可能な推論ステップに統合する効果も示した。 我々はさらに,教師なしの記号的知識抽出,モデル解釈可能性,少数ショット学習,複雑な推論のための包括的ベンチマークなど,将来的な方向性について考察した。

Complex reasoning aims to draw a correct inference based on complex rules. As a hallmark of human intelligence, it involves a degree of explicit reading comprehension, interpretation of logical knowledge and complex rule application. In this paper, we take a step forward in complex reasoning by systematically studying the three challenging and domain-general tasks of the Law School Admission Test (LSAT), including analytical reasoning, logical reasoning and reading comprehension. We propose a hybrid reasoning system to integrate these three tasks and achieve impressive overall performance on the LSAT tests. The experimental results demonstrate that our system endows itself a certain complex reasoning ability, especially the fundamental reading comprehension and challenging logical reasoning capacities. Further analysis also shows the effectiveness of combining the pre-trained models with the task-specific reasoning module, and integrating symbolic knowledge into discrete interpretable reasoning steps in complex reasoning. We further shed a light on the potential future directions, like unsupervised symbolic knowledge extraction, model interpretability, few-shot learning and comprehensive benchmark for complex reasoning.
公開日:2021-08-02
翻訳日:2021-08-04 00:53:35
# (参考訳) 教育システムにおける因果推論:グラフィカルモデリングアプローチ [全文訳有]

Causal Inference in Educational Systems: A Graphical Modeling Approach ( http://arxiv.org/abs/2108.00654v1 )

ライセンス: CC BY 4.0
Manie Tadayon, Greg Pottie(参考訳) 教育システムは伝統的に、プレテスト、ポストテスト、シングル介入など、横断的な研究を用いて評価されてきた。 これは一般的なアプローチであるが、変数の結合、学生へのフィードバック、理想的な条件からの研究の現実世界の偏りなど、貴重な情報をモデル化するものではない。 さらに、本質的に学習はシーケンシャルなプロセスであり、一連の介入を伴わなければならない。 本稿では, グラフィカルモデルと有向非巡回グラフ(DAG)言語を用いて, 教育システムの実験および準実験設計を提案し, それらを定量化する。 教育における各手法の適用と限界について論じる。 さらに, 教育システムを, 時変療法, 共同設立者, 時変療法-共同設立者フィードバックとしてモデル化することを提案する。 十分な共同創設者の集合を制御し、治療重み付けの逆確率(IPTW)やg-formulaなどの適切な推論手法を用いて、バックドアパスを閉じ、結果に対する共同介入のバイアスのない因果推定を導出できることを示す。 最後に,g-formula と IPTW のパフォーマンスを比較し,各手法の長所と短所について考察する。

Educational systems have traditionally been evaluated using cross-sectional studies, namely, examining a pretest, posttest, and single intervention. Although this is a popular approach, it does not model valuable information such as confounding variables, feedback to students, and other real-world deviations of studies from ideal conditions. Moreover, learning inherently is a sequential process and should involve a sequence of interventions. In this paper, we propose various experimental and quasi-experimental designs for educational systems and quantify them using the graphical model and directed acyclic graph (DAG) language. We discuss the applications and limitations of each method in education. Furthermore, we propose to model the education system as time-varying treatments, confounders, and time-varying treatments-confounde rs feedback. We show that if we control for a sufficient set of confounders and use appropriate inference techniques such as the inverse probability of treatment weighting (IPTW) or g-formula, we can close the backdoor paths and derive the unbiased causal estimate of joint interventions on the outcome. Finally, we compare the g-formula and IPTW performance and discuss the pros and cons of using each method.
公開日:2021-08-02
翻訳日:2021-08-04 00:13:32
# (参考訳) スタッキングアンサンブルによるビデオ広告タギングのためのマルチモーダル特徴融合 [全文訳有]

Multimodal Feature Fusion for Video Advertisements Tagging Via Stacking Ensemble ( http://arxiv.org/abs/2108.00679v1 )

ライセンス: CC BY 4.0
Qingsong Zhou, Hai Liang, Zhimin Lin, Kele Xu(参考訳) ビデオ広告の自動タグ付けは、批判的だが困難な問題であり、多くの分野でその応用が明らかになっているため、近年は関心が高まっている。 持続的努力にもかかわらず、タグづけ作業は、効率的な機能融合アプローチが望ましいなど、いくつかの課題に苦しめられているが、以前の研究では未検討である。 本稿では,2021年のtencent広告アルゴリズムコンペティションにおいて,マルチモーダルビデオ広告タギングのアプローチを提案する。 具体的には,複数のモダリティからの補完情報を組み合わせることを目的とした,新しいマルチモーダル機能融合フレームワークを提案する。 このフレームワークは、様々なレベルのノイズと異なるモダリティ間の衝突の影響を低減するために、スタック方式のアンサンブルアプローチを導入する。 このように、我々のフレームワークは従来の手法と比較してタグ付けタスクの性能を向上させることができる。 提案手法の有効性とロバスト性を実証的に検討するため,課題データセットについて広範な実験を行った。 その結果,我々のフレームワークは関連するアプローチを著しく上回ることができ,最終リーダボードでは第1位にランクインし,グローバル平均精度 (gap) は82.63%であった。 この分野での研究をより促進するために、最終バージョンでコードをリリースします。

Automated tagging of video advertisements has been a critical yet challenging problem, and it has drawn increasing interests in last years as its applications seem to be evident in many fields. Despite sustainable efforts have been made, the tagging task is still suffered from several challenges, such as, efficiently feature fusion approach is desirable, but under-explored in previous studies. In this paper, we present our approach for Multimodal Video Ads Tagging in the 2021 Tencent Advertising Algorithm Competition. Specifically, we propose a novel multi-modal feature fusion framework, with the goal to combine complementary information from multiple modalities. This framework introduces stacking-based ensembling approach to reduce the influence of varying levels of noise and conflicts between different modalities. Thus, our framework can boost the performance of the tagging task, compared to previous methods. To empirically investigate the effectiveness and robustness of the proposed framework, we conduct extensive experiments on the challenge datasets. The obtained results suggest that our framework can significantly outperform related approaches and our method ranks as the 1st place on the final leaderboard, with a Global Average Precision (GAP) of 82.63%. To better promote the research in this field, we will release our code in the final version.
公開日:2021-08-02
翻訳日:2021-08-03 23:55:55
# (参考訳) リモートセンシングデータの自己教師付き視覚表現学習 [全文訳有]

Self-supervised Audiovisual Representation Learning for Remote Sensing Data ( http://arxiv.org/abs/2108.00688v1 )

ライセンス: CC BY-SA 4.0
Konrad Heidler, Lichao Mou, Di Hu, Pu Jin, Guangyao Li, Chuang Gan, Ji-Rong Wen, Xiao Xiang Zhu(参考訳) 現在のディープラーニングのアプローチの多くは、imagenetのような大規模データセットで事前トレーニングされたバックボーンネットワークを広範囲に利用し、特定のタスクを実行するように微調整されている。 リモートセンシングでは、比較可能な大きな注釈付きデータセットの欠如と、さまざまなセンシングプラットフォームが同様の開発を妨げる。 リモートセンシングにおける事前学習されたバックボーンネットワークの可用性に寄与するため、深層ニューラルネットワークを事前学習するための自己教師ありアプローチを考案する。 ジオタグ付きオーディオ記録とリモートセンシング画像との対応を利用して、これは完全にラベルのない方法で行われ、面倒な手作業によるアノテーションは不要である。 そこで本研究では,世界中の空中画像と音声サンプルを同時配置したサウンドアースデータセットを提案する。 このデータセットを使用して、両方のモダリティからサンプルを共通の埋め込み空間にマッピングするためにresnetモデルを事前トレーニングし、視覚と聴覚の両方に影響を与えるシーンの重要な特性を理解するようにモデルに促します。 提案手法の有効性を検証するため,他の方法で得られた重みに対して得られた事前学習重みの伝達学習性能を評価する。 一般的なリモートセンシングデータセットでモデルを微調整することにより、我々のアプローチはリモートセンシング画像のための既存の事前学習戦略よりも優れていることを示す。 データセット、コード、事前トレーニングされたモデルの重み付けはhttps://github.com/k hdlr/SoundingEarth.c omから入手できる。

Many current deep learning approaches make extensive use of backbone networks pre-trained on large datasets like ImageNet, which are then fine-tuned to perform a certain task. In remote sensing, the lack of comparable large annotated datasets and the wide diversity of sensing platforms impedes similar developments. In order to contribute towards the availability of pre-trained backbone networks in remote sensing, we devise a self-supervised approach for pre-training deep neural networks. By exploiting the correspondence between geo-tagged audio recordings and remote sensing imagery, this is done in a completely label-free manner, eliminating the need for laborious manual annotation. For this purpose, we introduce the SoundingEarth dataset, which consists of co-located aerial imagery and audio samples all around the world. Using this dataset, we then pre-train ResNet models to map samples from both modalities into a common embedding space, which encourages the models to understand key properties of a scene that influence both visual and auditory appearance. To validate the usefulness of the proposed approach, we evaluate the transfer learning performance of pre-trained weights obtained against weights obtained through other means. By fine-tuning the models on a number of commonly used remote sensing datasets, we show that our approach outperforms existing pre-training strategies for remote sensing imagery. The dataset, code and pre-trained model weights will be available at https://github.com/k hdlr/SoundingEarth.
公開日:2021-08-02
翻訳日:2021-08-03 23:48:48
# (参考訳) 深層ニューラルネットワークを改良したPiecewise Linear Unit [全文訳有]

Piecewise Linear Units Improve Deep Neural Networks ( http://arxiv.org/abs/2108.00700v1 )

ライセンス: CC BY 4.0
Jordan Inturrisi, Sui Yang Khoo, Abbas Kouzani, Riccardo Pagliarella(参考訳) 活性化関数はディープニューラルネットワークの非線形性の中心であり、その関数の選択はトレーニングの成功に大きな影響を与える。 現在、多くの実践者は単純さと信頼性から整定線形単位(relu)を好むが、欠点は少ない。 ReLUの代替として提案された機能のほとんどは手作業で設計されているが、トレーニング中の関数の学習に関する最近の研究は有望な結果を示している。 本稿では,ニューラルネットワークの各次元に対して独立に学習可能な適応的ピースワイド線形活性化関数Piecewise Linear Unit (PiLU)を提案する。 我々は、PiLUが一般化整流器ユニットであることを示すとともに、適応ピアースワイド線形ユニットと類似点について述べる。 30実験の分布を通して、同じモデルアーキテクチャ、ハイパーパラメータ、前処理において、PiLUはReLUを著しく上回り、CIFAR-10では18.53%、CIFAR-100では13.13%の分類誤差を減らし、ニューロンの数もわずかに増加した。 さらなる研究は、一般化された区分線形単位の探索と、他の困難な領域やより大きな問題に対するこれらの結果の検証に費やされるべきである。

The activation function is at the heart of a deep neural networks nonlinearity; the choice of the function has great impact on the success of training. Currently, many practitioners prefer the Rectified Linear Unit (ReLU) due to its simplicity and reliability, despite its few drawbacks. While most previous functions proposed to supplant ReLU have been hand-designed, recent work on learning the function during training has shown promising results. In this paper we propose an adaptive piecewise linear activation function, the Piecewise Linear Unit (PiLU), which can be learned independently for each dimension of the neural network. We demonstrate how PiLU is a generalised rectifier unit and note its similarities with the Adaptive Piecewise Linear Units, namely adaptive and piecewise linear. Across a distribution of 30 experiments, we show that for the same model architecture, hyperparameters, and pre-processing, PiLU significantly outperforms ReLU: reducing classification error by 18.53% on CIFAR-10 and 13.13% on CIFAR-100, for a minor increase in the number of neurons. Further work should be dedicated to exploring generalised piecewise linear units, as well as verifying these results across other challenging domains and larger problems.
公開日:2021-08-02
翻訳日:2021-08-03 23:28:15
# (参考訳) 生成型adversarial networkに基づく連合学習システムにおける情報盗み [全文訳有]

Information Stealing in Federated Learning Systems Based on Generative Adversarial Networks ( http://arxiv.org/abs/2108.00701v1 )

ライセンス: CC BY 4.0
Yuwei Sun, Ng Chong, Hideya Ochiai(参考訳) インテリジェントマシンが協調して問題解決を行うディープラーニングシステムへの攻撃は、ネットワーク内のノードが重要な判断に誤りを犯す可能性がある。 同時に、AIのセキュリティとプライバシーに関する懸念は、複数の分野の専門家の注意を喚起している。 本研究では,3つの異なるデータセットを用いて,FL環境に対する敵攻撃の実施に成功した。 この攻撃はGANを利用して学習プロセスに影響を与え、共有されたローカルモデルパラメータから隠れた特徴を学習することでユーザのプライベートデータを再構築する。 攻撃はターゲット指向の描画データであり、それぞれcifar-10,mnist, fashion-mnistと異なるクラス分布を示した。 さらに, 実データと再構成した逆数サンプルとのユークリッド距離を計測することにより, 種々のシナリオにおいて, 学習過程における逆数の性能を評価した。 最後に,すべての適用データセットを用いて,共有グローバルモデルパラメータから被害者の実データを再構築することに成功しました。

An attack on deep learning systems where intelligent machines collaborate to solve problems could cause a node in the network to make a mistake on a critical judgment. At the same time, the security and privacy concerns of AI have galvanized the attention of experts from multiple disciplines. In this research, we successfully mounted adversarial attacks on a federated learning (FL) environment using three different datasets. The attacks leveraged generative adversarial networks (GANs) to affect the learning process and strive to reconstruct the private data of users by learning hidden features from shared local model parameters. The attack was target-oriented drawing data with distinct class distribution from the CIFAR- 10, MNIST, and Fashion-MNIST respectively. Moreover, by measuring the Euclidean distance between the real data and the reconstructed adversarial samples, we evaluated the performance of the adversary in the learning processes in various scenarios. At last, we successfully reconstructed the real data of the victim from the shared global model parameters with all the applied datasets.
公開日:2021-08-02
翻訳日:2021-08-03 23:16:22
# (参考訳) 全方向移動ロボットの並列タスク実行のための方向認識計画 [全文訳有]

Orientation-Aware Planning for Parallel Task Execution of Omni-Directional Mobile Robot ( http://arxiv.org/abs/2108.00716v1 )

ライセンス: CC BY 4.0
Cheng Gong and Zirui Li and Xingyu Zhou and Jiachen Li and Jianwei Gong and Junhui Zhou(参考訳) オムニ指向型移動ロボット(Omni-directional mobile robot, OMR)システムは、学界や業界で非常に人気がある。 しかし、OMRの余分な自由度によって、ロボットが余分なタスクを実行できる可能性があるため、そのポテンシャルは十分に活用されていない。 例えば、ロボット上のジンバルやセンサーは視野が限られているり、固有の機械設計によって制約を受けることがある。 そこで本研究では, omr シャシーに関連するタスクを方向遷移タスクと位置遷移タスクに分類し, 2つのタスクを同時に実行可能にする。 並列タスクの目標を単一計画問題に組み込むことにより,OMRシステムのための配向遷移と位置遷移を統一的かつ効率的な方法で実行するための配向対応計画アーキテクチャを提案する。 両タスクの要求を満たす軌道を生成するために,向き認識型時間-弾性バンド (OATEB) と呼ばれる改良された軌道最適化手法が導入された。 2次元シミュレーション環境と実シーンの両方で実験を行う。 実シーン実験を行うために4輪のomrを配置し,提案手法が並列タスクを同時に実行でき,実生活シナリオに適用可能であることを示す。

Omni-directional mobile robot (OMR) systems have been very popular in academia and industry for their superb maneuverability and flexibility. Yet their potential has not been fully exploited, where the extra degree of freedom in OMR can potentially enable the robot to carry out extra tasks. For instance, gimbals or sensors on robots may suffer from a limited field of view or be constrained by the inherent mechanical design, which will require the chassis to be orientation-aware and respond in time. To solve this problem and further develop the OMR systems, in this paper, we categorize the tasks related to OMR chassis into orientation transition tasks and position transition tasks, where the two tasks can be carried out at the same time. By integrating the parallel task goals in a single planning problem, we proposed an orientation-aware planning architecture for OMR systems to execute the orientation transition and position transition in a unified and efficient way. A modified trajectory optimization method called orientation-aware timed-elastic-band (OATEB) is introduced to generate the trajectory that satisfies the requirements of both tasks. Experiments in both 2D simulated environments and real scenes are carried out. A four-wheeled OMR is deployed to conduct the real scene experiment and the results demonstrate that the proposed method is capable of simultaneously executing parallel tasks and is applicable to real-life scenarios.
公開日:2021-08-02
翻訳日:2021-08-03 23:07:48
# (参考訳) ConveRT - FAQアンサーリングへの応用 [全文訳有]

ConveRT, an Application to FAQ Answering ( http://arxiv.org/abs/2108.00719v1 )

ライセンス: CC BY 4.0
Maxime De Bruyn, Ehsan Lotfi, Jeska Buhmann, Walter Daelemans(参考訳) 知識豊富なfaqチャットボットは、あらゆる組織にとって貴重なリソースです。 従来のコールセンタやFAQ Webページとは異なり、インスタントレスポンスを提供し、常に利用できる。 COVID19チャットボットを運用した経験から、英語以外の言語でFAQに答えるリソースが不足していることが分かりました。 英語には強力で効率的な検索ベースモデルが存在するが、同じ量のトレーニングデータを持っていない他の言語ではまれである。 本研究では、英語のSOTA会話エージェントであるConveRTを、トレーニングデータが少ない他の言語に適応させる、新しい保持手順を提案する。 これを初めて、オランダのfaqがcovid-19ワクチンに関する質問に答えるタスクに適用しました。 低データ体制と高データ体制におけるオープンソースの代替手段よりも優れた性能を示す。

Knowledgeable FAQ chatbots are a valuable resource to any organization. Unlike traditional call centers or FAQ web pages, they provide instant responses and are always available. Our experience running a COVID19 chatbot revealed the lack of resources available for FAQ answering in non-English languages. While powerful and efficient retrieval-based models exist for English, it is rarely the case for other languages which do not have the same amount of training data available. In this work, we propose a novel pretaining procedure to adapt ConveRT, an English SOTA conversational agent, to other languages with less training data available. We apply it for the first time to the task of Dutch FAQ answering related to the COVID19 vaccine. We show it performs better than an open-source alternative in a low-data regime and high-data regime.
公開日:2021-08-02
翻訳日:2021-08-03 22:53:21
# (参考訳) 対称錐分解の乗法的更新 [全文訳有]

Multiplicative updates for symmetric-cone factorizations ( http://arxiv.org/abs/2108.00740v1 )

ライセンス: CC BY 4.0
Yong Sheng Soh, Antonios Varvitsiotis(参考訳) 非負の成分を持つ行列 $X\in \mathbb{R}^{m\times n}_+$ が与えられたとき、コーン $\mathcal{K}\subseteq \mathbb{R}^k$ に関するコーン分解問題は、計算 $\{ a_1,\ldots, a_{m} \} \subseteq \mathcal{K}$ と $\{ b_1,\ldots, b_{n} \} \subseteq~\mathcal{K}^*$ が双対に属するので、$X_{ij} = \langle a_i, b_j \rangle$ がすべての $i\in [m], j\in [n] に対して成り立つ。 凸係数分解は、線形円錐プログラムの可能な領域として凸体を表現できる数学的最適化の基礎となる。 本稿では,$\mathcal{K}$が対称であること,すなわち,自己双対で同質である場合,円錐分解を計算するための対称錐乗算更新(SCMU)アルゴリズムを導入,解析する。 対称錐は、非負のオルタン(線形計画)、二階の円錐(二階の円錐計画)、正の半定義行列(半定義的計画)の円錐上の線形最適化を研究する共通の言語を提供するため、数学的最適化において中心的な関心を持つ。 SCMUアルゴリズムは、幾何平均の一般化を用いて計算された錐体の巧妙に選択された自己同型を対称錐に適用することにより、反復を更新するという意味で乗法的である。 リーブの凹凸定理とフォン・ノイマンのトレース不等式を対称錐に拡張することにより、平方損失目標がSCMUアルゴリズムの軌道に沿って非減少していることを示す。 非負のオルサントに特化して、SCMUアルゴリズムは非負行列分解を計算するためのLee and Seungによるセミナルアルゴリズムに対応する。

Given a matrix $X\in \mathbb{R}^{m\times n}_+$ with non-negative entries, the cone factorization problem over a cone $\mathcal{K}\subseteq \mathbb{R}^k$ concerns computing $\{ a_1,\ldots, a_{m} \} \subseteq \mathcal{K}$ and $\{ b_1,\ldots, b_{n} \} \subseteq~\mathcal{K}^*$ belonging to its dual so that $X_{ij} = \langle a_i, b_j \rangle$ for all $i\in [m], j\in [n]$. Cone factorizations are fundamental to mathematical optimization as they allow us to express convex bodies as feasible regions of linear conic programs. In this paper, we introduce and analyze the symmetric-cone multiplicative update (SCMU) algorithm for computing cone factorizations when $\mathcal{K}$ is symmetric; i.e., it is self-dual and homogeneous. Symmetric cones are of central interest in mathematical optimization as they provide a common language for studying linear optimization over the nonnegative orthant (linear programs), over the second-order cone (second order cone programs), and over the cone of positive semidefinite matrices (semidefinite programs). The SCMU algorithm is multiplicative in the sense that the iterates are updated by applying a meticulously chosen automorphism of the cone computed using a generalization of the geometric mean to symmetric cones. Using an extension of Lieb's concavity theorem and von Neumann's trace inequality to symmetric cones, we show that the squared loss objective is non-decreasing along the trajectories of the SCMU algorithm. Specialized to the nonnegative orthant, the SCMU algorithm corresponds to the seminal algorithm by Lee and Seung for computing Nonnegative Matrix Factorizations.
公開日:2021-08-02
翻訳日:2021-08-03 22:47:26
# (参考訳) 水圧破砕設計最適化のためのデータ駆動モデル 第2部:逆問題 [全文訳有]

Data-driven model for hydraulic fracturing design optimization. Part II: Inverse problem ( http://arxiv.org/abs/2108.00751v1 )

ライセンス: CC BY 4.0
Viktor Duplyakov, Anton Morozov, Dmitriy Popkov, Egor Shel, Albert Vainshtein, Evgeny Burnaev, Andrei Osiptsov, Grigory Paderin(参考訳) 本稿では,リッジ回帰法とcatboostアルゴリズムを組み合わせた多段フラクチャーコンプリートを用いた油井の累積流体生成予測のための積み重ねモデルについて述べる。 このモデルは、貯留層、井戸およびフラクチャリング設計パラメータの拡張デジタルフィールドデータベースに基づいて開発された。 現在このデータベースには、西シベリア(ロシア)の23の油田から5000以上の油井が含まれており、合計6687回の破砕作業が行われている。 構築, 貯留特性, フラクチャー設計の特徴, 生産など, それぞれを特徴付ける387個のパラメータから始めると, モデルトレーニングプロセスにおいて各ウェルの入力特徴として38個のキーパラメータが使用される。 このモデルは、設計パラメータ(ステージ数、プロパント質量、平均および最終プロパント濃度、流体速度)に対するターゲットの物理的説明可能な依存性プロットを示す。 本研究では, ユークリッド距離法とクラスタリング法を用いて, 同様の(オフセット)ウェルズ探索を行う手法を含む一連の手法を開発した。 これらのアプローチは、方法論のフィールドテストキャンペーンの一部として、特定のパイロットの最適化パラメータ境界を得るためにも適用されている。 逆問題(生産を最大化するために最適な設計パラメータの集合を選択する)は、境界によって制約された高次元のブラックボックス近似関数を最適化し、4つの異なる最適化手法で解いたものとして定式化される。 これらすべての方法を含む推奨システムは、生産刺激エンジニアに最適化された破砕設計について助言するように設計されている。

We describe a stacked model for predicting the cumulative fluid production for an oil well with a multistage-fracture completion based on a combination of Ridge Regression and CatBoost algorithms. The model is developed based on an extended digital field data base of reservoir, well and fracturing design parameters. The database now includes more than 5000 wells from 23 oilfields of Western Siberia (Russia), with 6687 fracturing operations in total. Starting with 387 parameters characterizing each well, including construction, reservoir properties, fracturing design features and production, we end up with 38 key parameters used as input features for each well in the model training process. The model demonstrates physically explainable dependencies plots of the target on the design parameters (number of stages, proppant mass, average and final proppant concentrations and fluid rate). We developed a set of methods including those based on the use of Euclidean distance and clustering techniques to perform similar (offset) wells search, which is useful for a field engineer to analyze earlier fracturing treatments on similar wells. These approaches are also adapted for obtaining the optimization parameters boundaries for the particular pilot well, as part of the field testing campaign of the methodology. An inverse problem (selecting an optimum set of fracturing design parameters to maximize production) is formulated as optimizing a high dimensional black box approximation function constrained by boundaries and solved with four different optimization methods: surrogate-based optimization, sequential least squares programming, particle swarm optimization and differential evolution. A recommendation system containing all the above methods is designed to advise a production stimulation engineer on an optimized fracturing design.
公開日:2021-08-02
翻訳日:2021-08-03 22:29:56
# (参考訳) 臨床ノートにおける自己指導型回答検索 [全文訳有]

Self-supervised Answer Retrieval on Clinical Notes ( http://arxiv.org/abs/2108.00775v1 )

ライセンス: CC BY 4.0
Paul Grundmann, Sebastian Arnold, Alexander L\"oser(参考訳) 長い文書から回答文を取得することは、会話と文書コンテキストの両方を意味的に理解する必要がある複雑な作業である。 医師が診断やその他の潜伏する医療的側面に基づいて患者のコホートを検索する臨床シナリオにおいて、この課題に特にアプローチする。 ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースの自己スーパービジョン目標であるcaprを紹介する。 さらに,このシナリオを臨床ノートの大規模コーパスでシミュレートするために,臨床ノートに基づく新たな検索データセットを寄贈した。 目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。 MIMIC-IIIおよび他の3つの医療データセットに対する広範な評価から、CAPRはドメイン固有のパスの検索において強いベースラインを上回り、ルールベースおよび人間ラベルのパスを効果的に一般化する。 これにより、特に限られたトレーニングデータしか利用できないゼロショットシナリオでは、モデルが強力になる。

Retrieving answer passages from long documents is a complex task requiring semantic understanding of both discourse and document context. We approach this challenge specifically in a clinical scenario, where doctors retrieve cohorts of patients based on diagnoses and other latent medical aspects. We introduce CAPR, a rule-based self-supervision objective for training Transformer language models for domain-specific passage matching. In addition, we contribute a novel retrieval dataset based on clinical notes to simulate this scenario on a large corpus of clinical notes. We apply our objective in four Transformer-based architectures: Contextual Document Vectors, Bi-, Poly- and Cross-encoders. From our extensive evaluation on MIMIC-III and three other healthcare datasets, we report that CAPR outperforms strong baselines in the retrieval of domain-specific passages and effectively generalizes across rule-based and human-labeled passages. This makes the model powerful especially in zero-shot scenarios where only limited training data is available.
公開日:2021-08-02
翻訳日:2021-08-03 22:15:23
# (参考訳) CARLA: アルゴリズム記述と対実説明アルゴリズムをベンチマークするPythonライブラリ [全文訳有]

CARLA: A Python Library to Benchmark Algorithmic Recourse and Counterfactual Explanation Algorithms ( http://arxiv.org/abs/2108.00783v1 )

ライセンス: CC BY 4.0
Martin Pawelczyk and Sascha Bielawski and Johannes van den Heuvel and Tobias Richter and Gjergji Kasneci(参考訳) カウンターファクチュアルな説明は、将来の望ましい結果(保険承認など)を個人が達成できる行動可能な特徴変化(例えば収入の増加)を提案することによって、規範的なモデル説明の手段を提供する。 適切な方法を選択することは、意味のある反事実的説明にとって重要な側面である。 最近のレビューで述べられているように、利用可能な方法を持つ文献が急速に増えている。 しかし、広く利用可能なオープンソース実装が存在しないため、特定のモデルに賛成する決定は、主に簡単に利用できるものに基づいている。 今後は、説明メソッド間の有意義な比較を保証するために、さまざまなデータセットと異なる機械学習モデルにまたがる反事実説明メソッドをベンチマークするためのpythonライブラリであるcarla(counterfactual and recourse library)を提示します。 まとめると,本研究は,11の一般的な反事実説明手法の広範なベンチマーク,(ii)今後の反事実説明手法の研究のためのベンチマークフレームワーク,(iii)これらの手法を透明かつ広範囲に比較するための統合評価尺度とデータセットの標準化セットを提供する。 CARLAとGithubの実験成果をオープンソースとして公開し、競争上のベースラインとして利用しました。 他の研究グループや実践者からの貢献を歓迎します。

Counterfactual explanations provide means for prescriptive model explanations by suggesting actionable feature changes (e.g., increase income) that allow individuals to achieve favorable outcomes in the future (e.g., insurance approval). Choosing an appropriate method is a crucial aspect for meaningful counterfactual explanations. As documented in recent reviews, there exists a quickly growing literature with available methods. Yet, in the absence of widely available opensource implementations, the decision in favor of certain models is primarily based on what is readily available. Going forward - to guarantee meaningful comparisons across explanation methods - we present CARLA (Counterfactual And Recourse LibrAry), a python library for benchmarking counterfactual explanation methods across both different data sets and different machine learning models. In summary, our work provides the following contributions: (i) an extensive benchmark of 11 popular counterfactual explanation methods, (ii) a benchmarking framework for research on future counterfactual explanation methods, and (iii) a standardized set of integrated evaluation measures and data sets for transparent and extensive comparisons of these methods. We have open-sourced CARLA and our experimental results on Github, making them available as competitive baselines. We welcome contributions from other research groups and practitioners.
公開日:2021-08-02
翻訳日:2021-08-03 21:58:18
# (参考訳) 顔識別データを用いた顔認証モデルの訓練 [全文訳有]

Training face verification models from generated face identity data ( http://arxiv.org/abs/2108.00800v1 )

ライセンス: CC BY 4.0
Dennis Conway, Loic Simon, Alexis Lechervy, Frederic Jurie(参考訳) 機械学習ツールはますます強力で広く使われている。 残念なことに、機械学習で使用されるデータセットから情報を明らかにする会員攻撃は、データ共有を制限する可能性がある。 本稿では,顔認識に適用されるように,データセットのプライバシ保護を高めるアプローチを検討する。 補助的な顔認識モデルを用いて,スタイルガン生成逆ネットワークを基盤として,視覚識別係数を符号化する2つのサブコードと,非識別要素を組み合わせた潜在コードを生成する。 画像生成中にこれらのベクトルを独立に変化させることにより、架空の顔識別の合成データセットを作成する。 私たちはこのデータセットを使って顔認識モデルをトレーニングします。 モデル性能は顔認証の最先端と比較して低下する。 単純なメンバーシップアタックでテストすると、モデルは優れたプライバシー保護を提供しますが、モデルのパフォーマンスは、顔認証の最先端と比べて低下します。 少量のプライベートデータを追加することで、モデルの性能が大幅に向上し、機械学習モデルのトレーニングに合成データを使用することの制限が強調されることがわかった。

Machine learning tools are becoming increasingly powerful and widely used. Unfortunately membership attacks, which seek to uncover information from data sets used in machine learning, have the potential to limit data sharing. In this paper we consider an approach to increase the privacy protection of data sets, as applied to face recognition. Using an auxiliary face recognition model, we build on the StyleGAN generative adversarial network and feed it with latent codes combining two distinct sub-codes, one encoding visual identity factors, and, the other, non-identity factors. By independently varying these vectors during image generation, we create a synthetic data set of fictitious face identities. We use this data set to train a face recognition model. The model performance degrades in comparison to the state-of-the-art of face verification. When tested with a simple membership attack our model provides good privacy protection, however the model performance degrades in comparison to the state-of-the-art of face verification. We find that the addition of a small amount of private data greatly improves the performance of our model, which highlights the limitations of using synthetic data to train machine learning models.
公開日:2021-08-02
翻訳日:2021-08-03 21:39:22
# (参考訳) NL2SQLにおける半自己回帰的意味解析 [全文訳有]

Relation Aware Semi-autoregressive Semantic Parsing for NL2SQL ( http://arxiv.org/abs/2108.00804v1 )

ライセンス: CC BY 4.0
Junyang Huang, Yongbo Wang, Yongliang Wang, Yang Dong and Yanghua Xiao(参考訳) SQLへの自然言語(NL2SQL)は、あるデータベースで自然言語を解析してSQLクエリにすることを目的としている。 データベーススキーマと質問発話を共同でエンコードすることは、NL2SQLでは難しいが重要なタスクである。 一つの解決策は、入力を異質なグラフとして扱うことである。 しかし、質問発声において良い単語表現を学ばなかった。 優れた単語表現の学習は、よく設計されたNL2SQLシステムを構築する上で重要である。 この課題を解決するために,NL2SQLより適応性の高い半自動意味解析(\MODN)・フレームワークを提案する。 まず、ELECTRAと事前定義されたスキーマ関係を持つスキーマエンティティと疑問語に埋め込まれた関係を学習する。 次に、クエリSQLを半自己回帰パーサと事前定義されたSQL構文でデコードします。 実験結果とケーススタディから,NL2SQLにおける単語表現の学習の有効性を示す。

Natural language to SQL (NL2SQL) aims to parse a natural language with a given database into a SQL query, which widely appears in practical Internet applications. Jointly encode database schema and question utterance is a difficult but important task in NL2SQL. One solution is to treat the input as a heterogeneous graph. However, it failed to learn good word representation in question utterance. Learning better word representation is important for constructing a well-designed NL2SQL system. To solve the challenging task, we present a Relation aware Semi-autogressive Semantic Parsing (\MODN) ~framework, which is more adaptable for NL2SQL. It first learns relation embedding over the schema entities and question words with predefined schema relations with ELECTRA and relation aware transformer layer as backbone. Then we decode the query SQL with a semi-autoregressive parser and predefined SQL syntax. From empirical results and case study, our model shows its effectiveness in learning better word representation in NL2SQL.
公開日:2021-08-02
翻訳日:2021-08-03 21:30:31
# (参考訳) 網膜octの次元部分集合に沿ったセグメンテーションのための射影的スキップ接続 [全文訳有]

Projective Skip-Connections for Segmentation Along a Subset of Dimensions in Retinal OCT ( http://arxiv.org/abs/2108.00831v1 )

ライセンス: CC BY 4.0
Dmitrii Lachinov, Philipp Seeboeck, Julia Mai, Ursula Schmidt-Erfurth, Hrvoje Bogunovic(参考訳) 医療画像では、出力マスクが入力画像次元のサブセットへの投影である、臨床的に関連するセグメンテーションタスクが存在する。 本研究では,入力画像よりも低次元のセグメンテーションマスクを効果的に生成できる新しい畳み込みニューラルネットワークアーキテクチャを提案する。 ネットワークは、入力された空間次元のサブセットでのみ符号化表現を復元し、他の部分で表現を不変に保つ。 新たに提案されたスキップ接続により、UNetのような構造でエンコーダとデコーダをリンクできる。 網膜光学コヒーレンス断層撮影 (oct) における2つの臨床関連課題 (地理的萎縮と網膜血管分画) について検討した。 提案手法は、3dボリュームと対応する2d内面マスクからなる全octデータセットにおける最先端のアプローチよりも優れていた。 提案アーキテクチャは,画像分類とND画像分割の方法論的ギャップを埋める。

In medical imaging, there are clinically relevant segmentation tasks where the output mask is a projection to a subset of input image dimensions. In this work, we propose a novel convolutional neural network architecture that can effectively learn to produce a lower-dimensional segmentation mask than the input image. The network restores encoded representation only in a subset of input spatial dimensions and keeps the representation unchanged in the others. The newly proposed projective skip-connections allow linking the encoder and decoder in a UNet-like structure. We evaluated the proposed method on two clinically relevant tasks in retinal Optical Coherence Tomography (OCT): geographic atrophy and retinal blood vessel segmentation. The proposed method outperformed the current state-of-the-art approaches on all the OCT datasets used, consisting of 3D volumes and corresponding 2D en-face masks. The proposed architecture fills the methodological gap between image classification and ND image segmentation.
公開日:2021-08-02
翻訳日:2021-08-03 21:18:36
# (参考訳) 弱教師付き物体定位のための浅部特徴量 [全文訳有]

Shallow Feature Matters for Weakly Supervised Object Localization ( http://arxiv.org/abs/2108.00873v1 )

ライセンス: CC BY 4.0
Jun Wei, Qin Wang, Zhen Li, Sheng Wang, S.Kevin Zhou, Shuguang Cui(参考訳) weakly supervised object localization (wsol) は、画像レベルのラベルのみを利用してオブジェクトをローカライズすることを目的としている。 クラスアクティベーションマップ(CAM)はWSOLを実現するのによく使われる機能である。 しかし、従来のCAMベースの手法は、WSOLの重要性にもかかわらず、浅い特徴を完全に活用しなかった。 浅い特徴は従来の融合によって容易に背景雑音に埋もれるためである。 本稿では, 浅層に埋もれた低レベル特徴を最大限に活用する, 高精度なwsolのための, 単純かつ効果的な浅層特徴認識擬似教師付き物体定位モデルを提案する。 実際、SPOLモデルは、背景雑音をフィルタし、よりシャープな境界を強固に生成する、浅い特徴写像と深い特徴写像の要素ワイド乗算により、まずCAMを生成する。 さらに,初期CAMを付加アノテーションなしで擬似ラベルとしてのみ使用することにより,精度の高いオブジェクトマスクを実現するための一般クラス非依存セグメンテーションモデルを提案する。 最終的に、対象マスクにバウンディングボックス抽出器を塗布してターゲットを特定する。 実験により、我々のSPOLはCUB-200とImageNet-1Kのベンチマークでそれぞれ93.44%と67.15%(すなわち3.93%と2.13%の改善)を達成した。

Weakly supervised object localization (WSOL) aims to localize objects by only utilizing image-level labels. Class activation maps (CAMs) are the commonly used features to achieve WSOL. However, previous CAM-based methods did not take full advantage of the shallow features, despite their importance for WSOL. Because shallow features are easily buried in background noise through conventional fusion. In this paper, we propose a simple but effective Shallow feature-aware Pseudo supervised Object Localization (SPOL) model for accurate WSOL, which makes the utmost of low-level features embedded in shallow layers. In practice, our SPOL model first generates the CAMs through a novel element-wise multiplication of shallow and deep feature maps, which filters the background noise and generates sharper boundaries robustly. Besides, we further propose a general class-agnostic segmentation model to achieve the accurate object mask, by only using the initial CAMs as the pseudo label without any extra annotation. Eventually, a bounding box extractor is applied to the object mask to locate the target. Experiments verify that our SPOL outperforms the state-of-the-art on both CUB-200 and ImageNet-1K benchmarks, achieving 93.44% and 67.15% (i.e., 3.93% and 2.13% improvement) Top-5 localization accuracy, respectively.
公開日:2021-08-02
翻訳日:2021-08-03 21:05:39
# (参考訳) ポリプセグメンテーションのための浅い注意ネットワーク [全文訳有]

Shallow Attention Network for Polyp Segmentation ( http://arxiv.org/abs/2108.00882v1 )

ライセンス: CC BY 4.0
Jun Wei, Yiwen Hu, Ruimao Zhang, Zhen Li, S.Kevin Zhou, Shuguang Cui(参考訳) 正確なポリープの分画は大腸癌の診断に非常に重要である。 しかし、強力なディープニューラルネットワークであっても、ポリプセグメンテーションの開発を妨げる3つの大きな課題は残っている。 (i)異なる条件下で収集されたサンプルは、不整合色を示し、特徴分布ギャップと過度な適合の問題を引き起こし、(ii)繰り返し機能ダウンサンプリングにより、小さなポリープが容易に劣化し、(iii)前景と背景画素が不整合し、バイアスのある訓練につながる。 上記の問題に対処するため,ポリプセグメンテーションのためのShallow Attention Network (SANet)を提案する。 具体的には、色の影響をなくすために、色交換操作をデザインし、画像内容と色を分離し、モデルに対象の形状と構造をより集中させる。 さらに,小型ポリプのセグメンテーション品質を向上させるため,浅い特徴の背景雑音を除去できる浅層アテンションモジュールを提案する。 浅い特徴の高分解能により、小さなポリープを正確に保存することができる。 さらに,小型ポリープの画素不均衡を緩和するため,推定フェーズにおける確率補正戦略(PCS)を提案する。 PCSはトレーニングフェーズには関与していないが、偏りのあるモデルでもうまく機能し、セグメンテーション性能を一貫して改善できる。 5つの挑戦的ベンチマークにおける定量的および定性的な実験結果から,提案したSANetは従来の最先端手法よりも高い性能を示し,72FPSの速度を達成した。

Accurate polyp segmentation is of great importance for colorectal cancer diagnosis. However, even with a powerful deep neural network, there still exists three big challenges that impede the development of polyp segmentation. (i) Samples collected under different conditions show inconsistent colors, causing the feature distribution gap and overfitting issue; (ii) Due to repeated feature downsampling, small polyps are easily degraded; (iii) Foreground and background pixels are imbalanced, leading to a biased training. To address the above issues, we propose the Shallow Attention Network (SANet) for polyp segmentation. Specifically, to eliminate the effects of color, we design the color exchange operation to decouple the image contents and colors, and force the model to focus more on the target shape and structure. Furthermore, to enhance the segmentation quality of small polyps, we propose the shallow attention module to filter out the background noise of shallow features. Thanks to the high resolution of shallow features, small polyps can be preserved correctly. In addition, to ease the severe pixel imbalance for small polyps, we propose a probability correction strategy (PCS) during the inference phase. Note that even though PCS is not involved in the training phase, it can still work well on a biased model and consistently improve the segmentation performance. Quantitative and qualitative experimental results on five challenging benchmarks confirm that our proposed SANet outperforms previous state-of-the-art methods by a large margin and achieves a speed about 72FPS.
公開日:2021-08-02
翻訳日:2021-08-03 20:53:04
# (参考訳) Sticky-Datalog+/- by Finite-Position SelectionFunctions: Tractability, Algorithms, Optimizations

Extending Sticky-Datalog+/- via Finite-Position SelectionFunctions: Tractability, Algorithms, and Optimization ( http://arxiv.org/abs/2108.00903v1 )

ライセンス: CC BY 4.0
Leopoldo Bertossi, Mostafa Milani(参考訳) weakly-sticky(ws) datalog+/-は、粘着性と非循環性の条件に基づいて定義されるdatalog+/-プログラムクラスの表現力のあるメンバーである。 WS プログラム上での接続型クエリ応答 (QA) について検討し,データ複雑性のトラクタビリティを確立した。 しかし,実効的なQAアルゴリズムの設計と実装とその最適化は未完成である。 このギャップを埋めるために、私たちはまず、追跡手順の振る舞いの観点から、StickyとWSプログラムを研究します。 我々は、チェイスのスティッキネス特性を、チェイス中に有限の値が現れる述語位置を選択する(そして提供する)オラクルの一般化されたスティッキネス(gsch)モジュロに拡張する。 これらの位置のサブセットのみを提供する選択関数 S の粘度変調は、GSCh のセマンティックサブクラス sch(S) を定義する。 選択関数を持つプログラムクラスには、Sticky と WS と、WS を含むジョイント弱スティックプログラムの導入と特徴付けを行う別の構文クラス、すなわち JWS がある。 これら3つのクラスの選択関数は計算可能であり、外部の計算不可能なオラクルは必要ない。 本稿では,一般選択 s に対して,クラス sch(s) におけるプログラムのボトムアップ qa アルゴリズムを提案する。 WSと異なり、JWSはマジックセットのクエリ最適化の下でクローズされている。 その結果、一般的な多項式時間QAアルゴリズムとマジックセット最適化の両方を具体化し、WSに適用することができる。

Weakly-Sticky(WS) Datalog+/- is an expressive member of the family of Datalog+/- program classes that is defined on the basis of the conditions of stickiness and weak-acyclicity. Conjunctive query answering (QA) over the WS programs has been investigated, and its tractability in data complexity has been established. However, the design and implementation of practical QA algorithms and their optimizations have been open. In order to fill this gap, we first study Sticky and WS programs from the point of view of the behavior of the chase procedure. We extend the stickiness property of the chase to that of generalized stickiness of the chase (GSCh) modulo an oracle that selects (and provides) the predicate positions where finitely values appear during the chase. Stickiness modulo a selection function S that provides only a subset of those positions defines sch(S), a semantic subclass of GSCh. Program classes with selection functions include Sticky and WS, and another syntactic class that we introduce and characterize, namely JWS, of jointly-weakly-stick y programs, which contains WS. The selection functions for these last three classes are computable, and no external, possibly non-computable oracle is needed. We propose a bottom-up QA algorithm for programs in the class sch(S), for a general selection S.As a particular case, we obtain a polynomial-time QA algorithm for JWS and weakly-sticky programs. Unlike WS, JWS turns out to be closed under magic-sets query optimization. As a consequence, both the generic polynomial-time QA algorithm and its magic-set optimization can be particularized and applied to WS.
公開日:2021-08-02
翻訳日:2021-08-03 20:43:42