このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220501となっている論文です。

PDF登録状況(公開日: 20220501)

TitleAuthorsAbstract論文公表日・翻訳日
# 非シンボリックニューラルネットワークを用いた関係推論と一般化

Relational reasoning and generalization using non-symbolic neural networks ( http://arxiv.org/abs/2006.07968v3 )

ライセンス: Link先を確認
Atticus Geiger, Alexandra Carstensen, Michael C. Frank, and Christopher Potts(参考訳) 等式の概念(identity)は単純かつユビキタスであり、抽象的関係推論をサポートする表現に関する幅広い質問に対する重要なケーススタディである。 これまでの研究では、ニューラルネットワークは数学的同一性を表現することができないため、人間関係推論の適切なモデルではないことが示唆された。 私たちはこの質問を再考する。 実験では,異なるタスクで事前学習された任意の表現と表現の両方を用いて等式を一般化し,構造を付与する。 ニューラルネットワークは,(1)基本等式(数学的等式),(2)正のトレーニングインスタンスのみを用いた逐次等等式問題(abaパターン列の学習),(3)基本等式トレーニングインスタンスのみを持つ複雑で階層的な等式問題(「ゼロショット」一般化)を学習できることがわかった。 後者の2例では,先行研究で提案するヒューマン・ユネスクな象徴的能力を示すタスクを遂行する。 これらの結果は,データ駆動型非象徴的学習プロセスから,象徴的推論の本質的な側面が生まれることを示唆している。

The notion of equality (identity) is simple and ubiquitous, making it a key case study for broader questions about the representations supporting abstract relational reasoning. Previous work suggested that neural networks were not suitable models of human relational reasoning because they could not represent mathematically identity, the most basic form of equality. We revisit this question. In our experiments, we assess out-of-sample generalization of equality using both arbitrary representations and representations that have been pretrained on separate tasks to imbue them with structure. We find neural networks are able to learn (1) basic equality (mathematical identity), (2) sequential equality problems (learning ABA-patterned sequences) with only positive training instances, and (3) a complex, hierarchical equality problem with only basic equality training instances ("zero-shot'" generalization). In the two latter cases, our models perform tasks proposed in previous work to demarcate human-unique symbolic abilities. These results suggest that essential aspects of symbolic reasoning can emerge from data-driven, non-symbolic learning processes.
翻訳日:2022-11-21 09:42:43 公開日:2022-05-01
# 単眼深度の自己教師付きスケールリカバリと運動推定

Self-Supervised Scale Recovery for Monocular Depth and Egomotion Estimation ( http://arxiv.org/abs/2009.03787v5 )

ライセンス: Link先を確認
Brandon Wagstaff, Jonathan Kelly(参考訳) 単眼画像を用いた協調訓練深度と自走神経回路の自己教師型損失定式化について検討し,最先端の精度を実証した。 しかし、このアプローチの主な制限の1つは、深さとエゴモーションの推定が未知のスケールまでしか決定されないことである。 本稿では,既知のカメラ高さと推定カメラ高さの一貫性を強制し,距離(スケールド)とエゴモーション予測を生成する新しいスケールリカバリ損失を提案する。 提案手法は,より多くの情報を必要とする他のスケールリカバリ手法と競合することを示す。 さらに,本手法では新たな環境下でのネットワークリトレーニングが容易であり,他のスケールリゾルディング手法では実現できないことを示す。 特に、egomotionネットワークは、テスト時間のみスケールを回復する類似の方法よりも正確な推定を行うことができます。

The self-supervised loss formulation for jointly training depth and egomotion neural networks with monocular images is well studied and has demonstrated state-of-the-art accuracy. One of the main limitations of this approach, however, is that the depth and egomotion estimates are only determined up to an unknown scale. In this paper, we present a novel scale recovery loss that enforces consistency between a known camera height and the estimated camera height, generating metric (scaled) depth and egomotion predictions. We show that our proposed method is competitive with other scale recovery techniques that require more information. Further, we demonstrate that our method facilitates network retraining within new environments, whereas other scale-resolving approaches are incapable of doing so. Notably, our egomotion network is able to produce more accurate estimates than a similar method which recovers scale at test time only.
翻訳日:2022-10-20 21:28:45 公開日:2022-05-01
# 多様な分布認識エキスパートのルーティングによるロングテール認識

Long-tailed Recognition by Routing Diverse Distribution-Aware Experts ( http://arxiv.org/abs/2010.01809v4 )

ライセンス: Link先を確認
Xudong Wang, Long Lian, Zhongqi Miao, Ziwei Liu, Stella X. Yu(参考訳) 自然データは、しばしばセマンティッククラスに分散される。 既存の認識手法はこの不均衡な分類に取り組み、クラスの再バランス/再重み付けや異なるデータグループに対するアンサンブルにより、尾の精度が向上するが、頭部の精度は低下する。 既存のロングテール分類器はモデルの分散を常に増加させ、ヘッドテールモデルのバイアスギャップは、テールの硬い負との混乱がますます大きくなるため、大きいままである。 本稿では,RoutIng Diverse Experts (RIDE) と呼ばれる長尾型分類器を提案する。 複数の専門家とのモデルの分散を減らし、分布を考慮した多様性損失によるモデルバイアスを減らし、動的専門家ルーティングモジュールによる計算コストを削減する。 RIDEは、CIFAR100-LT、ImageNet-LT、iNaturalist 2018ベンチマークで最先端を5%から7%上回っている。 また、様々なバックボーンネットワーク、長い尾のアルゴリズム、一貫したパフォーマンス向上のためのトレーニングメカニズムに適用可能な普遍的なフレームワークである。 私たちのコードは、https://github.com/frank-xwang/RIDE-LongTailRecognitionで利用可能です。

Natural data are often long-tail distributed over semantic classes. Existing recognition methods tackle this imbalanced classification by placing more emphasis on the tail data, through class re-balancing/re-weighting or ensembling over different data groups, resulting in increased tail accuracies but reduced head accuracies. We take a dynamic view of the training data and provide a principled model bias and variance analysis as the training data fluctuates: Existing long-tail classifiers invariably increase the model variance and the head-tail model bias gap remains large, due to more and larger confusion with hard negatives for the tail. We propose a new long-tailed classifier called RoutIng Diverse Experts (RIDE). It reduces the model variance with multiple experts, reduces the model bias with a distribution-aware diversity loss, reduces the computational cost with a dynamic expert routing module. RIDE outperforms the state-of-the-art by 5% to 7% on CIFAR100-LT, ImageNet-LT and iNaturalist 2018 benchmarks. It is also a universal framework that is applicable to various backbone networks, long-tailed algorithms, and training mechanisms for consistent performance gains. Our code is available at: https://github.com/frank-xwang/RIDE-LongTailRecognition.
翻訳日:2022-10-10 21:50:21 公開日:2022-05-01
# 学習しない学習--シリコにおける自然と育児

Learning Not to Learn: Nature versus Nurture in Silico ( http://arxiv.org/abs/2010.04466v3 )

ライセンス: Link先を確認
Robert Tjarko Lange and Henning Sprekeler(参考訳) 動物は、知覚、行動、運動のスキルの豊富な生来的なレパートリーを備えており、生後すぐに世界と対話することができる。 同時に、多くの行動は高度に適応しており、学習によって特定の環境に合わせて調整することができる。 本研究では,このような適応的戦略を学習し,ヒューリスティックな振る舞いをハードコーディングする上で有益である場合に,数学的解析とメタラーニング(あるいは学習のための学習)の枠組みを用いる。 その結果, 環境不確実性, タスクの複雑さ, エージェントの寿命の相互作用が, エージェントが行うメタ学習的記憶的ベイズ推定に決定的な影響を及ぼすことがわかった。 メタラーニングがタスク依存の情報統合を実装する学習アルゴリズムと、メタラーニングがヒューリスティックまたは「ハードコード」な振る舞いをインプリントする2つのレジームがある。 さらなる分析により、適応的でない行動は、個人間で安定している環境の側面に最適であるだけでなく、環境への適応が実際に非常に有益であるだけでなく、残りの寿命で十分に活用できない状況にも最適であることが明らかとなった。 したがって、ハードコードされた振る舞いは、常に機能するだけでなく、合理的な時間枠で学ぶには複雑すぎる振る舞いであるべきです。

Animals are equipped with a rich innate repertoire of sensory, behavioral and motor skills, which allows them to interact with the world immediately after birth. At the same time, many behaviors are highly adaptive and can be tailored to specific environments by means of learning. In this work, we use mathematical analysis and the framework of meta-learning (or 'learning to learn') to answer when it is beneficial to learn such an adaptive strategy and when to hard-code a heuristic behavior. We find that the interplay of ecological uncertainty, task complexity and the agents' lifetime has crucial effects on the meta-learned amortized Bayesian inference performed by an agent. There exist two regimes: One in which meta-learning yields a learning algorithm that implements task-dependent information-integration and a second regime in which meta-learning imprints a heuristic or 'hard-coded' behavior. Further analysis reveals that non-adaptive behaviors are not only optimal for aspects of the environment that are stable across individuals, but also in situations where an adaptation to the environment would in fact be highly beneficial, but could not be done quickly enough to be exploited within the remaining lifetime. Hard-coded behaviors should hence not only be those that always work, but also those that are too complex to be learned within a reasonable time frame.
翻訳日:2022-10-09 03:55:13 公開日:2022-05-01
# (参考訳) DDDM:ロバスト分類のためのブレインインスパイアされたフレームワーク

DDDM: a Brain-Inspired Framework for Robust Classification ( http://arxiv.org/abs/2205.10117v1 )

ライセンス: CC BY 4.0
Xiyuan Chen, Xingyu Li, Yi Zhou, Tianming Yang(参考訳) 現実世界のタスクの幅広い範囲における優れたパフォーマンスにもかかわらず、深層ニューラルネットワークは入力ノイズ、特に敵の摂動に敏感である。 反対に、人間と動物の脳はずっと脆弱です。 ほとんどのディープニューラルネットワークが行うワンショット推論とは対照的に、脳は、ノイズのある入力に直面した時に正確さのために時間を交換するエビデンス蓄積機構を用いて意思決定を解決する。 このメカニズムはドリフト拡散モデル(ddm)によってよく説明されている。 DDMでは、ノイズのある証拠をしきい値に向けて蓄積するプロセスとして意思決定がモデル化される。 ddmからインスピレーションを得て,テストフェーズドロップアウトとddmを組み合わせたドリフト拡散モデル(dddm)を提案し,任意のニューラルネットワークのロバスト性を改善する。 ドロップアウトは、摂動に対抗するネットワーク内の時間的非相関なノイズを生成し、証拠蓄積機構は合理的な決定精度を保証する。 画像、音声、テキスト分類タスクでテストされたDDDMで強化されたニューラルネットワークは、ネイティブタスクよりも大幅に優れており、DDDMは敵攻撃に対するタスク非依存の防御であることを示した。

Despite their outstanding performance in a broad spectrum of real-world tasks, deep artificial neural networks are sensitive to input noises, particularly adversarial perturbations. On the contrary, human and animal brains are much less vulnerable. In contrast to the one-shot inference performed by most deep neural networks, the brain often solves decision-making with an evidence accumulation mechanism that may trade time for accuracy when facing noisy inputs. The mechanism is well described by the Drift-Diffusion Model (DDM). In the DDM, decision-making is modeled as a process in which noisy evidence is accumulated toward a threshold. Drawing inspiration from the DDM, we propose the Dropout-based Drift-Diffusion Model (DDDM) that combines test-phase dropout and the DDM for improving the robustness for arbitrary neural networks. The dropouts create temporally uncorrelated noises in the network that counter perturbations, while the evidence accumulation mechanism guarantees a reasonable decision accuracy. Neural networks enhanced with the DDDM tested in image, speech, and text classification tasks all significantly outperform their native counterparts, demonstrating the DDDM as a task-agnostic defense against adversarial attacks.
翻訳日:2022-06-06 09:05:12 公開日:2022-05-01
# 注意度可変プリフェッチのための細粒度アドレスセグメンテーション

Fine-Grained Address Segmentation for Attention-Based Variable-Degree Prefetching ( http://arxiv.org/abs/2205.02269v1 )

ライセンス: Link先を確認
Pengmiao Zhang, Ajitesh Srivastava, Anant V. Nori, Rajgopal Kannan, Viktor K. Prasanna(参考訳) 機械学習アルゴリズムは、将来のメモリアクセスを正確に予測することで、プリフェッチ性能を改善する可能性がある。 既存のアプローチはテキスト予測のモデリングに基づいており、プリフェッチをシーケンス予測の分類問題として考慮している。 しかし、広大なメモリアドレス空間は大きな語彙をもたらすため、このモデリングは現実的ではない。 複数のキャッシュラインプリフェッチのための出力の数と順序も、テキスト予測と根本的に異なる。 プレフェッチをモデル化する新しい方法であるTransFetchを提案する。 語彙サイズを小さくするために,詳細なアドレスセグメンテーションを入力として使用する。 将来のアドレスの無順序セットを予測するために、複数の出力にデルタビットマップを使用します。 入力と出力のマッピングを学ぶために注意に基づくネットワークを適用する。 予測実験により、アドレスセグメンテーションはデルタ入力よりも26%から36%高いF1スコア、SPEC 2006 SPEC 2017およびGAPベンチマークより15%から24%高いF1スコアを達成することが示された。 シミュレーションの結果、TransFetchはプレフェッチなしで38.75%のIPC改善を実現し、最も優れたルールベースのプレフェッチャーBOPを10.44%、MLベースのプレフェッチャーボイジャーを6.64%上回った。

Machine learning algorithms have shown potential to improve prefetching performance by accurately predicting future memory accesses. Existing approaches are based on the modeling of text prediction, considering prefetching as a classification problem for sequence prediction. However, the vast and sparse memory address space leads to large vocabulary, which makes this modeling impractical. The number and order of outputs for multiple cache line prefetching are also fundamentally different from text prediction. We propose TransFetch, a novel way to model prefetching. To reduce vocabulary size, we use fine-grained address segmentation as input. To predict unordered sets of future addresses, we use delta bitmaps for multiple outputs. We apply an attention-based network to learn the mapping between input and output. Prediction experiments demonstrate that address segmentation achieves 26% - 36% higher F1-score than delta inputs and 15% - 24% higher F1-score than page & offset inputs for SPEC 2006, SPEC 2017, and GAP benchmarks. Simulation results show that TransFetch achieves 38.75% IPC improvement compared with no prefetching, outperforming the best-performing rule-based prefetcher BOP by 10.44%, and ML-based prefetcher Voyager by 6.64%.
翻訳日:2022-05-06 15:33:17 公開日:2022-05-01
# (参考訳) 深層強化学習によるネットワーク制御処理

Processing Network Controls via Deep Reinforcement Learning ( http://arxiv.org/abs/2205.02119v1 )

ライセンス: CC BY 4.0
Mark Gluzman(参考訳) 近位政策最適化(ppo)、信頼領域政策最適化、およびそれらのバリエーションといった新しい先進的政策勾配(apg)アルゴリズムは、実装の容易さと実用的な性能のため、主要な強化学習(rl)アルゴリズムとなっている。 この論文は、ネットワーク制御最適化問題を解決するためのAPGアルゴリズムの理論的正当性と実践的応用に関するものである。 ネットワーク制御問題の処理は一般にマルコフ決定過程(MDP)または半マルコフ決定過程(SMDP)として定式化され、無限状態空間、非有界コスト、長期平均コストの目的など、RLの特徴に対していくつかの不便な問題が存在する。 政策改善境界は、APGアルゴリズムの理論的正当化において重要な役割を果たす。 この論文では、有限状態空間を持つMDPの既存の境界を洗練し、処理ネットワーク操作をモデル化するために使用されるMDPとSMDPのクラスに対する新しいポリシー改善境界を証明する。 ネットワーク制御問題を処理し、PPOアルゴリズムをカスタマイズして解決する2つの例を考察する。 まず,並列サーバおよびマルチクラス待ち行列ネットワーク制御について検討する。 第二に、配車サービスシステムにおけるドライバー配置の問題を考える。 どちらの例においても、補助的な修正を伴うPPOアルゴリズムは、最先端のヒューリスティックよりも優れた制御ポリシーを一貫して生成する。

Novel advanced policy gradient (APG) algorithms, such as proximal policy optimization (PPO), trust region policy optimization, and their variations, have become the dominant reinforcement learning (RL) algorithms because of their ease of implementation and good practical performance. This dissertation is concerned with theoretical justification and practical application of the APG algorithms for solving processing network control optimization problems. Processing network control problems are typically formulated as Markov decision process (MDP) or semi-Markov decision process (SMDP) problems that have several unconventional for RL features: infinite state spaces, unbounded costs, long-run average cost objectives. Policy improvement bounds play a crucial role in the theoretical justification of the APG algorithms. In this thesis we refine existing bounds for MDPs with finite state spaces and prove novel policy improvement bounds for classes of MDPs and SMDPs used to model processing network operations. We consider two examples of processing network control problems and customize the PPO algorithm to solve them. First, we consider parallel-server and multiclass queueing networks controls. Second, we consider the drivers repositioning problem in a ride-hailing service system. For both examples the PPO algorithm with auxiliary modifications consistently generates control policies that outperform state-of-art heuristics.
翻訳日:2022-05-06 08:28:23 公開日:2022-05-01
# (参考訳) 極端事象によるインフラ損傷の自動検出のための工学的深層学習法

Engineering deep learning methods on automatic detection of damage in infrastructure due to extreme events ( http://arxiv.org/abs/2205.02125v1 )

ライセンス: CC BY 4.0
Yongsheng Bai, Bing Zha, Halil Sezen and Alper Yilmaz(参考訳) 本稿では,2次元画像処理のための深層学習手法を用いて,極端事象における自動構造損傷検出(SDD)に関する総合的な実験を行った。 最初の研究では、152層のResidual Network(ResNet)を用いて、シーンレベル、損傷レベル、材料タイプなどを含む8つのSDDタスクの複数のクラスを分類する。 提案するresnetは各タスクにおいて高い精度を達成したが,損傷位置は特定できない。 第2の研究では、既存のResNetとセグメンテーションネットワーク(U-Net)を新しいパイプライン、カスケードネットワークに結合し、構造的損傷の分類と配置を行う。 その結果,損傷検出の精度はセグメンテーションネットワークのみを用いた場合に比べて有意に向上した。 第3報と第4報では,最近の大地震の画像収集における亀裂やスポーリングを直接検出する新しい解として,エンドツーエンドネットワークが開発・テストされている。 提案したネットワークの1つは、様々なスケールと解像度でテストされたすべての画像に対して67.6%以上の精度を達成でき、これらの人間の自由な検出タスクに対する堅牢性を示している。 予備実験として,提案手法を用いてコンクリート構造物の損傷を検知し,その進行崩壊性能について検討した。 実験の結果, 深層学習による構造損傷の自動検出は実現可能で有望であることが示唆された。 トレーニングデータセットとコードは、この記事の公開時に一般公開される予定である。

This paper presents a few comprehensive experimental studies for automated Structural Damage Detection (SDD) in extreme events using deep learning methods for processing 2D images. In the first study, a 152-layer Residual network (ResNet) is utilized to classify multiple classes in eight SDD tasks, which include identification of scene levels, damage levels, material types, etc. The proposed ResNet achieved high accuracy for each task while the positions of the damage are not identifiable. In the second study, the existing ResNet and a segmentation network (U-Net) are combined into a new pipeline, cascaded networks, for categorizing and locating structural damage. The results show that the accuracy of damage detection is significantly improved compared to only using a segmentation network. In the third and fourth studies, end-to-end networks are developed and tested as a new solution to directly detect cracks and spalling in the image collections of recent large earthquakes. One of the proposed networks can achieve an accuracy above 67.6% for all tested images at various scales and resolutions, and shows its robustness for these human-free detection tasks. As a preliminary field study, we applied the proposed method to detect damage in a concrete structure that was tested to study its progressive collapse performance. The experiments indicate that these solutions for automatic detection of structural damage using deep learning methods are feasible and promising. The training datasets and codes will be made available for the public upon the publication of this paper.
翻訳日:2022-05-06 07:53:17 公開日:2022-05-01
# (参考訳) フェデレーション学習におけるプライバシー保護のためのヘンゼル圧縮に基づく新しい次元化手法

A New Dimensionality Reduction Method Based on Hensel's Compression for Privacy Protection in Federated Learning ( http://arxiv.org/abs/2205.02089v1 )

ライセンス: CC BY 4.0
Ahmed El Ouadrhiri, Ahmed Abdelhadi(参考訳) 差分プライバシー(DP)は、データ分析、機械学習、ディープラーニングにおいてユーザのプライバシーを保護するためのデファクトスタンダードと考えられている。 既存のDPベースのプライバシー保護トレーニングアプローチでは、サーバと共有する前にクライアントの勾配にノイズを追加する。 しかし,構成定理による同期トレーニング時間の増加によってプライバシリークが増加するため,勾配上でdpを実装することは効率的ではない。 近年,DPにより勾配が保護された場合でも,GANN(Generative Regression Neural Network)を用いてトレーニングデータセットで使用される画像の復元が可能となった。 本稿では,既存のDPベースのアプローチの限界を克服する2つのプライバシー保護手法を提案する。 第1層は、henselの補題に基づいてトレーニングデータセットの次元を減少させる。 データセットの次元(すなわち圧縮)を減らすためにhenselの補題を最初に使ったのは私たちです。 新しい次元減少法は、ヘンゼルのLemmaが一意性を保証するため、情報を失うことなくデータセットの次元を小さくすることができる。 第2層は、第1層によって生成された圧縮データセットにDPを適用する。 提案手法は,DPをトレーニング前に1回だけ適用することで構成上のプライバシー漏洩を克服し,クライアントは第2層が生成したプライバシー保護データセット上でローカルモデルをトレーニングする。 実験結果から,提案手法は高いプライバシー保護を確保でき,精度が向上することが示された。 新しい次元削減法は、元のデータサイズのわずか25%の精度で97%の精度を達成する。

Differential privacy (DP) is considered a de-facto standard for protecting users' privacy in data analysis, machine, and deep learning. Existing DP-based privacy-preserving training approaches consist of adding noise to the clients' gradients before sharing them with the server. However, implementing DP on the gradient is not efficient as the privacy leakage increases by increasing the synchronization training epochs due to the composition theorem. Recently researchers were able to recover images used in the training dataset using Generative Regression Neural Network (GRNN) even when the gradient was protected by DP. In this paper, we propose two layers of privacy protection approach to overcome the limitations of the existing DP-based approaches. The first layer reduces the dimension of the training dataset based on Hensel's Lemma. We are the first to use Hensel's Lemma for reducing the dimension (i.e., compress) of a dataset. The new dimensionality reduction method allows reducing the dimension of a dataset without losing information since Hensel's Lemma guarantees uniqueness. The second layer applies DP to the compressed dataset generated by the first layer. The proposed approach overcomes the problem of privacy leakage due to composition by applying DP only once before the training; clients train their local model on the privacy-preserving dataset generated by the second layer. Experimental results show that the proposed approach ensures strong privacy protection while achieving good accuracy. The new dimensionality reduction method achieves an accuracy of 97%, with only 25 % of the original data size.
翻訳日:2022-05-06 07:21:43 公開日:2022-05-01
# 予測+最適化における帰納的かつ反復的解決可能な問題の分岐と学習

Branch & Learn for Recursively and Iteratively Solvable Problems in Predict+Optimize ( http://arxiv.org/abs/2205.01672v1 )

ライセンス: Link先を確認
Xinyi Hu, Jasper C.H. Lee, Jimmy H.M. Lee and Allen Z. Zhong(参考訳) 本稿では,未解決のパラメータを含む最適化問題に対して,予測+最適化のためのフレームワークであるbranch & learnを提案する。 簡単な条件を満たす再帰的アルゴリズムで解ける最適化問題を考えると、その再帰的アルゴリズムから対応する学習アルゴリズムを直接的かつ体系的に構築できることを示す。 我々のフレームワークは、それらを退化的な再帰形式と見なして反復アルゴリズムにも適用している。 大規模な実験は、古典的および最先端のアプローチよりも優れた性能を示す。

This paper proposes Branch & Learn, a framework for Predict+Optimize to tackle optimization problems containing parameters that are unknown at the time of solving. Given an optimization problem solvable by a recursive algorithm satisfying simple conditions, we show how a corresponding learning algorithm can be constructed directly and methodically from the recursive algorithm. Our framework applies also to iterative algorithms by viewing them as a degenerate form of recursion. Extensive experimentation shows better performance for our proposal over classical and state-of-the-art approaches.
翻訳日:2022-05-05 14:06:08 公開日:2022-05-01
# (参考訳) ツイートに対する敵対的な攻撃は株価の予測を騙す

A Word is Worth A Thousand Dollars: Adversarial Attack on Tweets Fools Stock Prediction ( http://arxiv.org/abs/2205.01094v1 )

ライセンス: CC BY-SA 4.0
Yong Xie, Dakuo Wang, Pin-Yu Chen, Jinjun Xiong, Sijia Liu, Sanmi Koyejo(参考訳) より多くの投資家や機械学習モデルがソーシャルメディア(例えばTwitterやReddit)に頼り、リアルタイム情報や感情を収集し、株価の動きを予測する。 テキストベースのモデルは敵対的な攻撃に弱いことが知られているが、在庫予測モデルが同様の脆弱性を持つかどうかは未検討である。 本稿では,3つのストック予測犠牲者モデルを騙すために,様々な攻撃構成を試行する。 セマンティクスと予算制約による組合せ最適化問題を解くことで、敵対的生成の課題に対処する。 提案手法は, 混乱するが意味的に類似したツイートを単に結合することによって, 一貫した成功率を達成し, 取引シミュレーションにおいて大きな損失をもたらすことを示唆する。

More and more investors and machine learning models rely on social media (e.g., Twitter and Reddit) to gather real-time information and sentiment to predict stock price movements. Although text-based models are known to be vulnerable to adversarial attacks, whether stock prediction models have similar vulnerability is underexplored. In this paper, we experiment with a variety of adversarial attack configurations to fool three stock prediction victim models. We address the task of adversarial generation by solving combinatorial optimization problems with semantics and budget constraints. Our results show that the proposed attack method can achieve consistent success rates and cause significant monetary loss in trading simulation by simply concatenating a perturbed but semantically similar tweet.
翻訳日:2022-05-05 05:01:04 公開日:2022-05-01
# De Novo分子生成のための条件付き$\beta$-VAE

Conditional $\beta$-VAE for De Novo Molecular Generation ( http://arxiv.org/abs/2205.01592v1 )

ライセンス: Link先を確認
Ryan J Richards and Austen M Groener(参考訳) 深層学習は著しく進歩し、デノボ分子生成を加速した。 生成ネットワーク、すなわち変分オートエンコーダ(vaes)は新しい分子をランダムに生成できるだけでなく、創薬に重要な特定の化学的性質を最適化するための分子構造も変更できる。 vaesは過去に薬学応用のために提案・研究されてきたが、特性を最適化する能力と構文上有効な分子をデコードする能力に限界がある。 我々は,hoc後分子最適化を強化するために潜在空間を分離する条件付き条件付き$\beta$-vaeを提案する。 我々は、相互情報駆動トレーニングプロトコルとデータ拡張を作成し、分子の妥当性を高め、より長いシーケンス生成を促進する。 我々は、ZINC-250kデータセット上でのフレームワークの有効性を実証し、PSP(pLogP)およびQEDスコアに対するSOTA制約のない最適化結果を達成するとともに、現在のSOTA結果とランダム生成の妥当性、ノベルティ、ユニークネススコアをマッチングする。 我々は,pLogP最適化のための新しいSOTAを104.29, 90.12, 69.68で設定し, 制約付き最適化タスクの改善結果を示した。

Deep learning has significantly advanced and accelerated de novo molecular generation. Generative networks, namely Variational Autoencoders (VAEs) can not only randomly generate new molecules, but also alter molecular structures to optimize specific chemical properties which are pivotal for drug-discovery. While VAEs have been proposed and researched in the past for pharmaceutical applications, they possess deficiencies which limit their ability to both optimize properties and decode syntactically valid molecules. We present a recurrent, conditional $\beta$-VAE which disentangles the latent space to enhance post hoc molecule optimization. We create a mutual information driven training protocol and data augmentations to both increase molecular validity and promote longer sequence generation. We demonstrate the efficacy of our framework on the ZINC-250k dataset, achieving SOTA unconstrained optimization results on the penalized LogP (pLogP) and QED scores, while also matching current SOTA results for validity, novelty and uniqueness scores for random generation. We match the current SOTA on QED for top-3 molecules at 0.948, while setting a new SOTA for pLogP optimization at 104.29, 90.12, 69.68 and demonstrating improved results on the constrained optimization task.
翻訳日:2022-05-04 16:03:47 公開日:2022-05-01
# (参考訳) 言語間対話要約の課題

The Cross-lingual Conversation Summarization Challenge ( http://arxiv.org/abs/2205.00379v1 )

ライセンス: CC BY 4.0
Yulong Chen, Ming Zhong, Xuefeng Bai, Naihao Deng, Jing Li, Xianchao Zhu, Yue Zhang(参考訳) 本稿では,会話要約と機械翻訳を統合した解を研究者が研究するための新たな方法として,言語間会話要約の共有タスクである「emph{ConvSumX Challenge」を提案する。 このタスクは、オンライン会議やカンファレンスの出現によって特に役に立ちます。 2つの実世界のシナリオと3つの言語方向をカバーする新しいベンチマークを構築した。 我々は,「emph{ConvSumX}」が,英語以外の研究を動機づけ,近年の会話要約の進歩の恩恵を受けるために,非英語話者の障壁を破ることを望む。

We propose the shared task of cross-lingual conversation summarization, \emph{ConvSumX Challenge}, opening new avenues for researchers to investigate solutions that integrate conversation summarization and machine translation. This task can be particularly useful due to the emergence of online meetings and conferences. We construct a new benchmark, covering 2 real-world scenarios and 3 language directions, including a low-resource language. We hope that \emph{ConvSumX} can motivate researches to go beyond English and break the barrier for non-English speakers to benefit from recent advances of conversation summarization.
翻訳日:2022-05-04 07:05:07 公開日:2022-05-01
# (参考訳) マイクロ表現認識のための学習可能なグラフ構造と適応au制約を用いた幾何グラフ表現

Geometric Graph Representation with Learnable Graph Structure and Adaptive AU Constraint for Micro-Expression Recognition ( http://arxiv.org/abs/2205.00380v1 )

ライセンス: CC BY 4.0
Jinsheng Wei and Wei Peng and Guanming Lu and Yante Li and Jingjie Yan and Guoying Zhao(参考訳) マイクロ表現認識(MER)は、マイクロ表現(ME)の不随意性が真の感情を明らかにするため、有用である。 ほとんどの作品は、RGBビデオやイメージを入力として、MEを認識する。 実際、me画像の活性化された顔領域は非常に小さく、微妙な動きは無関係な情報に簡単に沈み込むことができる。 顔のランドマークは低次元でコンパクトなモダリティであり、計算コストが大幅に低くなり、ME関連の特徴にもっと集中する可能性がある。 しかし、MERのランドマークの識別性は明確ではない。 そこで本稿では,顔のランドマークの寄与について検討し,顔のランドマーク情報のみを用いてMEを効率的に認識する新しい枠組みを構築する。 特に,顔のランドマークに基づく幾何学的運動グラフの空間的情報と時間的情報を個別に集約する構造モジュールを設計し,顔ランドマークの低次幾何学的情報と高次意味情報を集約する幾何学的2ストリームグラフネットワークを構築した。 さらに,機能強化のために2つのコアコンポーネントが提案されている。 具体的には、セマンティック・アジャケーシ・マトリックスは、自己学習方式で長距離ノードであってもノード間の関係を自動的にモデル化し、学習した特徴が顔行動単位と同期パターンを持つように学習プロセスを導くために適応行動単位損失を導入する。 特に、この研究は、グラフモデルに基づいて処理される幾何学的特徴のみを利用するMERに取り組み、MERを促進させるために、はるかに高い効率で新しいアイデアを提供する。 実験結果から,提案手法は計算コストを大幅に削減して競争力や優れた性能を達成でき,顔のランドマークはMERに大きく寄与し,より効率的なME分析に有用であることが示された。

Micro-expression recognition (MER) is valuable because the involuntary nature of micro-expressions (MEs) can reveal genuine emotions. Most works recognize MEs by taking RGB videos or images as input. In fact, the activated facial regions in ME images are very small and the subtle motion can be easily submerged in the unrelated information. Facial landmarks are a low-dimensional and compact modality, which leads to much lower computational cost and can potentially concentrate more on ME-related features. However, the discriminability of landmarks for MER is not clear. Thus, this paper explores the contribution of facial landmarks and constructs a new framework to efficiently recognize MEs with sole facial landmark information. Specially, we design a separate structure module to separately aggregate the spatial and temporal information in the geometric movement graph based on facial landmarks, and a Geometric Two-Stream Graph Network is constructed to aggregate the low-order geometric information and high-order semantic information of facial landmarks. Furthermore, two core components are proposed to enhance features. Specifically, a semantic adjacency matrix can automatically model the relationship between nodes even long-distance nodes in a self-learning fashion; and an Adaptive Action Unit loss is introduced to guide the learning process such that the learned features are forced to have a synchronized pattern with facial action units. Notably, this work tackles MER only utilizing geometric features, processed based on a graph model, which provides a new idea with much higher efficiency to promote MER. The experimental results demonstrate that the proposed method can achieve competitive or even superior performance with a significantly reduced computational cost, and facial landmarks can significantly contribute to MER and are worth further study for efficient ME analysis.
翻訳日:2022-05-04 06:55:31 公開日:2022-05-01
# (参考訳) 原油関連イベントの抽出と処理:移行学習アプローチ

Crude Oil-related Events Extraction and Processing: A Transfer Learning Approach ( http://arxiv.org/abs/2205.00387v1 )

ライセンス: CC BY 4.0
Meisin Lee, Lay-Ki Soon, Eu-Gene Siew(参考訳) 従来の教師付き学習パラダイムによるイベント抽出の課題のひとつは、十分なモデルパフォーマンスを達成するために、大きさのアノテートデータセットが必要であることだ。 はるかに少ないリソースを持つドメインである金融と経済学の領域では、イベントの抽出がさらに難しいのです。 本稿では, トランスファー・ラーニングの有効性を活かして, 注記不足やクラス不均衡の問題に対処し, 原油関連イベントを抽出・処理するための完全な枠組みを提案する。 イベント抽出とは別に,事象特性(極性,モダリティ,強度)の分類に特に重点を置いて各事象の事実的確実性を決定する。 まず,教師付き学習によってベースラインモデルを構築し,その後,アノテーション付きデータ量やクラス不均衡に拘わらず,イベント抽出モデルの性能を高めるためにトランスファー学習手法を活用した。 これはドメイン適応事前トレーニング、マルチタスク学習、シーケンシャル転送学習などのトランスファー学習フレームワーク内のメソッドを通じて行われる。 実験結果から,標準教師あり学習を用いたベースラインモデルと比較して,F1とMCC1スコアの両方のイベント抽出サブタスクモデルを改善することができる。 原油ニュースからの正確で包括的なイベント抽出は、イベントチェーンの理解や、商品価格予測や要約などの下流業務に使用できるイベント・イベント関係の学習といった下流業務において、幅広いビジネス意思決定を支援するために非常に有用である。

One of the challenges in event extraction via traditional supervised learning paradigm is the need for a sizeable annotated dataset to achieve satisfactory model performance. It is even more challenging when it comes to event extraction in the finance and economics domain, a domain with considerably fewer resources. This paper presents a complete framework for extracting and processing crude oil-related events found in CrudeOilNews corpus, addressing the issue of annotation scarcity and class imbalance by leveraging on the effectiveness of transfer learning. Apart from event extraction, we place special emphasis on event properties (Polarity, Modality, and Intensity) classification to determine the factual certainty of each event. We build baseline models first by supervised learning and then exploit Transfer Learning methods to boost event extraction model performance despite the limited amount of annotated data and severe class imbalance. This is done via methods within the transfer learning framework such as Domain Adaptive Pre-training, Multi-task Learning and Sequential Transfer Learning. Based on experiment results, we are able to improve all event extraction sub-task models both in F1 and MCC1-score as compared to baseline models trained via the standard supervised learning. Accurate and holistic event extraction from crude oil news is very useful for downstream tasks such as understanding event chains and learning event-event relations, which can be used for other downstream tasks such as commodity price prediction, summarisation, etc. to support a wide range of business decision making.
翻訳日:2022-05-04 06:28:20 公開日:2022-05-01
# (参考訳) ELQA: 英語に関する質問と回答のコーパス

ELQA: A Corpus of Questions and Answers about the English Language ( http://arxiv.org/abs/2205.00395v1 )

ライセンス: CC BY-SA 4.0
Shabnam Behzad, Keisuke Sakaguchi, Nathan Schneider, Amir Zeldes(参考訳) 本稿では,言語質問回答(ELQA)のためのコミュニティソースデータセットについて紹介する。文法,意味,流布,語源など,180万以上の質問と多数の英語トピックに対する回答からなる。 ELQAコーパスは、言語学習者のための新しいNLPアプリケーションを可能にする。 ELQAコーパスに基づく3つのタスクを紹介する。 1) 質分類への回答 2)類似した質問を見つけるための意味探索,及び 3)回答生成。 各タスクのベースラインを解析とともに提示し,現行のトランスフォーマーモデルの強みと弱みを示す。 ELQAコーパスとスクリプトは将来の研究のために公開されている。

We introduce a community-sourced dataset for English Language Question Answering (ELQA), which consists of more than 180k questions and answers on numerous topics about English language such as grammar, meaning, fluency, and etymology. The ELQA corpus will enable new NLP applications for language learners. We introduce three tasks based on the ELQA corpus: 1) answer quality classification, 2) semantic search for finding similar questions, and 3) answer generation. We present baselines for each task along with analysis, showing the strengths and weaknesses of current transformer-based models. The ELQA corpus and scripts are publicly available for future studies.
翻訳日:2022-05-04 06:27:09 公開日:2022-05-01
# (参考訳) 強化学習におけるメモリ編集を用いたユーザ定義サブゴール学習

Learning user-defined sub-goals using memory editing in reinforcement learning ( http://arxiv.org/abs/2205.00399v1 )

ライセンス: CC BY 4.0
GyeongTaek Lee(参考訳) 強化学習(rl)の目的は、エージェントが最終的な目標を達成することにある。 ほとんどのRL研究は、最終目標を早く達成するために学習の効率を改善することに重点を置いている。 しかし、RLモデルでは最終目標に達する過程で中間経路を変更することは極めて困難である。 すなわち、エージェントは既存の研究において他のサブゴールを達成するために制御できない。 エージェントが目的地に向かう途中でサブゴールを通過することができれば、RLを適用して様々な分野で研究することができる。 本研究では,ユーザ定義サブゴールを実現するための手法と,メモリ編集による最終目標を提案する。 メモリ編集を行い、様々なサブゴールを生成し、エージェントに追加の報酬を与える。 また、準ゴールは最終ゴールから別々に学習される。 テスト環境で2つの単純な環境とさまざまなシナリオを設定しました。 結果として、エージェントは、制御中の最終ゴールと同様に、ほとんどサブゴールを通過した。 さらに, エージェントは, 環境中で間接的に, 新規状態の訪問を誘導することができた。 この方法論は、さまざまなシナリオでエージェントを制御する必要がある分野で使用できると期待しています。

The aim of reinforcement learning (RL) is to allow the agent to achieve the final goal. Most RL studies have focused on improving the efficiency of learning to achieve the final goal faster. However, the RL model is very difficult to modify an intermediate route in the process of reaching the final goal. That is, the agent cannot be under control to achieve other sub-goals in the existing studies. If the agent can go through the sub-goals on the way to the destination, the RL can be applied and studied in various fields. In this study, I propose a methodology to achieve the user-defined sub-goals as well as the final goal using memory editing. The memory editing is performed to generate various sub-goals and give an additional reward to the agent. In addition, the sub-goals are separately learned from the final goal. I set two simple environments and various scenarios in the test environments. As a result, the agent almost successfully passed the sub-goals as well as the final goal under control. Moreover, the agent was able to be induced to visit the novel state indirectly in the environments. I expect that this methodology can be used in the fields that need to control the agent in a variety of scenarios.
翻訳日:2022-05-04 06:10:27 公開日:2022-05-01
# (参考訳) 弱監視行動局所化のための近隣住民間の凸結合

Convex Combination Consistency between Neighbors for Weakly-supervised Action Localization ( http://arxiv.org/abs/2205.00400v1 )

ライセンス: CC BY 4.0
Qinying Liu, Zilei Wang, Ruoxi Chen, Zhilin Li(参考訳) 弱教師付き時間行動定位法(ws-tal)では、スニペット予測を用いてビデオクラススコアを作成し、ビデオ分類損失を最適化する「分類による局所化」手順が一般的である。 この手順では、スニペット予測(またはスニペット注意重み)を使用して前景と背景を分離する。 しかし、スニペット予測は通常フレームラベルがないため不正確であり、全体的なパフォーマンスが阻害される。 本稿では,頑健なスニペット予測を実現するための新しいC$^3$BNを提案する。 c$^3$bnはビデオデータの固有の特性を調べる2つの重要な設計を含んでいる。 まず,隣接スニペットの自然な連続性から,隣接スニペットの凸結合によるスニペットの多様性を高めるためのマイクロデータ拡張戦略を提案する。 第2に,ビデオ意味論,スニペット予測,スニペット特徴に関して,モデルにスニペットの変換に対する不変(あるいは同変)を強制するマクロマイクロ一貫性正規化戦略を提案する。 実験により,提案手法がws-talタスクのベースライン上でビデオレベルとポイントレベルを監督する上で有効であることを示す。

In weakly-supervised temporal action localization (WS-TAL), the methods commonly follow the "localization by classification" procedure, which uses the snippet predictions to form video class scores and then optimizes a video classification loss. In this procedure, the snippet predictions (or snippet attention weights) are used to separate foreground and background. However, the snippet predictions are usually inaccurate due to absence of frame-wise labels, and then the overall performance is hindered. In this paper, we propose a novel C$^3$BN to achieve robust snippet predictions. C$^3$BN includes two key designs by exploring the inherent characteristics of video data. First, because of the natural continuity of adjacent snippets, we propose a micro data augmentation strategy to increase the diversity of snippets with convex combination of adjacent snippets. Second, we propose a macro-micro consistency regularization strategy to force the model to be invariant (or equivariant) to the transformations of snippets with respect to video semantics, snippet predictions and snippet features. Experimental results demonstrate the effectiveness of our proposed method on top of baselines for the WS-TAL tasks with video-level and point-level supervision.
翻訳日:2022-05-04 05:58:31 公開日:2022-05-01
# (参考訳) 距離認識による単一モデル深部不確かさの簡易化

A Simple Approach to Improve Single-Model Deep Uncertainty via Distance-Awareness ( http://arxiv.org/abs/2205.00403v1 )

ライセンス: CC BY 4.0
Jeremiah Zhe Liu, Shreyas Padhy, Jie Ren, Zi Lin, Yeming Wen, Ghassen Jerfel, Zack Nado, Jasper Snoek, Dustin Tran, Balaji Lakshminarayanan(参考訳) ニューラルネットワークは過信エラーを犯し、アウト・オブ・ディストリビューション(OOD)入力に高い信頼性の予測を割り当てることができるため、ディープラーニングにおける正確な不確実性定量化は大きな課題である。 ディープラーニングにおける予測の不確実性を推定する最も一般的なアプローチは、ベイズニューラルネットワーク(BNN)やディープアンサンブルなどの複数のニューラルネットワークからの予測を組み合わせる方法である。 しかし, リアルタイム, 産業用アプリケーションにおける実用性は, 高いメモリと計算コストのために制限されている。 さらに、アンサンブルやBNNは、基盤となるメンバーネットワークのすべての問題を必ずしも解決しない。 本研究では,一つの決定論的表現に基づいて,単一ネットワークの不確実性を改善するための原理的手法について検討する。 この不確実性定量化を最小限の学習問題として定式化することにより、DNNが高品質な(最小限の最適)不確実性推定を実現するために必要な条件として、モデルがトレーニングデータからテスト例の距離を定量化する能力、すなわち、距離認識を識別する。 次に,スペクトル正規化ニューラルガウス過程 (SNGP) を提案する。これは,(1)隠れ重みにスペクトル正規化を適用して表現にバイリプシッツの滑らかさを強制し,(2)最後の出力層をガウスのプロセス層に置き換える,という2つの簡単な方法である。 ビジョンと言語理解のベンチマークスイートでは、SNGPは予測、キャリブレーション、ドメイン外検出において、他の単一モデルアプローチよりも優れている。 さらに、SNGPはディープアンサンブルやデータ拡張といった一般的なテクニックに補完的な利点を提供し、確率的ディープラーニングのためのシンプルでスケーラブルなビルディングブロックである。 コードはhttps://github.com/google/uncertainty-baselinesでオープンソース化される

Accurate uncertainty quantification is a major challenge in deep learning, as neural networks can make overconfident errors and assign high confidence predictions to out-of-distribution (OOD) inputs. The most popular approaches to estimate predictive uncertainty in deep learning are methods that combine predictions from multiple neural networks, such as Bayesian neural networks (BNNs) and deep ensembles. However their practicality in real-time, industrial-scale applications are limited due to the high memory and computational cost. Furthermore, ensembles and BNNs do not necessarily fix all the issues with the underlying member networks. In this work, we study principled approaches to improve uncertainty property of a single network, based on a single, deterministic representation. By formalizing the uncertainty quantification as a minimax learning problem, we first identify distance awareness, i.e., the model's ability to quantify the distance of a testing example from the training data, as a necessary condition for a DNN to achieve high-quality (i.e., minimax optimal) uncertainty estimation. We then propose Spectral-normalized Neural Gaussian Process (SNGP), a simple method that improves the distance-awareness ability of modern DNNs with two simple changes: (1) applying spectral normalization to hidden weights to enforce bi-Lipschitz smoothness in representations and (2) replacing the last output layer with a Gaussian process layer. On a suite of vision and language understanding benchmarks, SNGP outperforms other single-model approaches in prediction, calibration and out-of-domain detection. Furthermore, SNGP provides complementary benefits to popular techniques such as deep ensembles and data augmentation, making it a simple and scalable building block for probabilistic deep learning. Code is open-sourced at https://github.com/google/uncertainty-baselines
翻訳日:2022-05-04 05:44:56 公開日:2022-05-01
# (参考訳) アノテーションを壊さない:Biasはすでにアノテーションのインストラクションで始まっている

Don't Blame the Annotator: Bias Already Starts in the Annotation Instructions ( http://arxiv.org/abs/2205.00415v1 )

ライセンス: CC BY 4.0
Mihir Parmar, Swaroop Mishra, Mor Geva, Chitta Baral(参考訳) 近年、NLUの進歩はベンチマークによって推進されている。 これらのベンチマークは一般的にクラウドソーシングによって収集され、アノテーション作成者はデータセット作成者が作成したアノテーション命令に基づいてサンプルを書く。 本研究では,アノテータがクラウドソーシング命令のパターンをピックアップして,収集したデータに過剰に表現される類似の例を書くようにバイアスを与える,という仮説を定式化する。 我々は,近年のnluベンチマーク14例において,このようなバイアス(命令バイアスと呼ばれる)について検討し,指示例は,群集作業者が収集したデータに伝達する具体的パターンを示すことが多いことを示した。 これは以前の作業(Geva et al., 2019)を拡張し、タスクではなくデータセット作成者の指示をモデル化しているかどうかという新たな懸念を提起する。 一連の実験を通じて,命令バイアスがモデル性能の過大評価につながること,およびモデルがクラウドソーシング命令に由来するバイアスを超える一般化に苦慮していることが示されている。 さらに,パターンの頻度とモデルサイズによる命令バイアスの影響を解析し,今後のnluベンチマーク作成のための具体的な推奨事項を導出する。

In recent years, progress in NLU has been driven by benchmarks. These benchmarks are typically collected by crowdsourcing, where annotators write examples based on annotation instructions crafted by dataset creators. In this work, we hypothesize that annotators pick up on patterns in the crowdsourcing instructions, which bias them to write similar examples that are then over-represented in the collected data. We study this form of bias, termed instruction bias, in 14 recent NLU benchmarks, showing that instruction examples often exhibit concrete patterns, which are propagated by crowdworkers to the collected data. This extends previous work (Geva et al., 2019) and raises a new concern of whether we are modeling the dataset creator's instructions, rather than the task. Through a series of experiments, we show that, indeed, instruction bias can lead to overestimation of model performance, and that models struggle to generalize beyond biases originating in the crowdsourcing instructions. We further analyze the influence of instruction bias in terms of pattern frequency and model size, and derive concrete recommendations for creating future NLU benchmarks.
翻訳日:2022-05-04 05:43:31 公開日:2022-05-01
# (参考訳) NSGA-IIと主成分分析を用いたドローン浮揚最適化

Drone Flocking Optimization using NSGA-II and Principal Component Analysis ( http://arxiv.org/abs/2205.00432v1 )

ライセンス: CC BY-SA 4.0
Jagdish Chand Bansal, Nikhil Sethi, Ogbonnaya Anicho, Atulya Nagar(参考訳) 鳥類の群れや魚類の群れのような自然のシステムの個々のエージェントは、ローカルグループで協調し、コミュニケーションし、さまざまなタスクを効率的に実行する素晴らしい能力を示している。 このような自然システムをドローン群にエミュレートし、防衛、農業、産業自動化、人道支援といった問題を解決することは、新たな技術である。 しかし、衝突回避や高速などの複数の目標を維持しながら空中ロボットの群れは依然として課題である。 本稿では,複数の競合する目標を持つ限定環境におけるドローンの群れ最適化を提案する。 検討対象は衝突回避(相互および壁)、速度、相関、通信(接続および切断されたエージェント)である。 主成分分析(PCA)は次元の減少と群集の集合力学の理解に応用される。 制御モデルは12のパラメータで特徴づけられ、多目的解法(NSGA-II)を用いて最適化される。 得られた結果をCMA-ESアルゴリズムと比較した。 この研究は、提案されたオプティマイザが現実世界のさまざまなシナリオに適用可能な様々な種類のスワムを表すPareto Frontを出力するので特に有用である。

Individual agents in natural systems like flocks of birds or schools of fish display a remarkable ability to coordinate and communicate in local groups and execute a variety of tasks efficiently. Emulating such natural systems into drone swarms to solve problems in defence, agriculture, industry automation and humanitarian relief is an emerging technology. However, flocking of aerial robots while maintaining multiple objectives, like collision avoidance, high speed etc. is still a challenge. In this paper, optimized flocking of drones in a confined environment with multiple conflicting objectives is proposed. The considered objectives are collision avoidance (with each other and the wall), speed, correlation, and communication (connected and disconnected agents). Principal Component Analysis (PCA) is applied for dimensionality reduction, and understanding the collective dynamics of the swarm. The control model is characterised by 12 parameters which are then optimized using a multi-objective solver (NSGA-II). The obtained results are reported and compared with that of the CMA-ES algorithm. The study is particularly useful as the proposed optimizer outputs a Pareto Front representing different types of swarms which can applied to different scenarios in the real world.
翻訳日:2022-05-04 05:29:39 公開日:2022-05-01
# (参考訳) 深層学習による集団移動の個人的多変量時系列予測:入力か勾配摂動か?

Differentially Private Multivariate Time Series Forecasting of Aggregated Human Mobility With Deep Learning: Input or Gradient Perturbation? ( http://arxiv.org/abs/2205.00436v1 )

ライセンス: CC BY 4.0
H\'eber H. Arcolezi, Jean-Fran\c{c}ois Couchot, Denis Renaud, Bechara Al Bouna, Xiaokui Xiao(参考訳) 本稿では,個人のプライバシーを保ちつつ,多変量集約型モビリティを予測できる問題について検討する。 最先端の形式概念である差分プライバシーは、ディープラーニングモデルをトレーニングする際の2つの異なる独立したステップにおけるプライバシー保証として使用されている。 一方,学習段階における各時系列サンプルのプライバシーを確保するために,差分的にプライベートな確率勾配勾配勾配アルゴリズムを用いた「textit{gradient perturbation」を検討した。 一方、私たちは、学習を適用する前に、シリーズの各サンプルに差分プライバシー保証を追加する \textit{input perturbation} を検討しました。 4つの最先端リカレントニューラルネットワーク(long short-term memory, gated recurrent unit)と双方向アーキテクチャ(bidirectional-lstm,bidirectional-gru)を比較した。 本稿では,実世界の多変量モビリティデータセットを用いて広範な実験を行った。 その結果、勾配や入力摂動の下で訓練された差分プライベートなディープラーニングモデルは、非プライベートなディープラーニングモデルとほぼ同等のパフォーマンスを達成し、パフォーマンスの損失は0.57\%$から2.8\%$である。 本論文の貢献は,都市計画と意思決定に携わる人々にとって有意義であり,微分的深層学習モデルによる多変量予測問題に対する解決策を提供する。

This paper investigates the problem of forecasting multivariate aggregated human mobility while preserving the privacy of the individuals concerned. Differential privacy, a state-of-the-art formal notion, has been used as the privacy guarantee in two different and independent steps when training deep learning models. On one hand, we considered \textit{gradient perturbation}, which uses the differentially private stochastic gradient descent algorithm to guarantee the privacy of each time series sample in the learning stage. On the other hand, we considered \textit{input perturbation}, which adds differential privacy guarantees in each sample of the series before applying any learning. We compared four state-of-the-art recurrent neural networks: Long Short-Term Memory, Gated Recurrent Unit, and their Bidirectional architectures, i.e., Bidirectional-LSTM and Bidirectional-GRU. Extensive experiments were conducted with a real-world multivariate mobility dataset, which we published openly along with this paper. As shown in the results, differentially private deep learning models trained under gradient or input perturbation achieve nearly the same performance as non-private deep learning models, with loss in performance varying between $0.57\%$ to $2.8\%$. The contribution of this paper is significant for those involved in urban planning and decision-making, providing a solution to the human mobility multivariate forecast problem through differentially private deep learning models.
翻訳日:2022-05-04 05:13:06 公開日:2022-05-01
# (参考訳) MRKL Systems: 大規模言語モデル、外部知識源、離散推論を組み合わせたモジュール型ニューロシンボリックアーキテクチャ

MRKL Systems: A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning ( http://arxiv.org/abs/2205.00445v1 )

ライセンス: CC BY 4.0
Ehud Karpas, Omri Abend, Yonatan Belinkov, Barak Lenz, Opher Lieber, Nir Ratner, Yoav Shoham, Hofit Bata, Yoav Levine, Kevin Leyton-Brown, Dor Muhlgay, Noam Rozen, Erez Schwartz, Gal Shachaf, Shai Shalev-Shwartz, Amnon Shashua, Moshe Tenenholtz(参考訳) 巨大な言語モデル(LM)は、自然言語ベースの知識タスクのゲートウェイとして機能する、AIの新しい時代を支えている。 現代のAIの重要な要素であるが、LMは本質的にいくつかの点で制限されている。 システムアプローチを採用することで,これらの制限とその回避方法について議論する。 言語処理に加えて、知識と推論を含む課題として概念化することで、個別の知識と推論モジュールによって補完される複数のニューラルモデルによる柔軟なアーキテクチャを定義する。 モジュール推論(modular reasoning, knowledge and language、mrkl)システムと称されるこのニューロシンボリックアーキテクチャと、それを実装する上での技術的課題と、ai21 labsのmrklシステム実装であるjurassic-xについて述べる。

Huge language models (LMs) have ushered in a new era for AI, serving as a gateway to natural-language-based knowledge tasks. Although an essential element of modern AI, LMs are also inherently limited in a number of ways. We discuss these limitations and how they can be avoided by adopting a systems approach. Conceptualizing the challenge as one that involves knowledge and reasoning in addition to linguistic processing, we define a flexible architecture with multiple neural models, complemented by discrete knowledge and reasoning modules. We describe this neuro-symbolic architecture, dubbed the Modular Reasoning, Knowledge and Language (MRKL, pronounced "miracle") system, some of the technical challenges in implementing it, and Jurassic-X, AI21 Labs' MRKL system implementation.
翻訳日:2022-05-04 04:46:37 公開日:2022-05-01
# (参考訳) NFT勧告における特徴の分析

An Analysis of the Features Considerable for NFT Recommendations ( http://arxiv.org/abs/2205.00456v1 )

ライセンス: CC BY 4.0
Dinuka Piyadigama, Guhanathan Poravi(参考訳) 本研究は,NFTのマーケットプレースと対話し,NFTの嗜好や類似性を探索する人々に対して,NFTが推奨できる方法を探るものである。 過去のレコメンデーションに適用できる手法を探求する一方で、レコメンデーションにNFT特性を用いることも検討されている。 研究の結果は、分散化されたシステムと対話する際に、複数のRecommender Systemsを使用して可能な限りのNFTをユーザに提示する必要性を強調している。

This research explores the methods that NFTs can be recommended to people who interact with NFT-marketplaces to explore NFTs of preference and similarity to what they have been searching for. While exploring past methods that can be adopted for recommendations, the use of NFT traits for recommendations has been explored. The outcome of the research highlights the necessity of using multiple Recommender Systems to present the user with the best possible NFTs when interacting with decentralized systems.
翻訳日:2022-05-04 04:21:52 公開日:2022-05-01
# (参考訳) 信頼できる医療連帯学習のための報酬システム

Reward Systems for Trustworthy Medical Federated Learning ( http://arxiv.org/abs/2205.00470v1 )

ライセンス: CC BY-SA 4.0
Konstantin D. Pandl, Florian Leiser, Scott Thiebes, Ali Sunyaev(参考訳) フェデレーテッド・ラーニング(FL)は、機械学習(ML)モデルを医療用にトレーニングする研究者や実践家から高い関心を集めている。 これらのモデルの信頼性を確保することは不可欠です。 特に、モデルの予測性能の格差として定義されるバイアスは、信頼に値するMLモデルにとって望ましくない現象である特定のサブグループに対して不公平を引き起こす可能性がある。 本研究では,医療flにおけるバイアスの程度と,報酬システムによる過度のバイアスの防止方法について考察する。 まず,Shapley値近似法を用いて,クロスサイロ医療FLの予測性能とバイアスに対する機関の貢献度を評価する方法について検討した。 第2のステップでは、高い予測性能や低いバイアスに対する貢献を動機付ける様々な報酬システムを設計する。 次に,両者への貢献をインセンティブとする報酬システムを提案する。 我々は,複数の医療用胸部X線データセットを用いて,患者の性別と年齢によって定義される患者サブグループに着目した研究を行った。 以上の結果から,バイアスに対する貢献度の測定に成功し,認知度の低いモデルに対する貢献度をインセンティブとして総合的な報酬システムを構築することができた。 スキャンの分割は全体のバイアスにわずかにしか影響しないが、あるサブグループからのデータを持つ機関は、このサブグループに有利なバイアスをもたらす。 以上の結果から,予測性能のみに焦点を当てた報酬システムは,患者に対するモデルバイアスを機関レベルで伝達できることが示唆された。 我々の研究は、研究者や実践者が、信頼できるMLのための適切なインセンティブを持つFLの報酬システムの設計を支援する。

Federated learning (FL) has received high interest from researchers and practitioners to train machine learning (ML) models for healthcare. Ensuring the trustworthiness of these models is essential. Especially bias, defined as a disparity in the model's predictive performance across different subgroups, may cause unfairness against specific subgroups, which is an undesired phenomenon for trustworthy ML models. In this research, we address the question to which extent bias occurs in medical FL and how to prevent excessive bias through reward systems. We first evaluate how to measure the contributions of institutions toward predictive performance and bias in cross-silo medical FL with a Shapley value approximation method. In a second step, we design different reward systems incentivizing contributions toward high predictive performance or low bias. We then propose a combined reward system that incentivizes contributions toward both. We evaluate our work using multiple medical chest X-ray datasets focusing on patient subgroups defined by patient sex and age. Our results show that we can successfully measure contributions toward bias, and an integrated reward system successfully incentivizes contributions toward a well-performing model with low bias. While the partitioning of scans only slightly influences the overall bias, institutions with data predominantly from one subgroup introduce a favorable bias for this subgroup. Our results indicate that reward systems, which focus on predictive performance only, can transfer model bias against patients to an institutional level. Our work helps researchers and practitioners design reward systems for FL with well-aligned incentives for trustworthy ML.
翻訳日:2022-05-04 04:11:44 公開日:2022-05-01
# (参考訳) ランク空間における動的プログラミング:低ランクHMMとPCFGによる構造化推論のスケーリング

Dynamic Programming in Rank Space: Scaling Structured Inference with Low-Rank HMMs and PCFGs ( http://arxiv.org/abs/2205.00484v1 )

ライセンス: CC0 1.0
Songlin Yang, Wei Liu, Kewei Tu(参考訳) 隠れマルコフモデル (HMMs) と確率的文脈自由文法 (PCFGs) は広く使われているモデルであり、どちらも幅広いモデルを記述することができる強力な形式主義である因子グラフ文法 (FGGs) として表される。 近年の研究では、HMMやPCFGに大規模な状態空間を使うことが有益であることが示されている。 しかし、特にPCFGの場合、大きな状態空間での推論は計算的に要求される。 この課題に取り組むためにテンソル階分解(別名)を利用する。 CPD)は、HMMとPCFGを仮定するFGGのサブセットの推論計算複雑性を減少させる。 FGG の因子に CPD を適用し、次に階数空間で定義される新しい FGG を構築する。 新しいFGGによる推論は、同じ結果をもたらすが、ランクサイズが状態サイズよりも小さい場合、時間の複雑さが小さくなる。 我々は,HMM言語モデリングと教師なしPCFG解析の実験を行い,従来よりも優れた性能を示した。 我々のコードは \url{https://github.com/VPeterV/RankSpace-Models} で公開されている。

Hidden Markov Models (HMMs) and Probabilistic Context-Free Grammars (PCFGs) are widely used structured models, both of which can be represented as factor graph grammars (FGGs), a powerful formalism capable of describing a wide range of models. Recent research found it beneficial to use large state spaces for HMMs and PCFGs. However, inference with large state spaces is computationally demanding, especially for PCFGs. To tackle this challenge, we leverage tensor rank decomposition (aka.\ CPD) to decrease inference computational complexities for a subset of FGGs subsuming HMMs and PCFGs. We apply CPD on the factors of an FGG and then construct a new FGG defined in the rank space. Inference with the new FGG produces the same result but has a lower time complexity when the rank size is smaller than the state size. We conduct experiments on HMM language modeling and unsupervised PCFG parsing, showing better performance than previous work. Our code is publicly available at \url{https://github.com/VPeterV/RankSpace-Models}.
翻訳日:2022-05-04 03:52:57 公開日:2022-05-01
# (参考訳) CUP: 命令文抽出のためのカリキュラム学習に基づくプロンプトチューニング

CUP: Curriculum Learning based Prompt Tuning for Implicit Event Argument Extraction ( http://arxiv.org/abs/2205.00498v1 )

ライセンス: CC BY 4.0
Jiaju Lin, Qin Chen, Jie Zhou, Jian Jin and Liang He(参考訳) Implicit Event argument extract (EAE) は、文書に散らばる可能性のある引数を特定することを目的としている。 これまでのほとんどの研究は、引数と与えられたトリガーの間の直接的な関係を学習することに焦点を当てているが、長距離依存との暗黙的な関係は十分に研究されていない。 さらに、最近のニューラルネットワークベースのアプローチでは、トレーニングのために大量のラベル付きデータに依存しているが、ラベルコストが高いため利用できない。 本稿では,4つの学習段階によって暗黙的EAEを解消する,カリキュラム学習に基づくプロンプトチューニング(CUP)手法を提案する。 ステージはセマンティックグラフのトリガーノードとの関係に基づいて定義され、引数とトリガーの間の長距離依存性をうまくキャプチャする。 さらに,各段階における事前学習言語モデル(PLM)から関連する知識を引き出すために,プロンプトベースのエンコーダ・デコーダモデルを統合する。 2つのよく知られたベンチマークデータセットの実験結果は、提案手法の大きな利点を示している。 特に、完全な教師付きシナリオと低データシナリオの両方において、最先端モデルよりも優れています。

Implicit event argument extraction (EAE) aims to identify arguments that could scatter over the document. Most previous work focuses on learning the direct relations between arguments and the given trigger, while the implicit relations with long-range dependency are not well studied. Moreover, recent neural network based approaches rely on a large amount of labeled data for training, which is unavailable due to the high labelling cost. In this paper, we propose a Curriculum learning based Prompt tuning (CUP) approach, which resolves implicit EAE by four learning stages. The stages are defined according to the relations with the trigger node in a semantic graph, which well captures the long-range dependency between arguments and the trigger. In addition, we integrate a prompt-based encoder-decoder model to elicit related knowledge from pre-trained language models (PLMs) in each stage, where the prompt templates are adapted with the learning progress to enhance the reasoning for arguments. Experimental results on two well-known benchmark datasets show the great advantages of our proposed approach. In particular, we outperform the state-of-the-art models in both fully-supervised and low-data scenarios.
翻訳日:2022-05-04 03:32:00 公開日:2022-05-01
# (参考訳) 事前学習した知識を保存する:行動認識のための自己蒸留による伝達学習

Preserve Pre-trained Knowledge: Transfer Learning With Self-Distillation For Action Recognition ( http://arxiv.org/abs/2205.00506v1 )

ライセンス: CC BY 4.0
Yang Zhou, Zhanhao He, Keyu Lu, Guanhong Wang, Gaoang Wang(参考訳) ビデオに基づく行動認識はコンピュータビジョンで最も人気のあるトピックの1つである。 近年の自己教師付きビデオ表現学習手法の進歩により、アクション認識は通常、大規模無ラベル集合の自己教師付き事前学習と下流ラベル付き集合の転送学習という2段階のトレーニングフレームワークに従っている。 しかし、事前学習された知識の破滅的な忘れは、行動認識の下流伝達学習において主要な問題となり、結果として準最適解となる。 本稿では,この課題を解消するために,大規模データセットから学習した事前学習モデルから知識を保存するために,微調整における自己蒸留を組み合わせる新しいトランスファー学習手法を提案する。 具体的には,最後のエポックから教師モデルとしてエンコーダを固定し,トランスファー学習における現在のエポックからエンコーダのトレーニングを指導する。 このようなシンプルで効果的な学習戦略により、動作認識タスクにおいて広く使われているUCF101およびHMDB51データセットに対して最先端の手法より優れている。

Video-based action recognition is one of the most popular topics in computer vision. With recent advances of selfsupervised video representation learning approaches, action recognition usually follows a two-stage training framework, i.e., self-supervised pre-training on large-scale unlabeled sets and transfer learning on a downstream labeled set. However, catastrophic forgetting of the pre-trained knowledge becomes the main issue in the downstream transfer learning of action recognition, resulting in a sub-optimal solution. In this paper, to alleviate the above issue, we propose a novel transfer learning approach that combines self-distillation in fine-tuning to preserve knowledge from the pre-trained model learned from the large-scale dataset. Specifically, we fix the encoder from the last epoch as the teacher model to guide the training of the encoder from the current epoch in the transfer learning. With such a simple yet effective learning strategy, we outperform state-of-the-art methods on widely used UCF101 and HMDB51 datasets in action recognition task.
翻訳日:2022-05-04 03:17:36 公開日:2022-05-01
# (参考訳) 両世界のベスト:3次元人体推定のためのモデルベースと非パラメトリックアプローチの組み合わせ

The Best of Both Worlds: Combining Model-based and Nonparametric Approaches for 3D Human Body Estimation ( http://arxiv.org/abs/2205.00508v1 )

ライセンス: CC BY 4.0
Zhe Wang, Jimei Yang, Charless Fowlkes(参考訳) 非パラメトリック法は、最近、単眼画像から人体を再構成する有望な結果を示し、モデルベース法は、これらの推定を補正し、予測を改善するのに役立つ。 しかしながら、グローバル画像特徴からモデルパラメータを推定することは、推定メッシュと画像証拠の間の明らかな不一致を引き起こす可能性がある。 この問題に対処し,両世界の最善を尽くすため,我々は3つの連続モジュールの枠組みを提案する。 密度マップ予測モジュールは、画像証拠と身体モデルの各部分との間の密度UV対応を明確に確立する。 逆キネマティクスモジュールはキーポイント予測を洗練し、ポーズ付きテンプレートメッシュを生成する。 最後に、uvインペインティングモジュールは対応する特徴、予測、ポーズテンプレートに依存し、オクルードされたボディシェイプの予測を完了する。 本フレームワークは非パラメトリックおよびモデルベース手法を最大限に活用し,部分閉塞に対しても頑健である。 実験により,複数の公開ベンチマークにおいて,既存の3次元推定手法を上回った。

Nonparametric based methods have recently shown promising results in reconstructing human bodies from monocular images while model-based methods can help correct these estimates and improve prediction. However, estimating model parameters from global image features may lead to noticeable misalignment between the estimated meshes and image evidence. To address this issue and leverage the best of both worlds, we propose a framework of three consecutive modules. A dense map prediction module explicitly establishes the dense UV correspondence between the image evidence and each part of the body model. The inverse kinematics module refines the key point prediction and generates a posed template mesh. Finally, a UV inpainting module relies on the corresponding feature, prediction and the posed template, and completes the predictions of occluded body shape. Our framework leverages the best of non-parametric and model-based methods and is also robust to partial occlusion. Experiments demonstrate that our framework outperforms existing 3D human estimation methods on multiple public benchmarks.
翻訳日:2022-05-04 03:09:07 公開日:2022-05-01
# (参考訳) テキストのスタイル変化:選択、ジャンル、個人

Textual Stylistic Variation: Choices, Genres and Individuals ( http://arxiv.org/abs/2205.00510v1 )

ライセンス: CC BY 4.0
Jussi Karlgren(参考訳) 本章では,テキストコレクションにおけるスタイル的変動の統計処理のための,よりインフォームドな対象指標について論じる。 運用上の妥当性が証明されたように、情報検索、テキストのスタイル研究、アプリケーション指向であれ、哲学的指向であれ、テキストの読者体験に合致する意味、妥当性、有用性という観点で定式化された目標が必要である。 読者が認識している違いは、ほとんどがユーティリティに基づいています。 主に、読者はジャンルのスタイリスティックな違いを報告している。 Genresは曖昧で未定義だが、十分に確立され、話題になっている: 非常に初期の段階では、読者はジャンルを区別することを学ぶ。 本章ではジャンルごとの変奏について論じ、個々の選択による変奏と対比する。

This chapter argues for more informed target metrics for the statistical processing of stylistic variation in text collections. Much as operationalised relevance proved a useful goal to strive for in information retrieval, research in textual stylistics, whether application oriented or philologically inclined, needs goals formulated in terms of pertinence, relevance, and utility - notions that agree with reader experience of text. Differences readers are aware of are mostly based on utility - not on textual characteristics per se. Mostly, readers report stylistic differences in terms of genres. Genres, while vague and undefined, are well-established and talked about: very early on, readers learn to distinguish genres. This chapter discusses variation given by genre, and contrasts it to variation occasioned by individual choice.
翻訳日:2022-05-04 03:08:00 公開日:2022-05-01
# (参考訳) コンベンションと相互期待 -- Web ジャンルのソースを理解する

Conventions and Mutual Expectations -- understanding sources for web genres ( http://arxiv.org/abs/2205.00512v1 )

ライセンス: CC BY 4.0
Jussi Karlgren(参考訳) ジャンルは様々な方法で理解できる。 彼らはしばしば、主に社会学的構成と見なされるか、あるいは、スタイリスティックに観察可能なテキストの特徴として認識される。 後者の見解は情報と言語技術の研究分野において一般的である。 本研究は,情報オブジェクト自体の分析を行うのではなく,読者や著者の振る舞いを観察することで,ジャンルの変動や変化を研究するための知識源について考察する。

Genres can be understood in many different ways. They are often perceived as a primarily sociological construction, or, alternatively, as a stylostatistically observable objective characteristic of texts. The latter view is more common in the research field of information and language technology. These two views can be quite compatible and can inform each other; this present investigation discusses knowledge sources for studying genre variation and change by observing reader and author behaviour rather than performing analyses on the information objects themselves.
翻訳日:2022-05-04 02:56:36 公開日:2022-05-01
# (参考訳) 高精度非定常短期交通流予測方法

Accurate non-stationary short-term traffic flow prediction method ( http://arxiv.org/abs/2205.00517v1 )

ライセンス: CC BY 4.0
Wenzheng Zhao(参考訳) 精密かつタイムリーな交通流予測はインテリジェント交通システム開発において重要な役割を担い、ここ数十年でかなりの注目を集めている。 深層学習によるこの分野の大きな進歩にもかかわらず、課題は残る。 交通の流れは通常、短時間で劇的に変化するため、現在の手法が将来のトレンドを正確に把握できなくなり、おそらく過度に適合する問題を引き起こす。 そこで本研究では,短期交通の流れを正確に予測し,訓練中の局所的最適問題を回避できる長期短期記憶(lstm)ベースの手法を提案する。 具体的には、非定常的な生トラフィックデータを直接使用する代わりに、まずそれらをサブコンポーネントに分解し、各コンポーネントが元の入力よりもノイズが少ないようにします。 その後、サンプルエントロピー(SE)を用いて類似のコンポーネントをマージし、計算コストを削減する。 統合された特徴をLSTMに入力し, 組換え信号の隣接関係を考慮した時空間モジュールを導入し, 強い自己相関を回避する。 トレーニング中、grey wolfアルゴリズム(gwo)を使用してlstmのパラメータを最適化し、オーバーフィット問題を克服した。 提案手法は,イギリスの公道交通フローデータセット上で実験を行い,提案手法が,極端な異常値,遅延効果,トレンド変化応答に対する適応性の向上とともに,他の最先端手法に対して好適に動作することを示す。

Precise and timely traffic flow prediction plays a critical role in developing intelligent transportation systems and has attracted considerable attention in recent decades. Despite the significant progress in this area brought by deep learning, challenges remain. Traffic flows usually change dramatically in a short period, which prevents the current methods from accurately capturing the future trend and likely causes the over-fitting problem, leading to unsatisfied accuracy. To this end, this paper proposes a Long Short-Term Memory (LSTM) based method that can forecast the short-term traffic flow precisely and avoid local optimum problems during training. Specifically, instead of using the non-stationary raw traffic data directly, we first decompose them into sub-components, where each one is less noisy than the original input. Afterward, Sample Entropy (SE) is employed to merge similar components to reduce the computation cost. The merged features are fed into the LSTM, and we then introduce a spatiotemporal module to consider the neighboring relationships in the recombined signals to avoid strong autocorrelation. During training, we utilize the Grey Wolf Algorithm (GWO) to optimize the parameters of LSTM, which overcome the overfitting issue. We conduct the experiments on a UK public highway traffic flow dataset, and the results show that the proposed method performs favorably against other state-of-the-art methods with better adaption performance on extreme outliers, delay effects, and trend-changing responses.
翻訳日:2022-05-04 02:44:53 公開日:2022-05-01
# (参考訳) 1クラス分類のための一般化参照カーネル

Generalized Reference Kernel for One-class Classification ( http://arxiv.org/abs/2205.00534v1 )

ライセンス: CC BY 4.0
Jenni Raitoharju and Alexandros Iosifidis(参考訳) 本稿では、参照ベクトルの集合を用いて、元のベースカーネルを改善することを期待する新しい一般化参照カーネルを定式化する。 選択された基準ベクトルによっては、近似核、ランダム写像、非線形射影トリックと類似性を示す。 小型の1クラス分類に着目した分析と実験結果から,新しい定式化は,カーネル自体に付加的な情報を加えて正規化,ランク調整を行うアプローチを提供し,一クラス分類精度の向上を図っている。

In this paper, we formulate a new generalized reference kernel hoping to improve the original base kernel using a set of reference vectors. Depending on the selected reference vectors, our formulation shows similarities to approximate kernels, random mappings, and Non-linear Projection Trick. Focusing on small-scale one-class classification, our analysis and experimental results show that the new formulation provides approaches to regularize, adjust the rank, and incorporate additional information into the kernel itself, leading to improved one-class classification accuracy.
翻訳日:2022-05-04 02:31:13 公開日:2022-05-01
# (参考訳) 回路で定義した列挙クラス

Enumeration Classes Defined by Circuits ( http://arxiv.org/abs/2205.00539v1 )

ライセンス: CC BY 4.0
Nadia Creignou, Arnaud Durand and Heribert Vollmer(参考訳) 我々は,ブール回路を列挙器として用いることで定義される非常に低いクラスを導入することで,列挙問題の複雑性の景観を洗練する。 グラフ理論、グレイ符号列挙法、クラスにおける命題満足度など、よく知られた列挙問題を見つける。 このようにして、"\mathbf{delayp}$"で知られている様々な問題の複雑さを区別するためのフレームワークを得る。

We refine the complexity landscape for enumeration problems by introducing very low classes defined by using Boolean circuits as enumerators. We locate well-known enumeration problems, e.g., from graph theory, Gray code enumeration, and propositional satisfiability in our classes. In this way we obtain a framework to distinguish between the complexity of different problems known to be in $\mathbf{DelayP}$, for which a formal way of comparison was not possible to this day.
翻訳日:2022-05-04 01:58:25 公開日:2022-05-01
# (参考訳) COUCH: コントロール可能な人間と毛髪のインタラクションを目指して

COUCH: Towards Controllable Human-Chair Interactions ( http://arxiv.org/abs/2205.00541v1 )

ライセンス: CC BY 4.0
Xiaohan Zhang, Bharat Lal Bhatnagar, Vladimir Guzov, Sebastian Starke, Gerard Pons-Moll(参考訳) 人間は異なる場所で接触することで様々な方法で物体と相互作用し、特にそのような人間の相互作用を制御可能な方法で合成する際には、学習が難しい非常に複雑な運動空間を作る。 人間のシーンインタラクションを合成する研究は、アクションの高レベルな制御に焦点を当てているが、動きのきめ細かい制御は考慮していない。 本研究では,物体上の異なる接触位置を条件としたシーンインタラクションの合成問題について検討する。 本研究は,この新たな課題を解明するために,接触点における大きな変動を示す最も一般的な行動の一つとして,人間と椅子の相互作用に注目した。 そこで本研究では,手の接触認識制御信号を予測し,接触条件付きインタラクションを合成する新しい合成フレームワークcouchを提案する。 さらに、クリーンアノテーションであるCOUCHデータセットを用いて、大規模なヒューマンチェアインタラクションデータセットをコントリビュートする。 本手法は,既存の人間と物体の相互作用法に比べて,定量的,定性的な改善を示す。 さらに,本手法は,ユーザの特定または自動予測による動作制御を可能にする。

Humans interact with an object in many different ways by making contact at different locations, creating a highly complex motion space that can be difficult to learn, particularly when synthesizing such human interactions in a controllable manner. Existing works on synthesizing human scene interaction focus on the high-level control of action but do not consider the fine-grained control of motion. In this work, we study the problem of synthesizing scene interactions conditioned on different contact positions on the object. As a testbed to investigate this new problem, we focus on human-chair interaction as one of the most common actions which exhibit large variability in terms of contacts. We propose a novel synthesis framework COUCH that plans ahead the motion by predicting contact-aware control signals of the hands, which are then used to synthesize contact-conditioned interactions. Furthermore, we contribute a large human-chair interaction dataset with clean annotations, the COUCH Dataset. Our method shows significant quantitative and qualitative improvements over existing methods for human-object interactions. More importantly, our method enables control of the motion through user-specified or automatically predicted contacts.
翻訳日:2022-05-04 01:31:17 公開日:2022-05-01
# (参考訳) 複数の言語を対象としたマスキング言語モデルにおけるジェンダーバイアス

Gender Bias in Masked Language Models for Multiple Languages ( http://arxiv.org/abs/2205.00551v1 )

ライセンス: CC BY 4.0
Masahiro Kaneko, Aizhan Imankulova, Danushka Bollegala, Naoaki Okazaki(参考訳) 大型コーパスのマスクトークンを予測して事前学習したマスク言語モデル(mlms)は、様々な言語での自然言語処理タスクでうまく使われている。 残念ながら、MLMは性別や人種などの属性に関する差別バイアスも学習していると報告されている。 ほとんどの研究は英語のMLMに焦点を当てているため、他の言語でのMLMのバイアスはめったに研究されていない。 英語以外の言語に対する評価データのマニュアルアノテーションは、アノテータの採用コストと難しさのために困難である。 さらに、既存のバイアス評価手法では、属性語と同じ文脈(例えばHe/Sheは看護婦)のステレオタイプ文対を必要とする。 手動で注釈付きデータを必要とすることなく、英語の属性単語リストと英語のパラレルコーパスのみを用いて、様々な言語のバイアスを評価するための多言語バイアス評価(MBE)スコアを提案する。 MBEを用いて8言語でのMLMの評価を行い、これらの言語に対して性別関連バイアスがMLMにエンコードされていることを確認した。 MBEの有効性を評価するために、日本語とロシア語の性別バイアスのためのデータセットを手作業で作成した。 その結果、MBEが報告したバイアススコアは、上記の手作業で作成したデータセットと、既存の英語のジェンダーバイアスのデータセットと大きく相関していることがわかった。

Masked Language Models (MLMs) pre-trained by predicting masked tokens on large corpora have been used successfully in natural language processing tasks for a variety of languages. Unfortunately, it was reported that MLMs also learn discriminative biases regarding attributes such as gender and race. Because most studies have focused on MLMs in English, the bias of MLMs in other languages has rarely been investigated. Manual annotation of evaluation data for languages other than English has been challenging due to the cost and difficulty in recruiting annotators. Moreover, the existing bias evaluation methods require the stereotypical sentence pairs consisting of the same context with attribute words (e.g. He/She is a nurse). We propose Multilingual Bias Evaluation (MBE) score, to evaluate bias in various languages using only English attribute word lists and parallel corpora between the target language and English without requiring manually annotated data. We evaluated MLMs in eight languages using the MBE and confirmed that gender-related biases are encoded in MLMs for all those languages. We manually created datasets for gender bias in Japanese and Russian to evaluate the validity of the MBE. The results show that the bias scores reported by the MBE significantly correlates with that computed from the above manually created datasets and the existing English datasets for gender bias.
翻訳日:2022-05-04 01:30:01 公開日:2022-05-01
# (参考訳) IBMQとダイヤモンドNVの量子パターン認識実験

Experimental quantum pattern recognition in IBMQ and diamond NVs ( http://arxiv.org/abs/2205.00561v1 )

ライセンス: CC BY 4.0
Sreetama Das, Jingfu Zhang, Stefano Martina, Dieter Suter, Filippo Caruso(参考訳) 量子コンピューティングの最も有望な応用の1つは、画像のようなグラフィカルデータの処理である。 本稿では,スワップテストに基づく量子パターン認識プロトコルの実現の可能性について検討し,IBMQノイズ型中間量子(NISQ)デバイスを用いてその考え方を検証する。 2量子ビットプロトコルでは、スワップテストは2つのパターン間の類似性を効率よく検出できるが、3つ以上のキュービットでは、実際のデバイスにおけるノイズは有害となる。 このノイズ効果を軽減するために, 3量子状態の性能向上を示す破壊スワップ試験を用いる。 大規模IBMQプロセッサへのクラウドアクセスが限られているため、高次元画像に破壊スワップテストを適用するためにセグメントワイズなアプローチをとる。 この場合、実際のIBMQプロセッサ上でシミュレーションされた2つの非常に異なるパターンまたは非常に類似したパターンを区別する忠実度を示す平均オーバーラップ尺度を定義する。 テスト画像として, 単純パターンのバイナリ画像, グレースケールのMNIST数, MNISTのファッション画像, 磁気共鳴画像(MRI)から得られたヒト血管のバイナリ画像を用いる。 また, ダイヤモンド中の窒素空隙中心 (nvs) を用いた破壊的スワップ試験を行うための実験を行った。 実験データは単一量子ビット状態に対して高い忠実度を示す。 最後に,破壊的スワップテストを用いて量子パターン認識を行うための教師付き学習に類似した方法で動作する,量子連想メモリに触発されたプロトコルを提案する。

One of the most promising applications of quantum computing is the processing of graphical data like images. Here, we investigate the possibility of realizing a quantum pattern recognition protocol based on swap test, and use the IBMQ noisy intermediate-scale quantum (NISQ) devices to verify the idea. We find that with a two-qubit protocol, swap test can efficiently detect the similarity between two patterns with good fidelity, though for three or more qubits the noise in the real devices becomes detrimental. To mitigate this noise effect, we resort to destructive swap test, which shows an improved performance for three-qubit states. Due to limited cloud access to larger IBMQ processors, we take a segment-wise approach to apply the destructive swap test on higher dimensional images. In this case, we define an average overlap measure which shows faithfulness to distinguish between two very different or very similar patterns when simulated on real IBMQ processors. As test images, we use binary images with simple patterns, greyscale MNIST numbers and MNIST fashion images, as well as binary images of human blood vessel obtained from magnetic resonance imaging (MRI). We also present an experimental set up for applying destructive swap test using the nitrogen vacancy centre (NVs) in diamond. Our experimental data show high fidelity for single qubit states. Lastly, we propose a protocol inspired from quantum associative memory, which works in an analogous way to supervised learning for performing quantum pattern recognition using destructive swap test.
翻訳日:2022-05-04 01:13:42 公開日:2022-05-01
# (参考訳) 低次ニューラルodeモデルと強化学習による時空間カオスのデータ駆動制御

Data-driven control of spatiotemporal chaos with reduced-order neural ODE-based models and reinforcement learning ( http://arxiv.org/abs/2205.00579v1 )

ライセンス: CC BY 4.0
Kevin Zeng, Alec J. Linot, Michael D. Graham(参考訳) 深部強化学習(Deep reinforcement Learning, RL)は、高次元システムの複雑な制御戦略を発見するためのデータ駆動型手法である。 特に,本研究の動機は, 乱流中のエネルギー散逸を減少させることであり, その例として倉本-シヴァシンスキー方程式(KSE)の時空間カオス力学があげられる。 RLに関連する大きな課題は、ターゲットシステムと繰り返し対話することで、実質的なトレーニングデータを生成する必要があることであり、システムが計算的または実験的に高価である場合にコストがかかることである。 オートエンコーダによる次元の縮小とニューラルネットワークのodeフレームワークを組み合わせることで,この課題をデータ駆動方式で軽減し,限られたデータセットから低次元力学モデルを得る。 このデータ駆動低次モデル(rom)をrlトレーニング中に真のシステムの代わりに置き換え、最適なポリシーを効率的に推定し、それを真のシステムにデプロイする。 4つの位置で局所的な強制(jets)を作用させたKSEに対して、ランダムな運動を経験するKSEのスナップショットから、アクティベートされたダイナミクスを正確にキャプチャするROMを学習できることを実証する。 このROMと、送電量と電力コストを最小化する制御目的を用いて、深いRLを用いて制御ポリシーを抽出する。 ROMベースの制御戦略は真のKSEによく似ており、RLエージェントがKSEシステムの根底にある強制平衡解を発見し、安定化することを強調する。 ROMで捕獲され、RLを通して発見されたこの強制平衡は、KSEの既知の平衡解と関連していることを示す。

Deep reinforcement learning (RL) is a data-driven method capable of discovering complex control strategies for high-dimensional systems, making it promising for flow control applications. In particular, the present work is motivated by the goal of reducing energy dissipation in turbulent flows, and the example considered is the spatiotemporally chaotic dynamics of the Kuramoto-Sivashinsky equation (KSE). A major challenge associated with RL is that substantial training data must be generated by repeatedly interacting with the target system, making it costly when the system is computationally or experimentally expensive. We mitigate this challenge in a data-driven manner by combining dimensionality reduction via an autoencoder with a neural ODE framework to obtain a low-dimensional dynamical model from just a limited data set. We substitute this data-driven reduced-order model (ROM) in place of the true system during RL training to efficiently estimate the optimal policy, which can then be deployed on the true system. For the KSE actuated with localized forcing ("jets") at four locations, we demonstrate that we are able to learn a ROM that accurately captures the actuated dynamics as well as the underlying natural dynamics just from snapshots of the KSE experiencing random actuations. Using this ROM and a control objective of minimizing dissipation and power cost, we extract a control policy from it using deep RL. We show that the ROM-based control strategy translates well to the true KSE and highlight that the RL agent discovers and stabilizes an underlying forced equilibrium solution of the KSE system. We show that this forced equilibrium captured in the ROM and discovered through RL is related to an existing known equilibrium solution of the natural KSE.
翻訳日:2022-05-04 00:50:03 公開日:2022-05-01
# (参考訳) CNNバックプロパゲーションのための新しい分数次勾配法

Using a novel fractional-order gradient method for CNN back-propagation ( http://arxiv.org/abs/2205.00581v1 )

ライセンス: CC BY 4.0
Mundher Mohammed Taresh, Ningbo Zhu, Talal Ahmed Ali Ali, Mohammed Alghaili and Weihua Guo(参考訳) 近年,コンピュータ支援診断ツールの開発が急速に進んでいる。 中でもディープラーニングが最も洗練され、人気のあるツールです。 本稿では,新しい深層学習モデルを提案し,それを新型コロナウイルスの診断に応用する。 本モデルは,勾配法の性能向上の可能性を秘めた分数計算ツールを用いている。 そこで本研究では,caputo定義に基づく畳み込みニューラルネットワークのバックプロパゲーションのための分数次勾配法を提案する。 しかし、カプト定義の無限級数の最初の項が分数次微分を近似するためにのみ使われる場合、メモリの長さは縮まる。 したがって、固定メモリステップと調整可能な項数を有する分数次勾配(FGD)法を用いて、各層の重みを更新する。 COVIDxデータセット上で、高速収束、良好な精度、局所最適点をバイパスする能力を示す実験が行われた。 また,開発した分数次ニューラルネットワークと整数次ニューラルネットワークの性能を比較検討した。 その結果,新型コロナウイルスの診断における提案モデルの有効性が確認された。

Computer-aided diagnosis tools have experienced rapid growth and development in recent years. Among all, deep learning is the most sophisticated and popular tool. In this paper, researchers propose a novel deep learning model and apply it to COVID-19 diagnosis. Our model uses the tool of fractional calculus, which has the potential to improve the performance of gradient methods. To this end, the researcher proposes a fractional-order gradient method for the back-propagation of convolutional neural networks based on the Caputo definition. However, if only the first term of the infinite series of the Caputo definition is used to approximate the fractional-order derivative, the length of the memory is truncated. Therefore, the fractional-order gradient (FGD) method with a fixed memory step and an adjustable number of terms is used to update the weights of the layers. Experiments were performed on the COVIDx dataset to demonstrate fast convergence, good accuracy, and the ability to bypass the local optimal point. We also compared the performance of the developed fractional-order neural networks and Integer-order neural networks. The results confirmed the effectiveness of our proposed model in the diagnosis of COVID-19.
翻訳日:2022-05-04 00:34:31 公開日:2022-05-01
# 熱力学的に一貫性のある機械学習内部状態変数による経路依存材料のデータ駆動モデリング

Thermodynamically Consistent Machine-Learned Internal State Variable Approach for Data-Driven Modeling of Path-Dependent Materials ( http://arxiv.org/abs/2205.00578v1 )

ライセンス: Link先を確認
Xiaolong He, Jiun-Shyan Chen(参考訳) 現象論的モデルによる複雑物質の経路依存挙動のキャラクタリゼーションとモデル化は、数学的表現の定式化の困難さや、経路依存挙動を管理する内部状態変数(ISV)により、依然として困難である。 ディープニューラルネットワークやリカレントニューラルネットワーク(RNN)などのデータ駆動機械学習モデルが,現実的な代替手段になりつつある。 しかし、入力を出力にマッピングする純粋なブラックボックスデータ駆動モデルでは、基礎となる物理は不安定で不正確な一般化性能に悩まされる。 本研究では, 測定可能な材料状態に基づく経路依存材料に対する, 機械学習型物理インフォームドデータ駆動構成モデリング手法を提案する。 提案したデータ駆動構成モデルは,材料パス依存性に不可欠なISVをRNNの隠れ状態から自動的に推定する,普遍熱力学の原理を考慮した設計である。 データ駆動型機械学習ISVの進化を記述するRNNは熱力学第二法則に従う。 RNNモデルの堅牢性と精度を高めるために,モデルトレーニングに確率性を導入する。 モデル性能に及ぼすRNN履歴ステップ数,内部状態次元,モデル複雑性,ひずみインクリメントの影響について検討した。 実験応力-ひずみデータを用いて, 循環せん断荷重下での土壌物質挙動をモデル化し, 提案手法の有効性を評価する。

Characterization and modeling of path-dependent behaviors of complex materials by phenomenological models remains challenging due to difficulties in formulating mathematical expressions and internal state variables (ISVs) governing path-dependent behaviors. Data-driven machine learning models, such as deep neural networks and recurrent neural networks (RNNs), have become viable alternatives. However, pure black-box data-driven models mapping inputs to outputs without considering the underlying physics suffer from unstable and inaccurate generalization performance. This study proposes a machine-learned physics-informed data-driven constitutive modeling approach for path-dependent materials based on the measurable material states. The proposed data-driven constitutive model is designed with the consideration of universal thermodynamics principles, where the ISVs essential to the material path-dependency are inferred automatically from the hidden state of RNNs. The RNN describing the evolution of the data-driven machine-learned ISVs follows the thermodynamics second law. To enhance the robustness and accuracy of RNN models, stochasticity is introduced to model training. The effects of the number of RNN history steps, the internal state dimension, the model complexity, and the strain increment on model performances have been investigated. The effectiveness of the proposed method is evaluated by modeling soil material behaviors under cyclic shear loading using experimental stress-strain data.
翻訳日:2022-05-03 17:14:57 公開日:2022-05-01
# 分散オンライン学習に関する調査

A Survey of Decentralized Online Learning ( http://arxiv.org/abs/2205.00473v1 )

ライセンス: Link先を確認
Xiuxian Li, Lihua Xie, and Na Li(参考訳) 分散オンライン学習(dol)は、センサネットワーク、商用ビルディング、ロボティクス(例えば、分散ターゲット追跡とフォーメーションコントロール)、スマートグリッド、ディープラーニングなど、幅広い応用によって、過去10年間でますます研究されている。 この問題では、ローカルな情報交換を通じて協調的(すなわち分散オンライン最適化)や非協力的(すなわちオンラインゲーム)であるエージェントのネットワークがあり、各エージェントのローカルコスト関数は、動的かつ敵対的な環境でしばしば時間的に変動する。 毎回、コスト関数に関する将来の情報を知ることなく、過去の情報に基づいて各エージェントが決定を下さなければならない。 この問題は過去10年間に広く研究されてきたが、包括的な調査は欠如している。 そこで本稿では,問題設定,通信,計算,性能の観点から,DOLの概要を概観する。 さらに、将来的な方向性についても詳細に論じる。

Decentralized online learning (DOL) has been increasingly researched in the last decade, mostly motivated by its wide applications in sensor networks, commercial buildings, robotics (e.g., decentralized target tracking and formation control), smart grids, deep learning, and so forth. In this problem, there are a network of agents who may be cooperative (i.e., decentralized online optimization) or noncooperative (i.e., online game) through local information exchanges, and the local cost function of each agent is often time-varying in dynamic and even adversarial environments. At each time, a decision must be made by each agent based on historical information at hand without knowing future information on cost functions. Although this problem has been extensively studied in the last decade, a comprehensive survey is lacking. Therefore, this paper provides a thorough overview of DOL from the perspective of problem settings, communication, computation, and performances. In addition, some potential future directions are also discussed in details.
翻訳日:2022-05-03 16:39:52 公開日:2022-05-01
# マーサーの定理における一様収束の速度について

On the speed of uniform convergence in Mercer's theorem ( http://arxiv.org/abs/2205.00487v1 )

ライセンス: Link先を確認
Rustem Takhanov(参考訳) 古典的なマーサーの定理は、コンパクト集合上の連続正定値核 $k({\mathbf x}, {\mathbf y})$ は、対応する積分作用素の固有値-固有ベクトル対であるなら、$\sum_{i=1}^\infty \lambda_i\phi_i({\mathbf x})\phi_i({\mathbf y})$ と表現できると主張する。 この無限表現はカーネル$K$に一様収束することが知られている。 固有値の崩壊率からこの収束速度を推定し、3m$倍の微分可能な核に対して、級数の最初の$N$項は$K$ as $\mathcal{O}\big((\sum_{i=N+1}^\infty\lambda_i)^{\frac{m}{m+n}}\big)$ or $\mathcal{O}\big((\sum_{i=N+1}^\infty\lambda^2_i)^{\frac{m}{2m+n}}\big)$であることを示す。

The classical Mercer's theorem claims that a continuous positive definite kernel $K({\mathbf x}, {\mathbf y})$ on a compact set can be represented as $\sum_{i=1}^\infty \lambda_i\phi_i({\mathbf x})\phi_i({\mathbf y})$ where $\{(\lambda_i,\phi_i)\}$ are eigenvalue-eigenvector pairs of the corresponding integral operator. This infinite representation is known to converge uniformly to the kernel $K$. We estimate the speed of this convergence in terms of the decay rate of eigenvalues and demonstrate that for $3m$ times differentiable kernels the first $N$ terms of the series approximate $K$ as $\mathcal{O}\big((\sum_{i=N+1}^\infty\lambda_i)^{\frac{m}{m+n}}\big)$ or $\mathcal{O}\big((\sum_{i=N+1}^\infty\lambda^2_i)^{\frac{m}{2m+n}}\big)$.
翻訳日:2022-05-03 16:39:38 公開日:2022-05-01
# 積層構造を有する多重特徴融合に基づく回転機の早期故障検出法

An Early Fault Detection Method of Rotating Machines Based on Multiple Feature Fusion with Stacking Architecture ( http://arxiv.org/abs/2205.00511v1 )

ライセンス: Link先を確認
Wenbin Song, Di Wu, Weiming Shen and Benoit Boulet(参考訳) 回転機械の早期故障検出(EFD)は,メンテナンスコストを低減し,機械系の安定性を向上させるために重要である。 EFDの重要なポイントの1つは、早期故障検出のための様々な機器から堅牢で差別的な特徴を抽出する汎用モデルを開発することである。 既存のEFD手法の多くは、1つのタイプの特徴によるフォールト表現の学習に重点を置いている。 しかし、複数の機能の組み合わせはシステム状態のより包括的な表現を捉えることができる。 本稿では,スタックアーキテクチャ(M2FSA)を用いた複数特徴融合に基づくEFD手法を提案する。 提案手法は,時間領域 (td), 周波数領域 (fd), 時間周波数領域 (tfd) を組み合わせることで, 早期故障検出のための汎用的特徴と識別的特徴を抽出できる。 異なるドメイン機能の次元を統一するために、Stacked Denoising Autoencoder(SDAE)を使用して、3つのドメインの深い機能を学ぶ。 M2FSAのアーキテクチャは2層で構成されている。 第1層は3つのベースモデルを含み、対応する入力は深い特徴が異なる。 第1層の出力は連結され、メタモデルからなる第2層の入力を生成する。 提案手法は3つの軸受データセットで検証する。 その結果,提案手法は感性および信頼性の両方において既存手法よりも優れていることがわかった。

Early fault detection (EFD) of rotating machines is important to decrease the maintenance cost and improve the mechanical system stability. One of the key points of EFD is developing a generic model to extract robust and discriminative features from different equipment for early fault detection. Most existing EFD methods focus on learning fault representation by one type of feature. However, a combination of multiple features can capture a more comprehensive representation of system state. In this paper, we propose an EFD method based on multiple feature fusion with stacking architecture (M2FSA). The proposed method can extract generic and discriminiative features to detect early faults by combining time domain (TD), frequency domain (FD), and time-frequency domain (TFD) features. In order to unify the dimensions of the different domain features, Stacked Denoising Autoencoder (SDAE) is utilized to learn deep features in three domains. The architecture of the proposed M2FSA consists of two layers. The first layer contains three base models, whose corresponding inputs are different deep features. The outputs of the first layer are concatenated to generate the input to the second layer, which consists of a meta model. The proposed method is tested on three bearing datasets. The results demonstrate that the proposed method is better than existing methods both in sensibility and reliability.
翻訳日:2022-05-03 16:39:01 公開日:2022-05-01
# 情報ビヘイビアは機械学習をインフォームできるか?

Can Information Behaviour Inform Machine Learning? ( http://arxiv.org/abs/2205.00538v1 )

ライセンス: Link先を確認
Michael Ridley(参考訳) 本研究の目的は,人間情報行動研究の機会を探究し,機械学習の分野とその結果得られる機械情報行動に与え,影響を与えることにある。 機械学習における基礎モデルの開発を例として、人間の情報行動研究が、より曖昧な情報と情報提供の視点、情報の必要性のより良い理解、人やシステム間のコミュニケーションにどう影響するか、コンテキストの性質とモデルやシステムにおけるそれをどのように運用するか、バイアス、誤情報、限界化に関する洞察を機械学習にもたらすかを説明する。 明確な違いはあるものの、情報行動と機械学習の分野は多くの共通の目的、パラダイム、重要な研究課題を共有している。 基礎モデルの例は、人間の情報行動研究が、マシン情報行動の初期段階で発生する課題に対処する上で、大いに役立つことを示している。

The objective of this paper is to explore the opportunities for human information behaviour research to inform and influence the field of machine learning and the resulting machine information behaviour. Using the development of foundation models in machine learning as an example, the paper illustrates how human information behaviour research can bring to machine learning a more nuanced view of information and informing, a better understanding of information need and how that affects the communication among people and systems, guidance on the nature of context and how to operationalize that in models and systems, and insights into bias, misinformation, and marginalization. Despite their clear differences, the fields of information behaviour and machine learning share many common objectives, paradigms, and key research questions. The example of foundation models illustrates that human information behaviour research has much to offer in addressing some of the challenges emerging in the nascent area of machine information behaviour.
翻訳日:2022-05-03 16:38:39 公開日:2022-05-01
# 3次元ネットワークにおけるマルチメディアフローのフェデレーション半教師付き分類

Federated Semi-Supervised Classification of Multimedia Flows for 3D Networks ( http://arxiv.org/abs/2205.00550v1 )

ライセンス: Link先を確認
Saira Bano, Achilles Machumilane, Lorenzo Valerio, Pietro Cassar\`a, Alberto Gotta(参考訳) トランスポート情報を暗号化する現在のトレンド(例えばHTTP暗号化トンネルの背後)は、中間ノードがエンドツーエンドのパケットヘッダーにアクセスするのを妨げている。 しかしながら、この情報は、トラフィックのシェーピング、ネットワークスライシング、qos(quality of service)管理、ネットワーク侵入の防止、異常検出に不可欠である。 3Dネットワークは、異なるレベルのQoSを保証する複数のルートを提供する。 したがって、適切なネットワークトランクを介して各トラフィックサブフローに要求されるQoSレベルを保証するためには、サービス分類と分離が不可欠である。 本稿では,ネットワークトラフィックを半教師あり協調的に分類するために,フェデレーション特徴選択・特徴削減学習方式を提案する。 3Dネットワークのフェデレートされたゲートウェイは,ネットワークトラフィックのグローバルな知識を高め,異常検出や侵入検出,新たなトラフィックフローのサービス識別の精度を向上させる。

Automatic traffic classification is increasingly becoming important in traffic engineering, as the current trend of encrypting transport information (e.g., behind HTTP-encrypted tunnels) prevents intermediate nodes from accessing end-to-end packet headers. However, this information is crucial for traffic shaping, network slicing, and Quality of Service (QoS) management, for preventing network intrusion, and for anomaly detection. 3D networks offer multiple routes that can guarantee different levels of QoS. Therefore, service classification and separation are essential to guarantee the required QoS level to each traffic sub-flow through the appropriate network trunk. In this paper, a federated feature selection and feature reduction learning scheme is proposed to classify network traffic in a semi-supervised cooperative manner. The federated gateways of 3D network help to enhance the global knowledge of network traffic to improve the accuracy of anomaly and intrusion detection and service identification of a new traffic flow.
翻訳日:2022-05-03 16:38:22 公開日:2022-05-01
# ランダムディフューザを通して見る拡散型ニューラルネットワークの解析

Analysis of Diffractive Neural Networks for Seeing Through Random Diffusers ( http://arxiv.org/abs/2205.00428v1 )

ライセンス: Link先を確認
Yuhang Li, Yi Luo, Bijie Bai, Aydogan Ozcan(参考訳) 拡散メディアによるイメージングは難しい問題であり、既存のソリューションは歪んだ画像を再構成するためにデジタルコンピュータに大きく依存している。 本稿では,異なる深層学習に基づく学習戦略を網羅した,無作為で未知の位相拡散器を網羅するコンピュータフリー全光学イメージング手法の詳細な解析を行う。 相関長の異なるランダムディフューザによる画像形成を意図した各種ディフューザネットワークの解析により,画像再構成精度とディフューザネットワークの歪み低減能力とのトレードオフが観察された。 トレーニング中, 相関長の広いランダム拡散器を用いて, 拡散ネットワークの一般化性能を向上した。 各エポックで使用されるランダムディフューザ数の増加は、既知のディフューザに対する回折ネットワークの撮像性能の過剰化を招いた。 また,追加の拡散層を用いることで,新しいランダムディフューザを通した一般化能力が向上することを示した。 最後に, 拡散ネットワークの不完全な組立により生じる可能性のあるランダム層間シフトに対して, ネットワークを「予防接種」するためのトレーニングにおいて, 意図的なミスアライメントを導入した。 これらの分析は、ランダムディフューザを通して見るための拡散ネットワークを設計するための包括的なガイドを提供しており、バイオメディカルイメージング、大気物理学、自律運転など多くの分野に大きな影響を与える可能性がある。

Imaging through diffusive media is a challenging problem, where the existing solutions heavily rely on digital computers to reconstruct distorted images. We provide a detailed analysis of a computer-free, all-optical imaging method for seeing through random, unknown phase diffusers using diffractive neural networks, covering different deep learning-based training strategies. By analyzing various diffractive networks designed to image through random diffusers with different correlation lengths, a trade-off between the image reconstruction fidelity and distortion reduction capability of the diffractive network was observed. During its training, random diffusers with a range of correlation lengths were used to improve the diffractive network's generalization performance. Increasing the number of random diffusers used in each epoch reduced the overfitting of the diffractive network's imaging performance to known diffusers. We also demonstrated that the use of additional diffractive layers improved the generalization capability to see through new, random diffusers. Finally, we introduced deliberate misalignments in training to 'vaccinate' the network against random layer-to-layer shifts that might arise due to the imperfect assembly of the diffractive networks. These analyses provide a comprehensive guide in designing diffractive networks to see through random diffusers, which might profoundly impact many fields, such as biomedical imaging, atmospheric physics, and autonomous driving.
翻訳日:2022-05-03 16:34:18 公開日:2022-05-01
# 低次元CT画像再構成のためのデータセットフリーディープラーニング法

Dataset-free Deep learning Method for Low-Dose CT Image Reconstruction ( http://arxiv.org/abs/2205.00463v1 )

ライセンス: Link先を確認
Qiaoqiao Ding, Hui Ji, Yuhui Quan, Xiaoqun Zhang(参考訳) 低線量CT(LDCT)撮影は、被検体のX線被曝の低減に大きな関心を惹きつけた。 近年,LDCT画像再構成のための教師付きディープラーニングが広く研究されている。 しかし,臨床施設においてこのようなペアを多数集めることの課題は,LDCT画像再構成のための教師あり学習法の適用を制限している。 本稿では,トレーニングデータセットの収集によって生じる課題を解決することを目的として,外部のトレーニングデータを必要としないldct画像再構成のための教師なし深層学習手法を提案する。 提案手法は,ランダムな重み付きディープネットワークによるベイズ推論の再パラメータ化手法と,追加の総変分法(TV)正則化を併用して構築する。 実験により,提案手法が既存のデータセットを含まない画像再構成手法を,テストデータ上で明らかに上回ることを示した。

Low-dose CT (LDCT) imaging attracted a considerable interest for the reduction of the object's exposure to X-ray radiation. In recent years, supervised deep learning has been extensively studied for LDCT image reconstruction, which trains a network over a dataset containing many pairs of normal-dose and low-dose images. However, the challenge on collecting many such pairs in the clinical setup limits the application of such supervised-learning-based methods for LDCT image reconstruction in practice. Aiming at addressing the challenges raised by the collection of training dataset, this paper proposed a unsupervised deep learning method for LDCT image reconstruction, which does not require any external training data. The proposed method is built on a re-parametrization technique for Bayesian inference via deep network with random weights, combined with additional total variational (TV) regularization. The experiments show that the proposed method noticeably outperforms existing dataset-free image reconstruction methods on the test data.
翻訳日:2022-05-03 16:33:55 公開日:2022-05-01
# ファジィ重み改善による異常認識多人数評価システム

Abnormal-aware Multi-person Evaluation System with Improved Fuzzy Weighting ( http://arxiv.org/abs/2205.00388v1 )

ライセンス: Link先を確認
Shutong Ni(参考訳) 主観性が日常的な評価過程に強く依存する現象が存在する。 本研究は,主観的評価が生み出す不正確性を最小限に抑えるために,異常検出を伴う多人数評価システムに焦点を当てている。 我々は,大まかなスクリーニングとスコア重み付けのKendall-$\tau$ Distanceからなる2段階スクリーニング法を選択し,仮説テストとグローバルな不一致を狭くする。 次に,Fazy Synthetic Evaluation Method (FSE) を用いてレビュアーのスコアの重要度と信頼性を判定し,最終結論において各レビュアーに対してより公平な重み付けを行う。 その結果、一方的なスコアではなく、明確で包括的なランキングが示され、異常データをフィルタリングする効率と、合理的に客観的な重み決定機構が得られた。 我々の研究によって、人々は、株式と比較的優れた競争環境の両方を達成するために、多人数評価システムを変更するチャンスがある。

There exists a phenomenon that subjectivity highly lies in the daily evaluation process. Our research primarily concentrates on a multi-person evaluation system with anomaly detection to minimize the possible inaccuracy that subjective assessment brings. We choose the two-stage screening method, which consists of rough screening and score-weighted Kendall-$\tau$ Distance to winnow out abnormal data, coupled with hypothesis testing to narrow global discrepancy. Then we use Fuzzy Synthetic Evaluation Method(FSE) to determine the significance of scores given by reviewers as well as their reliability, culminating in a more impartial weight for each reviewer in the final conclusion. The results demonstrate a clear and comprehensive ranking instead of unilateral scores, and we get to have an efficiency in filtering out abnormal data as well as a reasonably objective weight determination mechanism. We can sense that through our study, people will have a chance of modifying a multi-person evaluation system to attain both equity and a relatively superior competitive atmosphere.
翻訳日:2022-05-03 16:31:22 公開日:2022-05-01
# 局所安定性を保証したニューラルネットワーク最適フィードバック制御

Neural Network Optimal Feedback Control with Guaranteed Local Stability ( http://arxiv.org/abs/2205.00394v1 )

ライセンス: Link先を確認
Tenavi Nakamura-Zimmerer and Qi Gong and Wei Kang(参考訳) 近年の研究では、高次元非線形力学系のための最適フィードバックコントローラの設計にディープラーニングが有効であることが示されている。 しかし、これらのニューラルネットワーク(NN)コントローラの挙動はまだよく理解されていない。 特に、テスト精度の高いいくつかのNNは、動的システムを局所的に安定化させることができない。 この課題に対処するために,我々は,準グローバル近似容量を保持しながら局所安定性を保証し,最適フィードバックポリシーを学習する,いくつかの新しいnnアーキテクチャを提案する。 提案手法は,不安定なバーガース型偏微分方程式 (pde) の安定化と,6自由度 (6dof) 無人航空機 (uav) の高度・コース追跡という2つの高次元非線形最適制御問題の数値シミュレーションにより,標準nnフィードバックコントローラと比較した。 シミュレーションにより,提案アーキテクチャは少なくとも局所的に安定しているのに対して,標準NNは十分に訓練しても動的に安定できないことが示された。 さらに、提案するコントローラは、テストにおいてほぼ最適であることが判明した。

Recent research shows that deep learning can be an effective tool for designing optimal feedback controllers for high-dimensional nonlinear dynamic systems. But the behavior of these neural network (NN) controllers is still not well understood. In particular, some NNs with high test accuracy can fail to even locally stabilize the dynamic system. To address this challenge we propose several novel NN architectures, which we show guarantee local stability while retaining the semi-global approximation capacity to learn the optimal feedback policy. The proposed architectures are compared against standard NN feedback controllers through numerical simulations of two high-dimensional nonlinear optimal control problems (OCPs): stabilization of an unstable Burgers-type partial differential equation (PDE), and altitude and course tracking for a six degree-of-freedom (6DoF) unmanned aerial vehicle (UAV). The simulations demonstrate that standard NNs can fail to stabilize the dynamics even when trained well, while the proposed architectures are always at least locally stable. Moreover, the proposed controllers are found to be near-optimal in testing.
翻訳日:2022-05-03 16:31:03 公開日:2022-05-01
# IUPAC命名法と属性マルチモーダルリカレントニューラルネットワークを用いたAFM画像からの分子同定

Molecular Identification from AFM images using the IUPAC Nomenclature and Attribute Multimodal Recurrent Neural Networks ( http://arxiv.org/abs/2205.00449v1 )

ライセンス: Link先を確認
Jaime Carracedo-Cosme, Carlos Romero-Mu\~niz, Pablo Pou, Rub\'en P\'erez(参考訳) 原子スケールで分子を可視化する主要なツールであるにもかかわらず、CO官能化金属先端を持つAFMは、観察された分子を化学的に識別することができない。 本稿では,この課題に深層学習技術を用いて対処する戦略を提案する。 従来の分類アプローチに従って有限個の分子を識別するのではなく、画像キャプション問題として分子識別を定義する。 3d-afm画像スタックを入力として未知の分子の構造と構成を識別できる2つのマルチモーダルリカレントニューラルネットワークからなるアーキテクチャを設計した。 ニューラルネットワークは、IUPAC命名規則に従って各分子の名前を提供するように訓練されている。 このアルゴリズムを訓練し、テストするために、約70万の分子と1億6500万のAFM画像を含む新しいQUIM-AFMデータセットを使用します。 予測の精度は顕著であり、言語認識研究の一般的な指標である累積BLEU 4-gramによって定量化された高いスコアを達成する。

Despite being the main tool to visualize molecules at the atomic scale, AFM with CO-functionalized metal tips is unable to chemically identify the observed molecules. Here we present a strategy to address this challenging task using deep learning techniques. Instead of identifying a finite number of molecules following a traditional classification approach, we define the molecular identification as an image captioning problem. We design an architecture, composed of two multimodal recurrent neural networks, capable of identifying the structure and composition of an unknown molecule using a 3D-AFM image stack as input. The neural network is trained to provide the name of each molecule according to the IUPAC nomenclature rules. To train and test this algorithm we use the novel QUAM-AFM dataset, which contains almost 700,000 molecules and 165 million AFM images. The accuracy of the predictions is remarkable, achieving a high score quantified by the cumulative BLEU 4-gram, a common metric in language recognition studies.
翻訳日:2022-05-03 16:30:45 公開日:2022-05-01
# 2相最適化による一様多様体近似

Uniform Manifold Approximation with Two-phase Optimization ( http://arxiv.org/abs/2205.00420v1 )

ライセンス: Link先を確認
Hyeon Jeon, Hyung-Kwon Ko, Soohyun Lee, Jaemin Jo, Jinwook Seo(参考訳) 2相最適化 (UMATO) を用いた一様多様体近似を導入し, 次元量削減 (DR) 技術により, 次元データの大域的構造をより正確に把握する。 UMATOでは、最適化を2つのフェーズに分けて、結果の埋め込みにより、局所構造を十分な精度で保存しながら、グローバル構造を確実に表現することができる。 第1フェーズとして、グローバル構造のための骨格配置を構築するためにハブ点を特定し、投影する。 第2段階では、地域特性を保存した埋め込みに残りの点を付加する。 定量的実験により,UMATO (1) はグローバル構造保存において広く用いられているDR技術より優れ,(2) 局所構造を表現する上での競争精度が向上したことがわかった。 また, 多様な初期化手法やエポック数, サブサンプリング技術よりも, 頑健性が好ましいことも確認した。

We introduce Uniform Manifold Approximation with Two-phase Optimization (UMATO), a dimensionality reduction (DR) technique that improves UMAP to capture the global structure of high-dimensional data more accurately. In UMATO, optimization is divided into two phases so that the resulting embeddings can depict the global structure reliably while preserving the local structure with sufficient accuracy. As the first phase, hub points are identified and projected to construct a skeletal layout for the global structure. In the second phase, the remaining points are added to the embedding preserving the regional characteristics of local areas. Through quantitative experiments, we found that UMATO (1) outperformed widely used DR techniques in preserving the global structure while (2) producing competitive accuracy in representing the local structure. We also verified that UMATO is preferable in terms of robustness over diverse initialization methods, number of epochs, and subsampling techniques.
翻訳日:2022-05-03 16:10:32 公開日:2022-05-01
# ludiiゲーム記述言語は普遍的です

The Ludii Game Description Language is Universal ( http://arxiv.org/abs/2205.00451v1 )

ライセンス: Link先を確認
Dennis J. N. J. Soemers and \'Eric Piette and Matthew Stephenson and Cameron Browne(参考訳) いくつかの異なるゲーム記述言語(GDL)があり、それらは汎用プログラミング言語よりも単一の高レベル言語で記述できる幅広い任意のゲーム(一般ゲーム)を意図している。 このような形式で記述されたゲームは、その後、ゲームに関する事前の知識なしに、そのような言語で記述された任意のゲームをプレイできると期待される、自動化された一般的なゲームプレイエージェントの挑戦として提示することができる。 ludii general game systemで使われる言語は、任意の、有限、決定論的、完全に観測可能な拡張形式のゲームに対して同等のゲームを表現できることが以前にも示されていた。 本稿では,これを有限個の非決定的かつ不完全情報ゲームに拡張することで,その普遍性を証明する。

There are several different game description languages (GDLs), each intended to allow wide ranges of arbitrary games (i.e., general games) to be described in a single higher-level language than general-purpose programming languages. Games described in such formats can subsequently be presented as challenges for automated general game playing agents, which are expected to be capable of playing any arbitrary game described in such a language without prior knowledge about the games to be played. The language used by the Ludii general game system was previously shown to be capable of representing equivalent games for any arbitrary, finite, deterministic, fully observable extensive-form game. In this paper, we prove its universality by extending this to include finite non-deterministic and imperfect-information games.
翻訳日:2022-05-03 16:08:58 公開日:2022-05-01
# 圧力系ソフトエージェントの形状変化と制御

Shape Change and Control of Pressure-based Soft Agents ( http://arxiv.org/abs/2205.00467v1 )

ライセンス: Link先を確認
Federico Pigozzi(参考訳) 生体には、主に軟組織からなる体がある。 研究者たちは、ALife(Artificial Life)に関連する問題を調べるために、柔らかい体を頼りにしている。 それでも、自由度が無限にあるため、ソフトボディはシミュレーション、制御、最適化の点でユニークな課題を提起する。 ここでは, 圧力系ソフトエージェント (psas: pressure-based soft agents) という新しいソフトボディエージェント形式を提案する。 圧力はエージェントに構造を与えるが、スプリングと質量は柔らかさをシミュレートし、エージェントは大きな形状を仮定することができる。 作動は春の長さを変えたり、大気圧を調節することで起こる。 傾斜地における移動作業とケージからの脱出作業にPSAのコントローラを最適化し,後者はソフトボディエージェントに特に適している。 以上の結果から,PSAはこれらの作業に有効であり,圧力制御は形状変化に基本的であることが示唆された。 今後,ソフトロボットや生体細胞を含むソフトボディエージェントのモデリングにおいてpsaが果たす役割を期待する。 進化したエージェントのビデオはhttps:// pressuresoftagents.github.ioで見ることができる。

Biological agents possess bodies that are mostly of soft tissues. Researchers have resorted to soft bodies to investigate Artificial Life (ALife)-related questions; similarly, a new era of soft-bodied robots has just begun. Nevertheless, because of their infinite degrees of freedom, soft bodies pose unique challenges in terms of simulation, control, and optimization. Here we propose a novel soft-bodied agents formalism, namely Pressure-based Soft Agents (PSAs): they are bodies of gas enveloped by a chain of springs and masses, with pressure pushing on the masses from inside the body. Pressure endows the agents with structure, while springs and masses simulate softness and allow the agents to assume a large gamut of shapes. Actuation takes place by changing the length of springs or modulating global pressure. We optimize the controller of PSAs for a locomotion task on hilly terrain and an escape task from a cage; the latter is particularly suitable for soft-bodied agents, as it requires the agent to contort itself to squeeze through a small aperture. Our results suggest that PSAs are indeed effective at those tasks and that controlling pressure is fundamental for shape-changing. Looking forward, we envision PSAs to play a role in the modeling of soft-bodied agents, including soft robots and biological cells. Videos of evolved agents are available at https://pressuresoftagents.github.io.
翻訳日:2022-05-03 16:08:44 公開日:2022-05-01
# 対訳 プランニング

Adversarial Plannning ( http://arxiv.org/abs/2205.00566v1 )

ライセンス: Link先を確認
Valentin Vie, Ryan Sheatsley, Sophia Beyda, Sushrut Shringarputale, Kevin Chan, Trent Jaeger, Patrick McDaniel(参考訳) 計画アルゴリズムは計算システムにおいて自律的な振る舞いを指示するために用いられる。 例えば、標準的なアプリケーションでは、自動運転車の計画は、パフォーマンス、資源管理、機能目標(目的地に到着し、燃料消費を管理するなど)に向けた静的または連続的な計画を自動化するために使用される。 既存の計画アルゴリズムは非敵の設定を前提としており、利用可能な環境情報(例えば入力インスタンス)に基づいて最小コストの計画を開発する。 しかし、このようなアルゴリズムがプランナーを妨害しようとする敵に対してどのように機能するかは不明だ。 本稿では,サイバーおよびサイバー物理システムで使用される計画アルゴリズムの安全性について検討する。 2つの$\textit{adversarial planning}$ algorithms-one static と one adaptive-that perturb input planning instance を提示し、コストを最大化します。 商用アプリケーションで使用される2つの支配的計画アルゴリズム(d* liteとfast downward)に対するアルゴリズムの性能を評価し,両者が極めて限られた敵行動に弱いことを示した。 ここでは、敵がアクション空間(d* lite)から1つのアクションだけを取り除いて66.9%のインスタンスで計画コストを増加させ、国際計画競技会から70%のインスタンスを3つのアクション(ファストフォワード)だけを取り除いて解決できないようにする実験が行われている。 最後に,探索型計画システムにおける最適摂動の探索はnp-hardであることを示す。

Planning algorithms are used in computational systems to direct autonomous behavior. In a canonical application, for example, planning for autonomous vehicles is used to automate the static or continuous planning towards performance, resource management, or functional goals (e.g., arriving at the destination, managing fuel fuel consumption). Existing planning algorithms assume non-adversarial settings; a least-cost plan is developed based on available environmental information (i.e., the input instance). Yet, it is unclear how such algorithms will perform in the face of adversaries attempting to thwart the planner. In this paper, we explore the security of planning algorithms used in cyber- and cyber-physical systems. We present two $\textit{adversarial planning}$ algorithms-one static and one adaptive-that perturb input planning instances to maximize cost (often substantially so). We evaluate the performance of the algorithms against two dominant planning algorithms used in commercial applications (D* Lite and Fast Downward) and show both are vulnerable to extremely limited adversarial action. Here, experiments show that an adversary is able to increase plan costs in 66.9% of instances by only removing a single action from the actions space (D* Lite) and render 70% of instances from an international planning competition unsolvable by removing only three actions (Fast Forward). Finally, we show that finding an optimal perturbation in any search-based planning system is NP-hard.
翻訳日:2022-05-03 16:07:55 公開日:2022-05-01
# バイトレベルサブワードを用いたバイリンガルエンドツーエンドASR

Bilingual End-to-End ASR with Byte-Level Subwords ( http://arxiv.org/abs/2205.00485v1 )

ライセンス: Link先を確認
Liuhui Deng, Roger Hsiao, Arnab Ghoshal(参考訳) 本稿では,エンドツーエンドニューラルネットワークの出力表現が多言語自動音声認識(ASR)に与える影響について検討する。 文字レベル、バイトレベル、バイトペアエンコーディング(BPE)、バイトレベルのバイトペアエンコーディング(BBPE)など、さまざまな表現を研究し、その強みと弱点を分析する。 我々は、発話ベースのバイリンガルasrをサポートするために、一つの発話で2つの言語を切り替えるのではなく、発話にまたがる言語を変えることができる単一のエンドツーエンドモデルを開発することに焦点をあてる。 英語とマンダリンのディクテーションタスクについて実験を行い、少ないアウトプット数と少ないパラメータでも、ペナルティスキームを持つbbpeは発話に基づくバイリンガルasrのパフォーマンスを2%から5%改善できることがわかった。 我々は、多言語ASRをさらに改善するための方向性を示す分析で締めくくった。

In this paper, we investigate how the output representation of an end-to-end neural network affects multilingual automatic speech recognition (ASR). We study different representations including character-level, byte-level, byte pair encoding (BPE), and byte-level byte pair encoding (BBPE) representations, and analyze their strengths and weaknesses. We focus on developing a single end-to-end model to support utterance-based bilingual ASR, where speakers do not alternate between two languages in a single utterance but may change languages across utterances. We conduct our experiments on English and Mandarin dictation tasks, and we find that BBPE with penalty schemes can improve utterance-based bilingual ASR performance by 2% to 5% relative even with smaller number of outputs and fewer parameters. We conclude with analysis that indicates directions for further improving multilingual ASR.
翻訳日:2022-05-03 16:06:00 公開日:2022-05-01
# 水中画像強調用強化swin-convs変圧器

Reinforced Swin-Convs Transformer for Underwater Image Enhancement ( http://arxiv.org/abs/2205.00434v1 )

ライセンス: Link先を確認
Tingdi Ren, Haiyong Xu, Gangyi Jiang, Mei Yu, Ting Luo(参考訳) 水中画像強調(UIE)技術は、光吸収と散乱による劣化した水中画像の復元という課題に取り組むことを目的としている。 水中画像強調法(URSCT-UIE)のための新しいU-NetベースのReinforced Swin-Convs Transformerを提案する。 具体的には、純粋な畳み込みに基づくU-Netの欠如により、グローバルな依存関係をキャプチャする能力を改善するために、Swin TransformerをU-Netに組み込んだ。 そして、スウィントランスが地元の注意を惹きつけることのできない状況を考えると、畳み込みの再導入はよりローカルな注意を惹きつける可能性がある。 これにより、畳み込みの融合とコアアテンション機構とが融合して、スウィントランスの空間的アテンションとチャネル内で強化された、より局所的なアテンションを捕捉する強化スウィン-コンバストランスブロック(rsctb)を構築するための巧妙な方法を提供する。 最後に、利用可能なデータセットに関する実験結果から、本提案手法は主観的評価と客観的評価の両方において、他の手法と比較して最先端の性能を達成できることが示されている。 コードは受け入れた後にGitHubでリリースされる。

Underwater Image Enhancement (UIE) technology aims to tackle the challenge of restoring the degraded underwater images due to light absorption and scattering. To address problems, a novel U-Net based Reinforced Swin-Convs Transformer for the Underwater Image Enhancement method (URSCT-UIE) is proposed. Specifically, with the deficiency of U-Net based on pure convolutions, we embedded the Swin Transformer into U-Net for improving the ability to capture the global dependency. Then, given the inadequacy of the Swin Transformer capturing the local attention, the reintroduction of convolutions may capture more local attention. Thus, we provide an ingenious manner for the fusion of convolutions and the core attention mechanism to build a Reinforced Swin-Convs Transformer Block (RSCTB) for capturing more local attention, which is reinforced in the channel and the spatial attention of the Swin Transformer. Finally, the experimental results on available datasets demonstrate that the proposed URSCT-UIE achieves state-of-the-art performance compared with other methods in terms of both subjective and objective evaluations. The code will be released on GitHub after acceptance.
翻訳日:2022-05-03 16:04:26 公開日:2022-05-01
# 深層学習による有限幾何ldpc符号の復号化性能向上

Boost decoding performance of finite geometry LDPC codes with deep learning tactics ( http://arxiv.org/abs/2205.00481v1 )

ライセンス: Link先を確認
Guangwen Li, Xiao Yu(参考訳) 標準のmin-sumデコーダは、各エッジを重み付けした後、ニューラルネットワークとして展開できることが知られていた。 類似のデコーディングフレームワークを用いて,短小および中小ブロック長の有限幾何ldpc符号のクラスに対して,低複雑で高性能なデコーダを求める。 高品質なトレーニングデータを効果的に生成する方法を詳述し,進化曲線を追跡した神経デコーダのトレーニング損失とビット誤り率との間に強い相関関係を示す。 ニューラルネットワークとエラー訂正デコーダの間には、目的の観点から潜在的な衝突が存在するため、トレーニング収束を保証するためにトレーニング可能なパラメータの数を抑える必要性が強調される。 その結果、LDPC符号の厳密な代数構造は、トレーニング可能なパラメータの数を1つに減らし、シミュレーションにおける限界性能損失を生じさせる可能性がある。

It was known a standard min-sum decoder can be unrolled as a neural network after weighting each edges. We adopt the similar decoding framework to seek a low-complexity and high-performance decoder for a class of finite geometry LDPC codes in short and moderate block lengths. It is elaborated on how to generate high-quality training data effectively, and the strong link is illustrated between training loss and the bit error rate of a neural decoder after tracing the evolution curves. Considering there exists a potential conflict between the neural networks and the error-correction decoders in terms of their objectives, the necessity of restraining the number of trainable parameters to ensure training convergence or reduce decoding complexity is highlighted. Consequently, for the referred LDPC codes, their rigorous algebraic structure promotes the feasibility of cutting down the number of trainable parameters even to only one, whereas incurring marginal performance loss in the simulation.
翻訳日:2022-05-03 16:02:42 公開日:2022-05-01
# 予測による適応型オンライン最適化:静的および動的環境

Adaptive Online Optimization with Predictions: Static and Dynamic Environments ( http://arxiv.org/abs/2205.00446v1 )

ライセンス: Link先を確認
Pedro Zattoni Scroccaro, Arman Sharifi Kolarijani and Peyman Mohajerin Esfahani(参考訳) 過去数年間、オンライン凸最適化(oco)は柔軟なリアルタイム性と強力なパフォーマンス保証によって、制御文学で注目されてきた。 本稿では,勾配予測,関数予測,ダイナミクスを同時に活用する新しいステップサイズルールとOCOアルゴリズムを提案する。 提案アルゴリズムは,文献からの既知の正則性尺度の一般化である参照動作シーケンス,勾配予測誤差,関数予測誤差のダイナミックスの観点から,静的かつ動的後悔境界を享受する。 コンベックスコストと強いコンベックスコストの両方について結果を示す。 提案アルゴリズムの性能を軌道追跡ケーススタディで検証し,実世界のデータセットを用いたポートフォリオ最適化を行った。

In the past few years, Online Convex Optimization (OCO) has received notable attention in the control literature thanks to its flexible real-time nature and powerful performance guarantees. In this paper, we propose new step-size rules and OCO algorithms that simultaneously exploit gradient predictions, function predictions and dynamics, features particularly pertinent to control applications. The proposed algorithms enjoy static and dynamic regret bounds in terms of the dynamics of the reference action sequence, gradient prediction error and function prediction error, which are generalizations of known regularity measures from the literature. We present results for both convex and strongly convex costs. We validate the performance of the proposed algorithms in a trajectory tracking case study, as well as portfolio optimization using real-world datasets.
翻訳日:2022-05-03 16:00:42 公開日:2022-05-01
# スパイク表現の差分による高性能低レイテンシスパイクニューラルネットワークの訓練

Training High-Performance Low-Latency Spiking Neural Networks by Differentiation on Spike Representation ( http://arxiv.org/abs/2205.00459v1 )

ライセンス: Link先を確認
Qingyan Meng, Mingqing Xiao, Shen Yan, Yisen Wang, Zhouchen Lin, Zhi-Quan Luo(参考訳) spiking neural network(snn)は、ニューロモルフィックなハードウェア上で実装される、エネルギー効率の高いaiモデルである。 しかし、その非微分性から効率的にsnsを訓練することは困難である。 既存の手法の多くは、高いレイテンシ(すなわち長いシミュレーション時間ステップ)に苦しむか、あるいは人工ニューラルネットワーク(anns)ほど高いパフォーマンスを達成できない。 本稿では、低レイテンシでANNと競合する高い性能を実現することができるスパイク表現法(DSR)の差分法を提案する。 まず、(重み付き)発射速度符号化を用いてスパイク列車をスパイク表現に符号化する。 スパイク表現に基づいて,共通の神経モデルを持つスパイクダイナミクスを部分微分可能写像として表現できることを体系的に導出する。 この観点から,提案手法はSNNの勾配を学習し,SNN訓練における一般的な非微分可能性問題を回避する。 次に、SNNの前方計算で特定マッピングを表現する際の誤差を解析する。 このような誤差を低減するために,各層におけるスパイクしきい値のトレーニングと,ニューラルモデルに対する新しいハイパーパラメータの導入を提案する。 これらのコンポーネントにより、DSR法は、CIFAR-10、CIFAR-100、ImageNet、DVS-CIFAR10を含む静的およびニューロモルフィックなデータセット上で、低レイテンシで最先端のSNN性能を実現することができる。

Spiking Neural Network (SNN) is a promising energy-efficient AI model when implemented on neuromorphic hardware. However, it is a challenge to efficiently train SNNs due to their non-differentiability. Most existing methods either suffer from high latency (i.e., long simulation time steps), or cannot achieve as high performance as Artificial Neural Networks (ANNs). In this paper, we propose the Differentiation on Spike Representation (DSR) method, which could achieve high performance that is competitive to ANNs yet with low latency. First, we encode the spike trains into spike representation using (weighted) firing rate coding. Based on the spike representation, we systematically derive that the spiking dynamics with common neural models can be represented as some sub-differentiable mapping. With this viewpoint, our proposed DSR method trains SNNs through gradients of the mapping and avoids the common non-differentiability problem in SNN training. Then we analyze the error when representing the specific mapping with the forward computation of the SNN. To reduce such error, we propose to train the spike threshold in each layer, and to introduce a new hyperparameter for the neural models. With these components, the DSR method can achieve state-of-the-art SNN performance with low latency on both static and neuromorphic datasets, including CIFAR-10, CIFAR-100, ImageNet, and DVS-CIFAR10.
翻訳日:2022-05-03 16:00:29 公開日:2022-05-01
# 情報抽出と圧縮による大規模マルチドキュメント要約

Large-Scale Multi-Document Summarization with Information Extraction and Compression ( http://arxiv.org/abs/2205.00548v1 )

ライセンス: Link先を確認
Ning Wang, Han Liu, Diego Klabjan(参考訳) 複数の異種文書のラベル付きデータに依存しない抽象的な要約フレームワークを開発する。 既存のマルチドキュメント要約手法とは異なり、同じトピックのドキュメントではなく、異なるストーリーを伝えるドキュメントを処理する。 また,一方向言語モデルを用いて既存の文融合法を強化し,可読性の向上を目標とし,高い文確率で融合文を優先する。 最後に、cnn/daily mailとnewsroomデータセットに基づく12のデータセットのバリエーションを構築し、各ドキュメントグループは、他のベースラインシステムと比較して、モデルのパフォーマンスを評価するために、大規模で多様なドキュメントコレクションを含んでいる。 我々の実験は、このより汎用的な設定で、我々のフレームワークが現在の最先端のメソッドよりも優れています。

We develop an abstractive summarization framework independent of labeled data for multiple heterogeneous documents. Unlike existing multi-document summarization methods, our framework processes documents telling different stories instead of documents on the same topic. We also enhance an existing sentence fusion method with a uni-directional language model to prioritize fused sentences with higher sentence probability with the goal of increasing readability. Lastly, we construct a total of twelve dataset variations based on CNN/Daily Mail and the NewsRoom datasets, where each document group contains a large and diverse collection of documents to evaluate the performance of our model in comparison with other baseline systems. Our experiments demonstrate that our framework outperforms current state-of-the-art methods in this more generic setting.
翻訳日:2022-05-03 15:36:13 公開日:2022-05-01
# 自律走行における希少物体検出のための交通状況認識データ強化

Traffic Context Aware Data Augmentation for Rare Object Detection in Autonomous Driving ( http://arxiv.org/abs/2205.00376v1 )

ライセンス: Link先を確認
Naifan Li, Fan Song, Ying Zhang, Pengpeng Liang, Erkang Cheng(参考訳) 希少物体(交通コーン、交通バレル、交通警告の三角形など)の検出は、自動運転の安全性を高めるための重要な認識課題である。 このようなモデルのトレーニングは通常、大量の注釈付きデータを必要とする。 上記の問題に対処するために、データ拡張を適用して、費用のかかるトレーニングサンプルを自動的に生成する、という新しいアプローチがある。 本研究では,自律運転におけるまれな物体検出のための簡易なコピー・ペーストデータ拡張方式を提案する。 具体的には、ローカルアダプティブなインスタンスレベルの画像変換を導入し、ソースドメインからターゲットドメインへの現実的なレアオブジェクトマスクを生成する。 また,トラヒックシーンの文脈を用いて,レアオブジェクトのマスク配置を案内する。 これにより,局所的およびグローバル的一貫性を活かし,高品質かつ現実的な特徴を持つトレーニングデータを生成する。 さらに,10kのトレーニング画像,4kの検証画像,およびそれに対応するラベルからなるNM10kという新しいデータセットを構築し,自律運転におけるさまざまなシナリオについて検討した。 NM10k実験により, 希少物体検出における有望な結果が得られた。 また, 局所適応型およびグローバル制約に基づくCopy-Pasteデータ拡張による希少物体検出の有効性について, 詳細な研究を行った。 nm10kデータセットのデータ、開発キット、さらに詳しい情報は、 \url{https://nullmax-vision.github.io} で入手できる。

Detection of rare objects (e.g., traffic cones, traffic barrels and traffic warning triangles) is an important perception task to improve the safety of autonomous driving. Training of such models typically requires a large number of annotated data which is expensive and time consuming to obtain. To address the above problem, an emerging approach is to apply data augmentation to automatically generate cost-free training samples. In this work, we propose a systematic study on simple Copy-Paste data augmentation for rare object detection in autonomous driving. Specifically, local adaptive instance-level image transformation is introduced to generate realistic rare object masks from source domain to the target domain. Moreover, traffic scene context is utilized to guide the placement of masks of rare objects. To this end, our data augmentation generates training data with high quality and realistic characteristics by leveraging both local and global consistency. In addition, we build a new dataset named NM10k consisting 10k training images, 4k validation images and the corresponding labels with a diverse range of scenarios in autonomous driving. Experiments on NM10k show that our method achieves promising results on rare object detection. We also present a thorough study to illustrate the effectiveness of our local-adaptive and global constraints based Copy-Paste data augmentation for rare object detection. The data, development kit and more information of NM10k dataset are available online at: \url{https://nullmax-vision.github.io}.
翻訳日:2022-05-03 15:18:50 公開日:2022-05-01
# UTC:視覚対話のためのタスク間コントラスト学習を備えた統一変換器

UTC: A Unified Transformer with Inter-Task Contrastive Learning for Visual Dialog ( http://arxiv.org/abs/2205.00423v1 )

ライセンス: Link先を確認
Cheng Chen, Yudong Zhu, Zhenshan Tan, Qingrong Cheng, Xin Jiang, Qun Liu, Xiaodong Gu(参考訳) visual dialogは、ダイアログ履歴と画像コンテンツに基づいて、マルチラウンド、インタラクティブな質問に答えることを目的としている。 既存の方法は、解答ランキングを考慮し、個別に生成するか、2つの異なるモデルによって暗黙的に2つのタスク間の関係を弱く捉えるだけである。 一つのモデルでランク付けと解答を共同で学習する普遍的な枠組みの研究はめったに行われない。 本稿では,視覚対話における識別的タスクと生成的タスクの両方を単一モデルで統一し,促進するための比較学習ベースのフレームワークutcを提案する。 具体的には,従来の学習パラダイムの固有の限界を考慮し,コンテクストコントラストロスと回答コントラストロスという2つのタスク間コントラストロスを考案し,識別的タスクと生成的タスクを相互に強化する。 これら2つの補完的コントラスト損失は、異なる視点から表現学習信号を提供するアンカーポイントとしてダイアログコンテキストとターゲット回答を利用する。 提案するutcをvisdial v1.0データセット上で評価し,本手法は判別処理と生成処理の両方において最先端を上回り,recall@1の2以上の絶対点を上回った。

Visual Dialog aims to answer multi-round, interactive questions based on the dialog history and image content. Existing methods either consider answer ranking and generating individually or only weakly capture the relation across the two tasks implicitly by two separate models. The research on a universal framework that jointly learns to rank and generate answers in a single model is seldom explored. In this paper, we propose a contrastive learning-based framework UTC to unify and facilitate both discriminative and generative tasks in visual dialog with a single model. Specifically, considering the inherent limitation of the previous learning paradigm, we devise two inter-task contrastive losses i.e., context contrastive loss and answer contrastive loss to make the discriminative and generative tasks mutually reinforce each other. These two complementary contrastive losses exploit dialog context and target answer as anchor points to provide representation learning signals from different perspectives. We evaluate our proposed UTC on the VisDial v1.0 dataset, where our method outperforms the state-of-the-art on both discriminative and generative tasks and surpasses previous state-of-the-art generative methods by more than 2 absolute points on Recall@1.
翻訳日:2022-05-03 15:18:29 公開日:2022-05-01
# ランダムな特徴を持つリッジレス回帰

Ridgeless Regression with Random Features ( http://arxiv.org/abs/2205.00477v1 )

ライセンス: Link先を確認
Jian Li, Yong Liu, Yingying Zhang(参考訳) 最近の理論的研究は、カーネルリッジレス回帰が明示的な正規化なしに優れた一般化能力を保証できることを示した。 本稿では,ランダムな特徴と確率的勾配降下を伴うリッジレス回帰の統計的性質について検討する。 確率勾配およびランダム特徴における因子の影響について検討する。 特に、ランダムな特徴の誤差は二重日光曲線を示す。 理論的な知見に動機づけられ,訓練中のカーネルのスペクトル密度を最適化する可変カーネルアルゴリズムを提案する。 我々の研究は補間理論と実用的なアルゴリズムを橋渡しする。

Recent theoretical studies illustrated that kernel ridgeless regression can guarantee good generalization ability without an explicit regularization. In this paper, we investigate the statistical properties of ridgeless regression with random features and stochastic gradient descent. We explore the effect of factors in the stochastic gradient and random features, respectively. Specifically, random features error exhibits the double-descent curve. Motivated by the theoretical findings, we propose a tunable kernel algorithm that optimizes the spectral density of kernel during training. Our work bridges the interpolation theory and practical algorithm.
翻訳日:2022-05-03 14:34:27 公開日:2022-05-01
# 深部対浅部学習:低マグニチュード地震検出におけるベンチマーク研究

Deep vs. Shallow Learning: A Benchmark Study in Low Magnitude Earthquake Detection ( http://arxiv.org/abs/2205.00525v1 )

ライセンス: Link先を確認
Akshat Goel and Denise Gorse(参考訳) 深層学習モデルは最近、地学において高い支持を集めており、最小処理された入力データから学ぶ能力に魅力があるが、ブラックボックスモデルのように、意思決定の到達方法を理解する簡単な手段を提供していないため、特に安全クリティカルなタスクでは問題となる可能性がある。 別のルートは、よりシンプルで透明なホワイトボックスモデルを使用することで、ディープラーニングモデル内で自動的に実行される不透明な機能発見プロセスをタスク固有の機能構築で置き換える。 オランダのグロニンゲンガス田のデータを用いて,catet22時系列分析パッケージでelastic net driven data miningを用いた4つの機能の追加により,既存のロジスティック回帰モデルを構築した。 次に,Groningenデータに基づいて事前学習したディープ(CNN)モデルに対する拡張ロジスティック回帰モデルの性能を,段階的に増加する雑音-信号比に基づいて評価する。 各割合でロジスティック回帰モデルが地震を正しく検出するのに対し、深層モデルでは地震の20%近くを検知できないため、特にノイズ対信号比の高いデータに対して、深層モデルの適用において少なくともある程度の注意が払われることが判明した。

While deep learning models have seen recent high uptake in the geosciences, and are appealing in their ability to learn from minimally processed input data, as black box models they do not provide an easy means to understand how a decision is reached, which in safety-critical tasks especially can be problematical. An alternative route is to use simpler, more transparent white box models, in which task-specific feature construction replaces the more opaque feature discovery process performed automatically within deep learning models. Using data from the Groningen Gas Field in the Netherlands, we build on an existing logistic regression model by the addition of four further features discovered using elastic net driven data mining within the catch22 time series analysis package. We then evaluate the performance of the augmented logistic regression model relative to a deep (CNN) model, pre-trained on the Groningen data, on progressively increasing noise-to-signal ratios. We discover that, for each ratio, our logistic regression model correctly detects every earthquake, while the deep model fails to detect nearly 20 % of seismic events, thus justifying at least a degree of caution in the application of deep models, especially to data with higher noise-to-signal ratios.
翻訳日:2022-05-03 14:32:59 公開日:2022-05-01
# 新型コロナウイルスの偽ニュースを検出するためのニューラルネットワーク精度向上手法としてのData Augmentationの利用

The use of Data Augmentation as a technique for improving neural network accuracy in detecting fake news about COVID-19 ( http://arxiv.org/abs/2205.00452v1 )

ライセンス: Link先を確認
Wilton O. J\'unior, Mauricio S. da Cruz, Andre Brasil Vieira Wyzykowski, Arnaldo Bispo de Jesus(参考訳) 本稿では,自然言語処理(NLP)とデータ拡張技術の適用により,ニューラルネットワークの性能が向上し,ポルトガル語における偽ニュースの検出が向上することを示す。 フェイクニュースは、過去10年間のインターネットの成長における主要な論争の1つだ。 事実と虚偽の検証は難しい作業であることが証明されているが、偽ニュースの拡散はずっと速く、その結果、事実と虚偽の検証プロセスを自動化して支援するツールの開発が必要になる。 解決策をもたらすために、ニューズ、リアル、フェイクを使ったニューラルネットワークによる実験が開発されたが、人工知能(AI)では見られなかった。 上記の手法を適用した後,ニュース分類において顕著な性能を示した。

This paper aims to present how the application of Natural Language Processing (NLP) and data augmentation techniques can improve the performance of a neural network for better detection of fake news in the Portuguese language. Fake news is one of the main controversies during the growth of the internet in the last decade. Verifying what is fact and what is false has proven to be a difficult task, while the dissemination of false news is much faster, which leads to the need for the creation of tools that, automated, assist in the process of verification of what is fact and what is false. In order to bring a solution, an experiment was developed with neural network using news, real and fake, which were never seen by artificial intelligence (AI). There was a significant performance in the news classification after the application of the mentioned techniques.
翻訳日:2022-05-03 14:28:26 公開日:2022-05-01
# テキストに基づく因果推論における治療漏れの概念化

Conceptualizing Treatment Leakage in Text-based Causal Inference ( http://arxiv.org/abs/2205.00465v1 )

ライセンス: Link先を確認
Adel Daoud and Connor T. Jerzak and Richard Johansson(参考訳) テキストベースの共同設立者を管理する因果推論手法は、テキストが容易に利用できる社会科学やその他の分野においてますます重要になっている。 しかし、これらの方法は治療の漏れがないという批判的な仮定に依存している:すなわち、テキストには共同設立者に関する情報のみが含まれ、治療の割り当てに関する情報は含まれない。 この仮定が成立しない場合、共同ファウンダーのためにテキストを調整するための制御を行う手法は、後処理(コライダー)バイアスの問題に直面します。 しかし、人間の言語が豊かで柔軟であるため、テキストを含む現実の状況では、治療漏れがないという仮定は非現実的かもしれない。 公的政策文書又は健康記録に現れる言語は、同時に未来と過去を指して、治療課題に関する情報を明らかにすることができる。 本稿では, 治療-リード・カウンセリング問題を定義し, 同一性, 推定課題について考察する。 第2に, テキストから処理関連信号を除去することにより, リークに対処できる条件を, テキスト蒸留として定義する前処理ステップで記述する。 最後に, シミュレーションを用いて, 平均治療効果 (ate) の推定における治療漏れのバイアスと, テキスト蒸留によるバイアス軽減効果を示す。

Causal inference methods that control for text-based confounders are becoming increasingly important in the social sciences and other disciplines where text is readily available. However, these methods rely on a critical assumption that there is no treatment leakage: that is, the text only contains information about the confounder and no information about treatment assignment. When this assumption does not hold, methods that control for text to adjust for confounders face the problem of post-treatment (collider) bias. However, the assumption that there is no treatment leakage may be unrealistic in real-world situations involving text, as human language is rich and flexible. Language appearing in a public policy document or health records may refer to the future and the past simultaneously, and thereby reveal information about the treatment assignment. In this article, we define the treatment-leakage problem, and discuss the identification as well as the estimation challenges it raises. Second, we delineate the conditions under which leakage can be addressed by removing the treatment-related signal from the text in a pre-processing step we define as text distillation. Lastly, using simulation, we show how treatment leakage introduces a bias in estimates of the average treatment effect (ATE) and how text distillation can mitigate this bias.
翻訳日:2022-05-03 14:28:13 公開日:2022-05-01
# ニューラルマシン翻訳のための近接近傍知識蒸留

Nearest Neighbor Knowledge Distillation for Neural Machine Translation ( http://arxiv.org/abs/2205.00479v1 )

ライセンス: Link先を確認
Zhixian Yang, Renliang Sun, Xiaojun Wan(参考訳) k-nearest-neighbor machine translation (NN-MT) は Khandelwal et al. (2021) によって提案され、機械翻訳タスクにおいて多くの最先端の結果を得た。 NN-MTは実効性はあるものの、推論中の各デコードステップごとに大規模なデータストアを通じてNN検索を実行する必要があるため、デコードコストが著しく増加し、現実世界のアプリケーションへのデプロイが困難になる。 本稿では,時間を要するNN検索を前処理フェーズに移動させ,次に,NNの知識を直接学習するためのベースNMTモデルをトレーニングするNearest Neighbor Knowledge Distillation(NN-KD)を導入することを提案する。 NNが取得した知識を蒸留することで、NMTモデルはより合理的な目標トークンを考慮に入れ、オーバーコレクション問題に対処することができる。 その結果,提案手法はNN-MTを含む最先端のベースラインに対して一貫した改善を実現し,標準NMTモデルと同じトレーニングおよび復号速度を維持した。

k-nearest-neighbor machine translation (NN-MT), proposed by Khandelwal et al. (2021), has achieved many state-of-the-art results in machine translation tasks. Although effective, NN-MT requires conducting NN searches through the large datastore for each decoding step during inference, prohibitively increasing the decoding cost and thus leading to the difficulty for the deployment in real-world applications. In this paper, we propose to move the time-consuming NN search forward to the preprocessing phase, and then introduce Nearest Neighbor Knowledge Distillation (NN-KD) that trains the base NMT model to directly learn the knowledge of NN. Distilling knowledge retrieved by NN can encourage the NMT model to take more reasonable target tokens into consideration, thus addressing the overcorrection problem. Extensive experimental results show that, the proposed method achieves consistent improvement over the state-of-the-art baselines including NN-MT, while maintaining the same training and decoding speed as the standard NMT model.
翻訳日:2022-05-03 14:26:39 公開日:2022-05-01
# 論理的制約を伴うディープラーニング

Deep Learning with Logical Constraints ( http://arxiv.org/abs/2205.00523v1 )

ライセンス: Link先を確認
Eleonora Giunchiglia, Mihaela Catalina Stoian, Thomas Lukasiewicz(参考訳) 近年、神経モデルを得るために論理的に特定された背景知識を活用しようという関心が高まっている。 (i)パフォーマンスが良い。 (ii)少ないデータから学ぶことができること、又は (iii) 安全クリティカルなアプリケーションなど、バックグラウンド知識自体に準拠することが保証されている。 本調査では,これらの作品を追跡し,分類する。 (i)背景知識を表現するのに使用する論理言語 (ii)彼らが達成した目標。

In recent years, there has been an increasing interest in exploiting logically specified background knowledge in order to obtain neural models (i) with a better performance, (ii) able to learn from less data, and/or (iii) guaranteed to be compliant with the background knowledge itself, e.g., for safety-critical applications. In this survey, we retrace such works and categorize them based on (i) the logical language that they use to express the background knowledge and (ii) the goals that they achieve.
翻訳日:2022-05-03 13:53:33 公開日:2022-05-01
# etms@iitkgp at semeval-2022 task 10: 生成的アプローチによる構造化感情分析

ETMS@IITKGP at SemEval-2022 Task 10: Structured Sentiment Analysis Using A Generative Approach ( http://arxiv.org/abs/2205.00440v1 )

ライセンス: Link先を確認
Raghav R, Adarsh Vemali, Rajdeep Mukherjee(参考訳) 構造化感性分析(SSA)は、各タプル(h,e,t,p)がhと、感情表現eを介して目標tに向かって感情極性pを表現するホルダーとからなるテキスト中の意見タプルを抽出する。 本論文では,SSAの共有タスクであるSemEval2022を解くための新しい統合生成手法を提案する。 我々は,BARTベースのエンコーダデコーダアーキテクチャを活用し,文,意見タプル列を生成するのに適した修正を行う。 各生成タプルは、それぞれホルダ、目標、および表現スパンの開始位置および終了位置に対応するインデックスを表す7つの整数からなり、その後、ターゲットと感情表現に関連付けられた感情極性クラスが続く。 我々はモノリンガルサブタスクとクロスランガルサブタスクの両方に対して厳格な実験を行い、両方の設定でリーダーボード上で競合するセンティメントF1スコアを達成する。

Structured Sentiment Analysis (SSA) deals with extracting opinion tuples in a text, where each tuple (h, e, t, p) consists of h, the holder, who expresses a sentiment polarity p towards a target t through a sentiment expression e. While prior works explore graph-based or sequence labeling-based approaches for the task, we in this paper present a novel unified generative method to solve SSA, a SemEval2022 shared task. We leverage a BART-based encoder-decoder architecture and suitably modify it to generate, given a sentence, a sequence of opinion tuples. Each generated tuple consists of seven integers respectively representing the indices corresponding to the start and end positions of the holder, target, and expression spans, followed by the sentiment polarity class associated between the target and the sentiment expression. We perform rigorous experiments for both Monolingual and Cross-lingual subtasks, and achieve competitive Sentiment F1 scores on the leaderboard in both settings.
翻訳日:2022-05-03 13:26:28 公開日:2022-05-01
# トランスフォーマーとTF-IDFによるCOVID-19陰謀理論の検出

Detecting COVID-19 Conspiracy Theories with Transformers and TF-IDF ( http://arxiv.org/abs/2205.00377v1 )

ライセンス: Link先を確認
Haoming Guo, Tianyi Huang, Huixuan Huang, Mingyue Fan, Gerald Friedland(参考訳) ソーシャルメディア上でのフェイクニュースや陰謀説の共有は、幅広いネガティブな影響がある。 異なる機械学習モデルの設計と適用によって、研究者はテキストから偽ニュースを検出することに進歩した。 しかし、既存の研究は一般的な、常識的なフェイクニュースに重点を置いているが、実際にはフェイクニュースには、トピックやドメイン固有の語彙が急速に変化することが多い。 本稿では,memeval benchmark 2021において,covid-19関連トピックを対象とする3つの偽ニュース検出タスクの手法と結果について述べる。 我々は,Support Vector Machines,Random Forest,BERT,RoBERTaなどのテキストベースモデル群を実験した。 事前学習した変圧器は最高の検証結果が得られるが、スマートデザインのランダム初期化変圧器は、事前学習した変圧器に近い精度に達するように訓練することもできる。

The sharing of fake news and conspiracy theories on social media has wide-spread negative effects. By designing and applying different machine learning models, researchers have made progress in detecting fake news from text. However, existing research places a heavy emphasis on general, common-sense fake news, while in reality fake news often involves rapidly changing topics and domain-specific vocabulary. In this paper, we present our methods and results for three fake news detection tasks at MediaEval benchmark 2021 that specifically involve COVID-19 related topics. We experiment with a group of text-based models including Support Vector Machines, Random Forest, BERT, and RoBERTa. We find that a pre-trained transformer yields the best validation results, but a randomly initialized transformer with smart design can also be trained to reach accuracies close to that of the pre-trained transformer.
翻訳日:2022-05-03 13:22:15 公開日:2022-05-01
# 文書レベル関係抽出のためのクラスランキングロス

None Class Ranking Loss for Document-Level Relation Extraction ( http://arxiv.org/abs/2205.00476v1 )

ライセンス: Link先を確認
Yang Zhou and Wee Sun Lee(参考訳) 文書レベルの関係抽出(RE)は,複数の文にまたがって表現されるエンティティ間の関係を抽出することを目的とする。 典型的な文書では、ほとんどの実体対は事前定義された関係を表現せず、"none" や "no relation" とラベル付けされる。 ドキュメントレベルの優れたリパフォーマンスには、そのような \textit{none} クラスインスタンス(エンティティペア)と事前定義されたクラス(リレーション)のインスタンスを区別することが不可欠である。 しかし、既存のほとんどの手法は「非関係」の確率を考慮せずに、事前定義された関係の確率を独立に見積もるだけである。 これはエンティティペアのコンテキストを無視し、非クラスと事前定義されたクラス間のラベル相関を無視し、サブ最適化予測につながる。 この問題に対処するために,ラベルの信頼度スコアを事前に定義した各クラスとノークラスの間で大きめの‘textit{margins}’を奨励する新たなマルチラベル損失を提案する。 実世界の再データセットに現れる正負の不均衡や誤ラベルデータに対するさらなる堅牢性を得るために,マージン正規化とマージンシフト手法を提案する。 実験結果から,本手法は文書レベルREにおける既存のマルチラベル損失を著しく上回り,クラスインスタンスをトレーニングできない場合の感情分類など,他のマルチラベルタスクでも有効であることが示された。

Document-level relation extraction (RE) aims at extracting relations among entities expressed across multiple sentences, which can be viewed as a multi-label classification problem. In a typical document, most entity pairs do not express any pre-defined relation and are labeled as "none" or "no relation". For good document-level RE performance, it is crucial to distinguish such \textit{none} class instances (entity pairs) from those of pre-defined classes (relations). However, most existing methods only estimate the probability of pre-defined relations independently without considering the probability of "no relation". This ignores the context of entity pairs and the label correlations between the none class and pre-defined classes, leading to sub-optimal predictions. To address this problem, we propose a new multi-label loss that encourages large \textit{margins} of label confidence scores between each pre-defined class and the none class, which enables captured label correlations and context-dependent thresholding for label prediction. To gain further robustness against positive-negative imbalance and mislabeled data that could appear in real-world RE datasets, we propose a margin regularization and a margin shifting technique. Experimental results demonstrate that our method significantly outperforms existing multi-label losses for document-level RE and works well in other multi-label tasks such as emotion classification when none class instances are available for training.
翻訳日:2022-05-03 13:20:54 公開日:2022-05-01
# TinyLight: 限られたリソースを持つデバイス上での適応的な交通信号制御

TinyLight: Adaptive Traffic Signal Control on Devices with Extremely Limited Resources ( http://arxiv.org/abs/2205.00427v1 )

ライセンス: Link先を確認
Dong Xing, Qian Zheng, Qianhui Liu, Gang Pan(参考訳) 近年の深部強化学習(DRL)は,適応信号制御(ATSC)の性能向上に大きく寄与している。 しかし、実装に関して言えば、ほとんどの作業はストレージと計算の点で煩雑である。 これにより、リソースが制限されたシナリオへのデプロイが妨げられる。 本稿では,リソースが極めて少ないデバイス向けに設計された最初のdrlベースのatscモデルであるtinylightを提案する。 tinylightはまず、豊富な候補機能セットと軽量ネットワークブロックのグループを関連付けるスーパーグラフを構築する。 そして,資源消費を減らすために,新たなエントロピー最小化対象関数により,スーパーグラフのエッジを自動的に吸収する。 これにより、tinylightは2kb ramと32kb romしか持たないスタンドアロンのマイクロコントローラで作業できる。 現実の交通需要のある複数の道路網上でTinyLightを評価する。 実験によると、非常に限られた資源でもtinylightは依然として競争力のある性能を達成している。 この研究のソースコードと付録は \url{https://bit.ly/38hH8t8} にある。

Recent advances in deep reinforcement learning (DRL) have largely promoted the performance of adaptive traffic signal control (ATSC). Nevertheless, regarding the implementation, most works are cumbersome in terms of storage and computation. This hinders their deployment on scenarios where resources are limited. In this work, we propose TinyLight, the first DRL-based ATSC model that is designed for devices with extremely limited resources. TinyLight first constructs a super-graph to associate a rich set of candidate features with a group of light-weighted network blocks. Then, to diminish the model's resource consumption, we ablate edges in the super-graph automatically with a novel entropy-minimized objective function. This enables TinyLight to work on a standalone microcontroller with merely 2KB RAM and 32KB ROM. We evaluate TinyLight on multiple road networks with real-world traffic demands. Experiments show that even with extremely limited resources, TinyLight still achieves competitive performance. The source code and appendix of this work can be found at \url{https://bit.ly/38hH8t8}.
翻訳日:2022-05-03 13:19:26 公開日:2022-05-01
# あなたの毒性は私の毒性か? 毒性アノテーションに対するラターアイデンティティの影響を探る

Is Your Toxicity My Toxicity? Exploring the Impact of Rater Identity on Toxicity Annotation ( http://arxiv.org/abs/2205.00501v1 )

ライセンス: Link先を確認
Nitesh Goyal, Ian Kivlichan, Rachel Rosen, Lucy Vasserman(参考訳) 機械学習モデルは、オンライン会話における毒性を検出するために一般的に使用される。 これらのモデルは、人間がアノテートしたデータセットに基づいて訓練される。 我々は、ラッカーの自己記述されたアイデンティティがオンラインコメントの毒性にどう影響するかを調査する。 まず,利率プールの概念を定義した。利率プールはランダムではなく,利率者の自己記述されたアイデンティティに基づいて形成される。 本研究は、アフリカ系アメリカ人、LGBTQ、およびその両方を識別する米国からのレイパーのプールを特別化した3つのレーラープールを構築した。 これらのraterプールは、同じコメントセットにアノテートされ、これらのアイデンティティグループへの多くの参照が含まれている。 私たちは、パーサーのアイデンティティが、パーサーがアイデンティティに関連したアノテーションに対して毒性を注釈する方法において、統計的に重要な要因であることを見出しました。 予備的コンテンツ分析を用いて,raterプール間の不一致が最も多いコメントを調査し,有毒性アノテーションの微妙な差異を見いだした。 次に、さまざまなraterプールのアノテーションのモデルをトレーニングし、これらのモデルのスコアをいくつかのテストセットのコメントで比較した。 最後に、コメントの主題と自己識別するラガーを用いて、より包括的な機械学習モデルを作成し、ランダムなラガーよりも詳細なレーティングを提供する方法について論じる。

Machine learning models are commonly used to detect toxicity in online conversations. These models are trained on datasets annotated by human raters. We explore how raters' self-described identities impact how they annotate toxicity in online comments. We first define the concept of specialized rater pools: rater pools formed based on raters' self-described identities, rather than at random. We formed three such rater pools for this study--specialized rater pools of raters from the U.S. who identify as African American, LGBTQ, and those who identify as neither. Each of these rater pools annotated the same set of comments, which contains many references to these identity groups. We found that rater identity is a statistically significant factor in how raters will annotate toxicity for identity-related annotations. Using preliminary content analysis, we examined the comments with the most disagreement between rater pools and found nuanced differences in the toxicity annotations. Next, we trained models on the annotations from each of the different rater pools, and compared the scores of these models on comments from several test sets. Finally, we discuss how using raters that self-identify with the subjects of comments can create more inclusive machine learning models, and provide more nuanced ratings than those by random raters.
翻訳日:2022-05-03 12:46:11 公開日:2022-05-01
# ドメイン適応は個別の公平性を満たす。 そして彼らは仲良くなる

Domain Adaptation meets Individual Fairness. And they get along ( http://arxiv.org/abs/2205.00504v1 )

ライセンス: Link先を確認
Debarghya Mukherjee, Felix Petersen, Mikhail Yurochkin, Yuekai Sun(参考訳) アルゴリズムバイアスの多くの例は分布シフトによって引き起こされる。 例えば、機械学習(ML)モデルは、トレーニングデータに不足している人口統計群に対して、しばしば悪化する。 本稿では,アルゴリズムフェアネスと分布シフトの関係を利用して,アルゴリズムフェアネスの介入が分布シフトを克服し,ドメイン適応手法(分布シフトを克服する)がアルゴリズムバイアスを軽減することを示す。 特に私たちが示すのは 一 個人公正(IF)の適切な概念を強制することにより、MLモデルの分布外精度を向上させることができる。 (二)ドメイン適応のための表現アライメント手法を適用して(個人的)公正性を適用することができる。 前者は、分布シフトを念頭に置いて介入が行われなかった場合、予想外である。 表現アライメントはIF文献では一般的ではないため、後者も予想外である。

Many instances of algorithmic bias are caused by distributional shifts. For example, machine learning (ML) models often perform worse on demographic groups that are underrepresented in the training data. In this paper, we leverage this connection between algorithmic fairness and distribution shifts to show that algorithmic fairness interventions can help ML models overcome distribution shifts, and that domain adaptation methods (for overcoming distribution shifts) can mitigate algorithmic biases. In particular, we show that (i) enforcing suitable notions of individual fairness (IF) can improve the out-of-distribution accuracy of ML models, and that (ii) it is possible to adapt representation alignment methods for domain adaptation to enforce (individual) fairness. The former is unexpected because IF interventions were not developed with distribution shifts in mind. The latter is also unexpected because representation alignment is not a common approach in the IF literature.
翻訳日:2022-05-03 12:45:51 公開日:2022-05-01
# (参考訳) Anomaly-Aware Bidirectional GANを用いた不完全異常知識の活用による異常検出

Anomaly Detection by Leveraging Incomplete Anomalous Knowledge with Anomaly-Aware Bidirectional GANs ( http://arxiv.org/abs/2204.13335v2 )

ライセンス: CC BY 4.0
Bowen Tian, Qinliang Su, Jian Yin(参考訳) 異常検出の目標は、正常なサンプルから異常なサンプルを特定することである。 本稿では,訓練段階では少数の異常が存在すると仮定するが,いくつかの異常タイプのみから収集されると仮定し,収集された異常データセットには表示されない異常タイプが多数残されている。 収集された異常を表わすこの種の不完全異常知識を効果的に活用するために,正規サンプルをモデル化できるだけでなく,収集異常に対して低い密度値を割り当てることを保証する確率分布を学習する。 この目的のために,gan(anomaly-ware generative adversarial network)が開発され,通常のサンプルのモデル化に加えて,収集された異常サンプルの確率の割り当てを明示的に回避することができる。 さらに, 再構成誤差などの異常検出基準の計算を容易にするため, 提案した異常認識型GANを双方向に設計し, 発電機のエンコーダを付加する。 実験結果から,提案手法は不完全な異常情報を効果的に利用でき,既存の手法と比較して高い性能向上が得られた。

The goal of anomaly detection is to identify anomalous samples from normal ones. In this paper, a small number of anomalies are assumed to be available at the training stage, but they are assumed to be collected only from several anomaly types, leaving the majority of anomaly types not represented in the collected anomaly dataset at all. To effectively leverage this kind of incomplete anomalous knowledge represented by the collected anomalies, we propose to learn a probability distribution that can not only model the normal samples, but also guarantee to assign low density values for the collected anomalies. To this end, an anomaly-aware generative adversarial network (GAN) is developed, which, in addition to modeling the normal samples as most GANs do, is able to explicitly avoid assigning probabilities for collected anomalous samples. Moreover, to facilitate the computation of anomaly detection criteria like reconstruction error, the proposed anomaly-aware GAN is designed to be bidirectional, attaching an encoder for the generator. Extensive experimental results demonstrate that our proposed method is able to effectively make use of the incomplete anomalous information, leading to significant performance gains compared to existing methods.
翻訳日:2022-05-03 12:21:20 公開日:2022-05-01