このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211009となっている論文です。

PDF登録状況(公開日: 20211009)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 多重ラベル分類のためのゲートリカレント単位と時間畳み込みネットワーク [全文訳有]

Gated recurrent units and temporal convolutional network for multilabel classification ( http://arxiv.org/abs/2110.04414v1 )

ライセンス: CC BY 4.0
Loris Nanni, Alessandra Lumini, Alessandro Manfe, Sheryl Brahnam and Giorgio Venturin(参考訳) マルチラベル学習は、サンプルと複数のクラスラベルを関連付ける問題に取り組む。 本研究は,マルチラベル分類を管理するための新しいアンサンブル手法を提案する。提案手法のコアは,ゲートリカレント単位と時間畳み込みニューラルネットワークのセットと,adam最適化手法の変種を組み合わせたものである。 これらの変異は、現在の勾配と過去の勾配の違いに基づいており、それぞれのパラメータに対してステップサイズが調整されている。 提案されたニューラルネットワークアプローチは、さらに分類性能を高めるために、Incorporating Multiple Clustering Centers (IMCC)と組み合わせられている。 多様なマルチラベルタスクを表現する9つのデータセットに関する複数の実験は、最高のアンサンブルの堅牢性を示しています。 実験セクションで最高のアンサンブルを生成するためのMATLABコードはhttps://github.com/L orisNanni.comで入手できる。

Multilabel learning tackles the problem of associating a sample with multiple class labels. This work proposes a new ensemble method for managing multilabel classification: the core of the proposed approach combines a set of gated recurrent units and temporal convolutional neural networks trained with variants of the Adam optimization approach. Multiple Adam variants, including novel one proposed here, are compared and tested; these variants are based on the difference between present and past gradients, with step size adjusted for each parameter. The proposed neural network approach is also combined with Incorporating Multiple Clustering Centers (IMCC), which further boosts classification performance. Multiple experiments on nine data sets representing a wide variety of multilabel tasks demonstrate the robustness of our best ensemble, which is shown to outperform the state-of-the-art. The MATLAB code for generating the best ensembles in the experimental section will be available at https://github.com/L orisNanni.
翻訳日:2021-10-17 06:02:00 公開日:2021-10-09
# (参考訳) xception-1dを用いたエンドツーエンドキーワードスポッティング [全文訳有]

End-to-end Keyword Spotting using Xception-1d ( http://arxiv.org/abs/2110.07498v1 )

ライセンス: CC BY-SA 4.0
Iv\'an Vall\'es-P\'erez, Juan G\'omez-Sanchis, Marcelino Mart\'inez-Sober, Joan Vila-Franc\'es, Antonio J. Serrano-L\'opez, Emilio Soria-Olivas(参考訳) 会話エージェントの分野は急速に成長しており、自然な相互作用を高めるアルゴリズムの必要性が高まっている。 本稿では,複数のコンピュータビジョンタスクにおいて優れた結果を得たxceptionアルゴリズムを適応・調整することにより,キーワードスポッティングフィールドにおける技術結果の達成方法を示す。 提案する最も複雑なタスクにおいて,35のカテゴリーに属する音声クリップを分類する場合,約96\%の精度を得た。

The field of conversational agents is growing fast and there is an increasing need for algorithms that enhance natural interaction. In this work we show how we achieved state of the art results in the Keyword Spotting field by adapting and tweaking the Xception algorithm, which achieved outstanding results in several computer vision tasks. We obtained about 96\% accuracy when classifying audio clips belonging to 35 different categories, beating human annotation at the most complex tasks proposed.
翻訳日:2021-10-17 05:43:58 公開日:2021-10-09
# (参考訳) ロボットによるモラル・トラスト・ヴァイオレーションとパフォーマンス・トラスト・ヴァイオレーション:どちらが長くなるか? [全文訳有]

Moral-Trust Violation vs Performance-Trust Violation by a Robot: Which Hurts More? ( http://arxiv.org/abs/2110.04418v1 )

ライセンス: CC BY 4.0
Zahra Rezaei Khavas, Russell Perkins, S.Reza Ahmadzadeh, Paul Robinette(参考訳) 近年、UllmanらによってHRI(Human-robot Interaction)の信頼の概念が導入された。 通称『Ullman2018does』。 信頼の新たな概念化は、人間とロボットの信頼が多次元であり、パフォーマンスの側面(人間-自律的相互作用の信頼と類似)と道徳的側面(人間-人間間の相互作用の信頼と類似)の両方を組み込んでいることを示唆した。 しかし、これらの異なる信頼のそれぞれに違反するロボットは、ロボットに対する人間の信頼にどのように影響するのか? ロボットがモラル・トラスト違反を犯す場合、パフォーマンス・トラスト違反と比較してロボットに対する信頼はどのように変化するのか? そして、生理的信号が、人間のこれら2つの信頼面の利得/損失を評価するために使われる可能性があるかどうか。 我々は,探索救助作業において,パフォーマンストラスト違反とモラルトラスト違反を別々に検討する実験を設計することを目的とする。 1つの失敗がパフォーマンストラスト違反によるもので、もう1つの失敗がモラルトラスト違反である場合、同じ大きさのロボットの2つの失敗が人間の信頼に異なる影響を与えるかどうかを確認したい。

In recent years a modern conceptualization of trust in human-robot interaction (HRI) was introduced by Ullman et al.\cite{ullman2018does}. This new conceptualization of trust suggested that trust between humans and robots is multidimensional, incorporating both performance aspects (i.e., similar to the trust in human-automation interaction) and moral aspects (i.e., similar to the trust in human-human interaction). But how does a robot violating each of these different aspects of trust affect human trust in a robot? How does trust in robots change when a robot commits a moral-trust violation compared to a performance-trust violation? And whether physiological signals have the potential to be used for assessing gain/loss of each of these two trust aspects in a human. We aim to design an experiment to study the effects of performance-trust violation and moral-trust violation separately in a search and rescue task. We want to see whether two failures of a robot with equal magnitudes would affect human trust differently if one failure is due to a performance-trust violation and the other is a moral-trust violation.
翻訳日:2021-10-17 05:37:32 公開日:2021-10-09
# (参考訳) オンライン会話におけるコミュニティセンシティブノーム違反の検出 [全文訳有]

Detecting Community Sensitive Norm Violations in Online Conversations ( http://arxiv.org/abs/2110.04419v1 )

ライセンス: CC BY 4.0
Chan Young Park, Julia Mendelsohn, Karthik Radhakrishnan, Kinjal Jain, Tushar Kanakagiri, David Jurgens, Yulia Tsvetkov(参考訳) オンラインプラットフォームとコミュニティは、コミュニティ内で受け入れられる行動を決定する独自の規範を確立します。 NLPの実質的な取り組みは、受け入れられない行動の特定と、最近はそれらが起こる前に予測することに集中している。 しかし、これらの取り組みは、コミュニティ規範違反の唯一の形態として毒性に主に焦点を合わせてきた。 このような焦点は、モデレーターが強制するはるかに大きなルールセットを見落としている。 ここでは,コミュニティ規範のより完全なスペクトルと,その違反に焦点をあてた新しいデータセットを,地域対話型およびグローバルコミュニティのコンテキストで紹介する。 本稿では,このデータを用いて,コンテクストやコミュニティに敏感な規範違反の検出を行う一連のモデルを紹介し,これらの変化が高いパフォーマンスをもたらすことを示す。

Online platforms and communities establish their own norms that govern what behavior is acceptable within the community. Substantial effort in NLP has focused on identifying unacceptable behaviors and, recently, on forecasting them before they occur. However, these efforts have largely focused on toxicity as the sole form of community norm violation. Such focus has overlooked the much larger set of rules that moderators enforce. Here, we introduce a new dataset focusing on a more complete spectrum of community norms and their violations in the local conversational and global community contexts. We introduce a series of models that use this data to develop context- and community-sensitive norm violation detection, showing that these changes give high performance.
翻訳日:2021-10-17 05:30:36 公開日:2021-10-09
# (参考訳) DeepABM:グラフニューラルネットワークによるスケーラブルで効率的で差別化可能なエージェントベースシミュレーション [全文訳有]

DeepABM: Scalable, efficient and differentiable agent-based simulations via graph neural networks ( http://arxiv.org/abs/2110.04421v1 )

ライセンス: CC BY 4.0
Ayush Chopra, Esma Gel, Jayakumar Subramanian, Balaji Krishnamurthy, Santiago Romero-Brufau, Kalyan S. Pasupathy, Thomas C. Kingsley, Ramesh Raskar(参考訳) 我々は,グラフニューラルネットワークの幾何学的メッセージパッシングを利用したエージェントベースモデリングのためのフレームワークであるDeepABMを紹介した。 DeepABMを使用することで、大規模なエージェント集団をリアルタイムでスケーリングし、GPUアーキテクチャ上で効率的に実行することが可能になる。 deepabmの有効性を示すために,我々は,新型コロナウイルス(covid-19)パンデミックに対するさまざまな非薬剤的介入(検疫,暴露通知,ワクチン接種,検査)のサポートを提供するために,deepabm-covidシミュレータを構築した。 具体的には、DeepABM-COVIDは90秒で2億件のインタラクション(180のタイムステップにまたがる10万件以上のエージェント)をモデル化し、研究者が様々な介入のモデリングと分析を行うのを助けるためにオンラインで公開されている。 このフレームワークの様々な構成要素を説明し、臨床および公衆衛生の専門家と共同で、COVID-19ワクチンの第2回投与を遅らせる影響を評価するための研究結果について述べる。 新型コロナウイルスの拡散をシミュレートする一方で、論文で紹介されたアイデアは汎用的で、他のエージェントベースのシミュレーションにも容易に拡張できる。 さらに、この文書の範囲を超えて、deepabmは、大規模実世界(macro)データを用いた勾配に基づく最適化を用いて、(マイクロ)シミュレーションにおける物理パラメータの学習に使用できる逆エージェントベースのシミュレーションを可能にする。 ABMとAIコミュニティを近づけるために、現在の作業が興味深い意味を持つ可能性があると楽観視しています。

We introduce DeepABM, a framework for agent-based modeling that leverages geometric message passing of graph neural networks for simulating action and interactions over large agent populations. Using DeepABM allows scaling simulations to large agent populations in real-time and running them efficiently on GPU architectures. To demonstrate the effectiveness of DeepABM, we build DeepABM-COVID simulator to provide support for various non-pharmaceutical interventions (quarantine, exposure notification, vaccination, testing) for the COVID-19 pandemic, and can scale to populations of representative size in real-time on a GPU. Specifically, DeepABM-COVID can model 200 million interactions (over 100,000 agents across 180 time-steps) in 90 seconds, and is made available online to help researchers with modeling and analysis of various interventions. We explain various components of the framework and discuss results from one research study to evaluate the impact of delaying the second dose of the COVID-19 vaccine in collaboration with clinical and public health experts. While we simulate COVID-19 spread, the ideas introduced in the paper are generic and can be easily extend to other forms of agent-based simulations. Furthermore, while beyond scope of this document, DeepABM enables inverse agent-based simulations which can be used to learn physical parameters in the (micro) simulations using gradient-based optimization with large-scale real-world (macro) data. We are optimistic that the current work can have interesting implications for bringing ABM and AI communities closer.
翻訳日:2021-10-17 05:05:59 公開日:2021-10-09
# (参考訳) BAVEDデータセットに基づく Wav2vec2.0 と HuBERT を用いたアラビア音声感情認識 [全文訳有]

Arabic Speech Emotion Recognition Employing Wav2vec2.0 and HuBERT Based on BAVED Dataset ( http://arxiv.org/abs/2110.04425v1 )

ライセンス: CC BY 4.0
Omar Mohamed and Salah A. Aly(参考訳) 近年,音声認識や自然言語処理の分野では,大きな研究成果が報告されている。 これは、より優れた表現学習と高情報キャプチャを提供する、wav2vec2.0、Wav2vecU、WavBERT、HuBERTといった、よく開発された多層ディープラーニングパラダイムによるものである。 このようなパラダイムは数百のラベルのないデータ上で実行され、特定のタスクのために小さなデータセットで微調整される。 本稿では,アラビア語音声対話のための深層学習構築型感情認識モデルを提案する。 開発モデルは、wav2vec2.0 や HuBERT といったアートオーディオ表現の状態を取り入れている。 我々のモデルの実験と性能は、以前の既知の結果を克服する。

Recently, there have been tremendous research outcomes in the fields of speech recognition and natural language processing. This is due to the well-developed multi-layers deep learning paradigms such as wav2vec2.0, Wav2vecU, WavBERT, and HuBERT that provide better representation learning and high information capturing. Such paradigms run on hundreds of unlabeled data, then fine-tuned on a small dataset for specific tasks. This paper introduces a deep learning constructed emotional recognition model for Arabic speech dialogues. The developed model employs the state of the art audio representations include wav2vec2.0 and HuBERT. The experiment and performance results of our model overcome the previous known outcomes.
翻訳日:2021-10-17 04:42:03 公開日:2021-10-09
# (参考訳) 対象と項目のグループマッチングアルゴリズム [全文訳有]

Group-matching algorithms for subjects and items ( http://arxiv.org/abs/2110.04432v1 )

ライセンス: CC BY 4.0
G\'eza Kiss and Kyle Gorman and Jan P.H. van Santen(参考訳) 複数の共変量に対する平均値に関して、結果群が統計的に類似しているようなマッチング群を構成する問題を考える。 このグループマッチング問題は、従来のペアマッチングアプローチが不適切であるシナリオである既存のグループから被験者やアイテムをサンプリングする準実験的および観察的な研究を含む、多くのケースで発生する。 既存のサンプルが提供され、任意の統計的に定義された基準に従って群が「一致する」ように、サンプルを反復的に取り除く場合を考える。 この問題はNPハードである。 しかし,ldamatchパッケージによって実装されたヒューリスティックは,人工的および実世界のデータセットを用いて高品質なマッチングを生成する。

We consider the problem of constructing matched groups such that the resulting groups are statistically similar with respect to their average values for multiple covariates. This group-matching problem arises in many cases, including quasi-experimental and observational studies in which subjects or items are sampled from pre-existing groups, scenarios in which traditional pair-matching approaches may be inappropriate. We consider the case in which one is provided with an existing sample and iteratively eliminates samples so that the groups "match" according to arbitrary statistically-define d criteria. This problem is NP-hard. However, using artificial and real-world data sets, we show that heuristics implemented by the ldamatch package produce high-quality matches.
翻訳日:2021-10-17 04:34:40 公開日:2021-10-09
# (参考訳) 知識に基づく医療診断エキスパートシステムに関する研究 [全文訳有]

Research on Knowledge based Expert System for Medical Diagnosis ( http://arxiv.org/abs/2110.04439v1 )

ライセンス: CC0 1.0
Xin Huang, Xuejiao Tang and Wenbin Zhang(参考訳) 本稿では,いくつかの症状や徴候から疾患を識別する汎用医療知識ベースシステム(MKBS)の設計と実装を提案する。 疾患を診断するために、ユーザーは異なる質問をシステムから尋ねられ、最後に推論エンジンは確実性を使って、低い解決策を創出する。 このシステムでは、知識ベースシステム、知識表現、推論エンジンといった重要な側面が対処されている。 同じ発射規則に関する結論を得るために、新たな確実な事実が導入された。 提案する疾患診断システムは、グラフィカルユーザインタフェースを用いて、より容易に専門家システムと対話できるようにする。 提案システムは汎用的で知識ベースであり,疾患診断において任意のルールベースシステムと統合することができる。

In this paper we propose the design and implementation of a generic medical knowledge based system (MKBS) for identifying diseases from several symptoms and signs. To diagnosis diseases, user will be asked by the system for different questions and finally inference engine will use certainty factor to prune out low possible solutions. In this system some important aspects like Knowledge bases system, Knowledge representation, Inference Engine has been addressed. New certainty fact has been introduced to get conclusion about same firing rules. The proposed disease diagnosis system also uses a graphical user user interface to facilitate user to interact a with expert system more easily. The proposed system is generic and knowledge based, and it can be integrated with any rule bases system in disease diagnosis.
翻訳日:2021-10-17 04:15:47 公開日:2021-10-09
# (参考訳) 複数の参照音声とスタイル埋め込み制約を用いた音声合成 [全文訳有]

Using multiple reference audios and style embedding constraints for speech synthesis ( http://arxiv.org/abs/2110.04451v1 )

ライセンス: CC BY 4.0
Cheng Gong, Longbiao Wang, Zhenhua Ling, Ju Zhang, Jianwu Dang(参考訳) エンド・ツー・エンド音声合成モデルは、直接発話を基準音声とし、韻律や話者特性が基準音声と類似したテキストから音声を生成することができる。 しかし、適切な音響埋め込みは推論中に手動で選択しなければならない。 学習過程において、一致したテキストと音声のみを使用するという事実から、不一致のテキストと音声を推論に使用すると、モデルが低品質の音声を合成する。 本研究では,対象音声のみを使用するのではなく,複数の参照オーディオとスタイル埋め込み制約を用いることで,この2つの問題を解決することを提案する。 変換器(BERT)からの双方向エンコーダ表現によって決定される文類似性を用いて、複数の参照オーディオを自動的に選択する。 また,事前学習エンコーダからの「ターゲット」スタイルの埋め込みを,予測と「ターゲット」スタイルの埋め込みの相互情報を考慮した制約として用いる。 実験の結果,提案モデルは複数の参照オーディオを用いて音声の自然性やコンテンツ品質を向上でき,スタイル類似性のabx嗜好テストではベースラインモデルよりも優れることがわかった。

The end-to-end speech synthesis model can directly take an utterance as reference audio, and generate speech from the text with prosody and speaker characteristics similar to the reference audio. However, an appropriate acoustic embedding must be manually selected during inference. Due to the fact that only the matched text and speech are used in the training process, using unmatched text and speech for inference would cause the model to synthesize speech with low content quality. In this study, we propose to mitigate these two problems by using multiple reference audios and style embedding constraints rather than using only the target audio. Multiple reference audios are automatically selected using the sentence similarity determined by Bidirectional Encoder Representations from Transformers (BERT). In addition, we use ''target'' style embedding from a Pre-trained encoder as a constraint by considering the mutual information between the predicted and ''target'' style embedding. The experimental results show that the proposed model can improve the speech naturalness and content quality with multiple reference audios and can also outperform the baseline model in ABX preference tests of style similarity.
翻訳日:2021-10-17 04:07:21 公開日:2021-10-09
# (参考訳) 未来の意思決定を予測する:人間対機械 [全文訳有]

Predicting decision-making in the future: Human versus Machine ( http://arxiv.org/abs/2110.04465v1 )

ライセンス: CC BY 4.0
Hoe Sung Ryu, Uijong Ju, Christian Wallraven(参考訳) 深層ニューラルネットワーク(dnn)はデータ予測において著しく成功しており、限られた入力に基づいて将来の行動を予測するためにも使われている。 これらのシステムは実際には、人間に似たイベントを“理解”するのでしょうか? ここでは,運転シミュレーションにおいて事故状況から撮影した映像を用いてこの問題に対処する。 この状況では、ドライバーは突然現れる障害物に衝突するか、以前に示唆された崖から車を操縦するかを選択する必要があった。 我々は、人間とDNNが、この決定をイベントの前の時間の関数としていかにうまく予測したかを比較した。 DNNは初期のタイムポイントでは人間よりも優れていたが、後のタイムポイントでは同等のパフォーマンスであった。 興味深いことに、時空間的な画像操作とGrad-CAM視覚化は、期待される振る舞いを明らかにしたが、DNNの時間的処理の潜在的な違いも強調した。

Deep neural networks (DNNs) have become remarkably successful in data prediction, and have even been used to predict future actions based on limited input. This raises the question: do these systems actually "understand" the event similar to humans? Here, we address this issue using videos taken from an accident situation in a driving simulation. In this situation, drivers had to choose between crashing into a suddenly-appeared obstacle or steering their car off a previously indicated cliff. We compared how well humans and a DNN predicted this decision as a function of time before the event. The DNN outperformed humans for early time-points, but had an equal performance for later time-points. Interestingly, spatio-temporal image manipulations and Grad-CAM visualizations uncovered some expected behavior, but also highlighted potential differences in temporal processing for the DNN.
翻訳日:2021-10-17 03:55:39 公開日:2021-10-09
# (参考訳) 強化学習に対する効果的なブラックボックス行動中毒攻撃 [全文訳有]

Provably Efficient Black-Box Action Poisoning Attacks Against Reinforcement Learning ( http://arxiv.org/abs/2110.04471v1 )

ライセンス: CC BY 4.0
Guanlin Liu and Lifeng Lai(参考訳) 強化学習(RL)の幅広い応用により、RLモデルに対する敵攻撃の影響を理解することが、このモデルの安全な適用に不可欠である。 以前のRLに対する敵対的攻撃は、主に観察的中毒攻撃または環境的中毒攻撃に焦点を当てていた。 本稿では,エージェントが選択したアクションシグナルを敵が変更できる行動中毒攻撃という,新たなタイプの攻撃手法を提案する。 既存の攻撃モデルと比較して、提案した行動中毒攻撃モデルにおける攻撃者の能力はより制限されており、攻撃モデルはより実用的である。 ホワイトボックスおよびブラックボックス設定の両方において,アクション中毒攻撃について検討した。 ブラックボックス設定において,ほとんどのRLエージェントに対して適応攻撃方式 LCB-H を導入する。 lcb-h攻撃は, 動的後悔が全ステップ数と部分線形にスケールする効率的なrlエージェントに対して, 攻撃者が選択した方針に従って, サブリニアコストのみで行動選択を強制できることを実証する。 さらに,一般的なモデルフリーRLアルゴリズムである UCB-H に対して LCB-H 攻撃を適用した。 提案するlcb-h攻撃手法は,ブラックボックス設定でも対数コストのみを消費することで,攻撃者が選択した方針に従って行動選択をucb-hエージェントに強いることができることを示す。

Due to the broad range of applications of reinforcement learning (RL), understanding the effects of adversarial attacks against RL model is essential for the safe applications of this model. Prior works on adversarial attacks against RL mainly focus on either observation poisoning attacks or environment poisoning attacks. In this paper, we introduce a new class of attacks named action poisoning attacks, where an adversary can change the action signal selected by the agent. Compared with existing attack models, the attacker's ability in the proposed action poisoning attack model is more restricted, and hence the attack model is more practical. We study the action poisoning attack in both white-box and black-box settings. We introduce an adaptive attack scheme called LCB-H, which works for most RL agents in the black-box setting. We prove that the LCB-H attack can force any efficient RL agent, whose dynamic regret scales sublinearly with the total number of steps taken, to choose actions according to a policy selected by the attacker very frequently, with only sublinear cost. In addition, we apply LCB-H attack against a popular model-free RL algorithm: UCB-H. We show that, even in the black-box setting, by spending only logarithm cost, the proposed LCB-H attack scheme can force the UCB-H agent to choose actions according to the policy selected by the attacker very frequently.
翻訳日:2021-10-17 03:43:24 公開日:2021-10-09
# (参考訳) 視線追跡予測のための事前学習言語モデルの最近の進歩活用 [全文訳有]

Leveraging recent advances in Pre-Trained Language Models forEye-Tracking Prediction ( http://arxiv.org/abs/2110.04475v1 )

ライセンス: CC BY 4.0
Varun Madhavan, Aditya Girish Pawate, Shraman Pal, Abhranil Chandra(参考訳) 認知的にインスピレーションを受けた自然言語プロセシングは、人間の行動データのような視線追跡データを使用し、人間の脳における言語のセマンティックな表現を反映して、構文や意味論にまたがるタスクを、機械にランゲージ処理機構を教えることを目的としてニューラルネットワークを増強する。 本稿では,ZuCo 1.0とZuCo 2.0データセットを用いて眼球運動の特徴を包含し,異なる言語モデルを探索し,各単語の視覚的特徴を直接予測する。 我々は、ターゲットを予測するために単語を入力として、異なるニューラルネットワークモデルを試した。 そして、多くの実験と機能工学が、ついにRoBERTa Token Clas-sifierと言語モデリングのための高層層と、高層層からなるスタンドアロンモデルと、私たちが設計した追加機能のためのトランスフォーマー層からなる新しいアーキテクチュアを考案した。 最後に、これらのモデルの両方の出力を平均として、最終的な予測を行った。 平均絶対誤差(MAE)と各目標に対するR2スコアを用いてモデルを評価した。

Cognitively inspired Natural Language Pro-cessing uses human-derived behavioral datalike eye-tracking data, which reflect the seman-tic representations of language in the humanbrain to augment the neural nets to solve arange of tasks spanning syntax and semanticswith the aim of teaching machines about lan-guage processing mechanisms. In this paper,we use the ZuCo 1.0 and ZuCo 2.0 dataset con-taining the eye-gaze features to explore differ-ent linguistic models to directly predict thesegaze features for each word with respect to itssentence. We tried different neural networkmodels with the words as inputs to predict thetargets. And after lots of experimentation andfeature engineering finally devised a novel ar-chitecture consisting of RoBERTa Token Clas-sifier with a dense layer on top for languagemodeling and a stand-alone model consistingof dense layers followed by a transformer layerfor the extra features we engineered. Finally,we took the mean of the outputs of both thesemodels to make the final predictions. We eval-uated the models using mean absolute error(MAE) and the R2 score for each target.
翻訳日:2021-10-17 03:05:19 公開日:2021-10-09
# (参考訳) AffectNetのラベル品質:クラウドベースの再注釈の結果 [全文訳有]

Label quality in AffectNet: results of crowd-based re-annotation ( http://arxiv.org/abs/2110.04476v1 )

ライセンス: CC BY 4.0
Doo Yon Kim, Christian Wallraven(参考訳) AffectNetは、比較的制約のない画像の表情認識(FER)において最も人気のあるリソースの1つである。 データの一貫性チェックに制限があるアノテータが1つだけアノテートされていることを考えると、ラベルの品質と一貫性は制限される可能性がある。 ここでは、クラウドベースのアノテーションで別の小さなデータセット(fer2013)を再ラベル付けし、式ラベルとヴァレンスと覚醒評価の両方に13人いる難解なインフルエントネットのサブセットの再ラベルと再注釈の結果を報告した研究にも同様のアプローチを取ります。 以上の結果から,ヒトのラベルは概ね中~良質な整合性を示し,特に有能な評価は良好である。 しかし、重要なことに、クラウドベースのラベルは中立性や幸福なカテゴリーに大きくシフトしており、クラウドベースの感情評価はオリジナルの評価とは異なる一貫したパターンを形成している。 オリジナルのAffectNetデータセットで完全にトレーニングされたResNetは、人間の投票パターンを予測しないが、弱いトレーニングを受けた場合には、特に原子価がはるかに向上する。 この結果は,感情コンピューティングにおけるラベル品質に重要な影響を与える。

AffectNet is one of the most popular resources for facial expression recognition (FER) on relatively unconstrained in-the-wild images. Given that images were annotated by only one annotator with limited consistency checks on the data, however, label quality and consistency may be limited. Here, we take a similar approach to a study that re-labeled another, smaller dataset (FER2013) with crowd-based annotations, and report results from a re-labeling and re-annotation of a subset of difficult AffectNet faces with 13 people on both expression label, and valence and arousal ratings. Our results show that human labels overall have medium to good consistency, whereas human ratings especially for valence are in excellent agreement. Importantly, however, crowd-based labels are significantly shifting towards neutral and happy categories and crowd-based affective ratings form a consistent pattern different from the original ratings. ResNets fully trained on the original AffectNet dataset do not predict human voting patterns, but when weakly-trained do so much better, particularly for valence. Our results have important ramifications for label quality in affective computing.
翻訳日:2021-10-17 02:59:36 公開日:2021-10-09
# (参考訳) ヒトと機械における表情認識の比較-cam, gradcam, 四肢摂動を用いて- [全文訳有]

Comparing Facial Expression Recognition in Humans and Machines: Using CAM, GradCAM, and Extremal Perturbation ( http://arxiv.org/abs/2110.04481v1 )

ライセンス: CC BY 4.0
Serin Park, Christian Wallraven(参考訳) 表情認識(fer)は、心理学と機械学習の両方において、幅広い応用で重要な研究を惹きつけるトピックである。 人間のFERに関する豊富な研究と、ディープニューラルネットワーク(DNN)によって可能となった計算FERのかなりの進歩にもかかわらず、DNNが人間のパフォーマンスに匹敵する程度に比較する研究は比較的少ない。 本研究では,2段階の強制選択課題における人間と機械の認識性能と注意パターンを比較した。 人間の注意は、顔を徐々に発見するクリックデータを通じて収集され、モデル注意は、説明可能なAIであるCAM、GradCAM、Extremal Perturbationの3つの異なるテクニックを使用して得られた。 どちらの場合も、パフォーマンスは正解率として収集された。 このために、人間は機械よりもかなり優れていた。 注意パターンの観点からみると、極端摂動はタスク中に人間の注意マップに最も適していることがわかりました。

Facial expression recognition (FER) is a topic attracting significant research in both psychology and machine learning with a wide range of applications. Despite a wealth of research on human FER and considerable progress in computational FER made possible by deep neural networks (DNNs), comparatively less work has been done on comparing the degree to which DNNs may be comparable to human performance. In this work, we compared the recognition performance and attention patterns of humans and machines during a two-alternative forced-choice FER task. Human attention was here gathered through click data that progressively uncovered a face, whereas model attention was obtained using three different popular techniques from explainable AI: CAM, GradCAM and Extremal Perturbation. In both cases, performance was gathered as percent correct. For this task, we found that humans outperformed machines quite significantly. In terms of attention patterns, we found that Extremal Perturbation had the best overall fit with the human attention map during the task.
翻訳日:2021-10-17 02:48:53 公開日:2021-10-09
# (参考訳) 知識蒸留の効果を説明するための埋蔵空間の可視化 [全文訳有]

Visualizing the embedding space to explain the effect of knowledge distillation ( http://arxiv.org/abs/2110.04483v1 )

ライセンス: CC BY 4.0
Hyun Seung Lee, Christian Wallraven(参考訳) 近年の研究では、知識蒸留はネットワークのサイズを減らし、一般化を促進するのに有効であることがわかった。 例えば、事前訓練された大規模な教師ネットワークは、限られたラベル環境で教師を上回る学生モデルをブートストラップできることが示されている。 これらの進歩にもかかわらず、この方法は比較的不明瞭であり、つまり、結果の学生モデルが' better' を行うものである。 そこで本稿では,2つの非線形低次元埋め込み手法(t-sneとivis)を用いて,ネットワーク内の異なるレイヤの表現空間を可視化する。 異なるアーキテクチャパラメータと蒸留法を用いて, 広範囲にわたる実験を行った。 結果として得られた可視化とメトリクスは、蒸留がよりコンパクトな表現空間を見つけるためのネットワークを導いてくれることをはっきりと示している。

Recent research has found that knowledge distillation can be effective in reducing the size of a network and in increasing generalization. A pre-trained, large teacher network, for example, was shown to be able to bootstrap a student model that eventually outperforms the teacher in a limited label environment. Despite these advances, it still is relatively unclear \emph{why} this method works, that is, what the resulting student model does 'better'. To address this issue, here, we utilize two non-linear, low-dimensional embedding methods (t-SNE and IVIS) to visualize representation spaces of different layers in a network. We perform a set of extensive experiments with different architecture parameters and distillation methods. The resulting visualizations and metrics clearly show that distillation guides the network to find a more compact representation space for higher accuracy already in earlier layers compared to its non-distilled version.
翻訳日:2021-10-17 02:38:47 公開日:2021-10-09
# (参考訳) コンピュータネットワークにおける敵攻撃の転送可能性 [全文訳有]

Demystifying the Transferability of Adversarial Attacks in Computer Networks ( http://arxiv.org/abs/2110.04488v1 )

ライセンス: CC BY 4.0
Ehsan Nowroozi, Mauro Conti, Yassine Mekdad, Mohammad Hajian Berenjestanaki, Abdeslam EL Fergougui(参考訳) deep convolutional neural networks (cnn)モデルは、ディープラーニングで最も人気のあるネットワークの1つである。 様々な分野の応用分野において、それらは学界と産業の両方で広く使われている。 CNNベースのモデルには、早期乳癌の検出や発達遅延の検出(自閉症、言語障害など)など、いくつかのエキサイティングな実装が含まれている。 しかし、以前の研究では、これらのモデルが様々な敵攻撃の対象であることが示されている。 興味深いことに、いくつかの敵対的な例は、異なる未知のモデルに対して効果がある可能性がある。 この特性は逆移動可能性(adversarial transferability)と呼ばれ、先行研究はこの特性を非常に限られたアプリケーション領域でわずかに分析した。 本稿では,コンピュータネットワークにおける転送可能性の脅しを,敵の事例を転送する可能性について検討することを目的とする。 特に,コンピュータネットワークにおけるcnnベースのモデルのロバスト性を評価するための包括的研究を初めて行った。 実験では,(1)反復高速勾配法(i-fgsm),(2)ジャコビアン型高度マップ攻撃(jsma),(3)l-bfgs攻撃,(4)投影勾配降下攻撃(pgd),(5)ディープフード攻撃の5つの攻撃を検討した。 これらの攻撃は、n-baiotデータセットとドメイン生成アルゴリズム(dga)データセットの2つのよく知られたデータセットに対して実行される。 本研究の結果から, 対象モデルの知識がほとんどなく, 被害者のネットワークに容易に侵入できる特定のユースケースにおいて, 転送性が生じることが示唆された。

Deep Convolutional Neural Networks (CNN) models are one of the most popular networks in deep learning. With their large fields of application in different areas, they are extensively used in both academia and industry. CNN-based models include several exciting implementations such as early breast cancer detection or detecting developmental delays in children (e.g., autism, speech disorders, etc.). However, previous studies demonstrate that these models are subject to various adversarial attacks. Interestingly, some adversarial examples could potentially still be effective against different unknown models. This particular property is known as adversarial transferability, and prior works slightly analyzed this characteristic in a very limited application domain. In this paper, we aim to demystify the transferability threats in computer networks by studying the possibility of transferring adversarial examples. In particular, we provide the first comprehensive study which assesses the robustness of CNN-based models for computer networks against adversarial transferability. In our experiments, we consider five different attacks: (1) the Iterative Fast Gradient Method (I-FGSM), (2) the Jacobian-based Saliency Map attack (JSMA), (3) the L-BFGS attack, (4) the Projected Gradient Descent attack (PGD), and (5) the DeepFool attack. These attacks are performed against two well-known datasets: the N-BaIoT dataset and the Domain Generating Algorithms (DGA) dataset. Our results show that the transferability happens in specific use cases where the adversary can easily compromise the victim's network with very few knowledge of the targeted model.
翻訳日:2021-10-17 02:26:04 公開日:2021-10-09
# (参考訳) SGMNet:Few-Shotリモートセンシングシーン分類のためのシーングラフマッチングネットワーク [全文訳有]

SGMNet: Scene Graph Matching Network for Few-Shot Remote Sensing Scene Classification ( http://arxiv.org/abs/2110.04494v1 )

ライセンス: CC BY 4.0
Baoquan Zhang, Shanshan Feng, Xutao Li, Yunming Ye, and Rui Ye(参考訳) Few-Shot Remote Sensing Scene Classification (FSRSSC) は,新しいシーンクラスを少数の例で認識することを目的とした重要な課題である。 近年,数発の自然画像分類法によってFSRSSC問題に対処しようとする研究がいくつかある。 これらの既存手法は有望な進歩を遂げ、優れた性能を達成した。 しかし、いずれもリモートセンシング画像の2つのユニークな特徴を見落としている。 (i)複数のオブジェクトがシーンイメージに一緒に現れる傾向にあるオブジェクト共起 (ii)これらの共起物体が空間構造パターンに従ってシーン画像内に分布する物体空間相関 このような特徴はFSRSSCにとって非常に有益であり、各シーンにより洗練された説明を提供することができるため、ラベル付きリモートセンシング画像の不足を効果的に軽減することができる。 これらの特徴をフル活用するために,SGMNetと呼ばれるFSRSSCのためのシーングラフマッチングに基づくメタラーニングフレームワークを提案する。 このフレームワークでは、シーングラフ構築モジュールは、各テストリモートセンシング画像または各シーンクラスをシーングラフとして、ノードがこれらの共起オブジェクトを反映し、エッジがこれらの共起オブジェクト間の空間的相関をキャプチャするように設計されている。 そして、各テストリモートセンシング画像と各シーンクラスとの類似度スコアを評価するために、シーングラフマッチングモジュールをさらに開発する。 最後に、類似度スコアに基づいて、最寄りの隣接分類器を介してシーンクラス予測を行う。 UCMerced LandUse, WHU19, AID, NWPU-RESISC45データセットについて広範な実験を行った。 実験の結果,従来の最先端手法よりも優れた性能が得られることがわかった。

Few-Shot Remote Sensing Scene Classification (FSRSSC) is an important task, which aims to recognize novel scene classes with few examples. Recently, several studies attempt to address the FSRSSC problem by following few-shot natural image classification methods. These existing methods have made promising progress and achieved superior performance. However, they all overlook two unique characteristics of remote sensing images: (i) object co-occurrence that multiple objects tend to appear together in a scene image and (ii) object spatial correlation that these co-occurrence objects are distributed in the scene image following some spatial structure patterns. Such unique characteristics are very beneficial for FSRSSC, which can effectively alleviate the scarcity issue of labeled remote sensing images since they can provide more refined descriptions for each scene class. To fully exploit these characteristics, we propose a novel scene graph matching-based meta-learning framework for FSRSSC, called SGMNet. In this framework, a scene graph construction module is carefully designed to represent each test remote sensing image or each scene class as a scene graph, where the nodes reflect these co-occurrence objects meanwhile the edges capture the spatial correlations between these co-occurrence objects. Then, a scene graph matching module is further developed to evaluate the similarity score between each test remote sensing image and each scene class. Finally, based on the similarity scores, we perform the scene class prediction via a nearest neighbor classifier. We conduct extensive experiments on UCMerced LandUse, WHU19, AID, and NWPU-RESISC45 datasets. The experimental results show that our method obtains superior performance over the previous state-of-the-art methods.
翻訳日:2021-10-17 02:04:22 公開日:2021-10-09
# (参考訳) TiKick: シングルエージェントによるマルチエージェントフットボールフルゲームを目指して [全文訳有]

TiKick: Toward Playing Multi-agent Football Full Games from Single-agent Demonstrations ( http://arxiv.org/abs/2110.04507v1 )

ライセンス: CC BY 4.0
Shiyu Huang, Wenze Chen, Longfei Zhang, Ziyang Li, Fengming Zhu, Deheng Ye, Ting Chen, Jun Zhu(参考訳) 深層強化学習(DRL)は複雑なビデオゲーム(StarCraft IIやDota IIなど)で超人的なパフォーマンスを達成した。 しかし、現在のDRLシステムは、マルチエージェント調整、スパース報酬、確率的環境などの課題に悩まされている。 これらの課題に対処するために、テストベッドとしてGoogle Research Football(GRF)のようなフットボールビデオゲームを採用し、この課題を完了するために、エンドツーエンドの学習ベースのAIシステム(TiKickと表記される)を開発しています。 本研究では,リーグトレーニングから得られた単一エージェントの専門家の自己演奏から,まず大規模なリプレイデータセットを生成した。 そして、固定された単一エージェントデータセットから強力なマルチエージェントAIを学ぶために、分散学習システムと新しいオフラインアルゴリズムを開発した。 われわれの知る限りでは、TikickはGoogle Research Footballのマルチエージェントゲームを完全に引き継ぐことができる初めての学習ベースのAIシステムだ。 さらに, 事前学習モデルにより, 最新のマルチエージェントアルゴリズムの学習プロセスが促進され, 各種学術シナリオにおける最先端性能が達成されることを示す。

Deep reinforcement learning (DRL) has achieved super-human performance on complex video games (e.g., StarCraft II and Dota II). However, current DRL systems still suffer from challenges of multi-agent coordination, sparse rewards, stochastic environments, etc. In seeking to address these challenges, we employ a football video game, e.g., Google Research Football (GRF), as our testbed and develop an end-to-end learning-based AI system (denoted as TiKick to complete this challenging task. In this work, we first generated a large replay dataset from the self-playing of single-agent experts, which are obtained from league training. We then developed a distributed learning system and new offline algorithms to learn a powerful multi-agent AI from the fixed single-agent dataset. To the best of our knowledge, Tikick is the first learning-based AI system that can take over the multi-agent Google Research Football full game, while previous work could either control a single agent or experiment on toy academic scenarios. Extensive experiments further show that our pre-trained model can accelerate the training process of the modern multi-agent algorithm and our method achieves state-of-the-art performances on various academic scenarios.
翻訳日:2021-10-17 01:22:21 公開日:2021-10-09
# (参考訳) open-world feature extrapolationに向けて: インダクティブグラフ学習アプローチ [全文訳有]

Towards Open-World Feature Extrapolation: An Inductive Graph Learning Approach ( http://arxiv.org/abs/2110.04514v1 )

ライセンス: CC BY 4.0
Qitian Wu, Chenxiao Yang, Junchi Yan(参考訳) 我々は、入力データの特徴空間が拡張を経た場合のオープンワールド機能外挿問題と、部分的に観察された特徴を訓練したモデルが、さらなる再トレーニングなしにテストデータの新機能を扱う必要がある。 問題は、異なるフィールドから漸進的に収集された機能を扱う上で、非常に重要である。 そこで我々は,グラフ表現と学習を用いた新しい学習パラダイムを提案する。 私たちのフレームワークには2つのモジュールがあります。 1) 下位モデルとしてのバックボーンネットワーク(例えば、フィードフォワードニューラルネット)は、特徴を入力として、予測ラベルを出力する。 2) 上位モデルとしてのグラフニューラルネットワークは,観測データから構築された特徴データグラフ上のメッセージパッシングを通じて,新機能の埋め込みを外挿することを学ぶ。 フレームワークに基づいて,自己教師型アプローチと帰納学習アプローチという2つのトレーニング戦略を設計し,外挿能力を備えたモデルの実現と,機能レベルの過剰適合を軽減する。 また、新しい特徴を持つテストデータに対する一般化誤差の理論解析を行い、一般化性能に対するトレーニング特徴やアルゴリズムの影響を判別する。 複数の分類データセットと大規模広告クリック予測データセットを用いた実験により,本モデルが未発見の機能に対して効果的な埋め込みを生成し,knと局所アグリゲーションを採用するベースラインメソッドを著しく上回ることを示した。

We target open-world feature extrapolation problem where the feature space of input data goes through expansion and a model trained on partially observed features needs to handle new features in test data without further retraining. The problem is of much significance for dealing with features incrementally collected from different fields. To this end, we propose a new learning paradigm with graph representation and learning. Our framework contains two modules: 1) a backbone network (e.g., feedforward neural nets) as a lower model takes features as input and outputs predicted labels; 2) a graph neural network as an upper model learns to extrapolate embeddings for new features via message passing over a feature-data graph built from observed data. Based on our framework, we design two training strategies, a self-supervised approach and an inductive learning approach, to endow the model with extrapolation ability and alleviate feature-level over-fitting. We also provide theoretical analysis on the generalization error on test data with new features, which dissects the impact of training features and algorithms on generalization performance. Our experiments over several classification datasets and large-scale advertisement click prediction datasets demonstrate that our model can produce effective embeddings for unseen features and significantly outperforms baseline methods that adopt KNN and local aggregation.
翻訳日:2021-10-17 01:09:23 公開日:2021-10-09
# (参考訳) 階層型グラフアテンションネットワークによるTwitterの噂検出 [全文訳有]

Rumor Detection on Twitter with Claim-Guided Hierarchical Graph Attention Networks ( http://arxiv.org/abs/2110.04522v1 )

ライセンス: CC BY 4.0
Hongzhan Lin, Jing Ma, Mingfei Cheng, Zhiwei Yang, Liangliang Chen and Guang Chen(参考訳) ソーシャルメディアの時代には噂が広まっている。 会話構造は、現実と偽の主張を区別するための貴重な手がかりを提供する。 しかし,既存の噂検出手法はユーザ応答の厳密な関係に制限されるか,会話構造を単純化する。 本研究では,無関係な投稿によるネガティブな影響を緩和しつつ,ユーザの意見の相互作用を大幅に強化するために,まず,会話スレッドを非ダイレクトな対話グラフとして表現する。 次に,クレーム誘導型階層型グラフ注意ネットワークを提案する。これは,社会的文脈全体を考慮した応答性ポストの表現学習を強化し,対象のクレームを意味的に推測できるポストに参画する。 3つのtwitterデータセットに関する広範囲な実験により、我々のうわさ検出手法が最先端の手法よりもずっと優れた性能を達成し、早期のうわさ検出に優れた能力を示している。

Rumors are rampant in the era of social media. Conversation structures provide valuable clues to differentiate between real and fake claims. However, existing rumor detection methods are either limited to the strict relation of user responses or oversimplify the conversation structure. In this study, to substantially reinforces the interaction of user opinions while alleviating the negative impact imposed by irrelevant posts, we first represent the conversation thread as an undirected interaction graph. We then present a Claim-guided Hierarchical Graph Attention Network for rumor classification, which enhances the representation learning for responsive posts considering the entire social contexts and attends over the posts that can semantically infer the target claim. Extensive experiments on three Twitter datasets demonstrate that our rumor detection method achieves much better performance than state-of-the-art methods and exhibits a superior capacity for detecting rumors at early stages.
翻訳日:2021-10-17 00:10:44 公開日:2021-10-09
# (参考訳) ZSpeedL -- 低消費電力デバイスを用いたゼロショット学習手法の性能評価 [全文訳有]

ZSpeedL -- Evaluating the Performance of Zero-Shot Learning Methods using Low-Power Devices ( http://arxiv.org/abs/2110.04535v1 )

ライセンス: CC BY 4.0
Cristiano Patr\'icio, Jo\~ao Neves(参考訳) 意味表現やテキスト記述から見えないオブジェクトを認識することは、通常ゼロショット学習と呼ばれ、従来のオブジェクト認識と比較して現実世界のシナリオで使われる傾向が強い。 それでも、特に低消費電力デバイスを使用する場合において、ゼロショット学習アプローチをこれらのシナリオに展開する可能性を評価した成果はない。 本稿では,ゼロショット学習の速度/精度トレードオフに関する最先端手法の評価を含む,ゼロショット学習の推論時間に関する最初のベンチマークを提供する。 ZSL推論段階の異なるフェーズの処理時間を解析したところ、このパラダイムでは視覚的特徴抽出が主要なボトルネックとなっていることが分かるが、軽量ネットワークは、ResNet101アーキテクチャのデファクトの精度を低下させることなく、全体の推論時間を劇的に削減できることを示した。 また、このベンチマークでは、低消費電力デバイスで異なるZSLアプローチがどのように機能するか、また、このハードウェアで視覚的特徴抽出フェーズをどのように最適化できるかを評価する。 実世界のシナリオで運用可能なZSLシステムの研究と展開を促進するため,このベンチマークで使用される評価フレームワーク(https://github.com/ CristianoPatricio/zs l-methods)をリリースする。

The recognition of unseen objects from a semantic representation or textual description, usually denoted as zero-shot learning, is more prone to be used in real-world scenarios when compared to traditional object recognition. Nevertheless, no work has evaluated the feasibility of deploying zero-shot learning approaches in these scenarios, particularly when using low-power devices. In this paper, we provide the first benchmark on the inference time of zero-shot learning, comprising an evaluation of state-of-the-art approaches regarding their speed/accuracy trade-off. An analysis to the processing time of the different phases of the ZSL inference stage reveals that visual feature extraction is the major bottleneck in this paradigm, but, we show that lightweight networks can dramatically reduce the overall inference time without reducing the accuracy obtained by the de facto ResNet101 architecture. Also, this benchmark evaluates how different ZSL approaches perform in low-power devices, and how the visual feature extraction phase could be optimized in this hardware. To foster the research and deployment of ZSL systems capable of operating in real-world scenarios, we release the evaluation framework used in this benchmark (https://github.com/ CristianoPatricio/zs l-methods).
翻訳日:2021-10-16 23:53:46 公開日:2021-10-09
# (参考訳) インコンテキスト学習の帰納的バイアス:事前学習事例設計の再考

The Inductive Bias of In-Context Learning: Rethinking Pretraining Example Design ( http://arxiv.org/abs/2110.04541v1 )

ライセンス: CC BY 4.0
Yoav Levine, Noam Wies, Daniel Jannai, Dan Navon, Yedid Hoshen, Amnon Shashua(参考訳) 大きなコーパス上の事前学習ニューラルネットワークモデル(nlms)は、ニューラルネットワークアーキテクチャによって処理可能なサイズの連続したテキストセグメントであるトレーニング例にテキストをチャンクする。 私たちは、事前訓練されたnlmが、同じトレーニング例に現れるテキストセグメント間の依存性を、異なるトレーニング例に現れるテキストセグメント間よりもはるかに強くモデル化できることを証明します。 この直感的な結果は2倍の役割を持つ。 第一に、最近成功したNLMトレーニングヒューリスティックの幅広いラインの背後にあるモチベーションを定式化し、事前訓練と微調整の段階について提案する。 第2に、自然言語理解タスクの恩恵を受けるため、NLM事前学習においてさらなる改善が期待できることを示す。 例として、「kNN-Pretraining」を提案する:同じ事前学習例に意味論的に関連のない非隣接文を含めると、改善された文表現とオープンドメイン質問応答能力が得られることを示す。 この理論的に動機付けられた「事前学習例設計」の自由度は、自己改善表現のための新しい訓練スキームを示している。

Pretraining Neural Language Models (NLMs) over a large corpus involves chunking the text into training examples, which are contiguous text segments of sizes processable by the neural architecture. We highlight a bias introduced by this common practice: we prove that the pretrained NLM can model much stronger dependencies between text segments that appeared in the same training example, than it can between text segments that appeared in different training examples. This intuitive result has a twofold role. First, it formalizes the motivation behind a broad line of recent successful NLM training heuristics, proposed for the pretraining and fine-tuning stages, which do not necessarily appear related at first glance. Second, our result clearly indicates further improvements to be made in NLM pretraining for the benefit of Natural Language Understanding tasks. As an example, we propose "kNN-Pretraining" ;: we show that including semantically related non-neighboring sentences in the same pretraining example yields improved sentence representations and open domain question answering abilities. This theoretically motivated degree of freedom for "pretraining example design" indicates new training schemes for self-improving representations.
翻訳日:2021-10-16 23:42:53 公開日:2021-10-09
# (参考訳) CLIP-Adapter: 機能アダプタによるビジョンランゲージモデルの改善 [全文訳有]

CLIP-Adapter: Better Vision-Language Models with Feature Adapters ( http://arxiv.org/abs/2110.04544v1 )

ライセンス: CC BY 4.0
Peng Gao, Shijie Geng, Renrui Zhang, Teli Ma, Rongyao Fang, Yongfeng Zhang, Hongsheng Li, Yu Qiao(参考訳) 大規模コントラスト視覚言語事前学習は,視覚表現学習において有意な進歩を示した。 固定された離散ラベルによって訓練された従来の視覚システムとは異なり、新しいパラダイムが \cite{radford2021learning} で導入され、オープン語彙設定で画像と生のテキストを直接整合させることができるようになった。 下流タスクでは、ゼロショット予測を行うために慎重に選択されたテキストプロンプトが使用される。 ~自明なプロンプトエンジニアリングを避けるために、少数のトレーニング例でタスク固有のプロンプトとして連続ベクトルを学ぶためにコンテキスト最適化 \cite{zhou2021coop} が提案されている。 ~本論文では,即時チューニング以外に,より良い視覚言語モデルを実現するための代替経路が存在することを示す。 そこで我々はCLIP-Adapterを提案し,視覚的あるいは言語的分岐において,機能アダプタによる微調整を行う。 具体的には、CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、元のトレーニング済み機能とブレンドした残留スタイルの機能を実行する。 結果として、CLIP-Adapterは、シンプルな設計を維持しながらコンテキスト最適化より優れている。 様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。

Large-scale contrastive vision-language pre-training has shown significant progress in visual representation learning. Unlike traditional visual systems trained by a fixed set of discrete labels, a new paradigm was introduced in \cite{radford2021learning} to directly learn to align images with raw texts in an open-vocabulary setting. On downstream tasks, a carefully chosen text prompt is employed to make zero-shot predictions.~To avoid non-trivial prompt engineering, context optimization \cite{zhou2021coop} has been proposed to learn continuous vectors as task-specific prompts with few-shot training examples.~In this paper, we show that there is an alternative path to achieve better vision-language models other than prompt tuning.~While prompt tuning is for the textual inputs, we propose CLIP-Adapter to conduct fine-tuning with feature adapters on either visual or language branch. Specifically, CLIP-Adapter adopts an additional bottleneck layer to learn new features and performs residual-style feature blending with the original pre-trained features.~As a consequence, CLIP-Adapter is able to outperform context optimization while maintains a simple design. Experiments and extensive ablation studies on various visual classification tasks demonstrate the effectiveness of our approach.
翻訳日:2021-10-16 23:41:30 公開日:2021-10-09
# (参考訳) lambdaアーキテクチャを用いたリアルタイム不正検出におけるグラフニューラルネットワーク [全文訳有]

Graph Neural Networks in Real-Time Fraud Detection with Lambda Architecture ( http://arxiv.org/abs/2110.04559v1 )

ライセンス: CC BY 4.0
Mingxuan Lu, Zhichao Han, Zitao Zhang, Yang Zhao, Yinan Shan(参考訳) 取引チェックアウト詐欺検出は、Eコマース市場にとって重要なリスクコントロールコンポーネントである。 まず,グラフ構築のための動的スナップショット(DDS)リンク設計と,グラフニューラルネットワークの埋め込みによる効果的な推論のためのLambda Neural Networks(LNN)アーキテクチャを提案する。 実験の結果,DDSグラフ上でのLNNはベースラインモデルを大幅に上回り,リアルタイム不正検出には計算効率がよいことがわかった。

Transaction checkout fraud detection is an essential risk control components for E-commerce marketplaces. In order to leverage graph networks to decrease fraud rate efficiently and guarantee the information flow passed through neighbors only from the past of the checkouts, we first present a novel Directed Dynamic Snapshot (DDS) linkage design for graph construction and a Lambda Neural Networks (LNN) architecture for effective inference with Graph Neural Networks embeddings. Experiments show that our LNN on DDS graph, outperforms baseline models significantly and is computational efficient for real-time fraud detection.
翻訳日:2021-10-16 23:24:32 公開日:2021-10-09
# (参考訳) バックドアを拡大して攻撃者を増やす [全文訳有]

Widen The Backdoor To Let More Attackers In ( http://arxiv.org/abs/2110.04571v1 )

ライセンス: CC BY 4.0
Siddhartha Datta, Giulio Lovisotto, Ivan Martinovic, Nigel Shadbolt(参考訳) 協調学習とデータ収集のアウトソーシングがより一般的になるにつれて、学習プロセスを操作しようとする悪意のあるアクタ(あるいはエージェント)は、互いに競合しながら追加の障害に直面します。 バックドア攻撃では、敵がトレーニングデータに悪意のあるサンプルを導入してモデルに毒を盛ろうとするが、敵は、追加のバックドア攻撃がバックドアの成功を妨げる可能性があると考える必要がある。 本稿では,複数の非衝突攻撃者が,モデル(ディフェンダー)がタスクを学習するために使用する共有データセットにトリガされたサンプルを作成・挿入するマルチエージェントバックドア攻撃のシナリオについて検討する。 攻撃者数の増加は攻撃者の攻撃成功率(ASR)を減少させる。 そして、この現象を利用して攻撃者の集合的ASRを最小化し、防御者の堅牢性を最大化する。 (i)人為的に攻撃者数を増やすこと、 (ii) 推論モデルから攻撃者のサブデータセットを削除するインデックス付けにより、2つのディフェンスが提案される。

As collaborative learning and the outsourcing of data collection become more common, malicious actors (or agents) which attempt to manipulate the learning process face an additional obstacle as they compete with each other. In backdoor attacks, where an adversary attempts to poison a model by introducing malicious samples into the training data, adversaries have to consider that the presence of additional backdoor attackers may hamper the success of their own backdoor. In this paper, we investigate the scenario of a multi-agent backdoor attack, where multiple non-colluding attackers craft and insert triggered samples in a shared dataset which is used by a model (a defender) to learn a task. We discover a clear backfiring phenomenon: increasing the number of attackers shrinks each attacker's attack success rate (ASR). We then exploit this phenomenon to minimize the collective ASR of attackers and maximize defender's robustness accuracy by (i) artificially augmenting the number of attackers, and (ii) indexing to remove the attacker's sub-dataset from the model for inference, hence proposing 2 defenses.
翻訳日:2021-10-16 23:18:31 公開日:2021-10-09
# (参考訳) 自律運転のためのアクティブ利他学習と情報不足 [全文訳有]

Active Altruism Learning and Information Sufficiency for Autonomous Driving ( http://arxiv.org/abs/2110.04580v1 )

ライセンス: CC0 1.0
Jack Geary, Henry Gouk, Subramanian Ramamoorthy(参考訳) 車両間の安全な相互作用には、他の車両の好みを明らかにする行動を選択する能力が必要である。 探索行動は目的に直接寄与しないことが多いため、インタラクティブな車両は、その実行に適したタイミングを識別することも可能だ。 本研究では,自律走行車両(av)にインセンティブを与えるアクティブ学習手法を用いて,他車両の利他的インクリメントに関する情報を明らかにする行動を選択できることを実証する。 我々は、目的の追求に不必要に干渉しないように、報酬関数が持つべき資産である情報十分性を特定する。 我々は,情報不足を伴わない報酬関数が不適切な探索を行いやすいことを実証的に示す。 情報充実度を有する報酬定義を提案し,利他的傾向を推定する探索的行動をavが選択し,車両間の矛盾する信念の可能性を補うことができることを示す。

Safe interaction between vehicles requires the ability to choose actions that reveal the preferences of the other vehicles. Since exploratory actions often do not directly contribute to their objective, an interactive vehicle must also able to identify when it is appropriate to perform them. In this work we demonstrate how Active Learning methods can be used to incentivise an autonomous vehicle (AV) to choose actions that reveal information about the altruistic inclinations of another vehicle. We identify a property, Information Sufficiency, that a reward function should have in order to keep exploration from unnecessarily interfering with the pursuit of an objective. We empirically demonstrate that reward functions that do not have Information Sufficiency are prone to inadequate exploration, which can result in sub-optimal behaviour. We propose a reward definition that has Information Sufficiency, and show that it facilitates an AV choosing exploratory actions to estimate altruistic tendency, whilst also compensating for the possibility of conflicting beliefs between vehicles.
翻訳日:2021-10-16 23:01:53 公開日:2021-10-09
# (参考訳) 非滑らかなポテンシャルからサンプリングする近似アルゴリズム [全文訳有]

A Proximal Algorithm for Sampling from Non-smooth Potentials ( http://arxiv.org/abs/2110.04597v1 )

ライセンス: CC BY 4.0
Jiaming Liang, Yongxin Chen(参考訳) マルコフ連鎖モンテカルロ(MCMC)は、高次元の複素分布から試料を採取するための有効で支配的な方法である。 しかし、既存のMCMC手法のほとんどは、スムーズなポテンシャル(ログ密度)を持つ設定にのみ適用可能である。 本研究では,非スムースポテンシャルを用いたサンプリング問題について検討する。 非スムースポテンシャルからサンプリングする新しいmcmcアルゴリズムを提案する。 我々はアルゴリズムの非漸近解析を行い、多項式時間複雑性$\tilde {\cal O}(d\varepsilon^{-1})$を確立し、同じ仮定の下で既存のすべての結果よりも、ターゲット密度への総変量距離$\varepsilon$を得る。 本手法は,近似バンドル法と交互サンプリングフレームワークに基づく。 このフレームワークは、いわゆる制限ガウスオラクルを必要とし、凸最適化における近位写像のサンプリング版と見なすことができる。 この研究の重要な貢献は、有界リプシッツ定数を持つ凸非滑らかポテンシャルに対して制限されたガウスオラクルを実現する高速アルゴリズムである。

Markov chain Monte Carlo (MCMC) is an effective and dominant method to sample from high-dimensional complex distributions. Yet, most existing MCMC methods are only applicable to settings with smooth potentials (log-densities). In this work, we examine sampling problems with non-smooth potentials. We propose a novel MCMC algorithm for sampling from non-smooth potentials. We provide a non-asymptotical analysis of our algorithm and establish a polynomial-time complexity $\tilde {\cal O}(d\varepsilon^{-1})$ to obtain $\varepsilon$ total variation distance to the target density, better than all existing results under the same assumptions. Our method is based on the proximal bundle method and an alternating sampling framework. This framework requires the so-called restricted Gaussian oracle, which can be viewed as a sampling counterpart of the proximal mapping in convex optimization. One key contribution of this work is a fast algorithm that realizes the restricted Gaussian oracle for any convex non-smooth potential with bounded Lipschitz constant.
翻訳日:2021-10-16 22:47:26 公開日:2021-10-09
# (参考訳) 土木工学における物理ベース機械学習の展望

A Review of Physics-based Machine Learning in Civil Engineering ( http://arxiv.org/abs/2110.04600v1 )

ライセンス: CC BY 4.0
Shashank Reddy Vadyala, Sai Nethra Betgeri1, Dr. John C. Matthews, Dr. Elizabeth Matthews(参考訳) 機械学習(ML)とディープラーニング(DL)の最近の発展は、あらゆる分野の機会を増やしている。 MLは多くの分野に適用可能な重要なツールであるが、土木工学の問題への直接的な適用は困難である。 研究室でシミュレートされた土木工学アプリケーションのためのMLは、現実世界のテストでは失敗することが多い。 これは通常、MLモデルのトレーニングとテストに使用されるデータと、それが現実世界で遭遇するデータとの間のデータミスマッチによるもので、これはデータシフトとして知られる現象である。 しかし、物理に基づくMLモデルは、データ、偏微分方程式(PDE)、数学的モデルを統合し、データシフト問題を解決する。 物理に基づくMLモデルは、一般的な非線形方程式によって記述される任意の物理法則を尊重しながら、教師付き学習課題を解決するために訓練される。 物理ベースのMLは多くの科学分野において中心的な役割を担い、流体力学、量子力学、計算資源、データストレージにおいて重要な役割を果たしている。 本稿では,物理に基づくMLの歴史と土木工学への応用について述べる。

The recent development of machine learning (ML) and Deep Learning (DL) increases the opportunities in all the sectors. ML is a significant tool that can be applied across many disciplines, but its direct application to civil engineering problems can be challenging. ML for civil engineering applications that are simulated in the lab often fail in real-world tests. This is usually attributed to a data mismatch between the data used to train and test the ML model and the data it encounters in the real world, a phenomenon known as data shift. However, a physics-based ML model integrates data, partial differential equations (PDEs), and mathematical models to solve data shift problems. Physics-based ML models are trained to solve supervised learning tasks while respecting any given laws of physics described by general nonlinear equations. Physics-based ML, which takes center stage across many science disciplines, plays an important role in fluid dynamics, quantum mechanics, computational resources, and data storage. This paper reviews the history of physics-based ML and its application in civil engineering.
翻訳日:2021-10-16 22:32:45 公開日:2021-10-09
# (参考訳) 不適切なデータによるMRIアーチファクト除去の学習 [全文訳有]

Learning MRI Artifact Removal With Unpaired Data ( http://arxiv.org/abs/2110.04604v1 )

ライセンス: CC BY 4.0
Siyuan Liu, Kim-Han Thung, Liangqiong Qu, Weili Lin, Dinggang Shen, and Pew-Thian Yap(参考訳) 振り返りアーティファクト補正(RAC)は、画像の質を向上し、画像のユーザビリティを向上させる。 最近のracのための機械学習駆動技術は、主に教師付き学習に基づいているため、実用性は、ペアのアーティファクトフリーとアーティファクトラップの画像を持つデータに制限される。 ここでは、不要な画像アーティファクトを、未ペアデータで学習したRACニューラルネットワークを介して、画像から切り離すことができることを示す。 このことから,本手法では,収集やシミュレーションによって生成されるアーティファクトの破損したデータと一致する必要はない。 実験結果から, 異なるコントラスト画像において, アーティファクトの除去や解剖学的詳細の保持に極めて有効であることが示唆された。

Retrospective artifact correction (RAC) improves image quality post acquisition and enhances image usability. Recent machine learning driven techniques for RAC are predominantly based on supervised learning and therefore practical utility can be limited as data with paired artifact-free and artifact-corrupted images are typically insufficient or even non-existent. Here we show that unwanted image artifacts can be disentangled and removed from an image via an RAC neural network learned with unpaired data. This implies that our method does not require matching artifact-corrupted data to be either collected via acquisition or generated via simulation. Experimental results demonstrate that our method is remarkably effective in removing artifacts and retaining anatomical details in images with different contrasts.
翻訳日:2021-10-16 22:31:46 公開日:2021-10-09
# (参考訳) 小障害音声データセットを用いた個人化自動音声認識 [全文訳有]

Personalized Automatic Speech Recognition Trained on Small Disordered Speech Datasets ( http://arxiv.org/abs/2110.04612v1 )

ライセンス: CC BY 4.0
Jimmy Tobin and Katrin Tomanek(参考訳) 本研究では, 話者ごとの適応データを用いて, 個人別自動音声認識(ASR)の性能について検討した。 1分から18~20分程度の大きさの音声データを用いて、異なるタイプの音声障害の重症度を持つ195人のパーソナライズされたモデルを訓練した。 異なるアプリケーションシナリオで成功率(ターゲットのwerに到達するパーソナライズされたモデルの割合)を決定するために、単語誤り率(wer)閾値が選択された。 ホームオートメーションのシナリオでは、話者の79%が18~20分間のスピーチでターゲットWERに到達したが、3~4分間のスピーチでは63%がターゲットWERに到達した。 さらなる評価では、会話型およびドメイン外、プロンプトなしのフレーズを用いたテストセットでも同様の改善が見られた。 その結果、わずか数分の録音で、発話障害のある個人はパーソナライズされたasrの恩恵を受けることができた。

This study investigates the performance of personalized automatic speech recognition (ASR) for recognizing disordered speech using small amounts of per-speaker adaptation data. We trained personalized models for 195 individuals with different types and severities of speech impairment with training sets ranging in size from <1 minute to 18-20 minutes of speech data. Word error rate (WER) thresholds were selected to determine Success Percentage (the percentage of personalized models reaching the target WER) in different application scenarios. For the home automation scenario, 79% of speakers reached the target WER with 18-20 minutes of speech; but even with only 3-4 minutes of speech, 63% of speakers reached the target WER. Further evaluation found similar improvement on test sets with conversational and out-of-domain, unprompted phrases. Our results demonstrate that with only a few minutes of recordings, individuals with disordered speech could benefit from personalized ASR.
翻訳日:2021-10-16 22:13:07 公開日:2021-10-09
# (参考訳) 深部QAモデルのためのRationale抽出のためのフレームワーク [全文訳有]

A Framework for Rationale Extraction for Deep QA models ( http://arxiv.org/abs/2110.04620v1 )

ライセンス: CC BY 4.0
Sahana Ramnath, Preksha Nema, Deep Sahni, Mitesh M. Khapra(参考訳) ニューラルネットワークベースのQAモデルはより深く複雑になるにつれて、その予測に対するモデルの理論的根拠にアクセスできる堅牢なフレームワークが求められている。 モデル動作に関する洞察を提供する現在の技術は、敵のデータセットに依存するか、明示的な説明生成コンポーネントを持つモデルを提案する。 これらのテクニックは、既存のモデルや新しいデータセットを拡張するのに時間がかかり、困難です。 本研究では,既存の最先端モデルに対する根拠抽出に<Integrated Gradients' を用いて,包括的質問回答(RCQA)の処理を行う。 抽出された有理数のうち40~80%の単語は人間の有理数(精度)と一致するが、抽出された有理数(リコール)には人間の有理数の6~19%しか存在しない。

As neural-network-based QA models become deeper and more complex, there is a demand for robust frameworks which can access a model's rationale for its prediction. Current techniques that provide insights on a model's working are either dependent on adversarial datasets or are proposing models with explicit explanation generation components. These techniques are time-consuming and challenging to extend to existing models and new datasets. In this work, we use `Integrated Gradients' to extract rationale for existing state-of-the-art models in the task of Reading Comprehension based Question Answering (RCQA). On detailed analysis and comparison with collected human rationales, we find that though ~40-80% words of extracted rationale coincide with the human rationale (precision), only 6-19% of human rationale is present in the extracted rationale (recall).
翻訳日:2021-10-16 22:03:37 公開日:2021-10-09
# (参考訳) 自己教師付きコンフォーメータを用いた普遍的パラ言語表現 [全文訳有]

Universal Paralinguistic Speech Representations Using Self-Supervised Conformers ( http://arxiv.org/abs/2110.04621v1 )

ライセンス: CC BY 4.0
Joel Shor, Aren Jansen, Wei Han, Daniel Park, Yu Zhang(参考訳) 多くの音声アプリケーションは、感情を認識すること、話者がマスクを着用しているかどうかを検出すること、あるいは合成音声と現実を区別することなど、話し言葉以外の側面を理解する必要がある。 本研究では,600M+パラメータ・コンフォーマー・ベースアーキテクチャの大規模かつ完全自己教師型トレーニングから得られた,最先端のパラ言語表現を提案する。 音声タスクの多種多様なセットをベンチマークし、時間平均表現の上に訓練された単純な線形分類器が、ほとんどの過去の結果より優れており、場合によっては大きなマージンで優れていることを示す。 コンテキストウィンドウサイズを分析した結果,2秒のコンテキストウィンドウが,完全な長期コンテキストを使用するコンフォーメータのパフォーマンスを98%達成していることが分かりました。 さらに、最高のタスク毎の表現はネットワーク内部で抽出されるが、複数の層にまたがる安定したパフォーマンスにより、単一の普遍的な表現が全てのタスクにおいてほぼ最適なパフォーマンスに達することができる。

Many speech applications require understanding aspects beyond the words being spoken, such as recognizing emotion, detecting whether the speaker is wearing a mask, or distinguishing real from synthetic speech. In this work, we introduce a new state-of-the-art paralinguistic representation derived from large-scale, fully self-supervised training of a 600M+ parameter Conformer-based architecture. We benchmark on a diverse set of speech tasks and demonstrate that simple linear classifiers trained on top of our time-averaged representation outperform nearly all previous results, in some cases by large margins. Our analyses of context-window size demonstrate that, surprisingly, 2 second context-windows achieve 98% the performance of the Conformers that use the full long-term context. Furthermore, while the best per-task representations are extracted internally in the network, stable performance across several layers allows a single universal representation to reach near optimal performance on all tasks.
翻訳日:2021-10-16 21:55:55 公開日:2021-10-09
# (参考訳) 皮膚皮膚皮膚病変画像の分節化と分類に対するdrknetアプローチ [全文訳有]

DenseNet approach to segmentation and classification of dermatoscopic skin lesions images ( http://arxiv.org/abs/2110.04632v1 )

ライセンス: CC BY 4.0
Reza Zare and Arash Pourkazemi(参考訳) 現在、がんは世界で最も重要な健康上の問題の1つです。 早期発見とがんの適切な治療は患者の回復と生存に非常に有効であるため、診断ツールとしての画像処理は、がんの最初の認識において医師の診断に役立つ。 皮膚病変の診断における最も重要なステップの1つは、次のステップの精度がそれに依存するため、皮膚画像の境界を自動的に検出することである。 これらの微妙さが特定できれば、病気の診断に大きな影響を与える可能性がある。 したがって、そのような画像を分析するためのより正確なアルゴリズムを開発する良い機会がある。 本稿では, 画像分割のためのU-Netと画像分類のためのDenseNet121の2つのアーキテクチャを用いて, 皮膚病変のセグメンテーションと分類の改善手法を提案する。 我々はISIC-2018データセットでモデルのセグメンテーションアーキテクチャを検証し,HAM10000データセットで分類した。 以上の結果から,U-NetとDenseNet121アーキテクチャの組み合わせは,従来の研究と比較して皮膚画像解析において許容できる結果であることがわかった。 本研究で調べたもう1つの分類は癌および非癌サンプルである。 この分類では、癌サンプルと非癌サンプルが、それぞれ79.49%と93.11%の精度でDenseNet121ネットワークで検出された。

At present, cancer is one of the most important health issues in the world. Because early detection and appropriate treatment in cancer are very effective in the recovery and survival of patients, image processing as a diagnostic tool can help doctors to diagnose in the first recognition of cancer. One of the most important steps in diagnosing a skin lesion is to automatically detect the border of the skin image because the accuracy of the next steps depends on it. If these subtleties are identified, they can have a great impact on the diagnosis of the disease. Therefore, there is a good opportunity to develop more accurate algorithms to analyze such images. This paper proposes an improved method for segmentation and classification for skin lesions using two architectures, the U-Net for image segmentation and the DenseNet121 for image classification which have excellent accuracy. We tested the segmentation architecture of our model on the ISIC-2018 dataset and the classification on the HAM10000 dataset. Our results show that the combination of U-Net and DenseNet121 architectures provides acceptable results in dermatoscopic image analysis compared to previous research. Another classification examined in this study is cancerous and non-cancerous samples. In this classification, cancerous and non-cancerous samples were detected in DenseNet121 network with 79.49% and 93.11% accuracy respectively.
翻訳日:2021-10-16 21:45:05 公開日:2021-10-09
# (参考訳) ニューラルネットを用いたインド・デリーにおけるCOVID-19の感染拡大予測 [全文訳有]

Predicting the spread of COVID-19 in Delhi, India using Deep Residual Recurrent Neural Networks ( http://arxiv.org/abs/2110.05477v1 )

ライセンス: CC BY 4.0
Shashank Reddy Vadyala, Sai Nethra Betgeri(参考訳) 新型コロナウイルスの感染拡大を検知することは、人的・経済的損失を減らすための長い道のりとなる。 残念なことに、新型コロナウイルス19の予測モデルに使われている既存の疫学モデルは遅すぎるため、詳細を把握できない。 本研究は、部分微分方程式を用いて、SEIRDモデルによる新型コロナウイルス19の予測の処理速度と精度を向上させる。 pdesを用いてシミュレーションしたデータから,畳み込みニューラルネットワークとディープリカレントニューラルネットワークを用いてcovid-19のダイナミクスを抽出した。 DRRNNの精度は平均平方誤差を用いて測定される。 DRRNNs COVID-19予測モデルは、正確な新型コロナウイルス予測を持っていることが示されている。 さらに、DR-RNNは、リアルタイムのCOVID-19予測において意思決定を支援する能力を大幅に向上させることができると結論づけた。

Detecting the spread of coronavirus will go a long way toward reducing human and economic loss. Unfortunately, existing Epidemiological models used for COVID 19 prediction models are too slow and fail to capture the COVID-19 development in detail. This research uses Partial Differential Equations to improve the processing speed and accuracy of forecasting of COVID 19 governed by SEIRD model equations. The dynamics of COVID 19 were extracted using Convolutional Neural Networks and Deep Residual Recurrent Neural Networks from data simulated using PDEs. The DRRNNs accuracy is measured using Mean Squared Error. The DRRNNs COVID-19 prediction model has been shown to have accurate COVID-19 predictions. In addition, we concluded that DR-RNNs can significantly advance the ability to support decision-making in real time COVID-19 prediction.
翻訳日:2021-10-16 21:35:10 公開日:2021-10-09
# (参考訳) 対称確率ゲームクラスに対する独立学習アルゴリズム [全文訳有]

An Independent Learning Algorithm for a Class of Symmetric Stochastic Games ( http://arxiv.org/abs/2110.04638v1 )

ライセンス: CC BY 4.0
Bora Yongacoglu, G\"urdal Arslan, Serdar Y\"uksel(参考訳) マルチエージェント強化学習では、独立学習者はシステム内の他の学習エージェントの行動選択にアクセスできない学習者である。 本稿では,独立学習者を用いて非定型確率ゲームにおける近似均衡政策を見出す可能性について検討する。 ここでは$\epsilon$-revision pathsプロパティと呼ばれるプロパティを定義し、プレイヤー間で対称性を示すゲームのクラスが$\epsilon \geq 0$に対してこのプロパティを持つことを示す。 この結果に基づいて,このクラスのゲームにおいて,近似平衡の確率保証の高い独立学習アルゴリズムを提案する。 この保証は、ゼロ和、チーム、潜在的なゲーム構造のような追加の仮定なしで対称性のみを仮定する。

In multi-agent reinforcement learning, independent learners are those that do not access the action selections of other learning agents in the system. This paper investigates the feasibility of using independent learners to find approximate equilibrium policies in non-episodic, discounted stochastic games. We define a property, here called the $\epsilon$-revision paths property, and prove that a class of games exhibiting symmetry among the players has this property for any $\epsilon \geq 0$. Building on this result, we present an independent learning algorithm that comes with high probability guarantees of approximate equilibrium in this class of games. This guarantee is made assuming symmetry alone, without additional assumptions such as a zero sum, team, or potential game structure.
翻訳日:2021-10-16 21:26:35 公開日:2021-10-09
# (参考訳) 合成一般化のためのアンタングル型シーケンス学習 [全文訳有]

Disentangled Sequence to Sequence Learning for Compositional Generalization ( http://arxiv.org/abs/2110.04655v1 )

ライセンス: CC BY 4.0
Hao Zheng and Mirella Lapata(参考訳) 既存のニューラルネットワークモデル、特に非常に人気のあるsequence-to-sequence アーキテクチャは、構成の一般化に苦しむこと、すなわち、見掛けられたコンポーネントの見当たらない構成に体系的に一般化する能力に苦しむことの証拠がある。 本稿では,合成一般化を妨げる理由の一つとして,絡み合う表現との関連性を示す。 本稿では,ソース入力を(各時間ステップ毎に)適応的に再エンコードすることで,絡み合った表現を学習できるシーケンス・ツー・シーケンスモデルの拡張を提案する。 具体的には、新たにデコードされたターゲットコンテキストのソース表現を条件として、すべてのソース情報を単一のフォワードパスでキャプチャする代わりに、エンコーダが予測毎に特別な情報を利用するのを容易にする。 意味解析と機械翻訳の実験結果から,提案手法はより不連続な表現とより良い一般化をもたらすことが示された。

There is mounting evidence that existing neural network models, in particular the very popular sequence-to-sequence architecture, struggle with compositional generalization, i.e., the ability to systematically generalize to unseen compositions of seen components. In this paper we demonstrate that one of the reasons hindering compositional generalization relates to the representations being entangled. We propose an extension to sequence-to-sequence models which allows us to learn disentangled representations by adaptively re-encoding (at each time step) the source input. Specifically, we condition the source representations on the newly decoded target context which makes it easier for the encoder to exploit specialized information for each prediction rather than capturing all source information in a single forward pass. Experimental results on semantic parsing and machine translation empirically show that our proposal yields more disentangled representations and better generalization.
翻訳日:2021-10-16 20:52:15 公開日:2021-10-09
# (参考訳) 適応放射線治療のための cyclegan-based cbct enhancement の制約の検討

Exploring constraints on CycleGAN-based CBCT enhancement for adaptive radiotherapy ( http://arxiv.org/abs/2110.04659v1 )

ライセンス: CC BY 4.0
Suraj Pai(参考訳) サイクガンベースの合成画像生成を探求する研究は、最近医療コミュニティで加速され、ペアリングされていないデータセットを効果的に活用できるようになった。 しかし,これらの合成画像の臨床的受容は,厳密な評価プロトコルの対象となるため,大きな課題となる。 一般的に確立されたCycleGANの欠点として、生成された画像にアーティファクトを導入することは、医療画像では許せない。 この欠点を軽減するため,CycleGANの異なる制約を探索し,これらの制約の適応制御について検討する。 損失を保持する構造という形で、サイクルガンに付加的な制約を課すことの利点も検討されている。 ソースとターゲットの間の周波数領域の内容を保存する \cite{jiang2020focal} に触発された一般化された周波数損失を調査し、マインドロスarxiv:1809.04536のような既存の損失と比較する。 提案手法から生成された合成画像は,ベースラインのCycleGANおよび他のアプローチよりも定量的に,質的に優れている。 さらに、観察可能なアーティファクトや画像品質の損失は見られず、これらの合成画像の受容に不可欠である。 このように生成された合成医用画像は、臨床ワークフローへの適用性を明確に強調するために、ドメイン固有の評価とセグメンテーションを下流タスクとして用いることにより評価される。

Research exploring CycleGAN-based synthetic image generation has recently accelerated in the medical community, as it is able to leverage unpaired datasets effectively. However, clinical acceptance of these synthetic images pose a significant challenge as they are subject to strict evaluation protocols. A commonly established drawback of the CycleGAN, the introduction of artifacts in generated images is unforgivable in the case of medical images. In an attempt to alleviate this drawback, we explore different constraints of the CycleGAN along with investigation of adaptive control of these constraints. The benefits of imposing additional constraints on the CycleGAN, in the form of structure retaining losses is also explored. A generalized frequency loss inspired by \cite{jiang2020focal} that preserves content in the frequency domain between source and target is investigated and compared with existing losses such as the MIND loss arXiv:1809.04536. Synthetic images generated from our methods are quantitatively and qualitatively investigated and outperform the baseline CycleGAN and other approaches. Furthermore, no observable artifacts or loss in image quality is found, which is critical for acceptance of these synthetic images. The synthetic medical images thus generated are also evaluated using domain-specific evaluation and using segmentation as a downstream task, in order to clearly highlight their applicability to clinical workflows.
翻訳日:2021-10-16 20:31:06 公開日:2021-10-09
# (参考訳) 漸進的ドリフト概念の認知的学習 [全文訳有]

Cognitively Inspired Learning of Incremental Drifting Concepts ( http://arxiv.org/abs/2110.04662v1 )

ライセンス: CC BY 4.0
Mohammad Rostami and Aram Galstyan(参考訳) 人間は新しいドメインに学習知識を継続的に拡張し、過去の学習経験に干渉することなく新しい概念を学ぶ。 対照的に、機械学習モデルでは、入力データ分布が時間とともに変化する連続学習環境では、パフォーマンスが低下する。 神経系学習機構に触発されて、深層ニューラルネットワークが新しい概念を学習し、学習知識を連続的な学習環境で段階的に新しい領域に拡大することを可能にする計算モデルを開発した。 我々は,マルチモーダル分布の観点から,抽象概念を埋め込み空間にエンコードするために並列分散処理理論を利用する。 この埋め込み空間は、隠れたネットワーク層の内部データ表現によってモデル化される。 また,補足学習システム理論を活用し,擬似リハーサルの実装による破滅的な忘れを克服するメモリ機構をモデルに適用する。 我々のモデルは、過去の学習経験に新たな経験を蓄積し、タスク間の干渉を引き起こすことなく擬似データポイントを生成することができる。

Humans continually expand their learned knowledge to new domains and learn new concepts without any interference with past learned experiences. In contrast, machine learning models perform poorly in a continual learning setting, where input data distribution changes over time. Inspired by the nervous system learning mechanisms, we develop a computational model that enables a deep neural network to learn new concepts and expand its learned knowledge to new domains incrementally in a continual learning setting. We rely on the Parallel Distributed Processing theory to encode abstract concepts in an embedding space in terms of a multimodal distribution. This embedding space is modeled by internal data representations in a hidden network layer. We also leverage the Complementary Learning Systems theory to equip the model with a memory mechanism to overcome catastrophic forgetting through implementing pseudo-rehearsal. Our model can generate pseudo-data points for experience replay and accumulate new experiences to past learned experiences without causing cross-task interference.
翻訳日:2021-10-16 20:29:02 公開日:2021-10-09
# (参考訳) ロボットタスク計画におけるヒューマンガイド型因果知識の利用 [全文訳有]

Using Human-Guided Causal Knowledge for More Generalized Robot Task Planning ( http://arxiv.org/abs/2110.04664v1 )

ライセンス: CC BY 4.0
Semir Tatlidil (1), Yanqi Liu (1), Emily Sheetz (2), R. Iris Bahar (1), Steven Sloman (1) ((1) Brown University, (2) University of Michigan)(参考訳) 人工知能(AI)研究における大きな課題は、さまざまな環境やタスクに一般化可能な問題に対する解決策を見つけるアルゴリズムの開発である。 AIとは異なり、人間は移動可能なソリューションを見つけることに精通している。 これは、それらの解が因果モデルによって通知されるためである。 我々はロボットが新しい環境に一般化できる解決策を見つけるのを助けるために、人間主導の因果知識を使うよう提案する。 参加者がこれらの因果関係モデルをプランナーに伝達するために使用できる言語インターフェースの実現可能性を開発し,検証する。 参加者が私たちのインターフェースを使い、ほぼ一般化できる因果モデルを生成することができるという予備的証拠を見出した。 我々は,我々のインタフェースを用いた遠方一般化テストを目的とした実験を概説し,これらの因果モデルに対する長期的目標について述べる。

A major challenge in research involving artificial intelligence (AI) is the development of algorithms that can find solutions to problems that can generalize to different environments and tasks. Unlike AI, humans are adept at finding solutions that can transfer. We hypothesize this is because their solutions are informed by causal models. We propose to use human-guided causal knowledge to help robots find solutions that can generalize to a new environment. We develop and test the feasibility of a language interface that na\"ive participants can use to communicate these causal models to a planner. We find preliminary evidence that participants are able to use our interface and generate causal models that achieve near-generalization. We outline an experiment aimed at testing far-generalization using our interface and describe our longer terms goals for these causal models.
翻訳日:2021-10-16 20:07:36 公開日:2021-10-09
# 適応速度制御による無線画像伝送のためのディープジョイントソースチャネル符号化

Deep Joint Source-Channel Coding for Wireless Image Transmission with Adaptive Rate Control ( http://arxiv.org/abs/2110.04456v1 )

ライセンス: Link先を確認
Mingyu Yang, Hun-Seok Kim(参考訳) 本稿では,無線画像伝送のための新しい適応型深層チャネル符号化(jscc)方式を提案する。 提案手法は,単一のディープニューラルネットワーク(dnn)モデルを用いて複数のレートをサポートし,チャネル条件と画像内容に基づいて速度を動的に制御する。 具体的には、レートと信号品質のトレードオフ空間を利用するためにポリシーネットワークを導入する。 ポリシネットワークのトレーニングには,Gumbel-Softmax のトリックを採用してポリシネットワークの差別化を実現し,JSCC のスキーム全体をエンドツーエンドにトレーニングすることができる。 我々の知る限りでは、これは単一のネットワークモデルを用いて自動的にレートを調整できる最初のディープJSCCスキームである。 実験の結果,高snrシナリオや簡易画像コンテンツのチャネル帯域幅利用率を低減させる合理的なポリシーが得られた。 任意のターゲットレートに対して,固定目標レートに特化して訓練された最適化モデルと比較して,単一モデルを用いたレート適応型スキームが同様の性能を達成する。 結果を再現するため、ソースコードはhttps://github.com/m ingyuyng/Dynamic_JSC Cで公開しています。

We present a novel adaptive deep joint source-channel coding (JSCC) scheme for wireless image transmission. The proposed scheme supports multiple rates using a single deep neural network (DNN) model and learns to dynamically control the rate based on the channel condition and image contents. Specifically, a policy network is introduced to exploit the tradeoff space between the rate and signal quality. To train the policy network, the Gumbel-Softmax trick is adopted to make the policy network differentiable and hence the whole JSCC scheme can be trained end-to-end. To the best of our knowledge, this is the first deep JSCC scheme that can automatically adjust its rate using a single network model. Experiments show that our scheme successfully learns a reasonable policy that decreases channel bandwidth utilization for high SNR scenarios or simple image contents. For an arbitrary target rate, our rate-adaptive scheme using a single model achieves similar performance compared to an optimized model specifically trained for that fixed target rate. To reproduce our results, we make the source code publicly available at https://github.com/m ingyuyng/Dynamic_JSC C.
翻訳日:2021-10-12 20:59:37 公開日:2021-10-09
# Themis: DLモデルの分散トレーニングのためのネットワーク帯域対応集合スケジューリングポリシー

Themis: A Network Bandwidth-Aware Collective Scheduling Policy for Distributed Training of DL Models ( http://arxiv.org/abs/2110.04478v1 )

ライセンス: Link先を確認
Saeed Rashidi, William Won, Sudarshan Srinivasan, Srinivas Sridharan, Tushar Krishna(参考訳) 現代のDeep Neural Networks(DNN)モデルのサイズとトレーニングデータの継続的な成長は、トレーニングタスクに数日から数ヶ月を要した。 分散トレーニングは、タスクを複数のNPU(GPU/TPUなど)に分割することで、トレーニング時間を短縮するソリューションである。 しかし、分散トレーニングは、並列化戦略に応じて勾配と/またはアクティベーションを同期させるために、NPU間の通信オーバーヘッドを追加する。 今日のデータセンターでは、大規模なトレーニングのために、NPUは異なる帯域幅とレイテンシを持つ多次元相互接続リンクを介して接続される。 したがって、このようなハイブリッドネットワーク環境では、すべてのネットワーク次元を忙しくし、ネットワークbwを最大化することが難しい課題である。 Themisは,全次元にわたる通信負荷のバランスをとるために,グループ(チャンクに分割)を動的にスケジュールし,ネットワークBW利用を改善する新しい集合スケジューリング手法を提案する。 Themis はネットワーク BW の利用率を平均 1.88x (2.92xmax) で改善し,ResNet-50, GNMT, DLRM, Transformer-1T などの実ワークロードのエンドツーエンドトレーニング繰り返し性能を 1.49x (1.96xmax), 1.41x (1.81xmax), 1.42x (1.80xmax), 1.35x (1.78xmax) で向上できることを示した。

The continuous growth in both size and training data for modern Deep Neural Networks (DNNs) models has led to training tasks taking days or even months. Distributed training is a solution to reduce training time by splitting the task across multiple NPUs (e.g., GPU/TPU). However, distributed training adds communication overhead between the NPUs in order to synchronize the gradients and/or activation, depending on the parallelization strategy. In today's datacenters, for training at scale, NPUs are connected through multi-dimensional interconnection links with different bandwidth and latency. Hence, keeping all network dimensions busy and maximizing the network BW is a challenging task in such a hybrid network environment, as this work identifies. We propose Themis, a novel collective scheduling scheme that dynamically schedules collectives (divided into chunks) to balance the communication loads across all dimensions, further improving the network BW utilization. Our results show that on average, Themis can improve the network BW utilization of single All-Reduce by 1.88x (2.92x max), and improve the end-to-end training iteration performance of real workloads such as ResNet-50, GNMT, DLRM, and Transformer- 1T by 1.49x (1.96x max), 1.41x (1.81x max), 1.42x (1.80x max), and 1.35x (1.78x max), respectively.
翻訳日:2021-10-12 20:59:19 公開日:2021-10-09
# 過パラメータモデルを用いた圧縮分散確率勾配アルゴリズムの実証的研究

An Empirical Study on Compressed Decentralized Stochastic Gradient Algorithms with Overparameterized Models ( http://arxiv.org/abs/2110.04523v1 )

ライセンス: Link先を確認
Arjun Ashok Rao and Hoi-To Wai(参考訳) 本稿では,グラフ上での機械学習による分散最適化について考察する。 ニューラルネットワーク(NN)モデルの増大するサイズは、通信圧縮を組み込む分散確率勾配アルゴリズムに関する先行研究を動機付けている。 一方,近年の研究では,過パラメータ化NNの収束性や一般化性を実証している。 本研究では,過パラメータnnを用いた圧縮分散確率勾配(dsg)アルゴリズムの性能に関する経験的解析を行う。 MPIネットワーク環境におけるシミュレーションにより、一般的な圧縮DSGアルゴリズムの収束速度がNNのサイズに頑健であることを確認する。 以上より,既存の文献における圧縮dsgアルゴリズムの理論と実践のギャップが示唆された。

This paper considers decentralized optimization with application to machine learning on graphs. The growing size of neural network (NN) models has motivated prior works on decentralized stochastic gradient algorithms to incorporate communication compression. On the other hand, recent works have demonstrated the favorable convergence and generalization properties of overparameterized NNs. In this work, we present an empirical analysis on the performance of compressed decentralized stochastic gradient (DSG) algorithms with overparameterized NNs. Through simulations on an MPI network environment, we observe that the convergence rates of popular compressed DSG algorithms are robust to the size of NNs. Our findings suggest a gap between theories and practice of the compressed DSG algorithms in the existing literature.
翻訳日:2021-10-12 20:58:50 公開日:2021-10-09
# トポロジカルデータ解析(TDA)技術によるECoGニューラル記録からのハンドポース分類

Topological Data Analysis (TDA) Techniques Enhance Hand Pose Classification from ECoG Neural Recordings ( http://arxiv.org/abs/2110.04653v1 )

ライセンス: Link先を確認
Simone Azeglio, Arianna Di Bernardo, Gabriele Penna, Fabrizio Pittatore, Simone Poetto, Johannes Gruenwald, Christoph Kapeller, Kyousuke Kamada, Christoph Guger(参考訳) 心電図(ECoG)は手の動きの意図とジェスチャーを特徴付ける。 本研究は,時系列データのトポロジ的記述を導入し,手ポーズの分類を強化する可能性について,Rock-Paper-ScissorタスクとRestタスクで検討することを目的とする。 我々は、トポロジカルデータ分析に基づく革新的なアプローチは、標準的な脳コンピュータインタフェース(BCI)技術では検出できない隠された情報を抽出できると仮定した。 この仮説を検討するために,位相特徴をパワーバンド特徴と統合し,ランダムフォレストや勾配ブースティングなど,いくつかの標準分類器に供給する。 モデル選択はベイジアンハイパーパラメータ最適化の微妙なフェーズ後に完了する。 本手法では,4ラベルの分類問題に対して,可利用データに制限のあるAC精度で頑健な結果が得られた。 特徴的重要性調査を通じて,トポロジカル・ディスクリプタは有用な識別情報を抽出し,新たな洞察を与えることができると結論づけた。 いずれにせよ,本手法は幅広い神経生理学的記録に適用可能であり,今後の研究の出発点となるかもしれない。

Electrocorticogram (ECoG) well characterizes hand movement intentions and gestures. In the present work we aim to investigate the possibility to enhance hand pose classification, in a Rock-Paper-Scissor - and Rest - task, by introducing topological descriptors of time series data. We hypothesized that an innovative approach based on topological data analysis can extract hidden information that are not detectable with standard Brain Computer Interface (BCI)techniques. To investigate this hypothesis, we integrate topological features together with power band features and feed them to several standard classifiers, e.g. Random Forest,Gradient Boosting. Model selection is thus completed after a meticulous phase of bayesian hyperparameter optimization. With our method, we observed robust results in terms of ac-curacy for a four-labels classification problem, with limited available data. Through feature importance investigation, we conclude that topological descriptors are able to extract useful discriminative information and provide novel insights.Since our data are restricted to single-patient recordings, generalization might be limited. Nevertheless, our method can be extended and applied to a wide range of neurophysiological recordings and it might be an intriguing point of departure for future studies.
翻訳日:2021-10-12 20:56:40 公開日:2021-10-09
# 音声とタッチによる音声によるデバイス指向音声のオンデバイス検出

Streaming on-device detection of device directed speech from voice and touch-based invocation ( http://arxiv.org/abs/2110.04656v1 )

ライセンス: Link先を確認
Ognjen Rudovic, Akanksha Bindal, Vineet Garg, Pramod Simha, Pranay Dighe and Sachin Kajarekar(参考訳) 携帯電話やウェアラブルなどのスマートデバイスと対話する場合、ユーザーは通常、キーワードを言ったり、デバイスにボタンを押すことで仮想アシスタント(VA)を呼び出す。 しかし、多くの場合、vaはキーワードのような音声や偶然のボタンを押して誤って呼び出すことができ、それはユーザー体験やプライバシーに影響を及ぼす可能性がある。 そこで本研究では,音声トリガーとタッチベースの呼び出しを同時に処理するオンデバイスデバイス指向音声検出のための,音響的偽トリガー除去(FTM)アプローチを提案する。 デバイス上でのモデル展開を容易にするため,時間的畳み込みネットワーク(TCN)[1]の概念を応用した新しいストリーミング決定層を導入する。 我々の知る限りでは、これはストリーミング方式で複数の呼び出しタイプからデバイス指向の音声を検出する最初のアプローチである。 このアプローチを,バニラ平均層と標準LSTMに基づくストリーミング代替手段と比較し,以下の結果を示す。 (i)全てのモデルが呼び出し特化モデルと比較して精度の低下が少ないこと、及び (i) 新たに導入されたストリーミングTCNは,非ストリーミングと比較して,非指向音声の時間短縮と,LSTMベースのアプローチによる実行時のピークメモリの33%対7%の(相対的な)削減を図りながら,従来と同等あるいは同等の動作を実現している。

When interacting with smart devices such as mobile phones or wearables, the user typically invokes a virtual assistant (VA) by saying a keyword or by pressing a button on the device. However, in many cases, the VA can accidentally be invoked by the keyword-like speech or accidental button press, which may have implications on user experience and privacy. To this end, we propose an acoustic false-trigger-mitiga tion (FTM) approach for on-device device-directed speech detection that simultaneously handles the voice-trigger and touch-based invocation. To facilitate the model deployment on-device, we introduce a new streaming decision layer, derived using the notion of temporal convolutional networks (TCN) [1], known for their computational efficiency. To the best of our knowledge, this is the first approach that can detect device-directed speech from more than one invocation type in a streaming fashion. We compare this approach with streaming alternatives based on vanilla Average layer, and canonical LSTMs, and show: (i) that all the models show only a small degradation in accuracy compared with the invocation-specific models, and (ii) that the newly introduced streaming TCN consistently performs better or comparable with the alternatives, while mitigating device undirected speech faster in time, and with (relative) reduction in runtime peak-memory over the LSTM-based approach of 33% vs. 7%, when compared to a non-streaming counterpart.
翻訳日:2021-10-12 20:56:19 公開日:2021-10-09
# ProductAE: ニューラル製品コードに基づく大規模チャネルコードのトレーニングを目指す

ProductAE: Towards Training Larger Channel Codes based on Neural Product Codes ( http://arxiv.org/abs/2110.04466v1 )

ライセンス: Link先を確認
Mohammad Vahid Jamali, Hamid Saber, Homayoon Hatami, Jung Hyun Bae(参考訳) 近年、深層学習によるチャネルエンコーダとデコーダの設計を自動化するための研究が盛んに行われている。 チャネル符号化における次元的課題のため、ディープラーニング技術による比較的大きなニューラルチャネル符号の設計と訓練は極めて複雑である。 したがって、文献上の結果の大部分は、100ビット未満の情報ビットを持つ比較的短いコードに限られる。 本稿では、比較的大きなチャネル符号(エンコーダとデコーダの両方)を、管理可能な訓練複雑性でトレーニング可能にすることを目的とした、ディープラーニング駆動型(エンコーダ、デコーダ)ペアの計算効率の良いファミリーであるProductAEsを構築する。 我々は、古典的な製品コードからアイデアを構築し、より小さなコードコンポーネントを使って大きなニューラルコードを構築することを提案する。 具体的には、次元$k$とブロック長$n$の大規模なニューラルコードに対して、エンコーダとデコーダを直接トレーニングする代わりに、コードパラメータ$(k_1,n_1)$と$(k_2,n_2)$のニューラルエンコーダとデコーダをトレーニングする必要があるフレームワークを提供し、$k_1 k_2=k$と$n_1 n_2=n$である。 学習結果から,snr (signal-to-noise ratio) のすべての範囲において,パラメータ$(100,225)$ とパラメータ$(196,441)$ の適度な長さの符号に対して,連続キャンセル (sc) デコーダによる極性符号に対して有意な向上が認められた。 さらに,ターボオートエンコーダ (turboae) や最先端の古典符号よりも有意義な性能を示す。 これは製品オートエンコーダを設計する最初の作業であり、大規模なチャネルコードのトレーニングに関する先駆的な作業である。

There have been significant research activities in recent years to automate the design of channel encoders and decoders via deep learning. Due the dimensionality challenge in channel coding, it is prohibitively complex to design and train relatively large neural channel codes via deep learning techniques. Consequently, most of the results in the literature are limited to relatively short codes having less than 100 information bits. In this paper, we construct ProductAEs, a computationally efficient family of deep-learning driven (encoder, decoder) pairs, that aim at enabling the training of relatively large channel codes (both encoders and decoders) with a manageable training complexity. We build upon the ideas from classical product codes, and propose constructing large neural codes using smaller code components. More specifically, instead of directly training the encoder and decoder for a large neural code of dimension $k$ and blocklength $n$, we provide a framework that requires training neural encoders and decoders for the code parameters $(k_1,n_1)$ and $(k_2,n_2)$ such that $k_1 k_2=k$ and $n_1 n_2=n$. Our training results show significant gains, over all ranges of signal-to-noise ratio (SNR), for a code of parameters $(100,225)$ and a moderate-length code of parameters $(196,441)$, over polar codes under successive cancellation (SC) decoder. Moreover, our results demonstrate meaningful gains over Turbo Autoencoder (TurboAE) and state-of-the-art classical codes. This is the first work to design product autoencoders and a pioneering work on training large channel codes.
翻訳日:2021-10-12 20:49:24 公開日:2021-10-09
# マルチエージェントMDP同型ネットワーク

Multi-Agent MDP Homomorphic Networks ( http://arxiv.org/abs/2110.04495v1 )

ライセンス: Link先を確認
Elise van der Pol, Herke van Hoof, Frans A. Oliehoek, Max Welling(参考訳) 本稿では,ローカル情報のみを用いた分散実行が可能なネットワークのクラスであるMulti-Agent MDP準同型ネットワークについて紹介する。 協調マルチエージェントシステムでは、複雑な対称性がエージェントの異なる構成と局所的な観察の間に生じる。 例えば、ナビゲートするエージェントのグループを考える: 状態をグローバルに回転させることで、最適なジョイントポリシーの順列が得られる。 単一エージェント強化学習における既存の対称性の研究は、すべての状態-作用空間における大域的対称性に依存するため、完全集中的な設定にしか一般化できない。 このような対称性を分散実行を許容しながら符号化するために,グローバル対称性を局所変換に分解する因子化を提案する。 提案する因子化により,局所エージェントや局所的相互作用に対してグローバル対称性を強制する計算を分散することができる。 この因子化に基づくマルチエージェント同変ポリシーネットワークを導入する。 我々は、グローバルな対称ポリシーの分散実行により、非等価なベースラインに比べてデータ効率が向上する、対称多エージェント問題に実証的に言及する。

This paper introduces Multi-Agent MDP Homomorphic Networks, a class of networks that allows distributed execution using only local information, yet is able to share experience between global symmetries in the joint state-action space of cooperative multi-agent systems. In cooperative multi-agent systems, complex symmetries arise between different configurations of the agents and their local observations. For example, consider a group of agents navigating: rotating the state globally results in a permutation of the optimal joint policy. Existing work on symmetries in single agent reinforcement learning can only be generalized to the fully centralized setting, because such approaches rely on the global symmetry in the full state-action spaces, and these can result in correspondences across agents. To encode such symmetries while still allowing distributed execution we propose a factorization that decomposes global symmetries into local transformations. Our proposed factorization allows for distributing the computation that enforces global symmetries over local agents and local interactions. We introduce a multi-agent equivariant policy network based on this factorization. We show empirically on symmetric multi-agent problems that distributed execution of globally symmetric policies improves data efficiency compared to non-equivariant baselines.
翻訳日:2021-10-12 19:41:47 公開日:2021-10-09
# ロボットに人間のように掴むことを教える:対話的アプローチ

Teaching Robots to Grasp Like Humans: An Interactive Approach ( http://arxiv.org/abs/2110.04534v1 )

ライセンス: Link先を確認
Anna M\'esz\'aros, Giovanni Franzese, and Jens Kober(参考訳) 本研究は,人間から手のひらをつかむことの難易度を,実演や修正によって検証する。 作業の複雑さのため、これらのデモンストレーションはしばしば遅く、特に複数の側面(例えば、エンドエフェクタの動き、方向、グリッパーの幅)を同時に示す必要がある瞬間に、多少の欠陥がある。 より良いデモを提供するように訓練する代わりに、専門家でないユーザには、遠隔操作による修正フィードバックを通じて、最初のデモのダイナミクスをインタラクティブに修正する能力が提供される。 これにより、彼ら自身の身体能力以外の動きを教えることができる。 結局のところ、ゴールはタスクの高速かつ信頼性の高い実行を得ることである。 提案フレームワークはガウス過程(GP)を用いた現在のカルテシアン位置に基づいて所望の運動力学を学習し、反応的かつ時間不変なポリシーをもたらす。 GPを使用すると、疫学的不確実性の最小化によるオンラインのインタラクティブな修正や能動的外乱の拒絶が可能である。 この枠組みの実験的評価はfranka-emika pandaを用いて行われる。

This work investigates how the intricate task of grasping may be learned from humans based on demonstrations and corrections. Due to the complexity of the task, these demonstrations are often slow and even slightly flawed, particularly at moments when multiple aspects (i.e., end-effector movement, orientation, and gripper width) have to be demonstrated at once. Rather than training a person to provide better demonstrations, non-expert users are provided with the ability to interactively modify the dynamics of their initial demonstration through teleoperated corrective feedback. This in turn allows them to teach motions outside of their own physical capabilities. In the end, the goal is to obtain a faster but reliable execution of the task. The presented framework learns the desired movement dynamics based on the current Cartesian Position with Gaussian Processes (GP), resulting in a reactive, time-invariant policy. Using GPs also allows online interactive corrections and active disturbance rejection through epistemic uncertainty minimization. The experimental evaluation of the framework is carried out on a Franka-Emika Panda.
翻訳日:2021-10-12 19:40:13 公開日:2021-10-09
# 全てを埋め込む:マルチモーダル空間を効率的に組み込む方法

Embed Everything: A Method for Efficiently Co-Embedding Multi-Modal Spaces ( http://arxiv.org/abs/2110.04599v1 )

ライセンス: Link先を確認
Sarah Di, Robin Yu, Amol Kapoor(参考訳) あらゆる一般的な人工知能システムは、音声、画像、テキストなどを表現できるマルチモーダルな潜在空間でデータを解釈、操作、生成できる必要があります。 過去10年間で、ディープニューラルネットワークは単調なデータ分布で顕著な成功を収め、トランスファーラーニング技術は関連するドメイン間でモデルの再利用が大幅に拡大した。 しかし、スクラッチからマルチモーダルネットワークをトレーニングすることは高価であり、また、ヘテロジニアストランスファーラーニング(HTL)技術は比較的開発が進んでいない。 本稿では,マルチモーダル空間を包含する新しい,コスト効率の高いHTL戦略を提案する。 本手法は,各コンポーネントに対する事前学習モデルを用いて埋め込みを前処理することでコスト不効率を回避する。 共同画像・オーディオ埋め込み作業における本システムの利用を実証する。 提案手法は,異なる潜在空間間のギャップを埋めることによって,約束される「普遍的」埋め込みのためのフレームワークを提供するため,広い範囲の応用が期待できる。

Any general artificial intelligence system must be able to interpret, operate on, and produce data in a multi-modal latent space that can represent audio, imagery, text, and more. In the last decade, deep neural networks have seen remarkable success in unimodal data distributions, while transfer learning techniques have seen a massive expansion of model reuse across related domains. However, training multi-modal networks from scratch remains expensive and illusive, while heterogeneous transfer learning (HTL) techniques remain relatively underdeveloped. In this paper, we propose a novel and cost-effective HTL strategy for co-embedding multi-modal spaces. Our method avoids cost inefficiencies by preprocessing embeddings using pretrained models for all components, without passing gradients through these models. We prove the use of this system in a joint image-audio embedding task. Our method has wide-reaching applications, as successfully bridging the gap between different latent spaces could provide a framework for the promised "universal" embedding.
翻訳日:2021-10-12 19:39:53 公開日:2021-10-09
# 反復リファインメントグラフニューラルネットワークによる抗体配列-構造共設計

Iterative Refinement Graph Neural Network for Antibody Sequence-Structure Co-design ( http://arxiv.org/abs/2110.04624v1 )

ライセンス: Link先を確認
Wengong Jin, Jeremy Wohlwend, Regina Barzilay, Tommi Jaakkola(参考訳) 抗体はウイルスのような病原体に結合し、適応免疫系を刺激する多用途タンパク質である。 抗体結合の特異性は、これらのY型タンパク質の先端における相補性決定領域(CDR)によって決定される。 本稿では,結合特異性や中和性を増強した抗体のCDRを自動設計する生成モデルを提案する。 従来の生成手法は、所望の3D構造が予め与えられると仮定して、構造条件付き配列生成タスクとしてタンパク質設計を定式化する。 対照的に、我々はCDRのシーケンスと3次元構造をグラフとして設計する。 我々のモデルは、予測された大域構造を反復的に精錬しながら、シーケンスを自己回帰的に解き放つ。 推論された構造は、後続の残基の選択を導く。 効率性のために,CDR内部および外部の残基間の条件依存性を粗い粒度でモデル化する。 本手法は,SARS-CoV-2ウイルスを中和可能な抗体の設計において,テストセット上で優れたログライクレーションを実現し,過去のベースラインよりも優れていた。

Antibodies are versatile proteins that bind to pathogens like viruses and stimulate the adaptive immune system. The specificity of antibody binding is determined by complementarity-dete rmining regions (CDRs) at the tips of these Y-shaped proteins. In this paper, we propose a generative model to automatically design the CDRs of antibodies with enhanced binding specificity or neutralization capabilities. Previous generative approaches formulate protein design as a structure-conditione d sequence generation task, assuming the desired 3D structure is given a priori. In contrast, we propose to co-design the sequence and 3D structure of CDRs as graphs. Our model unravels a sequence autoregressively while iteratively refining its predicted global structure. The inferred structure in turn guides subsequent residue choices. For efficiency, we model the conditional dependence between residues inside and outside of a CDR in a coarse-grained manner. Our method achieves superior log-likelihood on the test set and outperforms previous baselines in designing antibodies capable of neutralizing the SARS-CoV-2 virus.
翻訳日:2021-10-12 19:39:35 公開日:2021-10-09
# 多言語音声合成の生涯学習に向けて

Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis ( http://arxiv.org/abs/2110.04482v1 )

ライセンス: Link先を確認
Mu Yang, Shaojin Ding, Tianlong Chen, Tong Wang, Zhangyang Wang(参考訳) 本研究は,多言語テキスト音声(TTS)システムにおいて,各言語を個別のタスクとみなし,逐次的かつ継続的に学習する,生涯学習手法を提案する。 すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。 生涯学習手法の課題の1つは「破滅的な忘れ方」である:TSシナリオでは、新しい言語に適応すると、モデルの性能が以前の言語で急速に低下することを意味する。 データ再生型生涯学習手法を用いてこの問題にアプローチする。 本稿では,リプレイ過程を教師付き学習問題として定式化し,言語不均衡なトレーニングサンプルに対処するための,シンプルで効果的なデュアルサンプルフレームワークを提案する。 客観的および主観的評価を通して,この教師付き学習定式化は他の勾配ベースおよび正規化ベースの生涯学習法よりも優れており,微調整ベースラインと比較して43%のメル・ケプストラム歪み低減を達成した。

This work presents a lifelong learning approach to train a multilingual Text-To-Speech (TTS) system, where each language was seen as an individual task and was learned sequentially and continually. It does not require pooled data from all languages altogether, and thus alleviates the storage and computation burden. One of the challenges of lifelong learning methods is "catastrophic forgetting": in TTS scenario it means that model performance quickly degrades on previous languages when adapted to a new language. We approach this problem via a data-replay-based lifelong learning method. We formulate the replay process as a supervised learning problem, and propose a simple yet effective dual-sampler framework to tackle the heavily language-imbalanced training samples. Through objective and subjective evaluations, we show that this supervised learning formulation outperforms other gradient-based and regularization-based lifelong learning methods, achieving 43% Mel-Cepstral Distortion reduction compared to a fine-tuning baseline.
翻訳日:2021-10-12 19:21:57 公開日:2021-10-09
# Wav2vec-S: 音声認識のための半教師付き事前学習

Wav2vec-S: Semi-Supervised Pre-Training for Speech Recognition ( http://arxiv.org/abs/2110.04484v1 )

ライセンス: Link先を確認
Han Zhu, Li Wang, Ying Hou, Jindong Wang, Gaofeng Cheng, Pengyuan Zhang, Yonghong Yan(参考訳) 自己教師付き事前学習は自動音声認識(ASR)の性能を劇的に改善した。 しかし、既存の自己指導型事前学習アプローチのほとんどはタスク非依存であり、様々な下流タスクに適用できる。 また、タスクに依存しない事前トレーニングとタスク固有の下流の微調整との間にはギャップがあり、下流のパフォーマンスが低下する可能性がある。 本研究では,このギャップを埋めるために,タスク固有の半教師付き事前学習を行うwav2vec-Sという新しい事前学習パラダイムを提案する。 具体的には、wav2vec 2.0のような自己教師付き事前訓練に基づいて半教師付き事前訓練を行う。 ASRの実験によると、wav2vec 2.0と比較して、wav2vec-Sはトレーニング前の時間を極端に増やすだけで、ドメイン内、ドメイン間、言語間データセットでのASRのパフォーマンスを大幅に改善できる。 平均平均wer削減率は26.3%であり、1hと10hの微調整では6.3%である。

Self-supervised pre-training has dramatically improved the performance of automatic speech recognition (ASR). However, most existing self-supervised pre-training approaches are task-agnostic, i.e., could be applied to various downstream tasks. And there is a gap between the task-agnostic pre-training and the task-specific downstream fine-tuning, which may degrade the downstream performance. In this work, we propose a novel pre-training paradigm called wav2vec-S, where we use task-specific semi-supervised pre-training to bridge this gap. Specifically, the semi-supervised pre-training is conducted on the basis of self-supervised pre-training such as wav2vec 2.0. Experiments on ASR show that compared to wav2vec 2.0, wav2vec-S only requires marginal increment of pre-training time but could significantly improve ASR performance on in-domain, cross-domain and cross-lingual datasets. The average relative WER reductions are 26.3% and 6.3% for 1h and 10h fine-tuning, respectively.
翻訳日:2021-10-12 19:21:39 公開日:2021-10-09
# エンドツーエンド音声認識のための自己教師付き事前訓練表現の探索

An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition ( http://arxiv.org/abs/2110.04590v1 )

ライセンス: Link先を確認
Xuankai Chang, Takashi Maekaku, Pengcheng Guo, Jing Shi, Yen-Ju Lu, Aswin Shanmugam Subramanian, Tianzi Wang, Shu-wen Yang, Yu Tsao, Hung-yi Lee, Shinji Watanabe(参考訳) 音声データの自己教師付き事前学習は、多くの進歩を遂げた。 音声信号の忠実度表現は、多くの未書き込みデータから学習され、有望な性能を示す。 近年, ドメイン制限を伴わない, 様々なタスクにおける自己教師付き事前学習表現の品質評価に焦点をあてた研究がいくつかある。 しかし、この評価は多くのasrベンチマークコーパスを包括的に比較するものではない。 本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。 いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。 バックエンドモデルアーキテクチャやトレーニング戦略を変更することなく、例えば、WSJ、WSJ0-2mix with HuBERT、現在のSOTA(State-of-the-ar t)認識性能に到達または向上する実験を行う。 さらに,事前学習表現が有効であるか,あるいは重複する音声など,さらに多くのシナリオについて検討する。 スクリプト、コンフィグラトン、トレーニングされたモデルがespnetでリリースされ、コミュニティが実験を再現し、改善できるようにしました。

Self-supervised pretraining on speech data has achieved a lot of progress. High-fidelity representation of the speech signal is learned from a lot of untranscribed data and shows promising performance. Recently, there are several works focusing on evaluating the quality of self-supervised pretrained representations on various tasks without domain restriction, e.g. SUPERB. However, such evaluations do not provide a comprehensive comparison among many ASR benchmark corpora. In this paper, we focus on the general applications of pretrained speech representations, on advanced end-to-end automatic speech recognition (E2E-ASR) models. We select several pretrained speech representations and present the experimental results on various open-source and publicly available corpora for E2E-ASR. Without any modification of the back-end model architectures or training strategy, some of the experiments with pretrained representations, e.g., WSJ, WSJ0-2mix with HuBERT, reach or outperform current state-of-the-art (SOTA) recognition performance. Moreover, we further explore more scenarios for whether the pretraining representations are effective, such as the cross-language or overlapped speech. The scripts, configuratons and the trained models have been released in ESPnet to let the community reproduce our experiments and improve them.
翻訳日:2021-10-12 19:21:20 公開日:2021-10-09
# SOMA: 光マーカーベースのMoCapを自動で解決

SOMA: Solving Optical Marker-Based MoCap Automatically ( http://arxiv.org/abs/2110.04431v1 )

ライセンス: Link先を確認
Nima Ghorbani and Michael J. Black(参考訳) マーカーベースの光学モーションキャプチャ(mocap)は、コンピュータビジョン、医学、グラフィックスにおいて正確な3D人間の動きを取得するための「金の標準」手法である。 これらのシステムの生出力はノイズが多く、不完全な3Dポイントまたは短いトラックレットである。 有用にするためには、これらの点をキャプチャー対象の対応するマーカー、すなわち"labelling"を関連付ける必要がある。 これらのラベルが与えられると、3dスケルトンやボディサーフェスメッシュの「解く」ことができる。 商用自動ラベルツールは、キャプチャ時に特定のキャリブレーション手順を必要とするが、アーカイブデータでは不可能である。 ここでは,新しいニューラルネットワークであるsomaを訓練し,様々な点数を持つ生のモカプポイント雲を取り,キャリブレーションデータなしで大規模にラベル付けし,キャプチャ技術に依存せず,最小限の介入しか必要としない。 私たちの重要な洞察は、点雲のラベル付けは非常に曖昧であるが、3Dボディは学習ベースの手法で活用できるソリューションに強い制約を与えているということです。 学習を可能にするために,amassから3dボディでアニメーションされたノイズ・グランド・トゥルート・モキャップ・マーカーの膨大なトレーニングセットを生成する。 SOMAは、3Dボディの空間構造を学習するために自己注意要素を積み重ねたアーキテクチャと、アウトリーチを拒絶しながら割り当て(ラベル付け)問題を制約する最適な輸送層を利用する。 SOMAを定量的,定性的に評価した。 SOMAは既存の技術研究手法よりも正確で堅牢であり、商用システムでは適用できない。 さまざまな技術を用いて収集した4つのデータセットにまたがって8時間以上のアーカイブモキャップデータを自動的にラベル付けし、SMPL-Xボディモデルを出力します。 モデルとデータは研究目的でhttps://soma.is.tue. mpg.de/でリリースされる。

Marker-based optical motion capture (mocap) is the "gold standard" method for acquiring accurate 3D human motion in computer vision, medicine, and graphics. The raw output of these systems are noisy and incomplete 3D points or short tracklets of points. To be useful, one must associate these points with corresponding markers on the captured subject; i.e. "labelling". Given these labels, one can then "solve" for the 3D skeleton or body surface mesh. Commercial auto-labeling tools require a specific calibration procedure at capture time, which is not possible for archival data. Here we train a novel neural network called SOMA, which takes raw mocap point clouds with varying numbers of points, labels them at scale without any calibration data, independent of the capture technology, and requiring only minimal human intervention. Our key insight is that, while labeling point clouds is highly ambiguous, the 3D body provides strong constraints on the solution that can be exploited by a learning-based method. To enable learning, we generate massive training sets of simulated noisy and ground truth mocap markers animated by 3D bodies from AMASS. SOMA exploits an architecture with stacked self-attention elements to learn the spatial structure of the 3D body and an optimal transport layer to constrain the assignment (labeling) problem while rejecting outliers. We extensively evaluate SOMA both quantitatively and qualitatively. SOMA is more accurate and robust than existing state of the art research methods and can be applied where commercial systems cannot. We automatically label over 8 hours of archival mocap data across 4 different datasets captured using various technologies and output SMPL-X body models. The model and data is released for research purposes at https://soma.is.tue. mpg.de/.
翻訳日:2021-10-12 19:18:58 公開日:2021-10-09
# 選択可能なスタイルによる可逆トーンマッピング

Invertible Tone Mapping with Selectable Styles ( http://arxiv.org/abs/2110.04491v1 )

ライセンス: Link先を確認
Zhuming Zhang and Menghan Xia and Xueting Liu and Chengze Li and Tien-Tsin Wong(参考訳) デジタルカメラは高ダイナミックレンジ(HDR)画像を取得することができるが、キャプチャされたHDR情報は、主に表示互換性とコンパクトストレージのために低ダイナミックレンジ(LDR)画像に量子化される。 本稿では,マルチ露光hdrを真のldr(カラーチャネルあたり8ビット)に変換し,このインバータブルldrから元のhdrを正確に復元する機能を予約するインバータブルトーンマッピング手法を提案する。 我々の可逆LDRは、ユーザが選択したトーンマッピングスタイルを模倣することができる。 アップロードされた画像を再エンコードしたり、フォーマット変換したりできる既存のソーシャルネットワークプラットフォーム上で共有できるが、復元されたHDRの精度を損なうことはない。 これを実現するために,トーンマッピングと復元を結合プロセスとみなし,畳み込みニューラルネットワークによる符号化・復号問題として定式化する。 特にこのモデルはプラガブルなスタイルの変調器をサポートしており,それぞれが特定のトーンマッピングスタイルを焼き付けているため,アプリケーションの柔軟性を優先している。 提案手法は,多種多様なHDR画像と複数のトーンマッピング演算子を用いて評価し,関連する最先端手法よりも優れていることを示す。 また,我々の設計を正当化するためにアブレーション研究を行い,実アプリケーションに対する堅牢性と汎用性について議論する。

Although digital cameras can acquire high-dynamic range (HDR) images, the captured HDR information are mostly quantized to low-dynamic range (LDR) images for display compatibility and compact storage. In this paper, we propose an invertible tone mapping method that converts the multi-exposure HDR to a true LDR (8-bit per color channel) and reserves the capability to accurately restore the original HDR from this {\em invertible LDR}. Our invertible LDR can mimic the appearance of a user-selected tone mapping style. It can be shared over any existing social network platforms that may re-encode or format-convert the uploaded images, without much hurting the accuracy of the restored HDR counterpart. To achieve this, we regard the tone mapping and the restoration as coupled processes, and formulate them as an encoding-and-decodin g problem through convolutional neural networks. Particularly, our model supports pluggable style modulators, each of which bakes a specific tone mapping style, and thus favors the application flexibility. Our method is evaluated with a rich variety of HDR images and multiple tone mapping operators, which shows the superiority over relevant state-of-the-art methods. Also, we conduct ablation study to justify our design and discuss the robustness and generality toward real applications.
翻訳日:2021-10-12 19:18:24 公開日:2021-10-09
# 深部特徴伝搬と自己正規化学習による時間一貫性ビデオカラー化

Temporally Consistent Video Colorization with Deep Feature Propagation and Self-regularization Learning ( http://arxiv.org/abs/2110.04562v1 )

ライセンス: Link先を確認
Yihao Liu and Hengyuan Zhao and Kelvin C.K. Chan and Xintao Wang and Chen Change Loy and Yu Qiao and Chao Dong(参考訳) ビデオのカラー化は難題であり、非常に不適切な問題である。 近年では、単色化の著しい進展が見られたが、ビデオカラー化の研究は相対的に少なく、既存の手法は常に激しいフレッカーアーティファクト(一時的な不一致)や不満足なカラー化性能に苦しんでいる。 本稿では,統一フレームワークにおけるカラー化と時間的一貫性を共同で考慮し,新たな視点からこの問題に対処する。 具体的には,新しい時間整合ビデオカラー化フレームワーク(tcvc)を提案する。 TCVCは、フレームレベルの深い特徴を双方向的に効果的に伝播し、色付けの時間的一貫性を高める。 さらに、TVCは、異なる時間ステップで得られた予測差を最小限に抑えるために、自己正規化学習(SRL)方式を導入する。 srlはトレーニングに地味なカラービデオは必要とせず、時間的一貫性をさらに向上させることができる。 実験により,カラー映像を視覚的に再現するだけでなく,最先端の手法よりも明らかに良好な時間的一貫性を実現することができた。

Video colorization is a challenging and highly ill-posed problem. Although recent years have witnessed remarkable progress in single image colorization, there is relatively less research effort on video colorization and existing methods always suffer from severe flickering artifacts (temporal inconsistency) or unsatisfying colorization performance. We address this problem from a new perspective, by jointly considering colorization and temporal consistency in a unified framework. Specifically, we propose a novel temporally consistent video colorization framework (TCVC). TCVC effectively propagates frame-level deep features in a bidirectional way to enhance the temporal consistency of colorization. Furthermore, TCVC introduces a self-regularization learning (SRL) scheme to minimize the prediction difference obtained with different time steps. SRL does not require any ground-truth color videos for training and can further improve temporal consistency. Experiments demonstrate that our method can not only obtain visually pleasing colorized video, but also achieve clearly better temporal consistency than state-of-the-art methods.
翻訳日:2021-10-12 19:18:00 公開日:2021-10-09
# 高次元インタフェースを用いた複雑なロボットの制御:予備的考察

Learning to Control Complex Robots Using High-Dimensional Interfaces: Preliminary Insights ( http://arxiv.org/abs/2110.04663v1 )

ライセンス: Link先を確認
Jongmin M. Lee, Temesgen Gebrekristos, Dalia De Santis, Mahdieh Nejati-Javaremi, Deepak Gopinath, Biraj Parikh, Ferdinando A. Mussa-Ivaldi, Brenna D. Argall(参考訳) 人体の動きは、モーションセンサー技術を用いて高次元連続信号として捉えることができる。 その結果得られるデータは、モビリティの低い人から取得した場合でも、驚くほど情報に富んでいる。 本研究では,ロボットアームを7自由度制御するための入力として,運動センサで捉えた上半身動作の制限について検討する。 密度の高いセンサ信号でさえ、信頼性の高い高次元ロボット制御に必要な情報や独立性を欠いている可能性がある。 人間はこの制限の文脈で時間とともに学習するので、ロボットの知性を利用して重要な学習課題を特定し、有益なフィードバックを提供し、課題が管理されるまで個人をサポートすることができる。 本稿では,現在進行中の研究から,損傷のない2人の被験者のデータを調査し,予備的な結果の抽出と洞察の共有を行う。 ロボットインテリジェンスは、すべての制御次元に費やされた時間の矛盾の特定、個々の制御次元の非対称性、学習におけるユーザの進歩など、ステップインする機会を観察する。 これらの状況に関するマシン推論は、将来新しいインターフェイス学習を促進するかもしれない。

Human body motions can be captured as a high-dimensional continuous signal using motion sensor technologies. The resulting data can be surprisingly rich in information, even when captured from persons with limited mobility. In this work, we explore the use of limited upper-body motions, captured via motion sensors, as inputs to control a 7 degree-of-freedom assistive robotic arm. It is possible that even dense sensor signals lack the salient information and independence necessary for reliable high-dimensional robot control. As the human learns over time in the context of this limitation, intelligence on the robot can be leveraged to better identify key learning challenges, provide useful feedback, and support individuals until the challenges are managed. In this short paper, we examine two uninjured participants' data from an ongoing study, to extract preliminary results and share insights. We observe opportunities for robot intelligence to step in, including the identification of inconsistencies in time spent across all control dimensions, asymmetries in individual control dimensions, and user progress in learning. Machine reasoning about these situations may facilitate novel interface learning in the future.
翻訳日:2021-10-12 19:14:11 公開日:2021-10-09
# ソーシャル推論のためのAIロジックを目指して

Towards AI Logic for Social Reasoning ( http://arxiv.org/abs/2110.04452v1 )

ライセンス: Link先を確認
Huimin Dong, R\'eka Markovich and Leendert van der Torre(参考訳) 人工知能(AI)論理は知的エージェントの推論を形式化する。 本稿では、議論に基づくAI論理を用いて、社会的推論の重要な側面を定式化する方法について論じる。 個々のエージェントの知識と行動の推論に加えて、ソーシャルAIロジックはエージェントの権利、義務、許可を使ってエージェント間の社会的依存についても推論することができる。 社会AI論理の4つの側面について論じる。 まず,知的エージェントの義務と許可の関係について論じる。 第二に、プライバシーと倫理に関する最近の議論の中心的な問題である、正しい知識についてどのように議論するかについて議論する。 第3に,知的エージェント間の多種多様な対立を識別し,形式的議論を比較することで解決する方法について論じる。 重要なことに、日常生活で起こる幅広い議論をカバーするために、虚偽の議論も表現され、推論することができる。 第4に,知的エージェントに対して行動する自由について議論する方法について論じる。 社会的、法的、倫理的な推論の例は、社会AIロジックを開発する際の課題を浮き彫りにする。 この4つの課題に関する議論は、議論に基づくソーシャルAIロジックの研究プログラムにつながり、AIロジックの将来の発展に寄与する。

Artificial Intelligence (AI) logic formalizes the reasoning of intelligent agents. In this paper, we discuss how an argumentation-based AI logic could be used also to formalize important aspects of social reasoning. Besides reasoning about the knowledge and actions of individual agents, social AI logic can reason also about social dependencies among agents using the rights, obligations and permissions of the agents. We discuss four aspects of social AI logic. First, we discuss how rights represent relations between the obligations and permissions of intelligent agents. Second, we discuss how to argue about the right-to-know, a central issue in the recent discussion of privacy and ethics. Third, we discuss how a wide variety of conflicts among intelligent agents can be identified and (sometimes) resolved by comparing formal arguments. Importantly, to cover a wide range of arguments occurring in daily life, also fallacious arguments can be represented and reasoned about. Fourth, we discuss how to argue about the freedom to act for intelligent agents. Examples from social, legal and ethical reasoning highlight the challenges in developing social AI logic. The discussion of the four challenges leads to a research program for argumentation-based social AI logic, contributing towards the future development of AI logic.
翻訳日:2021-10-12 18:54:47 公開日:2021-10-09
# 法的能力の動的論理

Dynamic Logic of Legal Competences ( http://arxiv.org/abs/2110.04454v1 )

ライセンス: Link先を確認
Huimin Dong and Olivier Roy(参考訳) 本稿では, 法的な能力の新たな形式化, 特にHohfeldianの力と免疫のカテゴリについて, 動的てんかん論理のデオン的解釈により提案する。 この論理は、法的な能力のノルム変化特性を明示的に捉えつつ、後者を静的な規範的位置へ高度に還元する。 論理は完全に公理化可能であり、ドイツの契約法における具体的な事例に適用し、法的な能力と法的許容性の区別を捉えることができることを示す。

We propose a new formalization of legal competences, and in particular for the Hohfeldian categories of power and immunity, through a deontic reinterpretation of dynamic epistemic logic. We argue that this logic explicitly captures the norm-changing character of legal competences while providing a sophisticated reduction of the latter to static normative positions. The logic is completely axiomatizable, and we apply it to a concrete case in German contract law to illustrate that it can capture the distinction between legal ability and legal permissibility.
翻訳日:2021-10-12 18:54:27 公開日:2021-10-09
# 自己適応型マルチタスク粒子群最適化

Self-adaptive Multi-task Particle Swarm Optimization ( http://arxiv.org/abs/2110.04473v1 )

ライセンス: Link先を確認
Xiaolong Zheng, Deyun Zhou, Na Li, Yu Lei, Tao Wu, Maoguo Gong(参考訳) マルチタスク最適化(mto:multi-task optimization)は、複数の最適化問題を同時に解決する方法を研究する。 過去数年間、進化的MTO(EMTO)は進化的アルゴリズムによるMTO問題を扱うために提案されてきた。 これまで多くのEMTOアルゴリズムが開発され、実世界の問題を解決する上で優れた性能を発揮してきた。 しかし、emtoのタスク関連性に知識伝達を適用するための多くの作業が残っている。 既存の研究とは違って,知識伝達適応戦略,焦点探索戦略,知識導入戦略を通じて,自己適応型マルチタスク粒子群最適化(SaMTPSO)を開発した。 知識伝達適応戦略では、各タスクはすべての知識源からなる知識源プールを有する。 各ソース(タスク)がタスクに知識を出力します。 そして、知識伝達は、それぞれ異なるソースに対する選択された確率を、これらのソースを介して改善されたソリューションを生成する際のタスクの成功率に応じて計算する、プールの異なるソースに対する個人の選択によるタスク関連性に適応する。 フォーカス探索戦略では、知識源がない場合、タスクの最適化に利益がある場合、タスクプール内のすべての知識源はタスク以外は利用できないため、提案アルゴリズムの性能向上に寄与する。 タスク自体が自身の知識源であることに注意してください。 知識編入戦略では、SAMTPSOが選択した情報源から移行した知識を探索し活用するために、2つの異なる形態が開発され、それぞれがSAMTPSOのバージョンに導かれる。 2つのテストスイートでいくつかの実験が行われた。 SaMTPSOの結果は3つのEMTOアルゴリズムと粒子群アルゴリズムを比較し,SaMTPSOの優位性を示している。

Multi-task optimization (MTO) studies how to simultaneously solve multiple optimization problems for the purpose of obtaining better performance on each problem. Over the past few years, evolutionary MTO (EMTO) was proposed to handle MTO problems via evolutionary algorithms. So far, many EMTO algorithms have been developed and demonstrated well performance on solving real-world problems. However, there remain many works to do in adapting knowledge transfer to task relatedness in EMTO. Different from the existing works, we develop a self-adaptive multi-task particle swarm optimization (SaMTPSO) through the developed knowledge transfer adaptation strategy, the focus search strategy and the knowledge incorporation strategy. In the knowledge transfer adaptation strategy, each task has a knowledge source pool that consists of all knowledge sources. Each source (task) outputs knowledge to the task. And knowledge transfer adapts to task relatedness via individuals' choice on different sources of a pool, where the chosen probabilities for different sources are computed respectively according to task's success rate in generating improved solutions via these sources. In the focus search strategy, if there is no knowledge source benefit the optimization of a task, then all knowledge sources in the task's pool are forbidden to be utilized except the task, which helps to improve the performance of the proposed algorithm. Note that the task itself is as a knowledge source of its own. In the knowledge incorporation strategy, two different forms are developed to help the SaMTPSO explore and exploit the transferred knowledge from a chosen source, each leading to a version of the SaMTPSO. Several experiments are conducted on two test suites. The results of the SaMTPSO are comparing to that of 3 popular EMTO algorithms and a particle swarm algorithm, which demonstrates the superiority of the SaMTPSO.
翻訳日:2021-10-12 18:54:17 公開日:2021-10-09
# EnsembleNTLDetect:スマートグリッドにおける電気盗難検出のためのインテリジェントフレームワーク

EnsembleNTLDetect: An Intelligent Framework for Electricity Theft Detection in Smart Grid ( http://arxiv.org/abs/2110.04502v1 )

ライセンス: Link先を確認
Yogesh Kulkarni, Sayf Hussain Z, Krithi Ramamritham, Nivethitha Somu(参考訳) スマートグリッドから発生する電力消費データに適用した人工知能ベースの技術は、Non Technical Loses (NTL) の削減に有効なソリューションであることが証明され、スマートエネルギーシステムの安全性、信頼性、安全性が保証される。 しかし、不均衡なデータ、連続した欠落値、大きなトレーニング時間、複雑なアーキテクチャは、電気盗難検出モデルのリアルタイム適用を妨げる。 本稿では、効率的なデータ前処理技術と機械学習モデルを用いて、消費者の電力消費パターンを分析して電気盗難を正確に検出する、堅牢でスケーラブルな電気盗難検出フレームワークであるEnsembleNTLDetectを提案する。 このフレームワークは、拡張された動的時間ウォーピングに基づくインプテーション(edtwbi)アルゴリズムを使用して、時系列データに欠落した値をインプットし、ニアミスアンダーサンプリング技術を利用してバランスの取れたデータを生成する。 さらに、次元の縮小とトレーニング効率の向上のためにスタック化オートエンコーダを導入する。 厳密なトレーニングを確保するためにCTGAN(Conditional Generative Adversarial Network)がデータセットを増強するために使用され、ソフト投票アンサンブル分類器は消費者を異常な消費パターンで検出するために設計されている。 さらに,中国国家グリッドコーポレーション(SGCC)が提供するリアルタイム電力消費データを用いて,各種品質指標を用いて,最先端の電気盗難検知モデルに対するEnsembleNTLDetectの信頼性と効率を検証する実験を行った。

Artificial intelligence-based techniques applied to the electricity consumption data generated from the smart grid prove to be an effective solution in reducing Non Technical Loses (NTLs), thereby ensures safety, reliability, and security of the smart energy systems. However, imbalanced data, consecutive missing values, large training times, and complex architectures hinder the real time application of electricity theft detection models. In this paper, we present EnsembleNTLDetect, a robust and scalable electricity theft detection framework that employs a set of efficient data pre-processing techniques and machine learning models to accurately detect electricity theft by analysing consumers' electricity consumption patterns. This framework utilises an enhanced Dynamic Time Warping Based Imputation (eDTWBI) algorithm to impute missing values in the time series data and leverages the Near-miss undersampling technique to generate balanced data. Further, stacked autoencoder is introduced for dimensionality reduction and to improve training efficiency. A Conditional Generative Adversarial Network (CTGAN) is used to augment the dataset to ensure robust training and a soft voting ensemble classifier is designed to detect the consumers with aberrant consumption patterns. Furthermore, experiments were conducted on the real-time electricity consumption data provided by the State Grid Corporation of China (SGCC) to validate the reliability and efficiency of EnsembleNTLDetect over the state-of-the-art electricity theft detection models in terms of various quality metrics.
翻訳日:2021-10-12 18:25:01 公開日:2021-10-09
# 時間的相互作用ネットワークの埋め込みを考慮したマルチリレーション

Multi-Relation Aware Temporal Interaction Network Embedding ( http://arxiv.org/abs/2110.04503v1 )

ライセンス: Link先を確認
Ling Chen, Shanshan Yu, Dandan Lyu and Da Wang(参考訳) 時間的相互作用ネットワークは、eコマース、オンライン教育、ソーシャルネットワークサービスなど、多くの分野で形成されている。 時間的相互作用ネットワーク埋め込みは、時間的相互作用ネットワーク内の情報を効果的にマイニングすることができる。 通常、相互作用の発生は、相互作用(相互作用ノード)に直接関係するノードだけでなく、相互作用するノードの隣ノードにも影響を及ぼす。 しかし、既存の時間的相互作用ネットワーク埋め込み手法は、他の関係型を無視して、近隣ノードをマイニングする履歴的相互作用関係のみを使用する。 本稿では,マルチリレーショナルな時間的相互作用ネットワーク埋め込み手法(mrate)を提案する。 MRATEは歴史的相互作用に基づいて、相互作用ノードの隣り合う埋め込みを得るために、歴史的な相互作用関係、共通の相互作用関係、相互作用シーケンス類似性関係をマイニングする。 MRATEの階層的マルチリレーション対応アグリゲーション法では、まずグラフアテンションネットワーク(GAT)を用いて、同一の関係型を介して伝播する相互作用の影響を集約し、自己アテンション機構を通じて複数の関係型からの相互作用の影響を結合する。 3つの公開時間相互作用ネットワークデータセットについて実験を行い,mrateの有効性を示した。

Temporal interaction networks are formed in many fields, e.g., e-commerce, online education, and social network service. Temporal interaction network embedding can effectively mine the information in temporal interaction networks, which is of great significance to the above fields. Usually, the occurrence of an interaction affects not only the nodes directly involved in the interaction (interacting nodes), but also the neighbor nodes of interacting nodes. However, existing temporal interaction network embedding methods only use historical interaction relations to mine neighbor nodes, ignoring other relation types. In this paper, we propose a multi-relation aware temporal interaction network embedding method (MRATE). Based on historical interactions, MRATE mines historical interaction relations, common interaction relations, and interaction sequence similarity relations to obtain the neighbor based embeddings of interacting nodes. The hierarchical multi-relation aware aggregation method in MRATE first employs graph attention networks (GATs) to aggregate the interaction impacts propagated through a same relation type and then combines the aggregated interaction impacts from multiple relation types through the self-attention mechanism. Experiments are conducted on three public temporal interaction network datasets, and the experimental results show the effectiveness of MRATE.
翻訳日:2021-10-12 18:24:36 公開日:2021-10-09
# x-model: minimaxモデルによるディープラーニングのデータ効率向上

X-model: Improving Data Efficiency in Deep Learning with A Minimax Model ( http://arxiv.org/abs/2110.04572v1 )

ライセンス: Link先を確認
Ximei Wang, Xinyang Chen, Jianmin Wang, Mingsheng Long(参考訳) データラベリングの負担を軽減するため,ディープラーニングにおける分類設定と回帰設定の両方において,データ効率の向上を目指す。 しかし、現在の焦点は分類問題であり、ラベル付けにより多くの人的労力を必要とする深い回帰に対して、稀な注意が払われている。 さらに、分類空間と連続ラベル空間の間に本質的な違いがあるため、分類のための共通の直観、例えばクラスター仮定や擬似ラベル戦略は、深い回帰に自然に適用できない。 この目的のために、我々はまず、ディープラーニングにおける既存のデータ効率のよい手法を考察し、データ確率性(例えば、異なる拡張条件の下での一貫性の規則化)やモデル確率性(例えば、異なるドロップアウトを持つモデルの予測に対する差分ペナルティ)への不変性を促進するかを発見した。 両世界の力を生かし,データ確率性とモデル確率性への不変性を同時に促進する新しいX-モデルを提案する。 さらに、X-モデルは、特徴抽出器とタスク固有ヘッドとの間にミニマックスゲームを行い、モデル確率性への不変性をさらに強化する。 広範囲な実験により、年齢推定の単値予測タスクからキーポイント位置推定の高密度予測タスク、2d合成と3dリアルデータセット、マルチカテゴリオブジェクト認識タスクまで、様々なタスクにおけるx-モデルの優位性が検証された。

To mitigate the burden of data labeling, we aim at improving data efficiency for both classification and regression setups in deep learning. However, the current focus is on classification problems while rare attention has been paid to deep regression, which usually requires more human effort to labeling. Further, due to the intrinsic difference between categorical and continuous label space, the common intuitions for classification, e.g., cluster assumptions or pseudo labeling strategies, cannot be naturally adapted into deep regression. To this end, we first delved into the existing data-efficient methods in deep learning and found that they either encourage invariance to data stochasticity (e.g., consistency regularization under different augmentations) or model stochasticity (e.g., difference penalty for predictions of models with different dropout). To take the power of both worlds, we propose a novel X-model by simultaneously encouraging the invariance to {data stochasticity} and {model stochasticity}. Further, the X-model plays a minimax game between the feature extractor and task-specific heads to further enhance the invariance to model stochasticity. Extensive experiments verify the superiority of the X-model among various tasks, from a single-value prediction task of age estimation to a dense-value prediction task of keypoint localization, a 2D synthetic, and a 3D realistic dataset, as well as a multi-category object recognition task.
翻訳日:2021-10-12 18:24:13 公開日:2021-10-09
# 動的勾配射影記憶におけるフラッテニングシャープネスの連続学習効果

Flattening Sharpness for Dynamic Gradient Projection Memory Benefits Continual Learning ( http://arxiv.org/abs/2110.04593v1 )

ライセンス: Link先を確認
Danruo Deng, Guangyong Chen, Jianye Hao, Qiong Wang, Pheng-Ann Heng(参考訳) バックプロパゲーションネットワークは、破滅的な忘れがちで、ネットワークは、新しいものを学ぶ際に学んだスキルを忘れがちだ。 このような「感性安定性」ジレンマに対処するために、これまでの努力のほとんどは、異なるパラメータ正規化項とエピソディックメモリによる経験的リスクを最小限に抑えることに貢献してきたが、減量景観の使用法を探究することは滅多にない。 本稿では,連続学習シナリオにおける減量環境と感度安定性の関係について検討し,動的勾配投影メモリ(fs-dgpm)のシャープネスを平坦化する新しい手法を提案する。 特に,学習プロセス中に適応的に学習できるGPMにおける過去のタスクを表す各ベースの重要性を表現するために,ソフトウェイトを導入し,新しいスキル学習の感度を向上させるために,重要でないベースを動的に解放する。 さらに,全タスクの重み損失景観の平坦さを明示的に調節することにより,一般化ギャップを低減するためにフラッテニングシャープネス(FS)を導入する。 実証的に示すように,提案手法は,新しいスキルを身につける能力でベースラインを一貫して上回っている。

The backpropagation networks are notably susceptible to catastrophic forgetting, where networks tend to forget previously learned skills upon learning new ones. To address such the 'sensitivity-stabilit y' dilemma, most previous efforts have been contributed to minimizing the empirical risk with different parameter regularization terms and episodic memory, but rarely exploring the usages of the weight loss landscape. In this paper, we investigate the relationship between the weight loss landscape and sensitivity-stabilit y in the continual learning scenario, based on which, we propose a novel method, Flattening Sharpness for Dynamic Gradient Projection Memory (FS-DGPM). In particular, we introduce a soft weight to represent the importance of each basis representing past tasks in GPM, which can be adaptively learned during the learning process, so that less important bases can be dynamically released to improve the sensitivity of new skill learning. We further introduce Flattening Sharpness (FS) to reduce the generalization gap by explicitly regulating the flatness of the weight loss landscape of all seen tasks. As demonstrated empirically, our proposed method consistently outperforms baselines with the superior ability to learn new skills while alleviating forgetting effectively.
翻訳日:2021-10-12 18:23:46 公開日:2021-10-09
# 説明可能な自己説明型ニューラルネットワーク

Self-explaining Neural Network with Plausible Explanations ( http://arxiv.org/abs/2110.04598v1 )

ライセンス: Link先を確認
Sayantan Kumar, Sean C. Yu, Andrew Michelson, Philip R.O. Payne(参考訳) 複雑なディープラーニングモデル(しばしばブラックボックスと呼ばれる)の予測を説明することは、医療のような高度な領域において重要である。 しかしながら,ポストホックモデルの説明は臨床医によっては理解できないことが多く,臨床ワークフローへの統合が困難である。 さらに、ほとんどの説明可能なモデルは個々の臨床変数を説明の単位として利用するが、人間の理解は高レベルの概念や特徴表現に依存していることが多い。 本稿では,ドメイン知識駆動型逐次臓器不全評価 (SOFA) を用いた縦断的死亡予測のための,自己説明型ニューラルネットワークを提案する。 また,患者の金標準放電診断情報に対するモデル説明を定量的に検証する新しい手法を考案した。 以上の結果から,各臓器スコアが経時的患者軌跡における死亡率の変動にどのように寄与するか,興味深い知見を得た。

Explaining the predictions of complex deep learning models, often referred to as black boxes, is critical in high-stakes domains like healthcare. However, post-hoc model explanations often are not understandable by clinicians and are difficult to integrate into clinical workflow. Further, while most explainable models use individual clinical variables as units of explanation, human understanding often rely on higher-level concepts or feature representations. In this paper, we propose a novel, self-explaining neural network for longitudinal in-hospital mortality prediction using domain-knowledge driven Sequential Organ Failure Assessment (SOFA) organ-specific scores as the atomic units of explanation. We also design a novel procedure to quantitatively validate the model explanations against gold standard discharge diagnosis information of patients. Our results provide interesting insights into how each of the SOFA organ scores contribute to mortality at different timesteps within longitudinal patient trajectory.
翻訳日:2021-10-12 18:23:23 公開日:2021-10-09
# エッジ上のマルチタスク学習:コスト効率と理論的最適性

Multi-task learning on the edge: cost-efficiency and theoretical optimality ( http://arxiv.org/abs/2110.04639v1 )

ライセンス: Link先を確認
Sami Fakhry (1 and 2) and Romain Couillet (1 and 2 and 3) and Malik Tiomoko (1 and 2) ((1) GIPSA-Lab, (2) Grenoble-Alps University, (3) LIG-Lab)(参考訳) 本稿では、教師付き主成分分析(SPCA)に基づく分散マルチタスク学習(MTL)アルゴリズムを提案する。 (i)ガウス混合の理論上最適である (ii)計算上安価でスケーラブル。 合成および実ベンチマークデータに対する支持実験は、大きなエネルギーゲインを性能損失なく得ることを示した。

This article proposes a distributed multi-task learning (MTL) algorithm based on supervised principal component analysis (SPCA) which is: (i) theoretically optimal for Gaussian mixtures, (ii) computationally cheap and scalable. Supporting experiments on synthetic and real benchmark data demonstrate that significant energy gains can be obtained with no performance loss.
翻訳日:2021-10-12 18:23:09 公開日:2021-10-09
# 言語を用いた対話型階層型指導

Interactive Hierarchical Guidance using Language ( http://arxiv.org/abs/2110.04649v1 )

ライセンス: Link先を確認
Bharat Prakash, Nicholas Waytowich, Tim Oates, Tinoosh Mohsenin(参考訳) 強化学習は、ロボット制御、ゲーム、エネルギー管理など、多くのタスクで成功しています。 少ない報酬と長いタスクホライズンズを持つ複雑な実環境において、サンプル効率は依然として大きな課題である。 ほとんどの複雑なタスクは、簡単にハイレベルな計画と低レベルな制御に分解できる。 したがって、エージェントが階層構造を活用し、より大きなタスクを複数の小さなサブタスクに分割することが重要である。 我々は,サブタスクを言語で指定し,高レベルプランナーが低レベルコントローラに言語コマンドを発行する手法を提案する。 低レベルコントローラは言語コマンドに基づいてサブタスクを実行する。 提案手法は,人間の監督を限定した複雑な長期水平計画課題を解くことができることを示す。 言語の使用は、解釈可能性と専門家の人間が高いレベルの計画タスクを引き継ぎ、必要に応じて言語コマンドを提供する能力の恩恵を追加した。

Reinforcement learning has been successful in many tasks ranging from robotic control, games, energy management etc. In complex real world environments with sparse rewards and long task horizons, sample efficiency is still a major challenge. Most complex tasks can be easily decomposed into high-level planning and low level control. Therefore, it is important to enable agents to leverage the hierarchical structure and decompose bigger tasks into multiple smaller sub-tasks. We introduce an approach where we use language to specify sub-tasks and a high-level planner issues language commands to a low level controller. The low-level controller executes the sub-tasks based on the language commands. Our experiments show that this method is able to solve complex long horizon planning tasks with limited human supervision. Using language has added benefit of interpretability and ability for expert humans to take over the high-level planning task and provide language commands if necessary.
翻訳日:2021-10-12 17:37:24 公開日:2021-10-09
# RankingMatch: 一貫性の規則化とランク付け損失による半監督的な学習に生き残る

RankingMatch: Delving into Semi-Supervised Learning with Consistency Regularization and Ranking Loss ( http://arxiv.org/abs/2110.04430v1 )

ライセンス: Link先を確認
Trung Q. Tran, Mingu Kang, Daeyoung Kim(参考訳) 半教師付き学習(ssl)はラベル付きデータの制限時にラベルなしデータを活用する上で重要な役割を担っている。 最も成功したSSLアプローチの1つは一貫性の規則化に基づいている。 しかし、同じラベルを持つ入力に対する注意は少なくなっている。 同一ラベルを持つ入力が類似したモデル出力を持つべきであるという観測結果から,摂動入力だけでなく,同一ラベルを持つ入力間の類似性も考慮した新しい手法である RankingMatch を提案する。 特に,BatchMean Triplet lossと呼ばれる新たな目的関数を導入し,全ての入力サンプルを考慮に入れながら,計算効率の利点を生かした。 我々の RankingMatch は CIFAR-10 で 250 ラベルの 95.13% の精度、CIFAR-100 で 10000 ラベルの 77.65% の精度、SVHN で 250 ラベルの 97.76% の精度、SVHN で 1000 ラベルの 97.77% の精度など、様々なラベル付きデータ量を持つ多くの標準SSL ベンチマークで最先端のパフォーマンスを実現している。 また,既存のトリプルト損失に対するBatchMean Triplet損失の有効性を検証するためのアブレーション研究を行った。

Semi-supervised learning (SSL) has played an important role in leveraging unlabeled data when labeled data is limited. One of the most successful SSL approaches is based on consistency regularization, which encourages the model to produce unchanged with perturbed input. However, there has been less attention spent on inputs that have the same label. Motivated by the observation that the inputs having the same label should have the similar model outputs, we propose a novel method, RankingMatch, that considers not only the perturbed inputs but also the similarity among the inputs having the same label. We especially introduce a new objective function, dubbed BatchMean Triplet loss, which has the advantage of computational efficiency while taking into account all input samples. Our RankingMatch achieves state-of-the-art performance across many standard SSL benchmarks with a variety of labeled data amounts, including 95.13% accuracy on CIFAR-10 with 250 labels, 77.65% accuracy on CIFAR-100 with 10000 labels, 97.76% accuracy on SVHN with 250 labels, and 97.77% accuracy on SVHN with 1000 labels. We also perform an ablation study to prove the efficacy of the proposed BatchMean Triplet loss against existing versions of Triplet loss.
翻訳日:2021-10-12 17:36:25 公開日:2021-10-09
# コントラスト対応学習とトリプルト・ロス・ファインチューニングを用いた顔認識システムの逆学習

Adversarial Training for Face Recognition Systems using Contrastive Adversarial Learning and Triplet Loss Fine-tuning ( http://arxiv.org/abs/2110.04459v1 )

ライセンス: Link先を確認
Nazmul Karim, Umar Khalid, Nick Meeker, Sarinda Samarasinghe(参考訳) 顔認識システムの対角的堅牢性を改善する分野では、多くの研究がなされてきたが、驚くべきことに、その割合は自己監督的なアプローチに焦点を当てている。 本稿では,ad-versarial pre-training と triplet loss adversarialfine-tuni ng を組み合わせた手法を提案する。 CelebAデータセットに微調整されたFaceNetのバックボーンを形成する事前トレーニングされたResNet50モデルと比較する。 逆行訓練,三重項損失逆行訓練,および三重項損失逆行訓練を併用して達成した逆行性強弱を比較検討した結果,細片調整時に要求されるエポックよりもはるかに少ない結果が得られることがわかった。 微調整のトレーニング時間を増やすことで、よりよい結果が得られるでしょう。 これに加えて,改良型半教師付き実験を行い,少量のラベルの導入によるコントラスト的敵意訓練の改善を実証した。

Though much work has been done in the domain of improving the adversarial robustness of facial recognition systems, a surprisingly small percentage of it has focused on self-supervised approaches. In this work, we present an approach that combines Ad-versarial Pre-Training with Triplet Loss AdversarialFine-Tuni ng. We compare our methods with the pre-trained ResNet50 model that forms the backbone of FaceNet, finetuned on our CelebA dataset. Through comparing adversarial robustness achieved without adversarial training, with triplet loss adversarial training, and our contrastive pre-training combined with triplet loss adversarial fine-tuning, we find that our method achieves comparable results with far fewer epochs re-quired during fine-tuning. This seems promising, increasing the training time for fine-tuning should yield even better results. In addition to this, a modified semi-supervised experiment was conducted, which demonstrated the improvement of contrastive adversarial training with the introduction of small amounts of labels.
翻訳日:2021-10-12 17:35:57 公開日:2021-10-09
# 細粒度画像検索のための特徴整合性駆動注意消去ネットワーク

A Feature Consistency Driven Attention Erasing Network for Fine-Grained Image Retrieval ( http://arxiv.org/abs/2110.04479v1 )

ライセンス: Link先を確認
Qi Zhao, Xu Wang, Shuchang Lyu, Binghao Liu, Yifan Yang(参考訳) 大規模精細画像検索には2つの大きな問題がある。 第一に、低次元の特徴埋め込みは検索プロセスを高速化するが、きめ細かいデータセットにおける画像の注意領域の特徴を見渡すことによって精度を低下させる。 第二に、きめ細かい画像は、データベースハッシュ潜在空間内の異なるクラスタにマッピングされた同じカテゴリクエリハッシュコードにつながる。 これら2つの問題に対処するため,細粒度画像検索のための特徴整合型注意消去ネットワーク(FCAENet)を提案する。 まず,選択的領域消去モジュール (SREM) であるFCAENetの適応拡張モジュールを提案する。 SREMは、いくつかの原画像領域を適応的にカバーすることで、細かなタスクの微妙な違いに対してネットワークをより堅牢にする。 特徴抽出器およびハッシュ層は、SREMにより微細な画像のより代表的なハッシュコードを学ぶことができる。 第2の課題では,対方向の類似情報を十分に活用し,fcaenet の空間関係損失(esrl)を増大させ,クエリハッシュコードとデータベースハッシュコードとの間の脆弱な関係を安定させる。 12ビット、24ビット、32ビット、48ビットのハッシュコードに対して、cub2011、aircraft、nabirds、vegfru、food101)の5つのきめ細かいベンチマークデータセット(cub2011、aircraft、nabirds、vegfru、food101)を広範囲に実験した。 その結果, FCAENetは, 他の手法と比較して細粒度検索性能が高いことがわかった。

Large-scale fine-grained image retrieval has two main problems. First, low dimensional feature embedding can fasten the retrieval process but bring accuracy reduce due to overlooking the feature of significant attention regions of images in fine-grained datasets. Second, fine-grained images lead to the same category query hash codes mapping into the different cluster in database hash latent space. To handle these two issues, we propose a feature consistency driven attention erasing network (FCAENet) for fine-grained image retrieval. For the first issue, we propose an adaptive augmentation module in FCAENet, which is selective region erasing module (SREM). SREM makes the network more robust on subtle differences of fine-grained task by adaptively covering some regions of raw images. The feature extractor and hash layer can learn more representative hash code for fine-grained images by SREM. With regard to the second issue, we fully exploit the pair-wise similarity information and add the enhancing space relation loss (ESRL) in FCAENet to make the vulnerable relation stabler between the query hash code and database hash code. We conduct extensive experiments on five fine-grained benchmark datasets (CUB2011, Aircraft, NABirds, VegFru, Food101) for 12bits, 24bits, 32bits, 48bits hash code. The results show that FCAENet achieves the state-of-the-art (SOTA) fine-grained retrieval performance compared with other methods.
翻訳日:2021-10-12 17:35:37 公開日:2021-10-09
# 軽量化:低体重値の進化によるディープニューラルネットワークトレーニングの改善

Weight Evolution: Improving Deep Neural Networks Training through Evolving Inferior Weight Values ( http://arxiv.org/abs/2110.04492v1 )

ライセンス: Link先を確認
Zhenquan Lin, Kailing Guo, Xiaofen Xing, Xiangmin Xu(参考訳) 優れた性能を得るために、畳み込みニューラルネットワークは通常過パラメータ化される。 この現象は2つの興味深いトピックを刺激している。圧縮のために重要でない重みを刈り上げ、ネットワーク能力を最大限活用するために重要でない重みを活性化する。 しかし、現在の重み再活性化法は通常フィルタ全体を活性化するが、精度は十分ではない。 歴史を振り返ってみると、フィルタプルーニングの繁栄は、主にハードウェア実装との親和性によるものだが、より細かい構造、すなわち重み付け要素でプルーニングすることで、ネットワークパフォーマンスが向上する。 本稿では,重量元素の再活性化問題について考察する。 進化によって動機づけられた我々は、重要なフィルターの重要な要素と組み合わせることで、重要でないフィルタを選択し、それらの要素を更新する。 WEは主に4つの戦略で構成されている。 我々は,グローバル選択戦略と局所選択戦略を提案し,これらを組み合わせて重要でないフィルタの探索を行う。 一致した重要フィルタを見つけるためのフォワードマッチング戦略を提案し,重要フィルタの重要な要素を重要でないフィルタを更新するためにクロスオーバー戦略を提案する。 既存のネットワークアーキテクチャへのプラグインです。 包括的実験により、WEは典型的な畳み込みニューラルネットワーク、特に軽量ネットワークで他の再活性化法やプラグイントレーニング法より優れていることが示された。 私たちのコードはhttps://github.com/b zqlin/weight-evoluti onで利用可能です。

To obtain good performance, convolutional neural networks are usually over-parameterized. This phenomenon has stimulated two interesting topics: pruning the unimportant weights for compression and reactivating the unimportant weights to make full use of network capability. However, current weight reactivation methods usually reactivate the entire filters, which may not be precise enough. Looking back in history, the prosperity of filter pruning is mainly due to its friendliness to hardware implementation, but pruning at a finer structure level, i.e., weight elements, usually leads to better network performance. We study the problem of weight element reactivation in this paper. Motivated by evolution, we select the unimportant filters and update their unimportant elements by combining them with the important elements of important filters, just like gene crossover to produce better offspring, and the proposed method is called weight evolution (WE). WE is mainly composed of four strategies. We propose a global selection strategy and a local selection strategy and combine them to locate the unimportant filters. A forward matching strategy is proposed to find the matched important filters and a crossover strategy is proposed to utilize the important elements of the important filters for updating unimportant filters. WE is plug-in to existing network architectures. Comprehensive experiments show that WE outperforms the other reactivation methods and plug-in training methods with typical convolutional neural networks, especially lightweight networks. Our code is available at https://github.com/B ZQLin/Weight-evoluti on.
翻訳日:2021-10-12 17:34:06 公開日:2021-10-09
# 画像分類のためのクラスバランスアクティブラーニング

Class-Balanced Active Learning for Image Classification ( http://arxiv.org/abs/2110.04543v1 )

ライセンス: Link先を確認
Javad Zolfaghari Bengar, Joost van de Weijer, Laura Lopez Fuentes, Bogdan Raducanu(参考訳) アクティブラーニングは、大きなラベルのないデータプールからラベルを要求する最も関連するデータを選択する獲得関数を学習することによって、アルゴリズムのトレーニングに必要なラベル付け労力を削減することを目的としている。 アクティブラーニングは一般的に、クラス毎の画像量が等しいバランスの取れたデータセットで研究される。 しかし、現実世界のデータセットは、いわゆるロングテール分散(long-tail distribution)と呼ばれる深刻な不均衡クラスに苦しむ。 これは、不均衡なデータプールが最適でない分類結果をもたらすため、アクティブな学習プロセスをさらに複雑にする。 アクティブラーニングの文脈でこの問題に対処するために,クラスバランスを明示的に考慮した汎用最適化フレームワークを提案する。 3つのデータセットの結果から,本手法は汎用的(既存のほとんどのアクティブラーニングアルゴリズムと組み合わせることができる)であり,情報と代表に基づくアクティブラーニング手法の性能向上に効果的に適用可能であることが示された。 さらに、バランスの取れたデータセット上でも、この方法が一般的にパフォーマンス向上をもたらすことを示した。

Active learning aims to reduce the labeling effort that is required to train algorithms by learning an acquisition function selecting the most relevant data for which a label should be requested from a large unlabeled data pool. Active learning is generally studied on balanced datasets where an equal amount of images per class is available. However, real-world datasets suffer from severe imbalanced classes, the so called long-tail distribution. We argue that this further complicates the active learning process, since the imbalanced data pool can result in suboptimal classifiers. To address this problem in the context of active learning, we proposed a general optimization framework that explicitly takes class-balancing into account. Results on three datasets showed that the method is general (it can be combined with most existing active learning algorithms) and can be effectively applied to boost the performance of both informative and representative-based active learning methods. In addition, we showed that also on balanced datasets our method generally results in a performance gain.
翻訳日:2021-10-12 17:33:42 公開日:2021-10-09
# 非教師なし表現学習と擬似ラベルによる自己蒸留 : 希少疾患分類の新しいアプローチ

Unsupervised Representation Learning Meets Pseudo-Label Supervised Self-Distillation: A New Approach to Rare Disease Classification ( http://arxiv.org/abs/2110.04558v1 )

ライセンス: Link先を確認
Jinghan Sun, Dong Wei, Kai Ma, Liansheng Wang, and Yefeng Zheng(参考訳) まれな疾患は感染頻度が低く、慢性的な衰弱や生命を脅かす。 画像に基づく希少疾患の分類は,訓練例の不足により困難である。 FSL(Few-shot Learning)法は、一般的な疾患と正常なコントロールの大規模なデータセットから一般化可能な事前知識を抽出し、希少な疾患に知識を移すことによって、この課題に対処する。 しかし、既存のほとんどの手法では、基準データセットにラベルを付ける必要があり、稀な疾患の貴重な例を十分に利用していない。 そこで本研究では,上記の欠点を主とする2つの重要な特徴を特徴とする,希少疾患分類への新しいハイブリッドアプローチを提案する。 まず、教師なし表現学習(URL)を自己監督型コントラスト損失に基づいて導入し、ベースデータセットのラベル付けのオーバーヘッドを解消する。 第2に,urlと疑似ラベル教師付き分類を統合し,希少疾患に関する知識の効果的な自己蒸留を行い,非教師なし学習と (pseudo-) 教師付き学習の利点を生かしたハイブリッドアプローチを構築した。 稀な皮膚病変の分類実験の結果,我々のハイブリッドアプローチは,URLと偽ラベルによる自己蒸留を効果的に統合することにより,既存のFSL法(完全教師付きベースデータセットの使用を含む)を著しく上回り,新たな治療法の確立を図っている。

Rare diseases are characterized by low prevalence and are often chronically debilitating or life-threatening. Imaging-based classification of rare diseases is challenging due to the severe shortage in training examples. Few-shot learning (FSL) methods tackle this challenge by extracting generalizable prior knowledge from a large base dataset of common diseases and normal controls, and transferring the knowledge to rare diseases. Yet, most existing methods require the base dataset to be labeled and do not make full use of the precious examples of the rare diseases. To this end, we propose in this work a novel hybrid approach to rare disease classification, featuring two key novelties targeted at the above drawbacks. First, we adopt the unsupervised representation learning (URL) based on self-supervising contrastive loss, whereby to eliminate the overhead in labeling the base dataset. Second, we integrate the URL with pseudo-label supervised classification for effective self-distillation of the knowledge about the rare diseases, composing a hybrid approach taking advantages of both unsupervised and (pseudo-) supervised learning on the base dataset. Experimental results on classification of rare skin lesions show that our hybrid approach substantially outperforms existing FSL methods (including those using fully supervised base dataset) for rare disease classification via effective integration of the URL and pseudo-label driven self-distillation, thus establishing a new state of the art.
翻訳日:2021-10-12 17:33:25 公開日:2021-10-09
# ポーズ予測のための時空分離グラフ畳み込みネットワーク

Space-Time-Separable Graph Convolutional Network for Pose Forecasting ( http://arxiv.org/abs/2110.04573v1 )

ライセンス: Link先を確認
Theodoros Sofianos, Alessio Sampieri, Luca Franco and Fabio Galasso(参考訳) 人間のポーズ予測は複雑な構造化データシーケンスモデリングタスクであり、多くの潜在的な応用によって注目を集めている。 研究は主に時系列としての時間次元と人体関節とキネマティックツリー、あるいはグラフによる相互作用に対処してきた。 これは2つの側面を分離し、関連する分野からの進歩を生かしているが、人間のポーズの複雑な構造的関節時相ダイナミクスの理解も制限されている。 本稿では、ポーズ予測のための新しい時分割グラフ畳み込みネットワーク(STS-GCN)を提案する。 STS-GCNは初めて、時間的進化を含むグラフ畳み込みネットワーク(GCN)でのみ人間のポーズのダイナミクスをモデル化し、単一のグラフフレームワーク内での空間的関節相互作用をモデル化し、動きと空間的相関のクロストークを可能にした。 同時に、STS-GCNは最初の時空分離可能なGCNであり、時空間グラフ接続は時空間親和性行列に分解される。 両方の親和性行列はエンドツーエンドで学習され、標準キネマティックツリーと線形時間時系列から大きく逸脱する。 ヒト3.6m [ionescu et al. tpami'14], amass [mahmood et al. iccv'19], 3dpw [von marcard et al. eccv'18], sts-gcn の3つのコンプレックス, 最近の大規模ベンチマークの実験的評価では, 現在の最高の手法 [mao et al. eccv'20] を最も難しい長期予測で平均32%以上上回り, パラメータの1.7%しか必要としなかった。 結果の質的説明とグラフの相互作用を因子付きジョイントおよび時間学習グラフ接続を用いて説明する。 ソースコードはhttps://github.com/f raluca/stsgcn.com/で入手できる。

Human pose forecasting is a complex structured-data sequence-modelling task, which has received increasing attention, also due to numerous potential applications. Research has mainly addressed the temporal dimension as time series and the interaction of human body joints with a kinematic tree or by a graph. This has decoupled the two aspects and leveraged progress from the relevant fields, but it has also limited the understanding of the complex structural joint spatio-temporal dynamics of the human pose. Here we propose a novel Space-Time-Separable Graph Convolutional Network (STS-GCN) for pose forecasting. For the first time, STS-GCN models the human pose dynamics only with a graph convolutional network (GCN), including the temporal evolution and the spatial joint interaction within a single-graph framework, which allows the cross-talk of motion and spatial correlations. Concurrently, STS-GCN is the first space-time-separable GCN: the space-time graph connectivity is factored into space and time affinity matrices, which bottlenecks the space-time cross-talk, while enabling full joint-joint and time-time correlations. Both affinity matrices are learnt end-to-end, which results in connections substantially deviating from the standard kinematic tree and the linear-time time series. In experimental evaluation on three complex, recent and large-scale benchmarks, Human3.6M [Ionescu et al. TPAMI'14], AMASS [Mahmood et al. ICCV'19] and 3DPW [Von Marcard et al. ECCV'18], STS-GCN outperforms the state-of-the-art, surpassing the current best technique [Mao et al. ECCV'20] by over 32% in average at the most difficult long-term predictions, while only requiring 1.7% of its parameters. We explain the results qualitatively and illustrate the graph interactions by the factored joint-joint and time-time learnt graph connections. Our source code is available at: https://github.com/F raLuca/STSGCN
翻訳日:2021-10-12 17:32:58 公開日:2021-10-09
# 深層ロングテール学習:調査

Deep Long-Tailed Learning: A Survey ( http://arxiv.org/abs/2110.04596v1 )

ライセンス: Link先を確認
Yifan Zhang, Bingyi Kang, Bryan Hooi, Shuicheng Yan, Jiashi Feng(参考訳) ディープロングテール学習(deep long-tailed learning)は、視覚認識における最も難しい問題の1つで、ロングテールのクラス分布に従う多数の画像から、高性能なディープラーニングモデルをトレーニングすることを目的としている。 過去10年間で、ディープラーニングは高品質な画像表現を学習するための強力な認識モデルとして現れ、一般的な視覚認識において顕著なブレークスルーをもたらした。 しかし、現実的な視覚認識タスクにおける一般的な問題である長い尾のクラス不均衡は、しばしば現実世界のアプリケーションにおけるディープネットワークベースの認識モデルの実用性を制限している。 この問題に対処するために、近年多くの研究が行われており、長い長い学習分野において有望な進歩を遂げている。 本稿では,この分野の急速な発展を考慮し,深層ロングテール学習の最近の進歩に関する包括的調査を行う。 具体的には,既存の長期学習研究を3つの主要なカテゴリ(クラス再バランス,情報強化,モジュール改良)に分類し,これらの手法を詳細に検討する。 その後,新しく提案された評価基準,すなわち相対的精度を用いて,クラス不均衡の問題にどの程度対処しているかを評価することにより,いくつかの最先端手法を実証的に分析した。 我々は,深層ロングテール学習の重要な応用を強調し,今後の研究への有望な方向性を明らかにした。

Deep long-tailed learning, one of the most challenging problems in visual recognition, aims to train well-performing deep models from a large number of images that follow a long-tailed class distribution. In the last decade, deep learning has emerged as a powerful recognition model for learning high-quality image representations and has led to remarkable breakthroughs in generic visual recognition. However, long-tailed class imbalance, a common problem in practical visual recognition tasks, often limits the practicality of deep network based recognition models in real-world applications, since they can be easily biased towards dominant classes and perform poorly on tail classes. To address this problem, a large number of studies have been conducted in recent years, making promising progress in the field of deep long-tailed learning. Considering the rapid evolution of this field, this paper aims to provide a comprehensive survey on recent advances in deep long-tailed learning. To be specific, we group existing deep long-tailed learning studies into three main categories (i.e., class re-balancing, information augmentation and module improvement), and review these methods following this taxonomy in detail. Afterward, we empirically analyze several state-of-the-art methods by evaluating to what extent they address the issue of class imbalance via a newly proposed evaluation metric, i.e., relative accuracy. We conclude the survey by highlighting important applications of deep long-tailed learning and identifying several promising directions for future research.
翻訳日:2021-10-12 17:32:14 公開日:2021-10-09
# Google Landmark Retrieval 2021 コンペティション3位

Google Landmark Retrieval 2021 Competition Third Place Solution ( http://arxiv.org/abs/2110.04619v1 )

ライセンス: Link先を確認
Qishen Ha, Bo Liu, Hongwei Zhang(参考訳) 我々は、検索と認識トラックの両方に対して、Google Landmark Challenges 2021にソリューションを提示する。 どちらのソリューションも、動的マージンを持つSub-center ArcFaceに基づくトランスフォーマーとConvNetモデルのアンサンブルである。 2つのトラックは同じトレーニングデータを共有しているので、同じパイプラインとトレーニングアプローチを使っていますが、アンサンブルと後処理のモデル選択は違います。 昨年の主な改善点は、最新の最先端のビジョンアーキテクチャ、特に検索タスクにおいてConvNetを著しく上回るトランスフォーマーである。 検索トラックと認識トラックはそれぞれ3位と4位に終わった。

We present our solutions to the Google Landmark Challenges 2021, for both the retrieval and the recognition tracks. Both solutions are ensembles of transformers and ConvNet models based on Sub-center ArcFace with dynamic margins. Since the two tracks share the same training data, we used the same pipeline and training approach, but with different model selections for the ensemble and different post-processing. The key improvement over last year is newer state-of-the-art vision architectures, especially transformers which significantly outperform ConvNets for the retrieval task. We finished third and fourth places for the retrieval and recognition tracks respectively.
翻訳日:2021-10-12 17:31:48 公開日:2021-10-09
# 動き伝達のための自己出現支援微分進化

Self-appearance-aide d Differential Evolution for Motion Transfer ( http://arxiv.org/abs/2110.04658v1 )

ライセンス: Link先を確認
Peirong Liu, Rui Wang, Xuefei Cao, Yipin Zhou, Ashish Shah, Maxime Oquab, Camille Couprie, Ser-Nam Lim(参考訳) 画像アニメーションは、ソースイメージ内の静的なオブジェクトに駆動ビデオの動きを転送するが、ソースのアイデンティティは変わらない。 最近、ラベル付きデータや地上の真理領域が不要な、教師なしのモーション転送において、大きな進歩があった。 しかし、現在の教師なしのアプローチは、ソース画像と駆動画像の間に大きな動きや視点の相違がある場合に依然として苦戦している。 本稿では,このような大局的な変化を克服する上で有効な3つの対策を提案する。 まず、より微細な運動変形場を実現するために、音源から運転への移動の進化ダイナミクスをパラメータ化するためのニューラル・モデルを提案する。 第2に,大きな視点と動きの変化による咬合に対処するため,画像の他の領域から不明瞭な欠落領域まで,基本的に類似した構造を「ボロー」する源画像自体から得られる外観フロー(「自己出現」)を利用する。 最後に、我々のフレームワークは、異なる動作状態にもかかわらず、ソースのアイデンティティを駆動するのに役立つ追加参照ビューからの情報を活用できます。 広範な実験によって、人間の顔、人体、ロボット、漫画のキャラクターなど6つのベンチマークにおいて、我々のアプローチが最先端(約40%)をかなり上回っていることが示されました。 モデル一般性解析は、我々のアプローチが、異なる対象カテゴリにまたがるベストを一般化することを示している。

Image animation transfers the motion of a driving video to a static object in a source image, while keeping the source identity unchanged. Great progress has been made in unsupervised motion transfer recently, where no labelled data or ground truth domain priors are needed. However, current unsupervised approaches still struggle when there are large motion or viewpoint discrepancies between the source and driving images. In this paper, we introduce three measures that we found to be effective for overcoming such large viewpoint changes. Firstly, to achieve more fine-grained motion deformation fields, we propose to apply Neural-ODEs for parametrizing the evolution dynamics of the motion transfer from source to driving. Secondly, to handle occlusions caused by large viewpoint and motion changes, we take advantage of the appearance flow obtained from the source image itself ("self-appearance" ;), which essentially "borrows" similar structures from other regions of an image to inpaint missing regions. Finally, our framework is also able to leverage the information from additional reference views which help to drive the source identity in spite of varying motion state. Extensive experiments demonstrate that our approach outperforms the state-of-the-arts by a significant margin (~40%), across six benchmarks varying from human faces, human bodies to robots and cartoon characters. Model generality analysis indicates that our approach generalises the best across different object categories as well.
翻訳日:2021-10-12 17:31:40 公開日:2021-10-09
# 自己協調型Denoising Learningによる遠隔教師付きエンティティ認識の改善

Improving Distantly-Supervised Named Entity Recognition with Self-Collaborative Denoising Learning ( http://arxiv.org/abs/2110.04429v1 )

ライセンス: Link先を確認
Xinghua Zhang, Bowen Yu, Tingwen Liu, Zhenyu Zhang, Jiawei Sheng, Mengge Xue, Hongbo Xu(参考訳) 遠隔管理型エンティティ認識 (DS-NER) は, 作業コストを効率よく削減するが, 遠隔監視の強い前提により, ラベルノイズに本質的に悩まされる。 一般に、誤ったラベル付けされたインスタンスは不完全で不正確なアノテーションノイズの個数から構成されるが、ほとんどの事前のノイズ処理は1種類のノイズにのみ関係しており、トレーニングセット全体において有用な情報を十分に探索できない。 そこで本研究では,2つの教師・学生ネットワークを相互に便宜的に訓練し,ノイズの多いラベルリファリングを反復的に行う,自己協調型学習(SCDL)という頑健な学習パラダイムを提案する。 それぞれのネットワークは、信頼性の高いラベルを自己記述によって活用するように設計されており、2つのネットワークが相互に通信して、協調記述による信頼性の低いアノテーションを探索する。 5つの実世界のデータセットに対する大規模な実験結果から、SCDLは最先端DS-NER復調法よりも優れていることが示された。

Distantly supervised named entity recognition (DS-NER) efficiently reduces labor costs but meanwhile intrinsically suffers from the label noise due to the strong assumption of distant supervision. Typically, the wrongly labeled instances comprise numbers of incomplete and inaccurate annotation noise, while most prior denoising works are only concerned with one kind of noise and fail to fully explore useful information in the whole training set. To address this issue, we propose a robust learning paradigm named Self-Collaborative Denoising Learning (SCDL), which jointly trains two teacher-student networks in a mutually-beneficial manner to iteratively perform noisy label refinery. Each network is designed to exploit reliable labels via self denoising, and two networks communicate with each other to explore unreliable annotations by collaborative denoising. Extensive experimental results on five real-world datasets demonstrate that SCDL is superior to state-of-the-art DS-NER denoising methods.
翻訳日:2021-10-12 17:10:53 公開日:2021-10-09
# ベイズアクティブ要約

Bayesian Active Summarization ( http://arxiv.org/abs/2110.04480v1 )

ライセンス: Link先を確認
Alexios Gidiotis and Grigorios Tsoumakas(参考訳) ベイズアクティブラーニングは様々なnlp問題に大きな影響を与えてきたが、テキスト要約への応用はほとんど研究されていない。 ベイジアン能動要約(Bayesian Active Summarization,BAS)は,能動学習法と最先端の要約モデルを組み合わせた手法である。 以上の結果から,basはランダム選択に比べて,特に小規模データアノテーション予算において,より良好でロバストな性能を実現していることが示唆された。 BASを用いることで、大規模な要約モデルを利用して、非常に限られた注釈付きデータで現実世界の問題を効果的に解決できることを示す。

Bayesian Active Learning has had significant impact to various NLP problems, but nevertheless it's application to text summarization has been explored very little. We introduce Bayesian Active Summarization (BAS), as a method of combining active learning methods with state-of-the-art summarization models. Our findings suggest that BAS achieves better and more robust performance, compared to random selection, particularly for small and very small data annotation budgets. Using BAS we showcase it is possible to leverage large summarization models to effectively solve real-world problems with very limited annotated data.
翻訳日:2021-10-12 17:10:35 公開日:2021-10-09
# 多言語BERT埋め込み空間における等方性解析

An Isotropy Analysis in the Multilingual BERT Embedding Space ( http://arxiv.org/abs/2110.04504v1 )

ライセンス: Link先を確認
Sara Rajaee and Mohammad Taher Pilehvar(参考訳) いくつかの研究は、共通言語知識の取得における多言語事前学習モデル(例えば、多言語BERT)の様々な利点を探求してきた。 しかし、その限界には十分な注意が払われていない。 本稿では,BERTの多言語文脈表現(CWR)における表現退化問題について検討し,選択した言語の埋め込み空間が異方性問題に悩まされていることを示す。 実験の結果,多言語組込み空間の等方性が増大すると,その表現能力と性能が著しく向上することが示された。 分析の結果, 生成方向は言語によって異なるが, 類似した言語知識を符号化し, 言語間の共通言語空間を示唆している。

Several studies have explored various advantages of multilingual pre-trained models (e.g., multilingual BERT) in capturing shared linguistic knowledge. However, their limitations have not been paid enough attention. In this paper, we investigate the representation degeneration problem in multilingual contextual word representations (CWRs) of BERT and show that the embedding spaces of the selected languages suffer from anisotropy problem. Our experimental results demonstrate that, similarly to their monolingual counterparts, increasing the isotropy of multilingual embedding space can significantly improve its representation power and performance. Our analysis indicates that although the degenerated directions vary in different languages, they encode similar linguistic knowledge, suggesting a shared linguistic space among languages.
翻訳日:2021-10-12 17:10:24 公開日:2021-10-09
# ピラミッドアノテーションによる多文文融合資源の拡張

Extending Multi-Text Sentence Fusion Resources via Pyramid Annotations ( http://arxiv.org/abs/2110.04517v1 )

ライセンス: Link先を確認
Daniela Brook Weiss, Paul Roit, Ori Ernst, Ido Dagan(参考訳) 複数の文書にまたがって情報を比較または統合するNLPモデルは、テキスト間で実質的な情報冗長性を認識することに挑戦するときにしばしば苦労する。 例えば、複数文書の要約では、テキストをまたいだ健全な情報を識別し、非冗長な要約を生成することが不可欠である。 このような課題の研究を容易にするために、textit{sentence fusion} の文レベルタスクが提案されたが、このタスクの以前のデータセットはそのサイズと範囲に限られていた。 本稿では,これまでのデータセット作成努力を再検討し,大幅に拡張する。 慎重に修正し、データソースを緩和し、補うことで、注目すべき以前のデータセットのサイズを3倍にしました。 さらに,本拡張版では,多文書タスクに代表的テキストを多用し,より大きく多様なトレーニングセットを提供し,モデルトレーニングを大幅に改善した。

NLP models that compare or consolidate information across multiple documents often struggle when challenged with recognizing substantial information redundancies across the texts. For example, in multi-document summarization it is crucial to identify salient information across texts and then generate a non-redundant summary, while facing repeated and usually differently-phrased salient content. To facilitate researching such challenges, the sentence-level task of \textit{sentence fusion} was proposed, yet previous datasets for this task were very limited in their size and scope. In this paper, we revisit and substantially extend previous dataset creation efforts. With careful modifications, relabeling and employing complementing data sources, we were able to triple the size of a notable earlier dataset. Moreover, we show that our extended version uses more representative texts for multi-document tasks and provides a larger and more diverse training set, which substantially improves model training.
翻訳日:2021-10-12 17:10:10 公開日:2021-10-09
# DMRST: 文書レベル多言語RTT談話セグメンテーションと構文解析のための統合フレームワーク

DMRST: A Joint Framework for Document-Level Multilingual RST Discourse Segmentation and Parsing ( http://arxiv.org/abs/2110.04518v1 )

ライセンス: Link先を確認
Zhengyuan Liu, Ke Shi, Nancy F. Chen(参考訳) テキストの言説解析は、自然言語における情報の流れや議論的構造を理解する上で重要である。 先行研究はrst談話解析の性能を大幅に向上させるが,(1)eduセグメンテーションは既存のほとんどのツリーパースフレームワークに統合されていないため,新たなデータに適用するのは容易ではない。 2) ほとんどのパーサは英語のみで開発されているため,多言語シナリオでは使用できない。 3) 単ドメインツリーバンクから訓練されたパーサーはドメイン外の入力ではうまく一般化しない。 本研究では,EDUセグメンテーションと談話木解析を共同で行う文書レベルの多言語RST談話解析フレームワークを提案する。 さらに,多言語解析をサポートし,ドメインの汎用性を向上させるためのクロス翻訳拡張戦略を提案する。 実験の結果,本モデルは全てのサブタスクにおいて文書レベルの多言語rst解析において最先端の性能を実現することがわかった。

Text discourse parsing weighs importantly in understanding information flow and argumentative structure in natural language, making it beneficial for downstream tasks. While previous work significantly improves the performance of RST discourse parsing, they are not readily applicable to practical use cases: (1) EDU segmentation is not integrated into most existing tree parsing frameworks, thus it is not straightforward to apply such models on newly-coming data. (2) Most parsers cannot be used in multilingual scenarios, because they are developed only in English. (3) Parsers trained from single-domain treebanks do not generalize well on out-of-domain inputs. In this work, we propose a document-level multilingual RST discourse parsing framework, which conducts EDU segmentation and discourse tree parsing jointly. Moreover, we propose a cross-translation augmentation strategy to enable the framework to support multilingual parsing and improve its domain generality. Experimental results show that our model achieves state-of-the-art performance on document-level multilingual RST parsing in all sub-tasks.
翻訳日:2021-10-12 17:09:00 公開日:2021-10-09
# ドメイン統合による多人数対話談話解析の改善

Improving Multi-Party Dialogue Discourse Parsing via Domain Integration ( http://arxiv.org/abs/2110.04526v1 )

ライセンス: Link先を確認
Zhengyuan Liu, Nancy F. Chen(参考訳) マルチパーティ会話は、しばしばモノローグや文書よりも構造化されていないが、対話的なターン間の意味レベルの相関によって暗黙的に構成され、対話談話分析を用いて基本談話単位間の依存関係構造と関係を予測し、下流タスクに特徴豊富な構造情報を提供することができる。 しかし,対話談話アノテーションを付加した既存のコーパスは,サンプルサイズが限定された特定のドメインから収集され,ドメイン適応を伴わない入力対話に乏しいデータ駆動型アプローチのパフォーマンスが向上する。 本稿では,まずトランスフォーマーベースのパーサを導入し,そのクロスドメイン性能を評価する。 次に、一般化能力を改善するために、データおよび言語モデリングの観点からドメイン統合を得る3つの方法を採用する。 実験結果から,ニューラルパーサは提案手法の利点を享受でき,クロスドメイン対話のサンプルでの性能が向上した。

While multi-party conversations are often less structured than monologues and documents, they are implicitly organized by semantic level correlations across the interactive turns, and dialogue discourse analysis can be applied to predict the dependency structure and relations between the elementary discourse units, and provide feature-rich structural information for downstream tasks. However, the existing corpora with dialogue discourse annotation are collected from specific domains with limited sample sizes, rendering the performance of data-driven approaches poor on incoming dialogues without any domain adaptation. In this paper, we first introduce a Transformer-based parser, and assess its cross-domain performance. We next adopt three methods to gain domain integration from both data and language modeling perspectives to improve the generalization capability. Empirical results show that the neural parser can benefit from our proposed methods, and performs better on cross-domain dialogue samples.
翻訳日:2021-10-12 17:08:43 公開日:2021-10-09
# グラフに基づくマルチホップ推論による情緒応答生成

Empathetic Response Generation through Graph-based Multi-hop Reasoning on Emotional Causality ( http://arxiv.org/abs/2110.04614v1 )

ライセンス: Link先を確認
Jiashuo Wang, Wenjie LI, Peiqin Lin and Feiteng Mu(参考訳) 共感的反応生成は、ユーザの感情を理解し、適切に反応することを目的としている。 既存の作業の多くは、感情が何であるかにのみ焦点を合わせ、感情の誘発方法を無視し、それによってモデルの能力を弱め、共感的な反応を生み出すユーザの感情経験を理解する。 この問題に取り組むために、感情因果関係、すなわち、ユーザがどのような感情(すなわち感情)を表現しているか、なぜユーザーがそのような感情(すなわち、原因)を持っているのかを考える。 そこで本研究では,共感会話の感情因果関係をモデル化するマルチホップ推論を用いた新しいグラフモデルを提案する。 最後に, EMPATHETICDIALOGUESにおけるモデルの有効性を, いくつかの競合モデルと比較した。

Empathetic response generation aims to comprehend the user emotion and then respond to it appropriately. Most existing works merely focus on what the emotion is and ignore how the emotion is evoked, thus weakening the capacity of the model to understand the emotional experience of the user for generating empathetic responses. To tackle this problem, we consider the emotional causality, namely, what feelings the user expresses (i.e., emotion) and why the user has such feelings (i.e., cause). Then, we propose a novel graph-based model with multi-hop reasoning to model the emotional causality of the empathetic conversation. Finally, we demonstrate the effectiveness of our model on EMPATHETICDIALOGUES in comparison with several competitive models.
翻訳日:2021-10-12 17:08:26 公開日:2021-10-09
# 量子コンピューティングの線形非ガウス非巡回モデルへの新しい医学的知識発見への応用

Application of quantum computing to a linear non-Gaussian acyclic model for novel medical knowledge discovery ( http://arxiv.org/abs/2110.04485v1 )

ライセンス: Link先を確認
Hideaki Kawaguchi(参考訳) 近年,医療のデジタル化に伴い,臨床現場から収集した実世界の医療データの利用が注目されている。 本研究では, 量子コンピューティングを線形非ゲージ非循環モデルに適用し, 実世界の医療データのみから因果関係を探索した。 具体的には、因果探索アルゴリズムであるDirectLiNGAMの独立度を量子カーネルを用いて計算し、実世界の医療データに対する精度を検証した。 量子カーネル (qlingam) を実世界の医療データに適用した場合, 既存の手法では不可能であったデータ量が小さい場合, 因果構造を正確に推定できる場合が確認された。 qLiNGAMは、少量のデータしか入手できない場合でも、新しい医療知識を発見し、医療問題の解決に寄与する可能性があることが示唆されている。

Recently, with the digitalization of medicine, the utilization of real-world medical data collected from clinical sites has been attracting attention. In this study, quantum computing was applied to a linear non-Gaussian acyclic model to discover causal relationships from real-world medical data alone. Specifically, the independence measure of DirectLiNGAM, a causal discovery algorithm, was calculated using the quantum kernel and its accuracy on real-world medical data was verified. When DirectLiNGAM with the quantum kernel (qLiNGAM) was applied to real-world medical data, a case was confirmed in which the causal structure could be correctly estimated when the amount of data was small, which was not possible with existing methods. It is suggested that qLiNGAM may be able to discover new medical knowledge and contribute to the solution of medical problems, even when only a small amount of data is available.
翻訳日:2021-10-12 16:49:13 公開日:2021-10-09
# 直視経験とカリキュラム学習による強化学習による人間対応ロボットナビゲーション

Human-Aware Robot Navigation via Reinforcement Learning with Hindsight Experience Replay and Curriculum Learning ( http://arxiv.org/abs/2110.04564v1 )

ライセンス: Link先を確認
Keyu Li, Ye Lu, Max Q.-H. Meng(参考訳) 近年、よりインテリジェントなサービスロボットの需要が高まり、密集した群衆の安全かつ効率的な操作を可能にする移動ロボットナビゲーションアルゴリズムの開発が進められている。 強化学習(RL)アプローチは、シーケンシャルな意思決定問題を解決する優れた能力を示しており、最近の研究は、ナビゲーション警察を社会的に適合した方法で学習する可能性を探っている。 しかし、既存の手法で使われる専門家の実証データは、通常高価で入手が困難である。 本研究では,RLエージェントを実演データを用いずに訓練する作業について考察し,混雑環境下での効率的な衝突回避ナビゲーションを実現する。 少額報酬ナビゲーション問題に対処するために,her(hindsight experience replay)とcl( curriculum learning)技術をrlに組み込んで,密集した群衆の最適ナビゲーション方針を効率的に学習することを提案する。 本手法の有効性は,群集ロボット共存環境において検証される。 その結果,本手法は実演データを必要とせず,効果的にナビゲーションを学習できることが示唆された。

In recent years, the growing demand for more intelligent service robots is pushing the development of mobile robot navigation algorithms to allow safe and efficient operation in a dense crowd. Reinforcement learning (RL) approaches have shown superior ability in solving sequential decision making problems, and recent work has explored its potential to learn navigation polices in a socially compliant manner. However, the expert demonstration data used in existing methods is usually expensive and difficult to obtain. In this work, we consider the task of training an RL agent without employing the demonstration data, to achieve efficient and collision-free navigation in a crowded environment. To address the sparse reward navigation problem, we propose to incorporate the hindsight experience replay (HER) and curriculum learning (CL) techniques with RL to efficiently learn the optimal navigation policy in the dense crowd. The effectiveness of our method is validated in a simulated crowd-robot coexisting environment. The results demonstrate that our method can effectively learn human-aware navigation without requiring additional demonstration data.
翻訳日:2021-10-12 16:46:00 公開日:2021-10-09
# 潜在的な成果の深層学習

Deep Learning of Potential Outcomes ( http://arxiv.org/abs/2110.04442v1 )

ライセンス: Link先を確認
Bernard Koch, Tim Sainburg, Pablo Geraldo, Song Jiang, Yizhou Sun, Jacob Gates Foster(参考訳) このレビューは、潜在的な結果の枠組みの下でディープニューラルネットワークを用いた因果推論の新たな文献を体系化する。 深層学習を用いて不均一な治療効果を推定・予測し、因果推論を非線形、時間変化、テキスト、ネットワーク、画像にエンコードされた設定にまで拡張する方法について、直感的な紹介を提供する。 アクセシビリティを最大化するために,因果推論やディープラーニングといった前提概念も導入する。 この調査は、観察因果推定、キーアルゴリズムの拡張展開、および、github.com/kochbj/de ep-Learning-for-Caus al-Inferenceで利用可能なTensorflow 2の深部推定器の実装、訓練、選択に関する詳細なチュートリアルに重点を置いている他の深部学習と因果推論の処理とは異なる。

This review systematizes the emerging literature for causal inference using deep neural networks under the potential outcomes framework. It provides an intuitive introduction on how deep learning can be used to estimate/predict heterogeneous treatment effects and extend causal inference to settings where confounding is non-linear, time varying, or encoded in text, networks, and images. To maximize accessibility, we also introduce prerequisite concepts from causal inference and deep learning. The survey differs from other treatments of deep learning and causal inference in its sharp focus on observational causal estimation, its extended exposition of key algorithms, and its detailed tutorials for implementing, training, and selecting among deep estimators in Tensorflow 2 available at github.com/kochbj/De ep-Learning-for-Caus al-Inference.
翻訳日:2021-10-12 16:44:13 公開日:2021-10-09
# 前処理は過パラメータニューラルネットワークのトレーニングに役立つか?

Does Preprocessing Help Training Over-parameterized Neural Networks? ( http://arxiv.org/abs/2110.04622v1 )

ライセンス: Link先を確認
Zhao Song, Shuo Yang, Ruizhe Zhang(参考訳) ディープニューラルネットワークは多くの分野で素晴らしいパフォーマンスを実現している。 ニューラルネットワークを訓練するための高速で証明可能な手法を設計することは、機械学習の基本的な問題である。 従来のトレーニング手法では、前方計算と後方計算の両方に$\Omega(mnd)$を支払う必要があり、ここでは$m$はニューラルネットワークの幅であり、$d$次元空間において$n$のトレーニングポイントが与えられる。 本稿では、この$\omega(mnd)$障壁を回避するための2つの新しい前処理アイデアを提案する。 $\bullet$ first, ニューラルネットワークの初期重みを前処理することで、1イテレーションあたり$\widetilde{o}(m^{1-\theta(1/d)} n d)$でニューラルネットワークを訓練することができる。 第二に、入力データポイントを前処理することで、ニューラルネットワークを1イテレーションあたり$\widetilde{o} (m^{4/5} nd )$でトレーニングできる。 技術的観点からは, 異なる分野のツールの組み合わせ, 最適化におけるグリード型収束解析, 実用的な作業における疎度観察, データ構造における高次元幾何学的探索, 確率における集中度, 反集中度などである。 また,これまでに確立された高速訓練法について理論的考察を行った。 さらに,従来のアルゴリズムを量子計算モデルに一般化することができる。 興味深いことに、イテレーション毎に同様のサブ線形コストを得ることができるが、初期重み付けや入力データポイントの事前処理は避けることができる。

Deep neural networks have achieved impressive performance in many areas. Designing a fast and provable method for training neural networks is a fundamental question in machine learning. The classical training method requires paying $\Omega(mnd)$ cost for both forward computation and backward computation, where $m$ is the width of the neural network, and we are given $n$ training points in $d$-dimensional space. In this paper, we propose two novel preprocessing ideas to bypass this $\Omega(mnd)$ barrier: $\bullet$ First, by preprocessing the initial weights of the neural networks, we can train the neural network in $\widetilde{O}(m^{1-\Theta(1/d)} n d)$ cost per iteration. $\bullet$ Second, by preprocessing the input data points, we can train the neural network in $\widetilde{O} (m^{4/5} nd )$ cost per iteration. From the technical perspective, our result is a sophisticated combination of tools in different fields, greedy-type convergence analysis in optimization, sparsity observation in practical work, high-dimensional geometric search in data structure, concentration and anti-concentration in probability. Our results also provide theoretical insights for a large number of previously established fast training methods. In addition, our classical algorithm can be generalized to the Quantum computation model. Interestingly, we can get a similar sublinear cost per iteration but avoid preprocessing initial weights or input data points.
翻訳日:2021-10-12 16:43:09 公開日:2021-10-09
# 適応型モデルフリー強化学習におけるサンプル複雑性障壁の破却

Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free Reinforcement Learning ( http://arxiv.org/abs/2110.04645v1 )

ライセンス: Link先を確認
Gen Li, Laixi Shi, Yuxin Chen, Yuantao Gu, Yuejie Chi(参考訳) オンラインエピソジック強化学習(rl)におけるサンプル効率の達成には、探索と搾取の最適バランスが必要である。 s$ 状態、$a$ アクション、地平線の長さ $h$ を持つ有限ホリゾンのエピソディックマルコフ決定プロセスに関しては、サンプル総数 $t$ で$\sqrt{h^2sat}$ (modulo log factor) の順にスケールするminimax-optimal regret を特徴付けるためにかなりの進歩があった。 いくつかの競合する解パラダイムは後悔を最小限に抑えるために提案されているが、それらはメモリ非効率であるか、サンプルサイズが巨大なしきい値(例えば、既存のモデルフリーメソッドでは$S^6A^4 \,\mathrm{poly}(H)$)を超えない限り、最適性に欠ける。 このような大きなサンプルサイズ障壁を克服して効率的なRLを実現するために、サンプルサイズが$SA\,\mathrm{poly}(H)$を超えると、ほぼ最適に後悔する空間複雑性$O(SAH)$で新しいモデルフリーアルゴリズムを設計する。 このサンプルサイズ要件(初期バーンインコストとも呼ばれる)に関して、我々の手法は、漸近的に後悔と最適化される以前のメモリ効率アルゴリズムに対して、少なくとも$S^5A^3$の係数で改善する。 提案アルゴリズムは,最近導入された分散低減戦略(「vs-reference-advanta ge decomposition」とも呼ばれる)を活用し,上位と下位の信頼境界を持つ2つのQ-ラーニングシーケンスの助けを借りて,初期セットされた参照更新ルールを採用する。 初期の分散還元法の設計原理は、複雑な探査・探査のトレードオフを含む他のRL設定と独立して関心を持つかもしれない。

Achieving sample efficiency in online episodic reinforcement learning (RL) requires optimally balancing exploration and exploitation. When it comes to a finite-horizon episodic Markov decision process with $S$ states, $A$ actions and horizon length $H$, substantial progress has been achieved towards characterizing the minimax-optimal regret, which scales on the order of $\sqrt{H^2SAT}$ (modulo log factors) with $T$ the total number of samples. While several competing solution paradigms have been proposed to minimize regret, they are either memory-inefficient, or fall short of optimality unless the sample size exceeds an enormous threshold (e.g., $S^6A^4 \,\mathrm{poly}(H)$ for existing model-free methods). To overcome such a large sample size barrier to efficient RL, we design a novel model-free algorithm, with space complexity $O(SAH)$, that achieves near-optimal regret as soon as the sample size exceeds the order of $SA\,\mathrm{poly}(H)$. In terms of this sample size requirement (also referred to the initial burn-in cost), our method improves -- by at least a factor of $S^5A^3$ -- upon any prior memory-efficient algorithm that is asymptotically regret-optimal. Leveraging the recently introduced variance reduction strategy (also called {\em reference-advantage decomposition}), the proposed algorithm employs an {\em early-settled} reference update rule, with the aid of two Q-learning sequences with upper and lower confidence bounds. The design principle of our early-settled variance reduction method might be of independent interest to other RL settings that involve intricate exploration-exploita tion trade-offs.
翻訳日:2021-10-12 16:42:43 公開日:2021-10-09
# 胸部X線を用いた視覚変換器によるCOVID-19検出

Vision Transformer based COVID-19 Detection using Chest X-rays ( http://arxiv.org/abs/2110.04458v1 )

ライセンス: Link先を確認
Koushik Sivarama Krishnan and Karthik Sivarama Krishnan(参考訳) 新型コロナウイルス(COVID-19)は世界的なパンデミックであり、それらを検出することは、現在の医療専門家にとって重要な課題だ。 胸部X線検査やCTスキャンの現在の方法は、深い知識を必要とし、時間を要するため、人々の命がかかっているときに医療従事者の貴重な時間を短縮すると考えられる。 本研究は,胸部x線分類における最先端性能を達成することで,このプロセスを支援する。 提案手法では,胸部X線上でのCOVID-19感染症検出のための微調整モデルを用いている。 精度は97.61%、精度は95.34%、リコールスコアは93.84%、f1スコアは94.58%である。 この結果は胸部X線上のトランスモデルの性能を示す。

COVID-19 is a global pandemic, and detecting them is a momentous task for medical professionals today due to its rapid mutations. Current methods of examining chest X-rays and CT scan requires profound knowledge and are time consuming, which suggests that it shrinks the precious time of medical practitioners when people's lives are at stake. This study tries to assist this process by achieving state-of-the-art performance in classifying chest X-rays by fine-tuning Vision Transformer(ViT). The proposed approach uses pretrained models, fine-tuned for detecting the presence of COVID-19 disease on chest X-rays. This approach achieves an accuracy score of 97.61%, precision score of 95.34%, recall score of 93.84% and, f1-score of 94.58%. This result signifies the performance of transformer-based models on chest X-ray.
翻訳日:2021-10-12 16:39:53 公開日:2021-10-09
# 複雑なネットワークによる音楽ジャンルの特徴抽出と分類

Complex Network-Based Approach for Feature Extraction and Classification of Musical Genres ( http://arxiv.org/abs/2110.04654v1 )

ライセンス: Link先を確認
Matheus Henrique Pimenta-Zanon and Glaucia Maria Bressan and Fabr\'icio Martins Lopes(参考訳) 音楽ジャンルの分類は、関連する研究テーマである。 音楽とジャンルの関連は、音楽レコメンデーションシステムを管理するメディア産業と、ジャンルによって分類される可能性のある音楽ストリーミングサービスにとって基本的なものである。 本稿では,複雑なネットワークと位相計測に基づいて,音楽ジャンルの自動分類のための特徴抽出手法を提案する。 提案手法では,まず楽曲を音符列に変換し,その後に複雑なネットワークとしてマッピングする。 位相計測は、音楽ジャンルの分類に適用される特徴ベクトルを構成するネットワークトポロジーを特徴付けるために抽出される。 本手法は,GTZANデータセットと8つの音楽ジャンルをFMAデータセットを用いて,10の楽曲ジャンルの分類において評価した。 結果は文献の手法と比較された。 提案手法は,アサーティブ性とロバスト性を備えた自動分類においてメディア産業に寄与する音楽ジャンルの分類に適合し,高い精度と低い標準偏差を示すことにより,すべての比較手法を上回った。 提案手法はpython言語でオープンソースに実装されており、https://github.com/o matheuspimenta/exami nnerで自由に利用できる。

Musical genre's classification has been a relevant research topic. The association between music and genres is fundamental for the media industry, which manages musical recommendation systems, and for music streaming services, which may appear classified by genres. In this context, this work presents a feature extraction method for the automatic classification of musical genres, based on complex networks and their topological measurements. The proposed method initially converts the musics into sequences of musical notes and then maps the sequences as complex networks. Topological measurements are extracted to characterize the network topology, which composes a feature vector that applies to the classification of musical genres. The method was evaluated in the classification of 10 musical genres by adopting the GTZAN dataset and 8 musical genres by adopting the FMA dataset. The results were compared with methods in the literature. The proposed method outperformed all compared methods by presenting high accuracy and low standard deviation, showing its suitability for the musical genre's classification, which contributes to the media industry in the automatic classification with assertiveness and robustness. The proposed method is implemented in an open source in the Python language and freely available at https://github.com/o matheuspimenta/exami nner.
翻訳日:2021-10-12 16:39:37 公開日:2021-10-09
# EfficientPhys: シンプルで高速で正確なカメラベースの生体計測

EfficientPhys: Enabling Simple, Fast and Accurate Camera-Based Vitals Measurement ( http://arxiv.org/abs/2110.04447v1 )

ライセンス: Link先を確認
Xin Liu, Brian L. Hill, Ziheng Jiang, Shwetak Patel, Daniel McDuff(参考訳) カメラに基づく生理学的測定は、最先端技術を提供するニューラルモデルで成長する分野である。 以前の研究では様々な ‘end-to-end' モデルが研究されてきたが、これらの手法はいくつかの前処理を必要とする。 これらの追加操作は、レプリケーションやデプロイメントを困難にすることは簡単ではなく、‘core’ネットワーク自体よりも高い計算予算を持つこともある。 本稿では, 顔検出, セグメンテーション, 正規化, 色空間変換, その他の前処理ステップを不要とする, カメラを用いた生理的計測のための2つの新しい, 効率的なニューラルモデルを提案する。 生のビデオフレームの入力を用いて,3つの公開データセットにおいて最先端の精度を実現する。 トランスフォーマーを使うか,あるいは畳み込みバックボーンを使うかは,この場合である。 さらに,提案するネットワークのレイテンシを評価し,最も軽量なネットワークが33%の効率向上を実現していることを示す。

Camera-based physiological measurement is a growing field with neural models providing state-the-art-perfor mance. Prior research have explored various ``end-to-end'' models; however these methods still require several preprocessing steps. These additional operations are often non-trivial to implement making replication and deployment difficult and can even have a higher computational budget than the ``core'' network itself. In this paper, we propose two novel and efficient neural models for camera-based physiological measurement called EfficientPhys that remove the need for face detection, segmentation, normalization, color space transformation or any other preprocessing steps. Using an input of raw video frames, our models achieve state-of-the-art accuracy on three public datasets. We show that this is the case whether using a transformer or convolutional backbone. We further evaluate the latency of the proposed networks and show that our most light weight network also achieves a 33% improvement in efficiency.
翻訳日:2021-10-12 16:06:58 公開日:2021-10-09
# K-Splits: クラスタ数の自動検出のための改良K-Meansクラスタリングアルゴリズム

K-Splits: Improved K-Means Clustering Algorithm to Automatically Detect the Number of Clusters ( http://arxiv.org/abs/2110.04660v1 )

ライセンス: Link先を確認
Seyed Omid Mohammadi, Ahmad Kalhor, Hossein Bodaghi (University of Tehran, College of Engineering, School of Electrical and Computer Engineering, Tehran, Iran)(参考訳) 本稿では,クラスタ数を事前に知ることなく,クラスタデータに対するk-meansに基づく階層的アルゴリズムであるk-splitsを提案する。 K-splitsは少数のクラスタから始まり、最も重要なデータ分散軸を使用して、必要に応じてクラスタを段階的に適切なものに分割する。 提案手法の主な利点は, 精度と速度である。 6つのベンチマークデータセットと2つの実世界のデータセットであるmnistとfashion-mnistを実験し、異なる条件下でのクラスタ数を求めるのに優れた精度を示す。 また,k-splitsは類似の手法よりも高速であり,低次元の標準k-meansよりも高速であることを示す。 最後に,k-splits を用いてセントロイドの位置を正確に把握し,k-means アルゴリズムの初期点として入力し,結果を微調整することを提案する。

This paper introduces k-splits, an improved hierarchical algorithm based on k-means to cluster data without prior knowledge of the number of clusters. K-splits starts from a small number of clusters and uses the most significant data distribution axis to split these clusters incrementally into better fits if needed. Accuracy and speed are two main advantages of the proposed method. We experiment on six synthetic benchmark datasets plus two real-world datasets MNIST and Fashion-MNIST, to prove that our algorithm has excellent accuracy in finding the correct number of clusters under different conditions. We also show that k-splits is faster than similar methods and can even be faster than the standard k-means in lower dimensions. Finally, we suggest using k-splits to uncover the exact position of centroids and then input them as initial points to the k-means algorithm to fine-tune the results.
翻訳日:2021-10-12 16:06:41 公開日:2021-10-09
# セミ教師付きセマンティクスセグメンテーションにおける色拡張

Colour augmentation for improved semi-supervised semantic segmentation ( http://arxiv.org/abs/2110.04487v1 )

ライセンス: Link先を確認
Geoff French and Michal Mackiewicz(参考訳) 一貫性正規化は、半教師付き分類の最先端結果をもたらすアプローチのクラスを記述する。 半教師付きセマンティックセグメンテーションはより困難であることが判明したが、最近多くの成功例が提案されている。 最近の研究は、セグメンテーション問題に一貫性の正規化を使用する際の課題を調査した。 自監督的な研究の中で、Chenらは、色増色により分類ネットワークが画像色統計をインスタンス識別による自己監督学習のショートカットとして使用するのを防ぐことを発見した。 このことから、類似した問題は半教師付きセマンティックセグメンテーションを阻害し、カラー拡張をソリューションとして提供し、挑戦的な写真画像におけるセミ教師付きセマンティックセグメンテーションのパフォーマンスを向上させることを見出した。

Consistency regularization describes a class of approaches that have yielded state-of-the-art results for semi-supervised classification. While semi-supervised semantic segmentation proved to be more challenging, a number of successful approaches have been recently proposed. Recent work explored the challenges involved in using consistency regularization for segmentation problems. In their self-supervised work Chen et al. found that colour augmentation prevents a classification network from using image colour statistics as a short-cut for self-supervised learning via instance discrimination. Drawing inspiration from this we find that a similar problem impedes semi-supervised semantic segmentation and offer colour augmentation as a solution, improving semi-supervised semantic segmentation performance on challenging photographic imagery.
翻訳日:2021-10-12 15:53:07 公開日:2021-10-09
# データフリードメイン一般化に向けて

Towards Data-Free Domain Generalization ( http://arxiv.org/abs/2110.04545v1 )

ライセンス: Link先を確認
Ahmed Frikha, Haokun Chen, Denis Krompa{\ss}, Thomas Runkler, Volker Tresp(参考訳) 本研究では,領域一般化とデータ自由学習の非探索的交わりについて検討する。 異なるソースデータドメインでトレーニングされたモデルに含まれる知識は、ソースデータとターゲットドメインデータがない場合に、対象とするドメインによく一般化する単一のモデルにマージできるだろうか? ドメインシフトに対処可能な機械学習モデルは、データ分散が頻繁に変化する現実世界のシナリオに不可欠である。 事前ドメインの一般化メソッドは、典型的にはソースドメインデータを使用しており、プライベートな分散データには適さない。 本研究では,データ自由領域一般化(DFDG)の新たな課題を定義し,元となるデータセットの代わりに,ソースドメインで個別にトレーニングされたモデルが利用可能となる実践的環境を定義し,その場合のドメイン一般化問題を効果的に解く方法について検討する。 本稿では,利用可能な教師モデルからドメイン固有の知識を抽出・融合する手法であるdekanを提案する。 実験により,本手法の有効性を実証し,本手法がDFDGにおける第1次最先端結果をもたらすことを示す。

In this work, we investigate the unexplored intersection of domain generalization and data-free learning. In particular, we address the question: How can knowledge contained in models trained on different source data domains can be merged into a single model that generalizes well to unseen target domains, in the absence of source and target domain data? Machine learning models that can cope with domain shift are essential for for real-world scenarios with often changing data distributions. Prior domain generalization methods typically rely on using source domain data, making them unsuitable for private decentralized data. We define the novel problem of Data-Free Domain Generalization (DFDG), a practical setting where models trained on the source domains separately are available instead of the original datasets, and investigate how to effectively solve the domain generalization problem in that case. We propose DEKAN, an approach that extracts and fuses domain-specific knowledge from the available teacher models into a student model robust to domain shift. Our empirical evaluation demonstrates the effectiveness of our method which achieves first state-of-the-art results in DFDG by significantly outperforming ensemble and data-free knowledge distillation baselines.
翻訳日:2021-10-12 15:52:51 公開日:2021-10-09
# VQGANの改良によるベクトル量子化画像モデリング

Vector-quantized Image Modeling with Improved VQGAN ( http://arxiv.org/abs/2110.04627v1 )

ライセンス: Link先を確認
Jiahui Yu, Xin Li, Jing Yu Koh, Han Zhang, Ruoming Pang, James Qin, Alexander Ku, Yuanzhong Xu, Jason Baldridge, Yonghui Wu(参考訳) 大量のテキストコーパスに対する次の予測を伴う事前学習言語モデルは、生成的および判別的言語タスクの両方において、驚くべきゼロショット、少数ショット、転送学習、マルチタスク機能を提供している。 この成功により、トランスフォーマーを事前訓練してラスタ化画像トークンを自動回帰的に予測するベクトル量子画像モデリング(VIM)アプローチを探求する。 離散画像トークンは、学習されたVit-TransformerベースのVQGAN(ViT-VQGAN)から符号化される。 まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。 改良されたViT-VQGANは、非条件、クラス条件の画像生成、教師なし表現学習を含むベクトル量子化画像モデリングタスクをさらに改善する。 256x256の解像度でimagenetでトレーニングすると、175.1のインセプションスコア(is)と4.17のfr'echetインセプション距離(fid)を達成し、それぞれ70.6と17.04のisとfidを得るバニラvqganに対する劇的な改善を行った。 また、VT-VQGANと教師なし事前学習に基づいて、画像GPT(iGPT)と同様の中間特徴を平均化することにより、事前訓練したトランスフォーマーの評価を行う。 ImageNet-pretrained VIM-Lは、同様のモデルサイズで線形プローブの精度を60.3%から72.2%に向上させた。 ViM-Lは、余分なWebイメージデータとより大きなモデルサイズでトレーニングされたiGPT-XLよりも優れている。

Pretraining language models with next-token prediction on massive text corpora has delivered phenomenal zero-shot, few-shot, transfer learning and multi-tasking capabilities on both generative and discriminative language tasks. Motivated by this success, we explore a Vector-quantized Image Modeling (VIM) approach that involves pretraining a Transformer to predict rasterized image tokens autoregressively. The discrete image tokens are encoded from a learned Vision-Transformer-b ased VQGAN (ViT-VQGAN). We first propose multiple improvements over vanilla VQGAN from architecture to codebook learning, yielding better efficiency and reconstruction fidelity. The improved ViT-VQGAN further improves vector-quantized image modeling tasks, including unconditional, class-conditioned image generation and unsupervised representation learning. When trained on ImageNet at 256x256 resolution, we achieve Inception Score (IS) of 175.1 and Fr'echet Inception Distance (FID) of 4.17, a dramatic improvement over the vanilla VQGAN, which obtains 70.6 and 17.04 for IS and FID, respectively. Based on ViT-VQGAN and unsupervised pretraining, we further evaluate the pretrained Transformer by averaging intermediate features, similar to Image GPT (iGPT). This ImageNet-pretrained VIM-L significantly beats iGPT-L on linear-probe accuracy from 60.3% to 72.2% for a similar model size. ViM-L also outperforms iGPT-XL which is trained with extra web image data and larger model size.
翻訳日:2021-10-12 15:52:33 公開日:2021-10-09
# ディープニューラルネットワークのためのペアワイズマージン最大化

Pairwise Margin Maximization for Deep Neural Networks ( http://arxiv.org/abs/2110.04519v1 )

ライセンス: Link先を確認
Berry Weinstein, Shai Fine, Yacov Hel-Or(参考訳) 重量減衰正則化項は、訓練中に表現性を制限し、過度な適合を回避し、一般化を改善するために広く用いられる。 歴史的に、この概念はSVMの最大利幅原理から借用され、マルチクラスのディープネットワークに拡張された。 この原理を慎重に検査すると、一般的にはマルチクラス分類、特にディープニューラルネットワークの使用には最適ではないことが分かる。 本稿では、この原則が最適でない理由を説明し、予測された分類が切り替わるまでインスタンスが取るべき最小変位量を計測する新しい正規化スキームである {\em Pairwise Margin Maximization} (PMM)を提案する。 ディープニューラルネットワークでは、pmmはネットワークの出力層、すなわちディープ特徴空間の前にベクトル空間に実装することができ、自明な解への収束を避けるために追加の正規化項を追加する。 標準正規化項と比較して,pmmを用いた深層ニューラルネットワークのトレーニングにおいて,実証的な改善が見られた。

The weight decay regularization term is widely used during training to constrain expressivity, avoid overfitting, and improve generalization. Historically, this concept was borrowed from the SVM maximum margin principle and extended to multi-class deep networks. Carefully inspecting this principle reveals that it is not optimal for multi-class classification in general, and in particular when using deep neural networks. In this paper, we explain why this commonly used principle is not optimal and propose a new regularization scheme, called {\em Pairwise Margin Maximization} (PMM), which measures the minimal amount of displacement an instance should take until its predicted classification is switched. In deep neural networks, PMM can be implemented in the vector space before the network's output layer, i.e., in the deep feature space, where we add an additional normalization term to avoid convergence to a trivial solution. We demonstrate empirically a substantial improvement when training a deep neural network with PMM compared to the standard regularization terms.
翻訳日:2021-10-12 15:39:01 公開日:2021-10-09
# 生成モデルにおける条件付き事前学習による識別型マルチモーダル学習

Discriminative Multimodal Learning via Conditional Priors in Generative Models ( http://arxiv.org/abs/2110.04616v1 )

ライセンス: Link先を確認
Rogelio A. Mancisidor, Michael Kampffmeyer, Kjersti Aas, Robert Jenssen(参考訳) 潜在変数を持つ深い生成モデルは最近マルチモーダルデータから共同表現と生成過程を学ぶのに使われている。 しかし、これらの2つの学習メカニズムは互いに衝突し、表現がデータモダリティの情報を埋め込むことができない可能性がある。 本研究は、モデルトレーニングで全てのモダリティとクラスラベルが利用できるが、下流タスクに必要なモダリティとラベルが欠けている現実的なシナリオを研究する。 このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。 これらの問題を解決するために,情報的事前分布を用いた条件付きマルチモーダル判別モデルを導入し,協調表現と欠落モダリティ間の相互情報を最大化する確率自由目的関数を最適化する。 広範な実験により,提案モデルの有効性を示し,下流分類,音響インバージョン,アノテーション生成などの代表的な問題において,本モデルが最先端の結果を得ることを示す実験結果を得た。

Deep generative models with latent variables have been used lately to learn joint representations and generative processes from multi-modal data. These two learning mechanisms can, however, conflict with each other and representations can fail to embed information on the data modalities. This research studies the realistic scenario in which all modalities and class labels are available for model training, but where some modalities and labels required for downstream tasks are missing. We show, in this scenario, that the variational lower bound limits mutual information between joint representations and missing modalities. We, to counteract these problems, introduce a novel conditional multi-modal discriminative model that uses an informative prior distribution and optimizes a likelihood-free objective function that maximizes mutual information between joint representations and missing modalities. Extensive experimentation shows the benefits of the model we propose, the empirical results showing that our model achieves state-of-the-art results in representative problems such as downstream classification, acoustic inversion and annotation generation.
翻訳日:2021-10-12 15:33:44 公開日:2021-10-09
# 人間とロボットのコラボレーションのための自然言語:言語接地以外の問題

Natural Language for Human-Robot Collaboration: Problems Beyond Language Grounding ( http://arxiv.org/abs/2110.04441v1 )

ライセンス: Link先を確認
Seth Pate, Wei Xu, Ziyi Yang, Maxwell Love, Siddarth Ganguri, Lawson L.S. Wong(参考訳) ロボットが人間のコラボレーションを指導できるようにするため、この文脈では一般的に研究されていない言語処理のいくつかの側面を特定する。 これには場所、計画、世代が含まれる。 我々は,各タスクに対する評価を提案し,簡単な方法のベースラインを提供し,コラボレーションのための言語研究における課題と機会を議論することで閉じる。

To enable robots to instruct humans in collaborations, we identify several aspects of language processing that are not commonly studied in this context. These include location, planning, and generation. We suggest evaluations for each task, offer baselines for simple methods, and close by discussing challenges and opportunities in studying language for collaboration.
翻訳日:2021-10-12 15:22:12 公開日:2021-10-09
# 近接関数近似による理論的原理付き深層rl加速

Theoretically Principled Deep RL Acceleration via Nearest Neighbor Function Approximation ( http://arxiv.org/abs/2110.04422v1 )

ライセンス: Link先を確認
Junhong Shen, Lin F. Yang(参考訳) 近年、深層ニューラルネットワークをRLフレームワークに統合することで、深層強化学習(RL)は目覚ましい成功を収めている。 しかし、これらのアルゴリズムは、多くのトレーニングサンプルを必要とし、理論的な理解がほとんどない。 これらの問題を緩和するため,提案手法では,深部RL法における値ネットワークを改善することができる理論上,近接関数近似器を提案する。 NN近似器は,人間の類似性判定にインスパイアされ,過去の観測からロールアウトを用いて行動値を推定し,環境固有の複雑さにのみ依存する小さな後悔境界を確実に得る。 本稿では,1) 関数近似と深部RLを併用する実用性を示すオンラインポリシー勾配アルゴリズムであるNearest Neighbor Actor-Critic (NNAC) と,2) 既存の深部RL法のトレーニングを支援するプラグアンドプレイNN更新モジュールを提案する。 古典的制御とMuJoCo移動タスクの実験により、NN加速剤はベースライン剤よりも高い試料効率と安定性が得られることが示された。 その理論的利点に基づき、NN近似器は学習の高速化のために他の複雑な領域にも適用できると考えている。

Recently, deep reinforcement learning (RL) has achieved remarkable empirical success by integrating deep neural networks into RL frameworks. However, these algorithms often require a large number of training samples and admit little theoretical understanding. To mitigate these issues, we propose a theoretically principled nearest neighbor (NN) function approximator that can improve the value networks in deep RL methods. Inspired by human similarity judgments, the NN approximator estimates the action values using rollouts on past observations and can provably obtain a small regret bound that depends only on the intrinsic complexity of the environment. We present (1) Nearest Neighbor Actor-Critic (NNAC), an online policy gradient algorithm that demonstrates the practicality of combining function approximation with deep RL, and (2) a plug-and-play NN update module that aids the training of existing deep RL methods. Experiments on classical control and MuJoCo locomotion tasks show that the NN-accelerated agents achieve higher sample efficiency and stability than the baseline agents. Based on its theoretical benefits, we believe that the NN approximator can be further applied to other complex domains to speed-up learning.
翻訳日:2021-10-12 15:21:09 公開日:2021-10-09
# 遠隔操作によるシーン編集 : 6DoF Kit Assembly を事例として

Scene Editing as Teleoperation: A Case Study in 6DoF Kit Assembly ( http://arxiv.org/abs/2110.04450v1 )

ライセンス: Link先を確認
Shubham Agrawal, Yulong Li, Jen-Shuo Liu, Steven K. Feiner, Shuran Song(参考訳) ロボット遠隔操作の研究は、連続的なジョイントコントロールから離散的なエンドエフェクターポーズ制御まで、アクション仕様を中心に行われている。 しかし、これらのロボット中心のインターフェイスは、しばしば高度なロボット工学の専門知識を持つ熟練したオペレーターを必要とする。 従来の"ロボット中心"インターフェースを"シーン中心"インターフェースに転換する,すなわち,ロボットを制御する代わりに,現実世界のオブジェクトのデジタルツインを操作することで,タスクの目標を特定することに注力する,という考え方だ。 これにより、ロボットハードウェアの専門知識を必要とせずに遠隔操作を行うことができる。 この目的を達成するために,実世界の作業空間(未知のオブジェクトを含む)を操作可能な仮想シーン表現に変換するカテゴリ非依存シーン補完アルゴリズムと,ロボットの行動計画を生成する前にユーザ入力を洗練するアクションスナップアルゴリズムを用いる。 アルゴリズムを訓練するために、私たちは、現実世界のオブジェクトキッティングタスクを模倣するオブジェクトキットペアを含む大規模で多様なキットアセンブリデータセットを手続き的に生成しました。 シミュレーションおよび実世界のシステムを用いた実験により、6DoF キット組立作業の効率性と成功率の向上が示された。 ユーザ調査の結果,シートフレームワークの参加者は,ロボット中心のインターフェースよりも高いタスク成功率を達成し,主観的な作業負荷が低くなることが示された。 ビデオはhttps://www.youtube. com/watch? v=-NdR3mkPbQQ。

Studies in robot teleoperation have been centered around action specifications -- from continuous joint control to discrete end-effector pose control. However, these robot-centric interfaces often require skilled operators with extensive robotics expertise. To make teleoperation accessible to non-expert users, we propose the framework "Scene Editing as Teleoperation" (SEaT), where the key idea is to transform the traditional "robot-centric" interface into a "scene-centric" interface -- instead of controlling the robot, users focus on specifying the task's goal by manipulating digital twins of the real-world objects. As a result, a user can perform teleoperation without any expert knowledge of the robot hardware. To achieve this goal, we utilize a category-agnostic scene-completion algorithm that translates the real-world workspace (with unknown objects) into a manipulable virtual scene representation and an action-snapping algorithm that refines the user input before generating the robot's action plan. To train the algorithms, we procedurally generated a large-scale, diverse kit-assembly dataset that contains object-kit pairs that mimic real-world object-kitting tasks. Our experiments in simulation and on a real-world system demonstrate that our framework improves both the efficiency and success rate for 6DoF kit-assembly tasks. A user study demonstrates that SEaT framework participants achieve a higher task success rate and report a lower subjective workload compared to an alternative robot-centric interface. Video can be found at https://www.youtube. com/watch?v=-NdR3mkPbQQ .
翻訳日:2021-10-12 15:18:28 公開日:2021-10-09
# 画像分割参照のための2段階視覚手がかり強調ネットワーク

Two-stage Visual Cues Enhancement Network for Referring Image Segmentation ( http://arxiv.org/abs/2110.04435v1 )

ライセンス: Link先を確認
Yang Jiao, Zequn Jie, Weixin Luo, Jingjing Chen, Yu-Gang Jiang, Xiaolin Wei, Lin Ma(参考訳) Referring Image Segmentation (RIS)は、ある自然言語表現によって参照される画像から対象オブジェクトをセグメント化することを目的としている。 画像中の多様で柔軟な表現と複雑な視覚コンテンツは、表現中の単語と画像に示されるオブジェクトの微粒度マッチングの振る舞いを調べることの要求が高いrisモデルをもたらす。 しかし、参照者の視覚的手がかり(つまり参照対象)が不十分な場合には、そのようなマッチング動作は、境界の背景が散らばったり、画像内の有能な物体に圧倒されたりすることで、容易に混同される傾向があるため、学習や捕獲が困難である。 また、視覚手がかりの不足は、以前の研究でなされたクロスモーダル融合機構では処理できない。 本稿では,新たな検索・エンリッチメント・スキーム (res) と適応型マルチレゾリューション・フィーチャー・フュージョン (amf) モジュールを提案する2段階のビジュアル・キューエンハンスメント・ネットワーク (tv-net) を考案し,レファレンスのための視覚情報を強化する新たな視点からこの問題に取り組む。 この2段階の強化により,提案するTV-Netは,特に参照者の視覚情報が不十分な場合に,自然言語表現と画像間のきめ細かいマッチング動作を学習し,より良いセグメンテーション結果が得られる。 提案手法のRISタスクにおける有効性を検証するために,提案手法が4つのベンチマークデータセットの最先端アプローチを超越したTV-Net実験を行った。

Referring Image Segmentation (RIS) aims at segmenting the target object from an image referred by one given natural language expression. The diverse and flexible expressions as well as complex visual contents in the images raise the RIS model with higher demands for investigating fine-grained matching behaviors between words in expressions and objects presented in images. However, such matching behaviors are hard to be learned and captured when the visual cues of referents (i.e. referred objects) are insufficient, as the referents with weak visual cues tend to be easily confused by cluttered background at boundary or even overwhelmed by salient objects in the image. And the insufficient visual cues issue can not be handled by the cross-modal fusion mechanisms as done in previous work. In this paper, we tackle this problem from a novel perspective of enhancing the visual information for the referents by devising a Two-stage Visual cues enhancement Network (TV-Net), where a novel Retrieval and Enrichment Scheme (RES) and an Adaptive Multi-resolution feature Fusion (AMF) module are proposed. Through the two-stage enhancement, our proposed TV-Net enjoys better performances in learning fine-grained matching behaviors between the natural language expression and image, especially when the visual information of the referent is inadequate, thus produces better segmentation results. Extensive experiments are conducted to validate the effectiveness of the proposed method on the RIS task, with our proposed TV-Net surpassing the state-of-the-art approaches on four benchmark datasets.
翻訳日:2021-10-12 15:15:08 公開日:2021-10-09
# 分布に着目して:異常検出と局所化のための粗相関学習

Focus Your Distribution: Coarse-to-Fine Non-Contrastive Learning for Anomaly Detection and Localization ( http://arxiv.org/abs/2110.04538v1 )

ライセンス: Link先を確認
Ye Zheng, Xiang Wang, Rui Deng, Tianpeng Bao, Rui Zhao, Liwei Wu(参考訳) 教師なし異常検出の本質は、正常なサンプルのコンパクトな分布を学習し、検査における異常として外れ値を検出することである。 一方、現実世界の異常は通常、特に工業用途の高解像度画像において微妙できめ細かいものである。 この目的に向けて,教師なし異常検出と局所化のための新しい枠組みを提案する。 本手法は, 粗いアライメントプロセスを用いて, 正規画像から高密度かつコンパクトな分布を学習することを目的とする。 粗いアライメントステージは、画像と特徴レベルの両方のオブジェクトのピクセル単位での位置を標準化する。 そして、微細アライメントステージは、バッチ内の全ての対応する位置間の特徴の類似性を密に最大化する。 通常の画像のみによる学習を容易にするために, ファインアライメント段階のための非コントラスト学習と呼ばれる新しいプレテキストタスクを提案する。 非矛盾学習は、異常なサンプルに仮定することなく、正常な画像表現を堅牢かつ識別し、モデルに様々な異常なシナリオを一般化させる。 MVTec ADとBenTech ADの2つの典型的な産業データセットに対する大規模な実験により、我々のフレームワークは様々な現実世界の欠陥の検出に有効であり、産業用無監督異常検出における新たな最先端技術を実現していることが示された。

The essence of unsupervised anomaly detection is to learn the compact distribution of normal samples and detect outliers as anomalies in testing. Meanwhile, the anomalies in real-world are usually subtle and fine-grained in a high-resolution image especially for industrial applications. Towards this end, we propose a novel framework for unsupervised anomaly detection and localization. Our method aims at learning dense and compact distribution from normal images with a coarse-to-fine alignment process. The coarse alignment stage standardizes the pixel-wise position of objects in both image and feature levels. The fine alignment stage then densely maximizes the similarity of features among all corresponding locations in a batch. To facilitate the learning with only normal images, we propose a new pretext task called non-contrastive learning for the fine alignment stage. Non-contrastive learning extracts robust and discriminating normal image representations without making assumptions on abnormal samples, and it thus empowers our model to generalize to various anomalous scenarios. Extensive experiments on two typical industrial datasets of MVTec AD and BenTech AD demonstrate that our framework is effective in detecting various real-world defects and achieves a new state-of-the-art in industrial unsupervised anomaly detection.
翻訳日:2021-10-12 15:14:36 公開日:2021-10-09
# シンタクティック・ディバージェンスとゼロショット性能の関係について

On the Relation between Syntactic Divergence and Zero-Shot Performance ( http://arxiv.org/abs/2110.04644v1 )

ライセンス: Link先を確認
Ofir Arviv, Dmitry Nikolaev, Taelin Karidi and Omri Abend(参考訳) 本稿では,構文関係が翻訳中に保存される程度と,ゼロショット設定で構文木を正しく構築することの容易さとの関係について検討する。 これまでの作業ではそのような関係を示唆していましたが、個々のエッジのレベルではなく、マクロレベルにフォーカスする傾向があります。 テストケースとして、英語から多種多様な言語にパースするUniversal Dependencies (UD) の転送と、2つの実験を行う。 本研究では,英語のソースエッジが翻訳中に保存される程度に基づいてゼロショット性能を解析する。 別の例として、言語的に動機付けられた3つの変換をUDに適用し、より言語的に安定したバージョンを作成し、そのゼロショットパーサビリティを評価する。 本研究では,ロシア語と韓国語に翻訳された一般的な英語 re ベンチマークのサブセットを用いて,言語間関係抽出(re)の下流課題について,解析性能の比較を行う。 両実験の結果から,言語間安定性とゼロショット解析性能の強い関係が示唆された。

We explore the link between the extent to which syntactic relations are preserved in translation and the ease of correctly constructing a parse tree in a zero-shot setting. While previous work suggests such a relation, it tends to focus on the macro level and not on the level of individual edges-a gap we aim to address. As a test case, we take the transfer of Universal Dependencies (UD) parsing from English to a diverse set of languages and conduct two sets of experiments. In one, we analyze zero-shot performance based on the extent to which English source edges are preserved in translation. In another, we apply three linguistically motivated transformations to UD, creating more cross-lingually stable versions of it, and assess their zero-shot parsability. In order to compare parsing performance across different schemes, we perform extrinsic evaluation on the downstream task of cross-lingual relation extraction (RE) using a subset of a popular English RE benchmark translated to Russian and Korean. In both sets of experiments, our results suggest a strong relation between cross-lingual stability and zero-shot parsing performance.
翻訳日:2021-10-12 15:11:33 公開日:2021-10-09
# 構成ポリシーによる言語指導の追跡学習

Learning to Follow Language Instructions with Compositional Policies ( http://arxiv.org/abs/2110.04647v1 )

ライセンス: Link先を確認
Vanya Cohen, Geraud Nangue Tasse, Nakul Gopalan, Steven James, Matthew Gombolay, Benjamin Rosman(参考訳) 本稿では,タスク記述の構成要素を共有する目標到達タスクからなる環境において,自然言語命令の実行を学習するフレームワークを提案する。 提案手法は,新しいタスクを学習するサンプルの複雑さを減らすことを目的として,価値関数と言語の組み合わせ性を活用する。 まず、強化学習エージェントを訓練し、その後ブール代数を通して構成できる値関数を学習し、新しい課題を解決する。 次に,web スケールコーパス上で事前学習した seq2seq モデルを微調整し,必要な値関数の構成を規定する論理式に言語をマッピングする。 BabyAIドメインにおけるエージェントの評価では、ひとつのタスクをマスターした後で2番目のタスクを学習するために必要なトレーニングステップの数が86%減少している。 アブレーション研究の結果、これは合成値関数と言語表現の組み合わせであり、エージェントがすぐに新しいタスクに一般化できることを示している。

We propose a framework that learns to execute natural language instructions in an environment consisting of goal-reaching tasks that share components of their task descriptions. Our approach leverages the compositionality of both value functions and language, with the aim of reducing the sample complexity of learning novel tasks. First, we train a reinforcement learning agent to learn value functions that can be subsequently composed through a Boolean algebra to solve novel tasks. Second, we fine-tune a seq2seq model pretrained on web-scale corpora to map language to logical expressions that specify the required value function compositions. Evaluating our agent in the BabyAI domain, we observe a decrease of 86% in the number of training steps needed to learn a second task after mastering a single task. Results from ablation studies further indicate that it is the combination of compositional value functions and language representations that allows the agent to quickly generalize to new tasks.
翻訳日:2021-10-12 15:11:14 公開日:2021-10-09
# シンメトリーとグループによる物体の単一/多属性学習

Learning Single/Multi-Attribu te of Object with Symmetry and Group ( http://arxiv.org/abs/2110.04603v1 )

ライセンス: Link先を確認
Yong-Lu Li, Yue Xu, Xinyu Xu, Xiaohan Mao, Cewu Lu(参考訳) 属性とオブジェクトは多様な構成を構成できる。 これらの概念の構成的性質をモデル化するには、カップリングやデカップリングといった変換として学ぶのがよい選択です。 しかし、複雑な変換は合理性を保証するための特定の原則を満たす必要がある。 ここでは,まず属性-オブジェクト変換の原則である対称性を提案する。 例えば、ピールされたアップルと属性のピールを結合すると、ピールされたアップルになるでしょう。 対称性を組み込んだ群理論,すなわちSymNetに着想を得た変換フレームワークを提案する。 Coupling NetworkとDecoupling Networkの2つのモジュールで構成されている。 我々は、SymNetを実装するためにディープニューラルネットワークを採用し、グループ公理と対称性を目的とするエンドツーエンドパラダイムでトレーニングする。 次に,属性パターンそのものではなく属性変化を利用して属性を分類するための相対移動距離(rmd)ベースの手法を提案する。 単一属性とオブジェクトの合成に加えて,RMDは属性相関を組み込んだ複数の属性とオブジェクトの複雑な合成にも適している。 SymNetは属性学習、合成ゼロショット学習に利用でき、4つの広く使用されているベンチマークで最先端の性能を発揮する。 コードはhttps://github.com/D irtyHarryLYL/SymNetにある。

Attributes and objects can compose diverse compositions. To model the compositional nature of these concepts, it is a good choice to learn them as transformations, e.g., coupling and decoupling. However, complex transformations need to satisfy specific principles to guarantee rationality. Here, we first propose a previously ignored principle of attribute-object transformation: Symmetry. For example, coupling peeled-apple with attribute peeled should result in peeled-apple, and decoupling peeled from apple should still output apple. Incorporating the symmetry, we propose a transformation framework inspired by group theory, i.e., SymNet. It consists of two modules: Coupling Network and Decoupling Network. We adopt deep neural networks to implement SymNet and train it in an end-to-end paradigm with the group axioms and symmetry as objectives. Then, we propose a Relative Moving Distance (RMD) based method to utilize the attribute change instead of the attribute pattern itself to classify attributes. Besides the compositions of single-attribute and object, our RMD is also suitable for complex compositions of multiple attributes and objects when incorporating attribute correlations. SymNet can be utilized for attribute learning, compositional zero-shot learning and outperforms the state-of-the-art on four widely-used benchmarks. Code is at https://github.com/D irtyHarryLYL/SymNet.
翻訳日:2021-10-12 14:46:38 公開日:2021-10-09
# バイオメトリックジェンダーと年齢分類器の一般化のためのラベルなしデータの調和

Harnessing Unlabeled Data to Improve Generalization of Biometric Gender and Age Classifiers ( http://arxiv.org/abs/2110.04427v1 )

ライセンス: Link先を確認
Aakash Varma Nadimpalli, Narsi Reddy, Sreeraj Ramachandran and Ajita Rattani(参考訳) ディープラーニングの進歩により、多くのコンピュータビジョンアプリケーションが屈折点に達している。 しかし、これらのディープラーニングモデルは、モデルトレーニングと最適パラメータ推定のために大量のラベル付きデータを必要とする。 モデルトレーニングのための限定されたラベル付きデータは過剰フィッティングとなり、その一般化性能に影響を及ぼす。 しかし、大量のデータの収集とアノテーションは、非常に時間がかかり、高価な操作である。 さらに、プライバシやセキュリティ上の懸念から、医療分野を含む特定のアプリケーションに対して大量のラベル付きデータを収集することはできない。 自己学習、協調学習、自己アンサンブル法は、ラベルのないデータを活用するために使用できる3種類の半教師付き学習法である。 本稿では,限定ラベルデータとともにラベルなしデータを利用して一般化性能を向上させる自己センブル型ディープラーニングモデルを提案する。 ソフトバイオメトリックジェンダーと年齢分類のための自己アンサンブルに基づく深層学習モデルの評価を行った。 CelebA データセットと VISOB データセットの実験的評価では、それぞれ 94.46% と 81.00% の性別分類精度が示唆されており、CelebA データセットのラベルなしサンプルは 1000 のラベル付きサンプルと残りの 199k のサンプルのみであり、同様に 107k のサンプルが残っていた1000 のラベル付きサンプルは VISOB データセットのラベルなしサンプルである。 比較評価では、celebaデータセットとvisobデータセットでトレーニングされた教師付きモデルと比較して、自己センブルモデルの精度が5.74\%$と8.47\%$改善されていることが示唆される。 また,Adienceデータセット上での年齢群予測のための学習手法も評価し,ベースラインよりも3.92%高い55.55$\pm$4.28の精度でベースライン教師付きディープラーニング学習モデルより優れていた。

With significant advances in deep learning, many computer vision applications have reached the inflection point. However, these deep learning models need large amount of labeled data for model training and optimum parameter estimation. Limited labeled data for model training results in over-fitting and impacts their generalization performance. However, the collection and annotation of large amount of data is a very time consuming and expensive operation. Further, due to privacy and security concerns, the large amount of labeled data could not be collected for certain applications such as those involving medical field. Self-training, Co-training, and Self-ensemble methods are three types of semi-supervised learning methods that can be used to exploit unlabeled data. In this paper, we propose self-ensemble based deep learning model that along with limited labeled data, harness unlabeled data for improving the generalization performance. We evaluated the proposed self-ensemble based deep-learning model for soft-biometric gender and age classification. Experimental evaluation on CelebA and VISOB datasets suggest gender classification accuracy of 94.46% and 81.00%, respectively, using only 1000 labeled samples and remaining 199k samples as unlabeled samples for CelebA dataset and similarly,1000 labeled samples with remaining 107k samples as unlabeled samples for VISOB dataset. Comparative evaluation suggest that there is $5.74\%$ and $8.47\%$ improvement in the accuracy of the self-ensemble model when compared with supervised model trained on the entire CelebA and VISOB dataset, respectively. We also evaluated the proposed learning method for age-group prediction on Adience dataset and it outperformed the baseline supervised deep-learning learning model with a better exact accuracy of 55.55 $\pm$ 4.28 which is 3.92% more than the baseline.
翻訳日:2021-10-12 14:45:50 公開日:2021-10-09
# 深層ニューラルネットワークとk-nearest-neighbor分類に基づく超音波画像中の腹部臓器の自動認識

Automatic Recognition of Abdominal Organs in Ultrasound Images based on Deep Neural Networks and K-Nearest-Neighbor Classification ( http://arxiv.org/abs/2110.04563v1 )

ライセンス: Link先を確認
Keyu Li, Yangxin Xu, Max Q.-H. Meng(参考訳) 腹部超音波画像は様々な腹部臓器の診断と治療に広く用いられている。 超音波画像中の様々な腹部臓器を自動的に認識するために,深層学習技術とk-Nearest-Neighbor(k -NN)分類を組み合わせた分類法を提案する。 微調整深部ニューラルネットワークとPCA次元の低減を併用して生の超音波画像から高次特徴を抽出し、画像中の腹部臓器を予測するためにk-NN分類器を用いる。 腹部6臓器を自動認識する超音波画像分類の課題において,本手法の有効性を実証する。 異なる特徴抽出器と分類器が分類精度に与える影響を検討するために, 異なる構成の包括的比較を行った。 定量的・定性的ともに, 最小限の訓練で超音波画像中の腹部臓器を96.67%の精度でリアルタイムに"遅延"認識できることを示した。 私たちの実装コードは、https://github.com/L eeKeyu/abdominal_ult rasound_classificati onで公開されています。

Abdominal ultrasound imaging has been widely used to assist in the diagnosis and treatment of various abdominal organs. In order to shorten the examination time and reduce the cognitive burden on the sonographers, we present a classification method that combines the deep learning techniques and k-Nearest-Neighbor (k-NN) classification to automatically recognize various abdominal organs in the ultrasound images in real time. Fine-tuned deep neural networks are used in combination with PCA dimension reduction to extract high-level features from raw ultrasound images, and a k-NN classifier is employed to predict the abdominal organ in the image. We demonstrate the effectiveness of our method in the task of ultrasound image classification to automatically recognize six abdominal organs. A comprehensive comparison of different configurations is conducted to study the influence of different feature extractors and classifiers on the classification accuracy. Both quantitative and qualitative results show that with minimal training effort, our method can "lazily" recognize the abdominal organs in the ultrasound images in real time with an accuracy of 96.67%. Our implementation code is publicly available at: https://github.com/L eeKeyu/abdominal_ult rasound_classificati on.
翻訳日:2021-10-12 14:45:15 公開日:2021-10-09
# (参考訳) 低ランクMDPにおけるオンライン・オフラインRLの表現学習 [全文訳有]

Representation Learning for Online and Offline RL in Low-rank MDPs ( http://arxiv.org/abs/2110.04652v1 )

ライセンス: CC BY 4.0
Masatoshi Uehara, Xuezhou Zhang, Wen Sun(参考訳) 本研究では,RLにおける表現学習の課題について考察する。RLの表現の上に,探索や利用といったRLの手続きを,より効率的な方法で行うことができるような,コンパクトな低次元表現をどうやって学習できるか。 我々は、遷移力学が低ランク遷移行列に対応する低ランクマルコフ決定過程(MDP)に焦点を当てる。 表現が知られていると仮定する以前の研究(例えば線型 MDP)とは異なり、ここでは低ランク MDP の表現を学ぶ必要がある。 オンラインRLとオフラインRLの両方について検討する。 For the online setting, operating with the same computational oracles used in FLAMBE (Agarwal et.al), the state-of-art algorithm for learning representations in low-rank MDPs, we propose an algorithm REP-UCB Upper Confidence Bound driven Representation learning for RL), which significantly improves the sample complexity from $\widetilde{O}( A^9 d^7 / (\epsilon^{10} (1-\gamma)^{22}))$ for FLAMBE to $\widetilde{O}( A^4 d^4 / (\epsilon^2 (1-\gamma)^{3}) )$ with $d$ being the rank of the transition matrix (or dimension of the ground truth representation), $A$ being the number of actions, and $\gamma$ being the discounted factor. 特に、REP-UCBはFLAMBEよりもシンプルで、表現学習、探索、搾取の相互作用を直接バランスさせ、FLAMBEは探索的コミットスタイルのアプローチであり、段階的に報酬のない探索を行う必要がある。 オフラインのrl設定では,ペシミズムを利用して部分カバレッジ条件下で学習するアルゴリズムを開発した。

This work studies the question of Representation Learning in RL: how can we learn a compact low-dimensional representation such that on top of the representation we can perform RL procedures such as exploration and exploitation, in a sample efficient manner. We focus on the low-rank Markov Decision Processes (MDPs) where the transition dynamics correspond to a low-rank transition matrix. Unlike prior works that assume the representation is known (e.g., linear MDPs), here we need to learn the representation for the low-rank MDP. We study both the online RL and offline RL settings. For the online setting, operating with the same computational oracles used in FLAMBE (Agarwal et.al), the state-of-art algorithm for learning representations in low-rank MDPs, we propose an algorithm REP-UCB Upper Confidence Bound driven Representation learning for RL), which significantly improves the sample complexity from $\widetilde{O}( A^9 d^7 / (\epsilon^{10} (1-\gamma)^{22}))$ for FLAMBE to $\widetilde{O}( A^4 d^4 / (\epsilon^2 (1-\gamma)^{3}) )$ with $d$ being the rank of the transition matrix (or dimension of the ground truth representation), $A$ being the number of actions, and $\gamma$ being the discounted factor. Notably, REP-UCB is simpler than FLAMBE, as it directly balances the interplay between representation learning, exploration, and exploitation, while FLAMBE is an explore-then-commit style approach and has to perform reward-free exploration step-by-step forward in time. For the offline RL setting, we develop an algorithm that leverages pessimism to learn under a partial coverage condition: our algorithm is able to compete against any policy as long as it is covered by the offline distribution.
翻訳日:2021-10-12 14:33:19 公開日:2021-10-09
# PAMA-TTS: 音素継続時間制御による安定Seq2Seq TTSの進行性を考慮したモノトニックアテンション

PAMA-TTS: Progression-Aware Monotonic Attention for Stable Seq2Seq TTS With Accurate Phoneme Duration Control ( http://arxiv.org/abs/2110.04486v1 )

ライセンス: Link先を確認
Yunchao He, Jian Luan, Yujun Wang(参考訳) エンコーダとデコーダ間のシーケンス拡張は、シーケンス対シーケンスTSにおいて重要な課題である。 注意に基づく手法は自然性が高いが、音素の欠如や繰り返しといった不安定な問題に悩まされる。 一方、持続時間インフォームド法は音素の持続時間を容易に調整するが、音声の自然度は明らかに低下する。 本稿では,PAMA-TTSを提案する。 フレキシブルな注意と明示的な持続時間モデルの両方を活用する。 単調な注意機構に基づいて、pama-ttsはフレームのトークン持続時間と相対的な位置、特にカウントダウン情報、すなわち現在の音素が終了する将来のフレーム数を利用する。 それらは、緩やかだが信頼できるコントロールでトークンシーケンスに沿って前進するのに注意を向ける助けとなる。 実験の結果,PAMA-TTSが最も自然度が高く,持続時間インフォームドモデルよりも持続時間制御性が高いことがわかった。

Sequence expansion between encoder and decoder is a critical challenge in sequence-to-sequence TTS. Attention-based methods achieve great naturalness but suffer from unstable issues like missing and repeating phonemes, not to mention accurate duration control. Duration-informed methods, on the contrary, seem to easily adjust phoneme duration but show obvious degradation in speech naturalness. This paper proposes PAMA-TTS to address the problem. It takes the advantage of both flexible attention and explicit duration models. Based on the monotonic attention mechanism, PAMA-TTS also leverages token duration and relative position of a frame, especially countdown information, i.e. in how many future frames the present phoneme will end. They help the attention to move forward along the token sequence in a soft but reliable control. Experimental results prove that PAMA-TTS achieves the highest naturalness, while has on-par or even better duration controllability than the duration-informed model.
翻訳日:2021-10-12 13:11:31 公開日:2021-10-09
# Promptsで区切られた引数を生成する: 機能するシンプルなイベント抽出フレームワーク

Generating Disentangled Arguments with Prompts: A Simple Event Extraction Framework that Works ( http://arxiv.org/abs/2110.04525v1 )

ライセンス: Link先を確認
Jinghui Si, Xutan Peng, Chen Li, Haotian Xu, Jianxin Li(参考訳) イベント抽出は、テキストとイベント信号の間のギャップを埋める。 トリガ引数依存性の仮定に基づいて、既存のアプローチはエキスパート設計のテンプレートや複雑なデコード制約で最先端のパフォーマンスを達成した。 本稿では,入力側と出力側の両方でラベルセマンティクスの自動活用を促進するイベント抽出の領域において,プロンプトベースの学習戦略を初めて紹介する。 提案手法の有効性を検証するため,11種類のベースラインを用いて広範な実験を行った。 経験的な結果は、Argument extractのF1スコアに関して、私たちの単純なアーキテクチャは他の生成的アーキテクチャよりも強く、テンプレートエンジニアリングを必要とするアルゴリズムと競合することを示している。 リコールの尺度に関して、引数とトリガーの抽出の両方について、新しい全体的なレコードを設定する。 ここでは、このフレームワークをコミュニティに推奨し、コードはhttps://git.io/GDAP. orgで公開しています。

Event Extraction bridges the gap between text and event signals. Based on the assumption of trigger-argument dependency, existing approaches have achieved state-of-the-art performance with expert-designed templates or complicated decoding constraints. In this paper, for the first time we introduce the prompt-based learning strategy to the domain of Event Extraction, which empowers the automatic exploitation of label semantics on both input and output sides. To validate the effectiveness of the proposed generative method, we conduct extensive experiments with 11 diverse baselines. Empirical results show that, in terms of F1 score on Argument Extraction, our simple architecture is stronger than any other generative counterpart and even competitive with algorithms that require template engineering. Regarding the measure of recall, it sets new overall records for both Argument and Trigger Extractions. We hereby recommend this framework to the community, with the code publicly available at https://git.io/GDAP.
翻訳日:2021-10-12 13:11:12 公開日:2021-10-09
# 予測分布の評価:ベイズ的深層学習は働くか?

Evaluating Predictive Distributions: Does Bayesian Deep Learning Work? ( http://arxiv.org/abs/2110.04629v1 )

ライセンス: Link先を確認
Ian Osband, Zheng Wen, Seyed Mohammad Asghari, Vikranth Dwaracherla, Botao Hao, Morteza Ibrahimi, Dieterich Lawson, Xiuyuan Lu, Brendan O'Donoghue, Benjamin Van Roy(参考訳) 後方予測分布は、点推定によって無視される不確かさを定量化する。 本稿では,このような予測を生成するエージェントを体系的に評価するためのツールである \textit{the neural testbed} を紹介する。 重要なのは、これらのツールが入力毎の限界予測の品質だけでなく、多くの入力に対する共同予測も評価することです。 共同分布はしばしば有用な不確実性定量化に不可欠であるが、ベイジアン深層学習コミュニティによって見過ごされている。 我々は,ニューラルネットワークに基づくデータ生成プロセスを用いた不確実性推定手法をいくつかベンチマークする。 その結果,限界予測以上の評価の重要性が明らかとなった。 さらに、正確な限界予測を生成するベイズ的深層学習アプローチが、逐次的決定タスクにおいて不十分な結果をもたらす理由、事前の組み入れがいかに役立つか、パフォーマンスを評価する際にエピステミックとアレタリックの不確実性が果たす役割など、この分野における混乱の源泉を整理する。 また,実世界の課題データセットについて,テストベッド結果と高い相関関係を示し,共同予測分布の評価の重要性を実データに伝達する実験を行った。 この取り組みの一環として、我々はThe Neural Testbedをオープンソース化しました。

Posterior predictive distributions quantify uncertainties ignored by point estimates. This paper introduces \textit{The Neural Testbed}, which provides tools for the systematic evaluation of agents that generate such predictions. Crucially, these tools assess not only the quality of marginal predictions per input, but also joint predictions given many inputs. Joint distributions are often critical for useful uncertainty quantification, but they have been largely overlooked by the Bayesian deep learning community. We benchmark several approaches to uncertainty estimation using a neural-network-based data generating process. Our results reveal the importance of evaluation beyond marginal predictions. Further, they reconcile sources of confusion in the field, such as why Bayesian deep learning approaches that generate accurate marginal predictions perform poorly in sequential decision tasks, how incorporating priors can be helpful, and what roles epistemic versus aleatoric uncertainty play when evaluating performance. We also present experiments on real-world challenge datasets, which show a high correlation with testbed results, and that the importance of evaluating joint predictive distributions carries over to real data. As part of this effort, we opensource The Neural Testbed, including all implementations from this paper.
翻訳日:2021-10-12 13:10:38 公開日:2021-10-09
# VisualTTS: 自動音声オーバのための高精度リップ音声同期TTS

VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic Voice Over ( http://arxiv.org/abs/2110.03342v2 )

ライセンス: Link先を確認
Junchen Lu, Berrak Sisman, Rui Liu, Mingyang Zhang, Haizhou Li(参考訳) 本稿では,音声自動オーバー(AVO)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。 従来の音声合成とは異なり、avoは人間の発声だけでなく完全な口唇同期も実現しようとしている。 AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。 そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。 提案したVisualTTSは2つの新しいメカニズムを採用する。 1)テキスト・視覚的注意,及び 2) 音響復号における視覚融合戦略は, 入力テキストの内容と唇運動の正確な一致形成に寄与する。 実験の結果,VisualTTSは正確な唇音声同期を実現し,全てのベースラインシステムより優れていた。

In this paper, we formulate a novel task to synthesize speech in sync with a silent pre-recorded video, denoted as automatic voice over (AVO). Unlike traditional speech synthesis, AVO seeks to generate not only human-sounding speech, but also perfect lip-speech synchronization. A natural solution to AVO is to condition the speech rendering on the temporal progression of lip sequence in the video. We propose a novel text-to-speech model that is conditioned on visual input, named VisualTTS, for accurate lip-speech synchronization. The proposed VisualTTS adopts two novel mechanisms that are 1) textual-visual attention, and 2) visual fusion strategy during acoustic decoding, which both contribute to forming accurate alignment between the input text content and lip motion in input lip sequence. Experimental results show that VisualTTS achieves accurate lip-speech synchronization and outperforms all baseline systems.
翻訳日:2021-10-12 11:12:31 公開日:2021-10-09