このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211106となっている論文です。

PDF登録状況(公開日: 20211106)

TitleAuthorsAbstract論文公表日・翻訳日
# GHRS:グラフに基づくハイブリッドレコメンデーションシステムと映画レコメンデーションへの応用

GHRS: Graph-based Hybrid Recommendation System with Application to Movie Recommendation ( http://arxiv.org/abs/2111.11293v1 )

ライセンス: Link先を確認
Zahra Zamanzadeh Darban, Mohammad Hadi Valipour(参考訳) レコメンダシステムに関する調査は、過去10年間に登場し、さまざまな企業の収益を上げる価値のあるサービスを含んでいる。 紙レコメンデーションシステムを扱ういくつかのアプローチが存在する。 既存のレコメンダシステムは、コンテントベースのアプローチかコラボレーティブなアプローチのいずれかに依存しているが、両方のアプローチを組み合わせてレコメンデーション精度を向上させるハイブリッドアプローチがある。 このような手法で多くのアルゴリズムが提案されているが、さらなる改良は必要である。 本稿では,ユーザのレーティングの類似度に関連付けられたグラフベースモデルと,ユーザの人口統計情報と位置情報を併用したレコメンデーションシステムを提案する。 オートエンコーダの特徴抽出の利点を生かして,全ての属性を組み合わせて新しい特徴を抽出する。 クラスタリングユーザのための新機能セットを使用することで,提案手法(GHRS)が大幅に改善され,コールドスタート問題における他の手法のパフォーマンスが向上した。 movielensデータセットの実験的結果は、提案アルゴリズムが推薦精度で既存の多くの推奨アルゴリズムを上回っていることを示している。

Research about recommender systems emerges over the last decade and comprises valuable services to increase different companies' revenue. Several approaches exist in handling paper recommender systems. While most existing recommender systems rely either on a content-based approach or a collaborative approach, there are hybrid approaches that can improve recommendation accuracy using a combination of both approaches. Even though many algorithms are proposed using such methods, it is still necessary for further improvement. In this paper, we propose a recommender system method using a graph-based model associated with the similarity of users' ratings, in combination with users' demographic and location information. By utilizing the advantages of Autoencoder feature extraction, we extract new features based on all combined attributes. Using the new set of features for clustering users, our proposed approach (GHRS) has gained a significant improvement, which dominates other methods' performance in the cold-start problem. The experimental results on the MovieLens dataset show that the proposed algorithm outperforms many existing recommendation algorithms on recommendation accuracy.
翻訳日:2021-11-28 18:19:44 公開日:2021-11-06
# (参考訳) ハイライト特許パラグラフに対する特許感性分析 [全文訳有]

Patent Sentiment Analysis to Highlight Patent Paragraphs ( http://arxiv.org/abs/2111.09741v1 )

ライセンス: CC BY 4.0
Renukswamy Chikkamath, Vishvapalsinhji Ramsinh Parmar, Christoph Hewel, and Markus Endres(参考訳) 特許文書が与えられた場合、異なるセマンティックアノテーションを識別することは興味深い研究の側面である。 テキストアノテーションは、試験官や特許弁護士のような特許実務者が、発明の鍵となる議論を迅速に特定し、特許文書のタイムリーなマーク付けを順次提供するのに役立つ。 手動の特許分析の過程で、より読みやすくするために、段落をマークして意味情報を認識することが実際である。 この意味的アノテーションプロセスは手間がかかり、時間がかかります。 このような問題を緩和するために,機械学習アルゴリズムを訓練し,ハイライト処理を自動化する新しいデータセットを提案する。 この作品の貢献は次のとおりである。 i)USPTO特許を10年以上にわたってトラバースすることで,150kのサンプルを多種多様な新しいデータセットを開発した。 二 命令的探索的データ分析によるデータの明瞭な統計及び分布 三 特許段落強調課題に対処するためにデータセットを利用するためのベースライン機械学習モデルを開発すること。 iv) このタスクに関連するデータセットとコードは、専用のGIT Webページを通じてオープンソース化されている。 v)Deep Learningとドメイン固有の事前学習言語モデルを用いてこの作業を拡張し、ハイライトするツールを開発するための今後の道程が提供される。 この作業は、セマンティック情報を自動的に強調する特許実践者を支援し、機械学習の適性を利用して持続的で効率的な特許分析を作成するのに役立つ。

Given a patent document, identifying distinct semantic annotations is an interesting research aspect. Text annotation helps the patent practitioners such as examiners and patent attorneys to quickly identify the key arguments of any invention, successively providing a timely marking of a patent text. In the process of manual patent analysis, to attain better readability, recognising the semantic information by marking paragraphs is in practice. This semantic annotation process is laborious and time-consuming. To alleviate such a problem, we proposed a novel dataset to train Machine Learning algorithms to automate the highlighting process. The contributions of this work are: i) we developed a multi-class, novel dataset of size 150k samples by traversing USPTO patents over a decade, ii) articulated statistics and distributions of data using imperative exploratory data analysis, iii) baseline Machine Learning models are developed to utilize the dataset to address patent paragraph highlighting task, iv) dataset and codes relating to this task are open-sourced through a dedicated GIT web page: https://github.com/R enuk9390/Patent_Sent iment_Analysis and v) future path to extend this work using Deep Learning and domain specific pre-trained language models to develop a tool to highlight is provided. This work assist patent practitioners in highlighting semantic information automatically and aid to create a sustainable and efficient patent analysis using the aptitude of Machine Learning.
翻訳日:2021-11-21 16:24:17 公開日:2021-11-06
# AI駆動型Androidアプリケーションを用いた胸部CTスキャンからのCOVID-19の検出

Detecting COVID-19 from Chest Computed Tomography Scans using AI-Driven Android Application ( http://arxiv.org/abs/2111.06254v1 )

ライセンス: Link先を確認
Aryan Verma, Sagar B. Amin, Muhammad Naeem, and Monjoy Saha(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、2021年6月までに全世界で400万人以上の死者を出した1億8600万人以上に影響を与えた。 その規模は世界の医療システムを圧迫しています 胸部ctスキャンは、covid-19の診断と予後に潜在的に重要な役割を果たしている。 携帯電話のような資源に制約のあるデバイスで運用するために費用効率が高く便利な診断システムを設計することは、胸部CTスキャンの臨床的使用を増強し、迅速でモバイル的でアクセスしやすい診断機能を提供する。 本研究は,高効率で高精度な深層学習アルゴリズムを用いて,胸部ctスキャンからcovid-19感染を検出する新しいandroidアプリケーションを開発することを提案する。 さらに、この研究の一環として開発されたアルゴリズムにより、CTスキャンで肺の分節性発作領域に増強された注意熱マップが作成され、肺の感染領域が示される。 そこで本研究では,Androidデバイス上での高速なヒートマップ生成のために,マルチスレッドと組み合わせた選択手法を提案し,処理時間を約93%削減した。 この研究でcovid-19を検出するために訓練されたニューラルネットワークは、99.58%と99.69%の両方のf1スコアと精度でテストされている。 この研究は、新型コロナウイルスの早期診断を迅速かつ効率的に行う際に、医師が患者をトリアージするのに役立つ。

The COVID-19 (coronavirus disease 2019) pandemic affected more than 186 million people with over 4 million deaths worldwide by June 2021. The magnitude of which has strained global healthcare systems. Chest Computed Tomography (CT) scans have a potential role in the diagnosis and prognostication of COVID-19. Designing a diagnostic system which is cost-efficient and convenient to operate on resource-constrained devices like mobile phones would enhance the clinical usage of chest CT scans and provide swift, mobile, and accessible diagnostic capabilities. This work proposes developing a novel Android application that detects COVID-19 infection from chest CT scans using a highly efficient and accurate deep learning algorithm. It further creates an attention heatmap, augmented on the segmented lung parenchyma region in the CT scans through an algorithm developed as a part of this work, which shows the regions of infection in the lungs. We propose a selection approach combined with multi-threading for a faster generation of heatmaps on Android Device, which reduces the processing time by about 93%. The neural network trained to detect COVID-19 in this work is tested with F1 score and accuracy, both of 99.58% and sensitivity of 99.69%, which is better than most of the results in the domain of COVID diagnosis from CT scans. This work will be beneficial in high volume practices and help doctors triage patients in the early diagnosis of the COVID-19 quickly and efficiently.
翻訳日:2021-11-14 15:13:16 公開日:2021-11-06
# (参考訳) 連合学習フレームワークにおける自動音声認識音響モデルのプライバシー攻撃 [全文訳有]

Privacy attacks for automatic speech recognition acoustic models in a federated learning framework ( http://arxiv.org/abs/2111.03777v1 )

ライセンス: CC BY 4.0
Natalia Tomashenko, Salima Mdhaffar, Marc Tommasi, Yannick Est\`eve, Jean-Fran\c{c}ois Bonastre(参考訳) 本稿では、自動音声認識(ASR)において、パーソナライズされた話者適応ニューラルネットワーク音響モデル(AM)から話者情報を効果的に検索する方法を検討する。 この問題は、複数のクライアントから受信した更新に基づいてグローバルモデルがサーバ上で学習されるASR音響モデルの連合学習において特に重要である。 Indicatorデータセット上のニューラルネットワークフットプリントに基づいて,ニューラルネットワークAMの情報を解析する手法を提案する。 本研究では,ユーザの発話データにアクセスせずに,更新されたパーソナライズモデルから話者識別を推測することを目的とした2つの攻撃モデルを開発した。 TED-Lium 3コーパスの実験では、提案手法は非常に効果的であり、EERが1-2%と等しいことを示した。

This paper investigates methods to effectively retrieve speaker information from the personalized speaker adapted neural network acoustic models (AMs) in automatic speech recognition (ASR). This problem is especially important in the context of federated learning of ASR acoustic models where a global model is learnt on the server based on the updates received from multiple clients. We propose an approach to analyze information in neural network AMs based on a neural network footprint on the so-called Indicator dataset. Using this method, we develop two attack models that aim to infer speaker identity from the updated personalized models without access to the actual users' speech data. Experiments on the TED-LIUM 3 corpus demonstrate that the proposed approaches are very effective and can provide equal error rate (EER) of 1-2%.
翻訳日:2021-11-11 06:04:05 公開日:2021-11-06
# (参考訳) d3rlpy: オフラインの深層強化学習ライブラリ [全文訳有]

d3rlpy: An Offline Deep Reinforcement Learning Library ( http://arxiv.org/abs/2111.03788v1 )

ライセンス: CC BY 4.0
Takuma Seno, Michita Imai(参考訳) 本稿では,python用のオフライン深層強化学習(rl)ライブラリであるd3rlpyを紹介する。 d3rlpyは、オフラインのディープRLアルゴリズムと、ユーザフレンドリーなAPIによるオンラインアルゴリズムをサポートする。 深層RLの研究と開発プロジェクトを支援するため、d3rlpyはデータ収集、デプロイのためのエクスポートポリシー、前処理と後処理、分散Q関数、マルチステップ学習、便利なコマンドラインインターフェースなどの実用的でユニークな機能を提供する。 さらに、d3rlpyは、プログラムをコーディングせずにオフラインのrlアルゴリズムをトレーニングできる新しいグラフィカルインターフェースも提供する。 最後に、実装されたアルゴリズムはD4RLデータセットでベンチマークされ、実装の品質が保証される。 d3rlpyのソースコードはgithubにある。 \url{https://github.com/t akuseno/d3rlpy}。

In this paper, we introduce d3rlpy, an open-sourced offline deep reinforcement learning (RL) library for Python. d3rlpy supports a number of offline deep RL algorithms as well as online algorithms via a user-friendly API. To assist deep RL research and development projects, d3rlpy provides practical and unique features such as data collection, exporting policies for deployment, preprocessing and postprocessing, distributional Q-functions, multi-step learning and a convenient command-line interface. Furthermore, d3rlpy additionally provides a novel graphical interface that enables users to train offline RL algorithms without coding programs. Lastly, the implemented algorithms are benchmarked with D4RL datasets to ensure the implementation quality. The d3rlpy source code can be found on GitHub: \url{https://github.com/t akuseno/d3rlpy}.
翻訳日:2021-11-11 05:51:37 公開日:2021-11-06
# (参考訳) 新生児人工エージェントにおける集団行動の発達 [全文訳有]

Development of collective behavior in newborn artificial agents ( http://arxiv.org/abs/2111.03796v1 )

ライセンス: CC BY 4.0
Donsuk Lee, Samantha M. W. Wood, Justin N. Wood(参考訳) 集団行動は動物界に広がっている。 しかし、今日まで集団行動の発達的および機械的な基礎は正式に確立されていない。 新生児における集団行動の発達を促す学習メカニズムは何か? ここでは、深層強化学習と好奇心駆動学習(心理的および神経科学的研究に深く根ざした2つの学習メカニズム)を使用して、集団行動を発展させる新生児人工エージェントを構築しました。 生まれたばかりの動物と同じように、我々のエージェントは自然環境における生の感覚入力から集団行動を学ぶ。 エージェントはまた、学習を促進するために本質的なモチベーション(好奇心)のみを使用して、外部の報酬なしで集団行動を学ぶ。 具体的には、グループメートとの自然な視覚環境で人工エージェントを育てたとき、エージェントは自発的にエゴモーション、オブジェクト認識、グループメートに対する好みを発達させ、集団行動に必要なすべてのコアスキルを迅速に学習します。 この研究は、高次元の感覚入力と集団行動の分離を橋渡しし、その結果、集合動物の行動のピクセル間相互作用モデルをもたらす。 より一般的には、深い強化学習と好奇心駆動学習という2つの一般的な学習メカニズムが、教師なしの自然経験から集合行動を学ぶのに十分であることを示す。

Collective behavior is widespread across the animal kingdom. To date, however, the developmental and mechanistic foundations of collective behavior have not been formally established. What learning mechanisms drive the development of collective behavior in newborn animals? Here, we used deep reinforcement learning and curiosity-driven learning -- two learning mechanisms deeply rooted in psychological and neuroscientific research -- to build newborn artificial agents that develop collective behavior. Like newborn animals, our agents learn collective behavior from raw sensory inputs in naturalistic environments. Our agents also learn collective behavior without external rewards, using only intrinsic motivation (curiosity) to drive learning. Specifically, when we raise our artificial agents in natural visual environments with groupmates, the agents spontaneously develop ego-motion, object recognition, and a preference for groupmates, rapidly learning all of the core skills required for collective behavior. This work bridges the divide between high-dimensional sensory inputs and collective action, resulting in a pixels-to-actions model of collective animal behavior. More generally, we show that two generic learning mechanisms -- deep reinforcement learning and curiosity-driven learning -- are sufficient to learn collective behavior from unsupervised natural experience.
翻訳日:2021-11-11 05:35:09 公開日:2021-11-06
# (参考訳) フィンランド語の方言識別:音声とテキストの効果 [全文訳有]

Finnish Dialect Identification: The Effect of Audio and Text ( http://arxiv.org/abs/2111.03800v1 )

ライセンス: CC BY 4.0
Mika H\"am\"al\"ainen and Khalid Alnajjar and Niko Partanen and Jack Rueter(参考訳) フィンランド語は複数の方言を持つ言語であり、アクセント(発音)だけでなく、形態的形態や語彙的選択の観点からも異なる。 そこで本研究では,23の方言からなるデータセットを用いて,方言の転写と音声記録に基づく話者の方言を自動的に検出する手法を提案する。 以上の結果から,両モードを組み合わせることで,テキストと音声の総合的精度が57 %に達し,テキストと音声が85 %に達することにより,最高の精度が得られた。 私たちのコード、モデル、データはgithubとzenodoで公開されています。

Finnish is a language with multiple dialects that not only differ from each other in terms of accent (pronunciation) but also in terms of morphological forms and lexical choice. We present the first approach to automatically detect the dialect of a speaker based on a dialect transcript and transcript with audio recording in a dataset consisting of 23 different dialects. Our results show that the best accuracy is received by combining both of the modalities, as text only reaches to an overall accuracy of 57\%, where as text and audio reach to 85\%. Our code, models and data have been released openly on Github and Zenodo.
翻訳日:2021-11-11 05:11:13 公開日:2021-11-06
# (参考訳) 限定ラベルによる潰瘍性大腸炎分類のための秩序誘導型異方性表現学習 [全文訳有]

Order-Guided Disentangled Representation Learning for Ulcerative Colitis Classification with Limited Labels ( http://arxiv.org/abs/2111.03815v1 )

ライセンス: CC BY 4.0
Shota Harada, Ryoma Bise, Hideaki Hayashi, Kiyohito Tanaka, and Seiichi Uchida(参考訳) 内視鏡診断の重要な課題である潰瘍性大腸炎 (UC) の分類には2つの主な困難がある。 まず、uc(陽性または陰性)に関する注釈付き内視鏡画像は、通常制限される。 第2に,大腸の位置が原因で外観に大きな変動がみられた。 特に,第2の難易度は,第1の難易度に対する一般的な治療法である,既存の半教師あり学習技術の使用を妨げる。 本稿では,内視鏡的画像の個別画像にしばしば付加される結腸の位置(左結腸など)と画像取得順序の2つの特徴を新たに活用し,uc分類のための実践的な半教師付き学習法を提案する。 提案手法は, UC分類の本質的情報を, それらの特徴を持つ解離過程により効率的に抽出することができる。 提案手法は,少数の注釈付き画像であっても,分類タスクにおいて既存の半教師付き学習方法よりも優れていることを示す。

Ulcerative colitis (UC) classification, which is an important task for endoscopic diagnosis, involves two main difficulties. First, endoscopic images with the annotation about UC (positive or negative) are usually limited. Second, they show a large variability in their appearance due to the location in the colon. Especially, the second difficulty prevents us from using existing semi-supervised learning techniques, which are the common remedy for the first difficulty. In this paper, we propose a practical semi-supervised learning method for UC classification by newly exploiting two additional features, the location in a colon (e.g., left colon) and image capturing order, both of which are often attached to individual images in endoscopic image sequences. The proposed method can extract the essential information of UC classification efficiently by a disentanglement process with those features. Experimental results demonstrate that the proposed method outperforms several existing semi-supervised learning methods in the classification task, even with a small number of annotated images.
翻訳日:2021-11-11 05:01:21 公開日:2021-11-06
# (参考訳) 人気者になれるか? ダンスクリップの正当性を予測するための学習 [全文訳有]

Will You Ever Become Popular? Learning to Predict Virality of Dance Clips ( http://arxiv.org/abs/2111.03819v1 )

ライセンス: CC BY 4.0
Jiahao Wang, Yunhong Wang, Nina Weng, Tianrui Chai, Annan Li, Faxi Zhang, Sansi Yu(参考訳) 最近、TikTokのようなビデオコミュニティでダンスの挑戦が広まっている。 チャレンジが人気になったら、わずか数日で何千という短いビデオがアップロードされる。 したがって、ダンス課題からのバイラル性予測は商業的価値が高く、スマートレコメンデーションや人気促進など幅広い応用がある。 本稿では, 包括的ダンスバイラル性予測のために骨格, 全体像, 顔, 景色を融合した新しいマルチモーダルフレームワークを提案する。 体の動きをモデル化するために,時間的スケルトングラフを階層的に洗練するピラミッド型スケルトングラフ畳み込みネットワーク(PSGCN)を提案する。 一方,rtcn(relational temporal convolutional network)を導入することで,非局所的時間的関係の出現ダイナミクスを活用できる。 異なるモードからの予測を適応的に集約するために、注意的融合アプローチが最終的に提案される。 提案手法を検証するために,8つのバイラルダンス課題の4000以上のダンスクリップを含む大規模バイラルダンスビデオ(VDV)データセットを導入した。 VDVデータセットの大規模な実験により,本モデルの有効性が示された。 VDVデータセットの大規模な実験は、我々のアプローチの有効性をよく示している。 さらに,本モデルから多次元レコメンデーションやアクションフィードバックなどのショートビデオアプリケーションが導出可能であることを示す。

Dance challenges are going viral in video communities like TikTok nowadays. Once a challenge becomes popular, thousands of short-form videos will be uploaded in merely a couple of days. Therefore, virality prediction from dance challenges is of great commercial value and has a wide range of applications, such as smart recommendation and popularity promotion. In this paper, a novel multi-modal framework which integrates skeletal, holistic appearance, facial and scenic cues is proposed for comprehensive dance virality prediction. To model body movements, we propose a pyramidal skeleton graph convolutional network (PSGCN) which hierarchically refines spatio-temporal skeleton graphs. Meanwhile, we introduce a relational temporal convolutional network (RTCN) to exploit appearance dynamics with non-local temporal relations. An attentive fusion approach is finally proposed to adaptively aggregate predictions from different modalities. To validate our method, we introduce a large-scale viral dance video (VDV) dataset, which contains over 4,000 dance clips of eight viral dance challenges. Extensive experiments on the VDV dataset demonstrate the efficacy of our model. Extensive experiments on the VDV dataset well demonstrate the effectiveness of our approach. Furthermore, we show that short video applications like multi-dimensional recommendation and action feedback can be derived from our model.
翻訳日:2021-11-11 04:53:40 公開日:2021-11-06
# (参考訳) 悪質なアプリをどうやって検出するのか? AIベースのAndroidマルウェア検出器の予測について

"How Does It Detect A Malicious App?" Explaining the Predictions of AI-based Android Malware Detector ( http://arxiv.org/abs/2111.05108v1 )

ライセンス: CC BY 4.0
Zhi Lu and Vrizlynn L.L. Thing(参考訳) AIメソッドは、Androidのマルウェア検出に素晴らしいパフォーマンスをもたらすことが証明されている。 しかし、ほとんどのAIベースの手法は、モデルの推論を透明にすることなく、不審なサンプルをブラックボックスで予測する。 信頼性の向上を保証するため、サイバーセキュリティとAI実践者によるモデルの説明可能性と透明性への期待。 本稿では,Androidのマルウェア検出に応用したAIモデルのモデルに依存しない新しい説明手法を提案する。 提案手法は,データの特徴を2つのステップで同定し,定量化する。 一 特徴の値を操作して合成データを生成するデータ摂動 二 最小特徴量変化を伴う摂動データにおける予測スコアの有意な変化を求めるための特徴帰属値の最適化 提案手法は3つの実験によって検証される。 まず,提案するモデル説明手法が,敵のサンプルからaiモデルがどのように回避されるのかを定量的に解明するのに役立つことを実証する。 以下の実験では,提案手法の妥当性と忠実度を最先端技術と比較した。

AI methods have been proven to yield impressive performance on Android malware detection. However, most AI-based methods make predictions of suspicious samples in a black-box manner without transparency on models' inference. The expectation on models' explainability and transparency by cyber security and AI practitioners to assure the trustworthiness increases. In this article, we present a novel model-agnostic explanation method for AI models applied for Android malware detection. Our proposed method identifies and quantifies the data features relevance to the predictions by two steps: i) data perturbation that generates the synthetic data by manipulating features' values; and ii) optimization of features attribution values to seek significant changes of prediction scores on the perturbed data with minimal feature values changes. The proposed method is validated by three experiments. We firstly demonstrate that our proposed model explanation method can aid in discovering how AI models are evaded by adversarial samples quantitatively. In the following experiments, we compare the explainability and fidelity of our proposed method with state-of-the-arts, respectively.
翻訳日:2021-11-11 04:26:32 公開日:2021-11-06
# (参考訳) EEGEyeNet:眼球運動予測のための同時脳波と眼球追跡データセットとベンチマーク [全文訳有]

EEGEyeNet: a Simultaneous Electroencephalograp hy and Eye-tracking Dataset and Benchmark for Eye Movement Prediction ( http://arxiv.org/abs/2111.05100v1 )

ライセンス: CC BY 4.0
Ard Kastrati, Martyna Martyna Beata P{\l}omecka, Dami\'an Pascual, Lukas Wolf, Victor Gillioz, Roger Wattenhofer, Nicolas Langer(参考訳) 我々は,脳活動と眼球運動の交差に関する研究を進めるために,新しいデータセットとベンチマークを提示する。 脳波同時計測(EEG)と眼球追跡(ET)を3つの異なる実験パラダイムから収集した356名の被験者から作成した。 このデータセットを用いて脳波から視線予測を評価するベンチマークも提案する。 このベンチマークは、左、角度振幅、絶対位置という3つの課題から成り立っている。 このベンチマークでは、古典的機械学習モデルと大規模ニューラルネットワークの両方に基づいて、堅固なベースラインを提供するために、広範な実験を実施しています。 完全なコードとデータをリリースし、新しいメソッドを評価するためのシンプルで使いやすいインターフェースを提供します。

We present a new dataset and benchmark with the goal of advancing research in the intersection of brain activities and eye movements. Our dataset, EEGEyeNet, consists of simultaneous Electroencephalograp hy (EEG) and Eye-tracking (ET) recordings from 356 different subjects collected from three different experimental paradigms. Using this dataset, we also propose a benchmark to evaluate gaze prediction from EEG measurements. The benchmark consists of three tasks with an increasing level of difficulty: left-right, angle-amplitude and absolute position. We run extensive experiments on this benchmark in order to provide solid baselines, both based on classical machine learning models and on large neural networks. We release our complete code and data and provide a simple and easy-to-use interface to evaluate new methods.
翻訳日:2021-11-11 04:25:38 公開日:2021-11-06
# (参考訳) 非滑らか有限サム最適化のためのランダムリシャッフルを用いた分散確率的近位アルゴリズム [全文訳有]

Distributed stochastic proximal algorithm with random reshuffling for non-smooth finite-sum optimization ( http://arxiv.org/abs/2111.03820v1 )

ライセンス: CC BY 4.0
Xia Jiang, Xianlin Zeng, Jian Sun, Jie Chen and Lihua Xie(参考訳) 非滑らかな有限サム最小化は機械学習の基本的な問題である。 本稿では,時間変動マルチエージェントネットワーク上の有限サム最小化を解くために,ランダム再シャッフルを用いた分散確率的近位勾配アルゴリズムを開発した。 目的関数は微分可能凸関数と非滑らか正規化の和である。 ネットワーク内の各エージェントは、ローカル情報によって一定のステップサイズでローカル変数を更新し、最適な解を求めるために協力する。 提案アルゴリズムにより生成された局所変数推定値が一致し,$\mathcal{O}(\frac{1}{T}+\frac{1}{\sqrt{T}})$収束率を期待して最適解の近傍に誘引されることを示す。 さらに, 目的関数の定常誤差は, 十分小さいステップサイズを選択することで任意に小さくできることを示す。 最後に,提案アルゴリズムの収束性能を検証するための比較シミュレーションを行った。

The non-smooth finite-sum minimization is a fundamental problem in machine learning. This paper develops a distributed stochastic proximal-gradient algorithm with random reshuffling to solve the finite-sum minimization over time-varying multi-agent networks. The objective function is a sum of differentiable convex functions and non-smooth regularization. Each agent in the network updates local variables with a constant step-size by local information and cooperates to seek an optimal solution. We prove that local variable estimates generated by the proposed algorithm achieve consensus and are attracted to a neighborhood of the optimal solution in expectation with an $\mathcal{O}(\frac{1}{T}+\frac{1}{\sqrt{T}})$ convergence rate. In addition, this paper shows that the steady-state error of the objective function can be arbitrarily small by choosing small enough step-sizes. Finally, some comparative simulations are provided to verify the convergence performance of the proposed algorithm.
翻訳日:2021-11-10 14:33:44 公開日:2021-11-06
# (参考訳) フルスケールUNetを用いたPET/CT画像のマルチモーダル分割とプログレッシブフリー生存予測 [全文訳有]

Multimodal PET/CT Tumour Segmentation and Prediction of Progression-Free Survival using a Full-Scale UNet with Attention ( http://arxiv.org/abs/2111.03848v1 )

ライセンス: CC BY 4.0
Emmanuelle Bourigault, Daniel R. McGowan, Abolfazl Mehranian, Bart{\l}omiej W. Papie\.z(参考訳) 頭頸部腫瘍(H\&N)の分節化と予後の予測は,患者の疾患診断と治療モニタリングに重要である。 堅牢なディープラーニングモデルの現在の発展は、品質アノテーションによる大規模なマルチセントレ・マルチモーダルデータ不足によって妨げられている。 The MICCAI 2021 HEad and neCK TumOR (HECKTOR) segmentation and outcome prediction challenge creates a platform for comparing segmentation methods of the primary gross target volume on fluoro-deoxyglucose (FDG)-PET and Computed Tomography images and prediction of progression-free survival in H\&N oropharyngeal cancer.For the segmentation task, we proposed a new network based on an encoder-decoder architecture with full inter- and intra-skip connections to take advantage of low-level and high-level semantics at full scales. さらに,条件付き確率場を後処理ステップとして利用し,予測したセグメンテーションマップを洗練させた。 腫瘍容積セグメンテーションのために複数のニューラルネットワークをトレーニングし,これらのセグメンテーションを組込み,クロスバリデーションの平均Dice類似係数0.75,チャレンジテストデータセット0.76を達成した。 患者進行自由生存の予測のために,臨床,放射線学,深層学習機能を組み合わせたCox比例的ハザード回帰法を提案する。 生存予測モデルでは, クロスバリデーションでは0.82, チャレンジテストデータセットでは0.62となった。

Segmentation of head and neck (H\&N) tumours and prediction of patient outcome are crucial for patient's disease diagnosis and treatment monitoring. Current developments of robust deep learning models are hindered by the lack of large multi-centre, multi-modal data with quality annotations. The MICCAI 2021 HEad and neCK TumOR (HECKTOR) segmentation and outcome prediction challenge creates a platform for comparing segmentation methods of the primary gross target volume on fluoro-deoxyglucose (FDG)-PET and Computed Tomography images and prediction of progression-free survival in H\&N oropharyngeal cancer.For the segmentation task, we proposed a new network based on an encoder-decoder architecture with full inter- and intra-skip connections to take advantage of low-level and high-level semantics at full scales. Additionally, we used Conditional Random Fields as a post-processing step to refine the predicted segmentation maps. We trained multiple neural networks for tumor volume segmentation, and these segmentations were ensembled achieving an average Dice Similarity Coefficient of 0.75 in cross-validation, and 0.76 on the challenge testing data set. For prediction of patient progression free survival task, we propose a Cox proportional hazard regression combining clinical, radiomic, and deep learning features. Our survival prediction model achieved a concordance index of 0.82 in cross-validation, and 0.62 on the challenge testing data set.
翻訳日:2021-11-10 13:40:42 公開日:2021-11-06
# (参考訳) 先見からみた長期視覚認識の校正モデルに向けて [全文訳有]

Towards Calibrated Model for Long-Tailed Visual Recognition from Prior Perspective ( http://arxiv.org/abs/2111.03874v1 )

ライセンス: CC BY 4.0
Zhengzhuo Xu, Zenghao Chai, Chun Yuan(参考訳) 現実世界のデータは、厳格なクラス不均衡問題に普遍的に対処し、ロングテールのディストリビューション、すなわちほとんどのラベルは限られたインスタンスに関連付けられている。 このようなデータセットによって監督されるna\"iveモデルは、支配的なラベルを好み、深刻な一般化の課題に遭遇し、キャリブレーションが不十分になる。 本稿では,このジレンマを緩和する2つの新しい手法を提案する。 まず,一様混合 (unimix) とよばれるバランス指向データ拡張を推定し, マイノリティに有利な高度な混合係数とスペンサーを採用するロングテールシナリオにおけるミックスアップを促進する。 第二に、ベイズ理論に動機づけられたベイズバイアス(ベイズバイアス)は、前者の矛盾に起因する固有のバイアスであり、標準的なクロスエントロピー損失の修正として補償する。 さらに,提案手法が理論的かつ実証的に分類校正を保証することを証明した。 CIFAR-LT, ImageNet-LT, iNaturalist 2018において,我々の戦略がより良い校正モデルに寄与していることを検証する。

Real-world data universally confronts a severe class-imbalance problem and exhibits a long-tailed distribution, i.e., most labels are associated with limited instances. The na\"ive models supervised by such datasets would prefer dominant labels, encounter a serious generalization challenge and become poorly calibrated. We propose two novel methods from the prior perspective to alleviate this dilemma. First, we deduce a balance-oriented data augmentation named Uniform Mixup (UniMix) to promote mixup in long-tailed scenarios, which adopts advanced mixing factor and sampler in favor of the minority. Second, motivated by the Bayesian theory, we figure out the Bayes Bias (Bayias), an inherent bias caused by the inconsistency of prior, and compensate it as a modification on standard cross-entropy loss. We further prove that both the proposed methods ensure the classification calibration theoretically and empirically. Extensive experiments verify that our strategies contribute to a better-calibrated model, and their combination achieves state-of-the-art performance on CIFAR-LT, ImageNet-LT, and iNaturalist 2018.
翻訳日:2021-11-10 12:16:22 公開日:2021-11-06
# (参考訳) アフリカにおけるロカスト繁殖地予測のための疑似吸収生成と機械学習について [全文訳有]

On pseudo-absence generation and machine learning for locust breeding ground prediction in Africa ( http://arxiv.org/abs/2111.03904v1 )

ライセンス: CC BY 4.0
Ibrahim Salihu Yusuf, Kale-ab Tessera, Thomas Tumiel, Sella Nevo, Arnu Pretorius(参考訳) 砂漠で発生したロカストはアフリカの大部分の食料安全保障を脅かし、長年にわたって何百万人もの人々の生活に影響を与えてきた。 機械学習(ML)は、早期警告に役立つロカスト分布モデリングの効果的なアプローチとして実証されている。 MLはトレーニングに大量のラベル付きデータを必要とする。 ロカストに関する公に入手可能なラベル付きデータは存在のみのデータであり、場所に存在するロカストの目撃のみを記録する。 そのため、MLを用いた先行研究では、この問題を回避する手段として擬似存在生成方式が採用されている。 最も一般的に用いられるアプローチは、興味のある領域内の点をランダムにサンプリングし、これらのサンプルされた擬似抽象点が、真の存在点から少なくとも特定の距離にあることを保証することである。 本稿では,このランダムサンプリング手法を環境プロファイリングや最適背景範囲制限などのより高度な擬似吸収生成手法と比較し,特にアフリカにおける砂漠のロカスト繁殖地の推定について述べる。 興味深いことに、ロジスティック回帰、勾配上昇、ランダム森林、最大エントロピーといったアルゴリズムを検証したところ、ロジスティックモデルは予測精度とF1スコアの両面で、より洗練されたアンサンブル法よりもはるかに優れていることがわかった。 ランダムサンプリングと組み合わせた背景範囲制限によりアンサンブル法の性能は向上したが, LRではそうではなく, 環境プロファイリングでは顕著な改善が得られた。 これを踏まえて,ロジスティック回帰(ロジスティック回帰)やより高度な擬似吸収生成(特に環境プロファイリング)といったより単純なmlアプローチは,アフリカ全域におけるロジスティック育種グラウンドの予測に合理的かつ効果的なアプローチとなると結論づける。

Desert locust outbreaks threaten the food security of a large part of Africa and have affected the livelihoods of millions of people over the years. Machine learning (ML) has been demonstrated as an effective approach to locust distribution modelling which could assist in early warning. ML requires a significant amount of labelled data to train. Most publicly available labelled data on locusts are presence-only data, where only the sightings of locusts being present at a location are recorded. Therefore, prior work using ML have resorted to pseudo-absence generation methods as a way to circumvent this issue. The most commonly used approach is to randomly sample points in a region of interest while ensuring that these sampled pseudo-absence points are at least a specific distance away from true presence points. In this paper, we compare this random sampling approach to more advanced pseudo-absence generation methods, such as environmental profiling and optimal background extent limitation, specifically for predicting desert locust breeding grounds in Africa. Interestingly, we find that for the algorithms we tested, namely logistic regression, gradient boosting, random forests and maximum entropy, all popular in prior work, the logistic model performed significantly better than the more sophisticated ensemble methods, both in terms of prediction accuracy and F1 score. Although background extent limitation combined with random sampling boosted performance for ensemble methods, for LR this was not the case, and instead, a significant improvement was obtained when using environmental profiling. In light of this, we conclude that a simpler ML approach such as logistic regression combined with more advanced pseudo-absence generation, specifically environmental profiling, can be a sensible and effective approach to predicting locust breeding grounds across Africa.
翻訳日:2021-11-10 11:36:36 公開日:2021-11-06
# (参考訳) 多言語のエイプリルフールの日文脈における偽装の言語的手がかり [全文訳有]

Linguistic Cues of Deception in a Multilingual April Fools' Day Context ( http://arxiv.org/abs/2111.03913v1 )

ライセンス: CC BY 4.0
Katerina Papantoniou, Panagiotis Papadakos, Giorgos Flouris, Dimitris Plexousakis(参考訳) 本研究は,嘘検出タスクに既存のデータセットに有用な付加機能として,エイプリルフールズデー(AFD)ニュース記事の収集を検討する。 このようなコレクションは確立された真実を持ち、言語間で比較的容易に構築できる。 その結果、ダイアクロニックAFDとギリシャの新聞やニュースサイトからの通常の記事を含むコーパスを導入した。 それに加えて、豊富な言語機能セットを構築し、その偽りの手がかりを分析し、現在利用可能な唯一のAFDコレクションと、英語で比較する。 また,最近の研究スレッドに従い,これらの2つのデータセットについて,デセプションにおける個人主義/集団主義の次元について論じる。 最後に、さまざまなモノリンガルおよびクロスリンガル設定をテストすることで、分類器を構築する。 その結果、AFDデータセットは偽造検出研究に有用であり、他の偽造検出作業の観察と一致していることがわかった。

In this work we consider the collection of deceptive April Fools' Day(AFD) news articles as a useful addition in existing datasets for deception detection tasks. Such collections have an established ground truth and are relatively easy to construct across languages. As a result, we introduce a corpus that includes diachronic AFD and normal articles from Greek newspapers and news websites. On top of that, we build a rich linguistic feature set, and analyze and compare its deception cues with the only AFD collection currently available, which is in English. Following a current research thread, we also discuss the individualism/collec tivism dimension in deception with respect to these two datasets. Lastly, we build classifiers by testing various monolingual and crosslingual settings. The results showcase that AFD datasets can be helpful in deception detection studies, and are in alignment with the observations of other deception detection works.
翻訳日:2021-11-10 11:22:01 公開日:2021-11-06
# (参考訳) クワッドコプター制御のためのロバスト深層強化学習 [全文訳有]

Robust Deep Reinforcement Learning for Quadcopter Control ( http://arxiv.org/abs/2111.03915v1 )

ライセンス: CC BY 4.0
Aditya M. Deshpande, Ali A. Minai, Manish Kumar(参考訳) deep reinforcement learning (rl)は、ニューラルネットワークを近似関数として使用することで、複雑なロボティクス問題を解決することができる。 しかし,定置環境において訓練された政策は,ある環境から別の環境へ移行した場合の一般化に苦しむ。 本研究では,ロバストなマルコフ決定プロセス(rmdp)を用いて,ロバスト制御とrlのアイデアを組み合わせたドローン制御ポリシを訓練する。 悲観的な最適化を選択して、ある環境から別の環境へのポリシー移行の間の潜在的なギャップを処理します。 訓練された制御ポリシーは、クワッドコプターの位置制御のタスクでテストされる。 RLエージェントはMuJoCoシミュレーターで訓練された。 テスト中、異なる環境パラメータ(トレーニング中に見えない)を使用して、ある環境から別の環境へ移行するための訓練されたポリシーの堅牢性を検証する。 ロバストポリシは、これらの環境における標準エージェントよりも優れており、堅牢性の追加は、汎用性を高め、非定常環境に適応できることを示唆している。 コード: https://github.com/a dipandas/gym_multiro tor

Deep reinforcement learning (RL) has made it possible to solve complex robotics problems using neural networks as function approximators. However, the policies trained on stationary environments suffer in terms of generalization when transferred from one environment to another. In this work, we use Robust Markov Decision Processes (RMDP) to train the drone control policy, which combines ideas from Robust Control and RL. It opts for pessimistic optimization to handle potential gaps between policy transfer from one environment to another. The trained control policy is tested on the task of quadcopter positional control. RL agents were trained in a MuJoCo simulator. During testing, different environment parameters (unseen during the training) were used to validate the robustness of the trained policy for transfer from one environment to another. The robust policy outperformed the standard agents in these environments, suggesting that the added robustness increases generality and can adapt to non-stationary environments. Codes: https://github.com/a dipandas/gym_multiro tor
翻訳日:2021-11-10 11:11:22 公開日:2021-11-06
# (参考訳) 非定常デューリングバンディットに対する最適かつ効率的な動的後悔アルゴリズム [全文訳有]

Optimal and Efficient Dynamic Regret Algorithms for Non-Stationary Dueling Bandits ( http://arxiv.org/abs/2111.03917v1 )

ライセンス: CC BY 4.0
Shubham Gupta, Aadirupa Saha(参考訳) 非定常または時間変化の選好の下で、$K$武装デュエルバンドにおける 'emph{dynamic regret minimization} の問題を研究する。 これは、エージェントが各ラウンドの2つのアイテムを選択し、そのラウンドの下位の選好行列からサンプリングされた、このペアの相対的なバイナリ‘win-loss’フィードバックのみを観察するオンライン学習セットアップである。 まず,逆選好系列に対する静的レグレット最小化の問題を調べ,$o(\sqrt{kt})$高確率後悔を伴う効率的なアルゴリズムを設計する。 次に、非定常性という2つの概念の下で、動的回帰最小化のための効率的かつ証明可能なアルゴリズムを提案する。 特に、$\tO(\sqrt{SKT})$および$\tO({V_T^{1/3}K^{1/3}T^{2/3}})$ dynamic-regret guarantees, $S$は下層の嗜好関係における「有効スイッチ」の総数、$V_T$は「連続変量」非定常性の尺度である。 これらの問題の複雑さは、現実のシステムにおける非定常環境の実践性にもかかわらず、この研究以前には研究されていない。 このアルゴリズムの最適性は、上記の非定常の概念の両方の下で、下限保証の一致を証明することによって正当化される。 最後に,広範なシミュレーションを行い,最先端のベースラインに対するアルゴリズムの有効性を比較検討した。

We study the problem of \emph{dynamic regret minimization} in $K$-armed Dueling Bandits under non-stationary or time varying preferences. This is an online learning setup where the agent chooses a pair of items at each round and observes only a relative binary `win-loss' feedback for this pair, sampled from an underlying preference matrix at that round. We first study the problem of static-regret minimization for adversarial preference sequences and design an efficient algorithm with $O(\sqrt{KT})$ high probability regret. We next use similar algorithmic ideas to propose an efficient and provably optimal algorithm for dynamic-regret minimization under two notions of non-stationarities. In particular, we establish $\tO(\sqrt{SKT})$ and $\tO({V_T^{1/3}K^{1/3}T^{2/3}})$ dynamic-regret guarantees, $S$ being the total number of `effective-switches&# x27; in the underlying preference relations and $V_T$ being a measure of `continuous-variation ' non-stationarity. The complexity of these problems have not been studied prior to this work despite the practicability of non-stationary environments in real world systems. We justify the optimality of our algorithms by proving matching lower bound guarantees under both the above-mentioned notions of non-stationarities. Finally, we corroborate our results with extensive simulations and compare the efficacy of our algorithms over state-of-the-art baselines.
翻訳日:2021-11-10 10:56:43 公開日:2021-11-06
# (参考訳) Tip-Adapter: ビジョンランゲージモデリングのためのトレーニング不要CLIP-Adapter [全文訳有]

Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling ( http://arxiv.org/abs/2111.03930v1 )

ライセンス: CC BY 4.0
Renrui Zhang, Rongyao Fang, Peng Gao, Wei Zhang, Kunchang Li, Jifeng Dai, Yu Qiao, Hongsheng Li(参考訳) CLIPとして知られるContrastive Vision-Language Pre-trainingは、大規模なコントラスト画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。 ダウンストリームタスクへのゼロショットの知識転送で印象的なパフォーマンスを示す。 CLIP-Adapterは、CLIPの少数ショット機能をさらに強化するため、軽量な残留機能アダプタを微調整し、少数ショット分類のパフォーマンスを大幅に改善することを提案した。 しかし、そのようなプロセスには追加のトレーニングと計算資源が必要である。 本稿では、CLIPのトレーニング不要の利点を継承するだけでなく、CLIP-Adapterよりも可視的、あるいはさらに優れた性能を発揮する、 \textbf{T}raining-Free CL\textbf{IP}-\textbf{Adapter} (\textbf{Tip-Adapter})を提案する。 Tip-Adapterはアダプタをトレーニングするためにバックプロパゲーションを必要としないが、数ショットのトレーニングセットから構築されたキー値キャッシュモデルによって重みが生成される。 この非パラメトリックな方法では、Tip-Adapterはトレーニングなしで十分な性能のアダプタウェイトを取得する。 さらに、そのような適切な初期化アダプタを、超高速収束速度でほんの数エポックで微調整することで、チップアダプタの性能をさらに向上させることができる。 提案するTip-Adapterの優位性を示すために,ImageNetと他の10のデータセットの少数ショット分類実験を行った。 コードは \url{https://github.com/g aopengcuhk/Tip-Adapt er} でリリースされる。

Contrastive Vision-Language Pre-training, known as CLIP, has provided a new paradigm for learning visual representations by using large-scale contrastive image-text pairs. It shows impressive performance on zero-shot knowledge transfer to downstream tasks. To further enhance CLIP's few-shot capability, CLIP-Adapter proposed to fine-tune a lightweight residual feature adapter and significantly improves the performance for few-shot classification. However, such a process still needs extra training and computational resources. In this paper, we propose \textbf{T}raining-Free CL\textbf{IP}-\textbf{Adapter} (\textbf{Tip-Adapter}), which not only inherits CLIP's training-free advantage but also performs comparably or even better than CLIP-Adapter. Tip-Adapter does not require any back propagation for training the adapter, but creates the weights by a key-value cache model constructed from the few-shot training set. In this non-parametric manner, Tip-Adapter acquires well-performed adapter weights without any training, which is both efficient and effective. Moreover, the performance of Tip-Adapter can be further boosted by fine-tuning such properly initialized adapter for only a few epochs with super-fast convergence speed. We conduct extensive experiments of few-shot classification on ImageNet and other 10 datasets to demonstrate the superiority of proposed Tip-Adapter. The code will be released at \url{https://github.com/g aopengcuhk/Tip-Adapt er}.
翻訳日:2021-11-10 09:58:29 公開日:2021-11-06
# (参考訳) 一般知識データセットを用いたトランスフォーマーベースのベンガルチャットボット [全文訳有]

Transformer Based Bengali Chatbot Using General Knowledge Dataset ( http://arxiv.org/abs/2111.03937v1 )

ライセンス: CC BY 4.0
Abu Kaisar Mohammad Masum, Sheikh Abujar, Sharmin Akter, Nushrat Jahan Ria, Syed Akhter Hossain(参考訳) AIチャットボットは、トレーニングされたデータセットから学んだ後、印象的な応答を提供する。 この10年間の研究では、ディープニューラルモデルは他のどのモデルよりも優れていることが示されています。 RNNモデルは、質問や回答のようなシーケンス関連の問題を決定するために定期的に使用される。 このアプローチは、seq2seq学習として全員と知り合った。 seq2seqモデルメカニズムでは、エンコーダとデコーダを持つ。 エンコーダは任意の入力シーケンスを組込み、デコーダ組込み出力シーケンスを組込みます。 seq2seqモデルの性能を強化するため、エンコーダとデコーダに注意機構が追加された。 その後、トランスモデルは、シーケンス関連ジレンマを解くための複数の注意機構を備えた高性能モデルとして自身を導入した。 このモデルは、RNNベースモデルと比較してトレーニング時間を短縮し、シーケンシャルトランスダクションの最先端性能を達成する。 本研究では,ベンガルの一般知識質問応答(QA)データセットに基づいて,ベンガルの一般知識チャットボットに対するトランスフォーマーモデルを適用した。 適用されたQAデータに基づいて85.0BLEUをスコアする。 トランスフォーマーモデルの性能を比較するために、我々は23.5 bleuのデータセットに注目してseq2seqモデルを訓練した。

An AI chatbot provides an impressive response after learning from the trained dataset. In this decade, most of the research work demonstrates that deep neural models superior to any other model. RNN model regularly used for determining the sequence-related problem like a question and it answers. This approach acquainted with everyone as seq2seq learning. In a seq2seq model mechanism, it has encoder and decoder. The encoder embedded any input sequence, and the decoder embedded output sequence. For reinforcing the seq2seq model performance, attention mechanism added into the encoder and decoder. After that, the transformer model has introduced itself as a high-performance model with multiple attention mechanism for solving the sequence-related dilemma. This model reduces training time compared with RNN based model and also achieved state-of-the-art performance for sequence transduction. In this research, we applied the transformer model for Bengali general knowledge chatbot based on the Bengali general knowledge Question Answer (QA) dataset. It scores 85.0 BLEU on the applied QA data. To check the comparison of the transformer model performance, we trained the seq2seq model with attention on our dataset that scores 23.5 BLEU.
翻訳日:2021-11-10 09:38:10 公開日:2021-11-06
# (参考訳) 畳み込みGated MLP:畳み込みとgMLPの組み合わせ [全文訳有]

Convolutional Gated MLP: Combining Convolutions & gMLP ( http://arxiv.org/abs/2111.03940v1 )

ライセンス: CC BY-SA 4.0
A.Rajagopal, V. Nirmala(参考訳) 私たちの知る限りでは、Gated MultiLayer PerceptronにConvolutionsを導入し、この新しいDeep Learningアーキテクチャの実装に貢献する最初の論文です。 Google Brainは2021年5月にgMLPを導入した。 Microsoftは2021年にビジョントランスフォーマーの畳み込みを導入した。 gMLPとCvTの両方に着想を得て,gMLPに畳み込み層を導入する。 CvTはコンボリューションとアテンションの力を組み合わせた。 我々の実装は、畳み込み学習と空間ゲート型MLPを組み合わせたものである。 さらに、この論文はCgMLPがどのように学習するかを視覚化する。 可視化は、CgMLPが車のアウトラインのような機能からどのように学習するかを示している。 注目はディープラーニングの最近の進歩の基盤であったが、gmlpは注意の計算を使わないアプローチを提案した。 Transformerベースのアプローチでは、大量のトレーニングデータを使用して、多くの注意マトリックスを学習する必要があります。 gMLPでは、より小さなデータセットで学習を転送することで、新しいタスクの微調整が難しい場合がある。 CgMLPを実装し,それをCIFARデータセット上のgMLPと比較する。 実験結果はCgMLPのジェニザオンのパワーを探索する一方、gMLPはトレーニングデータに大幅に適合する傾向にある。 要約すると,本論文は新たなディープラーニングアーキテクチャを提供し,可視化によるCgMLPの学習機構を文献で初めて示すものである。

To the best of our knowledge, this is the first paper to introduce Convolutions to Gated MultiLayer Perceptron and contributes an implementation of this novel Deep Learning architecture. Google Brain introduced the gMLP in May 2021. Microsoft introduced Convolutions in Vision Transformer in Mar 2021. Inspired by both gMLP and CvT, we introduce convolutional layers in gMLP. CvT combined the power of Convolutions and Attention. Our implementation combines the best of Convolutional learning along with spatial gated MLP. Further, the paper visualizes how CgMLP learns. Visualizations show how CgMLP learns from features such as outline of a car. While Attention was the basis of much of recent progress in Deep Learning, gMLP proposed an approach that doesn't use Attention computation. In Transformer based approaches, a whole lot of Attention matrixes need to be learnt using vast amount of training data. In gMLP, the fine tunning for new tasks can be challenging by transfer learning with smaller datasets. We implement CgMLP and compares it with gMLP on CIFAR dataset. Experimental results explore the power of generaliza-tion of CgMLP, while gMLP tend to drastically overfit the training data. To summarize, the paper contributes a novel Deep Learning architecture and demonstrates the learning mechanism of CgMLP through visualizations, for the first time in literature.
翻訳日:2021-11-10 09:32:12 公開日:2021-11-06
# (参考訳) 多段階因果推論のためのカーネル法:メディエーション解析と動的治療効果

Kernel Methods for Multistage Causal Inference: Mediation Analysis and Dynamic Treatment Effects ( http://arxiv.org/abs/2111.03950v1 )

ライセンス: CC BY 4.0
Rahul Singh, Liyuan Xu, Arthur Gretton(参考訳) 短地平線上での媒介解析および動的処理効果を考慮したカーネルリッジ回帰推定器を提案する。 我々は、治療、共変量および媒介者を離散的、連続的、低、高、無限次元とすることを許す。 本稿では, カーネル行列演算の手法を用いて, 閉形式解を用いた反実効結果の推定, インクリメント, 分布について提案する。 連続処理の場合、有限サンプルレートで均一な一貫性が証明される。 離散処理の場合,ルートnの整合性,ガウス近似,半パラメトリック効率が証明される。 そこで我々は, 若年者に対する米国職業部隊プログラムの媒介的および動的治療効果を推定するシミュレーションを行った。

We propose kernel ridge regression estimators for mediation analysis and dynamic treatment effects over short horizons. We allow treatments, covariates, and mediators to be discrete or continuous, and low, high, or infinite dimensional. We propose estimators of means, increments, and distributions of counterfactual outcomes with closed form solutions in terms of kernel matrix operations. For the continuous treatment case, we prove uniform consistency with finite sample rates. For the discrete treatment case, we prove root-n consistency, Gaussian approximation, and semiparametric efficiency. We conduct simulations then estimate mediated and dynamic treatment effects of the US Job Corps program for disadvantaged youth.
翻訳日:2021-11-10 09:24:17 公開日:2021-11-06
# (参考訳) caltext:オフライン手書きテキストの文脈的注意配置 [全文訳有]

CALText: Contextual Attention Localization for Offline Handwritten Text ( http://arxiv.org/abs/2111.03952v1 )

ライセンス: CC BY 4.0
Tayaba Anjum and Nazar Khan(参考訳) ペルシア文字やウルドゥー文字のようなアラビア文字の認識はラテン文字よりも難しい。 これは、二次元構造、文脈に依存した文字の形、空間と重なり合い、およびダイアクリティカルティクスの配置の存在によるものである。 世界第10位の言語であるオフライン手書きのウルドゥ文字については、あまり研究されていない。 本稿では,Urduを文脈で読むことを学習するアテンションベースエンコーダデコーダモデルを提案する。 新たなローカライズペナルティを導入し、モデルが次のキャラクタを認識する際に、一度に1つの場所のみに出席するよう促す。 さらに,本論文では,接地トルースアノテーションの観点から,完全かつ公開のUrduデータセットを網羅的に洗練する。 ウルドゥー語とアラビア語の両方のデータセットでモデルを評価し,文脈的注意定位が単純な注意と多方向lstmモデルよりも優れていることを示す。

Recognition of Arabic-like scripts such as Persian and Urdu is more challenging than Latin-based scripts. This is due to the presence of a two-dimensional structure, context-dependent character shapes, spaces and overlaps, and placement of diacritics. Not much research exists for offline handwritten Urdu script which is the 10th most spoken language in the world. We present an attention based encoder-decoder model that learns to read Urdu in context. A novel localization penalty is introduced to encourage the model to attend only one location at a time when recognizing the next character. In addition, we comprehensively refine the only complete and publicly available handwritten Urdu dataset in terms of ground-truth annotations. We evaluate the model on both Urdu and Arabic datasets and show that contextual attention localization outperforms both simple attention and multi-directional LSTM models.
翻訳日:2021-11-10 09:23:17 公開日:2021-11-06
# 偏微分方程式学習のための物理インフォームドニューラル演算子

Physics-Informed Neural Operator for Learning Partial Differential Equations ( http://arxiv.org/abs/2111.03794v1 )

ライセンス: Link先を確認
Zongyi Li, Hongkai Zheng, Nikola Kovachki, David Jin, Haoxuan Chen, Burigede Liu, Kamyar Azizzadenesheli, Anima Anandkumar(参考訳) 機械学習手法は偏微分方程式(pdes)の解法として期待されている。 これらは解関数の近似と解演算子の学習という2つの広いカテゴリに分類できる。 物理学に変形したニューラルネットワーク(pinn)は前者の例であり、フーリエニューラルネットワーク(fno)は後者の例である。 どちらのアプローチにも欠点がある。 PINNの最適化は困難であり、特にマルチスケールの動的システムでは失敗する傾向にある。 FNOは、与えられたデータセット上で教師付き学習を行うため、この最適化の問題に悩まされることはないが、そのようなデータを取得するには高すぎるか、実現不可能である可能性がある。 本研究では,物理インフォームド・ニューラル演算子(PINO)を提案し,オペレーティング・ラーニングと関数最適化のフレームワークを組み合わせる。 この統合アプローチは、PINNモデルとFNOモデルの両方に対する収束率と精度を改善する。 演算子学習フェーズでは、PINOはパラメトリックPDEファミリーの複数のインスタンス上で解演算子を学習する。 テスト時間最適化フェーズでは、PINOはPDEのクエリインスタンスに対して事前訓練された演算子アンサッツを最適化する。 PINOは、多くのPDEファミリーにおいて、FNOの異常なスピードアップを維持しながら、従来のML手法よりも優れていた。 特に、ピノは、他のベースラインml法が収束しないコルモゴロフ流(kolmogorov flow)と長い時間的過渡流を正確に解く。

Machine learning methods have recently shown promise in solving partial differential equations (PDEs). They can be classified into two broad categories: approximating the solution function and learning the solution operator. The Physics-Informed Neural Network (PINN) is an example of the former while the Fourier neural operator (FNO) is an example of the latter. Both these approaches have shortcomings. The optimization in PINN is challenging and prone to failure, especially on multi-scale dynamic systems. FNO does not suffer from this optimization issue since it carries out supervised learning on a given dataset, but obtaining such data may be too expensive or infeasible. In this work, we propose the physics-informed neural operator (PINO), where we combine the operating-learning and function-optimizatio n frameworks. This integrated approach improves convergence rates and accuracy over both PINN and FNO models. In the operator-learning phase, PINO learns the solution operator over multiple instances of the parametric PDE family. In the test-time optimization phase, PINO optimizes the pre-trained operator ansatz for the querying instance of the PDE. Experiments show PINO outperforms previous ML methods on many popular PDE families while retaining the extraordinary speed-up of FNO compared to solvers. In particular, PINO accurately solves challenging long temporal transient flows and Kolmogorov flows where other baseline ML methods fail to converge.
翻訳日:2021-11-09 17:53:28 公開日:2021-11-06
# マルチヘッド・セルフアテンション話者検証システムのためのクラストークンと知識蒸留

Class Token and Knowledge Distillation for Multi-head Self-Attention Speaker Verification Systems ( http://arxiv.org/abs/2111.03842v1 )

ライセンス: Link先を確認
Victoria Mingote, Antonio Miguel, Alfonso Ortega, Eduardo Lleida(参考訳) 本稿では,Multi-head Self-Attention(MSA)機構とメモリ層を用いたディープニューラルネットワーク(DNN)に基づく話者検証システムの性能向上のための3つの新しいアプローチを提案する。 まず,クラストークンと呼ばれる学習可能なベクトルを用いて,平均的なグローバルプーリング機構を置き換え,埋め込みを抽出することを提案する。 グローバル平均プールとは異なり、本提案ではテキスト依存SVタスクに関連する入力の時間的構造を考慮に入れている。 クラストークンは、最初のMSA層の前の入力に連結され、出力時の状態がクラスを予測するために使用される。 さらなる堅牢性を得るために、我々は2つのアプローチを導入する。 まず,クラストークンのベイズ推定法を開発した。 第2に,KD(Knowledge Distillation)哲学とクラストークンを組み合わせることで,教師と学生のペアのネットワークを訓練するための蒸留表現トークンを追加した。 この蒸留トークンは教師ネットワークからの予測を模倣するように訓練され、クラストークンは真のラベルを複製する。 すべての戦略は、テキスト依存sv用のrsr2015-part iiとdeepmine-part 1データベースでテストされており、平均的なプール機構を使用して平均的な埋め込みを抽出するのと同等のアーキテクチャと比較して、競争力のある結果を提供している。

This paper explores three novel approaches to improve the performance of speaker verification (SV) systems based on deep neural networks (DNN) using Multi-head Self-Attention (MSA) mechanisms and memory layers. Firstly, we propose the use of a learnable vector called Class token to replace the average global pooling mechanism to extract the embeddings. Unlike global average pooling, our proposal takes into account the temporal structure of the input what is relevant for the text-dependent SV task. The class token is concatenated to the input before the first MSA layer, and its state at the output is used to predict the classes. To gain additional robustness, we introduce two approaches. First, we have developed a Bayesian estimation of the class token. Second, we have added a distilled representation token for training a teacher-student pair of networks using the Knowledge Distillation (KD) philosophy, which is combined with the class token. This distillation token is trained to mimic the predictions from the teacher network, while the class token replicates the true label. All the strategies have been tested on the RSR2015-Part II and DeepMine-Part 1 databases for text-dependent SV, providing competitive results compared to the same architecture using the average pooling mechanism to extract average embeddings.
翻訳日:2021-11-09 17:53:07 公開日:2021-11-06
# 新しいトリガーワードの高速搭載のためのコントラスト学習前タスクを用いた雑音頑健なトリガーワード検出に向けて

Towards noise robust trigger-word detection with contrastive learning pre-task for fast on-boarding of new trigger-words ( http://arxiv.org/abs/2111.03971v1 )

ライセンス: Link先を確認
Sivakumar Balasubramanian, Aditya Jajodia, Gowtham Srinivasan(参考訳) ユーザの音声アシスタントとのコミュニケーションのエントリポイントとして,トリガーワード検出が重要な役割を果たす。 しかし、特定の単語をトリガーワードとしてサポートするためには、膨大な量のデータ収集、拡張、ラベリングが必要となる。 これにより、新しいトリガーワードのサポートは退屈で時間のかかるプロセスになる。 そこで本研究では, コントラスト学習を事前学習タスクとして用いることにより, 検出モデルが単語や雑音に一般化するのを助ける。 教師付きコントラスト手法について検討し,長文音声のチャンクワードを用いた自己教師あり手法を提案する。 対照的な事前学習技術は、データ可用性の低い新しいトリガーワードで事前学習する従来の分類と同等の結果を示す。

Trigger-word detection plays an important role as the entry point of user's communication with voice assistants. But supporting a particular word as a trigger-word involves huge amount of data collection, augmentation and labelling for that word. This makes supporting new trigger-words a tedious and time consuming process. To combat this, we explore the use of contrastive learning as a pre-training task that helps the detection model to generalize to different words and noise conditions. We explore supervised contrastive techniques and also propose a self-supervised technique using chunked words from long sentence audios. We show that the contrastive pre-training techniques have comparable results to a traditional classification pre-training on new trigger words with less data availability.
翻訳日:2021-11-09 17:52:43 公開日:2021-11-06
# 非単調ゲームにおけるパーソナライズインセンティブを用いた学習平衡

Learning equilibria with personalized incentives in a class of nonmonotone games ( http://arxiv.org/abs/2111.03854v1 )

ライセンス: Link先を確認
Filippo Fabiani, Andrea Simonetto and Paul J. Goulart(参考訳) 我々は、ポテンシャルであることが知られているエージェント間の対称相互作用を伴う二次的、非単調なナッシュ均衡問題を考察する。 実際に起こりうるように、基礎となるポテンシャル関数の明示的な表現が利用できないシナリオを想定し、2層ナッシュ平衡探索アルゴリズムを設計する。 提案手法では,コーディネータが騒音エージェントのフィードバックを反復的に統合し,エージェントの擬似階調を学習し,パーソナライズされたインセンティブを設計する。 彼らの側では、エージェントはパーソナライズされたインセンティブを受け取り、拡張されたゲームに対する解決策を計算し、コーディネータにフィードバック対策を返す。 本アルゴリズムは,コーディネータが標準的な学習方針を付与された場合,均衡を返し,ハイポモノトーンゲームの数値インスタンスで結果を照合する。

We consider quadratic, nonmonotone generalized Nash equilibrium problems with symmetric interactions among the agents, which are known to be potential. As may happen in practical cases, we envision a scenario in which an explicit expression of the underlying potential function is not available, and we design a two-layer Nash equilibrium seeking algorithm. In the proposed scheme, a coordinator iteratively integrates the noisy agents' feedback to learn the pseudo-gradients of the agents, and then design personalized incentives for them. On their side, the agents receive those personalized incentives, compute a solution to an extended game, and then return feedback measures to the coordinator. We show that our algorithm returns an equilibrium in case the coordinator is endowed with standard learning policies, and corroborate our results on a numerical instance of a hypomonotone game.
翻訳日:2021-11-09 17:47:32 公開日:2021-11-06
# SIG-VC:人間と機械の両方を対象としたゼロショット音声変換システム

SIG-VC: A Speaker Information Guided Zero-shot Voice Conversion System for Both Human Beings and Machines ( http://arxiv.org/abs/2111.03811v1 )

ライセンス: Link先を確認
Zhang Haozhe, Cai Zexin, Qin Xiaoyi, Li Ming(参考訳) 今日では、従来の音声変換(VC)タスクにおいて、多くのシステムが優れたパフォーマンスを達成するにつれて、人々の注意は徐々に極端な条件下でのVCタスクへと変わりつつある。 本稿では,ゼロショット音声変換のための新しい手法を提案する。 本研究の目的は、話者情報を取り除き、純粋なコンテンツ情報を得るために、話者内容のアンタングル化のための中間表現を得ることである。 そこで,提案するフレームワークには,音源話者の音響的特徴から話者情報を除去するモジュールが含まれている。 さらに,音声クローン性能を維持するために,話者情報制御をシステムに追加した。 提案システムは主観的および客観的な指標によって評価される。 その結果,提案方式はゼロショット音声変換におけるトレードオフ問題を著しく低減し,話者検証システムに高いスポーフィング能力を持たせることができた。

Nowadays, as more and more systems achieve good performance in traditional voice conversion (VC) tasks, people's attention gradually turns to VC tasks under extreme conditions. In this paper, we propose a novel method for zero-shot voice conversion. We aim to obtain intermediate representations for speaker-content disentanglement of speech to better remove speaker information and get pure content information. Accordingly, our proposed framework contains a module that removes the speaker information from the acoustic feature of the source speaker. Moreover, speaker information control is added to our system to maintain the voice cloning performance. The proposed system is evaluated by subjective and objective metrics. Results show that our proposed system significantly reduces the trade-off problem in zero-shot voice conversion, while it also manages to have high spoofing power to the speaker verification system.
翻訳日:2021-11-09 17:11:05 公開日:2021-11-06
# 乳がんサブタイプ分類のための深層学習モデル

Deep Learning Based Model for Breast Cancer Subtype Classification ( http://arxiv.org/abs/2111.03923v1 )

ライセンス: Link先を確認
Sheetal Rajpal, Virendra Kumar, Manoj Agarwal, Naveen Kumar(参考訳) 乳がんは長い間、女性の間で大きな死因となっている。 遺伝子発現データを記録できるRNAシークエンシングツールが利用可能になったことにより、診断、治療、予後が可能になった。 本研究は,乳がんの4つのサブタイプ(Basal,Her2,LumA,Lum B)の分類における遺伝子発現データの利用に焦点を当てた。 ステージ1では,自己エンコーダを用いて次元を減少させる深層学習モデルを提案する。 オートエンコーダを用いて、特徴セットのサイズを20,530の遺伝子発現値から500に縮小する。 このエンコードされた表現は、患者を乳がんの4つの分子サブタイプに分類するために第2段階のディープニューラルネットワークに渡される。 ステージ1とステージ2の組み合わせネットワークをデプロイすることで,tga乳がんデータセット上で平均10倍のテスト精度0.907を達成することができた。 提案されたフレームワークは、分類精度のためにboxplotで示されているように、10の異なる実行でかなり堅牢である。 文献で報告された関連研究と比較して,我々は競争的な結果を得た。 その結果,提案する2段階のディープラーニングモデルでは,乳がんの4つのサブタイプを正確に分類することが可能であり,コンパクト表現を推定するオートエンコーダの能力と,乳がんを正しく分類するニューラルネットワーク分類器の能力が強調された。

Breast cancer has long been a prominent cause of mortality among women. Diagnosis, therapy, and prognosis are now possible, thanks to the availability of RNA sequencing tools capable of recording gene expression data. Molecular subtyping being closely related to devising clinical strategy and prognosis, this paper focuses on the use of gene expression data for the classification of breast cancer into four subtypes, namely, Basal, Her2, LumA, and LumB. In stage 1, we suggested a deep learning-based model that uses an autoencoder to reduce dimensionality. The size of the feature set is reduced from 20,530 gene expression values to 500 by using an autoencoder. This encoded representation is passed to the deep neural network of the second stage for the classification of patients into four molecular subtypes of breast cancer. By deploying the combined network of stages 1 and 2, we have been able to attain a mean 10-fold test accuracy of 0.907 on the TCGA breast cancer dataset. The proposed framework is fairly robust throughout 10 different runs, as shown by the boxplot for classification accuracy. Compared to related work reported in the literature, we have achieved a competitive outcome. In conclusion, the proposed two-stage deep learning-based model is able to accurately classify four breast cancer subtypes, highlighting the autoencoder's capacity to deduce the compact representation and the neural network classifier's ability to correctly label breast cancer patients.
翻訳日:2021-11-09 17:09:09 公開日:2021-11-06
# SOPE:Off-Policy Estimatorのスペクトル

SOPE: Spectrum of Off-Policy Estimators ( http://arxiv.org/abs/2111.03936v1 )

ライセンス: Link先を確認
Christina J. Yuan, Yash Chandak, Stephen Giguere, Philip S. Thomas, Scott Niekum(参考訳) 多くのシーケンシャルな意思決定問題はハイテイクであり、他の政策を用いて収集された歴史的データを用いて新しい政策の非政治的評価(OPE)を必要とする。 偏りのない見積もりを提供する最も一般的なOPE手法の1つは、軌跡に基づく重要サンプリング(IS)である。 しかし, 軌道のばらつきが推定されるため, 近年, 状態行動訪問分布(sis)に基づく重要サンプリング手法が採用されている。 残念なことに、SISはしばしば長い地平線に対して低い分散推定を提供するが、状態-作用分布比を推定することは困難であり、偏りのある推定につながる。 本稿では、このバイアス分散トレードオフに対する新たな視点を示し、終端がSISとISである推定器のスペクトルの存在を示す。 さらに,これらの推定器の二重ロバストおよび重み付けバージョンのスペクトルも確立する。 我々は,isとsisのバイアスと分散のトレードオフとして,このスペクトルの推定器を用いてisとsisよりも低い平均二乗誤差を実現できることを示す。

Many sequential decision making problems are high-stakes and require off-policy evaluation (OPE) of a new policy using historical data collected using some other policy. One of the most common OPE techniques that provides unbiased estimates is trajectory based importance sampling (IS). However, due to the high variance of trajectory IS estimates, importance sampling methods based on state-action visitation distributions (SIS) have recently been adopted. Unfortunately, while SIS often provides lower variance estimates for long horizons, estimating the state-action distribution ratios can be challenging and lead to biased estimates. In this paper, we present a new perspective on this bias-variance trade-off and show the existence of a spectrum of estimators whose endpoints are SIS and IS. Additionally, we also establish a spectrum for doubly-robust and weighted version of these estimators. We provide empirical evidence that estimators in this spectrum can be used to trade-off between the bias and variance of IS and SIS and can achieve lower mean-squared error than both IS and SIS.
翻訳日:2021-11-09 16:47:48 公開日:2021-11-06
# 動くIoTサービスを構成するための深層強化学習アプローチ

A Deep Reinforcement Learning Approach for Composing Moving IoT Services ( http://arxiv.org/abs/2111.03967v1 )

ライセンス: Link先を確認
Azadeh Ghari Neiat, Athman Bouguettaya, Mohammed Bahutair(参考訳) 本研究では,ユーザに近いクラウドソーシングサービスを,一定期間にわたって効率的に効率的に発見するための新しいフレームワークを開発する。 移動領域としてモデル化した移動クラウドソーシングサービスモデルを提案する。 品質パラメータを考慮した移動型IoTサービスの選択と構成を行うための,深層強化学習に基づく合成手法を提案する。 さらに,提案手法の精度を計測するための基盤として,並列群型サービスディスカバリアルゴリズムを開発した。 2つの実世界のデータセットの実験は、深層強化学習に基づくアプローチの有効性と効率を検証する。

We develop a novel framework for efficiently and effectively discovering crowdsourced services that move in close proximity to a user over a period of time. We introduce a moving crowdsourced service model which is modelled as a moving region. We propose a deep reinforcement learning-based composition approach to select and compose moving IoT services considering quality parameters. Additionally, we develop a parallel flock-based service discovery algorithm as a ground-truth to measure the accuracy of the proposed approach. The experiments on two real-world datasets verify the effectiveness and efficiency of the deep reinforcement learning-based approach.
翻訳日:2021-11-09 16:47:30 公開日:2021-11-06
# ニューラルbrdf:表現と操作

Neural BRDFs: Representation and Operations ( http://arxiv.org/abs/2111.03797v1 )

ライセンス: Link先を確認
Jiahui Fan and Beibei Wang and Milo\v{s} Ha\v{s}an and Jian Yang and Ling-Qi Yan(参考訳) 双方向反射率分布関数 (BRDF) はコンピュータグラフィックスにおいてリアルな物理的外観を生成するために広く用いられている。 近年、ニューラルネットワークを用いてBRDFを表現し、高い圧縮率と高度に複雑な機能に適合する能力を活用する研究がいくつか行われている。 しかし、一度表現されたらBRDFは修正されるので、フォローアップ操作に参加する柔軟性がない。 本稿では,brdfの表現と操作の両方を同時に行う「神経系brdf代数」の形式について述べる。 本稿では,BRDFを遅延ベクトルに圧縮し,BRDFを正確に表現できる表現ニューラルネットワークを提案する。 さらに,階層化や補間など,潜在空間にのみ適用可能な操作もいくつか提案する。 空間的変動は潜在ベクトルのテクスチャを用いて簡単に達成できる。 さらに,より高価なモンテカルロ層化手法に対する競合ソリューションとして,効率的な評価とサンプル化が可能である。

Bidirectional reflectance distribution functions (BRDFs) are pervasively used in computer graphics to produce realistic physically-based appearance. In recent years, several works explored using neural networks to represent BRDFs, taking advantage of neural networks' high compression rate and their ability to fit highly complex functions. However, once represented, the BRDFs will be fixed and therefore lack flexibility to take part in follow-up operations. In this paper, we present a form of "Neural BRDF algebra", and focus on both representation and operations of BRDFs at the same time. We propose a representation neural network to compress BRDFs into latent vectors, which is able to represent BRDFs accurately. We further propose several operations that can be applied solely in the latent space, such as layering and interpolation. Spatial variation is straightforward to achieve by using textures of latent vectors. Furthermore, our representation can be efficiently evaluated and sampled, providing a competitive solution to more expensive Monte Carlo layering approaches.
翻訳日:2021-11-09 16:40:31 公開日:2021-11-06
# roft: リアルタイム光フロー支援6次元物体ポーズと速度追跡

ROFT: Real-Time Optical Flow-Aided 6D Object Pose and Velocity Tracking ( http://arxiv.org/abs/2111.03821v1 )

ライセンス: Link先を確認
Nicola A. Piga, Yuriy Onyshchuk, Giulia Pasquale, Ugo Pattacini and Lorenzo Natale(参考訳) 6Dオブジェクトのポーズトラッキングはロボットとコンピュータビジョンのコミュニティで広く研究されている。 ディープニューラルネットワークとフィルタリングと最適化を活用することで、最も有望なソリューションは、標準ベンチマークで注目すべきパフォーマンスを示している。 しかし、我々の知る限り、これらは高速物体の動きに対して完全にはテストされていない。 このシナリオにおけるトラッキング性能は、特にリアルタイム性能を達成せず、無視できない遅延をもたらすメソッドにおいて、著しく低下する。 本研究では,RGB-D画像ストリームからの6次元オブジェクトポーズと速度追跡のためのカルマンフィルタ手法であるROFTを紹介する。 リアルタイム光フローを活用することにより、ROFTは低フレームレートの畳み込みニューラルネットワークの遅延出力をRGB-D入力ストリームと同期させ、高速で高精度な6Dオブジェクトポーズと速度トラッキングを実現する。 提案手法は,YCBモデルセットから高速に移動したオブジェクトからなる新しいフォトリアリスティックデータセットであるFast-YCBと,オブジェクトとポーズ推定用データセットであるHO-3Dで検証する。 その結果,提案手法は6次元オブジェクトのポーズトラッキングと6次元オブジェクトの速度トラッキングに優れることがわかった。 実験を示すビデオは補足材料として提供される。

6D object pose tracking has been extensively studied in the robotics and computer vision communities. The most promising solutions, leveraging on deep neural networks and/or filtering and optimization, exhibit notable performance on standard benchmarks. However, to our best knowledge, these have not been tested thoroughly against fast object motions. Tracking performance in this scenario degrades significantly, especially for methods that do not achieve real-time performance and introduce non negligible delays. In this work, we introduce ROFT, a Kalman filtering approach for 6D object pose and velocity tracking from a stream of RGB-D images. By leveraging real-time optical flow, ROFT synchronizes delayed outputs of low frame rate Convolutional Neural Networks for instance segmentation and 6D object pose estimation with the RGB-D input stream to achieve fast and precise 6D object pose and velocity tracking. We test our method on a newly introduced photorealistic dataset, Fast-YCB, which comprises fast moving objects from the YCB model set, and on the dataset for object and hand pose estimation HO-3D. Results demonstrate that our approach outperforms state-of-the-art methods for 6D object pose tracking, while also providing 6D object velocity tracking. A video showing the experiments is provided as supplementary material.
翻訳日:2021-11-09 16:40:16 公開日:2021-11-06
# ピラミッドアテンションとゲート融合ネットワークを用いたリモートセンシング画像のマルチモーダル土地被覆マッピング

Multi-modal land cover mapping of remote sensing images using pyramid attention and gated fusion networks ( http://arxiv.org/abs/2111.03845v1 )

ライセンス: Link先を確認
Qinghui Liu, Michael Kampffmeyer, Robert Jenssen and Arnt-B{\o}rre Salberg(参考訳) マルチモダリティデータはリモートセンシング(RS)で容易に利用でき、地球表面に関する補完的な情報を提供することができる。 したがって、マルチモーダル情報の効果的な融合は、RSの様々なアプリケーションにとって重要であるが、大きなドメイン差、ノイズ、冗長性のために非常に難しい。 複数のモダリティエンコーダをブリッジし、補完情報を完全に活用するための効果的でスケーラブルな融合技術がない。 そこで本研究では,新しいピラミッド注意融合(PAF)モジュールとゲート融合ユニット(GFU)に基づくマルチモーダルリモートセンシングデータのランドカバーマッピングのためのマルチモーダルネットワーク(MultiModNet)を提案する。 PAFモジュールは、内蔵のクロスレベルおよびクロスビューアテンション融合機構により、各モードからよりきめ細かいコンテキスト表現を効率的に得るように設計されており、GFUモジュールは、特徴の早期にマージするための新しいゲーティング機構を利用して、隠れた冗長性とノイズを低減している。 これにより、補助的モダリティは、後期特徴融合の最も価値ある補完的情報を効果的に抽出することができる。 2つのrsベンチマークデータセットに関する広範な実験は、マルチモーダル土地被覆分類におけるマルチモデネットの有効性、ロバスト性、優越性を示している。

Multi-modality data is becoming readily available in remote sensing (RS) and can provide complementary information about the Earth's surface. Effective fusion of multi-modal information is thus important for various applications in RS, but also very challenging due to large domain differences, noise, and redundancies. There is a lack of effective and scalable fusion techniques for bridging multiple modality encoders and fully exploiting complementary information. To this end, we propose a new multi-modality network (MultiModNet) for land cover mapping of multi-modal remote sensing data based on a novel pyramid attention fusion (PAF) module and a gated fusion unit (GFU). The PAF module is designed to efficiently obtain rich fine-grained contextual representations from each modality with a built-in cross-level and cross-view attention fusion mechanism, and the GFU module utilizes a novel gating mechanism for early merging of features, thereby diminishing hidden redundancies and noise. This enables supplementary modalities to effectively extract the most valuable and complementary information for late feature fusion. Extensive experiments on two representative RS benchmark datasets demonstrate the effectiveness, robustness, and superiority of the MultiModNet for multi-modal land cover classification.
翻訳日:2021-11-09 16:39:54 公開日:2021-11-06
# 説明可能なAIを用いた網膜OCT疾患分類のためのDemystifying Deep Learning Model

Demystifying Deep Learning Models for Retinal OCT Disease Classification using Explainable AI ( http://arxiv.org/abs/2111.03890v1 )

ライセンス: Link先を確認
Tasnim Sakib Apon, Mohammad Mahmudul Hasan, Abrar Islam, MD. Golam Rabiul Alam(参考訳) 医学診断の世界では、様々な深層学習技術が採用されるのは非常に一般的であり、網膜光コヒーレンス・トモグラフィー(OCT)分野に導入する上でも同様に真実である。 (i)これらの技法は、医療従事者がその成果を完全に信頼できないブラックボックス特性を有する。 (II)これらの方法の精度の欠如は臨床および複雑な症例における実施を制限する 3) OCT分類の既存の作業やモデルはかなり複雑で,大量のメモリと計算能力を必要とするため,リアルタイムアプリケーションにおける分類器の品質が低下する。 これらの問題に対処するため,本論文では,Limeを用いて,説明可能なAIを導入し,モデルの解釈可能性を高めるとともに,比較的小型で簡易な自己開発CNNモデルを提案する。 この追加は、メジャーで詳細な情報を得るための医療専門家の資産であり、最終的な決定に役立ち、従来のディープラーニングモデルの不透明さと脆弱性を低減します。

In the world of medical diagnostics, the adoption of various deep learning techniques is quite common as well as effective, and its statement is equally true when it comes to implementing it into the retina Optical Coherence Tomography (OCT) sector, but (i)These techniques have the black box characteristics that prevent the medical professionals to completely trust the results generated from them (ii)Lack of precision of these methods restricts their implementation in clinical and complex cases (iii)The existing works and models on the OCT classification are substantially large and complicated and they require a considerable amount of memory and computational power, reducing the quality of classifiers in real-time applications. To meet these problems, in this paper a self-developed CNN model has been proposed which is comparatively smaller and simpler along with the use of Lime that introduces Explainable AI to the study and helps to increase the interpretability of the model. This addition will be an asset to the medical experts for getting major and detailed information and will help them in making final decisions and will also reduce the opacity and vulnerability of the conventional deep learning models.
翻訳日:2021-11-09 16:38:17 公開日:2021-11-06
# シーケンスにおける文脈非教師なし異常検出

Contextual Unsupervised Outlier Detection in Sequences ( http://arxiv.org/abs/2111.03808v1 )

ライセンス: Link先を確認
Mohamed A. Zahran, Leonardo Teixeira, Vinayak Rao, Bruno Ribeiro(参考訳) 本研究は,評価テストとユーザシーケンスモデルを組み合わせた軌道異常検出のための教師なし学習フレームワークを提案する。 全体的なフレームワークは、所望の偽陽性率(fpr)でのシーケンス異常値をパラメータフリーな方法で識別する。 我々は,本手法を,Webサイトにおけるユーザ行動に基づく実データとシミュレーションデータセットのコレクション上で評価し,既存のアプローチよりも精度が向上したことを示す。 またわれわれのアプローチは、PinterestとFacebookのユーザーからなる大規模な現実世界のデータセットにも適用しており、ユーザーはPinterestの投稿を他のタイプのユーザーよりも大幅にシェアする傾向にあり、Pinterest上での行動共有にFacebookの友情が潜在的に影響していることを示している。

This work proposes an unsupervised learning framework for trajectory (sequence) outlier detection that combines ranking tests with user sequence models. The overall framework identifies sequence outliers at a desired false positive rate (FPR), in an otherwise parameter-free manner. We evaluate our methodology on a collection of real and simulated datasets based on user actions at the websites last.fm and msnbc.com, where we know ground truth, and demonstrate improved accuracy over existing approaches. We also apply our approach to a large real-world dataset of Pinterest and Facebook users, where we find that users tend to re-share Pinterest posts of Facebook friends significantly more than other types of users, pointing to a potential influence of Facebook friendship on sharing behavior on Pinterest.
翻訳日:2021-11-09 16:01:46 公開日:2021-11-06
# 動き追跡のためのニューラル暗黙事象生成器

Neural Implicit Event Generator for Motion Tracking ( http://arxiv.org/abs/2111.03824v1 )

ライセンス: Link先を確認
Mana Masuda, Yusuke Sekikawa, Ryo Fujii, Hideo Saito(参考訳) 暗黙の表現を用いたイベントデータからの動作追跡の新しいフレームワークを提案する。 本フレームワークは, 暗黙イベント発生器 (IEG) と命名された事前学習イベント生成MLPを用いて, 観測されたイベントと生成されたイベントとの差に基づいて, その状態(位置と速度)を更新し, 動作追跡を行う。 差分はIEGによって暗黙的に計算される。 差分を評価するために高密度な計算を必要とする従来の明示的アプローチとは異なり、我々の暗黙的アプローチはスパースイベントデータから直接効率的な状態更新を実現する。 我々のスパースアルゴリズムは計算資源とバッテリー寿命が制限された移動ロボット用途に特に適している。 実世界のデータに対する本手法の有効性を検証するため,ARマーカー追跡アプリケーションに適用した。 我々は,騒音や背景が乱雑な環境下では,我々のフレームワークが実環境でも有効であることを確認した。

We present a novel framework of motion tracking from event data using implicit expression. Our framework use pre-trained event generation MLP named implicit event generator (IEG) and does motion tracking by updating its state (position and velocity) based on the difference between the observed event and generated event from the current state estimate. The difference is computed implicitly by the IEG. Unlike the conventional explicit approach, which requires dense computation to evaluate the difference, our implicit approach realizes efficient state update directly from sparse event data. Our sparse algorithm is especially suitable for mobile robotics applications where computational resources and battery life are limited. To verify the effectiveness of our method on real-world data, we applied it to the AR marker tracking application. We have confirmed that our framework works well in real-world environments in the presence of noise and background clutter.
翻訳日:2021-11-09 15:54:05 公開日:2021-11-06
# CSGOにおける移動学習と多数投票を用いた行動認識

Action Recognition using Transfer Learning and Majority Voting for CSGO ( http://arxiv.org/abs/2111.03882v1 )

ライセンス: Link先を確認
Tasnim Sakib Apon, Abrar Islam, MD. Golam Rabiul Alam(参考訳) 現在、オンラインビデオゲームは徐々に好まれるレクリエーションの源となり、Counter Strike: Global Offensive(CS: GO)はオンラインファーストパーソンシューティングゲームのトップリストの1つである。 毎年Esportsによって多くの競技ゲームが開催されている。 それでも (i)CSの映像分析と行動認識に関する研究は行われていない: GOゲームプレイは、予測モデルのためのゲーム産業において重要な役割を果たす。 (ii)CS:GOマッチの動作と結果のリアルタイム適用に関する作業は行われていない。 (iii)マッチのゲームデータは、通常、CSVフォーマットファイルとしてHLTVで利用可能であるが、オープンアクセスがなく、HLTVはユーザーがデータを取るのを防ぐ傾向がある。 This manuscript aims to develop a model for accurate prediction of 4 different actions and compare the performance among the five different transfer learning models with our self-developed deep neural network and identify the best-fitted model and also including major voting later on, which is qualified to provide real time prediction and the result of this model aids to the construction of the automated system of gathering and processing more data alongside solving the issue of collecting data from HLTV.

Presently online video games have become a progressively favorite source of recreation and Counter Strike: Global Offensive (CS: GO) is one of the top-listed online first-person shooting games. Numerous competitive games are arranged every year by Esports. Nonetheless, (i) No study has been conducted on video analysis and action recognition of CS: GO game-play which can play a substantial role in the gaming industry for prediction model (ii) No work has been done on the real-time application on the actions and results of a CS: GO match (iii) Game data of a match is usually available in the HLTV as a CSV formatted file however it does not have open access and HLTV tends to prevent users from taking data. This manuscript aims to develop a model for accurate prediction of 4 different actions and compare the performance among the five different transfer learning models with our self-developed deep neural network and identify the best-fitted model and also including major voting later on, which is qualified to provide real time prediction and the result of this model aids to the construction of the automated system of gathering and processing more data alongside solving the issue of collecting data from HLTV.
翻訳日:2021-11-09 15:53:49 公開日:2021-11-06
# マルチソースドメイン適応のためのドメイン注意一貫性

Domain Attention Consistency for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2111.03911v1 )

ライセンス: Link先を確認
Zhongying Deng, Kaiyang Zhou, Yongxin Yang, Tao Xiang(参考訳) 既存のマルチソースドメイン適応(MSDA)手法は、複数のソースとターゲットのドメインペア間の距離を特徴分散アライメントによって最小化する。 しかし、多様なソースドメインでは、ペアワイズな特徴分布の整合は困難であり、MSDAでは非生産的である。 本稿では,転送可能な属性学習という新しいアプローチを提案する。 このモチベーションは単純である:異なるドメインは視覚的に大きく異なる外観を持つことができるが、それらは同じ属性のセットによって特徴づけられる同じクラスのセットを含む。 このアプローチを採用し,dac-netと呼ばれるドメインアテンション一貫性ネットワークを提案する。 重要な設計は、転送可能な機能(属性)を特定することを目的としたフィーチャーチャネルアテンションモジュールである。 重要なことに、アテンションモジュールは、ソースとターゲットドメイン間のチャネルアテンション重みの分布に課される一貫性損失によって監督される。 さらに,対象データに対する識別的特徴学習を容易にするために,擬似ラベルとクラスコンパクト性損失を組み合わせ,対象特徴と分類器の重みベクトルとの距離を最小化する。 3つのMSDAベンチマークによる大規模な実験は、DAC-Netがこれらすべてに対して、新たなパフォーマンスを実現することを示している。

Most existing multi-source domain adaptation (MSDA) methods minimize the distance between multiple source-target domain pairs via feature distribution alignment, an approach borrowed from the single source setting. However, with diverse source domains, aligning pairwise feature distributions is challenging and could even be counter-productive for MSDA. In this paper, we introduce a novel approach: transferable attribute learning. The motivation is simple: although different domains can have drastically different visual appearances, they contain the same set of classes characterized by the same set of attributes; an MSDA model thus should focus on learning the most transferable attributes for the target domain. Adopting this approach, we propose a domain attention consistency network, dubbed DAC-Net. The key design is a feature channel attention module, which aims to identify transferable features (attributes). Importantly, the attention module is supervised by a consistency loss, which is imposed on the distributions of channel attention weights between source and target domains. Moreover, to facilitate discriminative feature learning on the target data, we combine pseudo-labeling with a class compactness loss to minimize the distance between the target features and the classifier's weight vectors. Extensive experiments on three MSDA benchmarks show that our DAC-Net achieves new state of the art performance on all of them.
翻訳日:2021-11-09 15:53:30 公開日:2021-11-06
# 網膜血管セグメンテーションの新しいベースライン : 100以上の論文に影響を及ぼす方法論的不整合の数値的同定と補正

A new baseline for retinal vessel segmentation: Numerical identification and correction of methodological inconsistencies affecting 100+ papers ( http://arxiv.org/abs/2111.03853v1 )

ライセンス: Link先を確認
Gy\"orgy Kov\'acs, Attila Fazekas(参考訳) 過去15年間で、網膜画像中の血管の分画は、数百のアルゴリズムが発行された医療画像において、集中的に研究される問題となっている。 コンテナセグメンテーション技術のデファクトベンチマークデータセットの1つは、DRIVEデータセットである。 DRIVEは事前定義されたトレーニング画像とテスト画像の分割を含むため,様々なセグメンテーション手法による性能評価の結果は,アルゴリズムの信頼性の高いランキングを提供する必要がある。 この研究には100以上の論文が含まれており、公開パフォーマンススコアの一貫性に関する詳細な数値分析を行った。 fov(field of view)の使用に関して報告されたスコアの不一致が,パフォーマンススコアに大きな影響を与えていることがわかった。 我々は,そのバイアスを数値的手法で排除し,より現実的な芸術の像を提示しようと試みた。 この結果から, DRIVEの精確なテストセットにもかかわらず, 論文のほとんどのランキングは, 比較不可能な数値に基づいており, 文献で報告されているほぼ完全な精度スコアとは対照的に, ヒトのアノテーションよりも1%高いFoV領域において, これまでに達成された最高精度スコアは0.9582である。 評価バイアスを識別し除去するために開発した手法は,類似する問題が発生する可能性のある他の領域にも容易に適用できる。

In the last 15 years, the segmentation of vessels in retinal images has become an intensively researched problem in medical imaging, with hundreds of algorithms published. One of the de facto benchmarking data sets of vessel segmentation techniques is the DRIVE data set. Since DRIVE contains a predefined split of training and test images, the published performance results of the various segmentation techniques should provide a reliable ranking of the algorithms. Including more than 100 papers in the study, we performed a detailed numerical analysis of the coherence of the published performance scores. We found inconsistencies in the reported scores related to the use of the field of view (FoV), which has a significant impact on the performance scores. We attempted to eliminate the biases using numerical techniques to provide a more realistic picture of the state of the art. Based on the results, we have formulated several findings, most notably: despite the well-defined test set of DRIVE, most rankings in published papers are based on non-comparable figures; in contrast to the near-perfect accuracy scores reported in the literature, the highest accuracy score achieved to date is 0.9582 in the FoV region, which is 1% higher than that of human annotators. The methods we have developed for identifying and eliminating the evaluation biases can be easily applied to other domains where similar problems may arise.
翻訳日:2021-11-09 15:31:47 公開日:2021-11-06
# 低計算量を用いたニューラルマシン翻訳のアーキテクチャ解析

Analyzing Architectures for Neural Machine Translation Using Low Computational Resources ( http://arxiv.org/abs/2111.03813v1 )

ライセンス: Link先を確認
Aditya Mandke, Onkar Litake, Dipali Kadam(参考訳) 自然言語処理の分野における最近の進歩により、ニューラルマシン翻訳における異なるアーキテクチャの使用が増えている。 トランスフォーマーアーキテクチャは最先端の精度を達成するために使用されるが、訓練には非常に計算コストがかかる。 ハイエンドGPUやその他のリソースで構成されるようなセットアップは誰もが持っていない。 我々は、低計算資源でモデルを訓練し、その結果を調べる。 予想通り、トランスフォーマーは他のアーキテクチャを上回っていたが、驚くべき結果がいくつかあった。 より多くのエンコーダとデコーダからなるトランスフォーマーは訓練により多くの時間を要したが、ブレウスコアは少なかった。 LSTMは実験でよく機能し、トランスフォーマーよりも訓練に比較的時間がかかり、時間制約のある状況での使用に適している。

With the recent developments in the field of Natural Language Processing, there has been a rise in the use of different architectures for Neural Machine Translation. Transformer architectures are used to achieve state-of-the-art accuracy, but they are very computationally expensive to train. Everyone cannot have such setups consisting of high-end GPUs and other resources. We train our models on low computational resources and investigate the results. As expected, transformers outperformed other architectures, but there were some surprising results. Transformers consisting of more encoders and decoders took more time to train but had fewer BLEU scores. LSTM performed well in the experiment and took comparatively less time to train than transformers, making it suitable to use in situations having time constraints.
翻訳日:2021-11-09 15:27:04 公開日:2021-11-06
# ニュースの編集内容からの商業的排除

Distinguishing Commercial from Editorial Content in News ( http://arxiv.org/abs/2111.03916v1 )

ライセンス: Link先を確認
Timo Kats, Peter van der Putten and Jasper Schelling(参考訳) 広告とニュースの編集コンテンツ、具体的には広告記事と通常のニュース記事とを区別するにはどうすればいいのか? 副詞(advertorial)は、記事として書かれ、フォーマットされた商業的メッセージであり、読者がこれを広告として認識することが困難である。 本研究の目的は,機械学習モデルとそれに由来する語彙を用いて両者を区別することである。 これは4つの異なるオランダのニュースソースから10000の記事と10000の副詞を抽出し、テキストの特徴に基づいて分類することで達成された。 このセットアップで、最も成功した機械学習モデルは、90\%$という精度でした。 ニュースと副詞の相違に関するさらなる知見を得るため,モデル係数を解析し,共起ネットワークとt-SNEグラフを用いてコーパスを探索した。

How can we distinguish commercial from editorial content in news, or more specifically, differentiate between advertorials and regular news articles? An advertorial is a commercial message written and formatted as an article, making it harder for readers to recognize these as advertising, despite the use of disclaimers. In our research we aim to differentiate the two using a machine learning model, and a lexicon derived from it. This was accomplished by scraping 1.000 articles and 1.000 advertorials from four different Dutch news sources and classifying these based on textual features. With this setup our most successful machine learning model had an accuracy of just over $90\%$. To generate additional insights into differences between news and advertorial language, we also analyzed model coefficients and explored the corpus through co-occurrence networks and t-SNE graphs.
翻訳日:2021-11-09 15:26:51 公開日:2021-11-06
# 次の10億人のユーザーのためのasrシステムの構築に向けて

Towards Building ASR Systems for the Next Billion Users ( http://arxiv.org/abs/2111.03945v1 )

ライセンス: Link先を確認
Tahir Javed, Sumanth Doddapaneni, Abhigyan Raman, Kaushal Santosh Bhogale, Gowtham Ramesh, Anoop Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra(参考訳) 音声・言語技術における最近の手法は、特定のタスクのために微調整された非常にLARGEモデルを事前訓練している。 しかしながら、そのようなLARGEモデルの利点は、しばしば世界中のいくつかのリソースリッチ言語に限られる。 本研究では,インド亜大陸からの低資源言語のためのASRシステム構築に複数の貢献を行う。 まず、教育、ニュース、テクノロジー、ファイナンスなど、さまざまなドメインから40のインドの言語で17,000時間の生音声データを収集します。 第二に、この生の音声データを用いて、40のインドの言語に対する様々なwav2vecスタイルモデルを事前訓練する。 第三に、事前訓練されたモデルを分析して、重要な特徴を見出す: 類似の音素のコードブックベクトルは言語間で共有され、層をまたいだ表現は言語族を識別し、注意は小さなローカルウィンドウ内でしばしば注意を払う。 第4に、このモデルを9言語で下流ASRに微調整し、シンハラやネパールのような非常に低リソースの言語を含む3つの公開データセットで最先端の結果を得る。 本研究は,インド亜大陸の言語学的に多様な話者を対象に,多言語事前学習がASRシステム構築の効果的な戦略であることを示す。

Recent methods in speech and language technology pretrain very LARGE models which are fine-tuned for specific tasks. However, the benefits of such LARGE models are often limited to a few resource rich languages of the world. In this work, we make multiple contributions towards building ASR systems for low resource languages from the Indian subcontinent. First, we curate 17,000 hours of raw speech data for 40 Indian languages from a wide variety of domains including education, news, technology, and finance. Second, using this raw speech data we pretrain several variants of wav2vec style models for 40 Indian languages. Third, we analyze the pretrained models to find key features: codebook vectors of similar sounding phonemes are shared across languages, representations across layers are discriminative of the language family, and attention heads often pay attention within small local windows. Fourth, we fine-tune this model for downstream ASR for 9 languages and obtain state-of-the-art results on 3 public datasets, including on very low-resource languages such as Sinhala and Nepali. Our work establishes that multilingual pretraining is an effective strategy for building ASR systems for the linguistically diverse speakers of the Indian subcontinent.
翻訳日:2021-11-09 15:25:58 公開日:2021-11-06
# Deep Neyman-Scottプロセス

Deep Neyman-Scott Processes ( http://arxiv.org/abs/2111.03949v1 )

ライセンス: Link先を確認
Chengkuan Hong, Christian R. Shelton(参考訳) Neyman-Scottプロセスは、Coxプロセスの特別なケースである。 潜在および観測可能な確率過程はどちらもポアソン過程である。 本稿では,ネットワーク構築コンポーネントがすべてPoissonプロセスであるNeyman-Scottプロセスについて考察する。 我々はマルコフ連鎖モンテカルロによる効率的な後方サンプリングを開発し、確率に基づく推論に利用する。 本手法は,高度階層的プロセスにおける推論の余地を開放する。 実験では、より隠れたpoissonプロセスが、適度に適合するパフォーマンスとイベントタイプ予測をもたらすことを示した。 また,本手法を時間的実世界データセットの最先端モデルと比較し,より少ないパラメータを用いて,データフィッティングと予測の両方における競合能力を示す。

A Neyman-Scott process is a special case of a Cox process. The latent and observable stochastic processes are both Poisson processes. We consider a deep Neyman-Scott process in this paper, for which the building components of a network are all Poisson processes. We develop an efficient posterior sampling via Markov chain Monte Carlo and use it for likelihood-based inference. Our method opens up room for the inference in sophisticated hierarchical point processes. We show in the experiments that more hidden Poisson processes brings better performance for likelihood fitting and events types prediction. We also compare our method with state-of-the-art models for temporal real-world datasets and demonstrate competitive abilities for both data fitting and prediction, using far fewer parameters.
翻訳日:2021-11-09 15:02:58 公開日:2021-11-06
# スペクトル解析による深層ニューラルネットワークの層間寄与の理解

Understanding Layer-wise Contributions in Deep Neural Networks through Spectral Analysis ( http://arxiv.org/abs/2111.03972v1 )

ライセンス: Link先を確認
Yatin Dandi, Arthur Jacot(参考訳) スペクトル分析は強力なツールであり、任意の機能をより単純な部分に分解する。 機械学習において、マーサーの定理はこのアイデアを一般化し、任意のカーネルと入力分布に周波数を増加させる関数の自然な基底を与える。 最近では、Neural Tangent Kernelのフレームワークを通じて、この分析をディープニューラルネットワークに拡張している研究もいくつかある。 本研究では,ディープニューラルネットワークの層別スペクトルバイアスを解析し,与えられた対象関数の一般化誤差の低減に寄与する異なる層との関連性について述べる。 ハーマイト多項式と球面調和の性質を利用して、初期層が単位球面上で定義される高周波関数に対してより大きなバイアスを示すことを証明した。 さらに,深層ニューラルネットワークのための高次元データセットにおいて,理論を検証する実験結果を提供する。

Spectral analysis is a powerful tool, decomposing any function into simpler parts. In machine learning, Mercer's theorem generalizes this idea, providing for any kernel and input distribution a natural basis of functions of increasing frequency. More recently, several works have extended this analysis to deep neural networks through the framework of Neural Tangent Kernel. In this work, we analyze the layer-wise spectral bias of Deep Neural Networks and relate it to the contributions of different layers in the reduction of generalization error for a given target function. We utilize the properties of Hermite polynomials and spherical harmonics to prove that initial layers exhibit a larger bias towards high-frequency functions defined on the unit sphere. We further provide empirical results validating our theory in high dimensional datasets for Deep Neural Networks.
翻訳日:2021-11-09 15:02:46 公開日:2021-11-06
# 画像定規を用いたMRIのアーチファクトとコンテンツ固有の品質評価

Artifact- and content-specific quality assessment for MRI with image rulers ( http://arxiv.org/abs/2111.03780v1 )

ライセンス: Link先を確認
Ke Lei, John M. Pauly, Shreyas S. Vasanawala(参考訳) 臨床では、MRI画像はスキャン後ずっと後に放射線医によって最初に見られることが多い。 画像の品質が不十分な場合、患者は追加のスキャンのために戻らなければならない。 画像品質自動評価(IQA)は、リアルタイムの修復を可能にする。 既存のMRI用のIQA処理は、一般的な品質スコアのみを与え、原因に依存せず、低品質スキャンの解決策を提供する。 さらに、放射線医の画像品質要件は、スキャンタイプと診断タスクによって異なる。 したがって、同じスコアは異なるスキャンに対して異なる意味を持つかもしれない。 キャリブレーションされたラベルで訓練し,画像定規で推測するマルチタスクCNNモデルを用いたフレームワークを提案する。 人間の入力によって調整されたラベルは、明確に定義された効率的なラベル付けタスクに従う。 画像定規は、様々な品質基準に対処し、CNNから生のスコアを解釈する具体的な方法を提供する。 このモデルは、MRIで最も一般的な2つのアーティファクト(ノイズとモーション)の評価をサポートする。 従来の手法よりも約90%, 6%, 騒音評価の専門家より3%, 精度は90%程度向上した。 実験の結果,ラベルキャリブレーション,画像定規,マルチタスクトレーニングにより,モデルの性能と一般化性が向上した。

In clinical practice MR images are often first seen by radiologists long after the scan. If image quality is inadequate either patients have to return for an additional scan, or a suboptimal interpretation is rendered. An automatic image quality assessment (IQA) would enable real-time remediation. Existing IQA works for MRI give only a general quality score, agnostic to the cause of and solution to low-quality scans. Furthermore, radiologists' image quality requirements vary with the scan type and diagnostic task. Therefore, the same score may have different implications for different scans. We propose a framework with multi-task CNN model trained with calibrated labels and inferenced with image rulers. Labels calibrated by human inputs follow a well-defined and efficient labeling task. Image rulers address varying quality standards and provide a concrete way of interpreting raw scores from the CNN. The model supports assessments of two of the most common artifacts in MRI: noise and motion. It achieves accuracies of around 90%, 6% better than the best previous method examined, and 3% better than human experts on noise assessment. Our experiments show that label calibration, image rulers, and multi-task training improve the model's performance and generalizability.
翻訳日:2021-11-09 14:57:16 公開日:2021-11-06
# 深層学習を用いた微生物コロニーデータセットの作成

Generation of microbial colonies dataset with deep learning style transfer ( http://arxiv.org/abs/2111.03789v1 )

ライセンス: Link先を確認
Jaros{\l}aw Paw{\l}owski, Sylwia Majchrowska, and Tomasz Golan(参考訳) 深層学習モデルの学習に使用できるペトリ皿の微生物画像の合成データセットを作成するための効果的な戦略を提案する。 開発したジェネレータは、従来のコンピュータビジョンアルゴリズムと、データ拡張のためのニューラルスタイル転送法を併用する。 本手法は,5種類の異なる微生物種を局在化,分節化,分類できるニューラルネットワークモデルのトレーニングに使用できる,現実的な画像のデータセットを合成することができることを示す。 本手法では,実画像の大規模な集合をアノテーションで収集しラベル付けするよりも,有用なデータセットを得るためのリソースが大幅に少ない。 実画像100枚から始めて、同じ検出器に匹敵する結果を達成するが、実際の数十倍のデータセットでトレーニングされる検出器を訓練するためのデータを生成することができる。 微生物検出とセグメンテーションにおけるこの手法の有用性を実証するが、汎用的で柔軟性があり、科学や産業の他の分野にも応用できると期待する。

We introduce an effective strategy to generate a synthetic dataset of microbiological images of Petri dishes that can be used to train deep learning models. The developed generator employs traditional computer vision algorithms together with a neural style transfer method for data augmentation. We show that the method is able to synthesize a dataset of realistic looking images that can be used to train a neural network model capable of localising, segmenting, and classifying five different microbial species. Our method requires significantly fewer resources to obtain a useful dataset than collecting and labeling a whole large set of real images with annotations. We show that starting with only 100 real images, we can generate data to train a detector that achieves comparable results to the same detector but trained on a real, several dozen times bigger dataset. We prove the usefulness of the method in microbe detection and segmentation, but we expect that it is general and flexible and can also be applicable in other domains of science and industry to detect various objects.
翻訳日:2021-11-09 14:56:59 公開日:2021-11-06
# アクティブな名前付きエンティティラベル獲得における名前付きエンティティの重視

Focusing on Possible Named Entities in Active Named Entity Label Acquisition ( http://arxiv.org/abs/2111.03837v1 )

ライセンス: Link先を確認
Ali Osman Berk Sapci, Oznur Tastan, Reyyan Yeniterzi(参考訳) 名前付きエンティティ認識(ner)は、非構造化テキスト内の名前付きエンティティの参照を識別し、事前に定義された名前付きエンティティクラスに分類することを目的としている。 ディープラーニングに基づく事前学習言語モデルは優れた予測性能を達成するが、多くのドメイン固有のNERtaskは十分なラベル付きデータを必要とする。 ラベル獲得問題の一般的なフレームワークであるactive learning(al)は、モデルのパフォーマンスを犠牲にすることなくアノテーションコストを最小化するためにnerタスクに使用されている。 しかし,トークンの非バランスなクラス分布は,NERの効果的なALクエリ手法を設計する上での課題をもたらす。 本稿では,可能な正のトークンに注意を払うal文問合せ評価関数を提案し,これらの関数を文単位とトークン単位の両方のコスト評価戦略で評価する。 また,長文や短文をペナライズするためのデータ駆動正規化手法も提案する。 異なる領域からの3つのデータセットに対する実験により,提案手法はアノテーション付きトークンの数を減らし,従来の手法による予測性能を向上する。

Named entity recognition (NER) aims to identify mentions of named entities in an unstructured text and classify them into the predefined named entity classes. Even though deep learning-based pre-trained language models achieve good predictive performances, many domain-specific NERtasks still require a sufficient amount of labeled data. Active learning (AL), a general framework for the label acquisition problem, has been used for the NER tasks to minimize the annotation cost without sacrificing model performance. However, heavily imbalanced class distribution of tokens introduces challenges in designing effective AL querying methods for NER. We propose AL sentence query evaluation functions which pay more attention to possible positive tokens, and evaluate these proposed functions with both sentence-based and token-based cost evaluation strategies. We also propose a better data-driven normalization approach to penalize too long or too short sentences. Our experiments on three datasets from different domains reveal that the proposed approaches reduce the number of annotated tokens while achieving better or comparable prediction performance with conventional methods.
翻訳日:2021-11-09 14:56:12 公開日:2021-11-06
# ポリシー勾配法における時間離散化不変セーフアクション反復

Time Discretization-Invar iant Safe Action Repetition for Policy Gradient Methods ( http://arxiv.org/abs/2111.03941v1 )

ライセンス: Link先を確認
Seohong Park, Jaekyeom Kim, Gunhee Kim(参考訳) 強化学習では、連続時間はしばしば時間スケール$\delta$で識別され、その結果のパフォーマンスは極めて敏感であることが知られている。 本研究では,$\delta$の値によらずよく機能する政策勾配法(pg法)に対して,$\delta$-invariantアルゴリズムを求める。 まず、PG法が失敗する原因を$\delta \to 0$と同定し、ある確率性の仮定の下でPG推定子の分散が確率環境における無限大に発散できることを証明した。 デュラティブなアクションやアクションの繰り返しは$\delta$-invarianceを持つために使われるが、従来のアクションの反復法は確率的環境における予期せぬ状況に即座に反応することができない。 そこで我々は,既存のPGアルゴリズムに適用可能な新しい$\delta$-invariantメソッドであるSafe Action Repetition (SAR)を提案する。 SARは行動反復中の状態の変化に適応的に反応することで環境の確率性を扱うことができる。 我々は経験的に、この手法は$\delta$-invariant であるだけでなく、確率性にも頑健であることを示し、8つのmujoco環境におけるこれまでの$\delta$-invariant アプローチよりも優れていることを示した。 私たちのコードはhttps://vision.snu.a c.kr/projects/sarで利用可能です。

In reinforcement learning, continuous time is often discretized by a time scale $\delta$, to which the resulting performance is known to be highly sensitive. In this work, we seek to find a $\delta$-invariant algorithm for policy gradient (PG) methods, which performs well regardless of the value of $\delta$. We first identify the underlying reasons that cause PG methods to fail as $\delta \to 0$, proving that the variance of the PG estimator can diverge to infinity in stochastic environments under a certain assumption of stochasticity. While durative actions or action repetition can be employed to have $\delta$-invariance, previous action repetition methods cannot immediately react to unexpected situations in stochastic environments. We thus propose a novel $\delta$-invariant method named Safe Action Repetition (SAR) applicable to any existing PG algorithm. SAR can handle the stochasticity of environments by adaptively reacting to changes in states during action repetition. We empirically show that our method is not only $\delta$-invariant but also robust to stochasticity, outperforming previous $\delta$-invariant approaches on eight MuJoCo environments with both deterministic and stochastic settings. Our code is available at https://vision.snu.a c.kr/projects/sar.
翻訳日:2021-11-09 14:55:55 公開日:2021-11-06
# 非定常線形力学系の制御のための動的後悔最小化

Dynamic Regret Minimization for Control of Non-stationary Linear Dynamical Systems ( http://arxiv.org/abs/2111.03772v1 )

ライセンス: Link先を確認
Yuwei Luo, Varun Gupta, Mladen Kolar(参考訳) 固定的かつ既知のコスト行列が$Q,R$であるが、未知かつ非定常なダイナミクスが$\{A_t, B_t\}$である有限地平線上の線形二次レギュレータ(LQR)システムを制御する問題を考える。 ダイナミクス行列の列は任意であるが、全体の変動値である$v_t$ は、コントローラに$o(t)$と仮定され、未知である。 安定化されるが、潜在的に最適でないコントローラが全ての$t$で利用できるという仮定の下で、$\tilde{\mathcal{O}}\left(V_T^{2/5}T^{3/5}\right)$の最適動的後悔を達成するアルゴリズムを提案する。 分割的な定数ダイナミクスでは、アルゴリズムは$s$がスイッチ数である$\tilde{\mathcal{o}}(\sqrt{st})$の最適後悔を達成する。 本アルゴリズムの要点は適応的非定常検出戦略であり,最近開発されたコンテキスト多重武装バンドイット問題に対するアプローチに基づいている。 また、ウィンドウサイズが$V_T$の知識で最適に調整された場合でも、非適応的(例えば、静的ウィンドウサイズでスライディングウインドウ学習を再開または使用)はLQR問題に最適ではないと主張している。 アルゴリズム解析における主な技術的課題は、推定されるパラメータが非定常である場合に、通常の最小二乗推定器が小さなバイアスを持つことを示すことである。 我々の分析は、LQR問題は線形フィードバックと局所的な二次的コストのバンドイット問題である、という後悔の動機も強調している。 このモチーフはlqr問題自体よりも普遍的であり、結果がより広く応用されるべきであると考えています。

We consider the problem of controlling a Linear Quadratic Regulator (LQR) system over a finite horizon $T$ with fixed and known cost matrices $Q,R$, but unknown and non-stationary dynamics $\{A_t, B_t\}$. The sequence of dynamics matrices can be arbitrary, but with a total variation, $V_T$, assumed to be $o(T)$ and unknown to the controller. Under the assumption that a sequence of stabilizing, but potentially sub-optimal controllers is available for all $t$, we present an algorithm that achieves the optimal dynamic regret of $\tilde{\mathcal{O}}\left(V_T^{2/5}T^{3/5}\right)$. With piece-wise constant dynamics, our algorithm achieves the optimal regret of $\tilde{\mathcal{O}}(\sqrt{ST})$ where $S$ is the number of switches. The crux of our algorithm is an adaptive non-stationarity detection strategy, which builds on an approach recently developed for contextual Multi-armed Bandit problems. We also argue that non-adaptive forgetting (e.g., restarting or using sliding window learning with a static window size) may not be regret optimal for the LQR problem, even when the window size is optimally tuned with the knowledge of $V_T$. The main technical challenge in the analysis of our algorithm is to prove that the ordinary least squares (OLS) estimator has a small bias when the parameter to be estimated is non-stationary. Our analysis also highlights that the key motif driving the regret is that the LQR problem is in spirit a bandit problem with linear feedback and locally quadratic cost. This motif is more universal than the LQR problem itself, and therefore we believe our results should find wider application.
翻訳日:2021-11-09 14:53:13 公開日:2021-11-06
# AGGLIO: 局所凸関数のグローバル最適化

AGGLIO: Global Optimization for Locally Convex Functions ( http://arxiv.org/abs/2111.03932v1 )

ライセンス: Link先を確認
Debojyoti Dey and Bhaskar Mukhoty and Purushottam Kar(参考訳) 本稿では,局所凸性のみを提供し,グローバルスケールで準凸であるような非凸最適化問題に対して,大域収束保証を提供する段階的,漸進的な最適化手法 AGGLIO (Accelerated Graduated Generalized LInear-model Optimization) を提案する。 特に、Sigmoid、Softplus、SiLUといった一般的なアクティベーション機能を利用して非凸トレーニング目標を達成する学習問題が含まれる。 agglioはpointとmini-batch sgdアップデートを使って簡単に実装でき、一般的な条件でグローバルに最適な収束を提供する。 実験では、AGGLIOは収束率および収束精度の観点から、非凸および局所凸目標に対する最近提案された最適化手法よりも優れていた。 AGGLIOは一般化された線形モデルの卒業法と、それぞれが独立した興味を持つであろう新しい証明戦略に依存している。

This paper presents AGGLIO (Accelerated Graduated Generalized LInear-model Optimization), a stage-wise, graduated optimization technique that offers global convergence guarantees for non-convex optimization problems whose objectives offer only local convexity and may fail to be even quasi-convex at a global scale. In particular, this includes learning problems that utilize popular activation functions such as sigmoid, softplus and SiLU that yield non-convex training objectives. AGGLIO can be readily implemented using point as well as mini-batch SGD updates and offers provable convergence to the global optimum in general conditions. In experiments, AGGLIO outperformed several recently proposed optimization techniques for non-convex and locally convex objectives in terms of convergence rate as well as convergent accuracy. AGGLIO relies on a graduation technique for generalized linear models, as well as a novel proof strategy, both of which may be of independent interest.
翻訳日:2021-11-09 14:52:39 公開日:2021-11-06
# リレーショナルラーニングのためのプロビットテンソル因子化モデル

A Probit Tensor Factorization Model For Relational Learning ( http://arxiv.org/abs/2111.03943v1 )

ライセンス: Link先を確認
Ye Liu, Rui Song, Wenbin Lu(参考訳) 知識グラフの普及に伴い、複雑な多元関係構造を持つデータモデリングが統計関係学習の分野で注目を集めている。 統計的関係性学習の最も重要な目標の1つは、リンク予測(すなわち、知識グラフに特定の関係が存在するかどうかの予測)である。 リンク予測を行うために多くのモデルやアルゴリズムが提案されており、計算効率と予測精度の観点からテンソル分解法が最先端の性能を達成することが証明されている。 しかし、既存のテンソル因子化モデルの一般的な欠点は、欠落関係と非現存関係が同じように扱われ、情報を失うことである。 この問題に対処するために,従来のテンソル因子化モデルから計算効率を継承するだけでなく,関係データのバイナリ性も考慮する,プロビットリンク付きバイナリテンソル因子化モデルを提案する。 提案したプロビットテンソル分解(PTF)モデルは,予測精度と解釈可能性の両方の利点を示す。

With the proliferation of knowledge graphs, modeling data with complex multirelational structure has gained increasing attention in the area of statistical relational learning. One of the most important goals of statistical relational learning is link prediction, i.e., predicting whether certain relations exist in the knowledge graph. A large number of models and algorithms have been proposed to perform link prediction, among which tensor factorization method has proven to achieve state-of-the-art performance in terms of computation efficiency and prediction accuracy. However, a common drawback of the existing tensor factorization models is that the missing relations and non-existing relations are treated in the same way, which results in a loss of information. To address this issue, we propose a binary tensor factorization model with probit link, which not only inherits the computation efficiency from the classic tensor factorization model but also accounts for the binary nature of relational data. Our proposed probit tensor factorization (PTF) model shows advantages in both the prediction accuracy and interpretability
翻訳日:2021-11-09 14:52:22 公開日:2021-11-06
# リスク感応強化学習における指数的ベルマン方程式と後悔限界の改善

Exponential Bellman Equation and Improved Regret Bounds for Risk-Sensitive Reinforcement Learning ( http://arxiv.org/abs/2111.03947v1 )

ライセンス: Link先を確認
Yingjie Fei, Zhuoran Yang, Yudong Chen, Zhaoran Wang(参考訳) エントロピーリスク尺度に基づいてリスク感応性強化学習(RL)について検討した。 既存の作品では、この問題に対する非漸近的後悔の保証を確立しているが、上界と下界の間の指数関数的なギャップを開放している。 我々は、既存のアルゴリズムの欠陥と、そのようなギャップをもたらすそれらの分析を識別する。 これらの欠陥を補うために、指数ベルマン方程式と呼ばれるリスク感受性ベルマン方程式の簡単な変換について検討する。 指数関数的ベルマン方程式は、リスクに敏感なrlアルゴリズムにおけるベルマンバックアップ手順の新しい解析を開発し、さらに新しい探索機構の設計を動機付ける。 これらの分析的およびアルゴリズム的革新が組み合わさって、既存のものに対する後悔の上限を改善できることを示す。

We study risk-sensitive reinforcement learning (RL) based on the entropic risk measure. Although existing works have established non-asymptotic regret guarantees for this problem, they leave open an exponential gap between the upper and lower bounds. We identify the deficiencies in existing algorithms and their analysis that result in such a gap. To remedy these deficiencies, we investigate a simple transformation of the risk-sensitive Bellman equations, which we call the exponential Bellman equation. The exponential Bellman equation inspires us to develop a novel analysis of Bellman backup procedures in risk-sensitive RL algorithms, and further motivates the design of a novel exploration mechanism. We show that these analytic and algorithmic innovations together lead to improved regret upper bounds over existing ones.
翻訳日:2021-11-09 14:52:07 公開日:2021-11-06
# TND-NAS:進歩的微分可能なNASフレームワークにおける非微分可能な目的に向けて

TND-NAS: Towards Non-differentiable Objectives in Progressive Differentiable NAS Framework ( http://arxiv.org/abs/2111.03892v1 )

ライセンス: Link先を確認
Bo Lyu, Shiping Wen, Zheng Yan, Kaibo Shi, Ke Li, Tingwen Huang(参考訳) 差別化可能なアーキテクチャ検索は、初期のnas(eaベース、rlベース)法と比較して効率性を向上させる能力から、ニューラルネットワーク検索(nas)の分野で徐々に主流となっている。 最近の差別化可能なNASは、検索効率の向上、GPUメモリ消費の削減、"深みのギャップ"問題への対処も目標としている。 しかし、これらの手法は、例えば性能、堅牢性、効率、その他の指標など、微分不可能な目的に対処することができない。 本稿では,多目的nas (multi-objective nas) における非微分可能メトリクス間の高い効率性と非微分可能メトリクス間の互換性というメリットを生かした,非微分可能目的のためのエンドツーエンドアーキテクチャ探索フレームワークtnd-nasを提案する。 微分可能なNASフレームワークの下では、探索空間の連続的な緩和により、TND-NASは離散空間で最適化されたアーキテクチャパラメータ($\alpha$)を持つ一方で、スーパーネットワークを$\alpha$で徐々に縮小する検索ポリシーを利用する。 例えば、cifar10 (1.09m/3.3%, 2.4m/2.95%, 9.57m/2.54%) と cifar100 (2.46m/18.3%, 5.46/16.73%, 12.88/15.20%) のデータセット上で、高性能なコンパクトアーキテクチャを実現する。 好ましくは、現実のシナリオ(リソース制限、プラットフォーム特化)では、pareto-optimalソリューションはtnd-nasによって便利に到達できる。

Differentiable architecture search has gradually become the mainstream research topic in the field of Neural Architecture Search (NAS) for its capability to improve efficiency compared with the early NAS (EA-based, RL-based) methods. Recent differentiable NAS also aims at further improving search efficiency, reducing the GPU-memory consumption, and addressing the "depth gap" issue. However, these methods are no longer capable of tackling the non-differentiable objectives, let alone multi-objectives, e.g., performance, robustness, efficiency, and other metrics. We propose an end-to-end architecture search framework towards non-differentiable objectives, TND-NAS, with the merits of the high efficiency in differentiable NAS framework and the compatibility among non-differentiable metrics in Multi-objective NAS (MNAS). Under differentiable NAS framework, with the continuous relaxation of the search space, TND-NAS has the architecture parameters ($\alpha$) been optimized in discrete space, while resorting to the search policy of progressively shrinking the supernetwork by $\alpha$. Our representative experiment takes two objectives (Parameters, Accuracy) as an example, we achieve a series of high-performance compact architectures on CIFAR10 (1.09M/3.3%, 2.4M/2.95%, 9.57M/2.54%) and CIFAR100 (2.46M/18.3%, 5.46/16.73%, 12.88/15.20%) datasets. Favorably, under real-world scenarios (resource-constraine d, platform-specialized ), the Pareto-optimal solutions can be conveniently reached by TND-NAS.
翻訳日:2021-11-09 14:24:15 公開日:2021-11-06
# マルチドメインチャットボットアーキテクチャにおけるメモリとパフォーマンスの利益のトレードオフ

Profitable Trade-Off Between Memory and Performance In Multi-Domain Chatbot Architectures ( http://arxiv.org/abs/2111.03963v1 )

ライセンス: Link先を確認
D Emre Tasar, Sukru Ozan, M Fatih Akca, Oguzhan Olmez, Semih Gulum, Secilay Kutay, Ceren Belhan(参考訳) テキスト分類問題は自然言語処理の分野で非常に広い分野の研究である。 要するに、テキスト分類問題は、与えられたテキストがどのクラスに属するかを決定することである。 この分野では過去の研究で成功した研究が行われている。 本研究では,自然言語処理分野における分類問題の解法としてよく好まれる変換器の双方向エンコーダ表現(BERT)を用いる。 チャットボットアーキテクチャで使用する単一モデルによる分類問題の解決により、複数の分類問題を解決するために使用される複数のモデルによって生成されるサーバの負荷を軽減することが目的である。 この時点では,複数の被験者の分類のために作成された単一のbertモデルの推定中にマスキング法を適用し,問題ベースでモデルの推定を行った。 異なるフィールドを互いにカバーする3つのデータセットを、問題を複雑にするために様々な方法で分割し、フィールドの観点から互いに非常に近い分類問題もこれに含まれる。 この方法で使用されるデータセットは、154クラスの5つの分類問題からなる。 これらの問題に特化して訓練された全ての分類問題と他のBERTモデルを含むBERTモデルは、サーバ上で占有した性能と空間の観点から比較した。

Text classification problem is a very broad field of study in the field of natural language processing. In short, the text classification problem is to determine which of the previously determined classes the given text belongs to. Successful studies have been carried out in this field in the past studies. In the study, Bidirectional Encoder Representations for Transformers (BERT), which is a frequently preferred method for solving the classification problem in the field of natural language processing, is used. By solving classification problems through a single model to be used in a chatbot architecture, it is aimed to alleviate the load on the server that will be created by more than one model used for solving more than one classification problem. At this point, with the masking method applied during the estimation of a single BERT model, which was created for classification in more than one subject, the estimation of the model was provided on a problem-based basis. Three separate data sets covering different fields from each other are divided by various methods in order to complicate the problem, and classification problems that are very close to each other in terms of field are also included in this way. The dataset used in this way consists of five classification problems with 154 classes. A BERT model containing all classification problems and other BERT models trained specifically for the problems were compared with each other in terms of performance and the space they occupied on the server.
翻訳日:2021-11-09 14:11:46 公開日:2021-11-06
# ハイパーパラメータに敏感な拡張は何か?

What augmentations are sensitive to hyper-parameters and why? ( http://arxiv.org/abs/2111.03861v1 )

ライセンス: Link先を確認
Ch Muhammad Awais and Imad Eddine Ibrahim Bekkouch(参考訳) データセットに拡張を適用して予測の質を高め、最終的なモデルがノイズの多いデータやドメインのドリフトに対してより回復力のあるものにします。 しかし、疑問は残る。これらの拡張は、異なるハイパーパラメータでどのように機能するのか? 本研究では,機械学習モデルに適用した場合のハイパーパラメータの影響に対する局所サロゲート(LIME)解釈を行うことにより,モデルのハイパーパラメータに対する拡張の感度と一貫性および影響を評価する。 我々は,各加重を重み付けするために線形回帰係数を用いた。 我々の研究は、ハイパーパラメータに非常に敏感な拡張や、よりレジリエンスで信頼性の高い拡張があることを証明した。

We apply augmentations to our dataset to enhance the quality of our predictions and make our final models more resilient to noisy data and domain drifts. Yet the question remains, how are these augmentations going to perform with different hyper-parameters? In this study we evaluate the sensitivity of augmentations with regards to the model's hyper parameters along with their consistency and influence by performing a Local Surrogate (LIME) interpretation on the impact of hyper-parameters when different augmentations are applied to a machine learning model. We have utilized Linear regression coefficients for weighing each augmentation. Our research has proved that there are some augmentations which are highly sensitive to hyper-parameters and others which are more resilient and reliable.
翻訳日:2021-11-09 13:46:48 公開日:2021-11-06
# マルチタスク政策最適化におけるデフォルトポリシーの理解に向けて

Towards an Understanding of Default Policies in Multitask Policy Optimization ( http://arxiv.org/abs/2111.02994v2 )

ライセンス: Link先を確認
Ted Moskovitz, Michael Arbel, Jack Parker-Holder, Aldo Pacchiano(参考訳) 近年の深層強化学習の成功の多くは、複数の領域にわたる強力なパフォーマンスを持つ正規化ポリシ最適化(RPO)アルゴリズムによって推進されている。 この方法では、エージェントは累積報酬を最大にするために訓練され、ある参照やデフォルトポリシーから行動の偏差を罰する。 実証的な成功に加えて、自然勾配、信頼領域、変分的アプローチに結びつく単一のタスクに適用されるRPO法を理解するための強力な理論的基盤が存在する。 しかしながら、フィールドがより一般的な有能なエージェントのトレーニングにシフトするにつれて、ますます重要なドメインであるマルチタスク設定において、デフォルトポリシーの望ましいプロパティに関する形式的な理解は限られている。 ここでは、デフォルトポリシーの品質と最適化の効果を正式にリンクすることで、このギャップを埋める第一歩を踏み出します。 これらの結果を用いて,性能保証の強いマルチタスク学習のためのrpoアルゴリズムを導出する。

Much of the recent success of deep reinforcement learning has been driven by regularized policy optimization (RPO) algorithms, with strong performance across multiple domains. In this family of methods, agents are trained to maximize cumulative reward while penalizing deviation in behavior from some reference, or default policy. In addition to empirical success, there is a strong theoretical foundation for understanding RPO methods applied to single tasks, with connections to natural gradient, trust region, and variational approaches. However, there is limited formal understanding of desirable properties for default policies in the multitask setting, an increasingly important domain as the field shifts towards training more generally capable agents. Here, we take a first step towards filling this gap by formally linking the quality of the default policy to its effect on optimization. Using these results, we then derive a principled RPO algorithm for multitask learning with strong performance guarantees.
翻訳日:2021-11-09 12:07:55 公開日:2021-11-06