このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211107となっている論文です。

PDF登録状況(公開日: 20211107)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) FinRL:量的金融における取引を自動化する深層強化学習フレームワーク [全文訳有]

FinRL: Deep Reinforcement Learning Framework to Automate Trading in Quantitative Finance ( http://arxiv.org/abs/2111.09395v1 )

ライセンス: CC BY 4.0
Xiao-Yang Liu and Hongyang Yang and Jiechao Gao and Christina Dan Wang(参考訳) 深層強化学習(DRL)は、量的ファイナンスにおいて競争力を持つと想定されている。 しかし、量的トレーダーにとって、市場で勝つために自動的に位置決めするエージェント、すなわち、エラーを起こしやすいプログラミングと激しいデバッグのために、どの価格で取引するかを決めるための \textit{to decide where to trade} と \textit{what quantity} を得るための急な開発曲線がある。 本稿では,最初のオープンソースフレームワークである \textit{finrl} を,量的トレーダーが急な学習曲線を克服するための完全なパイプラインとして提示する。 finrlは、主な原則である \textit{full-stack framework, customization, reproducibility} と \textit{hands-on tutoring} の下で、シンプルさ、適用性、拡張性を備えている。 FinRLはモジュール構造を持つ3層アーキテクチャとして実装されており、デバッグワークロードを緩和しつつ、細調整された最先端DRLアルゴリズムと一般的な報酬関数を実装している。 このように、我々はユーザーが高いターンオーバーレートで戦略設計をパイプライン化するのを手助けします。 さまざまなレベルの時間的粒度において、FinRLは、履歴データとライブトレーディングAPIを使用したトレーニング環境として、さまざまな市場をシミュレートする。 拡張性が高いため、finrlはユーザー-輸入インターフェースのセットを予約し、市場の摩擦、市場の流動性、投資家のリスク回避といった取引制約を取り入れた。 さらに、実践者の足場として、株価取引、ポートフォリオアロケーション、暗号通貨取引など、典型的な取引タスクをステップバイステップのチュートリアルとして提供する。

Deep reinforcement learning (DRL) has been envisioned to have a competitive edge in quantitative finance. However, there is a steep development curve for quantitative traders to obtain an agent that automatically positions to win in the market, namely \textit{to decide where to trade, at what price} and \textit{what quantity}, due to the error-prone programming and arduous debugging. In this paper, we present the first open-source framework \textit{FinRL} as a full pipeline to help quantitative traders overcome the steep learning curve. FinRL is featured with simplicity, applicability and extensibility under the key principles, \textit{full-stack framework, customization, reproducibility} and \textit{hands-on tutoring}. Embodied as a three-layer architecture with modular structures, FinRL implements fine-tuned state-of-the-art DRL algorithms and common reward functions, while alleviating the debugging workloads. Thus, we help users pipeline the strategy design at a high turnover rate. At multiple levels of time granularity, FinRL simulates various markets as training environments using historical data and live trading APIs. Being highly extensible, FinRL reserves a set of user-import interfaces and incorporates trading constraints such as market friction, market liquidity and investor's risk-aversion. Moreover, serving as practitioners' stepping stones, typical trading tasks are provided as step-by-step tutorials, e.g., stock trading, portfolio allocation, cryptocurrency trading, etc.
翻訳日:2021-11-21 16:15:14 公開日:2021-11-07
# (参考訳) データ中心エンジニアリング: シミュレーション、機械学習、統計の統合。 挑戦と機会 [全文訳有]

Data-Centric Engineering: integrating simulation, machine learning and statistics. Challenges and Opportunities ( http://arxiv.org/abs/2111.06223v1 )

ライセンス: CC BY 4.0
Indranil Pan, Lachlan Mason, Omar Matar(参考訳) 機械学習の最近の進歩は、低コストの計算、安価なストリーミングセンサー、データストレージ、クラウド技術の可用性と相まって、幅広い分野の研究活動をもたらし、商業的利害関係者から大きな関心と投資を受けている。 物理方程式に基づく機械モデルと純粋データ駆動統計アプローチは、モデリングスペクトルの2つの端を表す。 新しいハイブリッドなデータ中心のエンジニアリングアプローチは、両方の世界のベストを活用し、シミュレーションとデータを統合することで、物理的な分野に変革をもたらす強力なツールとして現れています。 我々は、シミュレーション、機械学習、統計の統合という新興分野における重要な研究動向と応用シナリオを概観する。 このような統合的なビジョンが、その実現を妨げる重要な課題を解き放ち、概説する機会を強調します。 また、この分野の翻訳的側面におけるボトルネックと、既存の労働力と将来の大学卒業生の長期的なスキル向上要件についても論じる。

Recent advances in machine learning, coupled with low-cost computation, availability of cheap streaming sensors, data storage and cloud technologies, has led to widespread multi-disciplinary research activity with significant interest and investment from commercial stakeholders. Mechanistic models, based on physical equations, and purely data-driven statistical approaches represent two ends of the modelling spectrum. New hybrid, data-centric engineering approaches, leveraging the best of both worlds and integrating both simulations and data, are emerging as a powerful tool with a transformative impact on the physical disciplines. We review the key research trends and application scenarios in the emerging field of integrating simulations, machine learning, and statistics. We highlight the opportunities that such an integrated vision can unlock and outline the key challenges holding back its realisation. We also discuss the bottlenecks in the translational aspects of the field and the long-term upskilling requirements of the existing workforce and future university graduates.
翻訳日:2021-11-13 06:50:54 公開日:2021-11-07
# (参考訳) 音声生成のための感情韻律制御 [全文訳有]

Emotional Prosody Control for Speech Generation ( http://arxiv.org/abs/2111.04730v1 )

ライセンス: CC BY 4.0
Sarath Sivaprasad, Saiteja Kosgi, Vineet Gandhi(参考訳) 機械生成音声は、その限定的または不自然な感情の変化によって特徴づけられる。 現在の音声システムは、フラットな感情、予め定義されたセットから選択された感情、トレーニングデータ中の韻律シーケンスから学習された平均変化、あるいはソーススタイルから伝達された音声を生成する。 本稿では,連続的かつ有意義な感情空間(覚醒空間)から生成音声の感情を選択できるtext to speech(tts)システムを提案する。 提案するttsシステムは、感情を細かく制御しながら、任意の話者のスタイルでテキストから音声を生成することができる。 このシステムは、トレーニング中に目に見えない感情に作用し、以前の音声サンプルから見ない話者に拡張可能であることを示す。 我々の研究は、最先端のFastSpeech2バックボーンの地平線をマルチスピーカー設定に拡張し、合成音声の品質の観測可能な劣化を伴わずに、連続的な(そして解釈可能な)感情制御を可能にする。

Machine-generated speech is characterized by its limited or unnatural emotional variation. Current text to speech systems generates speech with either a flat emotion, emotion selected from a predefined set, average variation learned from prosody sequences in training data or transferred from a source style. We propose a text to speech(TTS) system, where a user can choose the emotion of generated speech from a continuous and meaningful emotion space (Arousal-Valence space). The proposed TTS system can generate speech from the text in any speaker's style, with fine control of emotion. We show that the system works on emotion unseen during training and can scale to previously unseen speakers given his/her speech sample. Our work expands the horizon of the state-of-the-art FastSpeech2 backbone to a multi-speaker setting and gives it much-coveted continuous (and interpretable) affective control, without any observable degradation in the quality of the synthesized speech.
翻訳日:2021-11-11 03:57:30 公開日:2021-11-07
# (参考訳) 英語論文における言語間共用: 有病率, 使用状況, 影響の大規模分析 [全文訳有]

Cross-Lingual Citations in English Papers: A Large-Scale Analysis of Prevalence, Usage, and Impact ( http://arxiv.org/abs/2111.05097v1 )

ライセンス: CC BY 4.0
Tarek Saier, Michael F\"arber, Tornike Tsereteli(参考訳) 学術データにおける引用情報は、出版物の受容と学術談話に関する重要な洞察源である。 引用分析の結果と引用ベースの機械学習手法の適用性は、データの完全性に大きく依存する。 学術データの特に欠点の1つは、英語以外の出版物がデータセットに含まれないことや、言語メタデータが利用できないことである。 このため、異なる言語(言語間の引用)の出版物間の引用は、非常に限られた程度にしか研究されていない。 本稿では,100万以上の英文論文に基づく言語間引用の分析を行い,3つの科学的分野と30年間の時間について述べる。 本調査では,引用言語と規律の違い,時間的傾向,使用特性,言語間引用の影響について検討した。 以上の結果から,中国語で書かれた出版物に対する引用率の上昇,現地の非英語言語への引用率,言語間および単言語による引用意図の一貫性が確認された。 さらなる研究を容易にするため,収集したデータとソースコードを公開している。

Citation information in scholarly data is an important source of insight into the reception of publications and the scholarly discourse. Outcomes of citation analyses and the applicability of citation based machine learning approaches heavily depend on the completeness of such data. One particular shortcoming of scholarly data nowadays is that non-English publications are often not included in data sets, or that language metadata is not available. Because of this, citations between publications of differing languages (cross-lingual citations) have only been studied to a very limited degree. In this paper, we present an analysis of cross-lingual citations based on over one million English papers, spanning three scientific disciplines and a time span of three decades. Our investigation covers differences between cited languages and disciplines, trends over time, and the usage characteristics as well as impact of cross-lingual citations. Among our findings are an increasing rate of citations to publications written in Chinese, citations being primarily to local non-English languages, and consistency in citation intent between cross- and monolingual citations. To facilitate further research, we make our collected data and source code publicly available.
翻訳日:2021-11-11 03:45:48 公開日:2021-11-07
# (参考訳) 住宅用非侵入負荷モニタリングにおける低サンプリング率を用いた深層学習手法 [全文訳有]

A Deep Learning Technique using Low Sampling rate for residential Non Intrusive Load Monitoring ( http://arxiv.org/abs/2111.05120v1 )

ライセンス: CC BY 4.0
Ronak Aghera, Sahil Chilana, Vishal Garg, Raghunath Reddy(参考訳) 個々のデバイス負荷とエネルギー消費フィードバックは、ユーザーが居住地でエネルギーを節約するために重要なアプローチの1つである。 これは、故障したデバイスを特定し、未使用のデバイスによってエネルギーを浪費するのに役立ちます。 主な課題は、各デバイスにセンサを侵入することなく、個々のデバイスのエネルギー消費量を識別し、見積もることである。 非侵入負荷モニタリング(non-intrusive load monitoring, nilm)は、家庭のエネルギー消費から個々の家電の電力使用量を推定するシステムを必要とするブラインドソース分離問題である。 本稿では,住宅から得られる低周波電力データに対して,負荷分散を行うディープニューラルネットワークを用いた新しい手法を提案する。 我々は,一次元畳み込みニューラルネットワークと長短記憶(Long Short Term Memory, 1D CNN-LSTM)を組み合わせて,アクティブアプライアンスを識別し,集約された家庭用電力値から消費電力を回収する特徴を抽出する。 cnnを用いて所定の時間枠内の主読点から特徴を抽出し、その特徴を用いてその期間に特定のアプライアンスがアクティブかどうかを分類した。 その後、抽出した特徴をLSTMを用いて生成問題をモデル化する。 我々はLSTMを訓練し、特定の機器の分解エネルギー消費を生成する。 当社のニューラルネットワークは、需要側の詳細なフィードバックを生成し、エンドユーザに電力消費に関する重要な洞察を提供する。 このアルゴリズムはesp32のような低消費電力オフラインデバイス向けに設計された。 実験計算により,本モデルが参照エネルギー分散データセット(REDD)の最先端性を上回っていることが示された。

Individual device loads and energy consumption feedback is one of the important approaches for pursuing users to save energy in residences. This can help in identifying faulty devices and wasted energy by devices when left On unused. The main challenge is to identity and estimate the energy consumption of individual devices without intrusive sensors on each device. Non-intrusive load monitoring (NILM) or energy disaggregation, is a blind source separation problem which requires a system to estimate the electricity usage of individual appliances from the aggregated household energy consumption. In this paper, we propose a novel deep neural network-based approach for performing load disaggregation on low frequency power data obtained from residential households. We combine a series of one-dimensional Convolutional Neural Networks and Long Short Term Memory (1D CNN-LSTM) to extract features that can identify active appliances and retrieve their power consumption given the aggregated household power value. We used CNNs to extract features from main readings in a given time frame and then used those features to classify if a given appliance is active at that time period or not. Following that, the extracted features are used to model a generation problem using LSTM. We train the LSTM to generate the disaggregated energy consumption of a particular appliance. Our neural network is capable of generating detailed feedback of demand-side, providing vital insights to the end-user about their electricity consumption. The algorithm was designed for low power offline devices such as ESP32. Empirical calculations show that our model outperforms the state-of-the-art on the Reference Energy Disaggregation Dataset (REDD).
翻訳日:2021-11-11 03:21:57 公開日:2021-11-07
# 多レベルリンク予測のための高次ジョイント埋め込み

High-order joint embedding for multi-level link prediction ( http://arxiv.org/abs/2111.05265v1 )

ライセンス: Link先を確認
Yubai Yuan and Annie Qu(参考訳) リンク予測は観測されたネットワークからの潜在的なリンクを推定し、ネットワーク分析における重要な問題の1つである。 本研究では,2方向の対関係のみを予測する従来のグラフ表現モデルとは対照的に,ペアワイドリンクとハイパーリンクを同時に符号化するテンソルベースの結合ネットワーク埋め込み手法を提案する。 提案手法の主な利点は,ノード間の対関係と部分群構造の両方を統合し,よりリッチなネットワーク情報を取得することである。 さらに,提案手法では,リンク間の階層的依存性を導入し,潜在的なハイパーリンクを推測し,リンク予測を改善する。 理論的には,提案手法に対する推定整合性を確立し,ペアワイズリンクやハイパーリンクのみを用いたリンク予測よりも高速な収束率を提供する。 シミュレーション設定とfacebook ego-networksの数値的研究から,提案手法はリンク予測アルゴリズムと比較してハイパーリンクとペアワイズリンク予測の両方の精度が向上することが示唆された。

Link prediction infers potential links from observed networks, and is one of the essential problems in network analyses. In contrast to traditional graph representation modeling which only predicts two-way pairwise relations, we propose a novel tensor-based joint network embedding approach on simultaneously encoding pairwise links and hyperlinks onto a latent space, which captures the dependency between pairwise and multi-way links in inferring potential unobserved hyperlinks. The major advantage of the proposed embedding procedure is that it incorporates both the pairwise relationships and subgroup-wise structure among nodes to capture richer network information. In addition, the proposed method introduces a hierarchical dependency among links to infer potential hyperlinks, and leads to better link prediction. In theory we establish the estimation consistency for the proposed embedding approach, and provide a faster convergence rate compared to link prediction utilizing pairwise links or hyperlinks only. Numerical studies on both simulation settings and Facebook ego-networks indicate that the proposed method improves both hyperlink and pairwise link prediction accuracy compared to existing link prediction algorithms.
翻訳日:2021-11-10 15:10:51 公開日:2021-11-07
# 逆問題に対するディープラーニング手法の検討

Survey of Deep Learning Methods for Inverse Problems ( http://arxiv.org/abs/2111.04731v1 )

ライセンス: Link先を確認
Shima Kamyab, Zihreh Azimifar, Rasool Sabzi, Paul Fieguth(参考訳) 本稿では,逆問題を解くための様々な深層学習戦略について検討する。 逆問題に対する既存のディープラーニングソリューションを,ダイレクトマッピング,データ一貫性最適化,Deep Regularizerの3つのカテゴリに分類する。 3つのカテゴリのロバスト性を比較するために,各逆問題型のサンプルを選択し,それらの差異を統計的に分析する。 本稿では,線形回帰問題とコンピュータビジョンにおける3つのよく知られた逆問題,すなわち画像の雑音化,3次元人間の顔の逆レンダリング,オブジェクト追跡について,それぞれの逆問題の代表的なプロトタイプとして選択した。 結果と統計解析の結果から, 解群は逆問題領域の種類に依存した頑健な振る舞いを持ち, 測定異常を含むか否かに特に依存することがわかった。 実験結果に基づき,各逆問題クラスに対して最もロバストな解カテゴリを提案する。

In this paper we investigate a variety of deep learning strategies for solving inverse problems. We classify existing deep learning solutions for inverse problems into three categories of Direct Mapping, Data Consistency Optimizer, and Deep Regularizer. We choose a sample of each inverse problem type, so as to compare the robustness of the three categories, and report a statistical analysis of their differences. We perform extensive experiments on the classic problem of linear regression and three well-known inverse problems in computer vision, namely image denoising, 3D human face inverse rendering, and object tracking, selected as representative prototypes for each class of inverse problems. The overall results and the statistical analyses show that the solution categories have a robustness behaviour dependent on the type of inverse problem domain, and specifically dependent on whether or not the problem includes measurement outliers. Based on our experimental results, we conclude by proposing the most robust solution category for each inverse problem class.
翻訳日:2021-11-10 14:49:41 公開日:2021-11-07
# 講演者生成

Speaker Generation ( http://arxiv.org/abs/2111.05095v1 )

ライセンス: Link先を確認
Daisy Stanton, Matt Shannon, Soroosh Mariooryad, RJ Skerry-Ryan, Eric Battenberg, Tom Bagby, David Kao(参考訳) 本研究は,非既存音声における音声合成の課題について考察する。 我々はこのタスクを「スピーカージェネレーション」と呼び、このタスクで競争力のあるシステムであるTacoSpawnを紹介します。 TacoSpawnは、話者埋め込み空間上の分布を学習し、新しい多様な話者のサンプリングを可能にする、繰り返し注意に基づくテキスト音声合成モデルである。 本手法は実装が容易であり,話者IDシステムからの伝達学習を必要としない。 本課題は,客観的指標と主観的指標を比較検討し,提案する客観指標が話者の類似性に対する人間の知覚と相関することを示す。 オーディオサンプルはデモページから入手できます。

This work explores the task of synthesizing speech in nonexistent human-sounding voices. We call this task "speaker generation", and present TacoSpawn, a system that performs competitively at this task. TacoSpawn is a recurrent attention-based text-to-speech model that learns a distribution over a speaker embedding space, which enables sampling of novel and diverse speakers. Our method is easy to implement, and does not require transfer learning from speaker ID systems. We present objective and subjective metrics for evaluating performance on this task, and demonstrate that our proposed objective metrics correlate with human perception of speaker similarity. Audio samples are available on our demo page.
翻訳日:2021-11-10 14:37:36 公開日:2021-11-07
# 1D-CNNを用いた1時間降雨・流出モデルにおけるLSTMの入力データサイズ削減

Use of 1D-CNN for input data size reduction of LSTM in Hourly Rainfall-Runoff modeling ( http://arxiv.org/abs/2111.04732v1 )

ライセンス: Link先を確認
Kei Ishida, Ali Ercan, Takeyoshi Nagasato, Masato Kiyama, and Motoki Amagasaki(参考訳) CNNsLSTMと呼ばれる1次元畳み込みニューラルネットワーク(1D-CNN)と長短期記憶(LSTM)の連成構造を1時間ごとの降雨・流出モデルとして提案した。 CNNsLTSMでは、CNN成分が長時間の時間気象時系列データを受信し、LSTM成分が1D-CNNと時間気象時系列データから抽出した特徴を短時間で受信する。 ケーススタディとして, 石狩川流域の1時間降雨流出モデルにCNNsLSTMを適用した。 降水, 気温, 蒸発散量, 長波, 短波の放射量からなる気象データセットを入力として利用し, 河川流を対象データとした。 CNNsLSTMの性能を評価するため,CNNsLSTMは1D-CNN,LSTMは1D-CNNとLSTMの並列アーキテクチャ(CNNpLSTM)と1D-CNNとLSTMの並列アーキテクチャ(LSTMwDpH)を比較した。 CNNsLSTMは従来の3つのアーキテクチャ(1D-CNN, LSTMwHour, CNNpLSTM)と比較して推定精度が向上し、最近LSTMwDpHを提案した。 試験期間のNSE値の平均値は1D-CNNが0.455-0.469(NCHF=8, 16, 32)、CNNpLSTMが0.639-0.656(NCHF=8, 16, 32)、LSTMwHourが0.745、LSTMwDpHが0.831、CNNsLSTMが0.865-0.873(NCHF=8, 16, 32)である。 さらに,1d-cnnの中央値rmseを50.2%-51.4%,cnnplstm を37.4%-40.8%,lstmwhou rを27.3%-29.5%,lstmwdph を10.6%-13.4%削減した。

An architecture consisting of a serial coupling of the one-dimensional convolutional neural network (1D-CNN) and the long short-term memory (LSTM) network, which is referred as CNNsLSTM, was proposed for hourly-scale rainfall-runoff modeling in this study. In CNNsLTSM, the CNN component receives the hourly meteorological time series data for a long duration, and then the LSTM component receives the extracted features from 1D-CNN and the hourly meteorological time series data for a short-duration. As a case study, CNNsLSTM was implemented for hourly rainfall-runoff modeling at the Ishikari River watershed, Japan. The meteorological dataset, consists of precipitation, air temperature, evapotranspiration, and long- and short-wave radiation, were utilized as input, and the river flow was used as the target data. To evaluate the performance of proposed CNNsLSTM, results of CNNsLSTM were compared with those of 1D-CNN, LSTM only with hourly inputs (LSTMwHour), parallel architecture of 1D-CNN and LSTM (CNNpLSTM), and the LSTM architecture which uses both daily and hourly input data (LSTMwDpH). CNNsLSTM showed clear improvements on the estimation accuracy compared to the three conventional architectures (1D-CNN, LSTMwHour, and CNNpLSTM), and recently proposed LSTMwDpH. In comparison to observed flows, the median of the NSE values for the test period are 0.455-0.469 for 1D-CNN (based on NCHF=8, 16, and 32, the numbers of the channels of the feature map of the first layer of CNN), 0.639-0.656 for CNNpLSTM (based on NCHF=8, 16, and 32), 0.745 for LSTMwHour, 0.831 for LSTMwDpH, and 0.865-0.873 for CNNsLSTM (based on NCHF=8, 16, and 32). Furthermore, the proposed CNNsLSTM reduces the median RMSE of 1D-CNN by 50.2%-51.4%, CNNpLSTM by 37.4%-40.8%, LSTMwHour by 27.3%-29.5%, and LSTMwDpH by 10.6%-13.4%.
翻訳日:2021-11-10 14:37:00 公開日:2021-11-07
# (参考訳) 視覚プライバシ研究のための対話型監査パイプラインの提案 [全文訳有]

Proposing an Interactive Audit Pipeline for Visual Privacy Research ( http://arxiv.org/abs/2111.03984v1 )

ライセンス: CC BY 4.0
Jasmine DeHart, Chenguang Xu, Lisa Egede, Christan Grant(参考訳) 理想的な世界では、デプロイされた機械学習モデルが私たちの社会を強化します。 これらのモデルが全員に利益をもたらす、偏見のない倫理的な決定を提供することを期待しています。 しかし、これは必ずしもそうではない。問題は、データキュレーションプロセスからモデルのデプロイメントに発生する。 偏りのあるデータセットとプロセスの使用はコミュニティを害し、問題を解決するコストを増加させます。 本研究では,研究とコミュニティの幅広い影響を検討するために,プロジェクトの前後において研究者が行うべき意思決定プロセスについて検討する。 本稿では,ai導入時にしばしば見過ごされる決定を観察し,システム内のバイアスや公平性問題の発見にフェアネス・フォレンジス(fairness forensics)を用いること,デプロイされたシステムに説明責任を持たせるための責任あるヒューマン・オーバー・ザ・ループ(human-over-the-loop )の必要性を主張する。 我々は、視覚的プライバシーの研究を調べ、人工知能に広く応用できる教訓を引き出す。 私たちの目標は、視覚的プライバシとバイアスの問題に対して、マシンラーニングパイプラインの系統的分析を提供することです。 このパイプラインでは、さまざまな機械学習フェーズでこの問題が広まるにつれて、ステークホルダー(研究者、モデラー、企業など)の意識を高めたいと思っています。

In an ideal world, deployed machine learning models will enhance our society. We hope that those models will provide unbiased and ethical decisions that will benefit everyone. However, this is not always the case; issues arise from the data curation process to the models' deployment. The continued use of biased datasets and processes will adversely damage communities and increase the cost to fix the problem. In this work, we walk through the decision process that a researcher will need to make before, during, and after their project to consider the broader impacts of research and the community. Throughout this paper, we observe the critical decisions that are often overlooked when deploying AI, argue for the use of fairness forensics to discover bias and fairness issues in systems, assert the need for a responsible human-over-the-loop to bring accountability into the deployed system, and finally, reflect on the need to explore research agendas that have harmful societal impacts. We examine visual privacy research and draw lessons that can apply broadly to Artificial Intelligence. Our goal is to provide a systematic analysis of the machine learning pipeline for visual privacy and bias issues. With this pipeline, we hope to raise stakeholder (e.g., researchers, modelers, corporations) awareness as these issues propagate in the various machine learning phases.
翻訳日:2021-11-10 09:08:13 公開日:2021-11-07
# (参考訳) アンサンブル学習手法を用いたサンゴ礁の群集生産率予測モデル [全文訳有]

Predictive Model for Gross Community Production Rate of Coral Reefs using Ensemble Learning Methodologies ( http://arxiv.org/abs/2111.04003v1 )

ライセンス: CC BY 4.0
Umanandini S, Aouthithiye Barathwaj SR Y, Jasline Augusta J, Shrirang Sapate, Reenasree S, Vigneash M(参考訳) サンゴ礁は海洋生態系の生態系バランスを維持する上で重要な役割を担っている。 様々な海洋生物はサンゴ礁の存在とその自然過程に依存している。 サンゴ礁は海洋生態系の様々な外来種の繁殖と成長に必要な生息地を提供する。 本稿では,サンゴ礁およびサンゴ礁の海洋酸性化,脱酸素化,その他の物理的パラメータである流量や表面積に影響を及ぼす最も重要なパラメータについて述べる。 海洋酸性化は溶存二酸化炭素(co2)の量に依存する。 これは、溶存するco2ガスと海洋中の炭酸カルシウム化合物との反応によるh+イオンの放出によるものである。 脱酸素は低酸素を引き起こす別の問題であり、海洋生物の存在に必要な量よりも水に溶存する酸素の量が少ないことが特徴である。 本稿では, ガス交換, 放熱, 漂白感度, 栄養供給, 給餌, 廃棄物および堆積物の除去, 成長と再生に影響を与える流量などの物理パラメータの重要性を強調した。 本稿では,これらの重要なパラメータを提示するとともに,これらのパラメータを解析し,サンゴ礁を中心とした海洋生態系の持続性向上に寄与する海洋組成の理解と改善を支援する,機械学習に基づくモデルを提案する。

Coral reefs play a vital role in maintaining the ecological balance of the marine ecosystem. Various marine organisms depend on coral reefs for their existence and their natural processes. Coral reefs provide the necessary habitat for reproduction and growth for various exotic species of the marine ecosystem. In this article, we discuss the most important parameters which influence the lifecycle of coral and coral reefs such as ocean acidification, deoxygenation and other physical parameters such as flow rate and surface area. Ocean acidification depends on the amount of dissolved Carbon dioxide (CO2). This is due to the release of H+ ions upon the reaction of the dissolved CO2 gases with the calcium carbonate compounds in the ocean. Deoxygenation is another problem that leads to hypoxia which is characterized by a lesser amount of dissolved oxygen in water than the required amount for the existence of marine organisms. In this article, we highlight the importance of physical parameters such as flow rate which influence gas exchange, heat dissipation, bleaching sensitivity, nutrient supply, feeding, waste and sediment removal, growth and reproduction. In this paper, we also bring out these important parameters and propose an ensemble machine learning-based model for analyzing these parameters and provide better rates that can help us to understand and suitably improve the ocean composition which in turn can eminently improve the sustainability of the marine ecosystem, mainly the coral reefs
翻訳日:2021-11-10 08:53:18 公開日:2021-11-07
# (参考訳) geoaiにおける位置符号化の展望:手法と応用

A Review of Location Encoding for GeoAI: Methods and Applications ( http://arxiv.org/abs/2111.04006v1 )

ライセンス: CC0 1.0
Gengchen Mai, Krzysztof Janowicz, Yingjie Hu, Song Gao, Bo Yan, Rui Zhu, Ling Cai, Ni Lao(参考訳) より広い地球科学における人工知能モデルの一般的なニーズは、点(例えば、興味のある点)、ポリライン(例えば、管理領域)、グラフ(例えば、交通ネットワーク)、ラスター(例えば、リモートセンシング画像)といった様々な空間データを、深層学習モデルに容易に組み込むことができるように、様々な種類の空間データを表現し、符号化することである。 基本的なステップの1つは、単一の点の位置を埋め込み空間にエンコードすることであり、この埋め込みは、サポートベクターマシンやニューラルネットワークのような下流の機械学習モデルにとって学習しやすい。 このプロセスロケーションエンコーディングと呼んでいます。 しかし、ロケーションエンコーディングの概念、潜在的なアプリケーション、そして対処すべき重要な課題について、体系的なレビューがない。 本稿ではこのギャップを埋めることを目的とする。 まず、位置エンコーディングの正式な定義を提供し、機械学習の観点からGeoAI研究における位置エンコーディングの必要性について論じる。 次に,位置情報エンコーディング研究の現状に関する総合的な調査と議論を行う。 位置符号化モデルは入力と符号化法に基づいて異なるカテゴリに分類し、パラメトリック、マルチスケール、距離保存、方向認識などに基づいて比較する。 既存の位置符号化モデルが共有定式化フレームワークで統一できることを実証する。 また,様々な空間データに対する位置符号化の適用について述べる。 最後に,今後解決する必要がある位置符号化研究におけるいくつかの課題を指摘する。

A common need for artificial intelligence models in the broader geoscience is to represent and encode various types of spatial data, such as points (e.g., points of interest), polylines (e.g., trajectories), polygons (e.g., administrative regions), graphs (e.g., transportation networks), or rasters (e.g., remote sensing images), in a hidden embedding space so that they can be readily incorporated into deep learning models. One fundamental step is to encode a single point location into an embedding space, such that this embedding is learning-friendly for downstream machine learning models such as support vector machines and neural networks. We call this process location encoding. However, there lacks a systematic review on the concept of location encoding, its potential applications, and key challenges that need to be addressed. This paper aims to fill this gap. We first provide a formal definition of location encoding, and discuss the necessity of location encoding for GeoAI research from a machine learning perspective. Next, we provide a comprehensive survey and discussion about the current landscape of location encoding research. We classify location encoding models into different categories based on their inputs and encoding methods, and compare them based on whether they are parametric, multi-scale, distance preserving, and direction aware. We demonstrate that existing location encoding models can be unified under a shared formulation framework. We also discuss the application of location encoding for different types of spatial data. Finally, we point out several challenges in location encoding research that need to be solved in the future.
翻訳日:2021-11-10 08:44:45 公開日:2021-11-07
# (参考訳) A-PixelHop:グリーン、ロバスト、説明可能なフェイクイメージ検出器 [全文訳有]

A-PixelHop: A Green, Robust and Explainable Fake-Image Detector ( http://arxiv.org/abs/2111.04012v1 )

ライセンス: CC BY 4.0
Yao Zhu, Xinyu Wang, Hong-Shuo Chen, Ronald Salloum, C.-C. Jay Kuo(参考訳) 本稿では,CNN生成画像を検出する新しい手法であるAttentive PixelHop(A-PixelHop) を提案する。 3つの利点があります 1) 計算複雑性が低く, モデルサイズが小さい。 2)多種多様な生成モデルに対する高い検出性能、及び 3) 数学的透明性。 A-PixelHopは、局所的に高品質な高周波成分を合成することが難しいという前提で設計されている。 ビルディングモジュールは4つある。 1)重要な高周波成分を含むエッジ/テクスチャブロックを選択する。 2)複数のフィルタバンクを適用して,リッチな空間スペクトル応答を特徴とする。 3)複数のバイナリ分類器に特徴を与え、ソフトな決定の集合を得る。 4)ソフト決定を最終決定に融合させる効果的なアンサンブルスキームの開発。 実験の結果,A-PixelHopはCycleGAN生成画像の検出において最先端の手法よりも優れていた。 さらに、知覚できない生成モデルやデータセットにうまく一般化することができる。

A novel method for detecting CNN-generated images, called Attentive PixelHop (or A-PixelHop), is proposed in this work. It has three advantages: 1) low computational complexity and a small model size, 2) high detection performance against a wide range of generative models, and 3) mathematical transparency. A-PixelHop is designed under the assumption that it is difficult to synthesize high-quality, high-frequency components in local regions. It contains four building modules: 1) selecting edge/texture blocks that contain significant high-frequency components, 2) applying multiple filter banks to them to obtain rich sets of spatial-spectral responses as features, 3) feeding features to multiple binary classifiers to obtain a set of soft decisions, 4) developing an effective ensemble scheme to fuse the soft decisions into the final decision. Experimental results show that A-PixelHop outperforms state-of-the-art methods in detecting CycleGAN-generated images. Furthermore, it can generalize well to unseen generative models and datasets.
翻訳日:2021-11-10 08:43:38 公開日:2021-11-07
# (参考訳) 不均衡ハイパースペクトル画像分類のためのマルチフェイク進化的逆ネットワーク [全文訳有]

Multi-Fake Evolutionary Generative Adversarial Networks for Imbalance Hyperspectral Image Classification ( http://arxiv.org/abs/2111.04019v1 )

ライセンス: CC BY 4.0
Tanmoy Dam, Nidhi Swami, Sreenatha G. Anavatti, Hussein A. Abbass(参考訳) 本稿では、不均衡な高スペクトル画像分類を扱うために、MFEGAN(Multi-fake Evolution Generative Adversarial Network)を提案する。 これは、識別器ネットワークの分類性能を向上させるために、ジェネレータネットワークにおいて異なる生成目的の損失を考慮するエンドツーエンドのアプローチである。 これにより、識別関数の上に分類器ネットワークを埋め込むことにより、同じ判別器ネットワークを標準分類器として用いることができる。 提案手法の有効性を2つの超スペクトル空間スペクトルデータセットを用いて検証した。 同じ生成的および識別的アーキテクチャを2つの異なるGAN目標を用いて,提案手法と同等の性能比較を行った。 実験により,提案手法は最先端の手法よりも優れた分類性能を有することを示した。

This paper presents a novel multi-fake evolutionary generative adversarial network(MFEGAN) for handling imbalance hyperspectral image classification. It is an end-to-end approach in which different generative objective losses are considered in the generator network to improve the classification performance of the discriminator network. Thus, the same discriminator network has been used as a standard classifier by embedding the classifier network on top of the discriminating function. The effectiveness of the proposed method has been validated through two hyperspectral spatial-spectral data sets. The same generative and discriminator architectures have been utilized with two different GAN objectives for a fair performance comparison with the proposed method. It is observed from the experimental validations that the proposed method outperforms the state-of-the-art methods with better classification performance.
翻訳日:2021-11-10 08:34:35 公開日:2021-11-07
# (参考訳) SL-CycleGAN:スパース学習によるサイクルのブラインド動作の低下 [全文訳有]

SL-CycleGAN: Blind Motion Deblurring in Cycles using Sparse Learning ( http://arxiv.org/abs/2111.04026v1 )

ライセンス: CC BY 4.0
Ali Syed Saqlain, Li-Yun Wang, Fang Fang(参考訳) 本稿では,単一画像視覚障害者のためのスパース学習に基づくエンドツーエンド生成対向ネットワーク(GAN)を提案し,これをSL-CycleGANと呼ぶ。 本研究では, SL-CycleGANジェネレータのResNetブロックにおけるReLUなどの非線形性を置き換えるために, HTM(階層的テンポラルメモリ)に基づくスパース畳み込み層とトレーニング可能な空間プーラk-ウィンナーを組み合わせたスパースResNetブロックを提案する。 さらに, 運動脱ブルリングを線形エンド・ツー・エンドのプロセスとして扱う, 最先端のganベースの運動脱ブルリング法と異なり, cycleganのドメイン間翻訳能力から着想を得て, 最良の定性的結果を得るとともに, 画像脱ブルリングがサイクル一貫性を持つことを示す。 最後に,一般的な画像ベンチマークにおいて,定性的かつ定量的に広範に実験を行い,GoProデータセット上の38.087dBのPSNRを記録破りに達成した。

In this paper, we introduce an end-to-end generative adversarial network (GAN) based on sparse learning for single image blind motion deblurring, which we called SL-CycleGAN. For the first time in blind motion deblurring, we propose a sparse ResNet-block as a combination of sparse convolution layers and a trainable spatial pooler k-winner based on HTM (Hierarchical Temporal Memory) to replace non-linearity such as ReLU in the ResNet-block of SL-CycleGAN generators. Furthermore, unlike many state-of-the-art GAN-based motion deblurring methods that treat motion deblurring as a linear end-to-end process, we take our inspiration from the domain-to-domain translation ability of CycleGAN, and we show that image deblurring can be cycle-consistent while achieving the best qualitative results. Finally, we perform extensive experiments on popular image benchmarks both qualitatively and quantitatively and achieve the record-breaking PSNR of 38.087 dB on GoPro dataset, which is 5.377 dB better than the most recent deblurring method.
翻訳日:2021-11-10 08:25:10 公開日:2021-11-07
# (参考訳) ターゲット特徴パレットとアテンションカラーリングを用いたスタイル転送 [全文訳有]

Style Transfer with Target Feature Palette and Attention Coloring ( http://arxiv.org/abs/2111.04028v1 )

ライセンス: CC BY 4.0
Suhyeon Ha, Guisik Kim, Junseok Kwon(参考訳) イメージ構造を保ちながら、所定のイメージを華麗な芸術的スタイルに変化させることができるため、スタイル転送は多くの注目を集めている。 しかし、従来の手法では画像の詳細が失われやすく、スタイル転送時に不愉快なアーティファクトが生じる傾向にある。 本稿では,これらの問題を解決するために,特徴パレットをターゲットとした新しい芸術的スタイル化手法を提案する。 具体的には,特徴パレット合成(FPC)とアテンションカラー化(AC)の2つのモジュールを含む。 FPCモジュールはK平均クラスタリングに基づいて代表的特徴をキャプチャし、特徴目標パレットを生成する。 以下のACモジュールは、コンテンツとスタイル画像間のアテンションマップを算出し、アテンションマップとターゲットパレットに基づいて色とパターンを転送する。 これらのモジュールにより、提案されたスタイライゼーションは重要な機能に集中し、おそらく転送された画像を生成することができる。 そこで,本提案手法の寄与は,新しい深層学習に基づくスタイル伝達手法と,対象特徴パレットと注目着色モジュールの提案であり,徹底的なアブレーション研究を通じて,提案手法の詳細な分析と洞察を提供することである。 定性的かつ定量的な結果から,我々のスタイル化された画像は,コア構造と内容像の細部を保ちながら,最先端の性能を示すことが示された。

Style transfer has attracted a lot of attentions, as it can change a given image into one with splendid artistic styles while preserving the image structure. However, conventional approaches easily lose image details and tend to produce unpleasant artifacts during style transfer. In this paper, to solve these problems, a novel artistic stylization method with target feature palettes is proposed, which can transfer key features accurately. Specifically, our method contains two modules, namely feature palette composition (FPC) and attention coloring (AC) modules. The FPC module captures representative features based on K-means clustering and produces a feature target palette. The following AC module calculates attention maps between content and style images, and transfers colors and patterns based on the attention map and the target palette. These modules enable the proposed stylization to focus on key features and generate plausibly transferred images. Thus, the contributions of the proposed method are to propose a novel deep learning-based style transfer method and present target feature palette and attention coloring modules, and provide in-depth analysis and insight on the proposed method via exhaustive ablation study. Qualitative and quantitative results show that our stylized images exhibit state-of-the-art performance, with strength in preserving core structures and details of the content image.
翻訳日:2021-11-10 08:07:34 公開日:2021-11-07
# (参考訳) フォント埋め込みを用いた視覚リッチ文書からの情報抽出 [全文訳有]

Information Extraction from Visually Rich Documents with Font Style Embeddings ( http://arxiv.org/abs/2111.04045v1 )

ライセンス: CC BY 4.0
Ismail Oussaid, William Vanhuffel, Pirashanth Ratnamogan, Mhamed Hajaiej, Alexis Mathey, Thomas Gilles(参考訳) 文書からの情報抽出(ie)は、大量の産業応用を含む集中的な研究分野である。 現在の最先端の手法は、コンピュータビジョン、自然言語処理、レイアウト表現を組み合わせたアプローチでスキャンされた文書に焦点を当てている。 トークンスタイルと視覚的表現(すなわちネイティブpdf文書)の両方が利用可能である場合、コンピュータビジョンの使用に挑戦することを提案する。 実世界の3つの複雑なデータセットに対する実験により、LayoutLMモデルに生の視覚的埋め込みではなくトークンスタイルの属性をベースとした埋め込みが有用であることが示された。 データセットによって、そのような埋め込みは重み付けされたF1スコアの0.18%から2.29%の改善となり、最終的なトレーニング可能なモデルのパラメータの30.7%が減少し、効率と有効性が向上する。

Information extraction (IE) from documents is an intensive area of research with a large set of industrial applications. Current state-of-the-art methods focus on scanned documents with approaches combining computer vision, natural language processing and layout representation. We propose to challenge the usage of computer vision in the case where both token style and visual representation are available (i.e native PDF documents). Our experiments on three real-world complex datasets demonstrate that using token style attributes based embedding instead of a raw visual embedding in LayoutLM model is beneficial. Depending on the dataset, such an embedding yields an improvement of 0.18% to 2.29% in the weighted F1-score with a decrease of 30.7% in the final number of trainable parameters of the model, leading to an improvement in both efficiency and effectiveness.
翻訳日:2021-11-10 07:52:03 公開日:2021-11-07
# (参考訳) Coordinated Proximal Policy Optimization [全文訳有]

Coordinated Proximal Policy Optimization ( http://arxiv.org/abs/2111.04051v1 )

ライセンス: CC BY 4.0
Zifan Wu, Chao Yu, Deheng Ye, Junge Zhang, Haiyin Piao, Hankz Hankui Zhuo(参考訳) 本稿では,元来の近位政策最適化 (ppo) をマルチエージェント設定に拡張するアルゴリズムであるcoppo(co coordinated proximal policy optimization)を提案する。 鍵となるアイデアは、複数のエージェント間のポリシー更新プロセスにおけるステップサイズの調整された適応にある。 理論的に接地した共同目的を最適化する際の政策改善の単調性を証明し、近似集合に基づく単純化された最適化目標を導出する。 そこで我々は,CoPPOにおけるそのような目的がエージェント間の動的信用割り当てを達成し,エージェントポリシーの同時更新時の高分散問題を軽減することができると解釈した。 最後に、CoPPOはいくつかの強力なベースラインより優れており、協調行列ゲームやStarCraft IIマイクロマネジメントタスクを含む典型的なマルチエージェント設定下で、最新のマルチエージェントPPO手法(MAPPO)と競合することを示す。

We present Coordinated Proximal Policy Optimization (CoPPO), an algorithm that extends the original Proximal Policy Optimization (PPO) to the multi-agent setting. The key idea lies in the coordinated adaptation of step size during the policy update process among multiple agents. We prove the monotonicity of policy improvement when optimizing a theoretically-ground ed joint objective, and derive a simplified optimization objective based on a set of approximations. We then interpret that such an objective in CoPPO can achieve dynamic credit assignment among agents, thereby alleviating the high variance issue during the concurrent update of agent policies. Finally, we demonstrate that CoPPO outperforms several strong baselines and is competitive with the latest multi-agent PPO method (i.e. MAPPO) under typical multi-agent settings, including cooperative matrix games and the StarCraft II micromanagement tasks.
翻訳日:2021-11-10 07:37:30 公開日:2021-11-07
# (参考訳) 事前学習変換器は文脈キーワードをどのように統合するか? 人道コンピューティングへの応用 [全文訳有]

How does a Pre-Trained Transformer Integrate Contextual Keywords? Application to Humanitarian Computing ( http://arxiv.org/abs/2111.04052v1 )

ライセンス: CC BY 4.0
Barriere Valentin, Jacquet Guillaume(参考訳) 分類タスクでは、テキストスニペットとメタデータを扱う場合、通常マルチモーダルアプローチを扱う必要がある。 これらのメタデータがテキストである場合、モデル内でエンコードされるセマンティック情報を活用するために、事前学習されたトランスフォーマーを内在的に使用する傾向があります。 本稿では,各ツイートに危機イベントタイプを追加して人道的分類タスクを改善する方法について述べる。 モデルウェイトと振る舞いのさらなる実験に基づいて、提案されたニューラルネットワークアプローチが、Crisis Benchmarkの特殊性を部分的に過度に適合させていることを特定し、モデルが依然として使用方法を学習し、メタデータのテキストセマンティクスを活用する方法をより強調する。

In a classification task, dealing with text snippets and metadata usually requires dealing with multimodal approaches. When those metadata are textual, it is tempting to use them intrinsically with a pre-trained transformer, in order to leverage the semantic information encoded inside the model. This paper describes how to improve a humanitarian classification task by adding the crisis event type to each tweet to be classified. Based on additional experiments of the model weights and behavior, it identifies how the proposed neural network approach is partially over-fitting the particularities of the Crisis Benchmark, to better highlight how the model is still undoubtedly learning to use and take advantage of the metadata's textual semantics.
翻訳日:2021-11-10 07:01:05 公開日:2021-11-07
# (参考訳) 変形可能な物体の登録技術

Registration Techniques for Deformable Objects ( http://arxiv.org/abs/2111.04053v1 )

ライセンス: CC BY 4.0
Alireza Ahmadi(参考訳) 一般に、非リギッド登録の問題は、2つの異なる時点から取られた動的オブジェクトの2つの異なるスキャンを一致させることである。 これらのスキャンは剛体運動と非剛体変形の両方を行うことができる。 モデルの新たな部分が表示され、他の部分が2つのスキャンの間に隠蔽されるため、重複領域は両方のスキャンのサブセットである。 最も一般的な設定では、事前のテンプレート形状は与えられず、マーカーや明示的な特徴点対応は利用できない。 したがって、このケースは、大量の重なり合う領域[28]を持ちながら、連続走査が小さな変形を受けるという仮定を考慮に入れた部分的マッチング問題である。 この論文が取り組んでいる問題は、変形する物体のマッピングと、同時に環境にカメラをローカライズすることである。

In general, the problem of non-rigid registration is about matching two different scans of a dynamic object taken at two different points in time. These scans can undergo both rigid motions and non-rigid deformations. Since new parts of the model may come into view and other parts get occluded in between two scans, the region of overlap is a subset of both scans. In the most general setting, no prior template shape is given and no markers or explicit feature point correspondences are available. So, this case is a partial matching problem that takes into account the assumption that consequent scans undergo small deformations while having a significant amount of overlapping area [28]. The problem which this thesis is addressing is mapping deforming objects and localizing cameras in the environment at the same time.
翻訳日:2021-11-10 06:52:53 公開日:2021-11-07
# (参考訳) 多次元スケーリングのための高性能サンプル外埋め込み技術 [全文訳有]

High Performance Out-of-sample Embedding Techniques for Multidimensional Scaling ( http://arxiv.org/abs/2111.04067v1 )

ライセンス: CC BY 4.0
Samudra Herath, Matthew Roughan, Gary Glonek(参考訳) 最近の多くのデータセットの次元の急速な成長は、次元減少(DR)への多くのアプローチが注目されていることを意味する。 大規模かつ高速なデータセットにデータ解析を可能にするためには,高性能DRアルゴリズムが必要である。 しかし、多くの従来のDR技術は真に大きなデータセットによって挑戦されている。 特に多次元スケーリング(MDS)はうまくスケールしない。 MDSは、唯一の入力が相似関数であるデータ上でDRを実行することができるため、DR技法の一般的なグループである。 しかし、一般的なアプローチは少なくともメモリと計算では二次的であり、大規模データでは禁止される。 本稿では, 大規模データに対するMDSアルゴリズムを拡張するために, 与えられたデータのサブセットのみの埋め込みを利用した, サンプル外埋め込み(OSE)ソリューションを提案する。 1つは最適化アプローチに基づく手法,もう1つはニューラルネットワークモデルに基づく手法である。 近似の小さなトレードオフにより、アウトオブサンプル技術は、合理的な計算とメモリ要求で大規模データを処理できる。 どちらの手法もうまく機能するが、ニューラルネットワークモデルは効率の観点からOSEソリューションの最適化アプローチより優れている。 OSEにはストリーミングデータセットと静的データベースで高速DRを可能にするという2つのメリットがある。

The recent rapid growth of the dimension of many datasets means that many approaches to dimension reduction (DR) have gained significant attention. High-performance DR algorithms are required to make data analysis feasible for big and fast data sets. However, many traditional DR techniques are challenged by truly large data sets. In particular multidimensional scaling (MDS) does not scale well. MDS is a popular group of DR techniques because it can perform DR on data where the only input is a dissimilarity function. However, common approaches are at least quadratic in memory and computation and, hence, prohibitive for large-scale data. We propose an out-of-sample embedding (OSE) solution to extend the MDS algorithm for large-scale data utilising the embedding of only a subset of the given data. We present two OSE techniques: the first based on an optimisation approach and the second based on a neural network model. With a minor trade-off in the approximation, the out-of-sample techniques can process large-scale data with reasonable computation and memory requirements. While both methods perform well, the neural network model outperforms the optimisation approach of the OSE solution in terms of efficiency. OSE has the dual benefit that it allows fast DR on streaming datasets as well as static databases.
翻訳日:2021-11-10 06:51:29 公開日:2021-11-07
# (参考訳) Meta-Workersによるクラウドソーシング - 予算削減のための新たな方法 [全文訳有]

Crowdsourcing with Meta-Workers: A New Way to Save the Budget ( http://arxiv.org/abs/2111.04068v1 )

ライセンス: CC BY 4.0
Guangyang Han, Guoxian Yu, Lizhen Cui, Carlotta Domeniconi, Xiangliang Zhang(参考訳) インターネットワーカーの信頼性のため、特にタスクが複数で予算が限られている場合には、クラウドソーシングプロジェクトを満足に完了することは困難である。 近年、メタラーニングは、数回のトレーニングサンプルのみを使用して、公平なパフォーマンスを持つ分類器を得ることを可能にするために、わずかなショット学習に新たな活力をもたらしている。 ここでは,AIに適したタスク(画像分類)のメタラーニングによって訓練された機械アノテータである \emph{meta-worker} の概念を紹介する。 通常の群衆労働者とは異なり、メタワーカーは信頼性があり、安定し、さらに重要なことに、タイヤレスで自由である。 最初はラベルのないデータをクラスタ化し、クラスタ中心付近のインスタンスに繰り返しアノテートするようにクラウドワーカーに頼んだ後、アノテートされたデータとメタトレーニングデータセットを活用して、異なるメタ学習アルゴリズムを使用してメタワーカーのクラスタを構築します。 その後、メタワーカーは、残りのクラウドソースタスクに注釈を付けるように要求される。 Jensen-Shannonの発散は、メタワーカーが提供したアノテーション間の不一致を測定するために使用され、同じタスクのさらなるアノテーションのために群衆労働者を招待するかどうかを決定する。 最後に、メタワーカーの好みをモデル化し、多数決の重み付けによるコンセンサスアノテーションを計算する。 我々の実験では、機械と人間の知能を組み合わせることで、最先端のタスク割り当て手法よりも低い予算でクラウドソーシングプロジェクトを達成でき、優れた品質と同等の品質を実現できます。

Due to the unreliability of Internet workers, it's difficult to complete a crowdsourcing project satisfactorily, especially when the tasks are multiple and the budget is limited. Recently, meta learning has brought new vitality to few-shot learning, making it possible to obtain a classifier with a fair performance using only a few training samples. Here we introduce the concept of \emph{meta-worker}, a machine annotator trained by meta learning for types of tasks (i.e., image classification) that are well-fit for AI. Unlike regular crowd workers, meta-workers can be reliable, stable, and more importantly, tireless and free. We first cluster unlabeled data and ask crowd workers to repeatedly annotate the instances nearby the cluster centers; we then leverage the annotated data and meta-training datasets to build a cluster of meta-workers using different meta learning algorithms. Subsequently, meta-workers are asked to annotate the remaining crowdsourced tasks. The Jensen-Shannon divergence is used to measure the disagreement among the annotations provided by the meta-workers, which determines whether or not crowd workers should be invited for further annotation of the same task. Finally, we model meta-workers' preferences and compute the consensus annotation by weighted majority voting. Our empirical study confirms that, by combining machine and human intelligence, we can accomplish a crowdsourcing project with a lower budget than state-of-the-art task assignment methods, while achieving a superior or comparable quality.
翻訳日:2021-11-10 06:37:03 公開日:2021-11-07
# (参考訳) 複数ソース変換学習を用いたオープンセットクラウドソーシング [全文訳有]

Open-Set Crowdsourcing using Multiple-Source Transfer Learning ( http://arxiv.org/abs/2111.04073v1 )

ライセンス: CC BY 4.0
Guangyang Han, Guoxian Yu, Lei Liu, Lizhen Cui, Carlotta Domeniconi, Xiangliang Zhang(参考訳) 私たちは新たなクラウドソーシングシナリオを提起し、定義しました。クラウドソーシングは、慣れ親しんだクラウドソーシングプロジェクトの一般的なテーマのみを知っていて、そのラベルスペース、すなわち可能なラベルのセットを知りません。 これはまだタスクアノテートの問題であるが、タスクとラベル空間に対する不慣れさは、タスクとワーカーのモデリング、そして真実の推論を妨げている。 我々は直感的なソリューションOSCrowdを提案する。 まず、oscrowdはクラウドテーマに関連するデータセットを大きなソースドメインに統合し、部分転送学習を容易にし、これらのタスクのラベル空間推定を近似する。 次に、カテゴリ相関に基づいて各ソースドメインに重みを割り当てる。 その後、複数のオープンソースの転送学習を使用して、クラウドタスクをモデル化し、可能なアノテーションを割り当てる。 転送学習によって与えられるラベル空間とアノテーションは、群衆労働者のアノテーションをガイドし標準化するために使用される。 我々は、OSCrowdをオンラインシナリオで検証し、OSCrowdがオープンセットのクラウドソーシング問題を解決することを証明する。

We raise and define a new crowdsourcing scenario, open set crowdsourcing, where we only know the general theme of an unfamiliar crowdsourcing project, and we don't know its label space, that is, the set of possible labels. This is still a task annotating problem, but the unfamiliarity with the tasks and the label space hampers the modelling of the task and of workers, and also the truth inference. We propose an intuitive solution, OSCrowd. First, OSCrowd integrates crowd theme related datasets into a large source domain to facilitate partial transfer learning to approximate the label space inference of these tasks. Next, it assigns weights to each source domain based on category correlation. After this, it uses multiple-source open set transfer learning to model crowd tasks and assign possible annotations. The label space and annotations given by transfer learning will be used to guide and standardize crowd workers' annotations. We validate OSCrowd in an online scenario, and prove that OSCrowd solves the open set crowdsourcing problem, works better than related crowdsourcing solutions.
翻訳日:2021-11-10 06:14:32 公開日:2021-11-07
# (参考訳) 分散対応機械翻訳テストセット [全文訳有]

Variance-Aware Machine Translation Test Sets ( http://arxiv.org/abs/2111.04079v1 )

ライセンス: CC BY 4.0
Runzhe Zhan, Xuebo Liu, Derek F. Wong, Lidia S. Chao(参考訳) wmt16からwmt20への35の翻訳方向をカバーする、分散認識テストセット(vat)と呼ばれる機械翻訳評価のための70の小型かつ判別的なテストセットをリリースする。 VATは、人間の労力なしで現在のMTテストセットの無差別なテストインスタンスをフィルタリングする、新しい分散認識フィルタリング法によって自動的に生成される。 実験結果から、VATは、主流言語対とテストセット間の人間の判断との相関から、元のWMTテストセットよりも優れていることが示された。 VATの特性に関するさらなる分析は、競争力のあるMTシステムのための困難な言語的特徴(例えば、低周波語と固有名詞の翻訳)を明らかにし、将来のMTテストセットを構築するためのガイダンスを提供する。 分散対応MTテストセットを作成するためのテストセットとコードはhttps://github.com/N LP2CT/Variance-Aware -MT-Test-Sets で無償公開されている。

We release 70 small and discriminative test sets for machine translation (MT) evaluation called variance-aware test sets (VAT), covering 35 translation directions from WMT16 to WMT20 competitions. VAT is automatically created by a novel variance-aware filtering method that filters the indiscriminative test instances of the current MT test sets without any human labor. Experimental results show that VAT outperforms the original WMT test sets in terms of the correlation with human judgement across mainstream language pairs and test sets. Further analysis on the properties of VAT reveals the challenging linguistic features (e.g., translation of low-frequency words and proper nouns) for competitive MT systems, providing guidance for constructing future MT test sets. The test sets and the code for preparing variance-aware MT test sets are freely available at https://github.com/N LP2CT/Variance-Aware -MT-Test-Sets .
翻訳日:2021-11-10 06:01:28 公開日:2021-11-07
# (参考訳) ラベル属性埋め込みによるクロスモーダルゼロショットハッシュ [全文訳有]

Cross-modal Zero-shot Hashing by Label Attributes Embedding ( http://arxiv.org/abs/2111.04080v1 )

ライセンス: CC BY 4.0
Runmin Wang, Guoxian Yu, Lei Liu, Lizhen Cui, Carlotta Domeniconi, Xiangliang Zhang(参考訳) クロスモーダルハッシュ (CMH) は, 近接探索において最も有望な手法の1つである。 ほとんどのCMHソリューションは理想的には、トレーニングとテストセットのラベルが同一であると仮定する。 しかし、この仮定はしばしば違反し、ゼロショットCMH問題を引き起こす。 この問題に対処する最近の取り組みは、参照されるクラスからラベル属性を使用して見えないクラスへの知識の転送に焦点を当てている。 しかし、属性はマルチモーダルデータの特徴から分離されている。 情報ギャップを減らすため、laeh(ゼロショットクロスモーダルハッシュのためのラベル属性埋め込み)と呼ばれるアプローチを導入する。 LAEHはまずWord2vecモデルでラベルの最初の意味属性ベクトルを取得し、それから変換ネットワークを使用してそれらを共通の部分空間に変換する。 次に、ハッシュベクトルと特徴類似性行列を利用して、異なるモダリティの特徴抽出ネットワークを誘導する。 同時に、LAEHはラベルの類似性を補足として属性類似性を使用し、ラベル埋め込みと共通部分空間の修正を行う。 LAEHは関連するゼロショット法やクロスモーダルハッシュ法よりも優れていた。

Cross-modal hashing (CMH) is one of the most promising methods in cross-modal approximate nearest neighbor search. Most CMH solutions ideally assume the labels of training and testing set are identical. However, the assumption is often violated, causing a zero-shot CMH problem. Recent efforts to address this issue focus on transferring knowledge from the seen classes to the unseen ones using label attributes. However, the attributes are isolated from the features of multi-modal data. To reduce the information gap, we introduce an approach called LAEH (Label Attributes Embedding for zero-shot cross-modal Hashing). LAEH first gets the initial semantic attribute vectors of labels by word2vec model and then uses a transformation network to transform them into a common subspace. Next, it leverages the hash vectors and the feature similarity matrix to guide the feature extraction network of different modalities. At the same time, LAEH uses the attribute similarity as the supplement of label similarity to rectify the label embedding and common subspace. Experiments show that LAEH outperforms related representative zero-shot and cross-modal hashing methods.
翻訳日:2021-11-10 05:42:20 公開日:2021-11-07
# (参考訳) ロングテールデータに対するメタクロスモーダルハッシュ [全文訳有]

Meta Cross-Modal Hashing on Long-Tailed Data ( http://arxiv.org/abs/2111.04086v1 )

ライセンス: CC BY 4.0
Runmin Wang, Guoxian Yu, Carlotta Domeniconi, Xiangliang Zhang(参考訳) 大規模な不均一なデータに対するクエリ時間を短縮しながらストレージを削減できる利点により、マルチモーダルデータの近接探索のために、クロスモーダルハッシュが広く研究されている。 ほとんどのハッシュ手法では、トレーニングデータはクラスバランスであると仮定しているが、実際には現実世界のデータはしばしばロングテール分布を持つ。 本稿では,ロングテールデータを扱うメタラーニングベースのクロスモーダルハッシュ手法(metacmh)を提案する。 テールクラスでのトレーニングサンプルの欠如により、metacmhはまず異なるモダリティのデータから直接的な特徴を学習し、その後、テールクラスのサンプルのメモリ特性を学習するための連想メモリモジュールを導入する。 次に、ダイレクトとメモリの機能を組み合わせて、各サンプルのメタ機能を得る。 ロングテール分布のヘッドクラスのサンプルでは、学習に十分なトレーニングデータがあるため、直接特徴の重みが大きくなるが、希少クラスではメモリ特徴の重みが大きくなる。 最後に、MetaCMHは確率損失関数を用いて異なるモードで類似性を保ち、エンドツーエンドでハッシュ関数を学習する。 ロングテールデータセットの実験では、metacmhは最先端のメソッド、特にテールクラスよりもかなり優れたパフォーマンスを示す。

Due to the advantage of reducing storage while speeding up query time on big heterogeneous data, cross-modal hashing has been extensively studied for approximate nearest neighbor search of multi-modal data. Most hashing methods assume that training data is class-balanced.Howev er, in practice, real world data often have a long-tailed distribution. In this paper, we introduce a meta-learning based cross-modal hashing method (MetaCMH) to handle long-tailed data. Due to the lack of training samples in the tail classes, MetaCMH first learns direct features from data in different modalities, and then introduces an associative memory module to learn the memory features of samples of the tail classes. It then combines the direct and memory features to obtain meta features for each sample. For samples of the head classes of the long tail distribution, the weight of the direct features is larger, because there are enough training data to learn them well; while for rare classes, the weight of the memory features is larger. Finally, MetaCMH uses a likelihood loss function to preserve the similarity in different modalities and learns hash functions in an end-to-end fashion. Experiments on long-tailed datasets show that MetaCMH performs significantly better than state-of-the-art methods, especially on the tail classes.
翻訳日:2021-11-10 05:30:11 公開日:2021-11-07
# (参考訳) ハンガリー英語用ニューラルマシン翻訳モデルの開発

Developing neural machine translation models for Hungarian-English ( http://arxiv.org/abs/2111.04099v1 )

ライセンス: CC BY 4.0
Attila Nagy(参考訳) 私は、Hunglish2コーパスを使用して、英語とハンガリー語とハンガリー英語のニューラルマシン翻訳タスクのモデルをトレーニングします。 この研究の主な貢献は、NMTモデルのトレーニング中に異なるデータ拡張方法を評価することである。 そこで本稿では,単語の空白や置換をランダムに選択する代わりに,文の係り受け木を拡張の基盤として用いた構造認識手法を5種類提案する。 私はまず、ニューラルネットワーク、シーケンシャルモデリング、ニューラルマシン翻訳、依存性解析、データ拡張に関する詳細な文献レビューから始めます。 hunglish2コーパスの詳細な探索データ解析と前処理を行った後,提案するデータ拡張手法を用いて実験を行った。 ハンガリー語で最良のモデルはBLEUスコア33.9、英語で最高のモデルはBLEUスコア28.6である。

I train models for the task of neural machine translation for English-Hungarian and Hungarian-English, using the Hunglish2 corpus. The main contribution of this work is evaluating different data augmentation methods during the training of NMT models. I propose 5 different augmentation methods that are structure-aware, meaning that instead of randomly selecting words for blanking or replacement, the dependency tree of sentences is used as a basis for augmentation. I start my thesis with a detailed literature review on neural networks, sequential modeling, neural machine translation, dependency parsing and data augmentation. After a detailed exploratory data analysis and preprocessing of the Hunglish2 corpus, I perform experiments with the proposed data augmentation techniques. The best model for Hungarian-English achieves a BLEU score of 33.9, while the best model for English-Hungarian achieves a BLEU score of 28.6.
翻訳日:2021-11-10 05:16:39 公開日:2021-11-07
# (参考訳) NeurInt : ニューラルネットワークによる補間学習 [全文訳有]

NeurInt : Learning to Interpolate through Neural ODEs ( http://arxiv.org/abs/2111.04123v1 )

ライセンス: CC BY 4.0
Avinandan Bose, Aniket Das, Yatin Dandi, Piyush Rai(参考訳) 幅広いアプリケーションでは、潜在空間がデータ分布に存在する変動の高レベルな要素を効果的に捉えている画像生成モデルを学習する必要がある。 モデルがその潜在空間を通してそのようなバリエーションを表現する範囲は、画像間の補間をスムーズに行う能力によって判断できる。 しかし、生成した画像に固定された画像をマッピングするほとんどの生成モデルは、滑らかさに欠け、画質の低下した画像を含む補間軌道につながる。 本研究では,一対のソースとターゲット画像に条件付けされた補間軌道上のフレキシブルな非パラメトリック事前学習モデルを提案する。 決定論的補間法(潜在空間における線形補間や球面補間など)に頼る代わりに、潜在二階神経常微分方程式を用いて2つの画像間の軌跡分布を学習する枠組みを考案する。 リコンストラクションと敵対的損失のハイブリッドにより、ジェネレータはこれらの軌道からサンプリングされた点を、ソースからターゲット画像へスムーズに遷移する現実的な画像のシーケンスにマッピングするように訓練される。 総合的な質的および定量的な実験を通じて、改良された画質の画像を生成するためのアプローチの有効性と、任意の実画像と対象画像に対する滑らかな補間軌道上の多様な分布を学習する能力を示す。

A wide range of applications require learning image generation models whose latent space effectively captures the high-level factors of variation present in the data distribution. The extent to which a model represents such variations through its latent space can be judged by its ability to interpolate between images smoothly. However, most generative models mapping a fixed prior to the generated images lead to interpolation trajectories lacking smoothness and containing images of reduced quality. In this work, we propose a novel generative model that learns a flexible non-parametric prior over interpolation trajectories, conditioned on a pair of source and target images. Instead of relying on deterministic interpolation methods (such as linear or spherical interpolation in latent space), we devise a framework that learns a distribution of trajectories between two given images using Latent Second-Order Neural Ordinary Differential Equations. Through a hybrid combination of reconstruction and adversarial losses, the generator is trained to map the sampled points from these trajectories to sequences of realistic images that smoothly transition from the source to the target image. Through comprehensive qualitative and quantitative experiments, we demonstrate our approach's effectiveness in generating images of improved quality as well as its ability to learn a diverse distribution over smooth interpolation trajectories for any pair of real source and target images.
翻訳日:2021-11-10 05:15:38 公開日:2021-11-07
# (参考訳) 感情認識のためのグローバルローカル注意 [全文訳有]

Global-Local Attention for Emotion Recognition ( http://arxiv.org/abs/2111.04129v1 )

ライセンス: CC BY 4.0
Nhat Le, Khanh Nguyen, Anh Nguyen, Bac Le(参考訳) 人間の感情認識は人工知能の活発な研究分野であり、ここ数年でかなりの進歩を遂げている。 近年の多くの研究は、人間の愛情を推測するための顔領域に焦点を当てているが、周囲の文脈情報は効果的に利用されていない。 本稿では,新たなグローバルアテンション機構を用いて,人間の感情を効果的に認識するディープネットワークを提案する。 我々のネットワークは、顔領域とコンテキスト領域の両方から独立して特徴を抽出し、アテンションモジュールを使ってそれらを一緒に学習するように設計されている。 このように、顔情報も文脈情報も人間の感情を推測するために用いられるため、分類器の識別が促進される。 集中的な実験により,最近の感情データセットにおける現在の最先端手法をかなりのマージンで超えていることが示された。 グローバルなアテンションモジュールは,従来の手法よりも意味のあるアテンションマップを抽出できる。 私たちのネットワークのソースコードとトレーニングされたモデルは、https://github.com/m inhnhatvt/glamor-net で利用可能です。

Human emotion recognition is an active research area in artificial intelligence and has made substantial progress over the past few years. Many recent works mainly focus on facial regions to infer human affection, while the surrounding context information is not effectively utilized. In this paper, we proposed a new deep network to effectively recognize human emotions using a novel global-local attention mechanism. Our network is designed to extract features from both facial and context regions independently, then learn them together using the attention module. In this way, both the facial and contextual information is used to infer human emotions, therefore enhancing the discrimination of the classifier. The intensive experiments show that our method surpasses the current state-of-the-art methods on recent emotion datasets by a fair margin. Qualitatively, our global-local attention module can extract more meaningful attention maps than previous methods. The source code and trained model of our network are available at https://github.com/m inhnhatvt/glamor-net
翻訳日:2021-11-10 05:00:46 公開日:2021-11-07
# (参考訳) デザインの限界:社会的善のための人工知能設計における概念制約とは何か? [全文訳有]

On the Limits of Design: What Are the Conceptual Constraints on Designing Artificial Intelligence for Social Good? ( http://arxiv.org/abs/2111.04165v1 )

ライセンス: CC BY 4.0
Jakob Mokander(参考訳) 人工知能AIは、コスト削減、効率の向上、複雑な問題に対する新しい解決策の実現を支援することで、社会に多大な利益をもたらすことができる。 この章では、フローリディの「環境」を出発点として設計する方法という概念を使って、デザインの限界とは何か、つまり、社会的善のためにAIを設計するという概念的な制約は何か、という疑問を考えます。 この章の主な論点は、デザインは技術や社会を形成する上で有用な概念的ツールであるが、将来の社会をデザインするための集団的努力は、内的要因と外的要因の両方によって制約されるということである。 設計に関する内部制約は、ハーディンの「庶民の悲劇」に関する思考実験によって議論される。 さらに、ハイエクの古典的な「コスモス」と「タキシー」の区別は、デザインの外部的制約を明確にするために用いられる。 最後に、政策立案者が設計に関する内外の制約を管理するのを支援する5つの設計原則が提示される。 将来の社会をデザインするのに成功するアプローチは、セレンディピティと社会技術共進化のための空間を許可することで、複雑なシステムの創発的特性を考慮しなければならない。

Artificial intelligence AI can bring substantial benefits to society by helping to reduce costs, increase efficiency and enable new solutions to complex problems. Using Floridi's notion of how to design the 'infosphere' as a starting point, in this chapter I consider the question: what are the limits of design, i.e. what are the conceptual constraints on designing AI for social good? The main argument of this chapter is that while design is a useful conceptual tool to shape technologies and societies, collective efforts towards designing future societies are constrained by both internal and external factors. Internal constraints on design are discussed by evoking Hardin's thought experiment regarding 'the Tragedy of the Commons'. Further, Hayek's classical distinction between 'cosmos' and 'taxis' is used to demarcate external constraints on design. Finally, five design principles are presented which are aimed at helping policymakers manage the internal and external constraints on design. A successful approach to designing future societies needs to account for the emergent properties of complex systems by allowing space for serendipity and socio-technological coevolution.
翻訳日:2021-11-10 04:41:13 公開日:2021-11-07
# (参考訳) チームワークがフォン・ノイマンを働かせる: 2チームゼロサムゲームにおける最小最適化 [全文訳有]

Teamwork makes von Neumann work: Min-Max Optimization in Two-Team Zero-Sum Games ( http://arxiv.org/abs/2111.04178v1 )

ライセンス: CC BY 4.0
Fivos Kalogiannis, Emmanouil-Vasileios Vlatakis-Gkaragkouni s, Ioannis Panageas(参考訳) チームゼロサムゲームにおける,eスポーツからマルチエージェント生成逆数ネットワークにまたがる,マルチプレイヤーゲームの理論的・応用的側面の最近の進歩に着目し,min-max最適化に着目する。 このクラスでは、プレイヤーは2つのチームに分かれ、同じチーム内と反対のチーム間で対等に報酬が支払われる。 教科書の2プレイヤーゼロサムゲームとは異なり、クラス内のナッシュ均衡を見つけることは CLS-hard、すなわち、ナッシュ平衡を計算する多項式時間アルゴリズムを持つことは不可能である。 さらに, この一般化された枠組みでは, 漸近的な最終反復あるいはナッシュ平衡への時間平均収束は, 勾配降下上昇 (gda) やその楽観的変種, 余分な勾配を用いては不可能であることを示す。 具体的には、誘導効用が \emph{non} multi-linear with \emph{non} attractive \emph{per-se} mixed Nash Equilibria を基礎となる最適化景観の厳密なサドルポイントとして提示する。 制御理論の手法を活用し,nash平衡に局所収束する修正gdaを設計することにより,これらの負の結果を補完する。 最後に,マルチエージェント生成型adversarial networkのようなチームコンペティション構造とaiアーキテクチャとの接続について論じる。

Motivated by recent advances in both theoretical and applied aspects of multiplayer games, spanning from e-sports to multi-agent generative adversarial networks, we focus on min-max optimization in team zero-sum games. In this class of games, players are split in two teams with payoffs equal within the same team and of opposite sign across the opponent team. Unlike the textbook two-player zero-sum games, finding a Nash equilibrium in our class can be shown to be CLS-hard, i.e., it is unlikely to have a polynomial time algorithm for computing Nash equilibria. Moreover in this generalized framework, we establish that even asymptotic last iterate or time average convergence to a Nash Equilibrium is not possible using Gradient Descent Ascent (GDA), its optimistic variant and extra gradient. Specifically, we present a family of team games whose induced utility is \emph{non} multi-linear with \emph{non} attractive \emph{per-se} mixed Nash Equilibria, as strict saddle points of the underlying optimization landscape. Leveraging techniques from control theory, we complement these negative results by designing a modified GDA that converges locally to Nash equilibria. Finally, we discuss connections of our framework with AI architectures with team competition structure like multi-agent generative adversarial networks.
翻訳日:2021-11-10 04:27:07 公開日:2021-11-07
# (参考訳) VizAI : 数値データの正確な可視化の選択 [全文訳有]

VizAI : Selecting Accurate Visualizations of Numerical Data ( http://arxiv.org/abs/2111.04190v1 )

ライセンス: CC BY 4.0
Ritvik Vij and Rohit Raj and Madhur Singhal and Manish Tanwar and Srikanta Bedathur(参考訳) 良いデータの可視化は、データの歪みのないグラフィカル表現であるだけでなく、データの基本的な統計特性を明らかにする方法でもある。 データ分析のさまざまな段階でよく使われるが、良い視覚化を選択することは、多くのイテレーションを伴う手動のプロセスであることが多い。 近年、視覚化を推奨できるモデルを開発することで、この取り組みを減らすことに関心が寄せられているが、これは大規模なトレーニングサンプル(データと視覚化ペア)を必要とし、選択した視覚化の有効性を評価することよりも、設計面に重点を置いているため、限られた用途である。 本稿では、まず、データの様々な統計特性を複数の代替視覚化から生成する生成識別フレームワークであるVizAIについて述べる。 これは、可視化されるデータの真の統計に最もよくマッチする可視化を選択する識別モデルに関連付けられている。 VizAIは、最小限の監督で容易に訓練でき、様々な監督レベルの設定に適応できる。 クラウドソースによる判断と公開可能な視覚化の大規模なリポジトリを使用して、VizAIが視覚化を推奨する技術手法の状態を上回ります。

A good data visualization is not only a distortion-free graphical representation of data but also a way to reveal underlying statistical properties of the data. Despite its common use across various stages of data analysis, selecting a good visualization often is a manual process involving many iterations. Recently there has been interest in reducing this effort by developing models that can recommend visualizations, but they are of limited use since they require large training samples (data and visualization pairs) and focus primarily on the design aspects rather than on assessing the effectiveness of the selected visualization. In this paper, we present VizAI, a generative-discrimin ative framework that first generates various statistical properties of the data from a number of alternative visualizations of the data. It is linked to a discriminative model that selects the visualization that best matches the true statistics of the data being visualized. VizAI can easily be trained with minimal supervision and adapts to settings with varying degrees of supervision easily. Using crowd-sourced judgements and a large repository of publicly available visualizations, we demonstrate that VizAI outperforms the state of the art methods that learn to recommend visualizations.
翻訳日:2021-11-10 04:00:57 公開日:2021-11-07
# (参考訳) 音声認識のためのパーソナライズされた音響モデルからの話者情報検索 [全文訳有]

Retrieving Speaker Information from Personalized Acoustic Models for Speech Recognition ( http://arxiv.org/abs/2111.04194v1 )

ライセンス: CC BY 4.0
Salima Mdhaffar, Jean-Fran\c{c}ois Bonastre, Marc Tommasi, Natalia Tomashenko, Yannick Est\`eve(参考訳) ユーザの声を収集できる強力なパーソナルデバイスの普及により、話者適応型音声認識システム(asr)を構築したり、asrの協調学習に参加する機会が開かれた。 いずれの場合も、特定の話者データを持つ微調整amであるパーソナライズされた音響モデル(am)を構築することができる。 自然に生じる問題は、パーソナライズされた音響モデルの普及によって個人情報が漏洩するかどうかである。 本稿では,この話者に局所的に適応した神経音響モデルの重み行列変化を活用すれば,話者の性別だけでなく,その同一性も検索できることを示す。 また,音声処理の文脈において,ディープニューラルネットワークの説明可能性に有用な現象を観察する。 ジェンダーは第1層のみを使用してほぼ確実に識別でき、中間層を使用する場合の話者検証は良好である。 HMM/TDNNモデルを用いたTED-Lium 3データセットの実験的研究は、ユーザのデータの代わりに交換可能なパーソナライズされたモデルからのみ重みを利用するだけで、ジェンダー検出の95%の精度と話者検証タスクの等誤差率9.07%を示す。

The widespread of powerful personal devices capable of collecting voice of their users has opened the opportunity to build speaker adapted speech recognition system (ASR) or to participate to collaborative learning of ASR. In both cases, personalized acoustic models (AM), i.e. fine-tuned AM with specific speaker data, can be built. A question that naturally arises is whether the dissemination of personalized acoustic models can leak personal information. In this paper, we show that it is possible to retrieve the gender of the speaker, but also his identity, by just exploiting the weight matrix changes of a neural acoustic model locally adapted to this speaker. Incidentally we observe phenomena that may be useful towards explainability of deep neural networks in the context of speech processing. Gender can be identified almost surely using only the first layers and speaker verification performs well when using middle-up layers. Our experimental study on the TED-LIUM 3 dataset with HMM/TDNN models shows an accuracy of 95% for gender detection, and an Equal Error Rate of 9.07% for a speaker verification task by only exploiting the weights from personalized models that could be exchanged instead of user data.
翻訳日:2021-11-10 03:48:14 公開日:2021-11-07
# (参考訳) TaCL: Token-Aware Contrastive Learning によるBERT事前学習の改善 [全文訳有]

TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning ( http://arxiv.org/abs/2111.04198v1 )

ライセンス: CC BY 4.0
Yixuan Su and Fangyu Liu and Zaiqiao Meng and Lei Shu and Ehsan Shareghi and Nigel Collier(参考訳) BERTやRoBERTaのような仮面言語モデル(MLM)は、ここ数年で自然言語理解の分野に革命をもたらした。 しかし、既存の事前訓練されたmlmsは、しばしば表現空間全体の狭い部分集合を占めるトークン表現の異方性分布を出力する。 このようなトークン表現は、特に異なるトークンの識別意味の意味を要求されるタスクにとって理想的ではない。 本研究では,トークン表現の等方的,差別的な分布をBERTが学習することを奨励する,新たな事前学習手法であるTaCL(Token-aware Contrastive Learning)を提案する。 TaCLは完全に教師なしで、追加のデータを必要としない。 我々は、幅広い英語と中国語のベンチマークで我々のアプローチを広範囲にテストした。 その結果、TaCLはBERTモデルよりも一貫性があり、注目すべき改善をもたらすことがわかった。 さらに,我々のアプローチのメリットと内的作業を明らかにするために,詳細なアブレーション研究と慎重に分析を行う。

Masked language models (MLMs) such as BERT and RoBERTa have revolutionized the field of Natural Language Understanding in the past few years. However, existing pre-trained MLMs often output an anisotropic distribution of token representations that occupies a narrow subset of the entire representation space. Such token representations are not ideal, especially for tasks that demand discriminative semantic meanings of distinct tokens. In this work, we propose TaCL (Token-aware Contrastive Learning), a novel continual pre-training approach that encourages BERT to learn an isotropic and discriminative distribution of token representations. TaCL is fully unsupervised and requires no additional data. We extensively test our approach on a wide range of English and Chinese benchmarks. The results show that TaCL brings consistent and notable improvements over the original BERT model. Furthermore, we conduct detailed ablation study and careful analysis to reveal the merits and inner-workings of our approach.
翻訳日:2021-11-10 03:40:00 公開日:2021-11-07
# (参考訳) 自然敵物 [全文訳有]

Natural Adversarial Objects ( http://arxiv.org/abs/2111.04204v1 )

ライセンス: CC BY 4.0
Felix Lau, Nishant Subramani, Sasha Harrison, Aerin Kim, Elliot Branson and Rosanne Liu(参考訳) 最先端のオブジェクト検出手法は説得力のある性能を示しているが、モデルはしばしば敵の攻撃や分散データに対して堅牢ではない。 オブジェクト検出モデルの堅牢性を評価するために,新しいデータセットであるNatural Adversarial Objects (NAO)を導入する。 NAOには7,934の画像と9,943のオブジェクトが含まれており、これは修正されず、現実のシナリオを表しているが、最先端の検出モデルは高い信頼性で誤分類される。 EfficientDet-D7の平均平均精度(mAP)は、標準的なMSCOCO検証セットと比較してNAOで評価すると74.5%低下する。 さらに、様々なオブジェクト検出アーキテクチャを比較することで、mscocoバリデーションセットのより良いパフォーマンスは必ずしもnaoのより良いパフォーマンスをもたらすものではないことが分かり、より正確なモデルをトレーニングすることでロバスト性が達成できないことを示唆する。 NAOの例はなぜ検出・分類が難しいのかをさらに検討する。 シャッフル画像パッチの実験により、モデルは局所的なテクスチャに過度に敏感であることが判明した。 さらに,組込み勾配と背景置換を用いて,検出モデルは境界ボックス内の画素情報に依存しており,クラスラベルの予測時に背景コンテキストに敏感であることがわかった。 NAOはhttps://drive.google .com/drive/folders/1 5P8sOWoJku6SSEiHLEts 86ORfytGezi8でダウンロードできる。

Although state-of-the-art object detection methods have shown compelling performance, models often are not robust to adversarial attacks and out-of-distribution data. We introduce a new dataset, Natural Adversarial Objects (NAO), to evaluate the robustness of object detection models. NAO contains 7,934 images and 9,943 objects that are unmodified and representative of real-world scenarios, but cause state-of-the-art detection models to misclassify with high confidence. The mean average precision (mAP) of EfficientDet-D7 drops 74.5% when evaluated on NAO compared to the standard MSCOCO validation set. Moreover, by comparing a variety of object detection architectures, we find that better performance on MSCOCO validation set does not necessarily translate to better performance on NAO, suggesting that robustness cannot be simply achieved by training a more accurate model. We further investigate why examples in NAO are difficult to detect and classify. Experiments of shuffling image patches reveal that models are overly sensitive to local texture. Additionally, using integrated gradients and background replacement, we find that the detection model is reliant on pixel information within the bounding box, and insensitive to the background context when predicting class labels. NAO can be downloaded at https://drive.google .com/drive/folders/1 5P8sOWoJku6SSEiHLEts 86ORfytGezi8.
翻訳日:2021-11-10 03:28:43 公開日:2021-11-07
# learn-morph-infer:脳腫瘍モデルにおける逆問題を解く新しい方法

Learn-Morph-Infer: a new way of solving the inverse problem for brain tumor modeling ( http://arxiv.org/abs/2111.04090v1 )

ライセンス: Link先を確認
Ivan Ezhov, Kevin Scibilia, Katharina Franitza, Felix Steinbauer, Suprosanna Shit, Lucas Zimmer, Jana Lipkova, Florian Kofler, Johannes Paetzold, Luca Canalini, Diana Waldmannstetter, Martin Menten, Marie Metz, Benedikt Wiestler, and Bjoern Menze(参考訳) 脳腫瘍と診断された患者の現在の治療計画は、腫瘍細胞濃度の空間的分布にアクセスすることで著しく有益である。 磁気共鳴イメージング(MRI)のような既存の診断法は、高い細胞密度の十分な良い領域と対比する。 しかし、低濃度の領域を描写せず、治療後の二次的な腫瘍の出現の源となることが多い。 腫瘍増殖の数値シミュレーションは、腫瘍細胞の全空間分布の推定を提供することで、画像情報を補完することができる。 近年、医用画像に基づく腫瘍モデリングに関する文献のコーパスが出版された。 前方腫瘍成長モデルを記述する様々な数学的形式を含んでいる。 同時に,腫瘍モデルパーソナライゼーション,すなわち逆問題の解決を行うために,様々なパラメトリック推論手法が開発された。 しかしながら、既存のすべてのアプローチの欠点は、モデルパーソナライゼーションの時間的複雑さであり、モデルが臨床設定に潜在的に統合されることを禁止している。 本研究では,T1GdとFLAIR MRIによる脳腫瘍の患者特異的空間分布を推定する手法を提案する。 この方法は \textit{learn-morph-infer} と呼ばれ、広く利用可能なハードウェア上で数分単位でリアルタイムのパフォーマンスを達成し、反応拡散モデルや反応吸着拡散モデルのような異なる複雑性の腫瘍モデル間で計算時間は安定である。 提案手法は脳腫瘍のパーソナライズを臨床的に翻訳する方法を橋渡しするだけでなく,他の科学的・工学的領域にも適用できると考えている。

Current treatment planning of patients diagnosed with brain tumor could significantly benefit by accessing the spatial distribution of tumor cell concentration. Existing diagnostic modalities, such as magnetic-resonance imaging (MRI), contrast sufficiently well areas of high cell density. However, they do not portray areas of low concentration, which can often serve as a source for the secondary appearance of the tumor after treatment. Numerical simulations of tumor growth could complement imaging information by providing estimates of full spatial distributions of tumor cells. Over recent years a corpus of literature on medical image-based tumor modeling was published. It includes different mathematical formalisms describing the forward tumor growth model. Alongside, various parametric inference schemes were developed to perform an efficient tumor model personalization, i.e. solving the inverse problem. However, the unifying drawback of all existing approaches is the time complexity of the model personalization that prohibits a potential integration of the modeling into clinical settings. In this work, we introduce a methodology for inferring patient-specific spatial distribution of brain tumor from T1Gd and FLAIR MRI medical scans. Coined as \textit{Learn-Morph-Infer} the method achieves real-time performance in the order of minutes on widely available hardware and the compute time is stable across tumor models of different complexity, such as reaction-diffusion and reaction-advection-d iffusion models. We believe the proposed inverse solution approach not only bridges the way for clinical translation of brain tumor personalization but can also be adopted to other scientific and engineering domains.
翻訳日:2021-11-09 17:52:32 公開日:2021-11-07
# 強化学習によるモデル予測制御メタパラメータの最適化

Optimization of the Model Predictive Control Meta-Parameters Through Reinforcement Learning ( http://arxiv.org/abs/2111.04146v1 )

ライセンス: Link先を確認
Eivind B{\o}hn, Sebastien Gros, Signe Moe, and Tor Arne Johansen(参考訳) モデル予測制御(MPC)は、高速システムと組み込みアプリケーションの制御のためにますます検討されている。 しかし、MPCにはそのようなシステムにいくつかの大きな課題がある。 その高い計算複雑性は、制御アルゴリズムからの高消費電力をもたらし、バッテリー駆動組込みシステムにおけるエネルギー資源のかなりの割合を占める可能性がある。 MPCパラメータは調整されなければならないが、これは主に制御性能、堅牢性、およびコントローラの計算複雑性に影響を及ぼす試行錯誤プロセスである。 本稿では,制御アルゴリズムの制御性能と消費電力を同時に最適化することを目的として,強化学習(RL)を用いて制御アルゴリズムのパラメータを協調的に調整できる新しいフレームワークを提案する。 本稿では,mpcプロブレムの構造に影響を与えるパラメータを,与えられた問題に対する解とは対照的に,mpcのメタパラメータをrlで最適化する新しいアイデアを提案する。 我々の制御アルゴリズムはイベントトリガーMPCに基づいており、MPCがいつ再コンパイルされるべきかを学習し、デュアルモードMPCと線形状態フィードバック制御法がMPC計算に適用される。 我々は,新しい混合分配政策を定式化し,共同最適化により,同じパラメータを独立に最適化する際に,自己に存在しない改善を実現することを示す。 倒立振子制御タスクの枠組みを実証し,制御系全体の計算時間を36%削減するとともに,最上位のmpcベースラインに対する制御性能を18.4%向上させた。

Model predictive control (MPC) is increasingly being considered for control of fast systems and embedded applications. However, the MPC has some significant challenges for such systems. Its high computational complexity results in high power consumption from the control algorithm, which could account for a significant share of the energy resources in battery-powered embedded systems. The MPC parameters must be tuned, which is largely a trial-and-error process that affects the control performance, the robustness and the computational complexity of the controller to a high degree. In this paper, we propose a novel framework in which any parameter of the control algorithm can be jointly tuned using reinforcement learning(RL), with the goal of simultaneously optimizing the control performance and the power usage of the control algorithm. We propose the novel idea of optimizing the meta-parameters of MPCwith RL, i.e. parameters affecting the structure of the MPCproblem as opposed to the solution to a given problem. Our control algorithm is based on an event-triggered MPC where we learn when the MPC should be re-computed, and a dual mode MPC and linear state feedback control law applied in between MPC computations. We formulate a novel mixture-distribution policy and show that with joint optimization we achieve improvements that do not present themselves when optimizing the same parameters in isolation. We demonstrate our framework on the inverted pendulum control task, reducing the total computation time of the control system by 36% while also improving the control performance by 18.4% over the best-performing MPC baseline.
翻訳日:2021-11-09 17:52:06 公開日:2021-11-07
# 固定翼UAVの姿勢制御のためのデータ効率の良い深部強化学習:フィールド実験

Data-Efficient Deep Reinforcement Learning for Attitude Control of Fixed-Wing UAVs: Field Experiments ( http://arxiv.org/abs/2111.04153v1 )

ライセンス: Link先を確認
Eivind B{\o}hn, Erlend M. Coates, Dirk Reinhardt, and Tor Arne Johansen(参考訳) 固定翼無人航空機(UAV)の姿勢制御は、不確実な非線形力学、アクチュエータの制約、縦横運動の結合などにより、部分的には難しい制御問題である。 現在のオートパイロットは線形制御に基づいており、その効果と性能に制限がある。 深層強化学習(drl)は、複雑な非線形ダイナミクスを扱う制御系との相互作用を通じて最適な制御法則を自動的に発見する機械学習手法である。 本稿では,DRLが元の非線形力学を直接操作する固定翼UAVの姿勢制御を,最大3分間の飛行データで行うことができることを示す。 我々はまず、まずシミュレーション環境でモデルをトレーニングし、次にUAVで学習したコントローラを飛行テストで展開し、オンライン学習を必要とせず、最先端のArduPlane Proportional-integra l-deivative(PID)姿勢制御と同等の性能を示す。 学習したコントローラの動作をよりよく理解するために、既存のよく調整されたPIDコントローラとの比較を含め、その動作の分析を行う。

Attitude control of fixed-wing unmanned aerial vehicles (UAVs)is a difficult control problem in part due to uncertain nonlinear dynamics, actuator constraints, and coupled longitudinal and lateral motions. Current state-of-the-art autopilots are based on linear control and are thus limited in their effectiveness and performance. Deep reinforcement learning (DRL) is a machine learning method to automatically discover optimal control laws through interaction with the controlled system, that can handle complex nonlinear dynamics. We show in this paper that DRL can successfully learn to perform attitude control of a fixed-wing UAV operating directly on the original nonlinear dynamics, requiring as little as three minutes of flight data. We initially train our model in a simulation environment and then deploy the learned controller on the UAV in flight tests, demonstrating comparable performance to the state-of-the-art ArduPlaneproportiona l-integral-derivativ e (PID) attitude controller with no further online learning required. To better understand the operation of the learned controller we present an analysis of its behaviour, including a comparison to the existing well-tuned PID controller.
翻訳日:2021-11-09 17:51:43 公開日:2021-11-07
# エスケープ問題の準ポテンシャル理論:局所ミニマからのsgdのエスケープに対する定量的シャープネス効果

Quasi-potential theory for escape problem: Quantitative sharpness effect on SGD's escape from local minima ( http://arxiv.org/abs/2111.04004v1 )

ライセンス: Link先を確認
Hikaru Ibayashi and Masaaki Imaizumi(参考訳) 本研究では,確率勾配降下(SGD)アルゴリズムの脱落問題に関する定量的理論を開発し,脱落面の鋭さが脱落に及ぼす影響について検討する。 深層学習は様々な領域で大きな成功を収めてきたが、様々な理論的なオープンな疑問が開かれている。 典型的な疑問の1つは、なぜSGDが非凸損失曲面に対してよく一般化するパラメータを見つけることができるのかである。 エスケープ問題はこの問題に対処するためのアプローチであり、SGDがローカル・ミニマからいかに効率的に脱出するかを調べる。 本稿では,確率力学系の理論を適用して,脱走問題に対する準ポテンシャル理論を開発する。 準ポテンシャル理論は、損失面の幾何学的性質と勾配雑音の共分散構造を統一的に扱うことができるが、これらは以前の研究で別々に研究されている。 私たちの理論的結果は (i)損失面の鋭さは、sgdのゆっくりとした脱出に寄与し、 (II)SGDのノイズ構造は効果をキャンセルし、エスケープを指数的に加速する。 また,実データを用いて学習したニューラルネットワークを用いて実験を行い,理論を実証的に検証した。

We develop a quantitative theory on an escape problem of a stochastic gradient descent (SGD) algorithm and investigate the effect of sharpness of loss surfaces on the escape. Deep learning has achieved tremendous success in various domains, however, it has opened up various theoretical open questions. One of the typical questions is why an SGD can find parameters that generalize well over non-convex loss surfaces. An escape problem is an approach to tackle this question, which investigates how efficiently an SGD escapes from local minima. In this paper, we develop a quasi-potential theory for the escape problem, by applying a theory of stochastic dynamical systems. We show that the quasi-potential theory can handle both geometric properties of loss surfaces and a covariance structure of gradient noise in a unified manner, while they have been separately studied in previous works. Our theoretical results imply that (i) the sharpness of loss surfaces contributes to the slow escape of an SGD, and (ii) the SGD's noise structure cancels the effect and exponentially accelerates the escape. We also conduct experiments to empirically validate our theory using neural networks trained with real data.
翻訳日:2021-11-09 17:29:52 公開日:2021-11-07
# ゼロフラクション多相試験と非対称切断決定木による正の検証と説明可能性

Positivity Validation Detection and Explainability via Zero Fraction Multi-Hypothesis Testing and Asymmetrically Pruned Decision Trees ( http://arxiv.org/abs/2111.04033v1 )

ライセンス: Link先を確認
Guy Wolf, Gil Shabat, Hanan Shteingart(参考訳) 陽性は、観測データから因果推論を行う3つの条件の1つである。 正当性を検証する標準的な方法は、正当性の分布を分析することである。 しかし、非専門家による因果推論の能力を民主化するためには、アルゴリズムを設計する必要がある。 (i)肯定性を検査し、 (ii)共変量空間の正の欠如について説明する。 後者は、さらなる因果解析の限界を示唆したり、肯定性に反する実験を奨励するために用いられる。 本論文の貢献は, 第一に, 自動ポジティビティ解析の問題を提示し, 第二に, 2ステッププロセスに基づくアルゴリズムを提案することである。 最初のステップは、共変量に対する確率条件をモデル化し、次に複数の仮説テストを用いて後者の分布を分析して、肯定的違反ラベルを生成する。 第2のステップは、説明可能性のために非対称に刈り取られた決定木を使用する。 後者は、非専門家が理解できる読みやすいテキストに変換される。 我々は,大規模ソフトウェア企業のプロプライエタリなデータセット上で本手法を実証する。

Positivity is one of the three conditions for causal inference from observational data. The standard way to validate positivity is to analyze the distribution of propensity. However, to democratize the ability to do causal inference by non-experts, it is required to design an algorithm to (i) test positivity and (ii) explain where in the covariate space positivity is lacking. The latter could be used to either suggest the limitation of further causal analysis and/or encourage experimentation where positivity is violated. The contribution of this paper is first present the problem of automatic positivity analysis and secondly to propose an algorithm based on a two steps process. The first step, models the propensity condition on the covariates and then analyze the latter distribution using multiple hypothesis testing to create positivity violation labels. The second step uses asymmetrically pruned decision trees for explainability. The latter is further converted into readable text a non-expert can understand. We demonstrate our method on a proprietary data-set of a large software enterprise.
翻訳日:2021-11-09 17:29:32 公開日:2021-11-07
# 薬物様分子の構造認識

Structure-aware generation of drug-like molecules ( http://arxiv.org/abs/2111.04107v1 )

ライセンス: Link先を確認
Pavol Drot\'ar, Arian Rokkum Jamasb, Ben Day, C\u{a}t\u{a}lina Cangea, Pietro Li\`o(参考訳) 構造に基づく薬物設計は、タンパク質ポケットの構造的および化学的相補性を示すリガンド分子の発見を伴う。 深層生成法は、新しい分子をスクラッチから提案し(デノボ設計)、化学空間の仮想的なスクリーニングを回避できることが示されている。 ほとんどのデノボモデルでは、詳細なリガンド-タンパク質相互作用と3Dポケット構造を組み込むことができない。 本研究では,分子空間内の3次元ポーズと協調して分子グラフを生成する新しい教師ありモデルを提案する。 分子はポケット内に原子単位で構築され、結晶データからの構造情報によって導かれる。 ドッキングベンチマークを用いてモデルを評価し, 誘導型生成により予測された結合親和性が8%向上し, 薬物類似性スコアが10%向上することを確認した。 さらに,本モデルでは,いくつかの既知の配位子を超える結合スコアを持つ分子を提案する。

Structure-based drug design involves finding ligand molecules that exhibit structural and chemical complementarity to protein pockets. Deep generative methods have shown promise in proposing novel molecules from scratch (de-novo design), avoiding exhaustive virtual screening of chemical space. Most generative de-novo models fail to incorporate detailed ligand-protein interactions and 3D pocket structures. We propose a novel supervised model that generates molecular graphs jointly with 3D pose in a discretised molecular space. Molecules are built atom-by-atom inside pockets, guided by structural information from crystallographic data. We evaluate our model using a docking benchmark and find that guided generation improves predicted binding affinities by 8% and drug-likeness scores by 10% over the baseline. Furthermore, our model proposes molecules with binding scores exceeding some known ligands, which could be useful in future wet-lab studies.
翻訳日:2021-11-09 17:29:16 公開日:2021-11-07
# plumber: マシンラーニングデータパイプラインのパフォーマンスボトルネックの診断と除去

Plumber: Diagnosing and Removing Performance Bottlenecks in Machine Learning Data Pipelines ( http://arxiv.org/abs/2111.04131v1 )

ライセンス: Link先を確認
Michael Kuchnik and Ana Klimovic and Jiri Simsa and George Amvrosiadis and Virginia Smith(参考訳) 入力データを取り込んで変換する入力パイプラインは、機械学習(ML)モデルをトレーニングする上で不可欠な部分である。 しかし、並列性、非同期性、および詳細なプロファイリング情報における可変性に関する推論を必要とするため、効率的な入力パイプラインの実装は困難である。 Googleのデータセンターで200万以上のMLジョブを分析してみると、モデルのトレーニングジョブのかなりの部分が、より高速な入力データパイプラインの恩恵を受けていることが分かります。 同時に、我々の分析では、ほとんどのジョブがホストハードウェアを飽和させておらず、ソフトウェアベースのボトルネックの方向を指し示しています。 これらの結果から,ML入力パイプラインのボトルネックを見つけるツールであるPlumberを提案する。 plumberは拡張可能で解釈可能な運用分析分析モデルを使用して、ホストリソース制約の下で並列処理、プリフェッチ、キャッシュを自動的にチューニングする。 5つの代表的MLパイプラインに対して、Plumberは、設定ミスのパイプラインに対して、最大46倍のスピードアップを取得する。 キャッシュを自動化することで、Plumberは最先端のチューナーと比較して、エンドツーエンドのスピードアップを40%以上獲得する。

Input pipelines, which ingest and transform input data, are an essential part of training Machine Learning (ML) models. However, it is challenging to implement efficient input pipelines, as it requires reasoning about parallelism, asynchrony, and variability in fine-grained profiling information. Our analysis of over 2 million ML jobs in Google datacenters reveals that a significant fraction of model training jobs could benefit from faster input data pipelines. At the same time, our analysis reveals that most jobs do not saturate host hardware, pointing in the direction of software-based bottlenecks. Motivated by these findings, we propose Plumber, a tool for finding bottlenecks in ML input pipelines. Plumber uses an extensible and interprettable operational analysis analytical model to automatically tune parallelism, prefetching, and caching under host resource constraints. Across five representative ML pipelines, Plumber obtains speedups of up to 46x for misconfigured pipelines. By automating caching, Plumber obtains end-to-end speedups of over 40% compared to state-of-the-art tuners.
翻訳日:2021-11-09 17:29:03 公開日:2021-11-07
# CoughTrigger:Earbuds IMUを用いたエネルギー効率高感度優先順位時系列分類器

CoughTrigger: Earbuds IMU Based Cough Detection Activator Using An Energy-efficient Sensitivity-prioriti zed Time Series Classifier ( http://arxiv.org/abs/2111.04185v1 )

ライセンス: Link先を確認
Shibo Zhang, Ebrahim Nemati, Minh Dinh, Nathan Folkman, Tousif Ahmed, Mahbubur Rahman, Jilong Kuang, Nabil Alshurafa, Alex Gao(参考訳) 持続的なせきは呼吸関連疾患の主要な症状である。 研究の注目は、特に新型コロナウイルス(COVID-19)のパンデミックの間、ウェアラブルを使用してうずくを検出するために支払われている。 あらゆる種類のセンサーの中で、マイクが最も広く使われている。 しかし、オーディオ信号を処理するのに必要な電力消費は、イヤーバッドのようなバッテリー限定の商用ウェアラブル製品において、連続的なオーディオベースの生地検出を妨げる。 本稿では,低消費電力センサ,慣性測定ユニット(IMU)を耳栓に装着したCoughTriggerについて,音声処理と分類のための高出力センサの起動を行う。 バッテリー消費が最小限のスタンバイサービスとして常時動作し、immから候補カフを検出すると音声ベースのカフ検出を起動することができる。 さらに、IMUの使用は、コウ検出の特異性の改善の恩恵をもたらす。 被験者45名を対象に実験を行い,IMUモデルによるAUCスコア0.77を得た。 また、その有効性は、フリーリビングデータおよびオンデバイス実装で検証した。

Persistent coughs are a major symptom of respiratory-related diseases. Increasing research attention has been paid to detecting coughs using wearables, especially during the COVID-19 pandemic. Among all types of sensors utilized, microphone is most widely used to detect coughs. However, the intense power consumption needed to process audio signals hinders continuous audio-based cough detection on battery-limited commercial wearable products, such as earbuds. We present CoughTrigger, which utilizes a lower-power sensor, an inertial measurement unit (IMU), in earbuds as a cough detection activator to trigger a higher-power sensor for audio processing and classification. It is able to run all-the-time as a standby service with minimal battery consumption and trigger the audio-based cough detection when a candidate cough is detected from IMU. Besides, the use of IMU brings the benefit of improved specificity of cough detection. Experiments are conducted on 45 subjects and our IMU-based model achieved 0.77 AUC score under leave one subject out evaluation. We also validated its effectiveness on free-living data and through on-device implementation.
翻訳日:2021-11-09 17:28:46 公開日:2021-11-07
# CubeLearn: 生ミリ波レーダ信号による人間の動作認識のためのエンドツーエンド学習

CubeLearn: End-to-end Learning for Human Motion Recognition from Raw mmWave Radar Signals ( http://arxiv.org/abs/2111.03976v1 )

ライセンス: Link先を確認
Peijun Zhao, Chris Xiaoxuan Lu, Bing Wang, Niki Trigoni and Andrew Markham(参考訳) mmWave FMCWレーダーは、近年、人間のジェスチャー/アクティビティ認識など、人間中心のアプリケーションに多大な研究関心を集めている。 既存のパイプラインのほとんどは、従来の離散フーリエ変換(dft)前処理とディープニューラルネットワーク分類器ハイブリッドメソッドに基づいて構築されている。 この作業では、一歩後退して、前処理モジュールを調べます。 そこで,従来のdft前処理の欠点を回避するために,生のレーダ信号から特徴を直接抽出し,mmwave fmcwレーダ認識アプリケーションのためのエンドツーエンドのディープニューラルネットワークを構築する学習可能な前処理モジュールcubelearnを提案する。 大規模な実験により、我々のCubeLearnモジュールは、異なるパイプラインの分類精度を一貫して改善し、特に以前より弱いモデルの恩恵を受けています。 本研究は,PCおよびエッジデバイス上での走行時間の評価とともに,モジュールの初期化手法と構造に関するアブレーション研究である。 この研究は、データキューブスライシングに対する様々なアプローチの比較にも役立ちます。 我々はタスク非依存設計を通じて,レーダ認識問題に対する汎用的なエンドツーエンドソリューションへの第一歩を提案する。

mmWave FMCW radar has attracted huge amount of research interest for human-centered applications in recent years, such as human gesture/activity recognition. Most existing pipelines are built upon conventional Discrete Fourier Transform (DFT) pre-processing and deep neural network classifier hybrid methods, with a majority of previous works focusing on designing the downstream classifier to improve overall accuracy. In this work, we take a step back and look at the pre-processing module. To avoid the drawbacks of conventional DFT pre-processing, we propose a learnable pre-processing module, named CubeLearn, to directly extract features from raw radar signal and build an end-to-end deep neural network for mmWave FMCW radar motion recognition applications. Extensive experiments show that our CubeLearn module consistently improves the classification accuracies of different pipelines, especially benefiting those previously weaker models. We provide ablation studies on initialization methods and structure of the proposed module, as well as an evaluation of the running time on PC and edge devices. This work also serves as a comparison of different approaches towards data cube slicing. Through our task agnostic design, we propose a first step towards a generic end-to-end solution for radar recognition problems.
翻訳日:2021-11-09 17:08:47 公開日:2021-11-07
# 有機フレキシブルバイオセンサーの機械学習によるe-jet印刷

Machine Learning-Assisted E-jet Printing of Organic Flexible Biosensors ( http://arxiv.org/abs/2111.03985v1 )

ライセンス: Link先を確認
Mehran Abbasi Shirsavar, Mehrnoosh Taghavimehr, Lionel J. Ouedraogo, Mojan Javaheripi, Nicole N. Hashemi, Farinaz Koushanfar, Reza Montazami(参考訳) 電気流体力学ジェット(e-jet)印刷技術により、複雑なソフト電子機器の高分解能印刷が可能となる。 そのため、従来のソフト電子機器の印刷技術と一致しない可能性を秘めている。 本研究では,電子ジェットプリント回路の電気伝導度を,キー印刷パラメータ(ノズル速度,インク流量,電圧)の関数として検討した。 収集した実験データセットを使用して、機械学習アルゴリズムをトレーニングし、印刷回路の特性をリアルタイムで予測できるモデルを確立する。 教師付き分類モデルを評価するために,精度パラメータを比較した。 決定木法では精度が71%以上向上できないため,モデル精度を向上させるために,より高度なアルゴリズムがデータセット上で実行される。 F測定値によると、K-NNモデル(k=10)とランダムフォレストは電極の導電率を分類する最良の方法である。 AdaBoostのアンサンブル学習の精度が最も高いのは10-15木(87%)である。

Electrohydrodynamic- jet (e-jet) printing technique enables the high-resolution printing of complex soft electronic devices. As such, it has an unmatched potential for becoming the conventional technique for printing soft electronic devices. In this study, the electrical conductivity of the e-jet printed circuits was studied as a function of key printing parameters (nozzle speed, ink flow rate, and voltage). The collected experimental dataset was then used to train a machine learning algorithm to establish models capable of predicting the characteristics of the printed circuits in real-time. Precision parameters were compared to evaluate the supervised classification models. Since decision tree methods could not increase the accuracy higher than 71%, more advanced algorithms are performed on our dataset to improve the precision of model. According to F-measure values, the K-NN model (k=10) and random forest are the best methods to classify the conductivity of electrodes. The highest accuracy of AdaBoost ensemble learning has resulted in the range of 10-15 trees (87%).
翻訳日:2021-11-09 17:08:25 公開日:2021-11-07
# DQRE-SCnet:スペクトルクラスタリングに基づく深部Q強化学習によるフェデレーションラーニングにおけるユーザ選択のための新しいハイブリッドアプローチ

DQRE-SCnet: A novel hybrid approach for selecting users in Federated Learning with Deep-Q-Reinforcement Learning based on Spectral Clustering ( http://arxiv.org/abs/2111.04105v1 )

ライセンス: Link先を確認
Mohsen Ahmadi, Ali Taghavirashidizadeh, Danial Javaheri, Armin Masoumian, Saeid Jafarzadeh Ghoushchi, Yaghoub Pourasad(参考訳) 現実の世界におけるセンシティブなデータに基づく機械学習モデルは、医療スクリーニングから病気のアウトブレイク、農業、産業、防衛科学まで幅広い分野の進歩を約束している。 多くのアプリケーションでは、学習参加者のコミュニケーションラウンドは、独自のプライベートデータセットを収集し、実際のデータで詳細な機械学習モデルを教え、これらのモデルを使用することの利点を共有することで恩恵を受ける。 既存のプライバシーやセキュリティ上の懸念から、ほとんどの人はトレーニングのための機密データ共有を避けている。 それぞれのユーザがローカルデータを中央のサーバに示さなければ、Federated Learningでは、さまざまなパーティが共用データ上で機械学習アルゴリズムをトレーニングできる。 この集団プライバシー学習の方法は、訓練中に重要なコミュニケーションを犠牲にする。 ほとんどの大規模機械学習アプリケーションは、さまざまなデバイスや場所で生成されたデータセットに基づいた分散学習を必要とする。 このようなデータセットは、さまざまなコンテキストがデバイスやロケーション間でのデータ配信に重大な違いをもたらしているため、分散学習に不可欠な障害となっている。 研究者は、連合学習システムにおいてデータプライバシを実現するいくつかの方法を提案している。 しかしながら、均質なローカルデータには依然として課題がある。 この研究アプローチでは、独立したデータベースの平衡のためにフェデレートラーニングでデータを共有するノード(ユーザ)を選択して、正確性を改善し、トレーニング時間を短縮し、収束性を高める。 そこで本研究では,DQRE-SCnetと呼ばれるスペクトルクラスタリングに基づくディープQReinforcement Learning Ensembleを併用して,各通信ラウンドにおけるデバイスサブセットを選択する。 その結果,連合学習に必要なコミュニケーションラウンド数を減らすことが可能であることが示されている。

Machine learning models based on sensitive data in the real-world promise advances in areas ranging from medical screening to disease outbreaks, agriculture, industry, defense science, and more. In many applications, learning participant communication rounds benefit from collecting their own private data sets, teaching detailed machine learning models on the real data, and sharing the benefits of using these models. Due to existing privacy and security concerns, most people avoid sensitive data sharing for training. Without each user demonstrating their local data to a central server, Federated Learning allows various parties to train a machine learning algorithm on their shared data jointly. This method of collective privacy learning results in the expense of important communication during training. Most large-scale machine-learning applications require decentralized learning based on data sets generated on various devices and places. Such datasets represent an essential obstacle to decentralized learning, as their diverse contexts contribute to significant differences in the delivery of data across devices and locations. Researchers have proposed several ways to achieve data privacy in Federated Learning systems. However, there are still challenges with homogeneous local data. This research approach is to select nodes (users) to share their data in Federated Learning for independent data-based equilibrium to improve accuracy, reduce training time, and increase convergence. Therefore, this research presents a combined Deep-QReinforcement Learning Ensemble based on Spectral Clustering called DQRE-SCnet to choose a subset of devices in each communication round. Based on the results, it has been displayed that it is possible to decrease the number of communication rounds needed in Federated Learning.
翻訳日:2021-11-09 16:47:23 公開日:2021-11-07
# ポートフォリオマネジメントのための説明可能な深層強化学習--実証的アプローチ

Explainable Deep Reinforcement Learning for Portfolio Management: An Empirical Approach ( http://arxiv.org/abs/2111.03995v1 )

ライセンス: Link先を確認
Mao Guan, Xiao-Yang Liu(参考訳) ポートフォリオ管理タスクにおいて、深層強化学習(DRL)が広く研究されている。 しかし、ディープニューラルネットワークのブラックボックスの性質のため、DRLベースのトレーディング戦略を理解するのは難しい。 本稿では,ポートフォリオ管理タスクにおけるDRLエージェントの戦略を説明するための実証的アプローチを提案する。 まず,先見の株式リターンを想定してポートフォリオの最適重み付けを求める基準モデルとして,後見の線形モデルを用いる。 特に、後方視における線形モデルの係数を基準特徴量として用いる。 第2に、DRLエージェントに対して、線形回帰モデルの下での報酬と特徴の間の係数である特徴量の定義に積分勾配を用いる。 第3に,単段予測と多段予測の2つのケースで予測能力について検討した。 特に,drlエージェントの特徴重みと参照特徴重みとの線形相関を計算し,機械学習法と同様に予測パワーを定量化する。 最後に、dow jones 30構成株のポートフォリオ管理タスクを01/01/2009から09/01/2021までの期間に評価する。 提案手法は,DRLエージェントが機械学習手法よりも強力な多段階予測能力を示すことを示す。

Deep reinforcement learning (DRL) has been widely studied in the portfolio management task. However, it is challenging to understand a DRL-based trading strategy because of the black-box nature of deep neural networks. In this paper, we propose an empirical approach to explain the strategies of DRL agents for the portfolio management task. First, we use a linear model in hindsight as the reference model, which finds the best portfolio weights by assuming knowing actual stock returns in foresight. In particular, we use the coefficients of a linear model in hindsight as the reference feature weights. Secondly, for DRL agents, we use integrated gradients to define the feature weights, which are the coefficients between reward and features under a linear regression model. Thirdly, we study the prediction power in two cases, single-step prediction and multi-step prediction. In particular, we quantify the prediction power by calculating the linear correlations between the feature weights of a DRL agent and the reference feature weights, and similarly for machine learning methods. Finally, we evaluate a portfolio management task on Dow Jones 30 constituent stocks during 01/01/2009 to 09/01/2021. Our approach empirically reveals that a DRL agent exhibits a stronger multi-step prediction power than machine learning methods.
翻訳日:2021-11-09 16:44:19 公開日:2021-11-07
# IoT対応スマートキャンパスにおけるリソース利用のモデル化と最適化

Modelling and Optimisation of Resource Usage in an IoT Enabled Smart Campus ( http://arxiv.org/abs/2111.04085v1 )

ライセンス: Link先を確認
Thanchanok Sutjarittham(参考訳) 大学のキャンパスは基本的には都市のマイクロコズムである。 住宅、スポーツセンター、講堂、駐車場、公共交通機関など多様な施設で構成されている。 大学は、学生、スタッフ、ビジターを含む様々な利害関係者により良い体験を提供しながら、効率を改善するために常に圧力をかけています。 それでも、データ収集と分析の欠如により、キャンパス資産が効率的に活用されていないという逸話的な証拠が示され、資源の配分と管理に関する決定を下す能力が制限される。 IoT(Internet of Things)技術の進歩は、物理的な世界からのデータを感知し、伝達し、使用パターンを予測するデータ分析と人工知能(AI)と組み合わせることで、コスト削減とユーザエクスペリエンス向上のための新たな機会を開拓している。 この論文は、UNSWシドニーを生きた実験室として利用し、理論と実験を通じてこの機会を探求する。

University campuses are essentially a microcosm of a city. They comprise diverse facilities such as residences, sport centres, lecture theatres, parking spaces, and public transport stops. Universities are under constant pressure to improve efficiencies while offering a better experience to various stakeholders including students, staff, and visitors. Nonetheless, anecdotal evidence indicates that campus assets are not being utilised efficiently, often due to the lack of data collection and analysis, thereby limiting the ability to make informed decisions on the allocation and management of resources. Advances in the Internet of Things (IoT) technologies that can sense and communicate data from the physical world, coupled with data analytics and Artificial intelligence (AI) that can predict usage patterns, have opened up new opportunities for organisations to lower cost and improve user experience. This thesis explores this opportunity via theory and experimentation using UNSW Sydney as a living laboratory.
翻訳日:2021-11-09 16:43:59 公開日:2021-11-07
# 動的距離学習を用いたゴール自動生成

Automatic Goal Generation using Dynamical Distance Learning ( http://arxiv.org/abs/2111.04120v1 )

ライセンス: Link先を確認
Bharat Prakash, Nicholas Waytowich, Tinoosh Mohsenin, Tim Oates(参考訳) 強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。 しかし、サンプル効率は依然として大きな課題である。 エージェントが複雑なタスクを解決するために複数の目標を達成する必要があるマルチゴールrlの分野において、サンプル効率の改善は特に困難である。 一方、人間や他の生物学的エージェントは、段階的かつ効率的な学習を進めるために、課題を難易度の増加とともにサンプリングするカリキュラムに従って、より戦略的にそのようなタスクを学習する。 本研究では,動的距離関数(ddf)を用いた自己教師あり方式による自動ゴール生成手法を提案する。 DDFはマークフ決定過程(MDP)内の任意の2つの状態間の動的距離を予測する関数である。 これにより,適切な難易度レベルで目標のカリキュラムを作成し,トレーニングプロセス全体の効率的な学習を促進する。 このアプローチをいくつかの目標条件付きロボット操作およびナビゲーションタスクで評価し、ランダムな目標サンプリングのみを使用するベースライン法よりもサンプル効率が向上することを示す。

Reinforcement Learning (RL) agents can learn to solve complex sequential decision making tasks by interacting with the environment. However, sample efficiency remains a major challenge. In the field of multi-goal RL, where agents are required to reach multiple goals to solve complex tasks, improving sample efficiency can be especially challenging. On the other hand, humans or other biological agents learn such tasks in a much more strategic way, following a curriculum where tasks are sampled with increasing difficulty level in order to make gradual and efficient learning progress. In this work, we propose a method for automatic goal generation using a dynamical distance function (DDF) in a self-supervised fashion. DDF is a function which predicts the dynamical distance between any two states within a markov decision process (MDP). With this, we generate a curriculum of goals at the appropriate difficulty level to facilitate efficient learning throughout the training process. We evaluate this approach on several goal-conditioned robotic manipulation and navigation tasks, and show improvements in sample efficiency over a baseline method which only uses random goal sampling.
翻訳日:2021-11-09 16:43:42 公開日:2021-11-07
# 特殊ニューラルネットワークを用いた有限線形時相論理仕様の学習

Learning Finite Linear Temporal Logic Specifications with a Specialized Neural Operator ( http://arxiv.org/abs/2111.04147v1 )

ライセンス: Link先を確認
Homer Walke, Daniel Ritter, Carl Trimbach, Michael Littman(参考訳) 有限線形時相論理(英: finite linear temporal logic)は、時相列をモデル化するための強力な形式表現である。 システム動作のラベル付きトレースから,コンパクトな$\mathsf{LTL}_f$式を学習する問題に対処する。 本稿では,新しいニューラルネットワーク演算子を提案し,その結果のアーキテクチャであるNeural$\mathsf{LTL}_f$を評価する。 我々の手法は、トレースの高精度な分類法を学ぶために、$\mathsf{LTL}_f$時間演算子をサブスクライブするために設計された特殊リカレントフィルタを含む。 そして、活性化を識別し、学習した重みで表される真理表を抽出する。 この真理表は記号形式に変換され、学習式として返される。 ランダムに生成された$\mathsf{LTL}_f$式の実験では、ニューラル$\mathsf{LTL}_f$スケールが既存の手法よりも大きく、ノイズの存在下でも高い精度を維持している。

Finite linear temporal logic ($\mathsf{LTL}_f$) is a powerful formal representation for modeling temporal sequences. We address the problem of learning a compact $\mathsf{LTL}_f$ formula from labeled traces of system behavior. We propose a novel neural network operator and evaluate the resulting architecture, Neural$\mathsf{LTL}_f$. Our approach includes a specialized recurrent filter, designed to subsume $\mathsf{LTL}_f$ temporal operators, to learn a highly accurate classifier for traces. Then, it discretizes the activations and extracts the truth table represented by the learned weights. This truth table is converted to symbolic form and returned as the learned formula. Experiments on randomly generated $\mathsf{LTL}_f$ formulas show Neural$\mathsf{LTL}_f$ scales to larger formula sizes than existing approaches and maintains high accuracy even in the presence of noise.
翻訳日:2021-11-09 16:43:25 公開日:2021-11-07
# Meta-TTS:Few-Shot Speaker Adaptive Text-to-Speechのためのメタラーニング

Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech ( http://arxiv.org/abs/2111.04040v1 )

ライセンス: Link先を確認
Sung-Feng Huang, Chyi-Jiunn Lin, Hung-yi Lee(参考訳) 音声合成システムをパーソナライズすることは非常に望ましい応用であり、システムは希少な登録記録を持つユーザの声で音声を生成することができる。 最近の作品では、このようなシステムを構築するための主要なアプローチが2つある: 話者適応と話者符号化である。 一方,話者適応法では,サンプル数が少ない多話者音声合成モデル(ttsモデル)を微調整する。 しかし、高品質な適応には少なくとも数千の微調整ステップが必要であるため、デバイスに適用するのは困難だ。 一方、話者符号化法では、話者埋め込みに話者発話をエンコードする。 トレーニングされたTSモデルは、対応する話者埋め込みに条件付きユーザの音声を合成することができる。 それにもかかわらず、スピーカエンコーダは、見えない話者と見えない話者の間の一般化ギャップに苦しむ。 本稿では,話者適応手法にメタ学習アルゴリズムを適用することを提案する。 具体的には、マルチスピーカTSモデルのトレーニングアルゴリズムとして、モデルに依存しないメタラーニング(MAML)を使用します。 したがって、メタトレーニングされたTSモデルを非表示話者に効率的に適応させることもできる。 提案手法(Meta-TTS)を,話者適応法ベースラインと話者符号化法ベースラインの2つのベースラインと比較した。 評価の結果,Meta-TTSは話者適応ベースラインよりも適応段階の少ない少数のサンプルから高い話者類似性音声を合成でき,同じ訓練方式で話者符号化ベースラインより優れていた。 ベースラインの話者エンコーダが8371以上のデータで事前トレーニングされると、Meta-TTSは依然としてLibriTTSデータセットのベースラインを上回り、VCTKデータセットで同等の結果を得ることができる。

Personalizing a speech synthesis system is a highly desired application, where the system can generate speech with the user's voice with rare enrolled recordings. There are two main approaches to build such a system in recent works: speaker adaptation and speaker encoding. On the one hand, speaker adaptation methods fine-tune a trained multi-speaker text-to-speech (TTS) model with few enrolled samples. However, they require at least thousands of fine-tuning steps for high-quality adaptation, making it hard to apply on devices. On the other hand, speaker encoding methods encode enrollment utterances into a speaker embedding. The trained TTS model can synthesize the user's speech conditioned on the corresponding speaker embedding. Nevertheless, the speaker encoder suffers from the generalization gap between the seen and unseen speakers. In this paper, we propose applying a meta-learning algorithm to the speaker adaptation method. More specifically, we use Model Agnostic Meta-Learning (MAML) as the training algorithm of a multi-speaker TTS model, which aims to find a great meta-initialization to adapt the model to any few-shot speaker adaptation tasks quickly. Therefore, we can also adapt the meta-trained TTS model to unseen speakers efficiently. Our experiments compare the proposed method (Meta-TTS) with two baselines: a speaker adaptation method baseline and a speaker encoding method baseline. The evaluation results show that Meta-TTS can synthesize high speaker-similarity speech from few enrollment samples with fewer adaptation steps than the speaker adaptation baseline and outperforms the speaker encoding baseline under the same training scheme. When the speaker encoder of the baseline is pre-trained with extra 8371 speakers of data, Meta-TTS can still outperform the baseline on LibriTTS dataset and achieve comparable results on VCTK dataset.
翻訳日:2021-11-09 16:41:00 公開日:2021-11-07
# ダイナミックバイレベルオンライン適応によるドメイン外メッシュ再構成

Out-of-Domain Human Mesh Reconstruction via Dynamic Bilevel Online Adaptation ( http://arxiv.org/abs/2111.04017v1 )

ライセンス: Link先を確認
Shanyan Guan, Jingwei Xu, Michelle Z. He, Yunbo Wang, Bingbing Ni, Xiaokang Yang(参考訳) 我々は,既存のsmplモデルの性能が,異なるカメラパラメータ,骨長,背景,咬合によって表される分布シフトによって著しく影響を受ける,領域外ストリーミングビデオへのヒューマンメッシュ再構成モデルの適用に関する新たな問題を考える。 オンライン適応によってこの問題に取り組み、テスト中にモデルのバイアスを徐々に修正します。 第一に、3dアノテーションの欠如はトレーニングの難しさを増加させ、3dの曖昧さをもたらす。 第二に、非定常データ分布は、通常のフレームと厳しい閉塞や劇的な変化を伴うハードサンプルとのバランスを取るのを難しくする。 そこで本稿では,動的バイレベルオンライン適応アルゴリズム(DynaBOA)を提案する。 まず、利用できない3Dアノテーションを補うための時間的制約を導入し、マルチオブジェクト間の競合に対処するためにバイレベル最適化手順を活用する。 DynaBOAは、分散シフトにもかかわらず効率的に取得された類似のソース例と共同トレーニングにより、追加の3Dガイダンスを提供する。 さらに、個々のフレームの最適化ステップ数を適応的に調整して、ハードサンプルを完全に適合させ、通常のフレームの過度な適合を避けることができる。 DynaBOAは3つのドメイン外のヒューマンメッシュ再構築ベンチマークで最先端の結果を達成する。

We consider a new problem of adapting a human mesh reconstruction model to out-of-domain streaming videos, where performance of existing SMPL-based models are significantly affected by the distribution shift represented by different camera parameters, bone lengths, backgrounds, and occlusions. We tackle this problem through online adaptation, gradually correcting the model bias during testing. There are two main challenges: First, the lack of 3D annotations increases the training difficulty and results in 3D ambiguities. Second, non-stationary data distribution makes it difficult to strike a balance between fitting regular frames and hard samples with severe occlusions or dramatic changes. To this end, we propose the Dynamic Bilevel Online Adaptation algorithm (DynaBOA). It first introduces the temporal constraints to compensate for the unavailable 3D annotations, and leverages a bilevel optimization procedure to address the conflicts between multi-objectives. DynaBOA provides additional 3D guidance by co-training with similar source examples retrieved efficiently despite the distribution shift. Furthermore, it can adaptively adjust the number of optimization steps on individual frames to fully fit hard samples and avoid overfitting regular frames. DynaBOA achieves state-of-the-art results on three out-of-domain human mesh reconstruction benchmarks.
翻訳日:2021-11-09 16:37:57 公開日:2021-11-07
# 自閉症スペクトラム障害の行動指標としての視聴者近接性

Can viewer proximity be a behavioural marker for Autism Spectrum Disorder? ( http://arxiv.org/abs/2111.04064v1 )

ライセンス: Link先を確認
Rahul Bishain, Sharat Chandran(参考訳) 自閉症スペクトラム障害のスクリーニングは、しばしば行動観察とアンケートに基づくテストのハイブリッドを含む複雑なプロセスである。 通常、このプロセスは、そのような評価のために訓練された臨床医や精神科医を必要とする。 モバイルプラットフォームにおける技術進歩の波に乗じて,このような評価をモバイルやタブレットデバイスに組み込むことが試みられている。 本稿では,このようなスクリーニングテストで生成された映像を分析した。 本報告では,2~7歳児の自閉症の行動指標として感覚感受性検査を施し,ディスプレイ画面からの観察者の距離を用いる効果を初めて活用し,カジュアルな家庭環境におけるこのようなテストの利用の可能性について有望である。

Screening for any of the Autism Spectrum Disorders is a complicated process often involving a hybrid of behavioural observations and questionnaire based tests. Typically carried out in a controlled setting, this process requires trained clinicians or psychiatrists for such assessments. Riding on the wave of technical advancement in mobile platforms, several attempts have been made at incorporating such assessments on mobile and tablet devices. In this paper we analyse videos generated using one such screening test. This paper reports the first use of the efficacy of using the observer's distance from the display screen while administering a sensory sensitivity test as a behavioural marker for autism for children aged 2-7 years The potential for using a test such as this in casual home settings is promising.
翻訳日:2021-11-09 16:37:38 公開日:2021-11-07
# 時空間分解カーネルを用いたテクスチャー強化光場超解像

Texture-enhanced Light Field Super-resolution with Spatio-Angular Decomposition Kernels ( http://arxiv.org/abs/2111.04069v1 )

ライセンス: Link先を確認
Zexi Hu, Xiaoming Chen, Henry Wing Fung Yeung, Yuk Ying Chung, Zhibo Chen(参考訳) 畳み込みニューラルネットワークによって達成された光場超解像(LFSR)の最近の進歩にもかかわらず、光場(LF)画像の相関情報は4次元LFデータの複雑さのために十分に研究され、活用されていない。 このような高次元LFデータに対処するため、既存のLFSR法のほとんどは、それを低次元に分解し、その後、分解された部分空間上で最適化した。 しかし, これらの手法は, 分解操作の特性を無視し, 有限個のLF部分空間しか使用せず, 括弧的特徴の抽出に失敗し, 性能ボトルネックとなるため, 本質的に制限されている。 これらの限界を克服するため,本論文ではlf分解の可能性を徹底的に発見し,分解核の新しい概念を提案する。 特に,提案する分解核ネットワーク (dknet) に組み込まれた一連の分解核に対して,様々な部分空間の分解操作を体系的に統一し,包括的空間-三角形特徴抽出を行う。 提案したDKNetは,2x,3x,4xのLFSRスケールでそれぞれ1.35dB,0.83dB,1.80dB のPSNRを,最先端の手法と比較して大幅に改善することが実験的に検証された。 VGGネットワークに基づいて、より視覚的に満足なLFSR結果を生成する上で、DKNetをさらに改善するため、テキスタイル強化DKNet(TE-DKNet)をガイドするLFVGG損失を提案し、リッチなテクスチャを生成し、LF画像の視覚的品質を大幅に向上させる。 また,LFVGG損失による知覚増強を客観的に評価するために,LF材料認識を利用した間接評価指標を提案する。

Despite the recent progress in light field super-resolution (LFSR) achieved by convolutional neural networks, the correlation information of light field (LF) images has not been sufficiently studied and exploited due to the complexity of 4D LF data. To cope with such high-dimensional LF data, most of the existing LFSR methods resorted to decomposing it into lower dimensions and subsequently performing optimization on the decomposed sub-spaces. However, these methods are inherently limited as they neglected the characteristics of the decomposition operations and only utilized a limited set of LF sub-spaces ending up failing to comprehensively extract spatio-angular features and leading to a performance bottleneck. To overcome these limitations, in this paper, we thoroughly discover the potentials of LF decomposition and propose a novel concept of decomposition kernels. In particular, we systematically unify the decomposition operations of various sub-spaces into a series of such decomposition kernels, which are incorporated into our proposed Decomposition Kernel Network (DKNet) for comprehensive spatio-angular feature extraction. The proposed DKNet is experimentally verified to achieve substantial improvements by 1.35 dB, 0.83 dB, and 1.80 dB PSNR in 2x, 3x and 4x LFSR scales, respectively, when compared with the state-of-the-art methods. To further improve DKNet in producing more visually pleasing LFSR results, based on the VGG network, we propose a LFVGG loss to guide the Texture-Enhanced DKNet (TE-DKNet) to generate rich authentic textures and enhance LF images' visual quality significantly. We also propose an indirect evaluation metric by taking advantage of LF material recognition to objectively assess the perceptual enhancement brought by the LFVGG loss.
翻訳日:2021-11-09 16:37:25 公開日:2021-11-07
# Visual SLAMによる単眼深度予測のオンライン適応

Online Adaptation of Monocular Depth Prediction with Visual SLAM ( http://arxiv.org/abs/2111.04096v1 )

ライセンス: Link先を確認
Shing Yan Loo, Moein Shakeri, Sai Hong Tang, Syamsiah Mashohor, Hong Zhang(参考訳) CNNによる正確な深度予測の能力は、カメラトラッキングの強化や高密度マッピングなど、実用的な視界SLAMアプリケーションで広く利用されている大きな課題である。 CNNがSLAM性能の恩恵を受けるために現在の動作環境のために訓練されていない場合でも、視覚的SLAMアルゴリズムの助けを借りて深度予測CNNを調整できるか? そこで本研究では,2つの相補的プロセスからなる新しいオンライン適応フレームワークを提案する。深度予測を微調整するキーフレームを生成するslamアルゴリズムと,地図品質を改善するためにオンライン適応深度を用いるアルゴリズムである。 潜在的なノイズマップポイントを除去すると、全体のSLAM性能を改善するために、グローバルな測光束調整(BA)を行う。 実験環境におけるベンチマークデータセットと実ロボットの両方の実験結果から,提案手法がSLAM再構成精度を向上させることを示す。 また, トレーニング損失の正則化を, 破滅的な忘れ込みを防ぐための効果的な方法として示す。 さらに、我々のオンライン適応フレームワークと最先端の訓練済み深度予測CNNを比較し、オンライン適応深度予測CNNが大量のデータセットでトレーニングされた深度予測CNNよりも優れていることを示す。

The ability of accurate depth prediction by a CNN is a major challenge for its wide use in practical visual SLAM applications, such as enhanced camera tracking and dense mapping. This paper is set out to answer the following question: Can we tune a depth prediction CNN with the help of a visual SLAM algorithm even if the CNN is not trained for the current operating environment in order to benefit the SLAM performance? To this end, we propose a novel online adaptation framework consisting of two complementary processes: a SLAM algorithm that is used to generate keyframes to fine-tune the depth prediction and another algorithm that uses the online adapted depth to improve map quality. Once the potential noisy map points are removed, we perform global photometric bundle adjustment (BA) to improve the overall SLAM performance. Experimental results on both benchmark datasets and a real robot in our own experimental environments show that our proposed method improves the SLAM reconstruction accuracy. We demonstrate the use of regularization in the training loss as an effective means to prevent catastrophic forgetting. In addition, we compare our online adaptation framework against the state-of-the-art pre-trained depth prediction CNNs to show that our online adapted depth prediction CNN outperforms the depth prediction CNNs that have been trained on a large collection of datasets.
翻訳日:2021-11-09 16:36:51 公開日:2021-11-07
# 階層セグメントに基づくSLAMの最適化

Hierarchical Segment-based Optimization for SLAM ( http://arxiv.org/abs/2111.04101v1 )

ライセンス: Link先を確認
Yuxin Tian, Yujie Wang, Ming Ouyang, Xuesong Shi(参考訳) 本稿では,同時局所化マッピング(slam)システムのための階層的セグメントベース最適化手法を提案する。 まず,バックエンド最適化の効率を向上させるために,信頼性の高い軌道分割法を提案する。 次に,セグメント化のロバスト性を改善するため,バッファ機構を初めて提案する。 最適化の間、グローバル情報を用いて、大きな誤差でフレームを最適化し、最適化の代わりに補間を行い、よく見積もられたフレームを更新し、各フレームの誤差に応じて計算量を階層的に割り当てる。 比較実験により,提案手法は精度の低下を伴わずに最適化の効率を大幅に向上し,既存の高効率最適化手法よりも高い性能を示した。

This paper presents a hierarchical segment-based optimization method for Simultaneous Localization and Mapping (SLAM) system. First we propose a reliable trajectory segmentation method that can be used to increase efficiency in the back-end optimization. Then we propose a buffer mechanism for the first time to improve the robustness of the segmentation. During the optimization, we use global information to optimize the frames with large error, and interpolation instead of optimization to update well-estimated frames to hierarchically allocate the amount of computation according to error of each frame. Comparative experiments on the benchmark show that our method greatly improves the efficiency of optimization with almost no drop in accuracy, and outperforms existing high-efficiency optimization method by a large margin.
翻訳日:2021-11-09 16:36:30 公開日:2021-11-07
# 対比較による曖昧なファジィ言語意思決定における一貫性とコンセンサス

Consistency and Consensus Driven for Hesitant Fuzzy Linguistic Decision Making with Pairwise Comparisons ( http://arxiv.org/abs/2111.04092v1 )

ライセンス: Link先を確認
Peijia Ren, Zixu Liu, Wei-Guo Zhang, Xilan Wu(参考訳) Hesitant fuzzy言語嗜好関係(HFLPR)は不確実性の下での意見表現の効率的な方法として重要である。 For enhancing the theory of decision making with HFLPR, the paper introduces an algorithm for group decision making with HFLPRs based on the acceptable consistency and consensus measurements, which involves (1) defining a hesitant fuzzy linguistic geometric consistency index (HFLGCI) and proposing a procedure for consistency checking and inconsistency improving for HFLPR; (2) measuring the group consensus based on the similarity between the original individual HFLPRs and the overall perfect HFLPR, then establishing a procedure for consensus ensuring including the determination of decision-makers weights. 提案する2つの手続きの収束と単調性が証明されている。 さらに,定義したHFLGCIの臨界値を調べるために実験を行い,提案アルゴリズムの有効性を示すために比較分析を行った。 提案手法の有効性を示すために, ベンチャーキャピタリスト導出資金の性能評価に関する事例を提示する。 本研究の応用として,提案アルゴリズムを用いて意思決定問題を解決するためのオンライン意思決定ポータルがついに提供される。

Hesitant fuzzy linguistic preference relation (HFLPR) is of interest because it provides an efficient way for opinion expression under uncertainty. For enhancing the theory of decision making with HFLPR, the paper introduces an algorithm for group decision making with HFLPRs based on the acceptable consistency and consensus measurements, which involves (1) defining a hesitant fuzzy linguistic geometric consistency index (HFLGCI) and proposing a procedure for consistency checking and inconsistency improving for HFLPR; (2) measuring the group consensus based on the similarity between the original individual HFLPRs and the overall perfect HFLPR, then establishing a procedure for consensus ensuring including the determination of decision-makers weights. The convergence and monotonicity of the proposed two procedures have been proved. Some experiments are furtherly performed to investigate the critical values of the defined HFLGCI, and comparative analyses are conducted to show the effectiveness of the proposed algorithm. A case concerning the performance evaluation of venture capital guiding funds is given to illustrate the availability of the proposed algorithm. As an application of our work, an online decision-making portal is finally provided for decision-makers to utilize the proposed algorithms to solve decision-making problems.
翻訳日:2021-11-09 15:54:22 公開日:2021-11-07
# スケルトンに基づく人間行動認識のためのマルチスケールセマンティクス誘導ニューラルネットワーク

Multi-Scale Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition ( http://arxiv.org/abs/2111.03993v1 )

ライセンス: Link先を確認
Pengfei Zhang and Cuiling Lan and Wenjun Zeng and Junliang Xing and Jianru Xue and Nanning Zheng(参考訳) スケルトンデータは低次元である。 しかし、近年では複雑さを考慮せずに、非常に深く複雑なフィードフォワードニューラルネットワークを使用して骨格配列をモデル化する傾向にある。 本稿では,スケルトンに基づく行動認識のために,単純なマルチスケールセマンティクス誘導ニューラルネットワーク(MS-SGN)を提案する。 我々は,関節の特徴表現能力を高めるために,関節の高レベル意味論(接合型とフレームインデックス)をネットワークに明示的に導入する。 さらに,時間スケールの変動に対してロバストなマルチスケール戦略を提案する。 さらに,同フレーム内の関節の相関をモデル化するジョイントレベルモジュールと,フレームの時間的依存関係をモデル化するフレームレベルモジュールという,2つのモジュール間の関節関係を階層的に活用する。 MSSGNは、従来の方法よりもモデルサイズが桁違いに小さいため、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。

Skeleton data is of low dimension. However, there is a trend of using very deep and complicated feedforward neural networks to model the skeleton sequence without considering the complexity in recent year. In this paper, a simple yet effective multi-scale semantics-guided neural network (MS-SGN) is proposed for skeleton-based action recognition. We explicitly introduce the high level semantics of joints (joint type and frame index) into the network to enhance the feature representation capability of joints. Moreover, a multi-scale strategy is proposed to be robust to the temporal scale variations. In addition, we exploit the relationship of joints hierarchically through two modules, i.e., a joint-level module for modeling the correlations of joints in the same frame and a frame-level module for modeling the temporal dependencies of frames. With an order of magnitude smaller model size than most previous methods, MSSGN achieves the state-of-the-art performance on the NTU60, NTU120, and SYSU datasets.
翻訳日:2021-11-09 15:53:08 公開日:2021-11-07
# 新しいパラダイムシフトの準備はできているか? Visual Deep MLPに関する調査

Are we ready for a new paradigm shift? A Survey on Visual Deep MLP ( http://arxiv.org/abs/2111.04060v1 )

ライセンス: Link先を確認
Ruiyang Liu, Yinghui Li, Dun Liang, Linmi Tao, Shimin Hu, Hai-Tao Zheng(参考訳) 初めて出現したニューラルネットワーク構造である多層パーセプトロン(MLP)は大きなヒットとなった。 しかし、ハードウェアコンピューティングのパワーとデータセットのサイズに制約されて、かつては数年にもわたって沈んだ。 この間,我々は,手作業による特徴抽出から局所受容野を用いたcnnへのパラダイムシフト,さらに自己認識機構に基づく大域受容野によるトランスフォーメーションを目の当たりにした。 そして今年(2021年)、MLP-Mixerの導入により、MLPは再びライムライトに突入し、コンピュータビジョンコミュニティから広範な研究を惹きつけている。 従来のMLPと比較して、より深くなったが、入力はフルフラット化からパッチフラット化に変化する。 ハイパフォーマンスで視覚特異的な帰納バイアスをあまり必要とせず、コミュニティは、世界的受容領域を持つ最も単純な構造であるMLPは、新しいコンピュータビジョンパラダイムになるのだろうか、と疑問に思う。 本調査は,近年の視覚深部MLPモデル開発の概要を明らかにすることを目的としている。 具体的には、微妙なサブモジュール設計からグローバルネットワーク構造まで、これらのビジョンの深いmlpを詳細にレビューする。 我々は,MLPの開発経路を明確に把握するために,異なるネットワーク設計の受容場,計算複雑性,その他の特性を比較した。 MLPの分解能感度と計算密度は未解決のままであり、純粋なMLPは徐々にCNNライクに進化している。 我々は、現在のデータ量と計算能力は純粋なMLPを受け入れる準備ができておらず、人工的な視覚誘導が依然として重要であることを示唆する。 最後に,オープン研究の方向性と今後の課題について分析する。 この取り組みがコミュニティへのさらなる関心を喚起し、現時点ではニューラルネットワークのためのより良いビジュアルなデザインを奨励することを期待しています。

Multilayer perceptron (MLP), as the first neural network structure to appear, was a big hit. But constrained by the hardware computing power and the size of the datasets, it once sank for tens of years. During this period, we have witnessed a paradigm shift from manual feature extraction to the CNN with local receptive fields, and further to the Transform with global receptive fields based on self-attention mechanism. And this year (2021), with the introduction of MLP-Mixer, MLP has re-entered the limelight and has attracted extensive research from the computer vision community. Compare to the conventional MLP, it gets deeper but changes the input from full flattening to patch flattening. Given its high performance and less need for vision-specific inductive bias, the community can't help but wonder, Will MLP, the simplest structure with global receptive fields but no attention, become a new computer vision paradigm? To answer this question, this survey aims to provide a comprehensive overview of the recent development of vision deep MLP models. Specifically, we review these vision deep MLPs detailedly, from the subtle sub-module design to the global network structure. We compare the receptive field, computational complexity, and other properties of different network designs in order to have a clear understanding of the development path of MLPs. The investigation shows that MLPs' resolution-sensitivi ty and computational densities remain unresolved, and pure MLPs are gradually evolving towards CNN-like. We suggest that the current data volume and computational power are not ready to embrace pure MLPs, and artificial visual guidance remains important. Finally, we provide an analysis of open research directions and possible future works. We hope this effort will ignite further interest in the community and encourage better visual tailored design for the neural network at the moment.
翻訳日:2021-11-09 15:52:51 公開日:2021-11-07
# 直接多視点マルチパーソン3次元姿勢推定

Direct Multi-view Multi-person 3D Pose Estimation ( http://arxiv.org/abs/2111.04076v1 )

ライセンス: Link先を確認
Tao Wang, Jianfeng Zhang, Yujun Cai, Shuicheng Yan, Jiashi Feng(参考訳) マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。 コストのかかる体積表現から3D関節位置を推定したり、従来の方法のように検出された複数の2Dポーズから人当たりの3Dポーズを再構成する代わりに、MvPは中間タスクに頼ることなく、クリーンで効率的な方法で複数の人ごとの3Dポーズを直接回帰する。 具体的には、MvPはスケルトン関節を学習可能なクエリ埋め込みとして表現し、入力画像からの多視点情報に徐々に参加して、実際の3D関節位置を直接回帰させる。 このような単純なパイプラインの精度を向上させるため、MvPはマルチパーソンスケルトン関節のクエリ埋め込みを簡潔に表現する階層的スキームを提案し、入力依存クエリ適応アプローチを導入する。 さらに、MvPは、各関節のクロスビュー情報をより正確に融合させるために、射影注意と呼ばれる幾何学的に導かれた新しい注意機構を設計する。 MvPはまた、ビュー依存カメラ幾何学を投影注意を増大させる特徴表現に統合するためのRayConv操作も導入している。 我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。 特に、挑戦的なPanopticデータセットで92.3%のAP25を達成し、以前のベストアプローチ[36]を9.8%改善した。 MvPは汎用的でSMPLモデルで表される人間のメッシュの復元にも拡張可能であり、多人体形状のモデリングに有用である。 コードとモデルはhttps://github.com/s ail-sg/mvpで入手できる。

We present Multi-view Pose transformer (MvP) for estimating multi-person 3D poses from multi-view images. Instead of estimating 3D joint locations from costly volumetric representation or reconstructing the per-person 3D pose from multiple detected 2D poses as in previous methods, MvP directly regresses the multi-person 3D poses in a clean and efficient way, without relying on intermediate tasks. Specifically, MvP represents skeleton joints as learnable query embeddings and let them progressively attend to and reason over the multi-view information from the input images to directly regress the actual 3D joint locations. To improve the accuracy of such a simple pipeline, MvP presents a hierarchical scheme to concisely represent query embeddings of multi-person skeleton joints and introduces an input-dependent query adaptation approach. Further, MvP designs a novel geometrically guided attention mechanism, called projective attention, to more precisely fuse the cross-view information for each joint. MvP also introduces a RayConv operation to integrate the view-dependent camera geometry into the feature representations for augmenting the projective attention. We show experimentally that our MvP model outperforms the state-of-the-art methods on several benchmarks while being much more efficient. Notably, it achieves 92.3% AP25 on the challenging Panoptic dataset, improving upon the previous best approach [36] by 9.8%. MvP is general and also extendable to recovering human mesh represented by the SMPL model, thus useful for modeling multi-person body shapes. Code and models are available at https://github.com/s ail-sg/mvp.
翻訳日:2021-11-09 15:52:20 公開日:2021-11-07
# NarrationBotとInfoBot: 自動ビデオ記述のためのハイブリッドシステム

NarrationBot and InfoBot: A Hybrid System for Automated Video Description ( http://arxiv.org/abs/2111.03994v1 )

ライセンス: Link先を確認
Shasta Ihorn, Yue-Ting Siu, Aditya Bodi, Lothar Narins, Jose M. Castanon, Yash Kant, Abhishek Das, Ilmi Yoon, Pooyan Fazli(参考訳) ビデオアクセシビリティは、視覚障害者にとって教育、雇用、エンターテイメントにおける公平なエンゲージメントにとって不可欠である。 プロやアマチュアのサービスやツールが利用できるにもかかわらず、人間による記述のほとんどは高価で時間を要する。 さらに、人為的な記述の速度は、ビデオ制作の速度と一致しない。 映像アクセシビリティのギャップを克服するために,2つのツールのハイブリッドシステムを開発した。 1)ビデオの記述を自動的に生成し、 2)ビデオ上のユーザクエリに応答して,回答や追加説明を提供する。 26名の視力・低視力者による混合手法による研究の結果,両ツールのタンデム使用時のユーザ理解とビデオの楽しさが有意に向上した。 さらに、参加者は、自動生成記述と人間による修正自動生成記述とで、ビデオを理解する能力に有意な差はないと報告した。 本研究は,開発システムに対するユーザの熱意と,ビデオへのカスタマイズされたアクセスを提供することの約束を示すものである。 我々は,現在の作業の限界を議論し,自動ビデオ記述ツールの今後の開発に向けた勧告を提供する。

Video accessibility is crucial for blind and low vision users for equitable engagements in education, employment, and entertainment. Despite the availability of professional and amateur services and tools, most human-generated descriptions are expensive and time consuming. Moreover, the rate of human-generated descriptions cannot match the speed of video production. To overcome the increasing gaps in video accessibility, we developed a hybrid system of two tools to 1) automatically generate descriptions for videos and 2) provide answers or additional descriptions in response to user queries on a video. Results from a mixed-methods study with 26 blind and low vision individuals show that our system significantly improved user comprehension and enjoyment of selected videos when both tools were used in tandem. In addition, participants reported no significant difference in their ability to understand videos when presented with autogenerated descriptions versus human-revised autogenerated descriptions. Our results demonstrate user enthusiasm about the developed system and its promise for providing customized access to videos. We discuss the limitations of the current work and provide recommendations for the future development of automated video description tools.
翻訳日:2021-11-09 15:31:24 公開日:2021-11-07
# 情報的不確実性を伴う獲得不変分脳MRI

Acquisition-invarian t brain MRI segmentation with informative uncertainties ( http://arxiv.org/abs/2111.04094v1 )

ライセンス: Link先を確認
Pedro Borges, Richard Shaw, Thomas Varsavsky, Kerstin Klaser, David Thomas, Ivana Drobnjak, Sebastien Ourselin, M Jorge Cardoso(参考訳) 多地点データの組み合わせは、トレンドを補強し、解明するが、データに偏りのあるサイト固有の共変量の影響と下流解析の影響に苦しめられているタスクである。 ポストホックな多地点補正法は存在するが、現実のシナリオではしばしば成立しない強い仮定を持つ。 アルゴリズムは、シーケンスパラメータの選択から生じるようなサイト固有の効果を考慮し、一般化が失敗する場合には、明示的な不確実性モデリングによってそのような失敗を識別できるように設計されるべきである。 この研究は、セグメンテーションタスクの文脈において獲得の物理学に堅牢になり、同時に不確実性をモデル化できるようなアルゴリズムを示している。 提案手法は, ホールドアウトデータセットの完全化, セグメンテーション品質の保存だけでなく, サイト固有のシーケンス選択も考慮し, 調和ツールとして実行可能であることを示す。

Combining multi-site data can strengthen and uncover trends, but is a task that is marred by the influence of site-specific covariates that can bias the data and therefore any downstream analyses. Post-hoc multi-site correction methods exist but have strong assumptions that often do not hold in real-world scenarios. Algorithms should be designed in a way that can account for site-specific effects, such as those that arise from sequence parameter choices, and in instances where generalisation fails, should be able to identify such a failure by means of explicit uncertainty modelling. This body of work showcases such an algorithm, that can become robust to the physics of acquisition in the context of segmentation tasks, while simultaneously modelling uncertainty. We demonstrate that our method not only generalises to complete holdout datasets, preserving segmentation quality, but does so while also accounting for site-specific sequence choices, which also allows it to perform as a harmonisation tool.
翻訳日:2021-11-09 15:31:08 公開日:2021-11-07
# 無限距離保証付きログコンケーブ分布からのサンプリングと微分プライベート最適化への応用

Sampling from Log-Concave Distributions with Infinity-Distance Guarantees and Applications to Differentially Private Optimization ( http://arxiv.org/abs/2111.04089v1 )

ライセンス: Link先を確認
Oren Mangoubi and Nisheeth K. Vishnoi(参考訳) d$-次元ログ凹面分布 $\pi(\theta)\propto e^{-f(\theta)}$ on a polytope $K$ に対して、分布 $\nu$ that is $O(\varepsilon)$-clo se in infinity-distance $\sup_{\theta\in K}|\log\frac{\nu(\theta)}{\pi(\theta)}|$を$\pi$に出力する問題を考える。 差分プライバシーを保証するために、全差分距離やKL発散境界を持つ従来のサンプリングアルゴリズムが不十分であるため、無限距離保証を持つサンプルは、偏差プライベートな最適化のために特に望ましい。 我々の主な結果は、分布 $O(\varepsilon)$-clo se から $\pi$ infinity-distance に出力するアルゴリズムであり、$O((md+dL^2R^2)\times(LR+d\log(\frac{Rd+LRd}{\varepsilon r}))\times md^{\omega-1})$算術演算、$f$ is $L$-Lipschitz, $K$は$m$の不等式で定義される。 特に、このランタイムは$\frac{1}{\varepsilon}$で対数的であり、以前の処理を大幅に改善します。 技術的には、マルコフ連鎖を$\frac{1}{\varepsilon^2}$-離散化で構築し、$o(\varepsilon)$ infinity- distanceエラーのサンプルを達成する以前の研究から脱却し、全変数境界を持つ$k$から無限境界のサンプルへ連続的なサンプルを変換する方法を提案する。 $d$への依存を改善するために、独立した関心を持つかもしれないDikin walkの"ソフトスレッド"バージョンを提示する。 指数関数機構の枠組みにアルゴリズムを組み込むことで、リプシッツ凸関数の経験的リスク最小化や低ランク近似といった最適化問題に対する$\varepsilon$-pure微分的プライベートアルゴリズムの実行時間にも同様の改善が得られます。

For a $d$-dimensional log-concave distribution $\pi(\theta)\propto e^{-f(\theta)}$ on a polytope $K$, we consider the problem of outputting samples from a distribution $\nu$ which is $O(\varepsilon)$-clo se in infinity-distance $\sup_{\theta\in K}|\log\frac{\nu(\theta)}{\pi(\theta)}|$ to $\pi$. Such samplers with infinity-distance guarantees are specifically desired for differentially private optimization as traditional sampling algorithms which come with total-variation distance or KL divergence bounds are insufficient to guarantee differential privacy. Our main result is an algorithm that outputs a point from a distribution $O(\varepsilon)$-clo se to $\pi$ in infinity-distance and requires $O((md+dL^2R^2)\times(LR+d\log(\frac{Rd+LRd}{\varepsilon r}))\times md^{\omega-1})$ arithmetic operations, where $f$ is $L$-Lipschitz, $K$ is defined by $m$ inequalities, is contained in a ball of radius $R$ and contains a ball of smaller radius $r$, and $\omega$ is the matrix-multiplicatio n constant. In particular this runtime is logarithmic in $\frac{1}{\varepsilon}$ and significantly improves on prior works. Technically, we depart from the prior works that construct Markov chains on a $\frac{1}{\varepsilon^2}$-discretization of $K$ to achieve a sample with $O(\varepsilon)$ infinity-distance error, and present a method to convert continuous samples from $K$ with total-variation bounds to samples with infinity bounds. To achieve improved dependence on $d$, we present a "soft-threshold" version of the Dikin walk which may be of independent interest. Plugging our algorithm into the framework of the exponential mechanism yields similar improvements in the running time of $\varepsilon$-pure differentially private algorithms for optimization problems such as empirical risk minimization of Lipschitz-convex functions and low-rank approximation, while still achieving the tightest known utility bounds.
翻訳日:2021-11-09 15:28:58 公開日:2021-11-07
# MotifClass:高次メタデータ情報を用いた弱教師付きテキスト分類

MotifClass: Weakly Supervised Text Classification with Higher-order Metadata Information ( http://arxiv.org/abs/2111.04022v1 )

ライセンス: Link先を確認
Yu Zhang, Shweta Garg, Yu Meng, Xiusi Chen, Jiawei Han(参考訳) 本研究は,テキスト文書をカテゴリ表名のみの既定分類群に分類し,注釈付き学習文書を使わずに分類することを目的とした,弱い教師付きテキスト分類の課題について検討する。 既存のアプローチのほとんどは、各文書のテキスト情報を活用する。 しかし、多くのドメインでは、文書には様々な種類のメタデータ(著者、会場、研究論文の年など)が付属している。 これらのメタデータとその組み合わせは、テキストの内容に加えて、強力なカテゴリインジケータとして機能する。 本稿では,メタデータを弱教師付きテキスト分類に活用する可能性について検討する。 具体的には,異種情報ネットワークを用いて文書とメタデータの関係をモデル化する。 ネットワーク内の高次構造を効果的に捉えるために,メタデータの組み合わせを記述するモチーフを用いる。 本稿では,(1)カテゴリー適応型モチーフインスタンスを選択し,(2)カテゴリ名と指示型モチーフインスタンスに基づいて擬似ラベル付きトレーニングサンプルを取得し,(3)擬似トレーニングデータを用いてテキスト分類器を訓練する,MotifClassという新しいフレームワークを提案する。 実世界のデータセットに対する大規模な実験は、既存の弱教師付きテキスト分類アプローチよりもMotifClassの優れたパフォーマンスを示す。 さらなる分析は、我々のフレームワークで高階メタデータ情報を考える利点を示している。

We study the problem of weakly supervised text classification, which aims to classify text documents into a set of pre-defined categories with category surface names only and without any annotated training document provided. Most existing approaches leverage textual information in each document. However, in many domains, documents are accompanied by various types of metadata (e.g., authors, venue, and year of a research paper). These metadata and their combinations may serve as strong category indicators in addition to textual contents. In this paper, we explore the potential of using metadata to help weakly supervised text classification. To be specific, we model the relationships between documents and metadata via a heterogeneous information network. To effectively capture higher-order structures in the network, we use motifs to describe metadata combinations. We propose a novel framework, named MotifClass, which (1) selects category-indicative motif instances, (2) retrieves and generates pseudo-labeled training samples based on category names and indicative motif instances, and (3) trains a text classifier using the pseudo training data. Extensive experiments on real-world datasets demonstrate the superior performance of MotifClass to existing weakly supervised text classification approaches. Further analysis shows the benefit of considering higher-order metadata information in our framework.
翻訳日:2021-11-09 15:25:37 公開日:2021-11-07
# 創造的画像キャプションのためのループ内書き直し

Machine-in-the-Loop Rewriting for Creative Image Captioning ( http://arxiv.org/abs/2111.04193v1 )

ライセンス: Link先を確認
Vishakh Padmakumar, He He(参考訳) machine-in-the-loop writingは、人間がモデルとコラボレーションして、より効果的に記述タスクを完了できるようにすることを目的としている。 以前の研究で、機械で書かれた草案や文レベルの継続を人間に提供することは、生成したテキストが人間の意図から逸脱する傾向があるため、成功は限られていることがわかった。 そこで本研究では,ユーザがコンテンツのコントロールを維持できるように,ユーザ独自のドラフト内で指定されたテキストのスパンを変更可能な書き換えモデルをトレーニングし,テキスト内の記述的および図形的要素を局所的に導入する。 我々は,創造的なイメージキャプションのタスクにおいて,人間と協調する能力をモデルとして評価する。 Amazon Mechanical Turkによるユーザ調査では、私たちのモデルはベースラインのインフィル言語モデルよりも役に立つと評価されている。 さらに, 作業完了時よりも, モデルと協調する場合には, より説明的, 具体的キャプションを記述しやすくする。

Machine-in-the-loop writing aims to enable humans to collaborate with models to complete their writing tasks more effectively. Prior work has found that providing humans a machine-written draft or sentence-level continuations has limited success since the generated text tends to deviate from humans' intention. To allow the user to retain control over the content, we train a rewriting model that, when prompted, modifies specified spans of text within the user's original draft to introduce descriptive and figurative elements locally in the text. We evaluate the model on its ability to collaborate with humans on the task of creative image captioning. On a user study through Amazon Mechanical Turk, our model is rated to be more helpful than a baseline infilling language model. In addition, third-party evaluation shows that users write more descriptive and figurative captions when collaborating with our model compared to completing the task alone.
翻訳日:2021-11-09 15:25:17 公開日:2021-11-07
# アンサンブルに基づくデバイアス法の不確実性校正

Uncertainty Calibration for Ensemble-Based Debiasing Methods ( http://arxiv.org/abs/2111.04104v1 )

ライセンス: Link先を確認
Ruibin Xiong, Yimeng Chen, Liang Pang, Xueqi Chen and Yanyan Lan(参考訳) アンサンブルに基づくデバイアス法は、偏見のみのモデルの出力を利用して学習目標を調整することにより、特定のデータセットバイアスに対する分類器の依存を緩和する効果が示されている。 本稿では,これらのアンサンブルに基づく手法におけるバイアスのみのモデルに焦点をあてる。 理論的には、バイアスのみモデルの不正確な不確実性推定によってデバイアス性能が損なわれることを証明する。 実験的に、既存のバイアスのみのモデルでは正確な不確実性推定が得られないことを示す。 そこで本研究では, バイアスのみのモデルの校正を行い, バイアスモデリング, モデル校正, 脱バイアスを含む3段階のアンサンブルに基づく脱バイアスフレームワークを実現することを提案する。 NLIおよび事実検証タスクの実験結果から,提案した3段階の脱バイアスフレームワークは,従来の2段階の脱バイアスフレームワークよりも分配精度が高いことがわかった。

Ensemble-based debiasing methods have been shown effective in mitigating the reliance of classifiers on specific dataset bias, by exploiting the output of a bias-only model to adjust the learning target. In this paper, we focus on the bias-only model in these ensemble-based methods, which plays an important role but has not gained much attention in the existing literature. Theoretically, we prove that the debiasing performance can be damaged by inaccurate uncertainty estimations of the bias-only model. Empirically, we show that existing bias-only models fall short in producing accurate uncertainty estimations. Motivated by these findings, we propose to conduct calibration on the bias-only model, thus achieving a three-stage ensemble-based debiasing framework, including bias modeling, model calibrating, and debiasing. Experimental results on NLI and fact verification tasks show that our proposed three-stage debiasing framework consistently outperforms the traditional two-stage one in out-of-distribution accuracy.
翻訳日:2021-11-09 15:01:10 公開日:2021-11-07
# 緑内障バイオマーカーとしての網膜中心血管幹と枝の三次元構造

The Three-Dimensional Structural Configuration of the Central Retinal Vessel Trunk and Branches as a Glaucoma Biomarker ( http://arxiv.org/abs/2111.03997v1 )

ライセンス: Link先を確認
Satish K. Panda, Haris Cheong, Tin A. Tun, Thanadet Chuangsuwanich, Aiste Kadziauskiene, Vijayalakshmi Senthil, Ramaswami Krishnadas, Martin L. Buist, Shamira Perera, Ching-Yu Cheng, Tin Aung, Alexandre H. Thiery, and Michael J. A. Girard(参考訳) 目的: 中心網膜血管幹とその枝(crvt&b)の三次元構造が緑内障の診断マーカーとして有用かどうかを評価する。 方法:視神経頭(onh)の光コヒーレンストモグラフィ(oct)ボリュームのbスキャンからcrvt&bを自動的に分割するディープラーニングネットワークを訓練した。 その後,OCTボリュームから抽出したCRVT&Bの構造的構成を用いて緑内障の診断に2つの異なるアプローチを用いた。 最初のアプローチでは,CRVT&Bの3次元構造と3次元CNNのみを用いた診断を行うことを目的とした。 2つ目のアプローチでは,crvt&bの3次元構造を3次元平面に投影して2次元画像を得た後,2次元cnnを用いて診断を行った。 dice係数を用いてセグメンテーション精度を評価し,受信機動作特性曲線(auc)下の領域を用いて診断精度を評価した。 CRVT&Bの診断性能は網膜神経線維層(RNFL)の厚みと比較した。 結果: セグメンテーションネットワークは, octスキャンから効率的に網膜血管を分割できた。 テストセットでは,Dice係数0.81\pm0.07を得た。 3Dと2Dの診断ネットワークは緑内障と非緑内障患者をそれぞれ82.7%と83.3%と区別することができた。 CRVT&BのAUCは0.89と0.90であり、RAFの厚さだけで得られたAUCよりも高かった。 結論:本研究は,crvt&bの診断能力が金標準緑内障パラメータ,すなわちrnflの厚さよりも優れていることを示した。 本研究は, 網膜血管が骨格を形成することを示唆し, 緑内障の進展と進展にともなう OnH 構造変化を代表していると考えられる。

Purpose: To assess whether the three-dimensional (3D) structural configuration of the central retinal vessel trunk and its branches (CRVT&B) could be used as a diagnostic marker for glaucoma. Method: We trained a deep learning network to automatically segment the CRVT&B from the B-scans of the optical coherence tomography (OCT) volume of the optic nerve head (ONH). Subsequently, two different approaches were used for glaucoma diagnosis using the structural configuration of the CRVT&B as extracted from the OCT volumes. In the first approach, we aimed to provide a diagnosis using only 3D CNN and the 3D structure of the CRVT&B. For the second approach, we projected the 3D structure of the CRVT&B orthographically onto three planes to obtain 2D images, and then a 2D CNN was used for diagnosis. The segmentation accuracy was evaluated using the Dice coefficient, whereas the diagnostic accuracy was assessed using the area under the receiver operating characteristic curves (AUC). The diagnostic performance of the CRVT&B was also compared with that of retinal nerve fiber layer (RNFL) thickness. Results: Our segmentation network was able to efficiently segment retinal blood vessels from OCT scans. On a test set, we achieved a Dice coefficient of 0.81\pm0.07. The 3D and 2D diagnostic networks were able to differentiate glaucoma from non-glaucoma subjects with accuracies of 82.7% and 83.3%, respectively. The corresponding AUCs for CRVT&B were 0.89 and 0.90, higher than those obtained with RNFL thickness alone. Conclusions: Our work demonstrated that the diagnostic power of the CRVT&B is superior to that of a gold-standard glaucoma parameter, i.e., RNFL thickness. Our work also suggested that the major retinal blood vessels form a skeleton -- the configuration of which may be representative of major ONH structural changes as typically observed with the development and progression of glaucoma.
翻訳日:2021-11-09 14:56:44 公開日:2021-11-07
# dvs:deep visibility seriesとその建設コスト指数予測への応用

DVS: Deep Visibility Series and its Application in Construction Cost Index Forecasting ( http://arxiv.org/abs/2111.04071v1 )

ライセンス: Link先を確認
Tianxiang Zhan, Yuanpeng He, Hanwen Li, Fuyuan Xiao(参考訳) 時系列予測は科学研究において常にホットスポットである。 人工知能の発展に伴い,新たな時系列予測手法により,バイオニック研究による予測効果と予測性能が向上し,過去の手法が改良された。 可視性グラフ(VG)アルゴリズムは過去の研究で時系列予測によく用いられるが、予測効果は、ニューラルネットワーク(ANN)、畳み込みニューラルネットワーク(CNN)、長短短期記憶ネットワーク(LSTM)予測のようなディープラーニング予測手法ほど良くない。 vgアルゴリズムには豊富なネットワーク情報が含まれているが、以前の研究ではネットワーク情報を効果的に予測することはできず、比較的大きな予測誤差が生じた。 そこで本稿では,vgのビオニオン設計と,vgとビオニオン設計とディープネットワークを組み合わせた最初の試みである過去の研究の拡張を通じて,dvs(deep visibility series)モジュールを提案する。 生体視覚の生体設計をVGに適用することにより,DVSの時系列予測精度が向上し,時系列予測に寄与した。 同時に,DVS予測手法を建設コスト指数予測に適用し,実用的意義を有する。

Time series forecasting has always been a hot spot in scientific research. With the development of artificial intelligence, new time series forecasting methods have obtained better forecasting effects and forecasting performance through bionic research and improvements to the past methods. Visibility Graph (VG) algorithm is often used for time series prediction in previous research, but the prediction effect is not as good as deep learning prediction methods such as Artificial Neural Network (ANN), Convolutional Neural Network (CNN) and Long Short-Term Memory Network (LSTM) prediction. The VG algorithm contains a wealth of network information, but previous studies did not effectively use the network information to make predictions, resulting in relatively large prediction errors. In order to solve this problem, this paper proposes the Deep Visibility Series (DVS) module through the bionic design of VG and the expansion of the past research, which is the first time to combine VG with bionic design and deep network. By applying the bionic design of biological vision to VG, the time series of DVS has obtained superior forecast accuracy, which has made a contribution to time series forecasting. At the same time, this paper applies the DVS forecasting method to the construction cost index forecast, which has practical significance.
翻訳日:2021-11-09 14:23:38 公開日:2021-11-07
# MetaMIML: メタマルチインスタンスマルチラベル学習

MetaMIML: Meta Multi-Instance Multi-Label Learning ( http://arxiv.org/abs/2111.04112v1 )

ライセンス: Link先を確認
Yuanlin Yang, Guoxian Yu, Jun Wang, Lei Liu, Carlotta Domeniconi, Maozu Guo(参考訳) multi-instance multi-label learning (miml)は複雑なオブジェクト(バッグ)をモデル化する。 現在のMIMLソリューションは依然として単一のタイプのオブジェクトに焦点を当てており、トレーニングデータのID分布を前提としている。 しかし、これらのオブジェクトは%(facebookのさまざまなユーザーとのリンク)という他のタイプのオブジェクトとリンクされ、ターゲットオブジェクトのセマンティクスもエンコードされる。 加えて、トレーニングには豊富なラベル付きデータが必要である。 異なるタイプの相互依存型MIMLオブジェクトを効果的にマイニングするために,ネットワーク埋め込みとメタ学習に基づくアプローチ(MetaMIML)を提案する。 MetaMIMLでは、異なるタイプのオブジェクトのセマンティック情報をキャプチャするためのネットワーク埋め込みによるコンテキスト学習と、新しいタスクに迅速に適応するためのメタ知識を抽出するタスク学習を導入している。 このように、MetaMIMLはデータレベルでMIMLオブジェクトを自然に扱えるだけでなく、モデル拡張時のメタ学習のパワーを活用できる。 ベンチマークデータセットの実験では、MetaMIMLは最先端のアルゴリズムよりも大幅にパフォーマンスが向上している。

Multi-Instance Multi-Label learning (MIML) models complex objects (bags), each of which is associated with a set of interrelated labels and composed with a set of instances. Current MIML solutions still focus on a single-type of objects and assumes an IID distribution of training data. But these objects are linked with objects of other types, %(i.e., pictures in Facebook link with various users), which also encode the semantics of target objects. In addition, they generally need abundant labeled data for training. To effectively mine interdependent MIML objects of different types, we propose a network embedding and meta learning based approach (MetaMIML). MetaMIML introduces the context learner with network embedding to capture semantic information of objects of different types, and the task learner to extract the meta knowledge for fast adapting to new tasks. In this way, MetaMIML can naturally deal with MIML objects at data level improving, but also exploit the power of meta-learning at the model enhancing. Experiments on benchmark datasets demonstrate that MetaMIML achieves a significantly better performance than state-of-the-art algorithms.
翻訳日:2021-11-09 14:23:17 公開日:2021-11-07
# 機械倫理に関する一言 : 江らへの反応(2021年)

A Word on Machine Ethics: A Response to Jiang et al. (2021) ( http://arxiv.org/abs/2111.04158v1 )

ライセンス: Link先を確認
Zeerak Talat, Hagen Blix, Josef Valvoda, Maya Indira Ganesh, Ryan Cotterell, Adina Williams(参考訳) 倫理は人類の最も長い知的努力の1つである。 近年、AIとNLPの分野は、人間と対話する学習システムが倫理的に振る舞うように制約されるべきかどうかに悩まされている。 この流れの1つの提案は、任意のテキストを取り込み、記述された状況に関する道徳的判断を出力できる道徳モデルの構築である。 本稿では,最近提案されたDelphiモデルの単一事例研究に焦点をあて,モラル判断を自動化するためのプロジェクト提案手法の批判を提供する。 Delphiの監査を通じて、同様の試みに当てはまる幅広い問題について検討する。 我々は、透明性、民主的価値、そして直接的な説明責任を可能にする方法で、テクノロジの現在および近未来の利用に焦点をあてて、機械倫理がどのようにして役立つかという議論を締めくくった。

Ethics is one of the longest standing intellectual endeavors of humanity. In recent years, the fields of AI and NLP have attempted to wrangle with how learning systems that interact with humans should be constrained to behave ethically. One proposal in this vein is the construction of morality models that can take in arbitrary text and output a moral judgment about the situation described. In this work, we focus on a single case study of the recently proposed Delphi model and offer a critique of the project's proposed method of automating morality judgments. Through an audit of Delphi, we examine broader issues that would be applicable to any similar attempt. We conclude with a discussion of how machine ethics could usefully proceed, by focusing on current and near-future uses of technology, in a way that centers around transparency, democratic values, and allows for straightforward accountability.
翻訳日:2021-11-09 14:11:28 公開日:2021-11-07
# 大規模事前トレーニングのないスクラッチからのNLP - シンプルで効率的なフレームワーク

NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework ( http://arxiv.org/abs/2111.04130v1 )

ライセンス: Link先を確認
Xingcheng Yao, Yanan Zheng, Xiaocong Yang, Zhilin Yang(参考訳) 事前訓練された言語モデルは、高い性能のために多くのNLPタスクの標準的アプローチとなっているが、訓練は非常に高価である。 本稿では,大規模事前学習に依存しない,シンプルで効率的な学習フレームワーク TLM を提案する。 いくつかのラベル付きタスクデータと大きな汎用コーパスが与えられたとき、TLMはタスクデータをクエリとして使用して、汎用コーパスの小さなサブセットを検索し、タスク目的と言語モデリング目的をスクラッチから共同で最適化する。 4つの領域の8つの分類データセットにおいて、TLMは事前訓練された言語モデル(例えばRoBERTa-Large)よりも良い結果を得ると同時に、FLOPを2桁の精度で縮小する。 高い精度と効率で、TLMがNLPの民主化に寄与し、その開発の迅速化に寄与することを期待します。

Pretrained language models have become the standard approach for many NLP tasks due to strong performance, but they are very expensive to train. We propose a simple and efficient learning framework, TLM, that does not rely on large-scale pretraining. Given some labeled task data and a large general corpus, TLM uses task data as queries to retrieve a tiny subset of the general corpus and jointly optimizes the task objective and the language modeling objective from scratch. On eight classification datasets in four domains, TLM achieves results better than or similar to pretrained language models (e.g., RoBERTa-Large) while reducing the training FLOPs by two orders of magnitude. With high accuracy and efficiency, we hope TLM will contribute to democratizing NLP and expediting its development.
翻訳日:2021-11-09 14:09:25 公開日:2021-11-07
# 変数を見てください! sobolに基づく感度解析によるブラックボックスの効率的な説明

Look at the Variance! Efficient Black-box Explanations with Sobol-based Sensitivity Analysis ( http://arxiv.org/abs/2111.04138v1 )

ライセンス: Link先を確認
Thomas Fel, Remi Cadene, Mathieu Chalvidal, Matthieu Cord, David Vigouroux, Thomas Serre(参考訳) 本稿では,感度解析に基礎を置き,sobolインデックスを用いた新しい帰属法について述べる。 画像領域の個々の寄与をモデル化するだけでなく、sobolインデックスは、画像領域間の高次相互作用とその分散レンズによるニューラルネットワークの予測への寄与を捉える効率的な方法を提供する。 画像の高次元性を扱うために、摂動マスクと効率的な推定器を組み合わせることで、これらの指標の計算を高次元問題に対して効率的にする手法について述べる。 重要なのは、提案手法が視覚(および言語モデル)の標準ベンチマークにおいて、他のブラックボックス法に比べて計算時間を劇的に短縮する一方で、内部表現へのアクセスを必要とする最先端のホワイトボックス法の精度を上回ることさえも示すことである。 私たちのコードは無償で利用可能です。

We describe a novel attribution method which is grounded in Sensitivity Analysis and uses Sobol indices. Beyond modeling the individual contributions of image regions, Sobol indices provide an efficient way to capture higher-order interactions between image regions and their contributions to a neural network's prediction through the lens of variance. We describe an approach that makes the computation of these indices efficient for high-dimensional problems by using perturbation masks coupled with efficient estimators to handle the high dimensionality of images. Importantly, we show that the proposed method leads to favorable scores on standard benchmarks for vision (and language models) while drastically reducing the computing time compared to other black-box methods -- even surpassing the accuracy of state-of-the-art white-box methods which require access to internal representations. Our code is freely available: https://github.com/f el-thomas/Sobol-Attr ibution-Method
翻訳日:2021-11-09 13:48:03 公開日:2021-11-07
# 潜在的共同設立者と選択バイアスの関連性における反復因果発見

Iterative Causal Discovery in the Possible Presence of Latent Confounders and Selection Bias ( http://arxiv.org/abs/2111.04095v1 )

ライセンス: Link先を確認
Raanan Y. Rohekar, Shami Nisimov, Yaniv Gurwicz, Gal Novik(参考訳) 我々は,潜在共起者と選択バイアスの存在下で因果グラフを復元する反復因果探索(icd)と呼ばれる,健全かつ完全なアルゴリズムを提案する。 ICDは因果マルコフと忠実性の仮定に依存し、基礎となる因果グラフの同値類を復元する。 完全なグラフから始まり、連結ノード間の条件独立性(CI)を識別することで、このグラフを徐々に洗練する単一の反復段階からなる。 独立性と因果関係は、イテレーションが正しければいつでもICDを発生させる。 本質的には、CI条件セットのサイズをテストノードからグラフ上の距離に結び付け、連続したイテレーションでこの値を増大させます。 したがって、各イテレーションは、より小さなコンディショニングセットを持つ以前のイテレーションによって復元されたグラフを洗練し、安定性に寄与する。 ICDはCIテストが著しく少なく、FCI、FCI+、RFCIアルゴリズムよりも正確な因果グラフを学習できることを実証的に実証した。

We present a sound and complete algorithm, called iterative causal discovery (ICD), for recovering causal graphs in the presence of latent confounders and selection bias. ICD relies on the causal Markov and faithfulness assumptions and recovers the equivalence class of the underlying causal graph. It starts with a complete graph, and consists of a single iterative stage that gradually refines this graph by identifying conditional independence (CI) between connected nodes. Independence and causal relations entailed after any iteration are correct, rendering ICD anytime. Essentially, we tie the size of the CI conditioning set to its distance on the graph from the tested nodes, and increase this value in the successive iteration. Thus, each iteration refines a graph that was recovered by previous iterations having smaller conditioning sets -- a higher statistical power -- which contributes to stability. We demonstrate empirically that ICD requires significantly fewer CI tests and learns more accurate causal graphs compared to FCI, FCI+, and RFCI algorithms.
翻訳日:2021-11-09 13:47:48 公開日:2021-11-07
# V-MAO:人工物体のマルチアーム操作のための生成モデル

V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated Objects ( http://arxiv.org/abs/2111.03987v1 )

ライセンス: Link先を確認
Xingyu Liu, Kris M. Kitani(参考訳) 関節のある物体を操作するには、一般に複数のロボットアームが必要である。 複数のロボットアームが協調して関節オブジェクトの操作タスクを完了させることは困難である。 本稿では,音声オブジェクトのマルチアーム操作を学習するフレームワークである$\textbf{V-MAO}$を提案する。 本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。 訓練信号は、計画により実現されるシミュレーション環境と相互作用し、関節オブジェクトに対するオブジェクト中心制御の新規な定式化から得られる。 フレームワークをカスタマイズした MuJoCo シミュレーション環境にデプロイし、6つの異なるオブジェクトと2つの異なるロボットに対して高い成功率を達成することを示す。 また, 生成モデルにより, 物体の接触点分布を効果的に学習できることを示す。

Manipulating articulated objects requires multiple robot arms in general. It is challenging to enable multiple robot arms to collaboratively complete manipulation tasks on articulated objects. In this paper, we present $\textbf{V-MAO}$, a framework for learning multi-arm manipulation of articulated objects. Our framework includes a variational generative model that learns contact point distribution over object rigid parts for each robot arm. The training signal is obtained from interaction with the simulation environment which is enabled by planning and a novel formulation of object-centric control for articulated objects. We deploy our framework in a customized MuJoCo simulation environment and demonstrate that our framework achieves a high success rate on six different objects and two different robots. We also show that generative modeling can effectively learn the contact point distribution on articulated objects.
翻訳日:2021-11-09 13:46:36 公開日:2021-11-07
# (参考訳) 時間的融合に基づくメタリスケールセマンティクスセグメンテーションによる隠し荷物の脅威検出 [全文訳有]

Temporal Fusion Based Mutli-scale Semantic Segmentation for Detecting Concealed Baggage Threats ( http://arxiv.org/abs/2111.02651v2 )

ライセンス: CC BY 4.0
Muhammed Shafay and Taimur Hassan and Ernesto Damiani and Naoufel Werghi(参考訳) 荷物の違法品や脅し品の検出は、近年のセキュリティ上の最大の懸念事項である。 経験豊富なセキュリティ担当者でさえ、手動検出は時間のかかるストレスを伴う作業である。 多くの学者は、荷物のx線スキャンから疑わしいデータや反則データを検出するための自動化フレームワークを開発した。 しかし,我々の知る限り,肉眼でもほとんど見えない,隠蔽・隠蔽された物体を効果的に映し出すために,時間的手荷物X線画像を利用する枠組みは存在しない。 そこで本稿では, 連続スキャンを入力として用い, 疑わしい, 疑わしい, 疑わしい内容の特徴表現を生成するため, コントラバンドデータのより正確な抽出を行うための, 時間融合駆動型マルチスケール残留型エンコーダデコーダを提案する。 提案手法は、極端に隠蔽されたコントラバンドデータを示す時空間リンクグレースケールX線スキャンを含む唯一のデータセットであるGDXrayデータセットを用いて、徹底的に検証されている。 提案するフレームワークは,GDXrayデータセット上で,さまざまなメトリクスで競合する。

Detection of illegal and threatening items in baggage is one of the utmost security concern nowadays. Even for experienced security personnel, manual detection is a time-consuming and stressful task. Many academics have created automated frameworks for detecting suspicious and contraband data from X-ray scans of luggage. However, to our knowledge, no framework exists that utilizes temporal baggage X-ray imagery to effectively screen highly concealed and occluded objects which are barely visible even to the naked eye. To address this, we present a novel temporal fusion driven multi-scale residual fashioned encoder-decoder that takes series of consecutive scans as input and fuses them to generate distinct feature representations of the suspicious and non-suspicious baggage content, leading towards a more accurate extraction of the contraband data. The proposed methodology has been thoroughly tested using the publicly accessible GDXray dataset, which is the only dataset containing temporally linked grayscale X-ray scans showcasing extremely concealed contraband data. The proposed framework outperforms its competitors on the GDXray dataset on various metrics.
翻訳日:2021-11-09 12:20:44 公開日:2021-11-07