このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210927となっている論文です。

PDF登録状況(公開日: 20210927)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ConTIG: 時間的相互作用グラフによる連続表現学習 [全文訳有]

ConTIG: Continuous Representation Learning on Temporal Interaction Graphs ( http://arxiv.org/abs/2110.06088v1 )

ライセンス: CC BY 4.0
Xu Yan, Xiaoliang Fan, Peizhen Yang, Zonghan Wu, Shirui Pan, Longbiao Chen, Yu Zang and Cheng Wang(参考訳) 時間的相互作用グラフ(tig)上の表現学習は、幅広い問題から生じる相互作用の動的進化を伴う複雑なネットワークをモデル化する。 TIG上の既存の動的埋め込みメソッドは、相互作用が発生した場合にのみノード埋め込みを個別に更新する。 それらは、ノードの埋め込み軌道の連続的な動的進化を捉えることができない。 本稿では,ノード埋め込みトラジェクトリの連続的動的進化をキャプチャする連続表現法であるConTIGという2つのモジュールフレームワークを提案する。 2つの必須モジュールにより,最新のインタラクション,隣接特徴,固有特性を含む動的ネットワークにおける3次元因子を探索する。 第1の更新モジュールでは、常微分方程式を用いてノード対間の時間-隣接相互作用パターンから学習し、ノードの状態軌道を学ぶための連続的推論ブロックを用いる。 第2の変換モジュールでは,過去の時間的相互作用情報を集約することにより,将来のノード埋め込みを予測するセルフアテンション機構を導入する。 実験の結果、時間的リンク予測、時間的ノード推薦、動的ノード分類タスクにおける連続性が、最先端のベースライン、特に長期間相互作用予測よりも優れていることが示された。

Representation learning on temporal interaction graphs (TIG) is to model complex networks with the dynamic evolution of interactions arising in a broad spectrum of problems. Existing dynamic embedding methods on TIG discretely update node embeddings merely when an interaction occurs. They fail to capture the continuous dynamic evolution of embedding trajectories of nodes. In this paper, we propose a two-module framework named ConTIG, a continuous representation method that captures the continuous dynamic evolution of node embedding trajectories. With two essential modules, our model exploit three-fold factors in dynamic networks which include latest interaction, neighbor features and inherent characteristics. In the first update module, we employ a continuous inference block to learn the nodes' state trajectories by learning from time-adjacent interaction patterns between node pairs using ordinary differential equations. In the second transform module, we introduce a self-attention mechanism to predict future node embeddings by aggregating historical temporal interaction information. Experiments results demonstrate the superiority of ConTIG on temporal link prediction, temporal node recommendation and dynamic node classification tasks compared with a range of state-of-the-art baselines, especially for long-interval interactions prediction.
翻訳日:2021-10-17 16:49:04 公開日:2021-09-27
# 曲率アウェアデリバティブフリー最適化

Curvature-Aware Derivative-Free Optimization ( http://arxiv.org/abs/2109.13391v1 )

ライセンス: Link先を確認
Bumsu Kim, HanQin Cai, Daniel McKenzie, Wotao Yin(参考訳) 微分自由度最適化のための新しい線探索法, Curvature-Aware Random Search (CARS) を提案する。 CARSは、探索方向の最適ステップサイズを推定するために近似曲率情報を利用する。 強凸目的関数に対して、探索方向が非常に穏やかな条件を満たす分布から引き出された場合、CARSは線形収束することを示す。 また,探索方向に沿って曲率近似を行う場合,モンテカルロ法の代わりに数値四次数を用いるcars-nqも検討した。 CARS-NQ は $f = f_{\mathrm{cvx}} + f_{\mathrm{osc}}$ ここで $f_{\mathrm{cvx}}$ は強い凸であり、$f_{\mathrm{osc}}$ は急速に振動する。 実験の結果,CARS と CARS-NQ は,ベンチマーク問題集合上での最先端よりも高い値を示した。

We propose a new line-search method, coined Curvature-Aware Random Search (CARS), for derivative-free optimization. CARS exploits approximate curvature information to estimate the optimal step-size given a search direction. We prove that for strongly convex objective functions, CARS converges linearly if the search direction is drawn from a distribution satisfying very mild conditions. We also explore a variant, CARS-NQ, which uses Numerical Quadrature instead of a Monte Carlo method when approximating curvature along the search direction. We show CARS-NQ is effective on highly non-convex problems of the form $f = f_{\mathrm{cvx}} + f_{\mathrm{osc}}$ where $f_{\mathrm{cvx}}$ is strongly convex and $f_{\mathrm{osc}}$ is rapidly oscillating. Experimental results show that CARS and CARS-NQ match or exceed the state-of-the-arts on benchmark problem sets.
翻訳日:2021-10-17 05:08:54 公開日:2021-09-27
# 新型コロナのインドデータ:インドで発生した毎日の健康影響で詳細な新型コロナウイルスのデータを解析

COVID-19 India Dataset: Parsing Detailed COVID-19 Data in Daily Health Bulletins from States in India ( http://arxiv.org/abs/2110.02311v1 )

ライセンス: Link先を確認
Mayank Agarwal, Tathagata Chakraborti, Sachin Grover(参考訳) インドは依然として新型コロナウイルス(covid-19)パンデミックのホットスポットの1つだが、同国のパンデミックに関するデータはほとんど利用できないことが判明している。 データの大部分がWeb上の非構造化形式で存在し、ボランティア活動を通じて手動で管理される公開APIを通じて、そのようなデータの限られた側面が利用可能である。 これは、詳細なデータへのアクセスの容易性だけでなく、手作業によるデータ管理のメンテナンスに関しても困難であることが判明した。 本稿では,従来のPDFパーサと最先端のMLベースの文書抽出APIを組み合わせることで,公衆衛生報告書からそのようなデータを自動抽出するプロジェクトについて報告する。 本稿では,自動化されたデータ抽出手法,生成されたデータの性質,進行中の作業のエキサイティングな道筋について述べる。

While India remains one of the hotspots of the COVID-19 pandemic, data about the pandemic from the country has proved to be largely inaccessible for use at scale. Much of the data exists in an unstructured form on the web, and limited aspects of such data are available through public APIs maintained manually through volunteer efforts. This has proved to be difficult both in terms of ease of access to detailed data as well as with regards to the maintenance of manual data-keeping over time. This paper reports on a recently launched project aimed at automating the extraction of such data from public health bulletins with the help of a combination of classical PDF parsers as well as state-of-the-art ML-based documents extraction APIs. In this paper, we will describe the automated data-extraction technique, the nature of the generated data, and exciting avenues of ongoing work.
翻訳日:2021-10-10 11:06:01 公開日:2021-09-27
# トルコのツイート感情分析における非負行列因子分解とn段階潜在ディリクレ割当ての評価

Evaluation of Non-Negative Matrix Factorization and n-stage Latent Dirichlet Allocation for Emotion Analysis in Turkish Tweets ( http://arxiv.org/abs/2110.00418v1 )

ライセンス: Link先を確認
Zekeriya Anil Guven, Banu Diri, Tolgahan Cakaloglu(参考訳) テクノロジーの発達により、ソーシャルメディアの利用は非常に一般的になった。 ソーシャルメディア上のコメントの分析は、メディアや広告といった分野で今日重要な役割を担っている。 このため、これらの共有の感情を検出するために、新しく伝統的な自然言語処理手法が用いられる。 本稿では,トルコのツイートがTwitterで投稿した感情を決定するために,LDA(Latent Dirichlet Allocation)とNon-Negative Matrix Factorization法を用いた。 さらに,LDAに基づくnレベル手法の精度について検討した。 データセットは5つの感情、すなわち怒り、恐怖、幸せ、悲しみ、混乱から構成される。 この研究でNMFはすべてのトピックモデリング手法の中で最も成功した手法である。 そして,そのトピックの重みとクラスラベルを用いて,Wekaに適したファイルを取得することにより,ランダムフォレスト,ネイブベイズ,サポートベクターマシンのF1尺度を解析した。 wekaの結果のうち最も成功した手法はn段階ldaであり、最も成功したアルゴリズムはランダムフォレストであった。

With the development of technology, the use of social media has become quite common. Analyzing comments on social media in areas such as media and advertising plays an important role today. For this reason, new and traditional natural language processing methods are used to detect the emotion of these shares. In this paper, the Latent Dirichlet Allocation, namely LDA, and Non-Negative Matrix Factorization methods in topic modeling were used to determine which emotion the Turkish tweets posted via Twitter. In addition, the accuracy of a proposed n-level method based on LDA was analyzed. Dataset consists of 5 emotions, namely angry, fear, happy, sad and confused. NMF was the most successful method among all topic modeling methods in this study. Then, the F1-measure of Random Forest, Naive Bayes and Support Vector Machine methods was analyzed by obtaining a file suitable for Weka by using the word weights and class labels of the topics. Among the Weka results, the most successful method was n-stage LDA, and the most successful algorithm was Random Forest.
翻訳日:2021-10-10 09:16:25 公開日:2021-09-27
# (参考訳) ビジネスレコメンダシステムのための新しいハイブリッド技術 [全文訳有]

New Hybrid Techniques for Business Recommender Systems ( http://arxiv.org/abs/2109.13922v1 )

ライセンス: CC BY 4.0
Charuta Pande, Hans Friedrich Witschel and Andreas Martin(参考訳) 映画やショッピングプラットフォームのようなb2cシナリオにおけるレコメンダシステムの典型的な応用に加えて、レコメンダシステムの利用を通じてコンサルタントに提供される人間主導のアドバイスを変えることへの関心が高まっている。 本稿では,これらの知識に基づくB2Bサービスの特徴を探求し,レコメンダシステムを組み込むプロセスを提案する。 必要な文脈知識(企業人口統計など)を組み込むための推奨手法をいくつか提案・比較する。 これらの手法は、ビジネスインテリジェンスコンサルタントケースのテストセットで独立して評価されます。 次に,各手法の強みを特定し,これらの強みを組み合わせるための新しいハイブリダイゼーション戦略を提案する。 以上の結果から,ハイブリダイゼーションは個々の手法に対する性能向上につながることが示唆された。

Besides the typical applications of recommender systems in B2C scenarios such as movie or shopping platforms, there is a rising interest in transforming the human-driven advice provided e.g. in consultancy via the use of recommender systems. We explore the special characteristics of such knowledge-based B2B services and propose a process that allows to incorporate recommender systems into them. We suggest and compare several recommender techniques that allow to incorporate the necessary contextual knowledge (e.g. company demographics). These techniques are evaluated in isolation on a test set of business intelligence consultancy cases. We then identify the respective strengths of the different techniques and propose a new hybridisation strategy to combine these strengths. Our results show that the hybridisation leads to a substantial performance improvement over the individual methods.
翻訳日:2021-10-02 11:30:34 公開日:2021-09-27
# (参考訳) 機械学習による過渡的運動データの事前校正 [全文訳有]

A Priori Calibration of Transient Kinetics Data via Machine Learning ( http://arxiv.org/abs/2109.15042v1 )

ライセンス: CC BY 4.0
M. Ross Kunz, Adam Yonge, Rakesh Batchu, Zongtang Fang, Yixiao Wang, Gregory Yablonsky, Andrew J. Medford, Rebecca Fushimi(参考訳) 生成物反応器の時間的解析は、滞留時間分布、運動係数、活性部位の数、反応機構など様々な化学的特徴を記述するために用いられる膨大な過渡的運動情報を提供する。 しかし、他の測定装置と同様に、TAPリアクター信号はノイズと混同される。 運動量測定や導出パラメータやメカニズムの不確実性を低減するため、高度な分析の前に適切な前処理を行う必要がある。 この前処理は、ベースライン補正、すなわち電圧応答のシフト、キャリブレーション、すなわち以前の実験に基づくフラックス応答のスケーリングからなる。 現在のプリプロセッシングの方法論は、時間とともに漂流する可能性のある以前の実験に重要なユーザの判断と依存を必要とする。 ここでは,物理制約を併用した機械学習手法を用いて,楽器信号から化学情報への変換を行う。 提案手法は,不活性混合製品のキャリブレーションにおいて,ユーザからの事前キャリブレーション実験やヒューリスティック入力を必要とせず,従来の前処理よりも明確な効果を示す。

The temporal analysis of products reactor provides a vast amount of transient kinetic information that may be used to describe a variety of chemical features including the residence time distribution, kinetic coefficients, number of active sites, and the reaction mechanism. However, as with any measurement device, the TAP reactor signal is convoluted with noise. To reduce the uncertainty of the kinetic measurement and any derived parameters or mechanisms, proper preprocessing must be performed prior to any advanced analysis. This preprocessing consists of baseline correction, i.e., a shift in the voltage response, and calibration, i.e., a scaling of the flux response based on prior experiments. The current methodology of preprocessing requires significant user discretion and reliance on previous experiments that may drift over time. Herein we use machine learning techniques combined with physical constraints to convert the raw instrument signal to chemical information. As such, the proposed methodology demonstrates clear benefits over the traditional preprocessing in the calibration of the inert and feed mixture products without need of prior calibration experiments or heuristic input from the user.
翻訳日:2021-10-02 11:16:47 公開日:2021-09-27
# sEMGウェアラブルセンサと機械学習を用いた手動材料ハンドリングにおける作業者のエルゴノミクスリスクの自動評価

Automated Workers Ergonomic Risk Assessment in Manual Material Handling using sEMG Wearable Sensors and Machine Learning ( http://arxiv.org/abs/2109.15036v1 )

ライセンス: Link先を確認
Srimantha E. Mudiyanselage, Phuong H.D. Nguyen, Mohammad Sadra Rajabi, and Reza Akhavian(参考訳) 手動の材料処理タスクは、人間工学的な観点から非常に危険である可能性がある。 体姿勢を監視する安全検査は、物質処理の人間工学的リスクを軽減するのに役立つ。 しかし、けがの原因となる筋肉の動き、緊張、過度な力の本当の影響は、外部の手がかりでは特定できないかもしれない。 本稿では, 表面筋電図(EMG)ベースのシステムと機械学習アルゴリズムを併用して, 物質処理時の筋肉を害する身体の動きを自動的に検出する能力について検討する。 この分析は、NIOSH(National Institute for Occupational Safety and Health)によって開発されたリフト式を利用した。 この方程式は、健康な労働者が持ち上げて持ち運べる最大許容重量と、リスク範囲を評価するためのリフティング指標値であるRecommended Weight Limitを決定する。 NIOSHリフト方程式に基づいて計算されたリスク評価を分類するために、決定木、支援ベクトルマシン、K-Nearest Neighbor、ランダムフォレストという4つの異なる機械学習モデルを開発した。 各種パラメータに対するモデルの感度も評価し,各アルゴリズムを用いて最適な性能を求める。 結果は、決定木モデルが99.35%の精度でリスクレベルを予測する可能性を示唆している。

Manual material handling tasks have the potential to be highly unsafe from an ergonomic viewpoint. Safety inspections to monitor body postures can help mitigate ergonomic risks of material handling. However, the real effect of awkward muscle movements, strains, and excessive forces that may result in an injury may not be identified by external cues. This paper evaluates the ability of surface electromyogram (EMG)-based systems together with machine learning algorithms to automatically detect body movements that may harm muscles in material handling. The analysis utilized a lifting equation developed by the U.S. National Institute for Occupational Safety and Health (NIOSH). This equation determines a Recommended Weight Limit, which suggests the maximum acceptable weight that a healthy worker can lift and carry as well as a Lifting Index value to assess the risk extent. Four different machine learning models, namely Decision Tree, Support Vector Machine, K-Nearest Neighbor, and Random Forest are developed to classify the risk assessments calculated based on the NIOSH lifting equation. The sensitivity of the models to various parameters is also evaluated to find the best performance using each algorithm. Results indicate that Decision Tree models have the potential to predict the risk level with close to 99.35% accuracy.
翻訳日:2021-10-01 14:36:30 公開日:2021-09-27
# 自動量子化コントラスト学習によるクリックスルー率予測

Click-through Rate Prediction with Auto-Quantized Contrastive Learning ( http://arxiv.org/abs/2109.13921v1 )

ライセンス: Link先を確認
Yujie Pan, Jiangchao Yao, Bo Han, Kunyang Jia, Ya Zhang, Hongxia Yang(参考訳) クリックスルー率(CTR)予測は、ユビキタスウェブレコメンデーションアプリケーションでは不可欠である。 それでも、現在の手法は、ユーザインタラクションが極めて疎いコールドスタートシナリオで苦労しています。 本稿では,ユーザ行動が予測対象の興味を捉えるのに十分な量であるかどうかを自動識別し,モデルの正規化を目的とした自動量子コントラスト学習(AQCL)の損失を提案する。 従来の方法とは異なり、AQCLはインスタンスインスタンスとインスタンスクラスタの類似性の両方を探り、潜在表現を堅牢化し、量子化によるアクティブユーザへの情報損失を自動的に低減する。 提案されたフレームワークは、異なるモデルアーキテクチャに依存しず、エンドツーエンドでトレーニングすることができる。 その結果,現状のCTRモデルを常に改善していることがわかった。

Click-through rate (CTR) prediction becomes indispensable in ubiquitous web recommendation applications. Nevertheless, the current methods are struggling under the cold-start scenarios where the user interactions are extremely sparse. We consider this problem as an automatic identification about whether the user behaviors are rich enough to capture the interests for prediction, and propose an Auto-Quantized Contrastive Learning (AQCL) loss to regularize the model. Different from previous methods, AQCL explores both the instance-instance and the instance-cluster similarity to robustify the latent representation, and automatically reduces the information loss to the active users due to the quantization. The proposed framework is agnostic to different model architectures and can be trained in an end-to-end fashion. Extensive results show that it consistently improves the current state-of-the-art CTR models.
翻訳日:2021-09-30 14:57:41 公開日:2021-09-27
# ワイヤレスボディエリアネットワークを用いた省エネルギー型健康モニタリング手法

An Energy Efficient Health Monitoring Approach with Wireless Body Area Networks ( http://arxiv.org/abs/2109.14546v1 )

ライセンス: Link先を確認
Seemandhar Jain, Prarthi Jain, Prabhat K. Upadhyay, Jules M. Moualeu, Abhishek Srivastava(参考訳) 無線ボディエリアネットワーク(wbans)は、皮膚に埋もれたり、体表面の近くに設置されたりするセンサーのネットワークで構成され、患者の健康パラメータの継続的な監視を容易にする。 WBANを含む研究成果は、検出されたパラメータをローカル処理ユニット(LPU、通常はモバイルデバイス)に効果的に送信し、LPUやバックエンドクラウドでのパラメータの分析に向けられている。 WBANの重要な関心事は、WBANノードの軽量な性質と、そのエネルギーを保存する必要性である。 これは、チャージや定期的に交換できない皮下移植されたノードに特に当てはまる。 省エネルギーの研究は、エネルギー消費を最小限に抑えるために信号の経路を最適化することを目的としている。 本稿では, エネルギー保全とアラームの健康状態検出のための, シンプルながら革新的なアプローチを提案する。 エネルギーの保護は、第1層が感知ノードの部位における「興味のない」健康パラメータの読み出しを排除し、これらがWBANを介してLPUに伝達されるのを防ぐ2層アプローチによって確保される。 読みは、直前の読みからわずかに逸脱し、患者の健康に関する新たな洞察を与えなければ、興味をそそるものではないと分類される。 これに加えて、センサーの故障の可能性から誤読し、発散する読みも排除される。 これらの除去は、センサーノードの極めてリソースに制約された環境で効果的に機能するほど軽量なアルゴリズムを使用して、センサーの現場で行われる。 実験を通して、これによってLPUに送信する必要がある読み出しの約90%が削減され、大幅な省エネに繋がることに気づきました。 さらに、これらの制約された環境でのアルゴリズムの適切な機能を確認し、ハードウェアシミュレーションにより検証する。 第2段階の評価は、ストリーミングヘルスパラメータから異常を識別し、有害な医療状態を示すLPUで提案された異常検出モデルを含む。 ストリーミングデータの処理に加えて、モデルはLPUのリソース制限された環境内で動作し、データをバックエンドクラウドに送信する必要をなくし、さらなる省エネを確保する。 このモデルの異常検出能力は、病院のクリティカルケアユニットから得られるデータを用いて検証され、他の異常検出技術よりも優れていることが示されている。

Wireless Body Area Networks (WBANs) comprise a network of sensors subcutaneously implanted or placed near the body surface and facilitate continuous monitoring of health parameters of a patient. Research endeavours involving WBAN are directed towards effective transmission of detected parameters to a Local Processing Unit (LPU, usually a mobile device) and analysis of the parameters at the LPU or a back-end cloud. An important concern in WBAN is the lightweight nature of WBAN nodes and the need to conserve their energy. This is especially true for subcutaneously implanted nodes that cannot be recharged or regularly replaced. Work in energy conservation is mostly aimed at optimising the routing of signals to minimise energy expended. In this paper, a simple yet innovative approach to energy conservation and detection of alarming health status is proposed. Energy conservation is ensured through a two-tier approach wherein the first tier eliminates `uninteresting' health parameter readings at the site of a sensing node and prevents these from being transmitted across the WBAN to the LPU. A reading is categorised as uninteresting if it deviates very slightly from its immediately preceding reading and does not provide new insight on the patient's well being. In addition to this, readings that are faulty and emanate from possible sensor malfunctions are also eliminated. These eliminations are done at the site of the sensor using algorithms that are light enough to effectively function in the extremely resource-constrained environments of the sensor nodes. We notice, through experiments, that this eliminates and thus reduces around 90% of the readings that need to be transmitted to the LPU leading to significant energy savings. Furthermore, the proper functioning of these algorithms in such constrained environments is confirmed and validated over a hardware simulation set up. The second tier of assessment includes a proposed anomaly detection model at the LPU that is capable of identifying anomalies from streaming health parameter readings and indicates an adverse medical condition. In addition to being able to handle streaming data, the model works within the resource-constrained environments of an LPU and eliminates the need of transmitting the data to a back-end cloud, ensuring further energy savings. The anomaly detection capability of the model is validated using data available from the critical care units of hospitals and is shown to be superior to other anomaly detection techniques.
翻訳日:2021-09-30 14:31:48 公開日:2021-09-27
# (参考訳) flowvocoder: 音声合成のための小形ニューラルネットワークvocoderに基づく正規化フロー [全文訳有]

FlowVocoder: A small Footprint Neural Vocoder based Normalizing flow for Speech Synthesis ( http://arxiv.org/abs/2109.13675v1 )

ライセンス: CC BY 4.0
Manh Luong and Viet Anh Tran(参考訳) 近年,非自己回帰型ニューラルボコーダは高忠実度音声の生成に優れ,リアルタイムに合成音声を生成することができる。 しかし、WaveGlowのような非自己回帰型ニューラルボコーダは、表現性の制限による音声信号のモデリングにおいて、WaveFlowのような自己回帰型ニューラルボコーダよりもはるかに遅れている。 さらに、NanoFlowは、非常に小さなパラメータを持つ最先端の自己回帰型神経ボコーダであるが、その性能はWaveFlowよりも極端に低い。 そこで本研究では,メモリフットプリントが小さく,高忠実度音声をリアルタイムに生成できるFlowVocoderという,新しいタイプの自己回帰型ニューラルボコーダを提案する。 提案モデルでは,2部変換のための累積分布関数(CDF)の混合操作により,フローブロックの表現性を向上する。 したがって,提案モデルでは波形信号とWaveFlowをモデル化できるが,メモリフットプリントはWaveFlowよりはるかに小さい。 実験で示されているように、flowvocoderは主観的評価と客観的評価の両方の観点から、ベースラインメソッドと競合する結果を達成している。

Recently, non-autoregressive neural vocoders have provided remarkable performance in generating high-fidelity speech and have been able to produce synthetic speech in real-time. However, non-autoregressive neural vocoders such as WaveGlow are far behind autoregressive neural vocoders like WaveFlow in terms of modeling audio signals due to their limitation in expressiveness. In addition, though NanoFlow is a state-of-the-art autoregressive neural vocoder that has immensely small parameters, its performance is marginally lower than WaveFlow. Therefore, in this paper, we propose a new type of autoregressive neural vocoder called FlowVocoder, which has a small memory footprint and is able to generate high-fidelity audio in real-time. Our proposed model improves the expressiveness of flow blocks by operating a mixture of Cumulative Distribution Function(CDF) for bipartite transformation. Hence, the proposed model is capable of modeling waveform signals as well as WaveFlow, while its memory footprint is much smaller thanWaveFlow. As shown in experiments, FlowVocoder achieves competitive results with baseline methods in terms of both subjective and objective evaluation, also, it is more suitable for real-time text-to-speech applications.
翻訳日:2021-09-30 06:18:49 公開日:2021-09-27
# (参考訳) doodler:エンコーダ再構成による分散可能性の決定 [全文訳有]

DOODLER: Determining Out-Of-Distribution Likelihood from Encoder Reconstructions ( http://arxiv.org/abs/2109.13237v1 )

ライセンス: CC BY-SA 4.0
Jonathan S. Kent, Bo Li(参考訳) ディープラーニングモデルには、2つの重要な特徴がある。 1つは、彼らは通常、訓練された分布の外ではうまく一般化せず、2つは、有意義なアウトプットを産出するかどうかに関わらず、自信のある行動を示す傾向にあります。 ディープラーニングは、現実的で高次元の問題を解決するための膨大な力を持っているが、これらの特徴は、現実の応用に自信を持つことを難しくしている。 この難しさを克服するために、モデルが運用訓練対象のディストリビューションの外部から入力を受信したかどうかを判断するOOD(Out-Of-Distribut ion)検出タスクが定義された。 本稿では,OOD検出のための新しい手法であるDOODLERを導入,検討し,その必要となる特性を直接活用する。 変分自動エンコーダ(VAE)を他のディープラーニングモデルと同じデータでトレーニングすることにより、VAEは、ID(In-Distribution)入力を正確に再構成することを学ぶが、OOD入力を再構成しない。 この分野の他の研究とは異なり、DOODLERはOODデータセットの存在について非常に弱い仮定しか必要とせず、より現実的なアプリケーションを可能にする。 DOODLERはまた、OOD可能性による入力画像のピクセルワイズ分割を可能にし、同じ制約の下で動作する方法論に適合または優れることを示す実験結果を示した。

Deep Learning models possess two key traits that, in combination, make their use in the real world a risky prospect. One, they do not typically generalize well outside of the distribution for which they were trained, and two, they tend to exhibit confident behavior regardless of whether or not they are producing meaningful outputs. While Deep Learning possesses immense power to solve realistic, high-dimensional problems, these traits in concert make it difficult to have confidence in their real-world applications. To overcome this difficulty, the task of Out-Of-Distribution (OOD) Detection has been defined, to determine when a model has received an input from outside of the distribution for which it is trained to operate. This paper introduces and examines a novel methodology, DOODLER, for OOD Detection, which directly leverages the traits which result in its necessity. By training a Variational Auto-Encoder (VAE) on the same data as another Deep Learning model, the VAE learns to accurately reconstruct In-Distribution (ID) inputs, but not to reconstruct OOD inputs, meaning that its failure state can be used to perform OOD Detection. Unlike other work in the area, DOODLER requires only very weak assumptions about the existence of an OOD dataset, allowing for more realistic application. DOODLER also enables pixel-wise segmentations of input images by OOD likelihood, and experimental results show that it matches or outperforms methodologies that operate under the same constraints.
翻訳日:2021-09-30 06:08:31 公開日:2021-09-27
# (参考訳) 論理人工知能を用いた量子光学実験の設計 [全文訳有]

Design of quantum optical experiments with logic artificial intelligence ( http://arxiv.org/abs/2109.13273v1 )

ライセンス: CC BY 4.0
Alba Cervera-Lierta, Mario Krenn, Al\'an Aspuru-Guzik(参考訳) 論理人工知能(AI)は、変数がTrueとFalseの2つの定義された引数を取ることができるAIのサブフィールドであり、形式論理の規則に従う節に配置される。 物理系から数理予想にまたがるいくつかの問題はこれらの節に符号化され、その満足度(SAT)をチェックすることで解決できる。 近年、SATソルバは、長年の数学的予想を解くことができる高度で強力な計算ツールとなっている。 本稿では,光学量子実験の設計における論理AIの利用を提案する。 任意の量子状態の実験的な準備をsat問題にマップする方法を示し、klausと呼ばれる論理ベースのアルゴリズムを提案し、それを生成するフォトニック構成の解釈可能な表現を求める。 この目的のためにklausの性能と最先端アルゴリズムを連続最適化に基づいて比較する。 また、論理戦略と数値戦略を組み合わせることで、論理aiの使用がこの問題の解決を大幅に改善し、量子物理学実験の文脈でより形式的なアプローチを開発する道筋を開くことを見出します。

Logic artificial intelligence (AI) is a subfield of AI where variables can take two defined arguments, True or False, and are arranged in clauses that follow the rules of formal logic. Several problems that span from physical systems to mathematical conjectures can be encoded into these clauses and be solved by checking their satisfiability (SAT). Recently, SAT solvers have become a sophisticated and powerful computational tool capable, among other things, of solving long-standing mathematical conjectures. In this work, we propose the use of logic AI for the design of optical quantum experiments. We show how to map into a SAT problem the experimental preparation of an arbitrary quantum state and propose a logic-based algorithm, called Klaus, to find an interpretable representation of the photonic setup that generates it. We compare the performance of Klaus with the state-of-the-art algorithm for this purpose based on continuous optimization. We also combine both logic and numeric strategies to find that the use of logic AI improves significantly the resolution of this problem, paving the path to develop more formal-based approaches in the context of quantum physics experiments.
翻訳日:2021-09-30 05:49:47 公開日:2021-09-27
# (参考訳) 都市ドライバー:政策グラディエントを用いた実世界のデモから学ぶ [全文訳有]

Urban Driver: Learning to Drive from Real-world Demonstrations Using Policy Gradients ( http://arxiv.org/abs/2109.13333v1 )

ライセンス: CC BY 4.0
Oliver Scheel, Luca Bergamini, Maciej Wo{\l}czyk, B{\l}a\.zej Osi\'nski, Peter Ondruska(参考訳) 本研究では,実世界の実演の大規模なコーパスから,複雑な都市運転の模倣政策を学ぶためのオフライン政策勾配手法を最初に提示する。 これは、知覚出力と高忠実度HDマップの上に、微分可能なデータ駆動シミュレータを構築することで実現される。 これにより、中間レベル表現を使用して、既存のデモから新しい駆動エクスペリエンスを合成できます。 このシミュレータを用いて、ポリシー勾配を用いたクローズドループでポリシーネットワークを訓練する。 提案手法を都市道路における100時間の実証実験で訓練し, 運転を一般化する複雑な運転方針を学習し, 様々な運転操作を行えることを示す。 これをシミュレーションで実証し、実世界の自動運転車にモデルをデプロイします。 我々の手法は以前、都市部の運転シナリオの最先端性を実証した。これら全ては、複雑な状態の摂動や、トレーニング中に追加の政治データを収集する必要がない。 コードとデータを公開しています。

In this work we are the first to present an offline policy gradient method for learning imitative policies for complex urban driving from a large corpus of real-world demonstrations. This is achieved by building a differentiable data-driven simulator on top of perception outputs and high-fidelity HD maps of the area. It allows us to synthesize new driving experiences from existing demonstrations using mid-level representations. Using this simulator we then train a policy network in closed-loop employing policy gradients. We train our proposed method on 100 hours of expert demonstrations on urban roads and show that it learns complex driving policies that generalize well and can perform a variety of driving maneuvers. We demonstrate this in simulation as well as deploy our model to self-driving vehicles in the real-world. Our method outperforms previously demonstrated state-of-the-art for urban driving scenarios -- all this without the need for complex state perturbations or collecting additional on-policy data during training. We make code and data publicly available.
翻訳日:2021-09-30 05:30:17 公開日:2021-09-27
# (参考訳) オーディオから画像へのクロスモーダル生成 [全文訳有]

Audio-to-Image Cross-Modal Generation ( http://arxiv.org/abs/2109.13354v1 )

ライセンス: CC BY 4.0
Maciej \.Zelaszczyk and Jacek Ma\'ndziuk(参考訳) クロスモーダル表現学習は、異なるモダリティからの情報を一つの表現に統合することができる。 同時に、生成モデルの研究は、音声やテキストといった他の領域に重点を置き、共有表現の利点を欠く可能性のある、視覚領域に焦点を当てる傾向がある。 生成環境で複数のモダリティをうまくリンクする研究は稀である。 この文脈では、オーディオデータから画像アーチタイプを再構成するための変分オートエンコーダ(VAE)を訓練する可能性を検証する。 具体的には、生成したデータにより多くのばらつきを確保するために、対戦型トレーニングフレームワークにおいてVAEを考慮し、生成した画像の一貫性と多様性の間にトレードオフがあることを確認し、このトレードオフは、それぞれ再構成損失をスケールアップまたはダウンすることで管理できる。 また, 生成画像が比較的一貫性のない(逆)場合においても, 適切な画像分類に不可欠な特徴が保存されていることが示唆された。

Cross-modal representation learning allows to integrate information from different modalities into one representation. At the same time, research on generative models tends to focus on the visual domain with less emphasis on other domains, such as audio or text, potentially missing the benefits of shared representations. Studies successfully linking more than one modality in the generative setting are rare. In this context, we verify the possibility to train variational autoencoders (VAEs) to reconstruct image archetypes from audio data. Specifically, we consider VAEs in an adversarial training framework in order to ensure more variability in the generated data and find that there is a trade-off between the consistency and diversity of the generated images - this trade-off can be governed by scaling the reconstruction loss up or down, respectively. Our results further suggest that even in the case when the generated images are relatively inconsistent (diverse), features that are critical for proper image classification are preserved.
翻訳日:2021-09-30 05:11:10 公開日:2021-09-27
# (参考訳) パイプライン並列階層型ニューラルネットワークを用いたエッジデバイス上での効率的なコンピュータビジョン [全文訳有]

Efficient Computer Vision on Edge Devices with Pipeline-Parallel Hierarchical Neural Networks ( http://arxiv.org/abs/2109.13356v1 )

ライセンス: CC BY 4.0
Abhinav Goel, Caleb Tung, Xiao Hu, George K. Thiruvathukal, James C. Davis, Yung-Hsiang Lu(参考訳) 低消費電力エッジデバイス上でのコンピュータビジョンは、検索と救助とセキュリティを含むアプリケーションを可能にする。 ディープニューラルネットワーク(DNN)のような最先端のコンピュータビジョンアルゴリズムは、低消費電力エッジデバイスでの推論には大きすぎる。 効率を改善するために、既存のアプローチではDNN推論を複数のエッジデバイスに並列化している。 しかし、これらの技術は大きな通信と同期のオーバーヘッドをもたらしたり、デバイス間でワークロードのバランスをとることができない。 本稿では,階層型DNNアーキテクチャが複数のエッジデバイス上での並列処理に適していることを示す。 階層型DNNを用いたコンピュータビジョン問題に対して並列推論パイプラインを生成する新しい手法を設計する。 協調装置全体の負荷のバランスをとり、通信コストを低減し、スループットの向上と同時に複数のビデオフレームの処理を容易にする。 実験では,複数のraspberry pi 4b上で動作する各ビデオフレームで画像認識を行う代表的コンピュータビジョン問題について検討する。 4つの低消費電力エッジデバイスで,既存の単一デバイス階層DNNと比較して3.21倍のスループットを実現し,1フレームあたりの消費電力を68%削減し,メモリの58%削減を実現した。

Computer vision on low-power edge devices enables applications including search-and-rescue and security. State-of-the-art computer vision algorithms, such as Deep Neural Networks (DNNs), are too large for inference on low-power edge devices. To improve efficiency, some existing approaches parallelize DNN inference across multiple edge devices. However, these techniques introduce significant communication and synchronization overheads or are unable to balance workloads across devices. This paper demonstrates that the hierarchical DNN architecture is well suited for parallel processing on multiple edge devices. We design a novel method that creates a parallel inference pipeline for computer vision problems that use hierarchical DNNs. The method balances loads across the collaborating devices and reduces communication costs to facilitate the processing of multiple video frames simultaneously with higher throughput. Our experiments consider a representative computer vision problem where image recognition is performed on each video frame, running on multiple Raspberry Pi 4Bs. With four collaborating low-power edge devices, our approach achieves 3.21X higher throughput, 68% less energy consumption per device per frame, and 58% decrease in memory when compared with existing single-device hierarchical DNNs.
翻訳日:2021-09-30 04:56:41 公開日:2021-09-27
# (参考訳) Lyapunov-Net: Lyapunov関数近似のためのディープニューラルネットワークアーキテクチャ [全文訳有]

Lyapunov-Net: A Deep Neural Network Architecture for Lyapunov Function Approximation ( http://arxiv.org/abs/2109.13359v1 )

ライセンス: CC BY 4.0
Nathan Gaby and Fumin Zhang and Xiaojing Ye(参考訳) 我々は,高次元の力学系のリアプノフ関数を近似するために,lyapunov-netと呼ばれる多彩なディープニューラルネットワークアーキテクチャを開発した。 Lyapunov-Net は正の定性を保証するため、実際には経験的リスク関数において単一の項しか表さない負の軌道微分条件を満たすように容易に訓練することができる。 これにより、既存の方法に比べてハイパーパラメータの数を大幅に削減できる。 また、リアプノフ-ネットの近似力とその複雑性境界に関する理論的正当性も提供する。 最大30次元状態空間を含む非線形力学系における提案手法の効率を実証し,提案手法が最先端手法よりも優れていることを示す。

We develop a versatile deep neural network architecture, called Lyapunov-Net, to approximate Lyapunov functions of dynamical systems in high dimensions. Lyapunov-Net guarantees positive definiteness, and thus it can be easily trained to satisfy the negative orbital derivative condition, which only renders a single term in the empirical risk function in practice. This significantly reduces the number of hyper-parameters compared to existing methods. We also provide theoretical justifications on the approximation power of Lyapunov-Net and its complexity bounds. We demonstrate the efficiency of the proposed method on nonlinear dynamical systems involving up to 30-dimensional state spaces, and show that the proposed approach significantly outperforms the state-of-the-art methods.
翻訳日:2021-09-30 04:47:04 公開日:2021-09-27
# (参考訳) IGAN: 推論と生成の敵対的ネットワーク [全文訳有]

IGAN: Inferent and Generative Adversarial Networks ( http://arxiv.org/abs/2109.13360v1 )

ライセンス: CC BY 4.0
Dr. Luc Vignaud (ONERA, The French Aerospace Lab, France)(参考訳) igan(inferent generative adversarial networks)は、複雑な高次元データ分布、すなわちデータサンプルとより単純な低次元潜在空間の間の双方向マッピングについて生成モデルと推論モデルの両方を学ぶニューラルネットワークである。 従来のganフレームワークを拡張して、画像と潜在空間の両方で逆戦略を書き直し、データラテントエンコードされた後方と前との間を絡み合うゲームによって推論する。 これは古典的なGANスキームに測定可能な安定性と収束をもたらし、その生成品質を保ち、実験用PC上で動作するために単純で簡素なままである。 これは拡張され、自己組織された潜在空間を教師なしの方法で活用することを可能にする。 先行論文の分析により,提案アルゴリズムの理論的根拠が定まる。 自己スーパービジョンやマルチモーダルデータ変換のような潜在的な応用の質的な実証は、SARや光学画像を含む一般的な画像データセットに与えられる。

I present IGAN (Inferent Generative Adversarial Networks), a neural architecture that learns both a generative and an inference model on a complex high dimensional data distribution, i.e. a bidirectional mapping between data samples and a simpler low-dimensional latent space. It extends the traditional GAN framework with inference by rewriting the adversarial strategy in both the image and the latent space with an entangled game between data-latent encoded posteriors and priors. It brings a measurable stability and convergence to the classical GAN scheme, while keeping its generative quality and remaining simple and frugal in order to run on a lab PC. IGAN fosters the encoded latents to span the full prior space: this enables the exploitation of an enlarged and self-organised latent space in an unsupervised manner. An analysis of previously published articles sets the theoretical ground for the proposed algorithm. A qualitative demonstration of potential applications like self-supervision or multi-modal data translation is given on common image datasets including SAR and optical imagery.
翻訳日:2021-09-30 04:32:52 公開日:2021-09-27
# (参考訳) グラフニューラルネットワークを用いたマルチオブジェクト分光のための資源配分法 [全文訳有]

Graph Neural Network-based Resource AllocationStrategies for Multi-Object Spectroscopy ( http://arxiv.org/abs/2109.13361v1 )

ライセンス: CC BY 4.0
Tianshu Wang, Peter Melchior(参考訳) 資源配分問題は、しばしば線形プログラミング技術によって解決される。 しかし、実験および観測科学における多くの具体的な割り当て問題は、線型客観的関数の形で表現できないか、あるいは表現すべきでない。 目的が線形であっても、そのパラメータは、割り当てが決定される実験の結果に依存するため、事前には分かっていないかもしれない。 これらの課題に対処するために,学習可能なリソース割り当て戦略のための2部グラフニューラルネットワークアーキテクチャを提案する。 値と制約の項目は、ポスシブル割り当てに対応するエッジによって接続されるグラフノードの2つのセットを形成する。 GNNは、ユーザーから供給され、科学的に動機付けられた目的関数を最大化するために、シミュレーションや過去の問題発生に基づいて訓練されている。 実現可能性違反の量は、システムで利用可能なslackに関連して調整できる。 本手法は,高度に多重化されたsubaru prime focus spectrographinstrume ntの天文学的目標選択戦略の最適化に応用し,直接勾配降下最適化に優れた結果を示し,線形目的関数を用いた現在使用されているソルバの能力を拡張する。 本手法の開発により,アロケーション戦略の迅速な調整と展開,アロケーションパターンの統計解析,リソースアロケーション問題に対する完全微分可能な科学駆動型ソリューションが実現された。

Resource allocation problems are often approached with linear program-ming techniques. But many concrete allocation problems in the experimental and ob-servational sciences cannot or should not be expressed in the form of linear objectivefunctions. Even if the objective is linear, its parameters may not be known beforehandbecause they depend on the results of the experiment for which the allocation is to bedetermined. To address these challenges, we present a bipartite Graph Neural Networkarchitecture for trainable resource allocation strategies. Items of value and constraintsform the two sets of graph nodes, which are connected by edges corresponding to pos-sible allocations. The GNN is trained on simulations or past problem occurrences tomaximize any user-supplied, scientifically motivated objective function, augmented byan infeasibility penalty. The amount of feasibility violation can be tuned in relation toany available slack in the system. We apply this method to optimize the astronomicaltarget selection strategy for the highly multiplexed Subaru Prime Focus Spectrographinstrume nt, where it shows superior results to direct gradient descent optimization andextends the capabilities of the currently employed solver which uses linear objectivefunctions. The development of this method enables fast adjustment and deployment ofallocation strategies, statistical analyses of allocation patterns, and fully differentiable,scien ce-driven solutions for resource allocation problems.
翻訳日:2021-09-30 04:21:29 公開日:2021-09-27
# (参考訳) 信号時間論理仕様に基づくマルコフ決定過程の最適制御のためのモデル自由強化学習 [全文訳有]

Model-Free Reinforcement Learning for Optimal Control of MarkovDecision Processes Under Signal Temporal Logic Specifications ( http://arxiv.org/abs/2109.13377v1 )

ライセンス: CC BY 4.0
Krishna C. Kalagarla, Rahul Jain, Pierluigi Nuzzo(参考訳) 本稿では,信号時間論理(STL)仕様を満たす確率に対して,所望の下限を保証しつつ,有限水平マルコフ決定プロセスの最適ポリシを求めるモデルフリー強化学習アルゴリズムを提案する。 本稿では,mdp状態空間を効果的に拡張し,要求状態履歴をキャプチャし,stl目標を到達可能性目標として表現する方法を提案する。 計画問題は有限水平制約マルコフ決定過程(CMDP)として定式化することができる。 遷移確率が未知な一般有限地平面CMDP問題に対して、モデルのないRLアルゴリズムを用いて、非定常ランダム化ポリシーの一般空間からほぼ最適なポリシーを提供することができる強化学習手法を開発する。 本稿では,不確実性および性能目標下での複雑なミッションにおけるロボット動作計画におけるアプローチの有効性について述べる。

We present a model-free reinforcement learning algorithm to find an optimal policy for a finite-horizon Markov decision process while guaranteeing a desired lower bound on the probability of satisfying a signal temporal logic (STL) specification. We propose a method to effectively augment the MDP state space to capture the required state history and express the STL objective as a reachability objective. The planning problem can then be formulated as a finite-horizon constrained Markov decision process (CMDP). For a general finite horizon CMDP problem with unknown transition probability, we develop a reinforcement learning scheme that can leverage any model-free RL algorithm to provide an approximately optimal policy out of the general space of non-stationary randomized policies. We illustrate the effectiveness of our approach in the context of robotic motion planning for complex missions under uncertainty and performance objectives.
翻訳日:2021-09-30 03:36:24 公開日:2021-09-27
# (参考訳) テンソル脳:知覚、記憶、意味的復号の統一理論

The Tensor Brain: A Unified Theory of Perception, Memory and Semantic Decoding ( http://arxiv.org/abs/2109.13392v1 )

ライセンス: CC BY 4.0
Volker Tresp, Sahand Sharifzadeh, Hang Li, Dario Konopatzki, Yunpu Ma(参考訳) 我々は知覚と記憶の統一計算理論を提案する。 本モデルでは,2層テンソルネットワーク(BTN)において,インデックス層と表現層との振動相互作用の異なる機能的および操作的モードにより,知覚,エピソード記憶,セマンティックメモリを実現する。 memoryless semantic {representation layer} は情報をブロードキャストする。 認知神経科学において、それは「メンタルキャンバス」または「グローバルワークスペース」であり、認知脳状態を反映している。 シンボリックな {index layer" は概念と過去のエピソードを表し、セマンティックな埋め込みは両方のレイヤ間の接続重みで実装される。 さらに,処理センタと情報バッファとして<ワーキングメモリ層>を提案する。 エピソード記憶とセマンティック記憶は、記憶に基づく推論、すなわち、関連する過去の情報を記憶して知覚を豊かにするものであり、エージェントの現在の状態やエージェントのユニークな記憶にパーソナライズされる。 エピソード記憶は過去の観測を記憶し、記憶し、証明と文脈を提供する。 最近のエピソード記憶は知覚的体験の検索によって知覚を豊かにし、エージェントは、自分自身の状態と世界の意味的状態を理解するために、最近起きたこと、最近の場面、そして最近認識された実体について知る必要がある。 リモートエピソディックメモリは、関連する過去の経験を検索し、意識的な自己に寄与し、セマンティックメモリと共に、私たちを個人として定義します。

We present a unified computational theory of perception and memory. In our model, perception, episodic memory, and semantic memory are realized by different functional and operational modes of the oscillating interactions between an index layer and a representation layer in a bilayer tensor network (BTN). The memoryless semantic {representation layer} broadcasts information. In cognitive neuroscience, it would be the "mental canvas", or the "global workspace" and reflects the cognitive brain state. The symbolic {index layer} represents concepts and past episodes, whose semantic embeddings are implemented in the connection weights between both layers. In addition, we propose a {working memory layer} as a processing center and information buffer. Episodic and semantic memory realize memory-based reasoning, i.e., the recall of relevant past information to enrich perception, and are personalized to an agent's current state, as well as to an agent's unique memories. Episodic memory stores and retrieves past observations and provides provenance and context. Recent episodic memory enriches perception by the retrieval of perceptual experiences, which provide the agent with a sense about the here and now: to understand its own state, and the world's semantic state in general, the agent needs to know what happened recently, in recent scenes, and on recently perceived entities. Remote episodic memory retrieves relevant past experiences, contributes to our conscious self, and, together with semantic memory, to a large degree defines who we are as individuals.
翻訳日:2021-09-30 03:07:23 公開日:2021-09-27
# (参考訳) ブリッジデータ: クロスドメインデータセットを用いたロボットスキルの一般化の促進 [全文訳有]

Bridge Data: Boosting Generalization of Robotic Skills with Cross-Domain Datasets ( http://arxiv.org/abs/2109.13396v1 )

ライセンス: CC BY 4.0
Frederik Ebert, Yanlai Yang, Karl Schmeckpeper, Bernadette Bucher, Georgios Georgakis, Kostas Daniilidis, Chelsea Finn, Sergey Levine(参考訳) ロボット学習は、広く一般化する学習ポリシーの約束を守る。 しかし、そのような一般化は興味のあるタスクの十分な多様なデータセットを必要とするため、収集には極めて高価である。 コンピュータビジョンなどの他の分野では、ImageNetのような共有再利用可能なデータセットを使用してこの課題を克服することが一般的だが、ロボット工学では難しいことが証明されている。 本稿では、ロボット工学におけるデータ再利用をエンドツーエンドのスキル学習に有効化するには、何が必要でしょうか? キーとなるのは、複数のタスクと複数のドメインを持つデータセットを使用することであり、新しいドメインで新しいタスクを実行するためにロボットをトレーニングしたい新しいユーザは、このデータセットをトレーニングプロセスに含め、クロスタスクとクロスドメインの一般化の恩恵を受けることができる。 この仮説を評価するために,10環境にわたる71のタスクを構成する7,200のデモを行い,新しい環境における新しいタスクの学習を改善する方法について実証研究を行った。 提案したデータセットによる共同トレーニングと,新しいドメインにおける予期せぬタスクの50のデモが,ターゲットドメインデータのみを使用する場合と比較して,成功率を2倍に向上させることがわかった。 また、新しいドメイン内の少数のタスクのみのデータによって、ドメインギャップを埋めることができ、ロボットが他のドメインでしか見られなかったさまざまなタスクを実行できることもわかりました。 これらの結果は、当社のオープンソースデータセットを含む多様なマルチタスクおよびマルチドメインデータセットの再利用が、ロボットの汎用化への道を開く可能性を示唆しており、新しいロボット学習プロジェクトごとにデータを再収集する必要がなくなる。

Robot learning holds the promise of learning policies that generalize broadly. However, such generalization requires sufficiently diverse datasets of the task of interest, which can be prohibitively expensive to collect. In other fields, such as computer vision, it is common to utilize shared, reusable datasets, such as ImageNet, to overcome this challenge, but this has proven difficult in robotics. In this paper, we ask: what would it take to enable practical data reuse in robotics for end-to-end skill learning? We hypothesize that the key is to use datasets with multiple tasks and multiple domains, such that a new user that wants to train their robot to perform a new task in a new domain can include this dataset in their training process and benefit from cross-task and cross-domain generalization. To evaluate this hypothesis, we collect a large multi-domain and multi-task dataset, with 7,200 demonstrations constituting 71 tasks across 10 environments, and empirically study how this data can improve the learning of new tasks in new environments. We find that jointly training with the proposed dataset and 50 demonstrations of a never-before-seen task in a new domain on average leads to a 2x improvement in success rate compared to using target domain data alone. We also find that data for only a few tasks in a new domain can bridge the domain gap and make it possible for a robot to perform a variety of prior tasks that were only seen in other domains. These results suggest that reusing diverse multi-task and multi-domain datasets, including our open-source dataset, may pave the way for broader robot generalization, eliminating the need to re-collect data for each new robot learning project.
翻訳日:2021-09-30 03:05:50 公開日:2021-09-27
# スパースデータとノイズデータを用いた文字レベル翻訳の利用分析

Analyzing the Use of Character-Level Translation with Sparse and Noisy Datasets ( http://arxiv.org/abs/2109.13723v1 )

ライセンス: Link先を確認
J\"org Tiedemann, Preslav Nakov(参考訳) 本稿では,クラウドソース映画の字幕など,スパースやノイズの多いデータセットに適用する場合に,ピボットベースの翻訳に使用される文字レベル機械翻訳モデルの解析を行う。 実験では,このような文字レベルモデルによって翻訳されていない単語の数が40%以上削減され,限られたトレーニングデータの場合,特に競争性が高いことが判明した。 文字アライメント,フレーズテーブルフィルタリング,bitextサイズ,およびピボット言語の選択が翻訳品質に与える影響について検討する。 さらに、ケースケード翻訳モデルと、複数のピボットによる合成訓練データの使用を比較し、後者がかなりうまく機能していることを見出した。 最後に、BLEUの長に対する感受性のため、ワードノーキャラクタ-BLEUは人間の判断と完全に相関しないことを示した。

This paper provides an analysis of character-level machine translation models used in pivot-based translation when applied to sparse and noisy datasets, such as crowdsourced movie subtitles. In our experiments, we find that such character-level models cut the number of untranslated words by over 40% and are especially competitive (improvements of 2-3 BLEU points) in the case of limited training data. We explore the impact of character alignment, phrase table filtering, bitext size and the choice of pivot language on translation quality. We further compare cascaded translation models to the use of synthetic training data via multiple pivots, and we find that the latter works significantly better. Finally, we demonstrate that neither word-nor character-BLEU correlate perfectly with human judgments, due to BLEU's sensitivity to length.
翻訳日:2021-09-29 15:01:15 公開日:2021-09-27
# 形態学的に複雑な言語からの翻訳:パラフレーズに基づくアプローチ

Translating from Morphologically Complex Languages: A Paraphrase-Based Approach ( http://arxiv.org/abs/2109.13724v1 )

ライセンス: Link先を確認
Preslav Nakov, Hwee Tou Ng(参考訳) 形態的に複雑な言語から翻訳する新しい手法を提案する。 単語の屈折と結合を対象とする従来の研究とは異なり,形態的関連語間の相互関係に着目し,単語,句,文レベルでのパラフレーズ化技術を用いて,潜在的なパラフレーズとして扱う。 この枠組みの重要な利点は導出形態に対処できることであり、これまでのところ統計機械翻訳システムの能力を超えている。 5つの自動評価尺度(320,000対の文対,950万の英単語トークン)に基づいて,形態学を主とするマレー語から英語への翻訳実験を行った。

We propose a novel approach to translating from a morphologically complex language. Unlike previous research, which has targeted word inflections and concatenations, we focus on the pairwise relationship between morphologically related words, which we treat as potential paraphrases and handle using paraphrasing techniques at the word, phrase, and sentence level. An important advantage of this framework is that it can cope with derivational morphology, which has so far remained largely beyond the capabilities of statistical machine translation systems. Our experiments translating from Malay, whose morphology is mostly derivational, into English show significant improvements over rivaling approaches based on five automatic evaluation measures (for 320,000 sentence pairs; 9.5 million English word tokens).
翻訳日:2021-09-29 15:01:00 公開日:2021-09-27
# マケドニアのTwitterにおける感情分析

Sentiment Analysis in Twitter for Macedonian ( http://arxiv.org/abs/2109.13725v1 )

ライセンス: Link先を確認
Dame Jovanoski, Veno Pachovski, Preslav Nakov(参考訳) マケドニア語に対するTwitterの感情分析について紹介する。 これは言語とジャンルの組み合わせの先駆的な作業であり、マケドニアのつぶやきの感情分析システムの訓練と評価に最適なリソースを作成しました。 特に,ツイートレベルの感情極性(肯定的,否定的,中立的)や,フレーズレベルの感情をアノテーションしたツイートコーパスを開発し,研究目的で自由に利用できるようにした。 我々はさらに、以前の英語の作業によって動機付けられたマケドニア語の大規模な感情語彙のいくつかをブートストラップした。 いくつかの異なる前処理ステップと様々な特徴の影響は、形態的にリッチなマケドニア語のためのTwitterで感情分析システムを構築する最初の試みを示す実験で示されている。 実験の結果、F1スコアは92.16で、これは非常に強く、最近のSemEvalコンペティションで達成された英語の最良の結果と同等である。

We present work on sentiment analysis in Twitter for Macedonian. As this is pioneering work for this combination of language and genre, we created suitable resources for training and evaluating a system for sentiment analysis of Macedonian tweets. In particular, we developed a corpus of tweets annotated with tweet-level sentiment polarity (positive, negative, and neutral), as well as with phrase-level sentiment, which we made freely available for research purposes. We further bootstrapped several large-scale sentiment lexicons for Macedonian, motivated by previous work for English. The impact of several different pre-processing steps as well as of various features is shown in experiments that represent the first attempt to build a system for sentiment analysis in Twitter for the morphologically rich Macedonian language. Overall, our experimental results show an F1-score of 92.16, which is very strong and is on par with the best results for English, which were achieved in recent SemEval competitions.
翻訳日:2021-09-29 15:00:07 公開日:2021-09-27
# ベイズ変換学習:伝達学習における確率論的グラフモデルの概要

Bayesian Transfer Learning: An Overview of Probabilistic Graphical Models for Transfer Learning ( http://arxiv.org/abs/2109.13233v1 )

ライセンス: Link先を確認
Junyu Xuan and Jie Lu and Guangquan Zhang(参考訳) 伝達学習では、伝達可能な知識をソースドメインから抽出し、この知識を対象ドメインに再利用する動作が、人工知能分野において大きな関心を持つ研究領域となっている。 確率的グラフィカルモデル(PGM)は複雑なシステムをモデリングするための強力なツールとして認識されており、例えば不確実性に対処し、良好な解釈可能性を持つ能力がある。 これら2つの研究分野の成功を考えると、PGMをトランスファーラーニングに適用することは自然なことと思われる。 しかし、文献中では転帰学習に特有な優れたPGMがいくつか存在するが、この問題に対するPGMの可能性はいまだに過小評価されている。 本稿では,伝達学習のためのPGMの開発を促進することを目的とする。 1) 伝達学習に特有なPGMのパイロット研究、すなわち、特に知識伝達のために設計された既存のメカニズムの分析及び要約についての検討 2 既存のPGMの適用が成功した実世界の移転問題の事例を議論し、 3) pgmを用いた転校学習研究の方向性を探究する。

Transfer learning where the behavior of extracting transferable knowledge from the source domain(s) and reusing this knowledge to target domain has become a research area of great interest in the field of artificial intelligence. Probabilistic graphical models (PGMs) have been recognized as a powerful tool for modeling complex systems with many advantages, e.g., the ability to handle uncertainty and possessing good interpretability. Considering the success of these two aforementioned research areas, it seems natural to apply PGMs to transfer learning. However, although there are already some excellent PGMs specific to transfer learning in the literature, the potential of PGMs for this problem is still grossly underestimated. This paper aims to boost the development of PGMs for transfer learning by 1) examining the pilot studies on PGMs specific to transfer learning, i.e., analyzing and summarizing the existing mechanisms particularly designed for knowledge transfer; 2) discussing examples of real-world transfer problems where existing PGMs have been successfully applied; and 3) exploring several potential research directions on transfer learning using PGM.
翻訳日:2021-09-29 14:58:59 公開日:2021-09-27
# ベイズ時空間グラフ畳み込みニューラルネットワークを用いた湖面水温の確率論的モデリング

Probabilistic modeling of lake surface water temperature using a Bayesian spatio-temporal graph convolutional neural network ( http://arxiv.org/abs/2109.13235v1 )

ライセンス: Link先を確認
Michael Stalder, Firat Ozdemir, Artur Safin, Jonas Sukys, Damien Bouffard, Fernando Perez-Cruz(参考訳) 正確な湖沼温度推定は、水文学領域と生態学領域の両方で取り組む多くの問題に不可欠である。 今日では湖沼の動力学を推定するために物理モデルが開発されているが、湖面温度の正確な推定に必要な計算は極めて高価である。 本研究では,湖沼表面温度を確率論的に推定するために,湖沼の温度をある程度の深さでシミュレーションする。 そこで,ベイジアンリカレントニューラルネットワークとベイジアングラフ畳み込みニューラルネットワークを組み合わせた時空間ニューラルネットワークを提案する。 本研究は,少ないトレーニングデータを持つにもかかわらず,提案したグラフィカルモデルが湖表面全体を均質に良好な性能でカバーできることを実証する。 定量的な結果は最先端のベイズ深層学習法と比較される。 開発済みのアーキテクチャレイヤのコードとデモスクリプトはhttps://renkulab.io/ projects/das/bstnnで公開されている。

Accurate lake temperature estimation is essential for numerous problems tackled in both hydrological and ecological domains. Nowadays physical models are developed to estimate lake dynamics; however, computations needed for accurate estimation of lake surface temperature can get prohibitively expensive. We propose to aggregate simulations of lake temperature at a certain depth together with a range of meteorological features to probabilistically estimate lake surface temperature. Accordingly, we introduce a spatio-temporal neural network that combines Bayesian recurrent neural networks and Bayesian graph convolutional neural networks. This work demonstrates that the proposed graphical model can deliver homogeneously good performance covering the whole lake surface despite having sparse training data available. Quantitative results are compared with a state-of-the-art Bayesian deep learning method. Code for the developed architectural layers, as well as demo scripts, are available on https://renkulab.io/ projects/das/bstnn.
翻訳日:2021-09-29 14:58:43 公開日:2021-09-27
# fedipr:federated deep neural networkモデルの所有権検証

FedIPR: Ownership Verification for Federated Deep Neural Network Models ( http://arxiv.org/abs/2109.13236v1 )

ライセンス: Link先を確認
Lixin Fan and Bowen Li and Hanlin Gu and Jie Li and Qiang Yang(参考訳) 本稿では,federated deep neural network (feddnn) のオーナシップ検証手法を用いて,federated deep neural network (feddnn) モデルが違法に複製されたり,再配布されたり,誤用されたりした場合に,feddnnモデルの正当な知的財産権(ipr)を主張できることを示す。 組込みオーナシップシグネチャの有効性は、プライベートシグネチャを公開せずに複数のクライアントがシグネチャを埋め込み検出できる証明条件サンダーによって理論的に正当化される。 CIFAR10,CIFAR100画像データセットの大規模な実験結果から、様々なビット長のシグネチャを、モデル分類性能に影響を与えることなく埋め込み、確実に検出できることが示されている。 署名はまた、微調整やプルーニングを含む除去攻撃に対して堅牢である。

Federated learning models must be protected against plagiarism since these models are built upon valuable training data owned by multiple institutions or people.This paper illustrates a novel federated deep neural network (FedDNN) ownership verification scheme that allows ownership signatures to be embedded and verified to claim legitimate intellectual property rights (IPR) of FedDNN models, in case that models are illegally copied, re-distributed or misused. The effectiveness of embedded ownership signatures is theoretically justified by proved condition sunder which signatures can be embedded and detected by multiple clients with-out disclosing private signatures. Extensive experimental results on CIFAR10,CIFAR100 image datasets demonstrate that varying bit-lengths signatures can be embedded and reliably detected without affecting models classification performances. Signatures are also robust against removal attacks including fine-tuning and pruning.
翻訳日:2021-09-29 14:58:28 公開日:2021-09-27
# st-maml:タスクヘテロジェンシーメタラーニングのための確率的タスクベース手法

ST-MAML: A Stochastic-Task based Method for Task-Heterogeneous Meta-Learning ( http://arxiv.org/abs/2109.13305v1 )

ライセンス: Link先を確認
Zhe Wang, Jake Grigsby, Arshdeep Sekhon, Yanjun Qi(参考訳) 最適化に基づくメタ学習は、一般的にタスクが単一のディストリビューションからサンプリングされていると仮定する。 複数の異なるディストリビューションからのタスクの処理は、いわゆるタスクあいまいさの問題によってメタラーニングでは困難である。 本稿では,モデルに依存しないメタラーニング(MAML)を複数のタスク分布から学習するための新しい手法ST-MAMLを提案する。 ST-MAMLは確率的ニューラルネットワークモジュールを使用してタスクをエンコードする。 提案したStochastic Task (ST) 戦略により、メタモデルは現在のタスクに合わせて調整され、あいまいなタスクに対するソリューションの分布を学習することができる。 ST-MAMLはまた、入力変数のエンコーディングを修正するためにタスク表現を伝搬する。 実験では,st-mamlが2つの数ショット画像分類タスク,曲線回帰ベンチマーク,1つの画像補完問題,実世界の温度予測アプリケーションと一致し,その性能を上回っていることを示す。 著者の知る限りでは、大規模な実世界のタスクに最適化に基づくメタラーニング手法が適用されたのはこれが初めてである。

Optimization-based meta-learning typically assumes tasks are sampled from a single distribution - an assumption oversimplifies and limits the diversity of tasks that meta-learning can model. Handling tasks from multiple different distributions is challenging for meta-learning due to a so-called task ambiguity issue. This paper proposes a novel method, ST-MAML, that empowers model-agnostic meta-learning (MAML) to learn from multiple task distributions. ST-MAML encodes tasks using a stochastic neural network module, that summarizes every task with a stochastic representation. The proposed Stochastic Task (ST) strategy allows a meta-model to get tailored for the current task and enables us to learn a distribution of solutions for an ambiguous task. ST-MAML also propagates the task representation to revise the encoding of input variables. Empirically, we demonstrate that ST-MAML matches or outperforms the state-of-the-art on two few-shot image classification tasks, one curve regression benchmark, one image completion problem, and a real-world temperature prediction application. To the best of authors' knowledge, this is the first time optimization-based meta-learning method being applied on a large-scale real-world task.
翻訳日:2021-09-29 14:56:40 公開日:2021-09-27
# GANG-MAM: GANベースのAndroidマルウェア修正用enGine

GANG-MAM: GAN based enGine for Modifying Android Malware ( http://arxiv.org/abs/2109.13297v1 )

ライセンス: Link先を確認
Renjith G, Sonia Laudanna, Aji S, Corrado Aaron Visaggio, Vinod P(参考訳) 機械学習に基づくマルウェア検出は、敵攻撃に対して脆弱である。 generative adversarial networks (gan) はニューラルネットワークに基づくアーキテクチャであり、敵のサンプルを生成することができる。 この技術に対する関心は急速に高まっている。 本稿では,Androidのマルウェアを強力に回避し,悪質なプログラムを修正するための特徴ベクトルを生成するシステムを提案する。 このようなシステムは、GANベースのマルウェアを検出するシステムを検証するためにデータセットを生成し、より堅牢なマルウェア分類器を作るためのトレーニングとテストのデータセットを拡大するために使用できる。

Malware detectors based on machine learning are vulnerable to adversarial attacks. Generative Adversarial Networks (GAN) are architectures based on Neural Networks that could produce successful adversarial samples. The interest towards this technology is quickly growing. In this paper, we propose a system that produces a feature vector for making an Android malware strongly evasive and then modify the malicious program accordingly. Such a system could have a twofold contribution: it could be used to generate datasets to validate systems for detecting GAN-based malware and to enlarge the training and testing dataset for making more robust malware classifiers.
翻訳日:2021-09-29 14:54:42 公開日:2021-09-27
# 信頼できるAIとロボティクスとAEC産業への意味: 体系的な文献レビューと将来の可能性

Trustworthy AI and Robotics and the Implications for the AEC Industry: A Systematic Literature Review and Future Potentials ( http://arxiv.org/abs/2109.13373v1 )

ライセンス: Link先を確認
Newsha Emaminejad and Reza Akhavian(参考訳) ヒューマンテクノロジーの相互作用は、ユーザー受け入れの必然的な要件として信頼を扱う。 人工知能(AI)とロボティクス(ロボティクス)の応用が出現し、研究や実践の様々な分野における社会経済の影響が拡大するにつれ、そのようなシステムに対する信頼の研究が差し迫っている。 AIベースのシステムの不透明な作業機構と、労働者の仲間としての知能ロボットの展望により、信頼に関する文脈固有の学際的研究が採用を促進する鍵となる。 本研究は,(1)AIとロボティクス(AIR)への信頼と(2)建築,工学,建設(AEC)産業におけるAIR応用に関する総合的な体系的な文献レビューを通じて,文献の共通信頼次元を特定し,それらを論文の整理に利用する。 さらに、同定された次元と既存のおよび潜在的AECアプリケーションとの接続を決定し、議論する。 最後に、AECの研究と実践において、信頼できるAIとロボティクスに関する主要な方向性について概説する。

Human-technology interaction deals with trust as an inevitable requirement for user acceptance. As the applications of artificial intelligence (AI) and robotics emerge and with their ever-growing socio-economic influence in various fields of research and practice, there is an imminent need to study trust in such systems. With the opaque work mechanism of AI-based systems and the prospect of intelligent robots as workers' companions, context-specific interdisciplinary studies on trust are key in increasing their adoption. Through a thorough systematic literature review on (1) trust in AI and robotics (AIR) and (2) AIR applications in the architecture, engineering, and construction (AEC) industry, this study identifies common trust dimensions in the literature and uses them to organize the paper. Furthermore, the connections of the identified dimensions to the existing and potential AEC applications are determined and discussed. Finally, major future directions on trustworthy AI and robotics in AEC research and practice are outlined.
翻訳日:2021-09-29 14:54:32 公開日:2021-09-27
# カオスのエッジ:量子場理論とディープニューラルネットワーク

The edge of chaos: quantum field theory and deep neural networks ( http://arxiv.org/abs/2109.13247v1 )

ライセンス: Link先を確認
Kevin T. Grosvenor and Ro Jefferson(参考訳) 我々は、繰り返しおよびフィードフォワードアーキテクチャを含むディープニューラルネットワークの一般クラスに対応する量子場理論を明示的に構築する。 まず, 平均場理論 (mft) を, 作用の主点として考慮し, 最大のリアプノフ指数による臨界条件を導出する。 次に, 深さ$t$ から幅$n$ の比における摂動拡大における相関関数に対するループ補正を計算し, 重み初期化の分散が 't hooft 結合の役割を担っているよく研究されている $o(n)$ ベクトルモデルと正確な類似性を求める。 特に、ネットワークのアンサンブルの典型性から変動を定量化する$\mathcal{O}(1)$補正と、有限幅効果による$\mathcal{O}(T/N)$補正の両方を計算する。 これらは、情報がネットワークを介して伝播できる深さを制御する相関長の補正を提供し、そのようなネットワークが勾配降下によって訓練可能なスケールを設定する。 我々の分析は、急速に出現するNN-QFT対応に対する第一原理のアプローチを提供し、ディープニューラルネットワークの臨界性の研究にいくつかの興味深い道を開く。

We explicitly construct the quantum field theory corresponding to a general class of deep neural networks encompassing both recurrent and feedforward architectures. We first consider the mean-field theory (MFT) obtained as the leading saddlepoint in the action, and derive the condition for criticality via the largest Lyapunov exponent. We then compute the loop corrections to the correlation function in a perturbative expansion in the ratio of depth $T$ to width $N$, and find a precise analogy with the well-studied $O(N)$ vector model, in which the variance of the weight initializations plays the role of the 't Hooft coupling. In particular, we compute both the $\mathcal{O}(1)$ corrections quantifying fluctuations from typicality in the ensemble of networks, and the subleading $\mathcal{O}(T/N)$ corrections due to finite-width effects. These provide corrections to the correlation length that controls the depth to which information can propagate through the network, and thereby sets the scale at which such networks are trainable by gradient descent. Our analysis provides a first-principles approach to the rapidly emerging NN-QFT correspondence, and opens several interesting avenues to the study of criticality in deep neural networks.
翻訳日:2021-09-29 14:52:19 公開日:2021-09-27
# TURINGBENCH:ニューラルテキスト生成時代のチューリングテストのためのベンチマーク環境

TURINGBENCH: A Benchmark Environment for Turing Test in the Age of Neural Text Generation ( http://arxiv.org/abs/2109.13296v1 )

ライセンス: Link先を確認
Adaku Uchendu, Zeyu Ma, Thai Le, Rui Zhang, and Dongwon Lee(参考訳) 最近の生成言語モデルの進歩により、機械は驚くほど現実的なテキストを生成することができた。 このようなモデルの正当な応用はたくさんあるが、機械が生成したテキストと人間の書いたテキストを区別する必要性も高まっている(フェイクニュース検出など)。 しかしながら、私たちの知る限り、現在、ニューラルネットワーク生成メソッドのいわゆる"チューリングテスト"問題を体系的に研究するデータセットやタスクを備えたベンチマーク環境はありません。 In this work, we present the TuringBench benchmark environment, which is comprised of (1) a dataset with 200K human- or machine-generated samples across 20 labels {Human, GPT-1, GPT-2_small, GPT-2_medium, GPT-2_large, GPT-2_xl, GPT-2_PyTorch, GPT-3, GROVER_base, GROVER_large, GROVER_mega, CTRL, XLM, XLNET_base, XLNET_large, FAIR_wmt19, FAIR_wmt20, TRANSFORMER_XL, PPLM_distil, PPLM_gpt2}, (2) two benchmark tasks -- i.e., Turing Test (TT) and Authorship Attribution (AA), and (3) a website with leaderboards. TuringBench を用いた予備実験の結果,FAIR_wmt20 と GPT-3 は,5 つの最先端TT 検出モデルによる F1 スコアが最も低い人間的な不明瞭なテキストを生成するために,現在試験されている言語モデルの中で,その勝者であることがわかった。 turingbenchは、https://turingbench. ist.psu.edu/で利用可能である。

Recent progress in generative language models has enabled machines to generate astonishingly realistic texts. While there are many legitimate applications of such models, there is also a rising need to distinguish machine-generated texts from human-written ones (e.g., fake news detection). However, to our best knowledge, there is currently no benchmark environment with datasets and tasks to systematically study the so-called "Turing Test" problem for neural text generation methods. In this work, we present the TuringBench benchmark environment, which is comprised of (1) a dataset with 200K human- or machine-generated samples across 20 labels {Human, GPT-1, GPT-2_small, GPT-2_medium, GPT-2_large, GPT-2_xl, GPT-2_PyTorch, GPT-3, GROVER_base, GROVER_large, GROVER_mega, CTRL, XLM, XLNET_base, XLNET_large, FAIR_wmt19, FAIR_wmt20, TRANSFORMER_XL, PPLM_distil, PPLM_gpt2}, (2) two benchmark tasks -- i.e., Turing Test (TT) and Authorship Attribution (AA), and (3) a website with leaderboards. Our preliminary experimental results using TuringBench show that FAIR_wmt20 and GPT-3 are the current winners, among all language models tested, in generating the most human-like indistinguishable texts with the lowest F1 score by five state-of-the-art TT detection models. The TuringBench is available at: https://turingbench. ist.psu.edu/
翻訳日:2021-09-29 14:49:26 公開日:2021-09-27
# 変圧器の等方性校正について

On Isotropy Calibration of Transformers ( http://arxiv.org/abs/2109.13304v1 )

ライセンス: Link先を確認
Yue Ding, Karolis Martinkus, Damian Pascual, Simon Clematide, Roger Wattenhofer(参考訳) トランスモデルにおける埋め込み空間の異なる研究は、文脈表現の分布が非常に異方的であることを示唆している。 一方、静的な単語表現(Word2VecやGloVeなど)は等方性空間の恩恵を受けることが示されている。 そのため、以前の研究は等方性を確保するために変圧器の埋め込み空間を校正する方法を開発した。 しかし、最近の研究(cai et al. 2021)では、変圧器の埋め込み空間は局所等方性であり、これらのモデルは既にその埋め込み空間の表現能力を利用することができることを示唆している。 本研究では, 変圧器の等方性校正における最先端手法の実証評価を行い, モデルとタスク間で一貫した改善が得られないことを見出した。 これらの結果は、局所的な等方性を考えると、変圧器は追加の等方性キャリブレーションの恩恵を受けないという理論を支持する。

Different studies of the embedding space of transformer models suggest that the distribution of contextual representations is highly anisotropic - the embeddings are distributed in a narrow cone. Meanwhile, static word representations (e.g., Word2Vec or GloVe) have been shown to benefit from isotropic spaces. Therefore, previous work has developed methods to calibrate the embedding space of transformers in order to ensure isotropy. However, a recent study (Cai et al. 2021) shows that the embedding space of transformers is locally isotropic, which suggests that these models are already capable of exploiting the expressive capacity of their embedding space. In this work, we conduct an empirical evaluation of state-of-the-art methods for isotropy calibration on transformers and find that they do not provide consistent improvements across models and tasks. These results support the thesis that, given the local isotropy, transformers do not benefit from additional isotropy calibration.
翻訳日:2021-09-29 14:49:01 公開日:2021-09-27
# WarpedGANSpace: GAN潜在空間における非線形RBF経路の探索

WarpedGANSpace: Finding non-linear RBF paths in GAN latent space ( http://arxiv.org/abs/2109.13357v1 )

ライセンス: Link先を確認
Christos Tzelepis, Georgios Tzimiropoulos, and Ioannis Patras(参考訳) この研究は、教師なしの方法で、事前訓練されたGANの潜在空間における解釈可能な経路を発見し、基礎となる生成因子を制御する直感的で簡単な方法を提供する。 そうすることで、最先端作品の制限、すなわち、いくつかの問題に対処できる。 a) 潜在コード、すなわち線形な経路から独立した方向を見つけること b) その評価が視覚検査又は人的ラベリングに依存していること。 より具体的には、それぞれがrbfベースの潜時空間ウォーピング関数のセットによってパラメータ化され、各ウォーピングが関数の勾配を介して非線形経路の族を生じさせる、潜時空間上の非線形ウォーピングを学ぶことを提案する。 線形経路を探索する Voynov と Babenko の作業に基づいて,RBF の集合のトレーニング可能なパラメータを最適化し,異なる経路に沿ってコードによって生成された画像が識別ネットワークによって容易に識別できるようにする。 これにより、顔画像のポーズや表情など、容易に区別できる画像変換が実現される。 本手法の特別な場合として線形経路を導出できることを示すとともに, 潜在空間における非線形経路が, 定性的, 定量的に, 画像空間の傾き, 乱れ, 解釈可能な変化をもたらすことを実験的に示す。 コードとトレーニング済みのモデルを、https://github.com/c hi0tzp/WarpedGANSpac e.comで公開しています。

This work addresses the problem of discovering, in an unsupervised manner, interpretable paths in the latent space of pretrained GANs, so as to provide an intuitive and easy way of controlling the underlying generative factors. In doing so, it addresses some of the limitations of the state-of-the-art works, namely, a) that they discover directions that are independent of the latent code, i.e., paths that are linear, and b) that their evaluation relies either on visual inspection or on laborious human labeling. More specifically, we propose to learn non-linear warpings on the latent space, each one parametrized by a set of RBF-based latent space warping functions, and where each warping gives rise to a family of non-linear paths via the gradient of the function. Building on the work of Voynov and Babenko, that discovers linear paths, we optimize the trainable parameters of the set of RBFs, so as that images that are generated by codes along different paths, are easily distinguishable by a discriminator network. This leads to easily distinguishable image transformations, such as pose and facial expressions in facial images. We show that linear paths can be derived as a special case of our method, and show experimentally that non-linear paths in the latent space lead to steeper, more disentangled and interpretable changes in the image space than in state-of-the art methods, both qualitatively and quantitatively. We make the code and the pretrained models publicly available at: https://github.com/c hi0tzp/WarpedGANSpac e.
翻訳日:2021-09-29 14:46:37 公開日:2021-09-27
# 交通紛争における戦略的人間関係の分類

A taxonomy of strategic human interactions in traffic conflicts ( http://arxiv.org/abs/2109.13367v1 )

ライセンス: Link先を確認
Atrisha Sarkar, Kate Larson, Krzysztof Czarnecki(参考訳) 近年,自律走行車(AV)が交通状況をナビゲートするために,AVにおける戦略行動計画のためのゲーム理論モデルに注目が集まっている。 しかしながら、一般的な分類学の欠如は、モデルが生成する戦略のより広範な理解と、AVが実行すべき安全な戦略を特定するための安全仕様の開発を妨げている。 交通紛争におけるインタラクションの共通パターンに基づいて, エージェントの初期反応とその後のエージェントの行動に対する反応の次元に沿って, 戦略的相互作用の分類法を開発する。 さらに,戦略プランナーが生成する戦略を分類学のカテゴリに自動マッピングするプロセスを示し,車両と車両の相互作用シミュレーションに基づいて,avs,qlk,サブゲームにおける戦略計画に使用される2つの一般的な解概念を,それらのカテゴリに関して評価した。

In order to enable autonomous vehicles (AV) to navigate busy traffic situations, in recent years there has been a focus on game-theoretic models for strategic behavior planning in AVs. However, a lack of common taxonomy impedes a broader understanding of the strategies the models generate as well as the development of safety specification to identity what strategies are safe for an AV to execute. Based on common patterns of interaction in traffic conflicts, we develop a taxonomy for strategic interactions along the dimensions of agents' initial response to right-of-way rules and subsequent response to other agents' behavior. Furthermore, we demonstrate a process of automatic mapping of strategies generated by a strategic planner to the categories in the taxonomy, and based on vehicle-vehicle and vehicle-pedestrian interaction simulation, we evaluate two popular solution concepts used in strategic planning in AVs, QLk and Subgame perfect $\epsilon$-Nash Equilibrium, with respect to those categories.
翻訳日:2021-09-29 14:41:09 公開日:2021-09-27
# メディケイドの一般化のための条件付きクロスデザイン合成推定器

Conditional Cross-Design Synthesis Estimators for Generalizability in Medicaid ( http://arxiv.org/abs/2109.13288v1 )

ライセンス: Link先を確認
Irina Degtiar, Tim Layton, Jacob Wallace, and Sherri Rose(参考訳) 因果推論文献の多くは内的妥当性バイアスに焦点が当てられているが、対象集団における不偏推定には内的・外的妥当性の両方が必要である。 しかし, 対象個体群がランダム化研究によって適切に表現されていない場合に, 対象個体群の因果量推定のための一般化可能性のアプローチはほとんど存在しない。 これらのデータの結合によって表される対象人口に一般化するために,ランダム化データと観測データを組み合わせた新しい条件付きクロスデザイン合成推定器のクラスを提案する。 推定には、アウトカム回帰、拡張度重み付け、ダブルロバストなアプローチが含まれる。 全てはランダムデータと観測データの間の共変重なりを使い、潜在的に測定されていない共変バイアスを取り除く。 これらの方法を用いて,ニューヨーク市の医療受益者の医療費に対する管理ケア計画の因果効果を推定する。

While much of the causal inference literature has focused on addressing internal validity biases, both internal and external validity are necessary for unbiased estimates in a target population of interest. However, few generalizability approaches exist for estimating causal quantities in a target population when the target population is not well-represented by a randomized study but is reflected when additionally incorporating observational data. To generalize to a target population represented by a union of these data, we propose a class of novel conditional cross-design synthesis estimators that combine randomized and observational data, while addressing their respective biases. The estimators include outcome regression, propensity weighting, and double robust approaches. All use the covariate overlap between the randomized and observational data to remove potential unmeasured confounding bias. We apply these methods to estimate the causal effect of managed care plans on health care spending among Medicaid beneficiaries in New York City.
翻訳日:2021-09-29 14:40:01 公開日:2021-09-27
# 機械学習を用いた資源記述における視点の導入

Introducing the viewpoint in the resource description using machine learning ( http://arxiv.org/abs/2109.13306v1 )

ライセンス: Link先を確認
Ouahiba Djama(参考訳) 検索エンジンは、ユーザの興味や専門性に応じて、データ情報を提供する。 したがって、視点を考慮に入れた資源の記述を活用する必要がある。 一般的に、リソース記述はRDF(例えばWikipediaのDBPedia)で利用可能である。 しかし、これらの記述は視点を定めていない。 本稿では,従来のrdfリソース記述を,視点を考慮したリソース記述に変換する新しい手法を提案する。 ドキュメントの視点を検出するために、インスタンス化されたオントロジーで機械学習技術を利用する。 この後者は、与えられたドメインにおける視点を表現することができる。 実験により,従来のrdfリソース記述からリソース記述への変換が,ユーザの要求に対して非常に関連性の高い応答を与えることができることを示した。

Search engines allow providing the user with data information according to their interests and specialty. Thus, it is necessary to exploit descriptions of the resources, which take into consideration viewpoints. Generally, the resource descriptions are available in RDF (e.g., DBPedia of Wikipedia content). However, these descriptions do not take into consideration viewpoints. In this paper, we propose a new approach, which allows converting a classic RDF resource description to a resource description that takes into consideration viewpoints. To detect viewpoints in the document, a machine learning technique will be exploited on an instanced ontology. This latter allows representing the viewpoint in a given domain. An experimental study shows that the conversion of the classic RDF resource description to a resource description that takes into consideration viewpoints, allows giving very relevant responses to the user's requests.
翻訳日:2021-09-29 14:35:55 公開日:2021-09-27
# 慣性センサと機械学習モデルを用いた建設設備排出の自動推定

Automated Estimation of Construction Equipment Emission using Inertial Sensors and Machine Learning Models ( http://arxiv.org/abs/2109.13375v1 )

ライセンス: Link先を確認
Farid Shahnavaz and Reza Akhavian(参考訳) 建設産業は温室効果ガス(GHG)の主要な生産国の一つである。 建設プロジェクト中のghg排出を含む大気汚染物質量の定量化は、世界中の多くの地域で、時間、コスト、安全性といった従来の指標に対する追加のプロジェクト目標となっている。 建設中の大気汚染の主な要因は重機の使用であり、その効率的な運用と管理は環境への害を大幅に減らすことができる。 路上車両の排出予測は広く研究されているトピックであるが、建設機器の排出測定と削減は注目されていない。 本稿では,加速度センサとジャイロセンサからなるモノのインターネット(IoT)システムを用いて監視される重機からの排出量を予測するために,機械学習(ML)手法を用いた新しいフレームワークの開発と展開について述べる。 実際の施工作業を行う掘削機を用いて, 開発フレームワークの検証を行った。 装置から排出されるCO、NOX、CO2、SO2、CH4の汚染量を含むデータを記録するため、慣性センサーとともにポータブルエミッション計測システム(PEMS)が使用された。 異なるMLアルゴリズムを開発し、慣性センサデータから放射レベルを予測する最良のモデルを特定した。 その結果,CO,NOX,CO2に対する決定係数0.94,0.91,0.94のランダムフォレスト(R2)は,それぞれ異なるモデルの中で最高のアルゴリズムであった。

The construction industry is one of the main producers of greenhouse gasses (GHG). Quantifying the amount of air pollutants including GHG emissions during a construction project has become an additional project objective to traditional metrics such as time, cost, and safety in many parts of the world. A major contributor to air pollution during construction is the use of heavy equipment and thus their efficient operation and management can substantially reduce the harm to the environment. Although the on-road vehicle emission prediction is a widely researched topic, construction equipment emission measurement and reduction have received very little attention. This paper describes the development and deployment of a novel framework that uses machine learning (ML) methods to predict the level of emissions from heavy construction equipment monitored via an Internet of Things (IoT) system comprised of accelerometer and gyroscope sensors. The developed framework was validated using an excavator performing real-world construction work. A portable emission measurement system (PEMS) was employed along with the inertial sensors to record data including the amount of CO, NOX, CO2, SO2, and CH4 pollutions emitted by the equipment. Different ML algorithms were developed and compared to identify the best model to predict emission levels from inertial sensors data. The results showed that Random Forest with the coefficient of determination (R2) of 0.94, 0.91 and 0.94 for CO, NOX, CO2, respectively was the best algorithm among different models evaluated in this study.
翻訳日:2021-09-29 14:35:44 公開日:2021-09-27
# unrolling sgd: 機械学習に影響を与える要因の理解

Unrolling SGD: Understanding Factors Influencing Machine Unlearning ( http://arxiv.org/abs/2109.13398v1 )

ライセンス: Link先を確認
Anvith Thudi, Gabriel Deza, Varun Chandrasekaran, Nicolas Papernot(参考訳) 機械学習は、デプロイされた機械学習モデルがトレーニングデータポイントの1つを忘れるプロセスである。 モデルをスクラッチからナイーブに再トレーニングすることは選択肢ですが、ディープラーニングモデルに対する大規模な計算作業とほぼ常に関連しています。 このように、モデルがデータポイントを忘れることの意味を形式化するメトリクスとともに、およそ未学習のいくつかのアプローチが提案されている。 本研究では,まず近似学習のアプローチとメトリクスを分類する。 その結果、検証誤差、すなわち、おおよそ未学習の重みとnaively retrainedモデルの間のl2の差を、メトリック近似アンラーニングが他のメトリクスの大きなクラスを意味するように最適化すべきであることが明らかとなった。 理論上,標準確率勾配降下(sgd)訓練アルゴリズムを解析し,sgdの近似アンラーニングの検証誤差の低減に関連する変数を探索する。 この分析から,まず検証エラー(unlearning errorと呼ばれる)に対する計算容易なプロキシを導出する。 分析はまた、sgd中の重みの全体的な変化を制限する新しい訓練目的のペナルティの設計を通知し、その結果、検証誤差の低い近似アンラーニングが容易になる。 我々は,CIFAR-10,CIFAR-100, IMDBの感情分析による理論的研究を実証的に検証した。

Machine unlearning is the process through which a deployed machine learning model forgets about one of its training data points. While naively retraining the model from scratch is an option, it is almost always associated with a large computational effort for deep learning models. Thus, several approaches to approximately unlearn have been proposed along with corresponding metrics that formalize what it means for a model to forget about a data point. In this work, we first taxonomize approaches and metrics of approximate unlearning. As a result, we identify verification error, i.e., the L2 difference between the weights of an approximately unlearned and a naively retrained model, as a metric approximate unlearning should optimize for as it implies a large class of other metrics. We theoretically analyze the canonical stochastic gradient descent (SGD) training algorithm to surface the variables which are relevant to reducing the verification error of approximate unlearning for SGD. From this analysis, we first derive an easy-to-compute proxy for verification error (termed unlearning error). The analysis also informs the design of a new training objective penalty that limits the overall change in weights during SGD and as a result facilitates approximate unlearning with lower verification error. We validate our theoretical work through an empirical evaluation on CIFAR-10, CIFAR-100, and IMDB sentiment analysis.
翻訳日:2021-09-29 14:35:19 公開日:2021-09-27
# レコメンダシステムにおける局所的およびグローバル的説明の役割の検討

Exploring The Role of Local and Global Explanations in Recommender Systems ( http://arxiv.org/abs/2109.13301v1 )

ライセンス: Link先を確認
Marissa Radensky (1), Doug Downey (2 and 3), Kyle Lo (2), Zoran Popovi\'c (1), Daniel S. Weld (1 and 2) ((1) University of Washington, (2) Allen Institute for Artificial Intelligence, (3) Northwestern University)(参考訳) 説明はレコメンダシステムの透明性を改善するためによく知られている。 これらの説明はローカルで、個別のレコメンデーション、あるいはグローバルで、一般的にレコメンデーションモデルを説明する。 広く使われているにもかかわらず、この2つのアプローチの相対的な利点についてはほとんど調査されていない。 同じメリットをユーザに提供するのか,あるいは目的が違うのか? 研究論文推薦システムを用いて,30名の参加者による探索的研究と30名の参加者によるユーザスタディを行い,参加者の局所的,グローバル的,あるいは両説明の提供がシステム行動のユーザ理解に与える影響を分析した。 以上の結果から,どちらの説明もレコメンデーションの改善方法を説明するのに単独よりも有用であるが,偽陽性と陰性を識別する効率の面ではグローバル単独よりは有用ではないことが示唆された。 しかし、この2つの説明アプローチは、より高いテイクまたはより不透明なドメインの文脈で比較されるかもしれないことに注意する。

Explanations are well-known to improve recommender systems' transparency. These explanations may be local, explaining an individual recommendation, or global, explaining the recommender model in general. Despite their widespread use, there has been little investigation into the relative benefits of these two approaches. Do they provide the same benefits to users, or do they serve different purposes? We conducted a 30-participant exploratory study and a 30-participant controlled user study with a research-paper recommender system to analyze how providing participants local, global, or both explanations influences user understanding of system behavior. Our results provide evidence suggesting that both explanations are more helpful than either alone for explaining how to improve recommendations, yet both appeared less helpful than global alone for efficiency in identifying false positives and negatives. However, we note that the two explanation approaches may be better compared in the context of a higher-stakes or more opaque domain.
翻訳日:2021-09-29 14:33:03 公開日:2021-09-27
# (参考訳) 共変量シフトのためのベイズ適応型テストデータの訓練 [全文訳有]

Training on Test Data with Bayesian Adaptation for Covariate Shift ( http://arxiv.org/abs/2109.12746v1 )

ライセンス: CC BY 4.0
Aurick Zhou, Sergey Levine(参考訳) テスト時に分布シフトに直面すると、ディープニューラルネットワークは不確実性推定で不正確な予測を行うことが多い。 ニューラルネットワークのロバスト性を改善することは、この問題を軽減するための有望なアプローチのひとつだが、テスト時間シフトに対してネットワークを堅牢化する代わりに、テスト時に遭遇する特定の分散シフトからラベルなしの入力にそれらを直接適応させることがアピールされている。 教師付き学習の標準的なベイズモデルでは、ラベルが観測されていない場合、ラベルなし入力はモデルパラメータとは条件的に独立しているため、テスト時にラベルなしデータからモデルパラメータについて教えてください。 本稿では,分布シフトに基づくラベル付き入力とモデルパラメータとの関係をよく定義したベイズモデルから導出し,テスト時に単純な正規化エントロピー最小化手順を用いて近似推論がどのようにインスタンス化できるかを示す。 本手法は,画像の破壊,自然分布シフト,ドメイン適応設定など,画像分類における様々な分布シフトについて評価し,精度と不確実性の両方を改善したことを示す。

When faced with distribution shift at test time, deep neural networks often make inaccurate predictions with unreliable uncertainty estimates. While improving the robustness of neural networks is one promising approach to mitigate this issue, an appealing alternate to robustifying networks against all possible test-time shifts is to instead directly adapt them to unlabeled inputs from the particular distribution shift we encounter at test time. However, this poses a challenging question: in the standard Bayesian model for supervised learning, unlabeled inputs are conditionally independent of model parameters when the labels are unobserved, so what can unlabeled data tell us about the model parameters at test-time? In this paper, we derive a Bayesian model that provides for a well-defined relationship between unlabeled inputs under distributional shift and model parameters, and show how approximate inference in this model can be instantiated with a simple regularized entropy minimization procedure at test-time. We evaluate our method on a variety of distribution shifts for image classification, including image corruptions, natural distribution shifts, and domain adaptation settings, and show that our method improves both accuracy and uncertainty estimation.
翻訳日:2021-09-29 07:45:40 公開日:2021-09-27
# (参考訳) 抽象化・推論・ディープラーニング:「Look and Say」シーケンスの検討 [全文訳有]

Abstraction, Reasoning and Deep Learning: A Study of the "Look and Say" Sequence ( http://arxiv.org/abs/2109.12755v1 )

ライセンス: CC BY 4.0
Wlodek W. Zadrozny(参考訳) システム2の推論を抽象化し、数え、使用する能力は、知性と理解の有名な表現である。 本稿では,大規模データセット(本事例では2m例)で学習した場合,ディープニューラルネットワークは高い「競合」を示すことができるが,問題のより深い理解やd.dennettが「理解」と呼ぶものについては何の兆候も示さない,という,``look and say'パズルの2つの集合実験について報告する。 問題は、あるトークンセットから別のトークンへのトランスレータの構築だと考えています。 標準のLSTMとTransformer/Attentio nベースのニューラルネットワークの両方を、公開機械翻訳ソフトウェアを用いて適用する。 トレーニングデータとテストデータの両方において)驚くべき精度にもかかわらず、実際のL\&Sシーケンス上でのトレーニングプログラムのパフォーマンスは悪いことを観察する。 次に、この発見と他の研究、実験的、理論的関係のいくつかの可能性について論じる。 まず、認知科学の観点から、より優れた抽象の数学的モデルが必要であると論じる。 第二に、ニューラルネットワークの普遍性に関する古典的かつ最近の結果は、離散データセットに作用する関数に対して再検討されるべきである。 離散集合上の写像は通常自然連続拡大を持たない。 これは、代数関数が微分方程式よりもモデル化が難しい数学的関数のモデリングに関するより洗練された結果と単純なパズルの結果を結びつける。 第三に、'Look and Say'のような問題やビットストリングのパリティの計算、整数の加算といった問題に対して、連続性は距離の概念に言及せずに定義されるトポロジーの概念を導入することには価値があると仮定する。

The ability to abstract, count, and use System 2 reasoning are well-known manifestations of intelligence and understanding. In this paper, we argue, using the example of the ``Look and Say" puzzle, that although deep neural networks can exhibit high `competence' (as measured by accuracy) when trained on large data sets (2M examples in our case), they do not show any sign on the deeper understanding of the problem, or what D. Dennett calls `comprehension'. We report on two sets experiments on the ``Look and Say" puzzle data. We view the problem as building a translator from one set of tokens to another. We apply both standard LSTMs and Transformer/Attentio n -- based neural networks, using publicly available machine translation software. We observe that despite the amazing accuracy (on both, training and test data), the performance of the trained programs on the actual L\&S sequence is bad. We then discuss a few possible ramifications of this finding and connections to other work, experimental and theoretical. First, from the cognitive science perspective, we argue that we need better mathematical models of abstraction. Second, the classical and more recent results on the universality of neural networks should be re-examined for functions acting on discrete data sets. Mapping on discrete sets usually have no natural continuous extensions. This connects the results on a simple puzzle to more sophisticated results on modeling of mathematical functions, where algebraic functions are more difficult to model than e.g. differential equations. Third, we hypothesize that for problems such as ``Look and Say", computing the parity of bitstrings, or learning integer addition, it might be worthwhile to introduce concepts from topology, where continuity is defined without the reference to the concept of distance.
翻訳日:2021-09-29 07:23:20 公開日:2021-09-27
# (参考訳) オープンセット画像認識のための新しいネットワークトレーニング手法 [全文訳有]

A novel network training approach for open set image recognition ( http://arxiv.org/abs/2109.12756v1 )

ライセンス: CC BY 4.0
Md Tahmid Hossaina, Shyh Wei Teng, Guojun Lu, Ferdous Sohel(参考訳) 畳み込みニューラルネットワーク(CNN)は一般に、テストインスタンスがトレーニングで使用される"Known Known"(KK)クラスに属するようなクローズドな設定のために設計されている。 そのため、KKクラスの分布に基づいて、テストサンプルのクラスラベルを予測する。 しかしながら、Open Set Recognition (OSR) 設定で使用される場合(入力が "Unknown Unknown" または UU クラスに属する場合)、そのようなネットワークは常にテストインスタンスを UU クラスからでも KK クラスの1つに分類する。 近年,GAN(Generative Adversarial Networks)に基づくデータ拡張が用いられている。 本研究では,「既知の未知トレーナー」またはkutセットをマイニングし,このデータセットを活用するためのディープosrネットワーク(osrnet)を設計するための新しい手法を提案する。 目標は、OSRNetがKUTセットを通じてUUの本質を教えることである。 トレーニングが完了すると、OSRNetはKKの高い分類精度を維持しながらUUを検出することができる。 我々は,OSRNetを6つのベンチマークデータセット上で評価し,OSR法よりも優れた性能を示す。

Convolutional Neural Networks (CNNs) are commonly designed for closed set arrangements, where test instances only belong to some "Known Known" (KK) classes used in training. As such, they predict a class label for a test sample based on the distribution of the KK classes. However, when used under the Open Set Recognition (OSR) setup (where an input may belong to an "Unknown Unknown" or UU class), such a network will always classify a test instance as one of the KK classes even if it is from a UU class. As a solution, recently, data augmentation based on Generative Adversarial Networks(GAN) has been used. In this work, we propose a novel approach for mining a "Known UnknownTrainer" or KUT set and design a deep OSR Network (OSRNet) to harness this dataset. The goal isto teach OSRNet the essence of the UUs through KUT set, which is effectively a collection of mined "hard Known Unknown negatives". Once trained, OSRNet can detect the UUs while maintaining high classification accuracy on KKs. We evaluate OSRNet on six benchmark datasets and demonstrate it outperforms contemporary OSR methods.
翻訳日:2021-09-29 07:13:12 公開日:2021-09-27
# (参考訳) text to insight: 深層学習による有機材料知識抽出の促進 [全文訳有]

Text to Insight: Accelerating Organic Materials Knowledge Extraction via Deep Learning ( http://arxiv.org/abs/2109.12758v1 )

ライセンス: CC BY 4.0
Xintong Zhao, Steven Lopez, Semion Saikin, Xiaohua Hu and Jane Greenberg(参考訳) 科学文学は知識を共有するための最も重要な資源の1つである。 研究者は、実験を設計する第一歩として科学文献に目を向ける。 文学の広範化と増大を考えると、知識の読み出しと手作業による抽出の一般的なアプローチは、研究サイクルにおけるボトルネックを生み出すのに時間がかかりすぎる。 この課題は、ほぼすべての科学領域にまたがる。 材料科学にとって、数百万の出版物に分散した実験データは、材料特性の予測と新規材料の設計に極めて有用である。 しかし近年になって、主に無機材料に対する知識抽出のための計算手法が研究されている。 本研究は,有機材料の知識抽出を目的とした。 我々は,92,667の要約から,855の注釈文と708,376の注釈文からなる研究データセットを構築した。 BiLSTM-CNN-CRF深層学習モデルを用いて,文献から重要な知識を自動的に抽出した。 初期段階の結果は、自動知識抽出の可能性が高い。 本稿では,他の科学的領域に適用可能な知識抽出の枠組みと知見について述べる。

Scientific literature is one of the most significant resources for sharing knowledge. Researchers turn to scientific literature as a first step in designing an experiment. Given the extensive and growing volume of literature, the common approach of reading and manually extracting knowledge is too time consuming, creating a bottleneck in the research cycle. This challenge spans nearly every scientific domain. For the materials science, experimental data distributed across millions of publications are extremely helpful for predicting materials properties and the design of novel materials. However, only recently researchers have explored computational approaches for knowledge extraction primarily for inorganic materials. This study aims to explore knowledge extraction for organic materials. We built a research dataset composed of 855 annotated and 708,376 unannotated sentences drawn from 92,667 abstracts. We used named-entity-recogni tion (NER) with BiLSTM-CNN-CRF deep learning model to automatically extract key knowledge from literature. Early-phase results show a high potential for automated knowledge extraction. The paper presents our findings and a framework for supervised knowledge extraction that can be adapted to other scientific domains.
翻訳日:2021-09-29 06:51:55 公開日:2021-09-27
# (参考訳) OpenViDial 2.0:ビジュアルコンテキストを備えた大規模でオープンな対話生成データセット [全文訳有]

OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts ( http://arxiv.org/abs/2109.12761v1 )

ライセンス: CC BY 4.0
Shuhe Wang, Yuxian Meng, Xiaoya Li, Xiaofei Sun, Rongbin Ouyang, Jiwei Li(参考訳) 実際の人間の会話プロセスをより良くシミュレートするために、モデルは先行するテキストコンテキストだけでなく、視覚的コンテキストにもとづいて対話発話を生成する必要がある。 しかし、マルチモーダル対話学習の発展に伴い、データセットスケールは徐々にボトルネックとなる。 本稿では,OpenViDial 1.0よりも大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。 openvidial 2.0は、異なるリソースから映画またはテレビシリーズから抽出された合計560万の対話ターンを含み、それぞれの対話ターンは対応する視覚コンテキストとペアリングされる。 この大規模データセットは、対話生成のためのマルチモーダルプリトレーニングなど、オープンドメインのマルチモーダルダイアログ生成に関する将来の研究を促進することを願っている。

In order to better simulate the real human conversation process, models need to generate dialogue utterances based on not only preceding textual contexts but also visual contexts. However, with the development of multi-modal dialogue learning, the dataset scale gradually becomes a bottleneck. In this report, we release OpenViDial 2.0, a larger-scale open-domain multi-modal dialogue dataset compared to the previous version OpenViDial 1.0. OpenViDial 2.0 contains a total number of 5.6 million dialogue turns extracted from either movies or TV series from different resources, and each dialogue turn is paired with its corresponding visual context. We hope this large-scale dataset can help facilitate future researches on open-domain multi-modal dialog generation, e.g., multi-modal pretraining for dialogue generation.
翻訳日:2021-09-29 06:45:15 公開日:2021-09-27
# (参考訳) 火山の熱赤外モニタリングの改良 : 間欠的画像シリーズへのディープラーニングアプローチ [全文訳有]

Improving the Thermal Infrared Monitoring of Volcanoes: A Deep Learning Approach for Intermittent Image Series ( http://arxiv.org/abs/2109.12767v1 )

ライセンス: CC BY-SA 4.0
Jeremy Diaz, Guido Cervone, Christelle Wauthier(参考訳) 活動的な火山は世界中に分布し、地域的危険から地域的・国際的破壊まで、複数の地域規模で社会的なリスクをもたらす。 多くの火山は連続した地上監視網を持っていないため、衛星観測は火山の挙動と不安の唯一の記録を提供する。 これらのリモートセンシング観測のうち、熱画像は火山観測所によって毎日検査され、噴火活動の早期の兆候、開始、および進化を調べる。 しかし、熱シーンはしばしば雲によって妨げられるため、予測は時間を通じて間欠的にしか使用できない画像シーケンスから作り出さなければならない。 本稿では,この熱データストリームの予測を,時空間的考察の異なるシーケンスをモデル化する既存のアーキテクチャを用いて深層学習の観点から検討する。 さらに、断続画像列を明示的にモデル化する新しいアーキテクチャを提案し、評価する。 1999ドルから2020ドルの間、9ドルのASTERキネティック表面温度データを用いて、提案されたアーキテクチャ(ConvLSTM + Time-LSTM + U-Net)は、最低のRMSE$4.164^{\circ}$Cで火山の温度を予測し、その他の方法では4.217-5.291^{\circ}$Cであることがわかった。 さらに, 熱画像から得られた複数の時系列データと, 特異火山のデータによるトレーニングの効果について検討した。 最終的に,予測画像のrmseが最も低いモデルでは,その画像から得られた再現時系列における最低rmseが得られず,個々の火山での訓練では,マルチ・ボルカノデータセットに比べて性能が低下することが判明した。 この研究は、火山活動予測のためのデータ駆動ディープラーニングモデルの可能性を強調し、慎重に構築された最適化目標の必要性を明らかにした。

Active volcanoes are globally distributed and pose societal risks at multiple geographic scales, ranging from local hazards to regional/internation al disruptions. Many volcanoes do not have continuous ground monitoring networks; meaning that satellite observations provide the only record of volcanic behavior and unrest. Among these remote sensing observations, thermal imagery is inspected daily by volcanic observatories for examining the early signs, onset, and evolution of eruptive activity. However, thermal scenes are often obstructed by clouds, meaning that forecasts must be made off image sequences whose scenes are only usable intermittently through time. Here, we explore forecasting this thermal data stream from a deep learning perspective using existing architectures that model sequences with varying spatiotemporal considerations. Additionally, we propose and evaluate new architectures that explicitly model intermittent image sequences. Using ASTER Kinetic Surface Temperature data for $9$ volcanoes between $1999$ and $2020$, we found that a proposed architecture (ConvLSTM + Time-LSTM + U-Net) forecasts volcanic temperature imagery with the lowest RMSE ($4.164^{\circ}$C, other methods: $4.217-5.291^{\circ}$C). Additionally, we examined performance on multiple time series derived from the thermal imagery and the effect of training with data from singular volcanoes. Ultimately, we found that models with the lowest RMSE on forecasting imagery did not possess the lowest RMSE on recreating time series derived from that imagery and that training with individual volcanoes generally worsened performance relative to a multi-volcano data set. This work highlights the potential of data-driven deep learning models for volcanic unrest forecasting while revealing the need for carefully constructed optimization targets.
翻訳日:2021-09-29 06:32:30 公開日:2021-09-27
# (参考訳) 医療アプリケーションのための機械学習を用いた異種治療効果推定:チュートリアルとベンチマーク

Heterogeneous Treatment Effect Estimation using machine learning for Healthcare application: tutorial and benchmark ( http://arxiv.org/abs/2109.12769v1 )

ライセンス: CC BY 4.0
Yaobin Ling, Pulakesh Upadhyaya, Luyao Chen, Xiaoqian Jiang, Yejin Kim(参考訳) 標的疾患の新しい薬の開発は時間と費用のかかる作業であり、医薬品開発の分野では薬剤の再利用が話題となっている。 医療請求データが利用可能になるにつれて、データについて多くの研究がなされている。 実世界のデータは騒々しく、まばらで、多くの要因がある。 さらに、多くの研究が、薬物効果は人口間で不均一であることを示した。 近年、異種治療効果(hte)を推定するための高度な機械学習モデルが数多く登場し、計量経済学や機械学習コミュニティにも適用されている。 これらの研究は、医学と薬物開発を主な応用分野として認めるが、HTE法から薬物開発への翻訳研究は限られている。 我々は,医療分野にHTE手法を導入し,医療管理請求データに関するベンチマーク実験で方法論を翻訳する際の可能性を検討することを目的とする。 また、医療研究に適用された場合のモデルを解釈し、評価する方法を示すために、ベンチマーク実験を利用したい。 バイオメディカルインフォマティクスコミュニティの幅広い読者に最近のhte技術を導入することで、機械学習を用いた因果推論の広範な採用を促進することを期待する。 我々はまた、HTEのパーソナライズドドラッグの有効性も期待している。

Developing new drugs for target diseases is a time-consuming and expensive task, drug repurposing has become a popular topic in the drug development field. As much health claim data become available, many studies have been conducted on the data. The real-world data is noisy, sparse, and has many confounding factors. In addition, many studies have shown that drugs effects are heterogeneous among the population. Lots of advanced machine learning models about estimating heterogeneous treatment effects (HTE) have emerged in recent years, and have been applied to in econometrics and machine learning communities. These studies acknowledge medicine and drug development as the main application area, but there has been limited translational research from the HTE methodology to drug development. We aim to introduce the HTE methodology to the healthcare area and provide feasibility consideration when translating the methodology with benchmark experiments on healthcare administrative claim data. Also, we want to use benchmark experiments to show how to interpret and evaluate the model when it is applied to healthcare research. By introducing the recent HTE techniques to a broad readership in biomedical informatics communities, we expect to promote the wide adoption of causal inference using machine learning. We also expect to provide the feasibility of HTE for personalized drug effectiveness.
翻訳日:2021-09-29 05:59:31 公開日:2021-09-27
# (参考訳) 宇宙採掘のためのロボットビジョン [全文訳有]

Robotic Vision for Space Mining ( http://arxiv.org/abs/2109.12109v1 )

ライセンス: CC BY 4.0
Ragav Sachdeva, Ravi Hammond, James Bockman, Alec Arthur, Brandon Smart, Dustin Craggs, Anh-Dzung Doan, Thomas Rowntree, Elijah Schutz, Adrian Orenstein, Andy Yu, Tat-Jun Chin, Ian Reid(参考訳) 将来の月面基地は、月の表面から採掘された資源を用いて構築される可能性が高い。 月での人間の労働力の維持が困難で、地球との通信が遅れているため、高度な自律性を持つ協調ロボットを使って採掘を行う必要がある。 本稿では,衛星測位装置の欠如,危険地形の航行,微妙なロボットの相互作用など,月面環境における自律地雷の課題に対するロボットビジョンの有用性について検討する。 具体的には、月面採掘のための自律的な共同作業ロボットの文脈で、NASA宇宙ロボティクスチャレンジの第2フェーズのために開発したロボットビジョンアルゴリズムの結果を記述し報告する。 コンペティションは、上述の複雑さを示すシミュレートされた月環境を提供した。 月面環境がもたらす課題を軽減するために、機械学習による視覚がいかに役立つかを示す。 ロボット間の長期的な操作と効果的な協調を実現するために、堅牢なマルチロボットコーディネータも開発された。

Future Moon bases will likely be constructed using resources mined from the surface of the Moon. The difficulty of maintaining a human workforce on the Moon and communications lag with Earth means that mining will need to be conducted using collaborative robots with a high degree of autonomy. In this paper, we explore the utility of robotic vision towards addressing several major challenges in autonomous mining in the lunar environment: lack of satellite positioning systems, navigation in hazardous terrain, and delicate robot interactions. Specifically, we describe and report the results of robotic vision algorithms that we developed for Phase 2 of the NASA Space Robotics Challenge, which was framed in the context of autonomous collaborative robots for mining on the Moon. The competition provided a simulated lunar environment that exhibits the complexities alluded to above. We show how machine learning-enabled vision could help alleviate the challenges posed by the lunar environment. A robust multi-robot coordinator was also developed to achieve long-term operation and effective collaboration between robots.
翻訳日:2021-09-29 05:58:24 公開日:2021-09-27
# (参考訳) グラフ畳み込みネットワークと文脈サブツリーによるニュースイベント抽出の有効利用 [全文訳有]

Effective Use of Graph Convolution Network and Contextual Sub-Tree forCommodity News Event Extraction ( http://arxiv.org/abs/2109.12781v1 )

ライセンス: CC BY 4.0
Meisin Lee, Lay-Ki Soon, Eu-Gene Siew(参考訳) 商品ニュースにおけるイベント抽出は、一般的なイベント抽出に比べて研究の少ない分野である。 しかしながら、商品ニュースからの正確なイベント抽出は、未確立のイベントチェーンや、商品価格予測に使用できるイベントイベントイベント関係の学習など、海外のアプリケーションで有用である。 商品ニュースで見られる出来事は、一般的な出来事とは異なる特徴を示すため、既存の方法を用いたイベント抽出においてユニークな課題が生じる。 本稿では,コモディティニュースのイベントトラクションを改善するために,GCN(Graph Convolutional Networks)とPrunedDependency Parse Tree(コンテキストサブツリー)を効果的に利用することを提案する。 イベント抽出モデルは、コモディティニュースコーパス上でドメイン適応型事前トレーニングによって生成されたBERTベースのマスク付き言語モデルであるComBERTの機能埋め込みを使用してトレーニングされる。 実験の結果,提案手法の効率はF1スコアが0.90である既存手法よりも優れていた。 さらに、事前学習された言語モデルはGloVeを23%上回り、BERTとRoBERTaを7%上回ります。 再現性向上の目標として、コードとトレーニングされたモデルが公開されている。

Event extraction in commodity news is a less researched area as compared to generic event extraction. However, accurate event extraction from commodity news is useful in abroad range of applications such as under-standing event chains and learning event-event relations, which can then be used for commodity price prediction. The events found in commodity news exhibit characteristics different from generic events, hence posing a unique challenge in event extraction using existing methods. This paper proposes an effective use of Graph Convolutional Networks(GCN) with a pruned dependency parse tree, termed contextual sub-tree, for better event ex-traction in commodity news. The event ex-traction model is trained using feature embed-dings from ComBERT, a BERT-based masked language model that was produced through domain-adaptive pre-training on a commodity news corpus. Experimental results show the efficiency of the proposed solution, which out-performs existing methods with F1 scores as high as 0.90. Furthermore, our pre-trained language model outperforms GloVe by 23%, and BERT and RoBERTa by 7% in terms of argument roles classification. For the goal of re-producibility, the code and trained models are made publicly available1.
翻訳日:2021-09-29 05:43:08 公開日:2021-09-27
# (参考訳) 医療ワークフローのトリガに複数のCNNを活用する [全文訳有]

Leveraging Multiple CNNs for Triaging Medical Workflow ( http://arxiv.org/abs/2109.12783v1 )

ライセンス: CC BY 4.0
Lakshmi A. Ghantasala(参考訳) Covid-19の世界的な普及による入院率の高さは、古典的なトリアージワークフローの改善の必要性をもたらしている。 この目的のために、畳み込みニューラルネットワーク(CNN)は、病気の代表的な画像が存在する限り、クリティカルケースを迅速に対処できるように、非クリティカルイメージと効果的に区別することができる。 複数のvgg16 cnnからなる複合ニューラルネットワークシステムを提案する。システムは、重み付けされた皮膚疾患イメージをクリティカルまたは非クリティカルに再ラベルし、入力画像に0から10までの臨界指数を付加する。 クリティカルインデックスは、バイナリクリティカル/非クリティカルラベルと比較して、より包括的な評価システムを提供する。 トレーニングネットワークを介して実行される入力画像のバッチの結果は有望である。 バッチは提案されたアーキテクチャによって、ほぼ正確に最も重要から最小限に順序付けされている。

High hospitalization rates due to the global spread of Covid-19 bring about a need for improvements to classical triaging workflows. To this end, convolutional neural networks (CNNs) can effectively differentiate critical from non-critical images so that critical cases may be addressed quickly, so long as there exists some representative image for the illness. Presented is a conglomerate neural network system consisting of multiple VGG16 CNNs; the system trains on weighted skin disease images re-labelled as critical or non-critical, to then attach to input images a critical index between 0 and 10. A critical index offers a more comprehensive rating system compared to binary critical/non-critica l labels. Results for batches of input images run through the trained network are promising. A batch is shown being re-ordered by the proposed architecture from most critical to least critical roughly accurately.
翻訳日:2021-09-29 05:28:35 公開日:2021-09-27
# (参考訳) 自己複製型ニューラルプログラム [全文訳有]

Self-Replicating Neural Programs ( http://arxiv.org/abs/2109.12786v1 )

ライセンス: CC BY 4.0
Samuel Schmidgall(参考訳) この作業では、ニューラルネットワークは、自身の出力のみを入力として使用してトレーニングするコードを複製するように訓練される。 神経プログラムにおける進化的自己複製のパラダイムでは、プログラムパラメータが変更され、プログラム自体をより効率的に訓練する能力が生殖の成功に繋がる。 この進化パラダイムは、生殖成熟が早い生物を優先する自然選択のみに基づいて、明示的な指導なしに、環境から有機体においてより効率的な学習を生み出すことが示される。

In this work, a neural network is trained to replicate the code that trains it using only its own output as input. A paradigm for evolutionary self-replication in neural programs is introduced, where program parameters are mutated, and the ability for the program to more efficiently train itself leads to greater reproductive success. This evolutionary paradigm is demonstrated to produce more efficient learning in organisms from a setting without any explicit guidance, solely based on natural selection favoring organisms with faster reproductive maturity.
翻訳日:2021-09-29 05:24:40 公開日:2021-09-27
# (参考訳) 言語理解のための乗法位置認識トランスフォーマーモデル [全文訳有]

Multiplicative Position-aware Transformer Models for Language Understanding ( http://arxiv.org/abs/2109.12788v1 )

ライセンス: CC BY 4.0
Zhiheng Huang, Davis Liang, Peng Xu, Bing Xiang(参考訳) 自己アテンションのようなアーキテクチャ改善を活用するトランスフォーマーモデルは、自然言語処理(NLP)タスクにおいて極めてよく機能する。 自己保持機構は位置非依存である。 位置順序情報を取得するために,絶対位置埋め込みと相対位置埋め込みの様々なフレーバーが提案されている。 しかし、その貢献に関する系統的な分析はなく、文献にはこれらの方法の包括的比較が欠落している。 本稿では,既存の主要な位置埋め込み手法を概説し,その精度を下流のNLPタスクと比較する。 また,既存手法と比較して精度が向上する新しい乗法埋め込み法を提案する。 最後に,SQuAD1.1およびSQuAD2.0データセット上のRoBERTa-baseおよびRoBERTa-largeモデルを改善するために,デフォルトの絶対位置埋め込みをドロップインで置き換える手法を提案する。

Transformer models, which leverage architectural improvements like self-attention, perform remarkably well on Natural Language Processing (NLP) tasks. The self-attention mechanism is position agnostic. In order to capture positional ordering information, various flavors of absolute and relative position embeddings have been proposed. However, there is no systematic analysis on their contributions and a comprehensive comparison of these methods is missing in the literature. In this paper, we review major existing position embedding methods and compare their accuracy on downstream NLP tasks, using our own implementations. We also propose a novel multiplicative embedding method which leads to superior accuracy when compared to existing methods. Finally, we show that our proposed embedding method, served as a drop-in replacement of the default absolute position embedding, can improve the RoBERTa-base and RoBERTa-large models on SQuAD1.1 and SQuAD2.0 datasets.
翻訳日:2021-09-29 05:17:26 公開日:2021-09-27
# (参考訳) マルチコプターのための適応型PIDオートチューニングと実験結果 [全文訳有]

An Adaptive PID Autotuner for Multicopters with Experimental Results ( http://arxiv.org/abs/2109.12797v1 )

ライセンス: CC BY 4.0
John Spencer, Joonghyun Lee, Juan Augusto Paredes, Ankit Goel, Dennis Bernstein(参考訳) 本稿では,マルチコプタのための適応pidオートチューナを開発し,シミュレーションと実験結果を示す。 オートチューナーは、px4飛行スタックに実装されたレトロスペクティブコスト適応制御に基づく適応型デジタル制御則で構成されている。 学習軌道は、1回の飛行中にオートパイロットを最適化するために使用される。 自動調整オートパイロットは、2階ヒルベルト曲線を用いて構築された試験軌道を飛行することで、デフォルトのPX4オートパイロットと比較される。 クワッドコプターのダイナミックスに対するオートチューナーの感度を調べるために、クワッドコプターの質量が変化し、オートチューナーとデフォルトのオートパイロットの性能を比較する。 自動調整オートパイロットがデフォルトのオートパイロットよりも優れていることが観察される。

This paper develops an adaptive PID autotuner for multicopters, and presents simulation and experimental results. The autotuner consists of adaptive digital control laws based on retrospective cost adaptive control implemented in the PX4 flight stack. A learning trajectory is used to optimize the autopilot during a single flight. The autotuned autopilot is then compared with the default PX4 autopilot by flying a test trajectory constructed using the second-order Hilbert curve. In order to investigate the sensitivity of the autotuner to the quadcopter dynamics, the mass of the quadcopter is varied, and the performance of the autotuned and default autopilot is compared. It is observed that the autotuned autopilot outperforms the default autopilot.
翻訳日:2021-09-29 05:04:35 公開日:2021-09-27
# (参考訳) ディープラーニングを用いた視線推定におけるパーソナライズ校正の効果 [全文訳有]

Effect Of Personalized Calibration On Gaze Estimation Using Deep-Learning ( http://arxiv.org/abs/2109.12801v1 )

ライセンス: CC BY 4.0
Nairit Bandyopadhyay, S\'ebastien Riou, Didier Schwab(参考訳) 計算能力の増大と新しい最先端ディープラーニングアルゴリズムの開発により、外見に基づく視線推定がますます人気が高まっている。 ラボラトリーデータセットのキュレーションはうまく機能すると考えられているが、現実のシナリオでデプロイする場合、いくつかの課題に直面している。 そのような課題の1つは、視線推定のために訓練されたディープラーニングモデルに知識がない人の視線を推定することである。 このようなシナリオのパフォーマンスを分析するために、私たちはキャリブレーション機構をシミュレートしようとしました。 この作業ではMPIIGazeデータセットを使用します。 我々は,マルチモーダル畳み込みニューラルネットワークを訓練し,キャリブレーションなしでその性能を解析した。この評価により,野生の視線推定におけるディープラーニングモデルの性能改善に関する明確な知見が得られる。

With the increase in computation power and the development of new state-of-the-art deep learning algorithms, appearance-based gaze estimation is becoming more and more popular. It is believed to work well with curated laboratory data sets, however it faces several challenges when deployed in real world scenario. One such challenge is to estimate the gaze of a person about which the Deep Learning model trained for gaze estimation has no knowledge about. To analyse the performance in such scenarios we have tried to simulate a calibration mechanism. In this work we use the MPIIGaze data set. We trained a multi modal convolutional neural network and analysed its performance with and without calibration and this evaluation provides clear insights on how calibration improved the performance of the Deep Learning model in estimating gaze in the wild.
翻訳日:2021-09-29 04:50:39 公開日:2021-09-27
# (参考訳) シームズネットワークを用いたNショットパーム静脈検証 [全文訳有]

N-shot Palm Vein Verification Using Siamese Networks ( http://arxiv.org/abs/2109.12808v1 )

ライセンス: CC BY 4.0
Felix Marattukalam, Waleed H. Abdulla and Akshya Swain(参考訳) 近年,手のひら表面から血管バイオメトリックパターンを抽出するための深層学習法が研究者の間で注目されている。 多くの生体認証タスクでは、トレーニングサンプルの数に制限がある。 これは、研究に利用可能な静脈バイオメトリックデータベースが限られているためである。 これは、静脈認識の人々を効果的に識別または認証できるアルゴリズムを設計するための深層学習法の適用を制限する。 本稿では,シムズニューラルネットワーク構造を用いた手のひら静脈の同定のためのアーキテクチャを提案する。 提案するネットワークは、両手のひらの画像を使用し、人を特定するために重みを共有する2つのサブネットで構成されている。 HK PolyUマルチスペクトルパーム静脈データベース上で, 限られたサンプルを用いてアーキテクチャ性能を検証した。 その結果、91.9%の精度、91.1%のリコール、92.2%の特異性、91.5%のスコア、90.5%の精度で有効であることが示唆された。

The use of deep learning methods to extract vascular biometric patterns from the palm surface has been of interest among researchers in recent years. In many biometric recognition tasks, there is a limit in the number of training samples. This is because of limited vein biometric databases being available for research. This restricts the application of deep learning methods to design algorithms that can effectively identify or authenticate people for vein recognition. This paper proposes an architecture using Siamese neural network structure for few shot palm vein identification. The proposed network uses images from both the palms and consists of two sub-nets that share weights to identify a person. The architecture performance was tested on the HK PolyU multi spectral palm vein database with limited samples. The results suggest that the method is effective since it has 91.9% precision, 91.1% recall, 92.2% specificity, 91.5%, F1-Score, and 90.5% accuracy values.
翻訳日:2021-09-29 04:45:30 公開日:2021-09-27
# (参考訳) 神経構成解析における非局所的特徴の検討 [全文訳有]

Investigating Non-local Features for Neural Constituency Parsing ( http://arxiv.org/abs/2109.12814v1 )

ライセンス: CC BY 4.0
Leyang Cui, Sen Yang, Yue Zhang(参考訳) ニューラルエンコーダの強力な表現力のおかげで、ニューラルチャートベースのパーサは、ローカル機能を使用することで、高い競争性能を実現している。 近年,CRF構造の非局所的特徴が改善につながることが示されている。 本稿では,n-gram非局所パターンの構成を予測し,非局所パターンと局所要素間の一貫性を確保することにより,局所的スパンベースパーサのトレーニングプロセスに非局所的特徴を注入する。 その結果,本手法はptbおよびctbのcrfパーサよりも優れた結果が得られることがわかった。 さらに, PTB (95.92 F1) 上での最先端のBERTベースの性能と, CTB (92.31 F1) での強い性能を実現する。

Thanks to the strong representation power of neural encoders, neural chart-based parsers have achieved highly competitive performance by using local features. Recently, it has been shown that non-local features in CRF structures lead to improvements. In this paper, we investigate injecting non-local features into the training process of a local span-based parser, by predicting constituent n-gram non-local patterns and ensuring consistency between non-local patterns and local constituents. Results show that our simple method gives better results than the CRF parser on both PTB and CTB. Besides, our method achieves state-of-the-art BERT-based performance on PTB (95.92 F1) and strong performance on CTB (92.31 F1).
翻訳日:2021-09-29 04:38:31 公開日:2021-09-27
# (参考訳) muten: ミュータントベースのアンサンブルによる勾配に基づく敵攻撃の促進 [全文訳有]

MUTEN: Boosting Gradient-Based Adversarial Attacks via Mutant-Based Ensembles ( http://arxiv.org/abs/2109.12838v1 )

ライセンス: CC BY 4.0
Yuejun Guo and Qiang Hu and Maxime Cordy and Michail Papadakis and Yves Le Traon(参考訳) ディープニューラルネットワーク(DNN)は、敵の例に弱いため、セキュリティクリティカルなアプリケーションに深刻な脅威を引き起こす。 このことは、敵の攻撃に対してモデルをより堅牢にするためのメカニズムを提供するための多くの研究の動機となった。 残念ながら、勾配マスキングのようなこれらの防御は、異なる攻撃手段によって容易に克服される。 本稿では,勾配マスキングモデルに対するよく知られた攻撃の成功率を改善するために,低コストなMUTENを提案する。 我々の考えは、トレーニング後に元のモデル要素を変更することで構築されたアンサンブルモデルに攻撃を適用することである。 変異の多様性が成功率向上の鍵となることが判明したので,多様な変異を効率的に生成するための欲望のあるアルゴリズムを考案した。 mnist、svhn、cifar10の実験結果は、ミューテンが4回の攻撃の成功率を最大0.45まで増加させることを示している。

Deep Neural Networks (DNNs) are vulnerable to adversarial examples, which causes serious threats to security-critical applications. This motivated much research on providing mechanisms to make models more robust against adversarial attacks. Unfortunately, most of these defenses, such as gradient masking, are easily overcome through different attack means. In this paper, we propose MUTEN, a low-cost method to improve the success rate of well-known attacks against gradient-masking models. Our idea is to apply the attacks on an ensemble model which is built by mutating the original model elements after training. As we found out that mutant diversity is a key factor in improving success rate, we design a greedy algorithm for generating diverse mutants efficiently. Experimental results on MNIST, SVHN, and CIFAR10 show that MUTEN can increase the success rate of four attacks by up to 0.45.
翻訳日:2021-09-29 04:29:11 公開日:2021-09-27
# (参考訳) 軍事紛争分析のためのdyad分類 [全文訳有]

Classifying Dyads for Militarized Conflict Analysis ( http://arxiv.org/abs/2109.12860v1 )

ライセンス: CC BY 4.0
Niklas Stoehr, Lucas Torroba Hennigen, Samin Ahbab, Robert West, Ryan Cotterell(参考訳) 軍事紛争の起源を理解することは複雑だが重要な事業である。 既存の研究は、エンティティペア(ダイアル因果関係)と複数のエンティティ(システム因果関係)の相互関係を考慮し、この理解を構築することを目指している。 この研究の目的は、これら2つの原因が2つのエンティティ間の衝突とどのように相関するかという点で比較することである。 私たちは、それぞれの原因を表すテキストとグラフベースの機能のセットを考案します。 機能はwikipediaから抽出され、大きなグラフとしてモデル化される。 このグラフのノードは、同盟または敵関係を表すラベル付きエッジで接続されたエンティティを表す。 これにより、問題をエッジ分類タスクとしてキャストすることができる。 特定の一対の実体が同盟者か敵かを決定するための分類器を提案し評価する。 結果から,システム的特徴は衝突の相関性が若干向上する可能性が示唆された。 さらに,wikipediaの記事は,敵よりも意味的に類似していることがわかった。

Understanding the origins of militarized conflict is a complex, yet important undertaking. Existing research seeks to build this understanding by considering bi-lateral relationships between entity pairs (dyadic causes) and multi-lateral relationships among multiple entities (systemic causes). The aim of this work is to compare these two causes in terms of how they correlate with conflict between two entities. We do this by devising a set of textual and graph-based features which represent each of the causes. The features are extracted from Wikipedia and modeled as a large graph. Nodes in this graph represent entities connected by labeled edges representing ally or enemy-relationships. This allows casting the problem as an edge classification task, which we term dyad classification. We propose and evaluate classifiers to determine if a particular pair of entities are allies or enemies. Our results suggest that our systemic features might be slightly better correlates of conflict. Further, we find that Wikipedia articles of allies are semantically more similar than enemies.
翻訳日:2021-09-29 04:18:02 公開日:2021-09-27
# (参考訳) ベイズニューラルネットワークからの滑らかな予測を用いたイントロスペクティブロボットの知覚 [全文訳有]

Introspective Robot Perception using Smoothed Predictions from Bayesian Neural Networks ( http://arxiv.org/abs/2109.12869v1 )

ライセンス: CC BY 4.0
Jianxiang Feng, Maximilian Durner, Zoltan-Csaba Marton, Ferenc Balint-Benczedi, and Rudolph Triebel(参考訳) 本研究は,rgb画像から物体分類の分野における不確実性推定の改善に焦点を当て,その利点を2つのロボットアプリケーションで実証する。 我々は, コンクリート投棄 (CDP) とクローネッカー補修型ラプラス近似 (LAP) の2つの実用的推論手法を用いて, より良い不確実性推定を求める。 条件付き確率場(crf)における不確実性推定を不確実性ポテンシャルとして用い,文脈情報も組み込むことのできる性能向上を示す。 さらに、得られた不確実性を利用して半教師付きでドメイン適応を達成し、データアノテートに手作業が不要になる。 ロボット認識タスクに関連する2つの公開ベンチマークデータセットに対するアプローチを評価する。

This work focuses on improving uncertainty estimation in the field of object classification from RGB images and demonstrates its benefits in two robotic applications. We employ a (BNN), and evaluate two practical inference techniques to obtain better uncertainty estimates, namely Concrete Dropout (CDP) and Kronecker-factored Laplace Approximation (LAP). We show a performance increase using more reliable uncertainty estimates as unary potentials within a Conditional Random Field (CRF), which is able to incorporate contextual information as well. Furthermore, the obtained uncertainties are exploited to achieve domain adaptation in a semi-supervised manner, which requires less manual efforts in annotating data. We evaluate our approach on two public benchmark datasets that are relevant for robot perception tasks.
翻訳日:2021-09-29 04:03:42 公開日:2021-09-27
# (参考訳) MFAQ: 多言語FAQデータセット [全文訳有]

MFAQ: a Multilingual FAQ Dataset ( http://arxiv.org/abs/2109.12870v1 )

ライセンス: CC BY 4.0
Maxime De Bruyn, Ehsan Lotfi, Jeska Buhmann, Walter Daelemans(参考訳) 本稿では,最初の多言語faqデータセットを一般に公開する。 21の異なる言語で、Webから約6万のFAQペアを収集しました。 これは既存のFAQ検索データセットよりもはるかに大きいが、コンテンツ重複とトピックの不均一分布という、独自の課題がある。 Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。 実験の結果,XLM-RoBERTaをベースとした多言語モデルが,英語を除いて最高の結果が得られることがわかった。 多言語モデルが言語固有のものよりも高いmrrを達成するため、リソースの低い言語は互いに学習するように見える。 質的分析により,単純な単語変化によるモデルの脆性が明らかになった。 データセット、モデル、トレーニングスクリプトを公開しています。

In this paper, we present the first multilingual FAQ dataset publicly available. We collected around 6M FAQ pairs from the web, in 21 different languages. Although this is significantly larger than existing FAQ retrieval datasets, it comes with its own challenges: duplication of content and uneven distribution of topics. We adopt a similar setup as Dense Passage Retrieval (DPR) and test various bi-encoders on this dataset. Our experiments reveal that a multilingual model based on XLM-RoBERTa achieves the best results, except for English. Lower resources languages seem to learn from one another as a multilingual model achieves a higher MRR than language-specific ones. Our qualitative analysis reveals the brittleness of the model on simple word changes. We publicly release our dataset, model and training script.
翻訳日:2021-09-29 03:49:55 公開日:2021-09-27
# (参考訳) ディープラーニングの教訓を用いたニューラルネットワークの学習

Training Spiking Neural Networks Using Lessons From Deep Learning ( http://arxiv.org/abs/2109.12894v1 )

ライセンス: CC BY 4.0
Jason K. Eshraghian and Max Ward and Emre Neftci and Xinxin Wang and Gregor Lenz and Girish Dwivedi and Mohammed Bennamoun and Doo Seok Jeong and Wei D. Lu(参考訳) 脳はより効率的なニューラルネットワークを開発するためのインスピレーションを探すのに最適な場所だ。 シナプスやニューロンの内部活動は、ディープラーニングの未来がどのようなものになるのかを垣間見せてくれる。 本稿では, 深層学習, 勾配降下, バックプロパゲーション, 神経科学などの数十年にわたる研究から学んだ教訓を, 生物学的にもっともらしいスパイクニューラルネットワークに適用する方法を示す。 本稿では,スパイクとしてのデータの符号化と学習プロセスの微妙な相互作用,ニューラルネットワークのスパイクに勾配に基づく学習を適用することの課題と解決,時間的バックプロパゲーションとスパイクタイミング依存の可塑性との微妙な関係,生物学的に有効なオンライン学習への深層学習の取り組みについて検討する。 いくつかのアイデアは広く受け入れられ、神経形工学のコミュニティで広く使われていますが、他のアイデアはここで初めて提示または正当化されます。

The brain is the perfect place to look for inspiration to develop more efficient neural networks. The inner workings of our synapses and neurons provide a glimpse at what the future of deep learning might look like. This paper shows how to apply the lessons learnt from several decades of research in deep learning, gradient descent, backpropagation and neuroscience to biologically plausible spiking neural neural networks. This paper explores the delicate interplay between encoding data as spikes and the learning process; the challenges and solutions of applying gradient-based learning to spiking neural networks; the subtle link between temporal backpropagation and spike timing dependent plasticity, and how deep learning might move towards biologically plausible online learning. Some ideas are well accepted and commonly used amongst the neuromorphic engineering community, while others are presented or justified for the first time here.
翻訳日:2021-09-29 03:33:56 公開日:2021-09-27
# (参考訳) フォーマルセマンティックスによる高レベル科学的クレームの表現 [全文訳有]

Expressing High-Level Scientific Claims with Formal Semantics ( http://arxiv.org/abs/2109.12907v1 )

ライセンス: CC BY 4.0
Cristina-Iulia Bucur and Tobias Kuhn and Davide Ceolin and Jacco van Ossenbruggen(参考訳) セマンティックテクノロジーの利用は、生命科学、コンピュータ科学、社会科学など、幅広い分野の分野の応用と科学コミュニケーションにおいて大きな牽引力となっている。 RDF、OWL、その他の形式論理に基づく言語は、人間の読者だけでなく、自動システムにも科学的知識をアクセスできるようにするために用いられる。 これらのアプローチは、主に科学出版物自体の構造、使用済みの科学的方法や機器、使用済みデータセットの構造に焦点を当てている。 科学的研究の中核的な主張や仮説は、言及された実体を確立された識別子にリンクすることなど、浅い方法でのみカバーされている。 そこで本研究では,既存の意味論的形式を用いて,形式的意味論を用いた高度な科学的主張の内容を体系的に表現できるかどうかを確かめたい。 すべての分野の科学論文のサンプルから主要な主張を分析したところ、それらの意味論はRDFやOWLのような形式主義の真正面適用よりも複雑であることがわかったが、我々は「スーパーパターン」と呼ぶ明確な意味パターンを引き出すことができた。 ここでは、このスーパーパターンの5つのスロットのインスタンス化が、高階論理における厳密に定義されたステートメントをもたらす方法を示す。 我々は、このスーパーパターンを科学的な主張の拡大サンプルに適用することに成功しました。 知識表現の専門家は、与えられた科学的主張と独立してスーパーパターンをインスタンス化するように指示されると、タスクと課題の複雑さから高い一貫性と収束性を示す。 したがって、これらの結果は、自動的に解釈できる方法で、ハイレベルな科学的発見を表現するための扉を開くことができる。

The use of semantic technologies is gaining significant traction in science communication with a wide array of applications in disciplines including the Life Sciences, Computer Science, and the Social Sciences. Languages like RDF, OWL, and other formalisms based on formal logic are applied to make scientific knowledge accessible not only to human readers but also to automated systems. These approaches have mostly focused on the structure of scientific publications themselves, on the used scientific methods and equipment, or on the structure of the used datasets. The core claims or hypotheses of scientific work have only been covered in a shallow manner, such as by linking mentioned entities to established identifiers. In this research, we therefore want to find out whether we can use existing semantic formalisms to fully express the content of high-level scientific claims using formal semantics in a systematic way. Analyzing the main claims from a sample of scientific articles from all disciplines, we find that their semantics are more complex than what a straight-forward application of formalisms like RDF or OWL account for, but we managed to elicit a clear semantic pattern which we call the 'super-pattern'. We show here how the instantiation of the five slots of this super-pattern leads to a strictly defined statement in higher-order logic. We successfully applied this super-pattern to an enlarged sample of scientific claims. We show that knowledge representation experts, when instructed to independently instantiate the super-pattern with given scientific claims, show a high degree of consistency and convergence given the complexity of the task and the subject. These results therefore open the door for expressing high-level scientific findings in a manner they can be automatically interpreted, which on the longer run can allow us to do automated consistency checking, and much more.
翻訳日:2021-09-29 03:32:54 公開日:2021-09-27
# (参考訳) 圧縮的視覚表現 [全文訳有]

Compressive Visual Representations ( http://arxiv.org/abs/2109.12909v1 )

ライセンス: CC BY 4.0
Kuang-Huei Lee, Anurag Arnab, Sergio Guadarrama, John Canny, Ian Fischer(参考訳) 人間の監督なしにうまく一般化する効果的な視覚表現を学ぶことは、さまざまなタスクに機械学習を適用するための基本的な問題である。 近年,SimCLRとBYOLの2種類の自己教師型手法,コントラッシブラーニングと潜伏型ブートストラッピングが大きな進歩を遂げている。 この研究では、これらのアルゴリズムに明示的な情報圧縮を加えることで、より良くより堅牢な表現が得られると仮定する。 我々は、条件付きエントロピーボトルネック(CEB)の目的に適合するSimCLRとBYOLの定式化を開発し、学習した表現の圧縮量を測定・制御し、下流タスクへの影響を観察することで、これを検証する。 さらに,リプシッツ連続性と圧縮の関係について検討し,我々が学習したエンコーダのリプシッツ定数に従属可能な下界を示す。 リプシッツ連続性はロバスト性と密接に関連しているため、なぜ圧縮モデルの方がロバストなのかの新しい説明を提供する。 実験により、simclrとbyolに圧縮を加えることで、幅広い領域シフトの線形評価精度とモデルロバスト性が大幅に向上することを確認した。 特にBYOLの圧縮版は、ResNet-50でImageNetで76.0%、ResNet-50 2xで78.8%の線形評価精度を実現している。

Learning effective visual representations that generalize well without human supervision is a fundamental problem in order to apply Machine Learning to a wide variety of tasks. Recently, two families of self-supervised methods, contrastive learning and latent bootstrapping, exemplified by SimCLR and BYOL respectively, have made significant progress. In this work, we hypothesize that adding explicit information compression to these algorithms yields better and more robust representations. We verify this by developing SimCLR and BYOL formulations compatible with the Conditional Entropy Bottleneck (CEB) objective, allowing us to both measure and control the amount of compression in the learned representation, and observe their impact on downstream tasks. Furthermore, we explore the relationship between Lipschitz continuity and compression, showing a tractable lower bound on the Lipschitz constant of the encoders we learn. As Lipschitz continuity is closely related to robustness, this provides a new explanation for why compressed models are more robust. Our experiments confirm that adding compression to SimCLR and BYOL significantly improves linear evaluation accuracies and model robustness across a wide range of domain shifts. In particular, the compressed version of BYOL achieves 76.0% Top-1 linear evaluation accuracy on ImageNet with ResNet-50, and 78.8% with ResNet-50 2x.
翻訳日:2021-09-29 03:17:33 公開日:2021-09-27
# (参考訳) 政治研究における小さなデータ問題--重要な複製研究 [全文訳有]

Small data problems in political research: a critical replication study ( http://arxiv.org/abs/2109.12911v1 )

ライセンス: CC BY-SA 4.0
Hugo de Vos, Suzan Verberne(参考訳) 政治研究における機械学習の利用に関する2019年の論文で、Anastasopoulos & Whitford (A&W)は組織的評判に関連するツイートのテキスト分類法を提案している。 彼らの論文の目的は、機械学習の利用に関する行政学者や実践者に「実践の指針」を提供することであった。 本稿では,a&wの実験を再現し,モデル安定性とプリプロセッシングの効果について,データサイズが小さい場合にもさらなる解析を行った。 その結果,(1)小さなデータではランダムな列車テスト分割のばらつきに敏感な分類モデルが生成され,(2)適用前の処理ではデータは非常にばらばらになり,データ内の項目の大部分は非ゼロな語彙的特徴を持つことがわかった。 さらに,前処理パイプラインのステップを異にする実験を行い,前処理の選択によらず,小さなデータサイズが問題を引き起こし続けることを示した。 この結果から,組織評価ツイートの自動分類に関するA&Wの結論 – 実体的あるいは方法論的であれ – は維持できず,トレーニングやより慎重な検証のためにより大きなデータセットが必要である,と論じる。

In an often-cited 2019 paper on the use of machine learning in political research, Anastasopoulos & Whitford (A&W) propose a text classification method for tweets related to organizational reputation. The aim of their paper was to provide a 'guide to practice' for public administration scholars and practitioners on the use of machine learning. In the current paper we follow up on that work with a replication of A&W's experiments and additional analyses on model stability and the effects of preprocessing, both in relation to the small data size. We show that (1) the small data causes the classification model to be highly sensitive to variations in the random train-test split, and that (2) the applied preprocessing causes the data to be extremely sparse, with the majority of items in the data having at most two non-zero lexical features. With additional experiments in which we vary the steps of the preprocessing pipeline, we show that the small data size keeps causing problems, irrespective of the preprocessing choices. Based on our findings, we argue that A&W's conclusions regarding the automated classification of organizational reputation tweets -- either substantive or methodological -- can not be maintained and require a larger data set for training and more careful validation.
翻訳日:2021-09-29 02:42:41 公開日:2021-09-27
# (参考訳) 人間-ロボットインタラクションにおける説明可能な人工知能のためのユーザ中心フレームワーク [全文訳有]

A User-Centred Framework for Explainable Artificial Intelligence in Human-Robot Interaction ( http://arxiv.org/abs/2109.12912v1 )

ライセンス: CC BY 4.0
Marco Matarese, Francesco Rea, Alessandra Sciutti(参考訳) state of the art artificial intelligence (ai)技術は印象的な複雑さに到達した。 その結果、研究者たちは現実世界のアプリケーションでそれを使う方法を見つけつつある。 しかし、そのようなシステムの複雑さは、それを人間ユーザーに透明にする手法の導入を必要とする。 AIコミュニティは、AIアルゴリズムをより不透明にするために、Explainable AI(XAI)フィールドを導入して、この問題を克服しようとしている。 しかし近年,XAIはコンピュータ科学の問題というよりはむしろコミュニケーションの問題であり,人間とエージェントの相互作用の問題でもあることが明らかになった。 さらに、AIは実生活で使われる実験室から生まれました。 これは、非専門家ユーザーに合わせたxaiソリューションの必要性を意味する。 そこで我々は,認知科学と社会科学の理論と知見から着想を得て,その社会的相互作用的な側面に焦点を当てたXAIのユーザ中心フレームワークを提案する。 このフレームワークは、エキスパートでないユーザのために考えられた対話型XAIソリューションのための構造を提供することを目的としている。

State of the art Artificial Intelligence (AI) techniques have reached an impressive complexity. Consequently, researchers are discovering more and more methods to use them in real-world applications. However, the complexity of such systems requires the introduction of methods that make those transparent to the human user. The AI community is trying to overcome the problem by introducing the Explainable AI (XAI) field, which is tentative to make AI algorithms less opaque. However, in recent years, it became clearer that XAI is much more than a computer science problem: since it is about communication, XAI is also a Human-Agent Interaction problem. Moreover, AI came out of the laboratories to be used in real life. This implies the need for XAI solutions tailored to non-expert users. Hence, we propose a user-centred framework for XAI that focuses on its social-interactive aspect taking inspiration from cognitive and social sciences' theories and findings. The framework aims to provide a structure for interactive XAI solutions thought for non-expert users.
翻訳日:2021-09-29 02:33:10 公開日:2021-09-27
# (参考訳) JDDC 2.0 Corpus:Eコマース顧客向け大規模マルチモーダル中国語対話データセット [全文訳有]

The JDDC 2.0 Corpus: A Large-Scale Multimodal Multi-Turn Chinese Dialogue Dataset for E-commerce Customer Service ( http://arxiv.org/abs/2109.12913v1 )

ライセンス: CC BY 4.0
Nan Zhao, Haoran Li, Youzheng Wu, Xiaodong He, Bowen Zhou(参考訳) インターネットの普及に伴い、オンラインショッピングに慣れる人がますます増えている。 カスタマーサービスと通信する場合、ユーザーはテキスト、画像、ビデオを使って要求を表現でき、自動顧客サービスシステムのためにこれらのマルチモーダル情報を理解する必要が生じる。 画像は通常、Eコマースのシナリオにおいて重要な役割を果たす製品モデルや製品失敗の指標の差別者として機能する。 一方、画像によって提供される詳細な情報は限られており、通常、カスタマーサービスシステムは入力テキストなしではユーザの意図を理解できない。 したがって,マルチモーダル対話タスクでは画像とテキストのギャップを橋渡しすることが重要である。 この問題に対処するために,中国の主流eコマースプラットフォーム(jd.com)から収集された大規模マルチモーダルマルチターン対話データセットであるjddc 2.0を構築し,約246万の対話セッション,300万の発話,507万の画像と,製品知識ベースと画像カテゴリアノテーションを組み合わせる。 本稿では、JDDCマルチモーダル対話課題に参加するトップ5チームのソリューションを、このデータセットに基づいて提示し、マルチモーダル対話課題に関するさらなる研究に有用な洞察を提供する。

With the development of the Internet, more and more people get accustomed to online shopping. When communicating with customer service, users may express their requirements by means of text, images, and videos, which precipitates the need for understanding these multimodal information for automatic customer service systems. Images usually act as discriminators for product models, or indicators of product failures, which play important roles in the E-commerce scenario. On the other hand, detailed information provided by the images is limited, and typically, customer service systems cannot understand the intents of users without the input text. Thus, bridging the gap of the image and text is crucial for the multimodal dialogue task. To handle this problem, we construct JDDC 2.0, a large-scale multimodal multi-turn dialogue dataset collected from a mainstream Chinese E-commerce platform (JD.com), containing about 246 thousand dialogue sessions, 3 million utterances, and 507 thousand images, along with product knowledge bases and image category annotations. We present the solutions of top-5 teams participating in the JDDC multimodal dialogue challenge based on this dataset, which provides valuable insights for further researches on the multimodal dialogue task.
翻訳日:2021-09-29 02:25:55 公開日:2021-09-27
# (参考訳) onlineforecast:適応的かつ再帰的な予測のためのrパッケージ

onlineforecast: An R package for adaptive and recursive forecasting ( http://arxiv.org/abs/2109.12915v1 )

ライセンス: CC BY 4.0
Peder Bacher, Hj\"orleifur G. Bergsteinsson, Linde Fr\"olke, Mikkel L. S{\o}rensen, Julian Lemos-Vinasco, Jon Liisberg, Jan Kloppenborg M{\o}ller, Henrik Aalborg Nielsen, Henrik Madsen(参考訳) 制御システムやエネルギー取引システムなどの意思決定に予測に依存するシステムは、予測の頻繁な更新を必要とする。 通常、予測は、新しい観測が利用可能になるたびに更新される。 オンライン予測のためのデータとモデルの汎用的なセットアップを提供するr package onlineforecastを提案する。 線形回帰に基づくモデルの時間適応的適合のための機能を持つ。 さらに、動的および非線形効果はモデルに容易に組み込むことができる。 この設定は、例えば数値天気予報のようなモデル入力として予測を効果的に活用できるように調整されている。 ユーザーは特定のシステムアプリケーション用に新しいモデルを作成し、運用中のオンライン環境でモデルを実行することができる。 このパッケージでは、カーネルやニューラルネットワークメソッドを使って推定するなど、セットアップの一部を簡単に置き換えることも可能だ。 このパッケージには包括的なヴィグネットとエネルギーシステムにおけるオンライン予測アプリケーションの例が付属しているが、オンライン予測が使用されるすべての分野に容易に適用できる。

Systems that rely on forecasts to make decisions, e.g. control or energy trading systems, require frequent updates of the forecasts. Usually, the forecasts are updated whenever new observations become available, hence in an online setting. We present the R package onlineforecast that provides a generalized setup of data and models for online forecasting. It has functionality for time-adaptive fitting of linear regression-based models. Furthermore, dynamical and non-linear effects can be easily included in the models. The setup is tailored to enable effective use of forecasts as model inputs, e.g. numerical weather forecast. Users can create new models for their particular system applications and run models in an operational online setting. The package also allows users to easily replace parts of the setup, e.g. use kernel or neural network methods for estimation. The package comes with comprehensive vignettes and examples of online forecasting applications in energy systems, but can easily be applied in all fields where online forecasting is used.
翻訳日:2021-09-29 02:11:19 公開日:2021-09-27
# (参考訳) ClipMatrix: 3Dテクスチャメッシュのテキスト制御による作成 [全文訳有]

ClipMatrix: Text-controlled Creation of 3D Textured Meshes ( http://arxiv.org/abs/2109.12922v1 )

ライセンス: CC BY 4.0
Nikolay Jetchev(参考訳) 写真が1000語に値するなら、動く3d形状は100万語でなければならない。 我々は,テキストプロンプトのセマンティクスに適合した画像を生成し,それを制御された3Dオブジェクトに拡張する,最近の生成手法の成功に基づいて構築する。 本稿では,テキストプロンプトによって制御されるテクスチャ付き3dメッシュを作成するための新しいアルゴリズムを提案する。 本手法は,高分解能3dメッシュを審美的に再現し,自動化と3dアセットのai制御の新たな可能性を開く。 これは、CLIPテキストの埋め込みを利用して新しいデジタル3d生物を産み出すためであり、これはラテン語で「マトリクス」を意味する「母」を意味する。 当社の手法の能力の完全な印象については、オンラインギャラリーを参照してください。

If a picture is worth thousand words, a moving 3d shape must be worth a million. We build upon the success of recent generative methods that create images fitting the semantics of a text prompt, and extend it to the controlled generation of 3d objects. We present a novel algorithm for the creation of textured 3d meshes, controlled by text prompts. Our method creates aesthetically pleasing high resolution articulated 3d meshes, and opens new possibilities for automation and AI control of 3d assets. We call it "ClipMatrix" because it leverages CLIP text embeddings to breed new digital 3d creatures, a nod to the Latin meaning of the word "matrix" - "mother". See the online gallery for a full impression of our method's capability.
翻訳日:2021-09-29 02:10:22 公開日:2021-09-27
# (参考訳) Harrisz+: 次世代画像マッチングパイプラインのためのHarris Corner選択 [全文訳有]

Harrisz+: Harris Corner Selection for Next-Gen Image Matching Pipelines ( http://arxiv.org/abs/2109.12925v1 )

ライセンス: CC BY 4.0
Fabio Bellavia and Dmytro Mishkin(参考訳) 多くのコンピュータビジョンタスクでその役割があるため、画像マッチングは研究者による積極的な調査の対象となり、より識別しやすい特徴記述子や、より堅牢なマッチング戦略へと導かれてきた。 これらの成果にもかかわらず、画像マッチングパイプラインの基部におけるキーポイント抽出プロセスは、同等の進歩を見せていない。 本稿では、HarrisZ角検出器のアップグレードであるHarrisz$^{+}$について、画像マッチングパイプラインの他のステップの改善を相乗的に進めるために最適化した。 Harrisz$^{+}$ は設定パラメータのチューニングからなるだけでなく、HarrisZ が定義した選択基準をさらに洗練し、画像上によりよく分布し、より高いローカライゼーション精度のキーポイントを提供する。 harrisz$^{+}$を含む画像マッチングパイプラインは、他のモダンなコンポーネントとともに、従来の画像マッチングパイプラインの最先端のベンチマークで得られた。

Due to its role in many computer vision tasks, image matching has been subjected to an active investigation by researchers, which has lead to better and more discriminant feature descriptors and to more robust matching strategies, also thanks to the advent of the deep learning and the increased computational power of the modern hardware. Despite of these achievements, the keypoint extraction process at the base of the image matching pipeline has not seen equivalent progresses. This paper presents Harrisz$^{+}$, an upgrade to the HarrisZ corner detector, optimized to synergically take advance of the recent improvements of the other steps of the image matching pipeline. Harrisz$^{+}$ does not only consists of a tuning of the setup parameters, but introduces further refinements to the selection criteria delineated by HarrisZ, so providing more, yet discriminative, keypoints, which are better distributed on the image and with higher localization accuracy. The image matching pipeline including Harrisz$^{+}$, together with the other modern components, obtained in different recent matching benchmarks state-of-the-art results among the classic image matching pipelines, closely following results of the more recent fully deep end-to-end trainable approaches.
翻訳日:2021-09-29 02:06:07 公開日:2021-09-27
# (参考訳) ml4ml: 機械学習モデルの自動不分散テスト [全文訳有]

ML4ML: Automated Invariance Testing for Machine Learning Models ( http://arxiv.org/abs/2109.12926v1 )

ライセンス: CC BY 4.0
Zukang Liao, Pengfei Zhang and Min Chen(参考訳) 機械学習ワークフローでは、モデルの不変性を決定することが一般的なテスト手順である。 本稿では,多種多様な不変性に適用可能な自動テストフレームワークを提案する。 非分散テストと医用画像解析の類似性を示し,分散行列を ``imagery'' テストデータとして使用することを提案する。 これにより、このような‘イメージ’テストデータを自動的に分析する機械学習技術が活用できるため、ml4ml(machine learning for machine learning)が容易になります。 ニューラルネットワークの集合の回転、明るさ、大きさのばらつきを決定するML4MLモデル(アセンサ)を開発することにより、提案フレームワークの有効性と実現可能性を示す。 実験の結果,訓練されたML4ML評価器は,十分な精度で解析タスクを実行できることがわかった。

In machine learning workflows, determining invariance qualities of a model is a common testing procedure. In this paper, we propose an automatic testing framework that is applicable to a variety of invariance qualities. We draw an analogy between invariance testing and medical image analysis and propose to use variance matrices as ``imagery'' testing data. This enables us to employ machine learning techniques for analysing such ``imagery'' testing data automatically, hence facilitating ML4ML (machine learning for machine learning). We demonstrate the effectiveness and feasibility of the proposed framework by developing ML4ML models (assessors) for determining rotation-, brightness-, and size-variances of a collection of neural networks. Our testing results show that the trained ML4ML assessors can perform such analytical tasks with sufficient accuracy.
翻訳日:2021-09-29 01:50:21 公開日:2021-09-27
# (参考訳) ファウショット学習のためのスパース空間変換器 [全文訳有]

Sparse Spatial Transformers for Few-Shot Learning ( http://arxiv.org/abs/2109.12932v1 )

ライセンス: CC BY 4.0
Haoxing Chen and Huaxiong Li and Yaohui Li and Chunlin Chen(参考訳) 限られたデータから学ぶことは、データの不足がトレーニングされたモデルの一般化を損なうため、難しい課題である。 古典的なグローバルプール表現は、有用なローカル情報を失う可能性が高い。 近年,深層記述子を用いてピクセルレベルのメトリクスを学習することで,この課題に対処するショットラーニング手法は少ない。 しかし、機能表現としてDeep Descriptorを使用すると、画像のコンテキスト情報が失われる可能性がある。 これらのメソッドのほとんどは、個別に設定されたサポートセットの各クラスを扱うため、識別情報やタスク固有の埋め込みを十分に活用することはできない。 本稿では,Sparse Spatial Transformers (SSFormers) と呼ばれる,トランスフォーマーをベースとした新しいニューラルネットワークアーキテクチャを提案する。 具体的には,まず各入力画像を異なるサイズの複数の画像パッチに分割し,局所的特徴の密集化を図る。 これらの特徴は、ローカル情報を表現しながらコンテキスト情報を保持する。 そこで,タスク関連画像パッチを選択し,タスク関連画像パッチを抑えるために,クエリ画像とサポートセット全体の空間対応を見つけるために,スパース空間トランスフォーマー層を提案する。 最後に,問合せ画像がどのカテゴリに属するかを決定するために,濃密な局所表現間の距離を計算するイメージパッチマッチングモジュールを提案する。 一般的な数ショット学習ベンチマークの大規模な実験により,本手法が最先端の性能を達成することを示す。 私たちのコードは \url{https://github.com/c henhaoxing/SSFormers } で利用可能です。

Learning from limited data is a challenging task since the scarcity of data leads to a poor generalization of the trained model. The classical global pooled representation is likely to lose useful local information. Recently, many few shot learning methods address this challenge by using deep descriptors and learning a pixel-level metric. However, using deep descriptors as feature representations may lose the contextual information of the image. And most of these methods deal with each class in the support set independently, which cannot sufficiently utilize discriminative information and task-specific embeddings. In this paper, we propose a novel Transformer based neural network architecture called Sparse Spatial Transformers (SSFormers), which can find task-relevant features and suppress task-irrelevant features. Specifically, we first divide each input image into several image patches of different sizes to obtain dense local features. These features retain contextual information while expressing local information. Then, a sparse spatial transformer layer is proposed to find spatial correspondence between the query image and the entire support set to select task-relevant image patches and suppress task-irrelevant image patches. Finally, we propose an image patch matching module to calculate the distance between dense local representations to determine which category the query image belongs to in the support set. Extensive experiments on popular few-shot learning benchmarks show that our method achieves the state-of-the-art performance. Our code is available at \url{https://github.com/c henhaoxing/SSFormers }.
翻訳日:2021-09-29 01:26:28 公開日:2021-09-27
# (参考訳) 説明としての時系列モデル帰属可視化 [全文訳有]

Time Series Model Attribution Visualizations as Explanations ( http://arxiv.org/abs/2109.12935v1 )

ライセンス: CC BY 4.0
Udo Schlegel, Daniel A. Keim(参考訳) 属性は単一サンプル上での深層学習モデルの局所的説明手法であり、抽出が容易であり、入力値の関連性を示す。 多くの場合、ヒートマップは、例えば画像上のサンプルに対するそのような属性を視覚化する。 しかし、ヒートマップは他のデータ型に対する特定のモデル決定を説明するのに理想的な可視化であるとは限らない。 本稿では,時系列の属性可視化に焦点をあてる。 我々は帰属ヒートマップの可視化と代替手法を収集し,その利点と欠点を議論し,帰属と時系列説明の機会の短い位置を与える。

Attributions are a common local explanation technique for deep learning models on single samples as they are easily extractable and demonstrate the relevance of input values. In many cases, heatmaps visualize such attributions for samples, for instance, on images. However, heatmaps are not always the ideal visualization to explain certain model decisions for other data types. In this review, we focus on attribution visualizations for time series. We collect attribution heatmap visualizations and some alternatives, discuss the advantages as well as disadvantages and give a short position towards future opportunities for attributions and explanations for time series.
翻訳日:2021-09-29 01:14:56 公開日:2021-09-27
# (参考訳) GANデータ拡張による心筋MRスカーの最適化 [全文訳有]

Optimized Automated Cardiac MR Scar Quantification with GAN-Based Data Augmentation ( http://arxiv.org/abs/2109.12940v1 )

ライセンス: CC BY 4.0
Didier R.P.R.M. Lustermans, Sina Amirrajab, Mitko Veta, Marcel Breeuwer, Cian M. Scannell(参考訳) 背景:LGE心筋MRIの臨床的有用性は,標準化の欠如と時間を要する後処理によって制限される。 そこで本研究では,合成したデータによって強化された学習パイプラインをカスケードすることで,モデル精度とロバスト性が向上し,スカー定量化が自動化されるという仮説を検証した。 方法: 3つの連続するニューラルネットワークからなるカスケードパイプラインが提案され,左心室(LV)心筋周囲の関心領域を識別するバウンディングボックス回帰ネットワークから始まる。 さらに2つのnnu-netモデルを使用して心筋とスカーを分割する。 モデルはEMIDECチャレンジのデータに基づいてトレーニングされ、条件付きGANで生成された広範な合成データセットを補足した。 結果: カスケードパイプラインは, 心筋(平均Dice類似度係数 (DSC) (標準偏差 (SD)): 0.84 (0.09) vs 0.63 (0.20), p < 0.01) and scar (DSC: 0.72 (0.34) vs 0.46 (0.39), p < 0.01) をスライスレベルで直接区分けする単一nnU-Netより有意に優れていた。 トレーニング中のデータ増補としての合成データの包含により,スカーセグメンテーションdscは0.06 (p < 0.01) 向上した。 人工的に生成したデータで拡張したカスケードパイプラインのチャレンジテストセットの平均DSCは0.86 (0.03) と0.67 (0.29) であった。 結論: 合成データによる強化を訓練した逐次的深層学習に基づくパイプラインは, 手動操作と類似した心筋・扁平分割を生じさせ, 合成画像を用いずに直接セグメント化を克服する。

Background: The clinical utility of late gadolinium enhancement (LGE) cardiac MRI is limited by the lack of standardization, and time-consuming postprocessing. In this work, we tested the hypothesis that a cascaded deep learning pipeline trained with augmentation by synthetically generated data would improve model accuracy and robustness for automated scar quantification. Methods: A cascaded pipeline consisting of three consecutive neural networks is proposed, starting with a bounding box regression network to identify a region of interest around the left ventricular (LV) myocardium. Two further nnU-Net models are then used to segment the myocardium and, if present, scar. The models were trained on the data from the EMIDEC challenge, supplemented with an extensive synthetic dataset generated with a conditional GAN. Results: The cascaded pipeline significantly outperformed a single nnU-Net directly segmenting both the myocardium (mean Dice similarity coefficient (DSC) (standard deviation (SD)): 0.84 (0.09) vs 0.63 (0.20), p < 0.01) and scar (DSC: 0.72 (0.34) vs 0.46 (0.39), p < 0.01) on a per-slice level. The inclusion of the synthetic data as data augmentation during training improved the scar segmentation DSC by 0.06 (p < 0.01). The mean DSC per-subject on the challenge test set, for the cascaded pipeline augmented by synthetic generated data, was 0.86 (0.03) and 0.67 (0.29) for myocardium and scar, respectively. Conclusion: A cascaded deep learning-based pipeline trained with augmentation by synthetically generated data leads to myocardium and scar segmentations that are similar to the manual operator, and outperforms direct segmentation without the synthetic images.
翻訳日:2021-09-29 01:03:41 公開日:2021-09-27
# (参考訳) pictalky: 言語発達障害のための拡張的および代替的なコミュニケーションソフトウェア [全文訳有]

PicTalky: Augmentative and Alternative Communication Software for Language Developmental Disabilities ( http://arxiv.org/abs/2109.12941v1 )

ライセンス: CC BY 4.0
Chanjun Park, Yoonna Jang, Seolhwa Lee, Jaehyung Seo, Kisu Yang, Heuiseok Lim(参考訳) AAC(Augmentative and Alternative Communication)は、言語障害のある人々のための実践的なコミュニケーション手段である。 本研究では,言語発達障害児のコミュニケーション能力と言語理解能力の向上を支援するAIベースのAACシステムであるPicTalkyを提案する。 PicTalkyは、一連のニューラルネットワークNLPモジュールを接続することで、テキストとピクトグラムの両方をより正確に処理することができる。 さらに,PicTalkyの本質的特徴を定量的に定性的に分析する。 言語障害に苦しむ人たちは、このサービスを使うことで、自分の意図や願望をより簡単に表現し、生活の質を向上させることが期待されている。 我々は、Webインターフェースのデモとともに、モデルを自由に利用可能にしました。 さらに, NAOロボットにPicTalkyを適用することにより, ロボットAACを初めて実装した。

Augmentative and alternative communication (AAC) is a practical means of communication for people with language disabilities. In this study, we propose PicTalky, which is an AI-based AAC system that helps children with language developmental disabilities to improve their communication skills and language comprehension abilities. PicTalky can process both text and pictograms more accurately by connecting a series of neural-based NLP modules. Moreover, we perform quantitative and qualitative analyses on the essential features of PicTalky. It is expected that those suffering from language problems will be able to express their intentions or desires more easily and improve their quality of life by using this service. We have made the models freely available alongside a demonstration of the Web interface. Furthermore, we implemented robotics AAC for the first time by applying PicTalky to the NAO robot.
翻訳日:2021-09-29 00:44:34 公開日:2021-09-27
# (参考訳) 効率的な変圧器量子化の課題と克服 [全文訳有]

Understanding and Overcoming the Challenges of Efficient Transformer Quantization ( http://arxiv.org/abs/2109.12948v1 )

ライセンス: CC BY 4.0
Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort(参考訳) トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。 しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。 本研究では,変圧器の量子化について検討する。 変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。 これらのアクティベーションは、特別なセパレータトークンへの出席など、特定の注意パターンを促進する残りのコネクションの構造化された外れ値を含むことが判明する。 これらの課題に対処するために、トレーニング後の量子化と量子化対応トレーニングに基づく3つのソリューションを提案し、それぞれが精度、モデルサイズ、使いやすさの異なる妥協点を持つ。 特に,新しい量子化スキーム -- 組込み単位の量子化について紹介する。 bert を用いたglue ベンチマークにおいて,提案手法の有効性を実証し,トレーニング後の量子化に関する最新結果を確立した。 最後に、トランスフォーマーの重みと埋め込みを超低ビット幅に量子化でき、最小精度の損失を伴ってメモリを大幅に節約できることを示す。 ソースコードは~\url{https://github.com/q ualcomm-ai-research/ transformer-quantiza tion}で利用可能です。

Transformer-based architectures have become the de-facto standard models for a wide range of Natural Language Processing tasks. However, their memory footprint and high latency are prohibitive for efficient deployment and inference on resource-limited devices. In this work, we explore quantization for transformers. We show that transformers have unique quantization challenges -- namely, high dynamic activation ranges that are difficult to represent with a low bit fixed-point format. We establish that these activations contain structured outliers in the residual connections that encourage specific attention patterns, such as attending to the special separator token. To combat these challenges, we present three solutions based on post-training quantization and quantization-aware training, each with a different set of compromises for accuracy, model size, and ease of use. In particular, we introduce a novel quantization scheme -- per-embedding-group quantization. We demonstrate the effectiveness of our methods on the GLUE benchmark using BERT, establishing state-of-the-art results for post-training quantization. Finally, we show that transformer weights and embeddings can be quantized to ultra-low bit-widths, leading to significant memory savings with a minimum accuracy loss. Our source code is available at~\url{https://github.com/q ualcomm-ai-research/ transformer-quantiza tion}.
翻訳日:2021-09-29 00:34:22 公開日:2021-09-27
# (参考訳) 浅層reluネットワークを用いたリッジレス補間 : 1d$ is near neighbor curvature extrapolation によるリプシッツ関数の一般化 [全文訳有]

Ridgeless Interpolation with Shallow ReLU Networks in $1D$ is Nearest Neighbor Curvature Extrapolation and Provably Generalizes on Lipschitz Functions ( http://arxiv.org/abs/2109.12960v1 )

ライセンス: CC BY 4.0
Boris Hanin(参考訳) 我々は、与えられたデータセット$\mathcal D=\{(x_i,f(x_i))\}$を補間する1つの線形単位と入力/出力次元が等しい1つの層のReLUネットワーク$z(x;\theta)$の正確な幾何学的記述を証明し、これらの補間子のうち、ニューロンの重みの$\ell_2$-normを最小化する。 そのようなネットワークは直観的に、$\mathcal d$ 上の平均二乗誤差と無限小の重みの減衰ペナルティを最小化するものであると考えることができる。 したがって、これらをリッジレスReLU補間剤と呼ぶ。 x\in (x_i,x_{i+1}) 入力に対して$z(x;\theta)$ を外挿するために、リッジレス relu 補間体は、$x_i$ と $x_{i+1}$ がデータセット $\mathcal d$ から導出される曲率の離散的推定の符号を単に比較できる。 曲率を$x_i$と$x_{i+1}$で推定すると、$z(x;\theta)$は$(x_i,x_{i+1})$で線型でなければならない。 対照的に、x_i$ と $x_{i+1}$ の曲率推定値がともに正(負)であれば、$z(x;\theta)$ は $(x_i,x_{i+1})$ の凸(凸)である。 その結果、リッジレスrelu補間体は、普遍定数まで1d$リプシッツ関数を学習するための最善の一般化を達成した。

We prove a precise geometric description of all one layer ReLU networks $z(x;\theta)$ with a single linear unit and input/output dimensions equal to one that interpolate a given dataset $\mathcal D=\{(x_i,f(x_i))\}$ and, among all such interpolants, minimize the $\ell_2$-norm of the neuron weights. Such networks can intuitively be thought of as those that minimize the mean-squared error over $\mathcal D$ plus an infinitesimal weight decay penalty. We therefore refer to them as ridgeless ReLU interpolants. Our description proves that, to extrapolate values $z(x;\theta)$ for inputs $x\in (x_i,x_{i+1})$ lying between two consecutive datapoints, a ridgeless ReLU interpolant simply compares the signs of the discrete estimates for the curvature of $f$ at $x_i$ and $x_{i+1}$ derived from the dataset $\mathcal D$. If the curvature estimates at $x_i$ and $x_{i+1}$ have different signs, then $z(x;\theta)$ must be linear on $(x_i,x_{i+1})$. If in contrast the curvature estimates at $x_i$ and $x_{i+1}$ are both positive (resp. negative), then $z(x;\theta)$ is convex (resp. concave) on $(x_i,x_{i+1})$. Our results show that ridgeless ReLU interpolants achieve the best possible generalization for learning $1d$ Lipschitz functions, up to universal constants.
翻訳日:2021-09-28 23:46:42 公開日:2021-09-27
# (参考訳) 製造プラントにおける製品品質の整合性を実現するiiotマシンモデル [全文訳有]

An IIoT machine model for achieving consistency in product quality in manufacturing plants ( http://arxiv.org/abs/2109.12964v1 )

ライセンス: CC BY 4.0
Abhik Banerjee, Abdur Rahim Mohammad Forkan, Dimitrios Georgakopoulos, Josip Karabotic Milovac, Prem Prakash Jayaraman(参考訳) 製品品質の一貫性は製造において重要である。 しかし、ターゲットとする製品の品質を達成するには、通常、多数の製造特性のバランスをとる必要がある。 このような複雑さに対処するための既存の製造プラクティスは、主に人間の知識と経験に基づいている。 手動介入の普及は、データ駆動ソリューションの必要性を強調して、製造プラクティスの完成を困難にしている。 本稿では,製品品質の整合性を実現するために,植物機械の効率的なモニタリングと制御を可能にする産業用モノのインターネット(IIoT)マシンモデルを提案する。 我々は,製品品質予測を生産中に行うアルゴリズムと,機械制御のレコメンデーションを提案する。 次に,食品加工プラントから収集した実データを用いて,提案溶液を実験的に評価する。 提案手法は,高い精度で製品品質を予測できるため,効率的な生産監視と制御が可能となる。

Consistency in product quality is of critical importance in manufacturing. However, achieving a target product quality typically involves balancing a large number of manufacturing attributes. Existing manufacturing practices for dealing with such complexity are driven largely based on human knowledge and experience. The prevalence of manual intervention makes it difficult to perfect manufacturing practices, underscoring the need for a data-driven solution. In this paper, we present an Industrial Internet of Things (IIoT) machine model which enables effective monitoring and control of plant machinery so as to achieve consistency in product quality. We present algorithms that can provide product quality prediction during production, and provide recommendations for machine control. Subsequently, we perform an experimental evaluation of the proposed solution using real data captured from a food processing plant. We show that the proposed algorithms can be used to predict product quality with a high degree of accuracy, thereby enabling effective production monitoring and control.
翻訳日:2021-09-28 23:20:31 公開日:2021-09-27
# (参考訳) CT-ICP:ループクロージャを用いたリアルタイム弾性LiDARオドメトリー [全文訳有]

CT-ICP: Real-time Elastic LiDAR Odometry with Loop Closure ( http://arxiv.org/abs/2109.12979v1 )

ライセンス: CC BY 4.0
Pierre Dellenbach, Jean-Emmanuel Deschaud, Bastien Jacquet, Fran\c{c}ois Goulette(参考訳) マルチビームlidarセンサーはロボティクス、特に自動運転車のローカライゼーションや認識タスクにますます使われている。 しかし、認識は、その環境の詳細な地図を作成するロボットの能力と、局所化タスクと密接に関連している。 そこで本研究では,CT-ICPと呼ばれる新しいリアルタイムLiDARオドメトリー法と,ループ閉鎖を伴うSLAMを提案する。 CT-ICPの原理は、軌跡の弾性的な定式化を用いて、走査内ポーズとスキャン間の不連続性を連続させ、センサーの動きにおいて高い周波数に対してより堅牢にすることである。 登録はsparse voxelsで構造化された密度の高いポイントクラウドを持つscan-to-mapに基づいている。 同時に、高度画像を用いた高速なループクロージャ検出法とグラフによるポーズの最適化により、LiDAR上で完全なSLAMが得られる。 本手法のロバスト性を示すため,KITTI,KITTI-raw,KIT TI-360,KITTI-CARLA,P arisLuco,Newer College,NCLTの7つのデータセットを用いて運転・高周波動作シナリオについて検討を行った。 CT-ICP odometryはC++で実装されており、オンラインで入手できる。 ループ検出とポーズグラフの最適化はPythonのpyLiDAR-SLAMフレームワークにあり、オンラインでも利用できる。 CT-ICPは現在、KITTIオドメトリのリーダーボードで公開コードへのアクセスを許可している中で、平均相対変換エラー(RTE)は0.59%、CPU上でのスキャン毎の平均時間は60ミリ秒である。

Multi-beam LiDAR sensors are increasingly used in robotics, particularly for autonomous cars for localization and perception tasks. However, perception is closely linked to the localization task and the robot's ability to build a fine map of its environment. For this, we propose a new real-time LiDAR odometry method called CT-ICP, as well as a complete SLAM with loop closure. The principle of CT-ICP is to use an elastic formulation of the trajectory, with a continuity of poses intra-scan and discontinuity between scans, to be more robust to high frequencies in the movements of the sensor. The registration is based on scan-to-map with a dense point cloud as map structured in sparse voxels to operate in real time. At the same time, a fast method of loop closure detection using elevation images and an optimization of poses by graph allows to obtain a complete SLAM purely on LiDAR. To show the robustness of the method, we tested it on seven datasets: KITTI, KITTI-raw, KITTI-360, KITTI-CARLA, ParisLuco, Newer College, and NCLT in driving and high-frequency motion scenarios. The CT-ICP odometry is implemented in C++ and available online. The loop detection and pose graph optimization is in the framework pyLiDAR-SLAM in Python and also available online. CT-ICP is currently first, among those giving access to a public code, on the KITTI odometry leaderboard, with an average Relative Translation Error (RTE) of 0.59% and an average time per scan of 60ms on a CPU with a single thread.
翻訳日:2021-09-28 23:07:13 公開日:2021-09-27
# (参考訳) 半スーパーバイバル判別ドメイン適応法 [全文訳有]

Semi-Supervised Adversarial Discriminative Domain Adaptation ( http://arxiv.org/abs/2109.13016v1 )

ライセンス: CC BY-SA 4.0
Thai-Vu Nguyen, Anh Nguyen, Bac Le(参考訳) ドメイン適応は、ラベル付きデータの欠如を処理できる強力なディープニューラルネットワークをトレーニングする潜在的な方法である。 より正確には、トレーニングデータセットとテストデータセットが極めて異なる場合、データセットバイアスまたはドメインシフトと呼ばれる制限を解決するドメイン適応。 逆適応法は、他の領域適応法に人気がある。 GANの考え方に基づいて、敵対的ドメイン適応は、敵的オブジェクトに基づくトレーニングとテストデータセット間の分散を最小化しようとする。 しかし、従来の敵対的ドメイン適応法は、2つのデータセット間の大きなドメインシフトを処理できないか、あるいはそれらの方法の一般化能力が非効率である。 本稿では、他の領域適応の制限を克服できる半スーパーバイバル識別ドメイン適応(SADDA)と呼ばれる改良された対向ドメイン適応法を提案する。 また、サッダは他の逆適応法よりも優れた性能を示し、指の分類や感情認識問題に対する本手法の期待を示す。

Domain adaptation is a potential method to train a powerful deep neural network, which can handle the absence of labeled data. More precisely, domain adaptation solving the limitation called dataset bias or domain shift when the training dataset and testing dataset are extremely different. Adversarial adaptation method becoming popular among other domain adaptation methods. Relies on the idea of GAN, adversarial domain adaptation tries to minimize the distribution between training and testing datasets base on the adversarial object. However, some conventional adversarial domain adaptation methods cannot handle large domain shifts between two datasets or the generalization ability of these methods are inefficient. In this paper, we propose an improved adversarial domain adaptation method called Semi-Supervised Adversarial Discriminative Domain Adaptation (SADDA), which can overcome the limitation of other domain adaptation. We also show that SADDA has better performance than other adversarial adaptation methods and illustrate the promise of our method on digit classification and emotion recognition problems.
翻訳日:2021-09-28 22:49:05 公開日:2021-09-27
# (参考訳) 交通予知における注意ゲート [全文訳有]

Attention Gate in Traffic Forecasting ( http://arxiv.org/abs/2109.13021v1 )

ライセンス: CC BY 4.0
Anh Lam, Anh Nguyen, and Bac Le(参考訳) 都市の複雑さの増大と人口の増加により、都市全体の移動行動を予測することがますます困難になっている。 Traffic Map Movie Forecasting Challenge 2020は、NeurIPSの第34回神経情報処理システム会議(NeurIPS)のコンペティショントラックで開催される。 traffic4cast 2019と同様に、このタスクは、ベルリン、イスタンブール、モスクワの3つの大都市の地理的地域において、交通量、主要方向の平均速度を予測することである。 本稿では,u-netモデルに対する注意機構を応用し,特に収縮経路と拡張経路の相互接続に注意ゲートを付加する。 拡張経路上の特徴と組み合わせる前に,アテンションゲートフィルタの特徴を付加することにより,非交通領域の特徴の影響を低減し,重要な領域の特徴に集中することができる。 競合データに加えて、時間と平日である交通の流れによく影響を与える2つの追加機能も提案する。 コンペティションデータセット上でモデルを実験し,同じ環境で勝者ソリューションを再現する。 全体として、私たちのモデルは最近のメソッドよりも優れたパフォーマンスをアーカイブします。

Because of increased urban complexity and growing populations, more and more challenges about predicting city-wide mobility behavior are being organized. Traffic Map Movie Forecasting Challenge 2020 is secondly held in the competition track of the Thirty-fourth Conference on Neural Information Processing Systems (NeurIPS). Similar to Traffic4Cast 2019, the task is to predict traffic flow volume, average speed in major directions on the geographical area of three big cities: Berlin, Istanbul, and Moscow. In this paper, we apply the attention mechanism on U-Net based model, especially we add an attention gate on the skip-connection between contraction path and expansion path. An attention gates filter features from the contraction path before combining with features on the expansion path, it enables our model to reduce the effect of non-traffic region features and focus more on crucial region features. In addition to the competition data, we also propose two extra features which often affect traffic flow, that are time and weekdays. We experiment with our model on the competition dataset and reproduce the winner solution in the same environment. Overall, our model archives better performance than recent methods.
翻訳日:2021-09-28 22:37:13 公開日:2021-09-27
# (参考訳) 航空画像における少数撮影物体検出のための表現学習を用いた経験フィードバック [全文訳有]

Experience feedback using Representation Learning for Few-Shot Object Detection on Aerial Images ( http://arxiv.org/abs/2109.13027v1 )

ライセンス: CC BY 4.0
Pierre Le Jeune, Mustapha Lebbah, Anissa Mokraoui, Hanene Azzag(参考訳) 本稿では,高速なR-CNNと空中画像における物体検出のための表現学習に基づく数ショット手法を提案する。 Faster R-CNNの2つの分類分野は、新しいクラスへのオンライン適応のために、プロトタイプネットワークに置き換えられる。 これらのネットワークは生成されたボックスごとに埋め込みベクトルを生成し、クラスプロトタイプと比較する。 埋め込みとプロトタイプの間の距離は、対応する分類スコアを決定する。 得られたネットワークは、エピソディックな方法で訓練される。 新しい検出タスクは各エポックでランダムにサンプリングされ、データセットに注釈付けされたクラスのサブセットのみを検出する。 このトレーニング戦略は、テスト時に、ネットワークが新しいクラスに適応するように促します。 さらに,提案手法を改善するために,難解なサンプルマイニング戦略やバックグラウンドオブジェクトの自己教師付きクラスタリングなど,いくつかのアイデアが検討されている。 提案手法の性能は,大規模リモートセンシング画像データセットであるdotaを用いて評価する。 実験は、表現学習の能力に関するより広範な理解を提供する。 特に、数発のオブジェクト検出タスクの固有の弱点を強調します。 最後に、これらの洞察に基づいていくつかの提案と視点が定式化される。

This paper proposes a few-shot method based on Faster R-CNN and representation learning for object detection in aerial images. The two classification branches of Faster R-CNN are replaced by prototypical networks for online adaptation to new classes. These networks produce embeddings vectors for each generated box, which are then compared with class prototypes. The distance between an embedding and a prototype determines the corresponding classification score. The resulting networks are trained in an episodic manner. A new detection task is randomly sampled at each epoch, consisting in detecting only a subset of the classes annotated in the dataset. This training strategy encourages the network to adapt to new classes as it would at test time. In addition, several ideas are explored to improve the proposed method such as a hard negative examples mining strategy and self-supervised clustering for background objects. The performance of our method is assessed on DOTA, a large-scale remote sensing images dataset. The experiments conducted provide a broader understanding of the capabilities of representation learning. It highlights in particular some intrinsic weaknesses for the few-shot object detection task. Finally, some suggestions and perspectives are formulated according to these insights.
翻訳日:2021-09-28 22:30:16 公開日:2021-09-27
# (参考訳) ソーシャルメディアにおけるコーディネートコミュニティによるプロパガンダの普及 [全文訳有]

The Spread of Propaganda by Coordinated Communities on Social Media ( http://arxiv.org/abs/2109.13046v1 )

ライセンス: CC BY 4.0
Kristina Hristakieva, Stefano Cresci, Giovanni Da San Martino, Mauro Conti, Preslav Nakov(参考訳) ソーシャルメディアにおける大規模操作には2つの重要な特徴がある。 (i)他者に影響を与えるために \textit{propaganda}の使用 (二)それを広め、その影響を増幅するための協調行動の導入。 両者のつながりにもかかわらず、これら2つの特徴は独立して考えられている。 ここではこのギャップを埋めることを目指しています。 特に、2019年イギリス総選挙に関する大規模なTwitterデータセット上で、プロパガンダの拡散とその協調行動との相互作用を分析する。 まず,twitter上でプロパガンダを計測するためのいくつかの指標を提案し,評価する。 次に,オンライン討論に参加した異なるコミュニティによるプロパガンダの利用について検討する。 プロパガンダの利用と協調行動を組み合わせることで、異なるコミュニティの真正性と有害性を明らかにすることができる。 最後に、プロパガンダと自動化(ボット)のスコアとTwitterのサスペンションとを比較し、興味深いトレンドを明らかにします。 理論的観点からは,オンライン行動のいくつかの重要な側面を解析するための方法論を導入する。 実践的な観点から、2019年イギリス総選挙における真正かつ正当なオンライン活動に関する新たな洞察を提供する。

Large-scale manipulations on social media have two important characteristics: (i) use of \textit{propaganda} to influence others, and (ii) adoption of coordinated behavior to spread it and to amplify its impact. Despite the connection between them, these two characteristics have so far been considered in isolation. Here we aim to bridge this gap. In particular, we analyze the spread of propaganda and its interplay with coordinated behavior on a large Twitter dataset about the 2019 UK general election. We first propose and evaluate several metrics for measuring the use of propaganda on Twitter. Then, we investigate the use of propaganda by different coordinated communities that participated in the online debate. The combination of the use of propaganda and coordinated behavior allows us to uncover the authenticity and harmfulness of the different communities. Finally, we compare our measures of propaganda and coordination with automation (i.e., bot) scores and Twitter suspensions, revealing interesting trends. From a theoretical viewpoint, we introduce a methodology for analyzing several important dimensions of online behavior that are seldom conjointly considered. From a practical viewpoint, we provide new insights into authentic and inauthentic online activities during the 2019 UK general election.
翻訳日:2021-09-28 22:17:50 公開日:2021-09-27
# (参考訳) 運動スキルの行動木におけるパラメータの学習 [全文訳有]

Learning of Parameters in Behavior Trees for Movement Skills ( http://arxiv.org/abs/2109.13050v1 )

ライセンス: CC BY 4.0
Matthias Mayr, Konstantinos Chatzilygeroudis, Faseeh Ahmad, Luigi Nardi and Volker Krueger(参考訳) 強化学習(rl)は、ロボットが試行錯誤によって複雑なスキルを学習できる強力な数学的フレームワークである。 多くのアプリケーションで成功しているにもかかわらず、RLアルゴリズムはハイパフォーマンスなポリシーに収束するために数千の試行が必要であり、学習中に危険な振る舞いを生じさせ、最適化されたポリシー(通常はニューラルネットワークとしてモデル化される)は、タスクの実行に失敗したときにほぼゼロの説明を与える。 これらの理由から、工業環境におけるRLの採用は一般的ではない。 一方、行動木(BT)は、ポリシー表現を提供することができる。 a) モジュラーで構成可能なスキルをサポートする ロ ロボットの動作を簡単に解釈することができること、及び c) 有利な低次元パラメータ空間を提供する。 本稿では,シミュレーションにおいてbtポリシーのパラメータを学習し,追加のトレーニングをすることなく物理ロボットに一般化できる新しいアルゴリズムを提案する。 我々は,ワークステーションのデジタルツインを用いた物理シミュレータを活用し,ブラックボックスオプティマイザを用いて関連するパラメータを最適化する。 障害物回避と接触量の多い挿入(ペグ・イン・ホール)を含むタスクにおいて,本手法の有効性を7-DOFのKUKA-Iiwaマニピュレータで示す。

Reinforcement Learning (RL) is a powerful mathematical framework that allows robots to learn complex skills by trial-and-error. Despite numerous successes in many applications, RL algorithms still require thousands of trials to converge to high-performing policies, can produce dangerous behaviors while learning, and the optimized policies (usually modeled as neural networks) give almost zero explanation when they fail to perform the task. For these reasons, the adoption of RL in industrial settings is not common. Behavior Trees (BTs), on the other hand, can provide a policy representation that a) supports modular and composable skills, b) allows for easy interpretation of the robot actions, and c) provides an advantageous low-dimensional parameter space. In this paper, we present a novel algorithm that can learn the parameters of a BT policy in simulation and then generalize to the physical robot without any additional training. We leverage a physical simulator with a digital twin of our workstation, and optimize the relevant parameters with a black-box optimizer. We showcase the efficacy of our method with a 7-DOF KUKA-iiwa manipulator in a task that includes obstacle avoidance and a contact-rich insertion (peg-in-hole), in which our method outperforms the baselines.
翻訳日:2021-09-28 21:59:34 公開日:2021-09-27
# (参考訳) ログコンケーブサンプリングのためのメトロポリス調整ランジュバンアルゴリズムのミニマックス混合時間

Minimax Mixing Time of the Metropolis-Adjusted Langevin Algorithm for Log-Concave Sampling ( http://arxiv.org/abs/2109.13055v1 )

ライセンス: CC BY 4.0
Keru Wu, Scott Schmidler, Yuansi Chen(参考訳) 対数平滑かつ強い対数凹分布からサンプリングするために,メトロポリス調整ランゲヴィンアルゴリズム(MALA)の混合時間について検討した。 温暖化開始時に最適なミニマックス混合時間を確立する。 私たちの主な貢献は2つです。 まず、条件数$\kappa$を持つ$d$次元の対数凹密度に対して、暖かい開始値を持つMALAが、対数因子まで反復して$\tilde O(\kappa \sqrt{d})$となることを示す。 これにより、条件番号 $\kappa$ または dimension $d$ の依存関係に関する以前の作業が改善される。 我々の証明は、跳躍積分器と連続ハミルトニアン力学を比較することに依存し、そこでは受容率に束縛された新しい濃度を確立する。 第二に、一般状態空間上の可逆mcmcアルゴリズムに対するスペクトルギャップに基づく混合時間下界の証明を行う。 この下界の結果を適用して、MALAが混合するために少なくとも$\tilde \Omega (\kappa \sqrt{d})$ step を必要とするようなハード分布を構築する。 MALAの下位境界は条件数と次元の点で上界と一致する。 最後に,理論結果を検証するために数値実験を行う。

We study the mixing time of the Metropolis-adjusted Langevin algorithm (MALA) for sampling from a log-smooth and strongly log-concave distribution. We establish its optimal minimax mixing time under a warm start. Our main contribution is two-fold. First, for a $d$-dimensional log-concave density with condition number $\kappa$, we show that MALA with a warm start mixes in $\tilde O(\kappa \sqrt{d})$ iterations up to logarithmic factors. This improves upon the previous work on the dependency of either the condition number $\kappa$ or the dimension $d$. Our proof relies on comparing the leapfrog integrator with the continuous Hamiltonian dynamics, where we establish a new concentration bound for the acceptance rate. Second, we prove a spectral gap based mixing time lower bound for reversible MCMC algorithms on general state spaces. We apply this lower bound result to construct a hard distribution for which MALA requires at least $\tilde \Omega (\kappa \sqrt{d})$ steps to mix. The lower bound for MALA matches our upper bound in terms of condition number and dimension. Finally, numerical experiments are included to validate our theoretical results.
翻訳日:2021-09-28 21:44:40 公開日:2021-09-27
# (参考訳) トランスエンコーダ:自己および相互蒸留による教師なし文対モデリング [全文訳有]

Trans-Encoder: Unsupervised sentence-pair modelling through self- and mutual-distillations ( http://arxiv.org/abs/2109.13059v1 )

ライセンス: CC BY 4.0
Fangyu Liu, Serhii Havrylov, Yunlong Jiao, Jordan Massiah, Emine Yilmaz(参考訳) NLPでは、大量のタスクが2つのシーケンス(例えば、文の類似性とパラフレーズの識別)をペアで比較する。 主に、バイエンコーダとクロスエンコーダという2つの文ペアタスクで使われる。 バイエンコーダは固定次元の文表現を生成し、計算効率が良いが、通常はクロスエンコーダは性能が劣る。 クロスエンコーダはアテンションヘッドを利用して、より優れたパフォーマンスのために文間相互作用を利用することができるが、タスクの微調整が必要であり、計算コストも高い。 本稿では,この2つの学習パラダイムを反復的なジョイントフレームワークに組み合わせることによって,拡張されたbiおよびクロスエンコーダを同時に学習する,トランスエンコーダと呼ばれる教師なし文表現モデルを提案する。 具体的には、事前訓練された言語モデル(PLM)の上に、教師なしのバイエンコーダに変換し、次にバイアン/クロスエンコーダタスクの定式化を交互に行う。 各交替において、1つのタスク定式化は、他のタスク定式化の学習信号として使用される擬似ラベルを生成する。 次に,複数のPLMに対して並列に自己蒸留を行うための拡張法を提案し,その擬似ラベルの平均値を用いて相互蒸留を行う。 Trans-Encoderは、私たちの知る限りでは、最初の完全に教師なしのクロスエンコーダと、文類似性のための最先端の教師なしバイエンコーダを生成する。 トランスエンコーダのバイエンコーダとクロスエンコーダの定式化は、最近Mirror-BERTやSimCSEのような最先端の教師なしの文エンコーダを、文類似性ベンチマークで最大5%向上させた。

In NLP, a large volume of tasks involve pairwise comparison between two sequences (e.g. sentence similarity and paraphrase identification). Predominantly, two formulations are used for sentence-pair tasks: bi-encoders and cross-encoders. Bi-encoders produce fixed-dimensional sentence representations and are computationally efficient, however, they usually underperform cross-encoders. Cross-encoders can leverage their attention heads to exploit inter-sentence interactions for better performance but they require task fine-tuning and are computationally more expensive. In this paper, we present a completely unsupervised sentence representation model termed as Trans-Encoder that combines the two learning paradigms into an iterative joint framework to simultaneously learn enhanced bi- and cross-encoders. Specifically, on top of a pre-trained Language Model (PLM), we start with converting it to an unsupervised bi-encoder, and then alternate between the bi- and cross-encoder task formulations. In each alternation, one task formulation will produce pseudo-labels which are used as learning signals for the other task formulation. We then propose an extension to conduct such self-distillation approach on multiple PLMs in parallel and use the average of their pseudo-labels for mutual-distillation. Trans-Encoder creates, to the best of our knowledge, the first completely unsupervised cross-encoder and also a state-of-the-art unsupervised bi-encoder for sentence similarity. Both the bi-encoder and cross-encoder formulations of Trans-Encoder outperform recently proposed state-of-the-art unsupervised sentence encoders such as Mirror-BERT and SimCSE by up to 5% on the sentence similarity benchmarks.
翻訳日:2021-09-28 21:42:57 公開日:2021-09-27
# (参考訳) 議論的文リンク性能を向上させるマルチタスクおよびマルチコーポラトレーニング戦略 [全文訳有]

Multi-Task and Multi-Corpora Training Strategies to Enhance Argumentative Sentence Linking Performance ( http://arxiv.org/abs/2109.13067v1 )

ライセンス: CC BY 4.0
Jan Wira Gotama Putra and Simone Teufel and Takenobu Tokunaga(参考訳) 議論的構造予測は、テキスト単位間のリンクを確立し、それらの関係をラベル付けし、与えられた入力テキストの構造化表現を形成することを目的としている。 前者のタスクであるlinkingは、リンクの組み合わせの可能な非常に大きな検索空間から最も適切な構造を見つける必要があるため、以前の作業によって特に難しいと特定された。 本稿では,マルチタスクとマルチコーポラのトレーニング戦略を用いて,最先端のリンクモデルを改善する。 我々の補助タスクは、モデルが議論構造において各文の役割を学ぶのに役立つ。 マルチコーポラトレーニングと選択的サンプリング戦略の組み合わせは、モデルが所望のターゲット分布を十分に学習しながらも、トレーニングデータサイズを増加させる。 英語学習者によるエッセイの実験では、どちらの戦略もモデルの性能を著しく向上させており、例えば、個々のリンク予測のためのF1マクロの15.8%の増加が観察されている。

Argumentative structure prediction aims to establish links between textual units and label the relationship between them, forming a structured representation for a given input text. The former task, linking, has been identified by earlier works as particularly challenging, as it requires finding the most appropriate structure out of a very large search space of possible link combinations. In this paper, we improve a state-of-the-art linking model by using multi-task and multi-corpora training strategies. Our auxiliary tasks help the model to learn the role of each sentence in the argumentative structure. Combining multi-corpora training with a selective sampling strategy increases the training data size while ensuring that the model still learns the desired target distribution well. Experiments on essays written by English-as-a-foreign -language learners show that both strategies significantly improve the model's performance; for instance, we observe a 15.8% increase in the F1-macro for individual link predictions.
翻訳日:2021-09-28 21:21:32 公開日:2021-09-27
# (参考訳) 拡張CodeBERTモデルとバイモーダル情報によるStack Overflow質問タイトル生成の改善 [全文訳有]

Improving Stack Overflow question title generation with copying enhanced CodeBERT model and bi-modal information ( http://arxiv.org/abs/2109.13073v1 )

ライセンス: CC BY 4.0
Fengji Zhang, Jacky Keung, Xiao Yu, Zhiwen Xie, Zhen Yang, Caoyuan Ma, Zhimin Zhang(参考訳) コンテキスト: Stack Overflowは、プログラミング問題に対する答を求めているソフトウェア開発者にとって非常に役立ちます。 従来の研究では、質問の増加は品質が低く、潜在的な回答者からの注意が少なくなることが示されている。 Gaoらは、コードスニペットから質問タイトルを自動的に生成し、質問品質を改善するLSTMベースのモデル(すなわちBiLSTM-CC)を提案した。 しかし、問題本体でコードスニペットを使用するだけではタイトル生成に十分な情報を提供できず、LSTMはトークン間の長距離依存関係をキャプチャできない。 目的: CCBERTは,質問本体全体のバイモーダル情報をフル活用することにより,質問タイトル生成の性能を高めるための,ディープラーニングベースの新規モデルである。 メソッド: ccbertはエンコーダ・デコーダのパラダイムに従い、codebertを使って質問体を隠れた表現にエンコードし、スタック化されたトランスデコーダで予測されたトークンを生成し、さらにコピー注意層を追加して出力分布を洗練する。 エンコーダとデコーダの両方がマルチヘッドセルフアテンション操作を実行し、長距離依存性をよりよく捉える。 stack overflowが公式に公開したデータから12万以上の高品質な質問をフィルタし,ccbertモデルの有効性を検証するデータセットを構築した。 結果: CCBERTはデータセットのパフォーマンスが向上し,特にBiLSTM-CCと多目的事前学習モデル(BART)を平均14%,4%で上回っている。 コードのみのデータセットと低リソースのデータセットの両方の実験では、パフォーマンス劣化の少ないCCBERTが40%と13.5%で、CCBERTはそれぞれ24%と5%である。

Context: Stack Overflow is very helpful for software developers who are seeking answers to programming problems. Previous studies have shown that a growing number of questions are of low-quality and thus obtain less attention from potential answerers. Gao et al. proposed a LSTM-based model (i.e., BiLSTM-CC) to automatically generate question titles from the code snippets to improve the question quality. However, only using the code snippets in question body cannot provide sufficient information for title generation, and LSTMs cannot capture the long-range dependencies between tokens. Objective: We propose CCBERT, a deep learning based novel model to enhance the performance of question title generation by making full use of the bi-modal information of the entire question body. Methods: CCBERT follows the encoder-decoder paradigm, and uses CodeBERT to encode the question body into hidden representations, a stacked Transformer decoder to generate predicted tokens, and an additional copy attention layer to refine the output distribution. Both the encoder and decoder perform the multi-head self-attention operation to better capture the long-range dependencies. We build a dataset containing more than 120,000 high-quality questions filtered from the data officially published by Stack Overflow to verify the effectiveness of the CCBERT model. Results: CCBERT achieves a better performance on the dataset, and especially outperforms BiLSTM-CC and a multi-purpose pre-trained model (BART) by 14% and 4% on average, respectively. Experiments on both code-only and low-resource datasets also show the superiority of CCBERT with less performance degradation, which are 40% and 13.5% for BiLSTM-CC, while 24% and 5% for CCBERT, respectively.
翻訳日:2021-09-28 21:06:06 公開日:2021-09-27
# (参考訳) マシンインテリジェンスによる輸送プロセスの学習

Learning Transport Processes with Machine Intelligence ( http://arxiv.org/abs/2109.13096v1 )

ライセンス: CC BY 4.0
Francesco Miniati, Gianluca Gregori(参考訳) 本稿では, 連続力学においてユビキタスな輸送過程の研究に対処するための機械学習手法を提案する。特に, 複雑なマイクロフィジカルに支配される現象, 理論的研究には非現実的だが, 閉じた数学的表現によって記述できる創発的挙動に注目する。 我々の機械学習モデルは、単純なコンポーネントを用いて構築され、いくつかのよく確立されたプラクティスに従うことで、データの特徴付けという名目上の誤りから予想されるよりも、輸送プロセスの潜在表現をかなり真実に近いものに学習することができる。 これは、核融合や宇宙プラズマに関連する条件下での熱流束抑制の長期的問題に関する理想化研究によって実証される。 単純な分析では、結果はこれらの特定の仮定を越えて適用され、特に、学習された表現の正確さは、データ品質(エラー特性)の知識とデータセットサイズの適切な選択によって制御可能であることを示している。 学習された表現は数値モデリングのプラグインとして使用できるが、上記の誤差解析を用いて、輸送機構を記述する信頼できる数学的表現を得ることができ、理論的な価値も高い。

We present a machine learning based approach to address the study of transport processes, ubiquitous in continuous mechanics, with particular attention to those phenomena ruled by complex micro-physics, impractical to theoretical investigation, yet exhibiting emergent behavior describable by a closed mathematical expression. Our machine learning model, built using simple components and following a few well established practices, is capable of learning latent representations of the transport process substantially closer to the ground truth than expected from the nominal error characterising the data, leading to sound generalisation properties. This is demonstrated through an idealized study of the long standing problem of heat flux suppression under conditions relevant for fusion and cosmic plasmas. A simple analysis shows that the result applies beyond those case specific assumptions and that, in particular, the accuracy of the learned representation is controllable through knowledge of the data quality (error properties) and a suitable choice of the dataset size. While the learned representation can be used as a plug-in for numerical modeling purposes, it can also be leveraged with the above error analysis to obtain reliable mathematical expressions describing the transport mechanism and of great theoretical value.
翻訳日:2021-09-28 20:42:55 公開日:2021-09-27
# (参考訳) 参照予測可能性は参照形式の選択に影響を与えるか? masked coreference resolution を用いた計算手法 [全文訳有]

Does referent predictability affect the choice of referential form? A computational approach using masked coreference resolution ( http://arxiv.org/abs/2109.13105v1 )

ライセンス: CC BY 4.0
Laura Aina, Xixian Liao, Gemma Boleda and Matthijs Westera(参考訳) 話者の意味のより予測可能な部分は、例えば、より短く、より情報的でない単語を使用して、より明確になる傾向があるとしばしば主張される。 これらのダイナミクスを参照表現の領域で研究することは困難であることが証明されており、既存の研究、精神言語学とコーパスに基づく研究は矛盾した結果をもたらしている。 話者が参照者についてより有益である場合、話者は情報的参照表現(例えば、代名詞対完全名詞句)をあまり生成しないという仮説を、参照者予測可能性の新しい計算的推定を用いて検証する。 提案手法は,新しいタスクにおいて既存の英語のコリファレンス解決システムを学習し,コリファレンス解決をマスキングし,文脈で条件づけされるが参照表現ではないレファレンスに対する確率分布を与える。 結果として得られたシステムは標準のコリファレンス解像度を保ちながら、以前の試みよりも人間由来のレファレント予測可能性のより良い推定を行う。 モデル出力と参照形式の関係に関する統計的分析は、予測可能性が参照の形式に影響を及ぼすという仮説を支持している。

It is often posited that more predictable parts of a speaker's meaning tend to be made less explicit, for instance using shorter, less informative words. Studying these dynamics in the domain of referring expressions has proven difficult, with existing studies, both psycholinguistic and corpus-based, providing contradictory results. We test the hypothesis that speakers produce less informative referring expressions (e.g., pronouns vs. full noun phrases) when the context is more informative about the referent, using novel computational estimates of referent predictability. We obtain these estimates training an existing coreference resolution system for English on a new task, masked coreference resolution, giving us a probability distribution over referents that is conditioned on the context but not the referring expression. The resulting system retains standard coreference resolution performance while yielding a better estimate of human-derived referent predictability than previous attempts. A statistical analysis of the relationship between model output and mention form supports the hypothesis that predictability affects the form of a mention, both its morphosyntactic type and its length.
翻訳日:2021-09-28 20:41:47 公開日:2021-09-27
# (参考訳) 根尖部X線画像からの歯周炎ステージグレーディングのための終端エンタングルドセグメンテーションと分類畳み込みニューラルネットワーク [全文訳有]

An End-to-end Entangled Segmentation and Classification Convolutional Neural Network for Periodontitis Stage Grading from Periapical Radiographic Images ( http://arxiv.org/abs/2109.13120v1 )

ライセンス: CC BY 4.0
Tanjida Kabir, Chun-Teh Lee, Jiman Nelson, Sally Sheng, Hsiu-Wan Meng, Luyao Chen, Muhammad F Walji, Xioaqian Jiang, and Shayan Shams(参考訳) 歯周炎は歯肉炎と歯周領域の骨喪失を特徴とするバイオフィルム関連慢性炎症性疾患である。 30歳以上の成人約6100万人(42.2%)が歯周炎を患っており、7.8%が重度の歯周炎を患っている。 放射線学的骨量(RBL)の測定は,特に包括的および縦断的な歯周マッピングが不可能な場合に,適切な歯周診断を行うために必要である。 しかし、医師は経験や知識によってX線を解釈することができる。 医師のコンピュータ診断支援は、高精度で一貫性のある診断を行うことに光を当て、歯周炎を予防または制御するための適切な治療計画を策定する。 我々は,根尖部X線画像から歯周炎を診断するためのセグメンテーションと分類タスクを統合することで,エンドツーエンドのディープラーニングネットワークHYNETS(Hybrid NETwork for pEriodoNTiTiS STagES from radiograpH)を開発した。 HYNETSは、セグメンテーションネットワークと分類ネットワークを組み合わせたマルチタスク学習戦略を利用して、エンドツーエンドの解釈可能なソリューションと高精度で一貫性のある結果を提供する。 HYNETS は骨面積と歯の分節の平均ディス係数 0.96 と 0.94 を達成し、歯周炎ステージ割り当ての平均 AUC 0.97 を達成した。 さらに、従来の画像処理技術はRBL測定を提供し、モデルの予測に対する透明性と信頼を構築する。 hynetsは臨床診断を手作業による時間を要する作業から、根尖部x線画像に基づく効率的かつ自動化された歯周炎ステージ割り当てへと変換する可能性がある。

Periodontitis is a biofilm-related chronic inflammatory disease characterized by gingivitis and bone loss in the teeth area. Approximately 61 million adults over 30 suffer from periodontitis (42.2%), with 7.8% having severe periodontitis in the United States. The measurement of radiographic bone loss (RBL) is necessary to make a correct periodontal diagnosis, especially if the comprehensive and longitudinal periodontal mapping is unavailable. However, doctors can interpret X-rays differently depending on their experience and knowledge. Computerized diagnosis support for doctors sheds light on making the diagnosis with high accuracy and consistency and drawing up an appropriate treatment plan for preventing or controlling periodontitis. We developed an end-to-end deep learning network HYNETS (Hybrid NETwork for pEriodoNTiTiS STagES from radiograpH) by integrating segmentation and classification tasks for grading periodontitis from periapical radiographic images. HYNETS leverages a multi-task learning strategy by combining a set of segmentation networks and a classification network to provide an end-to-end interpretable solution and highly accurate and consistent results. HYNETS achieved the average dice coefficient of 0.96 and 0.94 for the bone area and tooth segmentation and the average AUC of 0.97 for periodontitis stage assignment. Additionally, conventional image processing techniques provide RBL measurements and build transparency and trust in the model's prediction. HYNETS will potentially transform clinical diagnosis from a manual time-consuming, and error-prone task to an efficient and automated periodontitis stage assignment based on periapical radiographic images.
翻訳日:2021-09-28 20:21:50 公開日:2021-09-27
# (参考訳) Equity-based Ensemble Frameworkを用いた有害言語検出におけるRacial Biaseの緩和 [全文訳有]

Mitigating Racial Biases in Toxic Language Detection with an Equity-Based Ensemble Framework ( http://arxiv.org/abs/2109.13137v1 )

ライセンス: CC BY 4.0
Matan Halevy, Camille Harris, Amy Bruckman, Diyi Yang, Ayanna Howard(参考訳) 最近の研究では、アフリカ系アメリカ人英語を書くユーザーに対する人種バイアスが、人気のある有害言語データセットにどのように存在するかが示されている。 これまでの研究では,単一の公平性基準に注目してきたが,これらのバイアスの原因をよりよく理解するために,記述的公平性指標を追加することを提案する。 異なるベンチマーク分類器と2つのプロセス内バイアス修正手法が、より大きなコーパスにおいても人種バイアスを伝播することを示した。 次に,アフリカ系アメリカ人英語方言に微調整された特殊分類器を用いた新しいアンサンブル枠組みを提案する。 提案するフレームワークは,モデルがこれらのデータセットから学習する人種バイアスを実質的に低減する。 アンサンブルフレームワークがすべてのサンプルデータセットのフェアネスメトリクスをどのように改善するかを、分類性能に最小限の影響で実証し、アフリカ系アメリカ人英語を使用する著者に対して、注釈バイアスを解き放つ能力に関する実証的な証拠を提供する。 ※この作品には、不快な言葉や句の例があるかもしれないことに留意してください。

Recent research has demonstrated how racial biases against users who write African American English exists in popular toxic language datasets. While previous work has focused on a single fairness criteria, we propose to use additional descriptive fairness metrics to better understand the source of these biases. We demonstrate that different benchmark classifiers, as well as two in-process bias-remediation techniques, propagate racial biases even in a larger corpus. We then propose a novel ensemble-framework that uses a specialized classifier that is fine-tuned to the African American English dialect. We show that our proposed framework substantially reduces the racial biases that the model learns from these datasets. We demonstrate how the ensemble framework improves fairness metrics across all sample datasets with minimal impact on the classification performance, and provide empirical evidence in its ability to unlearn the annotation biases towards authors who use African American English. ** Please note that this work may contain examples of offensive words and phrases.
翻訳日:2021-09-28 20:05:50 公開日:2021-09-27
# (参考訳) DAReN: Reasoning and Disentanglingに向けたコラボレーションアプローチ [全文訳有]

DAReN: A Collaborative Approach Towards Reasoning And Disentangling ( http://arxiv.org/abs/2109.13156v1 )

ライセンス: CC BY 4.0
Pritish Sahu, Vladimir Pavlovic(参考訳) Raven's Progressive Matrices (RPM) のような視覚的推論テストの解法に対する計算学習のアプローチは、テストで使用される視覚的概念(つまり表現)を識別する計算手法の能力と、それらの概念(すなわち推論)に基づいた潜在的規則(英語版)に依存している。 しかし、表現と推論の学習は困難で不適切なタスクであり、しばしば段階的にアプローチされる(最初の表現、次に推論)。 本研究では,両タスクを協調的に改善するために,帰納的バイアスの弱い形式を活用する,エンドツーエンドの連立表現推論学習フレームワークを提案する。 具体的には,rpmsのための汎用生成グラフィカルモデルgm-rpmを提案し,その解法として適用する。 gm-rpmの原理に基づいた新しい学習フレームワークであるdisentangling based abstract reasoning network (daren) を用いてこれを実現する。 いくつかのベンチマークデータセットに対して,DAReNを実証評価する。 DAReNは、推論と非絡み合いタスクの両方において、最先端(SOTA)モデルに対して一貫した改善を示す。 このことは、非絡み合った潜在表現と抽象的な視覚的推論タスクを解く能力との強い相関を示す。

Computational learning approaches to solving visual reasoning tests, such as Raven's Progressive Matrices (RPM),critically depend on the ability of the computational approach to identify the visual concepts used in the test (i.e., the representation) as well as the latent rules based on those concepts (i.e., the reasoning). However, learning of representation and reasoning is a challenging and ill-posed task,often approached in a stage-wise manner (first representation, then reasoning). In this work, we propose an end-to-end joint representation-reaso ning learning framework, which leverages a weak form of inductive bias to improve both tasks together. Specifically, we propose a general generative graphical model for RPMs, GM-RPM, and apply it to solve the reasoning test. We accomplish this using a novel learning framework Disentangling based Abstract Reasoning Network (DAReN) based on the principles of GM-RPM. We perform an empirical evaluation of DAReN over several benchmark datasets. DAReN shows consistent improvement over state-of-the-art (SOTA) models on both the reasoning and the disentanglement tasks. This demonstrates the strong correlation between disentangled latent representation and the ability to solve abstract visual reasoning tasks.
翻訳日:2021-09-28 19:44:32 公開日:2021-09-27
# (参考訳) 画像の視覚異常検出:調査 [全文訳有]

Visual Anomaly Detection for Images: A Survey ( http://arxiv.org/abs/2109.13157v1 )

ライセンス: CC BY 4.0
Jie Yang, Ruijie Xu, Zhiquan Qi, Yong Shi(参考訳) 視覚異常検出は、機械学習とコンピュータビジョンの分野で重要かつ困難な問題である。 この問題は関連する研究コミュニティでかなりの注目を集めている。 特に近年、深層学習の発展が視覚異常検出問題への関心を高め、様々な新しい手法がもたらされた。 本稿では,文献における視覚異常検出のための古典的および深層学習に基づくアプローチを包括的に調査する。 関連するアプローチを基本原則としてグループ化し,前提,利点,不利益を慎重に議論する。 本研究の目的は,視覚異常検出手法の共通原理を理解し,将来的な研究方向性を明らかにすることである。

Visual anomaly detection is an important and challenging problem in the field of machine learning and computer vision. This problem has attracted a considerable amount of attention in relevant research communities. Especially in recent years, the development of deep learning has sparked an increasing interest in the visual anomaly detection problem and brought a great variety of novel methods. In this paper, we provide a comprehensive survey of the classical and deep learning-based approaches for visual anomaly detection in the literature. We group the relevant approaches in view of their underlying principles and discuss their assumptions, advantages, and disadvantages carefully. We aim to help the researchers to understand the common principles of visual anomaly detection approaches and identify promising research directions in this field.
翻訳日:2021-09-28 19:28:33 公開日:2021-09-27
# (参考訳) 知識グラフを用いたパスベース階層クラスタリング [全文訳有]

Path Based Hierarchical Clustering on Knowledge Graphs ( http://arxiv.org/abs/2109.13178v1 )

ライセンス: CC BY 4.0
Marcin Pietrasik, Marek Reformat(参考訳) 知識グラフは、リレーショナルデータを格納するための広く採用されている媒体として登場し、自動的に推論する手法が極めて望ましい。 本稿では,分類の帰納法で行った初期の研究をもとに,対象クラスタの階層構造を誘導する新しいアプローチを提案する。 この階層上のクラスタに対象を割り当てる前に、まずタグ階層を構築します。 3つの実世界のデータセットにコヒーレントなクラスタ階層を誘導する手法を定量的に示す。

Knowledge graphs have emerged as a widely adopted medium for storing relational data, making methods for automatically reasoning with them highly desirable. In this paper, we present a novel approach for inducing a hierarchy of subject clusters, building upon our earlier work done in taxonomy induction. Our method first constructs a tag hierarchy before assigning subjects to clusters on this hierarchy. We quantitatively demonstrate our method's ability to induce a coherent cluster hierarchy on three real-world datasets.
翻訳日:2021-09-28 19:11:28 公開日:2021-09-27
# (参考訳) UASプラットフォームから収集した映像と熱画像を用いた物体検出アルゴリズムの比較:交通管理におけるドローンの適用 [全文訳有]

Comparison of Object Detection Algorithms Using Video and Thermal Images Collected from a UAS Platform: An Application of Drones in Traffic Management ( http://arxiv.org/abs/2109.13185v1 )

ライセンス: CC BY 4.0
Hualong Tang, Joseph Post, Achilleas Kourtellis, Brian Porter, and Yu Zhang(参考訳) 交通監視、監視、インシデント検出などの交通管理における無人航空機(uav)の応用が急速に増加している。 しかし、既存の文献では、実際のプライバシー問題に対処しながらリアルタイムのインシデント検出のソリューションが欠如している。 本研究では,視覚カメラと赤外線カメラの両方のリアルタイム車両検出アルゴリズムを調査し,その性能比較を行った。 フロリダ州タンパの高速道路沿いのuasプラットフォームから、赤緑色の青(rgb)ビデオと熱画像が収集された。 フリーフロー条件下でホバリングuavの静止カメラによる車両検出における実時間背景減算法の性能を定量化するために実験を行った。 実験では、道路に対するドローンとセンサーの形状に基づいていくつかのパラメータが設定された。 以上の結果から,RGB画像の背景サブトラクションによる検出性能(F1スコアは0.9点程度)が向上し,方位角の異なる熱画像に対して,より多彩な検出性能が得られた。 これらの実験の結果は、高速道路の混雑を検知し、インシデント検出アルゴリズムの開発にインプットを提供するためにドローンを使用するためのプロトコル、標準、ガイダンスの開発に役立ちます。

There is a rapid growth of applications of Unmanned Aerial Vehicles (UAVs) in traffic management, such as traffic surveillance, monitoring, and incident detection. However, the existing literature lacks solutions to real-time incident detection while addressing privacy issues in practice. This study explored real-time vehicle detection algorithms on both visual and infrared cameras and conducted experiments comparing their performance. Red Green Blue (RGB) videos and thermal images were collected from a UAS platform along highways in the Tampa, Florida, area. Experiments were designed to quantify the performance of a real-time background subtraction-based method in vehicle detection from a stationary camera on hovering UAVs under free-flow conditions. Several parameters were set in the experiments based on the geometry of the drone and sensor relative to the roadway. The results show that a background subtraction-based method can achieve good detection performance on RGB images (F1 scores around 0.9 for most cases), and a more varied performance is seen on thermal images with different azimuth angles. The results of these experiments will help inform the development of protocols, standards, and guidance for the use of drones to detect highway congestion and provide input for the development of incident detection algorithms.
翻訳日:2021-09-28 19:05:41 公開日:2021-09-27
# (参考訳) センサデータのためのマルチエクイトアーキテクチャの一貫性トレーニング [全文訳有]

Consistency Training of Multi-exit Architectures for Sensor Data ( http://arxiv.org/abs/2109.13192v1 )

ライセンス: CC BY 4.0
Aaqib Saeed(参考訳) 深層ニューラルネットワークは、推論のための計算リソースの需要が増大し、コストが悪化し、バッテリーやリアルタイムアプリケーションのためのリソースが制限されたデバイスに展開する余地がほとんどないなど、長年にわたって拡大してきた。 マルチエグジットアーキテクチャは、モデルのさまざまな深さで複数の出力(または出口)層とインターリーブされたディープニューラルネットワークの一種である。 初期出口からの予測を生成することによって、モデルの実行の計算時間とエネルギー利用を改善するための健全なアプローチを提供する。 本研究では,一貫したエグジットトレーニングと呼ばれるマルチエクイットアーキテクチャの堅牢なトレーニングのための,新規かつアーキテクチャに依存しないアプローチを提案する。 この手法の要点は、クリーンで摂動的な入力に対して予測不変性を強制する一貫性に基づく目的にある。 我々は,モデルのアウトプットを一貫性トレーニングと整合させ,ネットワークのイグジットよりもマルチタスク学習形式でのデュアルロスを協調的に最適化する。 本手法により,不確実性の増加に直面すると,出口層が一般化し,品質効率のトレードオフが良好になる。 センサデータを含む課題学習タスクの広範な評価を通じて,本手法では,より優れた検出率で,さらに深いモデルですべてのレイヤを実行することなく,早期に終了できることを示す。

Deep neural networks have become larger over the years with increasing demand of computational resources for inference; incurring exacerbate costs and leaving little room for deployment on devices with limited battery and other resources for real-time applications. The multi-exit architectures are type of deep neural network that are interleaved with several output (or exit) layers at varying depths of the model. They provide a sound approach for improving computational time and energy utilization of running a model through producing predictions from early exits. In this work, we present a novel and architecture-agnosti c approach for robust training of multi-exit architectures termed consistent exit training. The crux of the method lies in a consistency-based objective to enforce prediction invariance over clean and perturbed inputs. We leverage weak supervision to align model output with consistency training and jointly optimize dual-losses in a multi-task learning fashion over the exits in a network. Our technique enables exit layers to generalize better when confronted with increasing uncertainty, hence, resulting in superior quality-efficiency trade-offs. We demonstrate through extensive evaluation on challenging learning tasks involving sensor data that our approach allows examples to exit earlier with better detection rate and without executing all the layers in a deep model.
翻訳日:2021-09-28 18:52:14 公開日:2021-09-27
# (参考訳) プロキシでトレーニングされたスパイクニューラルネットワーク [全文訳有]

Spiking neural networks trained via proxy ( http://arxiv.org/abs/2109.13208v1 )

ライセンス: CC BY 4.0
Saeed Reza Kheradpisheh, Maryam Mirsadeghi, Timoth\'ee Masquelier(参考訳) 本稿では,従来のニューラルネットワーク(ANN)をプロキシとして,スパイクニューラルネットワーク(SNN)の学習アルゴリズムを提案する。 同じネットワークアーキテクチャと共有シナプス重みを持つ2つのsnnとannネットワークをそれぞれ統合・アンド・ファイア(if)とreluニューロンで結合した。 2つのネットワークの前方通過は完全に独立している。 IFニューロンにReLUの近似としてレートコーディングを仮定することにより、SNNの最終出力をSNNのものと置き換えることによって、共有重みを更新するためにプロキシANNにおけるSNNのエラーをバックプロパタイトする。 提案したプロキシ学習を深層畳み込みSNNに適用し,Fahion-MNISTとCifar10のベンチマークデータセットをそれぞれ94.56%,93.11%の分類精度で評価した。 提案したネットワークは、タンデム学習、勾配学習の代理、あるいは深いANNから変換された他の深層SNNよりも優れている。 変換SNNは、適切な精度に達するのに長いシミュレーション時間を必要とする一方、プロキシ学習は、より短いシミュレーション時間で効率的なSNNにつながる。

We propose a new learning algorithm to train spiking neural networks (SNN) using conventional artificial neural networks (ANN) as proxy. We couple two SNN and ANN networks, respectively, made of integrate-and-fire (IF) and ReLU neurons with the same network architectures and shared synaptic weights. The forward passes of the two networks are totally independent. By assuming IF neuron with rate-coding as an approximation of ReLU, we backpropagate the error of the SNN in the proxy ANN to update the shared weights, simply by replacing the ANN final output with that of the SNN. We applied the proposed proxy learning to deep convolutional SNNs and evaluated it on two benchmarked datasets of Fahion-MNIST and Cifar10 with 94.56% and 93.11% classification accuracy, respectively. The proposed networks could outperform other deep SNNs trained with tandem learning, surrogate gradient learning, or converted from deep ANNs. Converted SNNs require long simulation times to reach reasonable accuracies while our proxy learning leads to efficient SNNs with much shorter simulation times.
翻訳日:2021-09-28 18:31:46 公開日:2021-09-27
# (参考訳) SAU:近似IDの畳み込みを用いた平滑活性化関数 [全文訳有]

SAU: Smooth activation function using convolution with approximate identities ( http://arxiv.org/abs/2109.13210v1 )

ライセンス: CC BY 4.0
Koushik Biswas, Sandeep Kumar, Shilpak Banerjee, Ashish Kumar Pandey(参考訳) ReLU や Leaky ReLU のようなよく知られた活性化関数は原点において微分不可能である。 長年にわたり、様々なスムーズな手法を用いてReLUのスムーズな近似が提案されてきた。 そこで本研究では, 微分不可能なアクティベーション関数のスムーズな近似法を提案する。 特に、Leaky ReLUのスムーズな近似を示し、様々なデータセットやモデルでよく知られたアクティベーション関数よりも優れていることを示す。 これを Smooth Activation Unit (SAU) と呼ぶ。 SAU による ReLU の代替として,CIFAR100 データセット上での ShuffleNet V2 (2.0x) モデルで 5.12% の改善が行われた。

Well-known activation functions like ReLU or Leaky ReLU are non-differentiable at the origin. Over the years, many smooth approximations of ReLU have been proposed using various smoothing techniques. We propose new smooth approximations of a non-differentiable activation function by convolving it with approximate identities. In particular, we present smooth approximations of Leaky ReLU and show that they outperform several well-known activation functions in various datasets and models. We call this function Smooth Activation Unit (SAU). Replacing ReLU by SAU, we get 5.12% improvement with ShuffleNet V2 (2.0x) model on CIFAR100 dataset.
翻訳日:2021-09-28 18:12:35 公開日:2021-09-27
# (参考訳) 道路シーン解析による運転者自己報告ストレスの予測 [全文訳有]

Predicting Driver Self-Reported Stress by Analyzing the Road Scene ( http://arxiv.org/abs/2109.13225v1 )

ライセンス: CC BY 4.0
Cristina Bustos, Neska Elhaouij, Albert Sole-Ribalta, Javier Borge-Holthoefer, Agata Lapedriza, Rosalind Picard(参考訳) いくつかの研究は、ドライバーのストレス認識における生体信号の関連性を示している。 本研究では,運転者の主観的ストレスレベルを推定するために視覚的な運転シーンを使用できるかどうかを検証する手法を開発する。 この目的のために、AffectiveROADビデオ記録とそれに対応するストレスラベル、連続人ドライバーによるストレス測定を使用する。 ストレスに対して共通クラス離散化を使用し、その連続した値を低、中、高の3つのクラスに分割する。 運転者のストレスレベルを分類するためのコンピュータビジョンモデリング手法として,(1)自動シーンセグメンテーションによる特徴の計算,(2)エンドツーエンド画像分類,(3)エンド・ツー・エンドビデオ分類の3つの手法を設計し,評価した。 3つのアプローチはいずれも有望な結果を示し、視覚的なシーンで見つかった情報からドライバーの主観的ストレスを近似することができることを示唆している。 視覚情報と統合された時間情報を処理する映像分類では,9人のドライバでテストした場合のランダムベースライン精度よりも0.72ドルが最も高い。

Several studies have shown the relevance of biosignals in driver stress recognition. In this work, we examine something important that has been less frequently explored: We develop methods to test if the visual driving scene can be used to estimate a drivers' subjective stress levels. For this purpose, we use the AffectiveROAD video recordings and their corresponding stress labels, a continuous human-driver-provide d stress metric. We use the common class discretization for stress, dividing its continuous values into three classes: low, medium, and high. We design and evaluate three computer vision modeling approaches to classify the driver's stress levels: (1) object presence features, where features are computed using automatic scene segmentation; (2) end-to-end image classification; and (3) end-to-end video classification. All three approaches show promising results, suggesting that it is possible to approximate the drivers' subjective stress from the information found in the visual scene. We observe that the video classification, which processes the temporal information integrated with the visual information, obtains the highest accuracy of $0.72$, compared to a random baseline accuracy of $0.33$ when tested on a set of nine drivers.
翻訳日:2021-09-28 18:02:48 公開日:2021-09-27
# (参考訳) pass:人間なしでの自己教師付き事前訓練のためのimagenet代替 [全文訳有]

PASS: An ImageNet replacement for self-supervised pretraining without humans ( http://arxiv.org/abs/2109.13228v1 )

ライセンス: CC BY 4.0
Yuki M. Asano, Christian Rupprecht, Andrew Zisserman, Andrea Vedaldi(参考訳) コンピュータビジョンは長い間、事前トレーニングモデルのためにインターネットからサンプリングされたImageNetや他の大規模な画像データセットに依存してきた。 しかしながら、これらのデータセットには、同意なしに取得した個人情報、ライセンス使用の明確さ、バイアス、さらには問題のある画像コンテンツなど、倫理的および技術的な欠点がある。 一方、現在最先端の事前トレーニングは教師なしの手法で得られており、モデル事前トレーニングにはImageNetのようなラベル付きデータセットは必要ないかもしれないし、おそらく最適ではないかもしれない。 そこで我々は,自己スーパービジョンのためのラベルなしデータセットパスを提案する。 PASSはCC-BYライセンスのイメージと、著作権問題に対処する完全な属性メタデータのみを含む。 最も重要なのは、人間の画像は全くなく、データ保護や倫理に問題のある他の種類の画像も避けていることだ。 PASS は MoCo-v2, SwAV, DINO などの手法で事前訓練できることを示す。 転送学習環境では、人間のポーズ推定のような人間を含むタスクでも、imagenetの事前学習と同様の下流パフォーマンスが得られる。 PASSは既存のデータセットを時代遅れにしない。 しかし,より安全なデータを用いてモデルの事前学習が可能であり,事前学習手法のより堅牢な評価の基盤も提供する。

Computer vision has long relied on ImageNet and other large datasets of images sampled from the Internet for pretraining models. However, these datasets have ethical and technical shortcomings, such as containing personal information taken without consent, unclear license usage, biases, and, in some cases, even problematic image content. On the other hand, state-of-the-art pretraining is nowadays obtained with unsupervised methods, meaning that labelled datasets such as ImageNet may not be necessary, or perhaps not even optimal, for model pretraining. We thus propose an unlabelled dataset PASS: Pictures without humAns for Self-Supervision. PASS only contains images with CC-BY license and complete attribution metadata, addressing the copyright issue. Most importantly, it contains no images of people at all, and also avoids other types of images that are problematic for data protection or ethics. We show that PASS can be used for pretraining with methods such as MoCo-v2, SwAV and DINO. In the transfer learning setting, it yields similar downstream performances to ImageNet pretraining even on tasks that involve humans, such as human pose estimation. PASS does not make existing datasets obsolete, as for instance it is insufficient for benchmarking. However, it shows that model pretraining is often possible while using safer data, and it also provides the basis for a more robust evaluation of pretraining methods.
翻訳日:2021-09-28 17:46:32 公開日:2021-09-27
# (参考訳) TSM:エッジデバイス上での高能率かつスケーラブルなビデオ理解のための時間シフトモジュール [全文訳有]

TSM: Temporal Shift Module for Efficient and Scalable Video Understanding on Edge Device ( http://arxiv.org/abs/2109.13227v1 )

ライセンス: CC BY 4.0
Ji Lin, Chuang Gan, Kuan Wang, Song Han(参考訳) ビデオストリーミングの爆発的な成長は、高精度で計算コストの低いビデオ理解を必要とする。 従来の2D CNNは計算コストが安いが、時間的関係を捉えることはできない。 本稿では,高効率かつ高性能な時間シフトモジュール(tsm)を提案する。 TSMの鍵となる考え方は、チャネルの一部を時間次元に沿ってシフトさせることで、近隣のフレーム間で交換される情報を促進することである。 2d cnnに挿入することで、ゼロ計算とゼロパラメータで時間モデリングを実現することができる。 TSMにはいくつかの利点がある。 第一に、TSMは高いパフォーマンスを持ち、応募時にSomethingのリーダーボードにランクインする。 第二に、TSMは高効率であり、Jetson NanoとGalaxy Note8のオンラインビデオ認識において、74fpsと29fpsのフレームレートを達成する。 第3に、tsmは3dネットワークに比べてスケーラビリティが高く、15分で1,536gpuで大規模な運動学トレーニングができる。 最後に、TSMは2次元ネットワークではモデル化できないアクション概念の学習を可能にし、カテゴリー注意マップを可視化し、分類タスクのトレーニング中に空間的時間的行動検出が出現することを確認する。 コードはhttps://github.com/m it-han-lab/temporal- shift-moduleで公開されている。

The explosive growth in video streaming requires video understanding at high accuracy and low computation cost. Conventional 2D CNNs are computationally cheap but cannot capture temporal relationships; 3D CNN-based methods can achieve good performance but are computationally intensive. In this paper, we propose a generic and effective Temporal Shift Module (TSM) that enjoys both high efficiency and high performance. The key idea of TSM is to shift part of the channels along the temporal dimension, thus facilitate information exchanged among neighboring frames. It can be inserted into 2D CNNs to achieve temporal modeling at zero computation and zero parameters. TSM offers several unique advantages. Firstly, TSM has high performance; it ranks the first on the Something-Something leaderboard upon submission. Secondly, TSM has high efficiency; it achieves a high frame rate of 74fps and 29fps for online video recognition on Jetson Nano and Galaxy Note8. Thirdly, TSM has higher scalability compared to 3D networks, enabling large-scale Kinetics training on 1,536 GPUs in 15 minutes. Lastly, TSM enables action concepts learning, which 2D networks cannot model; we visualize the category attention map and find that spatial-temporal action detector emerges during the training of classification tasks. The code is publicly available at https://github.com/m it-han-lab/temporal- shift-module.
翻訳日:2021-09-28 16:56:45 公開日:2021-09-27
# FQuAD2.0: フランス語の質問に答えて、何も知らないことを知る

FQuAD2.0: French Question Answering and knowing that you know nothing ( http://arxiv.org/abs/2109.13209v1 )

ライセンス: Link先を確認
Quentin Heinrich, Gautier Viaud, Wacim Belblidia(参考訳) Reading Comprehensionを含む質問回答は、言語モデリングの類似した進歩のおかげで、ここ数年で大きな科学的ブレークスルーを経験してきたNLP研究分野の1つである。 しかし、これらのブレークスルーのほとんどは英語を中心にしている。 2020年、フランス語とのギャップを埋める最初の強力な取り組みとして、iluin technologyは6万以上の質問とwikipediaの記事から抽出された回答からなるフランス語ネイティブの読解データセットであるfquad1.1を導入した。 それでも、このデータセットでトレーニングされた質問回答モデルは大きな欠点があり、ある質問が関心事の段落に答えがないかどうかを予測できないため、様々な産業ユースケースにおいて信頼性の低い予測を行うことができる。 本研究では, FQuAD2.0 を導入し, FQuAD を 17,000 以上の解答不可能な質問で拡張し, 反対方向に注釈を付け, 答え可能な質問に類似させる。 この新しいデータセットは、約8万の質問で構成されており、フランス語の質問応答モデルに、答えられない質問と答えられる質問を区別する能力を持たせることができる。 私たちの最良のモデルである、微調整されたcamimbert-largeは、この分類タスクでf1スコア82.3%、読み取り理解タスクでf1スコア83%を達成しています。

Question Answering, including Reading Comprehension, is one of the NLP research areas that has seen significant scientific breakthroughs over the past few years, thanks to the concomitant advances in Language Modeling. Most of these breakthroughs, however, are centered on the English language. In 2020, as a first strong initiative to bridge the gap to the French language, Illuin Technology introduced FQuAD1.1, a French Native Reading Comprehension dataset composed of 60,000+ questions and answers samples extracted from Wikipedia articles. Nonetheless, Question Answering models trained on this dataset have a major drawback: they are not able to predict when a given question has no answer in the paragraph of interest, therefore making unreliable predictions in various industrial use-cases. In the present work, we introduce FQuAD2.0, which extends FQuAD with 17,000+ unanswerable questions, annotated adversarially, in order to be similar to answerable ones. This new dataset, comprising a total of almost 80,000 questions, makes it possible to train French Question Answering models with the ability of distinguishing unanswerable questions from answerable ones. We benchmark several models with this dataset: our best model, a fine-tuned CamemBERT-large, achieves a F1 score of 82.3% on this classification task, and a F1 score of 83% on the Reading Comprehension task.
翻訳日:2021-09-28 16:02:51 公開日:2021-09-27
# 解釈可能性の最適化:畳み込み動的アライメントネットワーク

Optimising for Interpretability: Convolutional Dynamic Alignment Networks ( http://arxiv.org/abs/2109.13004v1 )

ライセンス: Link先を確認
Moritz B\"ohle, Mario Fritz, Bernt Schiele(参考訳) 本稿では,畳み込み動的アライメントネットワーク(convolutional dynamic alignment network, coda nets)と呼ばれるニューラル・ネットワーク・モデルについて紹介する。 コアとなる構成要素は動的アライメントユニット(daus)で、タスク関連パターンに合わせた動的に計算された重みベクトルで入力を変換するように最適化されている。 その結果、CoDA Netsは一連の入力依存線形変換を通じて分類予測をモデル化し、出力を個々の入力コントリビューションに線形分解することができる。 DAUのアライメントが与えられた結果のコントリビューションマップは、識別的な入力パターンと一致します。 これらのモデルインヒーレント分解は、視覚的な品質が高く、定量的指標の下で既存の帰属方法よりも優れています。 さらに、CoDA Netsはパフォーマンス分類器を構成し、CIFAR-10やTinyImagenetなどのResNetやVGGモデルと同等の結果を得る。 最後に、codaネットを従来のニューラルネットワークモデルと組み合わせることで、imagenetのような複雑なデータセットに対してより容易にスケールできる強力な分類器が得られる。

We introduce a new family of neural network models called Convolutional Dynamic Alignment Networks (CoDA Nets), which are performant classifiers with a high degree of inherent interpretability. Their core building blocks are Dynamic Alignment Units (DAUs), which are optimised to transform their inputs with dynamically computed weight vectors that align with task-relevant patterns. As a result, CoDA Nets model the classification prediction through a series of input-dependent linear transformations, allowing for linear decomposition of the output into individual input contributions. Given the alignment of the DAUs, the resulting contribution maps align with discriminative input patterns. These model-inherent decompositions are of high visual quality and outperform existing attribution methods under quantitative metrics. Further, CoDA Nets constitute performant classifiers, achieving on par results to ResNet and VGG models on e.g. CIFAR-10 and TinyImagenet. Lastly, CoDA Nets can be combined with conventional neural network models to yield powerful classifiers that more easily scale to complex datasets such as Imagenet whilst exhibiting an increased interpretable depth, i.e., the output can be explained well in terms of contributions from intermediate layers within the network.
翻訳日:2021-09-28 15:59:51 公開日:2021-09-27
# 対話型デザイナを起動するたびに,ダイアログシステムのパフォーマンスが低下します。

Every time I fire a conversational designer, the performance of the dialog system goes down ( http://arxiv.org/abs/2109.13029v1 )

ライセンス: Link先を確認
Giancarlo A. Xompero, Michele Mastromattei, Samir Salman, Cristina Giannone, Andrea Favalli, Raniero Romagnoli, Fabio Massimo Zanzotto(参考訳) 神経ベースのタスク指向対話システムに明示的なドメイン知識を組み込むことは、大量の注釈付き対話の必要性を減らす効果的な方法である。 本稿では,会話設計者に対する明示的なドメイン知識の使用が,ニューラルベース対話システムの性能に与える影響について検討する。 本研究を支援するために,半論理規則で明示的な知識を符号化した会話論理帰納型ニューラルネットシステム(CLINN)を提案する。 CLINNを用いて、異なる熟練の会話デザイナーのチームが生み出す半論理的ルールを評価した。 我々はMultiWOZデータセットのレストラントピックを実験した。 その結果,会話システムにおける注釈付き例の必要性を減らすためには,外部知識が極めて重要であることがわかった。 実際、CLINNで使用される会話デザイナのルールは、最先端のニューラルネットワーク対話システムを大幅に上回っている。

Incorporating explicit domain knowledge into neural-based task-oriented dialogue systems is an effective way to reduce the need of large sets of annotated dialogues. In this paper, we investigate how the use of explicit domain knowledge of conversational designers affects the performance of neural-based dialogue systems. To support this investigation, we propose the Conversational-Logic -Injection-in-Neural -Network system (CLINN) where explicit knowledge is coded in semi-logical rules. By using CLINN, we evaluated semi-logical rules produced by a team of differently skilled conversational designers. We experimented with the Restaurant topic of the MultiWOZ dataset. Results show that external knowledge is extremely important for reducing the need of annotated examples for conversational systems. In fact, rules from conversational designers used in CLINN significantly outperform a state-of-the-art neural-based dialogue system.
翻訳日:2021-09-28 15:58:18 公開日:2021-09-27
# 思い出と学び: 数学用語問題のための記憶提示型解法

Recall and Learn: A Memory-augmented Solver for Math Word Problems ( http://arxiv.org/abs/2109.13112v1 )

ライセンス: Link先を確認
Shifeng Huang, Jiawei Wang, Jiao Xu, Da Cao, Ming Yang(参考訳) 本稿では,数学用語の問題,すなわちテキスト記述による数学的問題を自動的に解答する問題に対処する。 近年の手法は有望な結果を示しているが,これらの手法の多くはテンプレートベースの生成方式をベースとしている。 そこで本研究では,リコールと学習の方法で,新しい人間的類似学習法を提案する。 提案するフレームワークは,記憶,表現,類似,推論のモジュールで構成され,過去に学習した演習を参考に,新たな演習を行うように設計されている。 具体的には、数学用語の問題が与えられた場合、モデルはまずメモリモジュールで類似した質問を検索し、未解決の問題を符号化し、各質問を表現モジュールを用いて検索する。 さらに, 類似的な方法で問題を解くために, 類似モジュールとコピー機構を備えた推論モジュールを提案し, 問題と検索された各質問の相互関係をモデル化した。 2つのよく知られたデータセットに対する大規模な実験は、我々の提案したアルゴリズムの優位性を示している。

In this article, we tackle the math word problem, namely, automatically answering a mathematical problem according to its textual description. Although recent methods have demonstrated their promising results, most of these methods are based on template-based generation scheme which results in limited generalization capability. To this end, we propose a novel human-like analogical learning method in a recall and learn manner. Our proposed framework is composed of modules of memory, representation, analogy, and reasoning, which are designed to make a new exercise by referring to the exercises learned in the past. Specifically, given a math word problem, the model first retrieves similar questions by a memory module and then encodes the unsolved problem and each retrieved question using a representation module. Moreover, to solve the problem in a way of analogy, an analogy module and a reasoning module with a copy mechanism are proposed to model the interrelationship between the problem and each retrieved question. Extensive experiments on two well-known datasets show the superiority of our proposed algorithm as compared to other state-of-the-art competitors from both overall performance comparison and micro-scope studies.
翻訳日:2021-09-28 15:58:05 公開日:2021-09-27
# 医学文献から薬物と相互作用の知識の発見

Discovering Drug-Target Interaction Knowledge from Biomedical Literature ( http://arxiv.org/abs/2109.13187v1 )

ライセンス: Link先を確認
Yutai Hou, Yingce Xia, Lijun Wu, Shufang Xie, Yang Fan, Jinhua Zhu, Wanxiang Che, Tao Qin, Tie-Yan Liu(参考訳) 薬物と標的(DTI)の相互作用は、生体医学や応用において重要な役割を担っている。 バイオメディカルドメインで毎年何百万もの論文が発行され、医薬品、標的、それらの相互作用に関する三重項である生物医学文献からdti知識を自動的に発見することが、業界で緊急の需要となっている。 既存の生物学的知識の発見方法は、主に詳細な注釈を必要とする抽出的アプローチである(例えば、生物的実体のすべての言及、各2つの実体の関係など)。 しかし、生物医学領域からの専門知識の必要から十分な注釈を得ることは困難で費用がかかる。 これらの課題を克服するために,我々は生成的手法を用いて,この課題に対する最初のエンドツーエンドソリューションを探索する。 我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。 さらに、前述のエンドツーエンドモデルを利用してラベルなしの文献をフィルタリングしラベル付けする半教師付き手法を提案する。 実験の結果,本手法はdti発見時の抽出ベースラインを有意に上回ることがわかった。 また、このタスクを進めるためにデータセットKD-DTIを作成し、コミュニティにリリースします。

The Interaction between Drugs and Targets (DTI) in human body plays a crucial role in biomedical science and applications. As millions of papers come out every year in the biomedical domain, automatically discovering DTI knowledge from biomedical literature, which are usually triplets about drugs, targets and their interaction, becomes an urgent demand in the industry. Existing methods of discovering biological knowledge are mainly extractive approaches that often require detailed annotations (e.g., all mentions of biological entities, relations between every two entity mentions, etc.). However, it is difficult and costly to obtain sufficient annotations due to the requirement of expert knowledge from biomedical domains. To overcome these difficulties, we explore the first end-to-end solution for this task by using generative approaches. We regard the DTI triplets as a sequence and use a Transformer-based model to directly generate them without using the detailed annotations of entities and relations. Further, we propose a semi-supervised method, which leverages the aforementioned end-to-end model to filter unlabeled literature and label them. Experimental results show that our method significantly outperforms extractive baselines on DTI discovery. We also create a dataset, KD-DTI, to advance this task and will release it to the community.
翻訳日:2021-09-28 15:57:48 公開日:2021-09-27
# VQA-MHUG:視覚質問応答におけるマルチモーダル・ニューラル・アテンションの研究

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering ( http://arxiv.org/abs/2109.13116v1 )

ライセンス: Link先を確認
Ekta Sood, Fabian K\"ogel, Florian Strohm, Prajit Dhar, Andreas Bulling(参考訳) VQA-MHUG - 高速アイトラッカーを用いて収集した視覚的質問応答(VQA)において、画像と質問の両方を多人数で見る新しい49の参加者データセット。 我々は,5つの最先端VQAモデルから得られた人間と神経の注意戦略の類似性を分析するために,グリッドまたは地域特徴を持つモジュールコアテンション・ネットワーク(MCAN),Pythia,Biline ar Attention Network(BAN),MFB(Mul timodal Factorized Bilinear Pooling Network)の3つを用いた。 これまでの研究は画像モダリティの研究に重点を置いてきたが、すべてのモデルにおいて、テキストに対する人間の注意と高い相関がvqaパフォーマンスの重要な予測要因であることを初めて分析した。 この発見は、VQAのパフォーマンスを改善する可能性を示し、同時に、ニューラルネットワークの注意機構と、視覚や言語タスクのためのアーキテクチャへの統合に関するさらなる研究を求めている。

We present VQA-MHUG - a novel 49-participant dataset of multimodal human gaze on both images and questions during visual question answering (VQA) collected using a high-speed eye tracker. We use our dataset to analyze the similarity between human and neural attentive strategies learned by five state-of-the-art VQA models: Modular Co-Attention Network (MCAN) with either grid or region features, Pythia, Bilinear Attention Network (BAN), and the Multimodal Factorized Bilinear Pooling Network (MFB). While prior work has focused on studying the image modality, our analyses show - for the first time - that for all models, higher correlation with human attention on text is a significant predictor of VQA performance. This finding points at a potential for improving VQA performance and, at the same time, calls for further research on neural text attention mechanisms and their integration into architectures for vision and language tasks, including but potentially also beyond VQA.
翻訳日:2021-09-28 15:57:27 公開日:2021-09-27
# 視覚的質問応答における人間的注意のマルチモーダル統合

Multimodal Integration of Human-Like Attention in Visual Question Answering ( http://arxiv.org/abs/2109.13139v1 )

ライセンス: Link先を確認
Ekta Sood, Fabian K\"ogel, Philipp M\"uller, Dominike Thomas, Mihai Bace, Andreas Bulling(参考訳) 神経的注意を導くための監視信号としての人間のような注意は、大きな可能性を秘めているが、現在は視覚的質問応答(VQA)のような本質的にマルチモーダルなタスクに対するユニモーダル統合に限られている。 本稿では,vqaモデルの学習中に画像とテキストに対する人間的注意のマルチモーダル統合を行う最初の手法であるmulan(multimodal human-like attention network)を提案する。 MULANは、最新のトランスフォーマーベースのVQAモデルの神経自己注意層に、最先端の2つのテキストおよびイメージサリエンシモデルからの注意予測を統合する。 挑戦的なVQAv2データセットの評価を通じて、MULANがテストストッドで73.98%、テストデフで73.72%の精度で新しい最先端性能を実現し、同時にトレーニング可能なパラメータが前よりも約80%少ないことを示す。 全体として、我々の研究はVQAのためのマルチモーダルな人間ライクとニューラルアテンションの統合の可能性を強調している。

Human-like attention as a supervisory signal to guide neural attention has shown significant promise but is currently limited to uni-modal integration - even for inherently multimodal tasks such as visual question answering (VQA). We present the Multimodal Human-like Attention Network (MULAN) - the first method for multimodal integration of human-like attention on image and text during training of VQA models. MULAN integrates attention predictions from two state-of-the-art text and image saliency models into neural self-attention layers of a recent transformer-based VQA model. Through evaluations on the challenging VQAv2 dataset, we show that MULAN achieves a new state-of-the-art performance of 73.98% accuracy on test-std and 73.72% on test-dev and, at the same time, has approximately 80% fewer trainable parameters than prior work. Overall, our work underlines the potential of integrating multimodal human-like and neural attention for VQA
翻訳日:2021-09-28 15:57:07 公開日:2021-09-27
# 意味的提案生成による全画像におけるテキストベース人物検索

Text-based Person Search in Full Images via Semantic-Driven Proposal Generation ( http://arxiv.org/abs/2109.12965v1 )

ライセンス: Link先を確認
Shizhou Zhang, Duo Long, Yitao Gao, Liying Gao, Qian Zhang, Kai Niu, Yanning Zhang(参考訳) テキスト記述のクエリによるフルシーン画像中の対象人物の検索は、インテリジェントなビデオ監視において重要な実用的応用であるが、バウンディングボックスが利用できない現実のシナリオとは違い、既存のテキストベースの人物検索手法は主に、クエリテキスト記述と収穫した歩行者画像のギャラリーとの相互マッチングに焦点を当てている。 このギャップを埋めるために,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化する新しいエンドツーエンド学習フレームワークを提案することによって,全画像におけるテキストベースの人物検索の問題を研究する。 クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。 また、クロススケールなビジュアル・セマンティックな埋め込み機構を利用して性能を向上させる。 提案手法を検証するために,広く採用されている画像ベース人物検索データセットCUHK-SYSUとPRWに基づいて,大規模なベンチマークデータセットを2つ収集し,注釈付けする。 2つのデータセット上で総合的な実験を行い,ベースライン法と比較し,最先端の性能を実現する。

Finding target persons in full scene images with a query of text description has important practical applications in intelligent video surveillance.However , different from the real-world scenarios where the bounding boxes are not available, existing text-based person retrieval methods mainly focus on the cross modal matching between the query text descriptions and the gallery of cropped pedestrian images. To close the gap, we study the problem of text-based person search in full images by proposing a new end-to-end learning framework which jointly optimize the pedestrian detection, identification and visual-semantic feature embedding tasks. To take full advantage of the query text, the semantic features are leveraged to instruct the Region Proposal Network to pay more attention to the text-described proposals. Besides, a cross-scale visual-semantic embedding mechanism is utilized to improve the performance. To validate the proposed method, we collect and annotate two large-scale benchmark datasets based on the widely adopted image-based person search datasets CUHK-SYSU and PRW. Comprehensive experiments are conducted on the two datasets and compared with the baseline methods, our method achieves the state-of-the-art performance.
翻訳日:2021-09-28 15:55:50 公開日:2021-09-27
# FewNLU:Few-Shot自然言語理解のための最先端手法のベンチマーク

FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding ( http://arxiv.org/abs/2109.12742v1 )

ライセンス: Link先を確認
Yanan Zheng, Jing Zhou, Yujie Qian, Ming Ding, Jian Li, Ruslan Salakhutdinov, Jie Tang, Sebastian Ruder, Zhilin Yang(参考訳) 数発の自然言語理解(NLU)タスクは近年注目を集めている。 しかし、以前の手法は異なるプロトコルのセットで評価されており、フィールドの公正な比較と測定を妨げている。 この問題に対処するために,従来の評価手順を,テストパフォーマンス,開発-テスト相関,安定性という3つの面から改善する評価フレームワークを提案する。 この新たな評価フレームワークでは,NLUタスクに対する最先端の複数ショット手法を再評価する。 従来の文献では,(1) 手法の絶対的性能と相対的ギャップが正確に評価されていないこと,(2) 単一手法が多くのタスクを一貫した性能で支配していないこと,(3) より大規模な事前学習モデルによってメソッドの改善が減少すること,(4) 異なる手法の利得が相補的であること,そして,最高の組み合わせモデルが強い完全教師付きベースラインに近く動作すること,など,新たな知見が得られた。 評価フレームワークを実装したツールキットであるFewNLUをオープンソースとして公開しています。

The few-shot natural language understanding (NLU) task has attracted much recent attention. However, prior methods have been evaluated under a disparate set of protocols, which hinders fair comparison and measuring progress of the field. To address this issue, we introduce an evaluation framework that improves previous evaluation procedures in three key aspects, i.e., test performance, dev-test correlation, and stability. Under this new evaluation framework, we re-evaluate several state-of-the-art few-shot methods for NLU tasks. Our framework reveals new insights: (1) both the absolute performance and relative gap of the methods were not accurately estimated in prior literature; (2) no single method dominates most tasks with consistent performance; (3) improvements of some methods diminish with a larger pretrained model; and (4) gains from different methods are often complementary and the best combined model performs close to a strong fully-supervised baseline. We open-source our toolkit, FewNLU, that implements our evaluation framework along with a number of state-of-the-art methods.
翻訳日:2021-09-28 15:54:59 公開日:2021-09-27
# ReINTEL Challenge 2020: ベトナムSNSにおける信頼性情報識別のためのハイブリッドディープニューラルネットワークの比較研究

ReINTEL Challenge 2020: A Comparative Study of Hybrid Deep Neural Network for Reliable Intelligence Identification on Vietnamese SNSs ( http://arxiv.org/abs/2109.12777v1 )

ライセンス: Link先を確認
Hoang Viet Trinh, Tung Tien Bui, Tam Minh Nguyen, Huy Quang Dao, Quang Huu Pham, Ngoc N. Tran, Ta Minh Thanh(参考訳) 膨大な量のデータが誤報の危機を引き起こしている。 悪意に満ちた読者の注意をそらすために考案された不確実なセンセーショナリズムは、社会の構造に不可分なダメージを与えている。 その結果、記事の信頼性を決定することが重要なタスクとなった。 様々なアブレーション研究の後,タスクの表付きメタデータとポストコンテンツの両方を効果的に活用できるマルチインプットモデルを提案する。 vlspプライベートテストセットにおいて,事前学習されたコンポーネントとトレーニング戦略に対する最先端の微調整技術を適用し,0.9462 roc-scoreを達成した。

The overwhelming abundance of data has created a misinformation crisis. Unverified sensationalism that is designed to grab the readers' short attention span, when crafted with malice, has caused irreparable damage to our society's structure. As a result, determining the reliability of an article has become a crucial task. After various ablation studies, we propose a multi-input model that can effectively leverage both tabular metadata and post content for the task. Applying state-of-the-art finetuning techniques for the pretrained component and training strategies for our complete model, we have achieved a 0.9462 ROC-score on the VLSP private test set.
翻訳日:2021-09-28 15:54:37 公開日:2021-09-27
# テキスト分類のための半監督型VAEフレームワークの整合化

Challenging the Semi-Supervised VAE Framework for Text Classification ( http://arxiv.org/abs/2109.12969v1 )

ライセンス: Link先を確認
Ghazi Felhi, Joseph Le Roux, Djam\'e Seddah(参考訳) SSVAE(Semi-Supervise d Variational Autoencoders)は、データ効率向上のためのモデルである。 本稿では,テキスト分類作業におけるシーケンスssvaの標準設計の妥当性について疑問視する。 これらのssvaesへの単純化は理論的な健全さを保ちつつ、訓練の結果がテキスト分類器である半教師構成において多くの実用的な利点を提供する。 これらの単純化は除去である (i)クルバック・リーブラーが目的から逸脱すること、及び (ii)確率モデルから完全に観測されていない潜在変数。 これらの変更により、ユーザは潜在変数の事前選択が不要になり、モデルをより小さく、より高速にし、潜在変数への情報の流れが改善される。 4つのテキスト分類タスクにおいて,簡易版と標準SSVAEを比較した。 上記の単純化に加えて、実験は同等の分類スコアを維持しながら26%のスピードアップを示した。 実験を再現するコードは公開されています。

Semi-Supervised Variational Autoencoders (SSVAEs) are widely used models for data efficient learning. In this paper, we question the adequacy of the standard design of sequence SSVAEs for the task of text classification as we exhibit two sources of overcomplexity for which we provide simplifications. These simplifications to SSVAEs preserve their theoretical soundness while providing a number of practical advantages in the semi-supervised setup where the result of training is a text classifier. These simplifications are the removal of (i) the Kullback-Liebler divergence from its objective and (ii) the fully unobserved latent variable from its probabilistic model. These changes relieve users from choosing a prior for their latent variables, make the model smaller and faster, and allow for a better flow of information into the latent variables. We compare the simplified versions to standard SSVAEs on 4 text classification tasks. On top of the above-mentioned simplification, experiments show a speed-up of 26%, while keeping equivalent classification scores. The code to reproduce our experiments is public.
翻訳日:2021-09-28 15:54:25 公開日:2021-09-27
# より正確なエンティティ認識のためのポーズ情報の利用

Using Pause Information for More Accurate Entity Recognition ( http://arxiv.org/abs/2109.13222v1 )

ライセンス: Link先を確認
Sahas Dendukuri, Pooja Chitkara, Joel Ruben Antony Moniz, Xiao Yang, Manos Tsagkias, Stephen Pulman(参考訳) ヒューマンマシンダイアログのエンティティタグは、会話アシスタントの自然言語理解(nlu)タスクに不可欠なものである。 しかし、現在のシステムでは、テキスト入力だけで音声クエリを正確に解析するのに苦労しており、しばしばユーザーの意図を理解できない。 言語学における以前の研究は、動詞と比較して名詞を取り巻く長い言論停止の言語的傾向を特定してきた。 ポーズによる言語観察は,機械学習による言語理解タスクの精度向上に有効であることを示す。 商用音声アシスタントによるフランス語と英語の発話の停止時間の解析は、複数の音素の境界付近の停止時間と、エンティティスパン内との統計的に有意な差を示した。 さらに、テキストベースのnluとは対照的に、エンティティの浅いパースを改善するために、コンテキスト埋め込みの強化に一時停止時間を適用する。 提案手法は,フランス語の3領域において,構文解析に付加的なアノテーションやアライメントのコストを伴わずに,相対誤差率を最大8%向上することを示した。

Entity tags in human-machine dialog are integral to natural language understanding (NLU) tasks in conversational assistants. However, current systems struggle to accurately parse spoken queries with the typical use of text input alone, and often fail to understand the user intent. Previous work in linguistics has identified a cross-language tendency for longer speech pauses surrounding nouns as compared to verbs. We demonstrate that the linguistic observation on pauses can be used to improve accuracy in machine-learnt language understanding tasks. Analysis of pauses in French and English utterances from a commercial voice assistant shows the statistically significant difference in pause duration around multi-token entity span boundaries compared to within entity spans. Additionally, in contrast to text-based NLU, we apply pause duration to enrich contextual embeddings to improve shallow parsing of entities. Results show that our proposed novel embeddings improve the relative error rate by up to 8% consistently across three domains for French, without any added annotation or alignment costs to the parser.
翻訳日:2021-09-28 15:54:11 公開日:2021-09-27
# 分布ロバストなマルチクラス分類と深部CNN画像分類への応用

Distributionally Robust Multiclass Classification and Applications in Deep CNN Image Classifiers ( http://arxiv.org/abs/2109.12772v1 )

ライセンス: Link先を確認
Ruidi Chen, Boran Hao, Ioannis Paschalidis(参考訳) 分散ロバスト最適化 (DRO) によるマルチクラスロジスティック回帰 (MLR) の定式化を行い, 異常値によるデータの汚染を許容する。 DROフレームワークは、ワッサーシュタイン計量の意味でのトレーニングセットの経験的分布に近い分布の球として定義される確率的曖昧性集合を使用する。 我々は DRO の定式化を、正則化が係数行列のノルムである正規化学習問題に緩和する。 予測誤差の制御における正則化器の役割についての洞察を提供するとともに,本モデルに対する解の正当性を保証する。 提案手法は,CNNに基づく画像分類器をランダムおよび逆攻撃に対して頑健にレンダリングする。 具体的には、MNISTとCIFAR-10データセットを使用して、テストエラー率を78.8%、損失を90.8%削減することを示した。 また,トレーニングセット内の摂動画像の限られた数で,経験的リスク最小化(ERM)と比較して最大49.49%の誤差率,最大68.93%の損失率を向上し,摂動画像の増加とともに理想的な損失/エラー率に収束することを示す。

We develop a Distributionally Robust Optimization (DRO) formulation for Multiclass Logistic Regression (MLR), which could tolerate data contaminated by outliers. The DRO framework uses a probabilistic ambiguity set defined as a ball of distributions that are close to the empirical distribution of the training set in the sense of the Wasserstein metric. We relax the DRO formulation into a regularized learning problem whose regularizer is a norm of the coefficient matrix. We establish out-of-sample performance guarantees for the solutions to our model, offering insights on the role of the regularizer in controlling the prediction error. We apply the proposed method in rendering deep CNN-based image classifiers robust to random and adversarial attacks. Specifically, using the MNIST and CIFAR-10 datasets, we demonstrate reductions in test error rate by up to 78.8% and loss by up to 90.8%. We also show that with a limited number of perturbed images in the training set, our method can improve the error rate by up to 49.49% and the loss by up to 68.93% compared to Empirical Risk Minimization (ERM), converging faster to an ideal loss/error rate as the number of perturbed images increases.
翻訳日:2021-09-28 15:52:01 公開日:2021-09-27
# 小さなサンプルから学ぶ:複数スケールで構成と局所性を持つ変換不変SVM

Learning from Small Samples: Transformation-Invar iant SVMs with Composition and Locality at Multiple Scales ( http://arxiv.org/abs/2109.12784v1 )

ライセンス: Link先を確認
Tao Liu, P. R. Kumar, Xi Liu(参考訳) トレーニングサンプル数が少ない場合の学習の問題に動機づけられた本論文は,畳み込みニューラルネットワーク(cnns)を成功させた特性をサポートベクトルマシン(svm)に組み込む方法を示す。 特に重要なのは、画像の翻訳的不変性など、不変性のドメイン知識を組み込む能力である。 変換群上の \textit{minimum} 距離に基づくカーネルは、可能な変換上の \textit{best} と類似性を定義するのに対応するが、一般には正定値ではない。 そのためか、以前は実験的な実験も理論的な研究も行われていなかった。 その代わり、以前の試みでは変換群上の \textit{average} 距離に基づくカーネルを採用しており、これは自明に正の定値であるが、概して粗利率と貧弱な性能の両方をもたらす。 我々はこのラグナに対処し、正の定性は、小さなトレーニングサンプルセットの興味のある状態における最小距離に基づいて、カーネルに対して真に \textit{with high probability} を保持することを示し、それらがその状態において最良の結果をもたらすことを示す。 CNNのもう1つの重要な特性は、局所的な特徴を複数の空間スケールで組み込む能力である。 3つ目の重要な特性は、複数のレイヤのアーキテクチャを通して構成の利点を提供する能力である。 これらの追加プロパティをSVMに組み込む方法を示す。 得られたSVMは、サンプルサイズを小さくするために確立されたニューラルネットワーク(DNN)ベンチマークと比較して、より優れた精度を提供する。

Motivated by the problem of learning when the number of training samples is small, this paper shows how to incorporate into support-vector machines (SVMs) those properties that have made convolutional neural networks (CNNs) successful. Particularly important is the ability to incorporate domain knowledge of invariances, e.g., translational invariance of images. Kernels based on the \textit{minimum} distance over a group of transformations, which corresponds to defining similarity as the \textit{best} over the possible transformations, are not generally positive definite. Perhaps it is for this reason that they have neither previously been experimentally tested for their performance nor studied theoretically. Instead, previous attempts have employed kernels based on the \textit{average} distance over a group of transformations, which are trivially positive definite, but which generally yield both poor margins as well as poor performance, as we show. We address this lacuna and show that positive definiteness indeed holds \textit{with high probability} for kernels based on the minimum distance in the small training sample set regime of interest, and that they do yield the best results in that regime. Another important property of CNNs is their ability to incorporate local features at multiple spatial scales, e.g., through max pooling. A third important property is their ability to provide the benefits of composition through the architecture of multiple layers. We show how these additional properties can also be embedded into SVMs. We verify through experiments on widely available image sets that the resulting SVMs do provide superior accuracy in comparison to well-established neural network (DNN) benchmarks for small sample sizes.
翻訳日:2021-09-28 15:51:37 公開日:2021-09-27
# 最小最適ニューラルネットワークの探索

Searching for Minimal Optimal Neural Networks ( http://arxiv.org/abs/2109.13061v1 )

ライセンス: Link先を確認
Lam Si Tung Ho, Vu Dinh(参考訳) 大きなニューラルネットワークモデルは高い予測力を持つが、トレーニングセットが十分に大きくない場合、過度に適合する。 したがって、ニューラルネットワークの適切なサイズを選択することが望ましい。 破壊的なアプローチは、大きなアーキテクチャから始まり、lassoタイプのペナルティを使ってサイズを小さくするが、このタスクに広く使われている。 その人気にもかかわらず、この技法の理論的保証はない。 最小ニューラルネットワークの概念に基づき,破壊手法の漸近理論を研究するための厳密な数学的枠組みを仮定する。 適応群lassoは一貫性があり、1階層フィードフォワードネットワークの隠れノード数を高い確率で再構成できることを示す。 私たちの知る限りでは、これは破壊技術のための最初の理論的な結果です。

Large neural network models have high predictive power but may suffer from overfitting if the training set is not large enough. Therefore, it is desirable to select an appropriate size for neural networks. The destructive approach, which starts with a large architecture and then reduces the size using a Lasso-type penalty, has been used extensively for this task. Despite its popularity, there is no theoretical guarantee for this technique. Based on the notion of minimal neural networks, we posit a rigorous mathematical framework for studying the asymptotic theory of the destructive technique. We prove that Adaptive group Lasso is consistent and can reconstruct the correct number of hidden nodes of one-hidden-layer feedforward networks with high probability. To the best of our knowledge, this is the first theoretical result establishing for the destructive technique.
翻訳日:2021-09-28 15:51:09 公開日:2021-09-27
# グラフエンコーダの埋め込み

Graph Encoder Embedding ( http://arxiv.org/abs/2109.13098v1 )

ライセンス: Link先を確認
Cencheng Shen, Qizhe Wang, Carey E. Priebe(参考訳) 本稿では,グラフエンコーダ埋め込みと呼ばれるライトニング高速グラフ埋め込み手法を提案する。 提案手法は線形計算の複雑さと、標準pc上で数分で数十億のエッジを処理できる能力を有しており、既存のグラフ埋め込み手法では実現不可能である。 エンコーダの埋め込みは性能が良く、よりコストのかかるスペクトル埋め込みの変換と見なすことができる。 エンコーダ埋め込みは隣接行列またはグラフラプラシアンのいずれかに適用でき、理論的には、確率的ブロックモデルまたはランダムドット積グラフの下では、漸近的にブロック確率または潜在位置へ収束するグラフエンコーダは、概ね正規分布する。 本稿では,頂点分類,頂点クラスタリング,グラフブートストラップの3つの重要な応用例を紹介する。 いずれの場合も、グラフエンコーダの埋め込みは、優れた数値性能を提供しながら、計算上の優位性に欠ける。

In this paper we propose a lightning fast graph embedding method called graph encoder embedding. The proposed method has a linear computational complexity and the capacity to process billions of edges within minutes on standard PC -- an unattainable feat for any existing graph embedding method. The speedup is achieved without sacrificing embedding performance: the encoder embedding performs as good as, and can be viewed as a transformation of the more costly spectral embedding. The encoder embedding is applicable to either adjacency matrix or graph Laplacian, and is theoretically sound, i.e., under stochastic block model or random dot product graph, the graph encoder embedding asymptotically converges to the block probability or latent positions, and is approximately normally distributed. We showcase three important applications: vertex classification, vertex clustering, and graph bootstrap; and the embedding performance is evaluated via a comprehensive set of synthetic and real data. In every case, the graph encoder embedding exhibits unrivalled computational advantages while delivering excellent numerical performance.
翻訳日:2021-09-28 15:50:59 公開日:2021-09-27
# 深部集合行列三要素化によるマルチウェイクラスタリングと距離解析

Multi-way Clustering and Discordance Analysis through Deep Collective Matrix Tri-Factorization ( http://arxiv.org/abs/2109.13164v1 )

ライセンス: Link先を確認
Ragunathan Mariappan, Vaibhav Rajan(参考訳) 不均一なマルチタイプ・マルチモーダルリレーショナルデータは、多くの領域で利用され、探索分析はいくつかの課題を提起している。 我々は,神経教師なし学習における最先端の学習を前進させ,そのデータを分析する。 任意の行列集合の集合行列三要素化のための最初のニューラルネットワークを設計し、全ての構成要素のスペクトルクラスタリングを行い、クラスタアソシエーションを学習する。 ベンチマークデータセットに関する実験は、これまでの非神経的アプローチに対する効果を示している。 マルチウェイクラスタリングおよび集合行列補完からの信号を活用することで、2つのエンティティに関するコレクション内の行列のサブセット間での情報格差を明らかにする、Discordance Analysisと呼ばれるユニークな手法を設計する。 本稿では,知識ベースの品質評価と表現学習の改善にその有用性を示す。

Heterogeneous multi-typed, multimodal relational data is increasingly available in many domains and their exploratory analysis poses several challenges. We advance the state-of-the-art in neural unsupervised learning to analyze such data. We design the first neural method for collective matrix tri-factorization of arbitrary collections of matrices to perform spectral clustering of all constituent entities and learn cluster associations. Experiments on benchmark datasets demonstrate its efficacy over previous non-neural approaches. Leveraging signals from multi-way clustering and collective matrix completion we design a unique technique, called Discordance Analysis, to reveal information discrepancies across subsets of matrices in a collection with respect to two entities. We illustrate its utility in quality assessment of knowledge bases and in improving representation learning.
翻訳日:2021-09-28 15:50:42 公開日:2021-09-27
# minihack the planet:オープンな強化学習研究のためのサンドボックス

MiniHack the Planet: A Sandbox for Open-Ended Reinforcement Learning Research ( http://arxiv.org/abs/2109.13202v1 )

ライセンス: Link先を確認
Mikayel Samvelyan, Robert Kirk, Vitaly Kurin, Jack Parker-Holder, Minqi Jiang, Eric Hambro, Fabio Petroni, Heinrich K\"uttler, Edward Grefenstette, Tim Rockt\"aschel(参考訳) 深層強化学習(RL)の進歩は、訓練エージェントに使用される挑戦的なベンチマークが利用可能であることによって大きく左右される。 しかし、コミュニティによって広く採用されているベンチマークは、RLメソッドの特定の機能を評価するために明示的に設計されていない。 RLの特定のオープンな問題を評価する環境(探索、移動学習、教師なし環境設計、言語支援RLなど)が存在するが、研究が概念実証を超えると、これらをよりリッチで複雑な環境に拡張することは一般的に困難である。 新規なRL環境を容易に設計するための強力なサンドボックスフレームワークであるMiniHackを提案する。 MiniHackは、小さな部屋から複雑な手続き的に生成された世界まで、RL実験のためのワンストップショップだ。 最もリッチなグリッドベースのビデオゲームであるNetHackのエンティティと環境ダイナミクスの完全なセットを活用することで、MiniHackは、高速で使いやすいカスタムRLテストベッドを設計できる。 このサンドボックスフレームワークでは、人間で読める記述言語か単純なpythonインターフェイスを使用して、新しい環境を簡単に設計できる。 さまざまなRLタスクとベースラインに加えて、MiniHackは既存のRLベンチマークをラップし、シームレスに複雑さを追加する方法を提供する。

The progress in deep reinforcement learning (RL) is heavily driven by the availability of challenging benchmarks used for training agents. However, benchmarks that are widely adopted by the community are not explicitly designed for evaluating specific capabilities of RL methods. While there exist environments for assessing particular open problems in RL (such as exploration, transfer learning, unsupervised environment design, or even language-assisted RL), it is generally difficult to extend these to richer, more complex environments once research goes beyond proof-of-concept results. We present MiniHack, a powerful sandbox framework for easily designing novel RL environments. MiniHack is a one-stop shop for RL experiments with environments ranging from small rooms to complex, procedurally generated worlds. By leveraging the full set of entities and environment dynamics from NetHack, one of the richest grid-based video games, MiniHack allows designing custom RL testbeds that are fast and convenient to use. With this sandbox framework, novel environments can be designed easily, either using a human-readable description language or a simple Python interface. In addition to a variety of RL tasks and baselines, MiniHack can wrap existing RL benchmarks and provide ways to seamlessly add additional complexity.
翻訳日:2021-09-28 15:50:29 公開日:2021-09-27
# 機械学習による医用画像のディープフェイク検出--比較研究

Machine Learning based Medical Image Deepfake Detection: A Comparative Study ( http://arxiv.org/abs/2109.12800v1 )

ライセンス: Link先を確認
Siddharth Solaiyappan, Yuxin Wen(参考訳) 近年のディープジェネレーティブネットワークは、デジタル情報の様々なモダリティを消費しながら、注意の必要性を高めている。 ディープフェイクの創造の1つの道は、医療用スキャンから腫瘍の注入と除去と一致している。 医療用ディープフェイクの発見に失敗すると、病院のリソースが大幅に低下したり、命を失うことさえある。 本稿では,このような攻撃の検知に,構造化ケーススタディを用いて取り組む。 我々は,異なる機械学習アルゴリズムと事前訓練された畳み込みニューラルネットワークを,改ざんされたデータと未改ざんデータの区別で評価する。 本研究は,腫瘍注入および摘出例の検出において,ほぼ完全な精度を示した。

Deep generative networks in recent years have reinforced the need for caution while consuming various modalities of digital information. One avenue of deepfake creation is aligned with injection and removal of tumors from medical scans. Failure to detect medical deepfakes can lead to large setbacks on hospital resources or even loss of life. This paper attempts to address the detection of such attacks with a structured case study. We evaluate different machine learning algorithms and pretrained convolutional neural networks on distinguishing between tampered and untampered data. The findings of this work show near perfect accuracy in detecting instances of tumor injections and removals.
翻訳日:2021-09-28 15:48:02 公開日:2021-09-27
# メタアグリゲータ: 1ビットグラフニューラルネットワークのためのアグリゲータ学習

Meta-Aggregator: Learning to Aggregate for 1-bit Graph Neural Networks ( http://arxiv.org/abs/2109.12872v1 )

ライセンス: Link先を確認
Yongcheng Jing, Yiding Yang, Xinchao Wang, Mingli Song, Dacheng Tao(参考訳) 本稿では,二元化グラフニューラルネットワーク(gnns)に向けた新しいメタアグリゲーション手法について検討する。 まず、GNNパラメータとグラフ特徴の両方をバイナライズするバニラ1ビットGNNフレームワークを開発する。 軽量なアーキテクチャにもかかわらず、このバニラフレームワークはグラフトポロジを区別する上で識別力の不足に悩まされ、パフォーマンスが劇的に低下するのを観察しました。 この発見は、二元化特徴に基づいて学習可能な方法でアグリゲーションスキームを適応的に変更できるバニラ二元化gnnの表現力を向上させるためにメタアグリゲータを考案する動機付けとなります。 この目的のために,2種類のメタ近隣アグリゲータ,Greedy Gumbel Neighborhood Aggregator (GNA) と呼ばれる排他的メタアグリゲータ,およびAdaptable Hybrid Neighborhood Aggregator (ANA) と呼ばれる拡散的メタアグリゲータを提案する。 GNAは一つの最適なアグリゲータを候補のプールからのみ選択することを学び、ANAは複数の個別アグリゲータの利点を同時に保持するためにハイブリッドアグリゲータの振る舞いを学ぶ。 さらに、提案するメタアグリゲータは、既存の完全なgnnへの汎用プラグインモジュールとして機能する。 種々の領域にわたる実験により,提案手法が技術状況よりも優れた結果をもたらすことを示した。

In this paper, we study a novel meta aggregation scheme towards binarizing graph neural networks (GNNs). We begin by developing a vanilla 1-bit GNN framework that binarizes both the GNN parameters and the graph features. Despite the lightweight architecture, we observed that this vanilla framework suffered from insufficient discriminative power in distinguishing graph topologies, leading to a dramatic drop in performance. This discovery motivates us to devise meta aggregators to improve the expressive power of vanilla binarized GNNs, of which the aggregation schemes can be adaptively changed in a learnable manner based on the binarized features. Towards this end, we propose two dedicated forms of meta neighborhood aggregators, an exclusive meta aggregator termed as Greedy Gumbel Neighborhood Aggregator (GNA), and a diffused meta aggregator termed as Adaptable Hybrid Neighborhood Aggregator (ANA). GNA learns to exclusively pick one single optimal aggregator from a pool of candidates, while ANA learns a hybrid aggregation behavior to simultaneously retain the benefits of several individual aggregators. Furthermore, the proposed meta aggregators may readily serve as a generic plugin module into existing full-precision GNNs. Experiments across various domains demonstrate that the proposed method yields results superior to the state of the art.
翻訳日:2021-09-28 15:47:55 公開日:2021-09-27
# GANiry:CycleGANを用いたBald-to-Hairy翻訳

GANiry: Bald-to-Hairy Translation Using CycleGAN ( http://arxiv.org/abs/2109.13126v1 )

ライセンス: Link先を確認
Fidan Samet and Oguz Bakir(参考訳) 本稿では,CycleGANを用いたハゲマンツーヘアマン翻訳というコンピュータビジョンコースプロジェクトについて紹介する。 CycleGANアーキテクチャの上に、より現実的な結果を得るために知覚損失を利用する。 また, 条件制約を組み合わさって, ハゲ男に異なるスタイルの髪と着色髪を得る。 本稿では,広範囲な実験を行い,定性的な結果を得た。 私たちのコードとモデルはhttps://github.com/f idansamet/ganiryで利用可能です。

This work presents our computer vision course project called bald men-to-hairy men translation using CycleGAN. On top of CycleGAN architecture, we utilize perceptual loss in order to achieve more realistic results. We also integrate conditional constrains to obtain different stylized and colored hairs on bald men. We conducted extensive experiments and present qualitative results in this paper. Our code and models are available at https://github.com/f idansamet/GANiry.
翻訳日:2021-09-28 15:47:30 公開日:2021-09-27
# BigSSL: 音声認識のための大規模半教師付き学習のフロンティアを探る

BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition ( http://arxiv.org/abs/2109.13226v1 )

ライセンス: Link先を確認
Yu Zhang, Daniel S. Park, Wei Han, James Qin, Anmol Gulati, Joel Shor, Aren Jansen, Yuanzhong Xu, Yanping Huang, Shibo Wang, Zongwei Zhou, Bo Li, Min Ma, William Chan, Jiahui Yu, Yongqiang Wang, Liangliang Cao, Khe Chai Sim, Bhuvana Ramabhadran, Tara N. Sainath, Fran\c{c}oise Beaufays, Zhifeng Chen, Quoc V. Le, Chung-Cheng Chiu, Ruoming Pang and Yonghui Wu(参考訳) 約100万時間に及ぶ音声を含む大規模で多様なラベル付きデータセットを用いて事前訓練された巨大な自動音声認識(ASR)モデルを用いた研究成果を要約する。 ラベル付きデータ数万時間の非常に大きなタスクであっても,事前学習,自己学習,モデルサイズのスケールアップの組み合わせによってデータ効率が大幅に向上することがわかった。 特に、ラベル付きデータ34k時間のASRタスクでは、80億のパラメータ事前トレーニングコンバータモデルを微調整することで、トレーニングデータのわずか3%で最先端(SoTA)のパフォーマンスと一致させ、完全なトレーニングセットでSoTAを大幅に改善することができる。 また,多くの公的なベンチマークでSoTAの性能を得るなど,幅広い音声領域をカバーし,複数桁のデータセットサイズにまたがる大量の下流タスクに対して,事前学習および自己学習の大規模なモデルを使用することによって得られる,普遍的なメリットについて報告する。 さらに,事前学習ネットワークの学習表現を利用して,非ASRタスクにおけるSoTA結果を実現する。

We summarize the results of a host of efforts using giant automatic speech recognition (ASR) models pre-trained using large, diverse unlabeled datasets containing approximately a million hours of audio. We find that the combination of pre-training, self-training and scaling up model size greatly increases data efficiency, even for extremely large tasks with tens of thousands of hours of labeled data. In particular, on an ASR task with 34k hours of labeled data, by fine-tuning an 8 billion parameter pre-trained Conformer model we can match state-of-the-art (SoTA) performance with only 3% of the training data and significantly improve SoTA with the full training set. We also report on the universal benefits gained from using big pre-trained and self-trained models for a large set of downstream tasks that cover a wide range of speech domains and span multiple orders of magnitudes of dataset sizes, including obtaining SoTA performance on many public benchmarks. In addition, we utilize the learned representation of pre-trained networks to achieve SoTA results on non-ASR tasks.
翻訳日:2021-09-28 15:46:01 公開日:2021-09-27
# ランク付けによるマルチモーダル報酬の学習

Learning Multimodal Rewards from Rankings ( http://arxiv.org/abs/2109.12750v1 )

ライセンス: Link先を確認
Vivek Myers, Erdem B{\i}y{\i}k, Nima Anari, Dorsa Sadigh(参考訳) 人間のフィードバックから学ぶことは、ロボット報酬関数の獲得に有用な方法であることが示されている。 しかし、専門家のフィードバックは、基礎となる一助報酬関数から引き出されることが多い。 この仮定は、複数の専門家がデータを提供する設定や、ひとつの専門家が異なるタスクのためにデータを提供する設定を含むとは限らない。 本研究では,混合学習問題としてマルチモーダル報酬学習を定式化し,与えられた特徴量のランク付けのみを専門とする新しいランキングベースの学習手法を開発する。 さらに,ロボット工学では対話データへのアクセスが高価であるため,学習プロセスを高速化するアクティブクエリ手法を開発した。 我々はOpenAIのLunarLanderのマルチタスク版と実際のFetchロボットを用いて実験とユーザスタディを行い、異なる好みの複数のユーザからデータを収集する。 その結果,マルチモーダル報酬関数を効率的に学習でき,学習問題に適応するベンチマーク手法よりもデータ効率が向上できることが示唆された。

Learning from human feedback has shown to be a useful approach in acquiring robot reward functions. However, expert feedback is often assumed to be drawn from an underlying unimodal reward function. This assumption does not always hold including in settings where multiple experts provide data or when a single expert provides data for different tasks -- we thus go beyond learning a unimodal reward and focus on learning a multimodal reward function. We formulate the multimodal reward learning as a mixture learning problem and develop a novel ranking-based learning approach, where the experts are only required to rank a given set of trajectories. Furthermore, as access to interaction data is often expensive in robotics, we develop an active querying approach to accelerate the learning process. We conduct experiments and user studies using a multi-task variant of OpenAI's LunarLander and a real Fetch robot, where we collect data from multiple users with different preferences. The results suggest that our approach can efficiently learn multimodal reward functions, and improve data-efficiency over benchmark methods that we adapt to our learning problem.
翻訳日:2021-09-28 15:45:30 公開日:2021-09-27
# 自動運転における車両軌道予測のためのグラフに基づく時空間畳み込みネットワーク

Graph-Based Spatial-Temporal Convolutional Network for Vehicle Trajectory Prediction in Autonomous Driving ( http://arxiv.org/abs/2109.12764v1 )

ライセンス: Link先を確認
Zihao Sheng, Yunwen Xu, Shibei Xue, and Dewei Li(参考訳) 隣接する車両の軌道を予測することは、自動運転車の意思決定と行動計画にとって重要なステップである。 本稿では,過去のトラジェクタを用いた周辺車両の軌道分布予測のためのグラフベース時空間畳み込みネットワーク(gstcn)を提案する。 このネットワークは、グラフ畳み込みネットワーク(GCN)を用いて空間的相互作用に取り組み、畳み込みニューラルネットワーク(CNN)を用いて時間的特徴をキャプチャする。 空間的-時間的特徴をゲートリカレントユニット(gru)ネットワークで符号化して将来の軌道分布を生成する。 また,車両間の相互影響の強さを記述するための重み付き隣接行列を提案し,提案手法の有効性を示す。 本ネットワークは次世代シミュレーション(ngsim)のi-80とus-101の2つの実世界の軌道データセットで評価されている。 予測誤差,モデルサイズ,推論速度などの3つの側面の比較により,我々のネットワークが最先端の性能を発揮することを示す。

Forecasting the trajectories of neighbor vehicles is a crucial step for decision making and motion planning of autonomous vehicles. This paper proposes a graph-based spatial-temporal convolutional network (GSTCN) to predict future trajectory distributions of all neighbor vehicles using past trajectories. This network tackles the spatial interactions using a graph convolutional network (GCN), and captures the temporal features with a convolutional neural network (CNN). The spatial-temporal features are encoded and decoded by a gated recurrent unit (GRU) network to generate future trajectory distributions. Besides, we propose a weighted adjacency matrix to describe the intensities of mutual influence between vehicles, and the ablation study demonstrates the effectiveness of our proposed scheme. Our network is evaluated on two real-world freeway trajectory datasets: I-80 and US-101 in the Next Generation Simulation (NGSIM).Comparisons in three aspects, including prediction errors, model sizes, and inference speeds, show that our network can achieve state-of-the-art performance.
翻訳日:2021-09-28 15:45:10 公開日:2021-09-27
# HAGEN: 犯罪予測のためのホモフィックなグラフ畳み込みリカレントネットワーク

HAGEN: Homophily-Aware Graph Convolutional Recurrent Network for Crime Forecasting ( http://arxiv.org/abs/2109.12846v1 )

ライセンス: Link先を確認
Chenyu Wang, Zongyu Lin, Xiaochen Yang, Jiao Sun, Mingxuan Yue, Cyrus Shahabi(参考訳) 犯罪予測は都市安全に大きく貢献するため、重要な問題である。 通常、この問題の目的は、近い将来、各地域(近隣地域や検閲区域など)の異なる種類の犯罪を予測することである。 近辺の地域は通常、同様の犯罪パターンを示す類似の社会経済特性を持っているため、最近の最先端のソリューションは、距離ベースの地域グラフを構築し、gnn(graph neural network)技術を使用して犯罪予測を行った。 しかし、この距離ベースの事前定義グラフは、互いに遠いが類似した犯罪パターンを共有する領域間の犯罪相関を完全に把握することはできない。 したがって、正確な犯罪予測を行うためには、犯罪発生時の地域間の依存関係を明らかにするためのより良いグラフを学習し、同時に過去の犯罪記録から時間的パターンを捉えることが主な課題である。 これらの課題に対処するために,犯罪予測のための新しい設計のHAGENと呼ばれるエンドツーエンドのグラフ畳み込みリカレントネットワークを提案する。 具体的には、適応型領域グラフ学習モジュールと拡散畳み込みGated Recurrent Unit(DCGRU)を組み合わせることで、地域と時間犯罪の相関関係を共同で捉えることができる。 gnnのホモフィリー仮定に基づいて,領域グラフの最適化を正則化するホモフィアウェア制約を提案し,学習グラフ上の隣接領域ノードが類似した犯罪パターンを共有することにより,拡散畳み込みのメカニズムを適合させる。 また、犯罪の埋め込みを取り入れ、地域と犯罪カテゴリー間の相互依存をモデル化する。 2つの実世界のデータセットに関する実証実験と包括的な分析は、HAGENの有効性を示している。

The crime forecasting is an important problem as it greatly contributes to urban safety. Typically, the goal of the problem is to predict different types of crimes for each geographical region (like a neighborhood or censor tract) in the near future. Since nearby regions usually have similar socioeconomic characteristics which indicate similar crime patterns, recent state-of-the-art solutions constructed a distance-based region graph and utilized Graph Neural Network (GNN) techniques for crime forecasting, because the GNN techniques could effectively exploit the latent relationships between neighboring region nodes in the graph. However, this distance-based pre-defined graph cannot fully capture crime correlation between regions that are far from each other but share similar crime patterns. Hence, to make an accurate crime prediction, the main challenge is to learn a better graph that reveals the dependencies between regions in crime occurrences and meanwhile captures the temporal patterns from historical crime records. To address these challenges, we propose an end-to-end graph convolutional recurrent network called HAGEN with several novel designs for crime prediction. Specifically, our framework could jointly capture the crime correlation between regions and the temporal crime dynamics by combining an adaptive region graph learning module with the Diffusion Convolution Gated Recurrent Unit (DCGRU). Based on the homophily assumption of GNN, we propose a homophily-aware constraint to regularize the optimization of the region graph so that neighboring region nodes on the learned graph share similar crime patterns, thus fitting the mechanism of diffusion convolution. It also incorporates crime embedding to model the interdependencies between regions and crime categories. Empirical experiments and comprehensive analysis on two real-world datasets showcase the effectiveness of HAGEN.
翻訳日:2021-09-28 15:44:53 公開日:2021-09-27
# ベイジアンプライバシによる深層学習のフェデレーション

Federated Deep Learning with Bayesian Privacy ( http://arxiv.org/abs/2109.13012v1 )

ライセンス: Link先を確認
Hanlin Gu, Lixin Fan, Bowen Li, Yan Kang, Yuan Yao and Qiang Yang(参考訳) federated learning(fl)は,プライベートデータをユーザ間で共有することなく,モデルを協調的に学習することで,データのプライバシを保護することを目的とする。 何十億ものモデルパラメータを持つディープニューラルネットワークのフェデレートラーニングでは、既存のプライバシ保護ソリューションは満足できない。 準同型暗号化(he)ベースの手法はセキュアなプライバシー保護を提供するが、計算と通信のオーバーヘッドが極めて高く、実際にはほとんど役に立たない。 差分プライバシ(DP)を用いたディープラーニングは,複雑な管理コストで実践的な学習アルゴリズムとして実装された。 しかし,本研究は,本研究の成果を実証し,本研究の文献に示すように,攻撃的ベイズ修復攻撃に対して脆弱である。 以上の問題に対処するために,ベイズ修復攻撃を,観察された公開情報から個人データを再構築する確率として定式化する,ベイズプライバシ(bp)フレームワークを提案する。 特に,提案するbpフレームワークは,kllback-leibler (kl) によるプライバシ損失を正確に定量化する。 私たちの知る限り、ベイジアンプライバシー分析は、ベイジアン復元攻撃に対する安全なプライバシー保護機能を理論的に正当化する最初のものである。 具体的なユースケースとして,プライベートパスポート層を用いた新しい連合型ディープラーニング手法が,高いモデル性能,プライバシ保存能力,計算複雑性を同時に達成できることを実証する。 理論的解析は、画像分類MNIST、CIFAR10、CIFAR100データセットにおいて、様々なDNNネットワークで広範囲に実験された情報漏洩の実験的測定に従っている。

Federated learning (FL) aims to protect data privacy by cooperatively learning a model without sharing private data among users. For Federated Learning of Deep Neural Network with billions of model parameters, existing privacy-preserving solutions are unsatisfactory. Homomorphic encryption (HE) based methods provide secure privacy protections but suffer from extremely high computational and communication overheads rendering it almost useless in practice . Deep learning with Differential Privacy (DP) was implemented as a practical learning algorithm at a manageable cost in complexity. However, DP is vulnerable to aggressive Bayesian restoration attacks as disclosed in the literature and demonstrated in experimental results of this work. To address the aforementioned perplexity, we propose a novel Bayesian Privacy (BP) framework which enables Bayesian restoration attacks to be formulated as the probability of reconstructing private data from observed public information. Specifically, the proposed BP framework accurately quantifies privacy loss by Kullback-Leibler (KL) Divergence between the prior distribution about the privacy data and the posterior distribution of restoration private data conditioning on exposed information}. To our best knowledge, this Bayesian Privacy analysis is the first to provides theoretical justification of secure privacy-preserving capabilities against Bayesian restoration attacks. As a concrete use case, we demonstrate that a novel federated deep learning method using private passport layers is able to simultaneously achieve high model performance, privacy-preserving capability and low computational complexity. Theoretical analysis is in accordance with empirical measurements of information leakage extensively experimented with a variety of DNN networks on image classification MNIST, CIFAR10, and CIFAR100 datasets.
翻訳日:2021-09-28 15:44:25 公開日:2021-09-27
# Fake Nodesを使用したグラフ上のクエリベースの逆攻撃

Query-based Adversarial Attacks on Graph with Fake Nodes ( http://arxiv.org/abs/2109.13069v1 )

ライセンス: Link先を確認
Zhengyi Wang, Zhongkai Hao, Hang Su, Jun Zhu(参考訳) ディープニューラルネットワークはグラフ解析において大きな成功を収めているが、最近の研究では、不正なユーザが限られたクエリ数でモデルを騙せる敵攻撃にも弱いことが示されている。 画像分類に対する敵対的攻撃と比較して、グラフの離散性と非微分性のため、グラフに対する敵対的攻撃を実行することは困難である。 これらの問題に対処するために,我々は,特定の被害者ノードの分類を誤解させるような偽ノードの集合を元のグラフに導入することにより,新たな敵対攻撃であるクラスタアタックを提案する。 具体的には、被害者ノード毎の被害者モデルに問い合わせて、最も敵対的な機能を取得する。 我々はさらに、探索空間を縮小できるような最も敵対的な特徴に従って、被害者ノードを複数のサブグループにクラスタリングする。 また,本攻撃は,(1)攻撃時に変更されないように意図されていないノードのラベルを保護し,実用的かつ注意すべきでない方法で実施する。 2) 既存のリンクや機能を変更することなく,元のグラフに偽ノードを導入することで攻撃する。 3)攻撃対象のグラフ、すなわち、被害者のノードの情報と隣人に関する情報をグラフ全体ではなく$k$-hop内で活用することで、部分的な情報のみを用いて攻撃を行う。 (4) モデルアーキテクチャやパラメータを使わずに,ブラックボックス方式でモデルを予測したスコアについて,限られたクエリ数でアタックを実行する。 広範な実験により,攻撃成功率の観点から本手法の有効性を実証した。

While deep neural networks have achieved great success on the graph analysis, recent works have shown that they are also vulnerable to adversarial attacks where fraudulent users can fool the model with a limited number of queries. Compared with adversarial attacks on image classification, performing adversarial attack on graphs is challenging because of the discrete and non-differential nature of a graph. To address these issues, we proposed Cluster Attack, a novel adversarial attack by introducing a set of fake nodes to the original graph which can mislead the classification on certain victim nodes. Specifically, we query the victim model for each victim node to acquire their most adversarial feature, which is related to how the fake node's feature will affect the victim nodes. We further cluster the victim nodes into several subgroups according to their most adversarial features such that we can reduce the searching space. Moreover, our attack is performed in a practical and unnoticeable manner: (1) We protect the predicted labels of nodes which we are not aimed for from being changed during attack. (2) We attack by introducing fake nodes into the original graph without changing existing links and features. (3) We attack with only partial information about the attacked graph, i.e., by leveraging the information of victim nodes along with their neighbors within $k$-hop instead of the whole graph. (4) We perform attack with a limited number of queries about the predicted scores of the model in a black-box manner, i.e., without model architecture and parameters. Extensive experiments demonstrate the effectiveness of our method in terms of the success rate of attack.
翻訳日:2021-09-28 15:43:53 公開日:2021-09-27
# 完全根木上の確率分布

Probability Distribution on Full Rooted Trees ( http://arxiv.org/abs/2109.12825v1 )

ライセンス: Link先を確認
Yuta Nakahara, Shota Saito, Akira Kamatsuka, Toshiyasu Matsushima(参考訳) 完全根付き木の再帰的かつ階層的な構造は、データ圧縮、画像処理、機械学習といった様々な領域で使用される。 これらの研究のほとんどにおいて、完全根木はランダム変数ではない。 これは過剰適合を避けるためにモデル選択の問題を引き起こす。 解く一つの方法は、全根木上の事前分布を仮定することである。 これによりベイズ決定理論に基づく過度な適合を避けることができる。 例えば、複雑なモデルに低い事前確率を割り当てることによって、MAP推定器はオーバーフィッティングを防ぐ。 さらに, 後部モデルの重み付けを平均化することにより, 回避できる。 本稿では,全根樹群における確率分布を提案する。 そのパラメトリック表現は、再帰関数(モード、期待、後方分布など)によって分布の性質を計算するのに適しています。 以前の研究ではそのような分布を提案したが、特定の用途に当てはまる。 そこで,その数学的本質的な部分を抽出し,期待値や後方分布などを計算する新しい一般化手法を導出する。

The recursive and hierarchical structure of full rooted trees is used in various areas such as data compression, image processing, and machine learning. In most of these studies, the full rooted tree is not a random variable. It causes a problem of model selection to avoid overfitting. One method to solve it is to assume a prior distribution on the full rooted trees. It enables us to avoid overfitting based on the Bayes decision theory. For example, by assigning a low prior probability on a complex model, the MAP estimator prevents the overfitting. Further, we can avoid it by averaging all the models weighted by their posteriors. In this paper, we propose a probability distribution on a set of full rooted trees. Its parametric representation is well suited to calculate the properties of our distribution by recursive functions: the mode, the expectation, the posterior distribution, etc. Although some previous studies have proposed such distributions, they are for specific applications. Therefore, we extract the mathematically essential part of them and derive new generalized methods to calculate the expectation, the posterior distribution, etc.
翻訳日:2021-09-28 15:42:29 公開日:2021-09-27
# 過パラメータ線形モデルにおける分類と逆例:信号処理の観点から

Classification and Adversarial examples in an Overparameterized Linear Model: A Signal Processing Perspective ( http://arxiv.org/abs/2109.13215v1 )

ライセンス: Link先を確認
Adhyyan Narang, Vidya Muthukumar, Anant Sahai(参考訳) 最先端のディープラーニング分類器は、トレーニングサンプルの量に関して非常に過度にパラメータ化され、"クリーン"データに基づいてよく一般化されるが、無限の逆境の摂動に非常に敏感である。 本稿では、これらの両方の挙動を示す「リフト」フーリエ特徴写像を用いて、過パラメータ化線形アンサンブルを同定する。 入力は1次元であり、敵は直交しない特徴ではなく、これらの入力を直接摂動することしか許されない。 学習されたモデルは、分類が一般化するが回帰はしない中間体制の敵に感受性がある。 特に、モデルの誤特定やラベルノイズがないにもかかわらず、その感受性は生じる。 これらの結果は理論上、二重発振挙動を示すランダムフーリエサム構成に拡張される。 両方の特徴セットにおいて、逆境の脆弱性は、私たちが空間的局所化と呼ぶ現象によって生じる:学習されたモデルの予測は、他のものよりもトレーニングポイントの近傍で顕著に敏感である。 この感度は機能持ち上げの結果であり、信号処理と機能解析によるギブとランゲの現象を想起させる。 敵対的感受性にもかかわらず、これらの特徴による分類は、一般に研究されている「非依存的特徴」モデルよりも容易である。

State-of-the-art deep learning classifiers are heavily overparameterized with respect to the amount of training examples and observed to generalize well on "clean" data, but be highly susceptible to infinitesmal adversarial perturbations. In this paper, we identify an overparameterized linear ensemble, that uses the "lifted" Fourier feature map, that demonstrates both of these behaviors. The input is one-dimensional, and the adversary is only allowed to perturb these inputs and not the non-linear features directly. We find that the learned model is susceptible to adversaries in an intermediate regime where classification generalizes but regression does not. Notably, the susceptibility arises despite the absence of model mis-specification or label noise, which are commonly cited reasons for adversarial-suscepti bility. These results are extended theoretically to a random-Fourier-sum setup that exhibits double-descent behavior. In both feature-setups, the adversarial vulnerability arises because of a phenomenon we term spatial localization: the predictions of the learned model are markedly more sensitive in the vicinity of training points than elsewhere. This sensitivity is a consequence of feature lifting and is reminiscent of Gibb's and Runge's phenomena from signal processing and functional analysis. Despite the adversarial susceptibility, we find that classification with these features can be easier than the more commonly studied "independent feature" models.
翻訳日:2021-09-28 15:42:16 公開日:2021-09-27
# ゼロショット言語間伝達学習によるうわさ検出

Rumour Detection via Zero-shot Cross-lingual Transfer Learning ( http://arxiv.org/abs/2109.12773v1 )

ライセンス: Link先を確認
Lin Tian, Xiuzhen Zhang and Jey Han Lau(参考訳) ソーシャルメディアのほとんどの噂検出モデルは、特定の言語(主に英語)のために設計されている。 Twitterには40以上の言語があり、ほとんどの言語には噂検出モデルを構築するための注釈付きリソースが欠けている。 本稿では,ソース言語のために訓練された噂検出モデルを他のターゲット言語に適応できるゼロショット言語間移動学習フレームワークを提案する。 本フレームワークは,事前学習された多言語モデル(例えば,多言語bert)と自己学習ループを用いて,対象言語における'シルバーラベル'の生成を反復的にブートストラップし,ソース言語から対象言語にモデルを適応させる。 提案手法を英語と中国語の噂データセットで評価し,本モデルがソースとターゲット言語の両方の噂検出における競合ベンチマークを実質的に上回っていることを示す。

Most rumour detection models for social media are designed for one specific language (mostly English). There are over 40 languages on Twitter and most languages lack annotated resources to build rumour detection models. In this paper we propose a zero-shot cross-lingual transfer learning framework that can adapt a rumour detection model trained for a source language to another target language. Our framework utilises pretrained multilingual language models (e.g.\ multilingual BERT) and a self-training loop to iteratively bootstrap the creation of ''silver labels'' in the target language to adapt the model from the source language to the target language. We evaluate our methodology on English and Chinese rumour datasets and demonstrate that our model substantially outperforms competitive benchmarks in both source and target language rumour detection.
翻訳日:2021-09-28 15:35:37 公開日:2021-09-27
# 偽ニュース検出: 言語機能を超えた実験とアプローチ

Fake News Detection: Experiments and Approaches beyond Linguistic Features ( http://arxiv.org/abs/2109.12914v1 )

ライセンス: Link先を確認
Shaily Bhatt, Sakshi Kalra, Naman Goenka, Yashvardhan Sharma(参考訳) インターネットやソーシャルメディアへのアクセスが容易になったことで、オンラインソースによる情報の拡散が非常に容易になった。 Facebook、Twitter、オンラインニュースサイト、自称ジャーナリストの個人ブログなどの情報源は、ニュースコンテンツを提供する上で重要な役割を担っている。 大量の情報と、それがオンラインで生成されるスピードは、事実上人間の検証の範囲を超えている。 したがって、フェイクニュースの自動ファクトチェックと信頼できる識別を人間を支援する技術を開発する必要がある。 本稿では, 実施した複数のアプローチと, 課題に対して実施した実験について要約する。 ニュース記事に関連する信頼性情報とメタデータは、結果の改善に使用されている。 実験はまた、モデリングの正当化や証拠が結果の改善にどのようにつながるかを示す。 また、言語的特徴に加え、視覚的特徴の使用も示している。 結果の詳細な比較により,ロバストなベースラインや最先端のモデルと比較して,モデルの性能が著しく向上したことが示された。

Easier access to the internet and social media has made disseminating information through online sources very easy. Sources like Facebook, Twitter, online news sites and personal blogs of self-proclaimed journalists have become significant players in providing news content. The sheer amount of information and the speed at which it is generated online makes it practically beyond the scope of human verification. There is, hence, a pressing need to develop technologies that can assist humans with automatic fact-checking and reliable identification of fake news. This paper summarizes the multiple approaches that were undertaken and the experiments that were carried out for the task. Credibility information and metadata associated with the news article have been used for improved results. The experiments also show how modelling justification or evidence can lead to improved results. Additionally, the use of visual features in addition to linguistic features is demonstrated. A detailed comparison of the results showing that our models perform significantly well when compared to robust baselines as well as state-of-the-art models are presented.
翻訳日:2021-09-28 15:35:22 公開日:2021-09-27
# 非自己回帰変換器を用いた系列列列モデルの総合学習

Integrated Training for Sequence-to-Sequence Models Using Non-Autoregressive Transformer ( http://arxiv.org/abs/2109.12950v1 )

ライセンス: Link先を確認
Evgeniia Tokarchuk, Jan Rosendahl, Weiyue Wang, Pavel Petrushkov, Tomer Lancewicki, Shahram Khadivi, Hermann Ney(参考訳) 音声翻訳やピボット翻訳のような複雑な自然言語アプリケーションは伝統的にカスケードモデルに依存している。 しかし、カスケードモデルでは誤りの伝播やモデルの相違が問題となることが知られている。 さらに、従来のケースケードシステムでは、エンドツーエンドのトレーニングデータを使用することができないため、タスクに最も適したトレーニングデータが使用できない。 これまでの研究では、これらの問題を克服するための統合的なエンドツーエンドトレーニングのアプローチがいくつか提案されているが、それらは主に(合成的あるいは自然な)3方向データに依存している。 明示的な中間表現を必要とせず、エンドツーエンドのトレーニングを可能にする非自己回帰変圧器に基づくカスケードモデルを提案する。 この新しい建築 (i)カスケードモデル全体に伝播するエラーを引き起こすような不必要な早期決定を避ける。 (ii) エンドツーエンドのトレーニングデータを直接利用する。 我々は、ピボットベースの2つの機械翻訳タスク、すなわち、フランス・ドイツ・ドイツ・チェコの評価を行う。 実験の結果,提案手法は,カスケードベースラインよりも2BLEU以上の性能向上を実現していることがわかった。

Complex natural language applications such as speech translation or pivot translation traditionally rely on cascaded models. However, cascaded models are known to be prone to error propagation and model discrepancy problems. Furthermore, there is no possibility of using end-to-end training data in conventional cascaded systems, meaning that the training data most suited for the task cannot be used. Previous studies suggested several approaches for integrated end-to-end training to overcome those problems, however they mostly rely on (synthetic or natural) three-way data. We propose a cascaded model based on the non-autoregressive Transformer that enables end-to-end training without the need for an explicit intermediate representation. This new architecture (i) avoids unnecessary early decisions that can cause errors which are then propagated throughout the cascaded models and (ii) utilizes the end-to-end training data directly. We conduct an evaluation on two pivot-based machine translation tasks, namely French-German and German-Czech. Our experimental results show that the proposed architecture yields an improvement of more than 2 BLEU for French-German over the cascaded baseline.
翻訳日:2021-09-28 15:35:11 公開日:2021-09-27
# 談話接続のレンズによる事前学習言語モデルの実用的能力

Pragmatic competence of pre-trained language models through the lens of discourse connectives ( http://arxiv.org/abs/2109.12951v1 )

ライセンス: Link先を確認
Lalchand Pandia, Yan Cong and Allyson Ettinger(参考訳) 事前学習言語モデル(LM)がNLPを支配し続けているため、これらのモデルにおける言語機能の深さを理解することがますます重要である。 本稿では,言論接続に関する実用性に着目し,事前学習したLMの実用的能力に焦点をあてる。 自然発生データと心理言語学から引き出された制御入力を組み合わせることで,クローゼスタイルの試験を定式化する。 我々は,対話接続の予測に実用的手がかりを用いるモデルの能力,連結関係に関する模倣を理解するモデルの能力,連結関係の時間的ダイナミクスに関する人間的好みを示すモデルの程度に焦点を当てた。 自然に発生するデータのコンテキストにおいて、モデルが結合性を合理的に予測するが、高レベルの実用的手がかりを分離するためにコンテキストを制御する場合、モデル感度ははるかに低い。 モデルは人間のような時間的嗜好をも示さない。 全体としては、現在、支配的な事前学習パラダイムは、我々のモデルに実質的な能力をもたらすものではないことが示唆されている。

As pre-trained language models (LMs) continue to dominate NLP, it is increasingly important that we understand the depth of language capabilities in these models. In this paper, we target pre-trained LMs' competence in pragmatics, with a focus on pragmatics relating to discourse connectives. We formulate cloze-style tests using a combination of naturally-occurring data and controlled inputs drawn from psycholinguistics. We focus on testing models' ability to use pragmatic cues to predict discourse connectives, models' ability to understand implicatures relating to connectives, and the extent to which models show humanlike preferences regarding temporal dynamics of connectives. We find that although models predict connectives reasonably well in the context of naturally-occurring data, when we control contexts to isolate high-level pragmatic cues, model sensitivity is much lower. Models also do not show substantial humanlike temporal preferences. Overall, the findings suggest that at present, dominant pre-training paradigms do not result in substantial pragmatic competence in our models.
翻訳日:2021-09-28 15:34:53 公開日:2021-09-27
# 複数質問応答に対する文脈誘導三重マッチング

Context-guided Triple Matching for Multiple Choice Question Answering ( http://arxiv.org/abs/2109.12996v1 )

ライセンス: Link先を確認
Xun Yao, Junlong Ma, Xinrong Hu, Junping Liu, Jie Yang, Wanqing Li(参考訳) 複数選択質問応答(MCQA)の課題は、複数の候補から適切な回答を識別することであり、パス、質問、回答の3つのうちのマッチングスコアを推定することである。 この点に関する一般的な研究の関心にもかかわらず、既存の手法は、複数の証拠文でケースを評価する能力を制限するいくつかのペアワイズまたはデュアルマッチングステップにプロセスを分離している。 この問題を軽減するため,本稿では,3重マッチング(tm)モジュールとコントラスト正規化(cr)を統合した新しい文脈誘導三重マッチングアルゴリズムを提案する。 前者は、背景コンテキストとしてトリプルから1つのコンポーネントを列挙し、そのセマンティックマッチングを他の2つと推定するように設計されている。 さらに, 正解と難解解解との相違を捉えるために, コントラスト項がさらに提案されている。 提案アルゴリズムは,最新技術に対する競合性能を示すMCQAデータセットのベンチマークで検証する。

The task of multiple choice question answering (MCQA) refers to identifying a suitable answer from multiple candidates, by estimating the matching score among the triple of the passage, question and answer. Despite the general research interest in this regard, existing methods decouple the process into several pair-wise or dual matching steps, that limited the ability of assessing cases with multiple evidence sentences. To alleviate this issue, this paper introduces a novel Context-guided Triple Matching algorithm, which is achieved by integrating a Triple Matching (TM) module and a Contrastive Regularization (CR). The former is designed to enumerate one component from the triple as the background context, and estimate its semantic matching with the other two. Additionally, the contrastive term is further proposed to capture the dissimilarity between the correct answer and distractive ones. We validate the proposed algorithm on several benchmarking MCQA datasets, which exhibits competitive performances against state-of-the-arts.
翻訳日:2021-09-28 15:34:35 公開日:2021-09-27
# Few-Shot Sequence LabelingのためのSpan-based Decomposition法の改良

An Enhanced Span-based Decomposition Method for Few-Shot Sequence Labeling ( http://arxiv.org/abs/2109.13023v1 )

ライセンス: Link先を確認
Peiyi Wang, Runxin Xu, Tianyu Liu, Qingyu Zhou, Yunbo Cao, Baobao Chang, Zhifang Sui(参考訳) few-shot sequence labeling (fssl) は、新興のリソース・スカースドメインを一般化するタグモデルのための標準的なソリューションである。 本稿では,FSSLのメトリックベースメタラーニングパラダイムに従う拡張Spanベースの分解法であるESDを提案する。 ESDは以前の手法を2つの観点から改善する。 a) 最適なスパン分解フレームワークの導入。 テストクエリとサポートインスタンス間の最適なスパンマッチングを求める最適化問題としてFSSLを定式化する。 推測中,スパンコンフリクトを解決することで偽陽性ラベリングを緩和する後処理アルゴリズムを提案する。 b) スパン及びクラスプロトタイプの表現の強化。 我々は,横断的注意によるスパン表現を洗練し,マルチインスタンス学習を用いたクラスプロトタイプ表現を得る。 O型(特定のエンティティやスロットではない)のプロトタイプを表す場合のセマンティックドリフトを避けるため、O型は境界情報に基づいて3つのカテゴリに分割する。 ESDは2つの人気のあるFSSLベンチマークであるFewNERDとSNIPSで従来のメソッドよりも優れており、ネストされた、ノイズの多いタグ付けシナリオではより堅牢であることが証明されている。

Few-Shot Sequence Labeling (FSSL) is a canonical solution for the tagging models to generalize on an emerging, resource-scarce domain. In this paper, we propose ESD, an Enhanced Span-based Decomposition method, which follows the metric-based meta-learning paradigm for FSSL. ESD improves previous methods from two perspectives: a) Introducing an optimal span decomposition framework. We formulate FSSL as an optimization problem that seeks for an optimal span matching between test query and supporting instances. During inference, we propose a post-processing algorithm to alleviate false positive labeling by resolving span conflicts. b) Enhancing representation for spans and class prototypes. We refine span representation by inter- and cross-span attention, and obtain the class prototypical representation with multi-instance learning. To avoid the semantic drift when representing the O-type (not a specific entity or slot) prototypes, we divide the O-type spans into three categories according to their boundary information. ESD outperforms previous methods in two popular FSSL benchmarks, FewNERD and SNIPS, and is proven to be more robust in the nested and noisy tagging scenarios.
翻訳日:2021-09-28 15:34:15 公開日:2021-09-27
# 文脈言語モデルにおける語彙曖昧性のパターン

Patterns of Lexical Ambiguity in Contextualised Language Models ( http://arxiv.org/abs/2109.13032v1 )

ライセンス: Link先を確認
Janosch HaberandMassimo Poesio(参考訳) 文脈化言語モデルの中心的な側面の1つは、語彙的に曖昧な単語の意味を文脈によって区別できることである。 本稿では,多義性を示す単語形式の文脈的埋め込みが,従来の多義性とホモニミーの区別を反映しているかを検討する。 そこで本研究では,段階的単語感覚の類似性と共述的受容性に関する拡張された人間注釈付きデータセットを導入し,埋め込みの類似性が意味の類似性をどの程度正確に予測するかを評価する。 どちらのタイプの人間の判断も、多義的解釈の類似性は意味の同一性とホモニーミーの連続性にあることを示している。 しかし,ポリセムの類似度評価において有意な差が見られ,異なるタイプのポリセミック感覚変化に対して一貫したパターンが形成される。 このように、我々のデータセットは語彙的曖昧性の複雑さの大部分を捉え、文脈的埋め込みのための現実的なテストベッドを提供することができる。 テストされたモデルの中で、BERT Largeは、収集された単語感覚類似度評価と最強の相関を示すが、観察された類似度パターンを一貫して再現するのは難しい。 組込みに基づくあいまいな単語をクラスタリングする場合、同義語とある種の多義語交替を区別する信頼性が高いが、他の言語では一貫して失敗する。

One of the central aspects of contextualised language models is that they should be able to distinguish the meaning of lexically ambiguous words by their contexts. In this paper we investigate the extent to which the contextualised embeddings of word forms that display multiplicity of sense reflect traditional distinctions of polysemy and homonymy. To this end, we introduce an extended, human-annotated dataset of graded word sense similarity and co-predication acceptability, and evaluate how well the similarity of embeddings predicts similarity in meaning. Both types of human judgements indicate that the similarity of polysemic interpretations falls in a continuum between identity of meaning and homonymy. However, we also observe significant differences within the similarity ratings of polysemes, forming consistent patterns for different types of polysemic sense alternation. Our dataset thus appears to capture a substantial part of the complexity of lexical ambiguity, and can provide a realistic test bed for contextualised embeddings. Among the tested models, BERT Large shows the strongest correlation with the collected word sense similarity ratings, but struggles to consistently replicate the observed similarity patterns. When clustering ambiguous word forms based on their embeddings, the model displays high confidence in discerning homonyms and some types of polysemic alternations, but consistently fails for others.
翻訳日:2021-09-28 15:33:54 公開日:2021-09-27
# 自然言語処理における言語不変性

Language Invariant Properties in Natural Language Processing ( http://arxiv.org/abs/2109.13037v1 )

ライセンス: Link先を確認
Federico Bianchi, Debora Nozza, Dirk Hovy(参考訳) 意味は文脈に依存しますが、言語(ショルド)の多くの特性は、文脈を変換しても同じのままです。 例えば、感情、含意、または話者特性は、テキストの翻訳と原文において同じであるべきである。 我々は,テキスト変換時に変化してはならない性質や,変換アルゴリズムのロバスト性を定量的に評価する方法など,言語不変特性を紹介する。 翻訳とパラフレーズを変換の例として用いますが、我々の発見はどんな変換にもより広く適用できます。 以上の結果から,多くのNLP変換が著者特性などの特性を変えることが示唆された。 これらの特性を研究することで、NLPは言語における社会的要因と実践的側面の両方に対処できると考えている。 また、変換アプリケーションの不変性を評価するために使用できるアプリケーションスイートもリリースしています。

Meaning is context-dependent, but many properties of language (should) remain the same even if we transform the context. For example, sentiment, entailment, or speaker properties should be the same in a translation and original of a text. We introduce language invariant properties: i.e., properties that should not change when we transform text, and how they can be used to quantitatively evaluate the robustness of transformation algorithms. We use translation and paraphrasing as transformation examples, but our findings apply more broadly to any transformation. Our results indicate that many NLP transformations change properties like author characteristics, i.e., make them sound more male. We believe that studying these properties will allow NLP to address both social factors and pragmatic aspects of language. We also release an application suite that can be used to evaluate the invariance of transformation applications.
翻訳日:2021-09-28 15:33:29 公開日:2021-09-27
# 個人名付きエンティティプランニングによる制御可能なニューラル対話要約

Controllable Neural Dialogue Summarization with Personal Named Entity Planning ( http://arxiv.org/abs/2109.13070v1 )

ライセンス: Link先を確認
Zhengyuan Liu, Nancy F. Chen(参考訳) 本稿では,個人名付きエンティティプランニングによる対話要約を柔軟にガイドできる制御可能なニューラルネットワークフレームワークを提案する。 条件列を変調して、要約タスクにおいて制約の少ない問題に対処するために要約を形成する際の情報の種類や視点を決定する。 本フレームワークは,(1) 対話型インターロケータと言及したすべての人物の要約点を考慮し, 一般用途のパースペクティブ・パースペクティブ(包括的パースペクティブ) ; (2) 対話中のインターロケータの1つあるいは1人の人物の1つとして, ユーザ指定のパーソナライズされたパーソナライズされたエンティティをベースとしたパーソナライズ・パースペクティブ(包括的パースペクティブ) 。 学習中,個人名付きエンティティの出現計画とコリファレンス情報を活用し,時間的コヒーレンスを改善し,神経発生における幻覚を最小化する。 実験の結果,提案フレームワークは,客観的指標と人的評価の両方を用いて,様々な計画管理の下で,流動的で現実的に一貫した要約を生成することがわかった。

In this paper, we propose a controllable neural generation framework that can flexibly guide dialogue summarization with personal named entity planning. The conditional sequences are modulated to decide what types of information or what perspective to focus on when forming summaries to tackle the under-constrained problem in summarization tasks. This framework supports two types of use cases: (1) Comprehensive Perspective, which is a general-purpose case with no user-preference specified, considering summary points from all conversational interlocutors and all mentioned persons; (2) Focus Perspective, positioning the summary based on a user-specified personal named entity, which could be one of the interlocutors or one of the persons mentioned in the conversation. During training, we exploit occurrence planning of personal named entities and coreference information to improve temporal coherence and to minimize hallucination in neural generation. Experimental results show that our proposed framework generates fluent and factually consistent summaries under various planning controls using both objective metrics and human evaluations.
翻訳日:2021-09-28 15:33:16 公開日:2021-09-27
# 非自己回帰変換器を用いたPivot-based Neural Machine Translationの強化学習に向けて

Towards Reinforcement Learning for Pivot-based Neural Machine Translation with Non-autoregressive Transformer ( http://arxiv.org/abs/2109.13097v1 )

ライセンス: Link先を確認
Evgeniia Tokarchuk, Jan Rosendahl, Weiyue Wang, Pavel Petrushkov, Tomer Lancewicki, Shahram Khadivi, Hermann Ney(参考訳) Pivot-based Neural Machine Translation (NMT) は、低リソースのセットアップ、特に非英語のペア間の翻訳に一般的に使用される。 高リソースのソースピボットとピボットターゲットの言語ペアを使用することで、サブタスクの両方で個々のシステムがトレーニングされる。 しかし、これらのモデルはトレーニング中に接続がなく、ソース-ピボットモデルがソース-ターゲットタスクの最適な翻訳を生成するように最適化されていない。 本研究では,機械翻訳 (mt) を含む様々なテキスト生成タスクについて検討した強化学習 (rl) 手法を用いて, pivot ベースの nmt システムを訓練することを提案する。 我々は,非自己回帰変圧器を利用し,エンドツーエンドのピボットベース統合モデルを提供し,ソースターゲットデータのトレーニングを可能にする。

Pivot-based neural machine translation (NMT) is commonly used in low-resource setups, especially for translation between non-English language pairs. It benefits from using high resource source-pivot and pivot-target language pairs and an individual system is trained for both sub-tasks. However, these models have no connection during training, and the source-pivot model is not optimized to produce the best translation for the source-target task. In this work, we propose to train a pivot-based NMT system with the reinforcement learning (RL) approach, which has been investigated for various text generation tasks, including machine translation (MT). We utilize a non-autoregressive transformer and present an end-to-end pivot-based integrated model, enabling training on source-target data.
翻訳日:2021-09-28 15:32:52 公開日:2021-09-27
# 自然言語処理(nlp)による学術教育における単語問題の自動生成

Automatic Generation of Word Problems for Academic Education via Natural Language Processing (NLP) ( http://arxiv.org/abs/2109.13123v1 )

ライセンス: Link先を確認
Stanley Uros Keller(参考訳) デジタル学習プラットフォームは、学生が柔軟で個別のスケジュールで学習できると同時に、即時フィードバックメカニズムを提供する。 STEM教育の分野は、学生が基礎となる概念を理解するために、多くの訓練演習を解く必要がある。 現在のオンライン教育には、運動の多様性と個性に関して制限があることは明らかである。 多くのエクササイズは、構成と内容のばらつきがほとんどなく、学生による抽象能力の採用を妨げる。 この論文は、多様で文脈に富んだ単語問題を生成するアプローチを提案する。 生成した言語が文法的に正しいことを要求することに加えて、単語問題の性質は内容の妥当性に関する追加の制約を示唆している。 提案手法は数学統計学において有効な単語問題を生成するのに有効であることが証明されている。 実験結果は, 生成時間と運動効率のトレードオフを示す。 システムは、特定のユースケースの要求に応じて、このトレードオフを処理するために容易にパラメータ化できる。

Digital learning platforms enable students to learn on a flexible and individual schedule as well as providing instant feedback mechanisms. The field of STEM education requires students to solve numerous training exercises to grasp underlying concepts. It is apparent that there are restrictions in current online education in terms of exercise diversity and individuality. Many exercises show little variance in structure and content, hindering the adoption of abstraction capabilities by students. This thesis proposes an approach to generate diverse, context rich word problems. In addition to requiring the generated language to be grammatically correct, the nature of word problems implies additional constraints on the validity of contents. The proposed approach is proven to be effective in generating valid word problems for mathematical statistics. The experimental results present a tradeoff between generation time and exercise validity. The system can easily be parametrized to handle this tradeoff according to the requirements of specific use cases.
翻訳日:2021-09-28 15:32:36 公開日:2021-09-27
# 医学フォーラム質問分類のための知識認識ニューラルネットワーク

Knowledge-Aware Neural Networks for Medical Forum Question Classification ( http://arxiv.org/abs/2109.13141v1 )

ライセンス: Link先を確認
Soumyadeep Roy, Sudip Chakraborty, Aishik Mandal, Gunjan Balde, Prakhar Sharma, Anandhavelu Natarajan, Megha Khosla, Shamik Sural, Niloy Ganguly(参考訳) オンライン医療フォーラムは、消費者の健康関連情報ニーズに答えるための主要なプラットフォームとなっている。 しかし、クエリ数の増加や専門家の可用性の制限により、利用者の意図に基づいて自動的に医療クエリを分類する必要があるため、これらの質問を適切な医療専門家に向けることもできる。 そこで我々は,医用知識ベースから得られたドメイン固有側情報を利用して,医用知識を意識した新たな医用知識ベースモデル(MedBERT)を開発した。 また、medical forum question classification (mfqc)タスク用のマルチラベルデータセットも提供しています。 MedBERTは2つのベンチマークデータセットで最先端のパフォーマンスを実現し、低リソース設定で非常によく機能する。

Online medical forums have become a predominant platform for answering health-related information needs of consumers. However, with a significant rise in the number of queries and the limited availability of experts, it is necessary to automatically classify medical queries based on a consumer's intention, so that these questions may be directed to the right set of medical experts. Here, we develop a novel medical knowledge-aware BERT-based model (MedBERT) that explicitly gives more weightage to medical concept-bearing words, and utilize domain-specific side information obtained from a popular medical knowledge base. We also contribute a multi-label dataset for the Medical Forum Question Classification (MFQC) task. MedBERT achieves state-of-the-art performance on two benchmark datasets and performs very well in low resource settings.
翻訳日:2021-09-28 15:32:22 公開日:2021-09-27
# 任意指向物体検出のための一般ガウス熱マップラベリング

A General Gaussian Heatmap Labeling for Arbitrary-Oriented Object Detection ( http://arxiv.org/abs/2109.12848v1 )

ライセンス: Link先を確認
Zhanchao Huang, Wei Li, Xiang-Gen Xia, and Ran Tao(参考訳) 近年,任意指向オブジェクト検出 (aood) 法が提案され,多くの分野に注目が集まっている。 しかし、そのほとんどはアンカーボックスや標準ガウス熱マップに基づいている。 このようなラベル割り当て戦略は、任意の向きのオブジェクトの形状や方向特性を反映するだけでなく、パラメータチューニングの労力も高い。 本稿では,GGHL(General Gaussian Heatmap Labeling)と呼ばれる新しいAOOD法を提案する。 具体的には、任意の対象の形状と方向を反映した2次元(2次元)配向ガウス熱マップに基づいて、正の候補を定義するために、アンカーフリーなオブジェクト適応ラベル割り当て(OLA)戦略を示す。 OLAに基づいて、オブジェクト指向バウンディングボックス(OBB)表現コンポーネント(ORC)が開発され、OBBを示し、ガウス中心の事前重みを調整し、ニューラルネットワーク学習により異なるオブジェクトの特性を適応的に適合させる。 また,領域正規化と動的信頼度重み付けを併用したジョイント最適化損失 (jol) により,異なるサブタスクの誤りを解消する。 公開データセットに対する大規模な実験により、提案したGGHLはパラメータ調整と時間コストを低くしてAOOD性能を向上させることが示された。 さらに、ほとんどのAOODメソッドは、組み込みプラットフォーム上の軽量モデルを含むパフォーマンスを改善するために一般的に適用されます。

Recently, many arbitrary-oriented object detection (AOOD) methods have been proposed and attracted widespread attention in many fields. However, most of them are based on anchor-boxes or standard Gaussian heatmaps. Such label assignment strategy may not only fail to reflect the shape and direction characteristics of arbitrary-oriented objects, but also have high parameter-tuning efforts. In this paper, a novel AOOD method called General Gaussian Heatmap Labeling (GGHL) is proposed. Specifically, an anchor-free object-adaptation label assignment (OLA) strategy is presented to define the positive candidates based on two-dimensional (2-D) oriented Gaussian heatmaps, which reflect the shape and direction features of arbitrary-oriented objects. Based on OLA, an oriented-bounding-bo x (OBB) representation component (ORC) is developed to indicate OBBs and adjust the Gaussian center prior weights to fit the characteristics of different objects adaptively through neural network learning. Moreover, a joint-optimization loss (JOL) with area normalization and dynamic confidence weighting is designed to refine the misalign optimal results of different subtasks. Extensive experiments on public datasets demonstrate that the proposed GGHL improves the AOOD performance with low parameter-tuning and time costs. Furthermore, it is generally applicable to most AOOD methods to improve their performance including lightweight models on embedded platforms.
翻訳日:2021-09-28 15:26:24 公開日:2021-09-27
# オブジェクト検出器を蒸留するためのディープ構造化インスタンスグラフ

Deep Structured Instance Graph for Distilling Object Detectors ( http://arxiv.org/abs/2109.12862v1 )

ライセンス: Link先を確認
Yixin Chen, Pengguang Chen, Shu Liu, Liwei Wang, Jiaya Jia(参考訳) 深い知識を効果的に構造化することは、教師から生徒へ、特にセマンティックビジョンタスクにおいて重要な役割を果たす。 本稿では,検出システム内の情報を利用して,検出知識の蒸留を容易にするための簡単な知識構造を提案する。 具体的には、セマンティクスインスタンス内の欠落関係をさらに掘り下げながら、特徴の不均衡問題を解決することを目指して、ノードがインスタンスの提案レベルの特徴に対応し、エッジがノード間の関係を表すグラフを設計する。 このグラフをさらに洗練するために,ノードノイズや背景サンプルマイニングを小さくするために,適応的な背景損失重みを設計する。 教師から生徒へ知識表現をエンコードしたグラフ全体を転送し,ローカル情報とグローバル情報を同時に取得する。 本研究では,COCO物体検出の課題に対して,一段検出と二段検出の両方で多種多様な学生-教師ペアによる最新の結果を得る。 また,本手法の堅牢性を示すために,インスタンスセグメンテーションの実験を行った。 ResNet18-FPNとResNet50-FPNで蒸留したFaster R-CNNは、COCOベンチマークでそれぞれ38.68および41.82 Box AP、ResNet101-FPNでFaster R-CNNは43.38 AP、ResNet152-FPNの約0.7 APを上回った。 コード: https://github.com/d vlab-research/dsig。

Effectively structuring deep knowledge plays a pivotal role in transfer from teacher to student, especially in semantic vision tasks. In this paper, we present a simple knowledge structure to exploit and encode information inside the detection system to facilitate detector knowledge distillation. Specifically, aiming at solving the feature imbalance problem while further excavating the missing relation inside semantic instances, we design a graph whose nodes correspond to instance proposal-level features and edges represent the relation between nodes. To further refine this graph, we design an adaptive background loss weight to reduce node noise and background samples mining to prune trivial edges. We transfer the entire graph as encoded knowledge representation from teacher to student, capturing local and global information simultaneously. We achieve new state-of-the-art results on the challenging COCO object detection task with diverse student-teacher pairs on both one- and two-stage detectors. We also experiment with instance segmentation to demonstrate robustness of our method. It is notable that distilled Faster R-CNN with ResNet18-FPN and ResNet50-FPN yields 38.68 and 41.82 Box AP respectively on the COCO benchmark, Faster R-CNN with ResNet101-FPN significantly achieves 43.38 AP, which outperforms ResNet152-FPN teacher about 0.7 AP. Code: https://github.com/d vlab-research/Dsig.
翻訳日:2021-09-28 15:25:57 公開日:2021-09-27
# Fusion-GCN:グラフ畳み込みネットワークを用いたマルチモーダル動作認識

Fusion-GCN: Multimodal Action Recognition using Graph Convolutional Networks ( http://arxiv.org/abs/2109.12946v1 )

ライセンス: Link先を確認
Michael Duhme, Raphael Memmesheimer, Dietrich Paulus(参考訳) 本稿では,グラフ畳み込みネットワーク(GCN)を用いたマルチモーダル動作認識手法であるFusion-GCNを提案する。 gcnsに基づく行動認識手法は,最近,スケルトンベース行動認識の最先端性能を得た。 Fusion-GCNでは,マルチモーダル動作認識のためのGCNモデルを用いて訓練したグラフに,様々なセンサデータモダリティを統合することを提案する。 追加のセンサ計測は、チャネル次元(追加ノード属性を入力)または空間次元(新しいノードを入力)のグラフ表現に組み込まれている。 Fusion-GCNは、UTD-MHAD-とMMACTデータセットの2つの公開データセットで評価され、RGBシーケンス、慣性測定、骨格配列の柔軟な融合を示す。 我々のアプローチはUTD-MHADデータセットで同等の結果を得、大規模なMMACTデータセットのベースラインを最大12.37%(F1-Measure)で改善し、骨格推定と加速度計の測定を融合させる。

In this paper, we present Fusion-GCN, an approach for multimodal action recognition using Graph Convolutional Networks (GCNs). Action recognition methods based around GCNs recently yielded state-of-the-art performance for skeleton-based action recognition. With Fusion-GCN, we propose to integrate various sensor data modalities into a graph that is trained using a GCN model for multi-modal action recognition. Additional sensor measurements are incorporated into the graph representation, either on a channel dimension (introducing additional node attributes) or spatial dimension (introducing new nodes). Fusion-GCN was evaluated on two public available datasets, the UTD-MHAD- and MMACT datasets, and demonstrates flexible fusion of RGB sequences, inertial measurements and skeleton sequences. Our approach gets comparable results on the UTD-MHAD dataset and improves the baseline on the large-scale MMACT dataset by a significant margin of up to 12.37% (F1-Measure) with the fusion of skeleton estimates and accelerometer measurements.
翻訳日:2021-09-28 15:25:27 公開日:2021-09-27
# 分散ロバスト多出力回帰ランキング

Distributionally Robust Multi-Output Regression Ranking ( http://arxiv.org/abs/2109.12803v1 )

ライセンス: Link先を確認
Shahabeddin Sotudian, Ruidi Chen, Ioannis Paschalidis(参考訳) 経験的な成功にもかかわらず、既存のリストワイズラーニング・トゥ・ランク(LTR)モデルは、ラベル付けやアノテーション、分散データシフト、あるいは逆データ摂動のエラーに対して堅牢であるように構築されていない。 このギャップを埋めるために、分布ロバスト多出力回帰ランキング (DRMRR) と呼ばれる新しいリストワイズLTRモデルを導入する。 既存の方法とは異なり、DRMRRのスコアリング機能は特徴ベクトルから偏差スコアのベクトルへの多変量マッピングとして設計され、ローカルコンテキスト情報と文書間相互作用をキャプチャする。 DRMRRは分散ロバスト最適化(DRO)フレームワークを使用して、ワッサースタイン球で定義された経験データ分布の近傍で最も有害な分布の下で、多出力損失関数を最小化する。 行列ノルム正規化器を用いた正則化回帰問題と等価であることを示す。 本実験は,医用文書検索と薬物反応予測の2つの実世界の応用で実施し,DRMRRが最先端のLTRモデルより優れていることを示した。 また, ガウス騒音, 逆摂動, ラベル中毒など様々な騒音に対するdrmrrの弾力性を評価するため, 総合的な分析を行った。 以上の結果から,drmrrは他のベースラインよりもかなり優れた性能が得られるだけでなく,データにノイズが多ければ比較的安定した性能を維持できることを示した。

Despite their empirical success, most existing listwiselearning-to- rank (LTR) models are not built to be robust to errors in labeling or annotation, distributional data shift, or adversarial data perturbations. To fill this gap, we introduce a new listwise LTR model called Distributionally Robust Multi-output Regression Ranking (DRMRR). Different from existing methods, the scoring function of DRMRR was designed as a multivariate mapping from a feature vector to a vector of deviation scores, which captures local context information and cross-document interactions. DRMRR uses a Distributionally Robust Optimization (DRO) framework to minimize a multi-output loss function under the most adverse distributions in the neighborhood of the empirical data distribution defined by a Wasserstein ball. We show that this is equivalent to a regularized regression problem with a matrix norm regularizer. Our experiments were conducted on two real-world applications, medical document retrieval, and drug response prediction, showing that DRMRR notably outperforms state-of-the-art LTR models. We also conducted a comprehensive analysis to assess the resilience of DRMRR against various types of noise: Gaussian noise, adversarial perturbations, and label poisoning. We show that DRMRR is not only able to achieve significantly better performance than other baselines, but it can maintain a relatively stable performance as more noise is added to the data.
翻訳日:2021-09-28 15:23:42 公開日:2021-09-27
# スマートイニシャライゼーションによる極端分類のためのワン・vs・オール・トレーニングの高速化

Speeding-up One-vs-All Training for Extreme Classification via Smart Initialization ( http://arxiv.org/abs/2109.13122v1 )

ライセンス: Link先を確認
Erik Schultheis and Rohit Babbar(参考訳) 本稿では,初期ベクトルを設定するための簡易なデータ依存手法を用いて,極限マルチラベル分類 (xmc) における線形 1-versus-all (ova) 分類器の訓練を高速化することを示す。 3つの目標の観点から初期重みを選択する問題について論じる。 私たちは重量空間の領域から始めたい a) 損失額が低いさま b)二階最適化に有利なこと,及び c) 共役段階(CG)計算を迅速に行うことができる。 マージン損失の場合、初期ベクトルを選択して全ての正の(ラベルの関連性)インスタンスの平均を全ての負の平均から切り離し、XMCで発生する高度に不均衡なバイナリ問題に対して素早く計算できる2つの量を選ぶことで、そのような初期化が達成される。 各種XMCデータセットの2乗ヒンジ損失を伴うトレーニングには,$\approx 3\times$の高速化を実証する。 これは、ソリューションに近いことから実行する必要のあるイテレーションの数が減ったことや、CGステップで容易に負を無視できる暗黙の負のマイニング効果によってもたらされる。 最適化問題の凸性から, 分類精度の低下を伴わずに高速化を実現する。

In this paper we show that a simple, data dependent way of setting the initial vector can be used to substantially speed up the training of linear one-versus-all (OVA) classifiers in extreme multi-label classification (XMC). We discuss the problem of choosing the initial weights from the perspective of three goals. We want to start in a region of weight space a) with low loss value, b) that is favourable for second-order optimization, and c) where the conjugate-gradient (CG) calculations can be performed quickly. For margin losses, such an initialization is achieved by selecting the initial vector such that it separates the mean of all positive (relevant for a label) instances from the mean of all negatives -- two quantities that can be calculated quickly for the highly imbalanced binary problems occurring in XMC. We demonstrate a speedup of $\approx 3\times$ for training with squared hinge loss on a variety of XMC datasets. This comes in part from the reduced number of iterations that need to be performed due to starting closer to the solution, and in part from an implicit negative mining effect that allows to ignore easy negatives in the CG step. Because of the convex nature of the optimization problem, the speedup is achieved without any degradation in classification accuracy.
翻訳日:2021-09-28 15:23:20 公開日:2021-09-27
# リアルタイムモニタリングデータを用いた空間推論モデルによるフルフェイス機械的挙動の解析

Analysis for full face mechanical behaviors through spatial deduction model with real-time monitoring data ( http://arxiv.org/abs/2109.13167v1 )

ライセンス: Link先を確認
Xuyan Tan, Yuhang Wang, Bowen Du, Junchen Ye, Weizhong Chen, Leilei Sun and Liping Li(参考訳) トンネル構造の全面に対する力学的解析は安定性を維持するのに不可欠であり、古典的解析解とデータ分析における課題である。 本研究は, 機械的特性を純粋データ駆動モデルに統合することにより, 完全な機械的挙動を得るための空間推論モデルの開発を目的とする。 空間トンネル構造は多くの部分に分割され、マトリックスの形で再構成される。 次に, 現場の構造物に作用する外荷重をトンネルの力学的挙動について検討した。 マトリックスおよび機械的解析結果の限られた観測データに基づいて、データ駆動モデルが支配的であり、機械的制約が二次的であるフルフェイス情報を得るために、二重駆動モデルを開発した。 提案した空間推論モデルを検証するため,部分的なモニタリングデータが未知であると仮定してクロステストを行った。 推定結果と実際のモニタリング結果との井戸一致は,提案モデルが妥当であることを意味する。 そのため、構造的災害防止に欠かせないトンネル全面の現在・歴史的性能の双方を控除するために用いられた。

Mechanical analysis for the full face of tunnel structure is crucial to maintain stability, which is a challenge in classical analytical solutions and data analysis. Along this line, this study aims to develop a spatial deduction model to obtain the full-faced mechanical behaviors through integrating mechanical properties into pure data-driven model. The spatial tunnel structure is divided into many parts and reconstructed in a form of matrix. Then, the external load applied on structure in the field was considered to study the mechanical behaviors of tunnel. Based on the limited observed monitoring data in matrix and mechanical analysis results, a double-driven model was developed to obtain the full-faced information, in which the data-driven model was the dominant one and the mechanical constraint was the secondary one. To verify the presented spatial deduction model, cross-test was conducted through assuming partial monitoring data are unknown and regarding them as testing points. The well agreement between deduction results with actual monitoring results means the proposed model is reasonable. Therefore, it was employed to deduct both the current and historical performance of tunnel full face, which is crucial to prevent structural disasters.
翻訳日:2021-09-28 15:23:00 公開日:2021-09-27
# 内部モデルからメタ認知AIへ

From internal models toward metacognitive AI ( http://arxiv.org/abs/2109.12798v1 )

ライセンス: Link先を確認
Mitsuo Kawato (ATR), Aurelio Cortese (ATR/RIKEN)(参考訳) 1980年代と1990年代にバイオサイバネティクスで発表されたいくつかの論文で、カワトらは小脳内でどのように内部モデルが獲得されるかを説明する計算モデルを提案した。 これらのモデルは後にサルを用いた神経生理学的実験やヒトを含む神経画像実験によって支持された。 これらの初期の研究は神経科学の基本的な感覚運動制御から高い認知機能に影響を与えた。 内部モデルに関連する最も複雑な謎の1つは、動物が少数の試行錯誤で大きめの問題を学べる神経機構を理解することである。 意識とメタ認知 -- 自分の思考を監視する能力 -- は、この謎に対する解決策の一部かもしれない。 本稿では,過去20年間の文献レビューに基づいて,メタ認知の計算神経科学モデルを提案する。 このモデルは、並列および層状、生成逆モデルペアからなるモジュラー階層的強化学習アーキテクチャを含む。 前頭前皮質では、「認知現実監視ネットワーク」(CRMN)と呼ばれる分散型エグゼクティブネットワークが、認知と行動における生成的逆モデルペアの意識的な関与を編成する。 生成モデルと逆モデルによる計算と報酬予測誤差のミスマッチに基づいてCRMNは、認識、行動、強化学習におけるペアの選択と学習をゲートする「責任信号」を計算する。 高い責任の信号は、外界を最も捉えやすく、動きに適しており(小さなミスマッチ)、強化学習(小さな報酬予測エラー)ができるペアに与えられる。 CRMNはメタ認知のオブジェクトとして高い責任信号を持つペアを選択し、すべてのペアにおける責任信号のエントロピーによって意識が決定される。

In several papers published in Biological Cybernetics in the 1980s and 1990s, Kawato and colleagues proposed computational models explaining how internal models are acquired in the cerebellum. These models were later supported by neurophysiological experiments using monkeys and neuroimaging experiments involving humans. These early studies influenced neuroscience from basic, sensory-motor control to higher cognitive functions. One of the most perplexing enigmas related to internal models is to understand the neural mechanisms that enable animals to learn large-dimensional problems with so few trials. Consciousness and metacognition -- the ability to monitor one's own thoughts, may be part of the solution to this enigma. Based on literature reviews of the past 20 years, here we propose a computational neuroscience model of metacognition. The model comprises a modular hierarchical reinforcement-learni ng architecture of parallel and layered, generative-inverse model pairs. In the prefrontal cortex, a distributed executive network called the "cognitive reality monitoring network" (CRMN) orchestrates conscious involvement of generative-inverse model pairs in perception and action. Based on mismatches between computations by generative and inverse models, as well as reward prediction errors, CRMN computes a "responsibility signal" that gates selection and learning of pairs in perception, action, and reinforcement learning. A high responsibility signal is given to the pairs that best capture the external world, that are competent in movements (small mismatch), and that are capable of reinforcement learning (small reward prediction error). CRMN selects pairs with higher responsibility signals as objects of metacognition, and consciousness is determined by the entropy of responsibility signals across all pairs.
翻訳日:2021-09-28 15:21:35 公開日:2021-09-27
# リアルタイムネットワーク負荷条件下でのDRLに基づくスライス配置

DRL-based Slice Placement under Realistic Network Load Conditions ( http://arxiv.org/abs/2109.12857v1 )

ライセンス: Link先を確認
Jos\'e Jurandir Alves Esteves, Amina Boubendir, Fabrice Guillemin and Pierre Sens(参考訳) 本稿では,DRLアルゴリズムの収束をヒューリスティックで制御するDRL(Deep Reinforcement Learning)に基づくネットワークスライス配置最適化手法を提案する。 このソリューションは、大規模かつ非定常なトラフィック条件(すなわちネットワーク負荷)下での現実的なネットワークに適応する。 提案手法の適用性と,非制御DRLソリューションよりも高い,安定した性能を示す。 デモシナリオには、複数の揮発性ネットワークスライス配置要求到着を伴うフルオンライン学習が含まれる。

We propose to demonstrate a network slice placement optimization solution based on Deep Reinforcement Learning (DRL), referred to as Heuristically-contro lled DRL, which uses a heuristic to control the DRL algorithm convergence. The solution is adapted to realistic networks with large scale and under non-stationary traffic conditions (namely, the network load). We demonstrate the applicability of the proposed solution and its higher and stable performance over a non-controlled DRL-based solution. Demonstration scenarios include full online learning with multiple volatile network slice placement request arrivals.
翻訳日:2021-09-28 15:21:09 公開日:2021-09-27
# ポストパンデミック時代の持続的都市移動(ポジションペーパー)

Sustainable Urban Mobility in the Post-Pandemic Era (position paper) ( http://arxiv.org/abs/2109.12982v1 )

ライセンス: Link先を確認
Christos Theodoridis and Yannis Theodoridis(参考訳) 新型コロナウイルス(covid-19)は、世界中の何十億という人々の日常生活に大きな変化をもたらす、現代世界で初めてのパンデミックだ。 拡大を抑えるため、ほとんどの政府は市民の日々の動きを大幅に緩和することに決めた。 例えば、彼らは都市運動に対する厳格な規制(空間、時間など)を強制したが、国際空地接続は選択的に禁止した。 本稿では, この過程から学んだ教訓を, 記録された移動量に基づいて簡潔に考察し, 持続可能な都市移動・移動データ科学分野の交差点において, パンデミック後の課題を提起する。

COVID-19 is the first pandemic of the modern world causing significant changes to the everyday life of billions of people in all continents. To reduce its expansion, most governments decided to mitigate a great percentage of daily movements of their citizens. For instance, they enforced strict controls (in space, time, etc.) on urban movement whereas they selectively prohibited international air and ground connections. In this short study, we briefly discuss some lessons learned out of this process based on recorded mobility figures, and we raise challenges that are emerging in the post-pandemic era, in the intersection of the sustainable urban mobility and movement data science fields.
翻訳日:2021-09-28 15:21:00 公開日:2021-09-27
# 半自律遠隔操作のための非理解操作スキルの軌道ベース強化学習

Trajectory-based Reinforcement Learning of Non-prehensile Manipulation Skills for Semi-Autonomous Teleoperation ( http://arxiv.org/abs/2109.13081v1 )

ライセンス: Link先を確認
Sangbeom Park, Yoonbyung Chai, Sunghyun Park, Jeongeun Park, Kyungjae Lee, Sungjoon Choi(参考訳) 本稿では,RGB-Dセンサを用いたピックアップ・アンド・プレイスタスクのための半自律遠隔操作フレームワークを提案する。 特に、対象オブジェクトは、包括的把握と非包括的操作の両方を組み合わせて効率的な遠隔操作を行う、散在する環境にあると仮定する。 トラジェクトリに基づく強化学習を用いて、非包括的操作を学習し、物体を再構成して直接把握する。 粗い環境の深度画像と目標物体の位置から、学習したポリシーは人間の操作者に複数の非包括的操作の選択肢を提供することができる。 シミュレーション環境において,方針を訓練するタスクを整理するための報酬関数を慎重に設計する。 そして,訓練されたポリシーを実世界へ移行し,多数のオブジェクトを用いて実世界実験を行い,提案手法が把握時間において手動キーボード制御よりも優れていることを示す。

In this paper, we present a semi-autonomous teleoperation framework for a pick-and-place task using an RGB-D sensor. In particular, we assume that the target object is located in a cluttered environment where both prehensile grasping and non-prehensile manipulation are combined for efficient teleoperation. A trajectory-based reinforcement learning is utilized for learning the non-prehensile manipulation to rearrange the objects for enabling direct grasping. From the depth image of the cluttered environment and the location of the goal object, the learned policy can provide multiple options of non-prehensile manipulation to the human operator. We carefully design a reward function for the rearranging task where the policy is trained in a simulational environment. Then, the trained policy is transferred to a real-world and evaluated in a number of real-world experiments with the varying number of objects where we show that the proposed method outperforms manual keyboard control in terms of the time duration for the grasping.
翻訳日:2021-09-28 15:20:46 公開日:2021-09-27
# エッジ交換可能なソーシャルネットワークモデルにおける異常エッジ検出

Anomalous Edge Detection in Edge Exchangeable Social Network Models ( http://arxiv.org/abs/2109.12727v1 )

ライセンス: Link先を確認
Rui Luo, Buddhika Nettasinghe, Vikram Krishnamurthy(参考訳) 本稿では,ソーシャルネットワークをモデル化する有向グラフの異常エッジを検出する。 我々は,異常エッジと正常エッジを区別するための基準としてエッジ交換可能性を利用する。 次に、共形予測理論に基づく異常検出器を提案する。この検出器は偽陽性率の上限が保証されている。 数値実験では,提案アルゴリズムはベースライン法よりも優れた性能を示す。

This paper studies detecting anomalous edges in directed graphs that model social networks. We exploit edge exchangeability as a criterion for distinguishing anomalous edges from normal edges. Then we present an anomaly detector based on conformal prediction theory; this detector has a guaranteed upper bound for false positive rate. In numerical experiments, we show that the proposed algorithm achieves superior performance to baseline methods.
翻訳日:2021-09-28 15:20:30 公開日:2021-09-27
# Fast-MD:非自己回帰型中間体を用いた高速マルチデコーダエンドツーエンド音声翻訳

Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with Non-Autoregressive Hidden Intermediates ( http://arxiv.org/abs/2109.12804v1 )

ライセンス: Link先を確認
Hirofumi Inaguma, Siddharth Dalmia, Brian Yan, Shinji Watanabe(参考訳) マルチデコーダ(md)のエンドツーエンド音声翻訳モデルは、中間自動音声認識(asr)デコーダ状態を隠れ中間(hi)として探索することにより、高い翻訳品質を示している。 これは、タスク全体をASRと機械翻訳サブタスクに分解する2パスデコードモデルである。 しかし、デコード速度は、推論中に両方のサブタスクをビーム検索するので、現実世界のアプリケーションでは十分ではない。 我々は、接続性時間分類(CTC)出力に基づいて非自己回帰(NAR)デコードによりHIを生成する高速MDモデルFast-MDを提案する。 我々は,(1)自己回帰変換器ASRデコーダを用いた並列HIと,(2)CTCと条件付きマスク言語モデルを組み合わせたMask-CTCを用いたマスクHIの2種類のNAR HIについて検討した。 トレーニング中の教師強制とテスト中のCTC出力の条件付けのASRデコーダのミスマッチを低減するため,トレーニング中のCTC出力のサンプリングも提案する。 3つのコーパスの実験的評価から、Fast-MDは、GPUやCPU上でのna\\ive MDモデルよりも2倍、4倍高速なデコード速度を達成した。 Conformerエンコーダの採用と中間CTC損失はデコード速度を犠牲にすることなく品質をさらに向上させる。

The multi-decoder (MD) end-to-end speech translation model has demonstrated high translation quality by searching for better intermediate automatic speech recognition (ASR) decoder states as hidden intermediates (HI). It is a two-pass decoding model decomposing the overall task into ASR and machine translation sub-tasks. However, the decoding speed is not fast enough for real-world applications because it conducts beam search for both sub-tasks during inference. We propose Fast-MD, a fast MD model that generates HI by non-autoregressive (NAR) decoding based on connectionist temporal classification (CTC) outputs followed by an ASR decoder. We investigated two types of NAR HI: (1) parallel HI by using an autoregressive Transformer ASR decoder and (2) masked HI by using Mask-CTC, which combines CTC and the conditional masked language model. To reduce a mismatch in the ASR decoder between teacher-forcing during training and conditioning on CTC outputs during testing, we also propose sampling CTC outputs during training. Experimental evaluations on three corpora show that Fast-MD achieved about 2x and 4x faster decoding speed than that of the na\"ive MD model on GPU and CPU with comparable translation quality. Adopting the Conformer encoder and intermediate CTC loss further boosts its quality without sacrificing decoding speed.
翻訳日:2021-09-28 15:20:25 公開日:2021-09-27
# ベンガル語における音声認識の課題と可能性

Challenges and Opportunities of Speech Recognition for Bengali Language ( http://arxiv.org/abs/2109.13217v1 )

ライセンス: Link先を確認
M. F. Mridha, Abu Quwsar Ohi, Md. Abdul Hamid, Muhammad Mostafa Monowar(参考訳) 音声認識は、人間とコンピュータのインタラクションの分野でマシンを対話し、指揮する機会を提供する魅力的なプロセスである。 音声認識は言語に依存したシステムであり、任意の言語の言語的・テキスト的特性に基づいて直接構築される。 ASR(Automatic Speech Recognition)システムは、現在、音声をテキストに変換するために使われている。 ASRシステムは国際言語で強く実行されているが、ベンガル語でのASRシステムの実装は受け入れられていない。 本研究は,ベンガルASRシステムの研究開発の現状を円滑に明らかにするものである。 以下に示すように、ベンガルのASRシステムの構築において、主に遭遇した課題について知る。 課題を言語に依存しない課題と言語に依存しない課題に分割し、特定の合併症をどのように改善するかをガイドします。 厳密な調査と課題の強調の後、ベンガル語の文法的・音声学的構造に基づくASRアーキテクチャの構築が必要であると結論付けている。

Speech recognition is a fascinating process that offers the opportunity to interact and command the machine in the field of human-computer interactions. Speech recognition is a language-dependent system constructed directly based on the linguistic and textual properties of any language. Automatic Speech Recognition (ASR) systems are currently being used to translate speech to text flawlessly. Although ASR systems are being strongly executed in international languages, ASR systems' implementation in the Bengali language has not reached an acceptable state. In this research work, we sedulously disclose the current status of the Bengali ASR system's research endeavors. In what follows, we acquaint the challenges that are mostly encountered while constructing a Bengali ASR system. We split the challenges into language-dependent and language-independent challenges and guide how the particular complications may be overhauled. Following a rigorous investigation and highlighting the challenges, we conclude that Bengali ASR systems require specific construction of ASR architectures based on the Bengali language's grammatical and phonetic structure.
翻訳日:2021-09-28 15:19:59 公開日:2021-09-27
# ビデオと記事からの複合マルチメディアイベント抽出

Joint Multimedia Event Extraction from Video and Article ( http://arxiv.org/abs/2109.12776v1 )

ライセンス: Link先を確認
Brian Chen, Xudong Lin, Christopher Thomas, Manling Li, Shoya Yoshida, Lovish Chum, Heng Ji, and Shih-Fu Chang(参考訳) 視覚とテキストのモダリティは、マルチメディア文書に記述されたイベントに関する補完的な情報を提供する。 ビデオにはリッチなダイナミクスとイベントの詳細な展開が含まれ、テキストにはよりハイレベルで抽象的な概念が記述されている。 しかし、既存のイベント抽出方法は、他のモダリティを無視しながら、ビデオやターゲットビデオのみを処理しない。 対照的に,ビデオやテキストからイベントを同時抽出する最初の手法を提案する。 本稿では,映像マルチメディアイベント抽出(video m2e2)の新たなタスクを紹介し,この課題に向けて最初のシステムを構築するための2つの新しいコンポーネントを提案する。 まず,ビデオイベントとテキストイベントの相互参照を手作業でアノテートすることなく決定できる,最初の自己教師付きマルチモーダルイベントコリファレンスモデルを提案する。 第2に,ビデオとテキスト文書の両方から構造化イベント情報を抽出する第1次マルチモーダルトランスについて紹介する。 我々はまた、860の映像記事ペアからなり、このタスクのメソッドを評価するための広範なアノテーションを含むビデオ記事ペアのベンチマークを新たに構築し、公開する予定です。 提案手法が新しいベンチマークデータセットに与える影響を実験的に検証した。 マルチモーダルイベントコリファレンス解像度とマルチメディアイベント抽出において、6.0%と5.8%の絶対f-scoreゲインを達成している。

Visual and textual modalities contribute complementary information about events described in multimedia documents. Videos contain rich dynamics and detailed unfoldings of events, while text describes more high-level and abstract concepts. However, existing event extraction methods either do not handle video or solely target video while ignoring other modalities. In contrast, we propose the first approach to jointly extract events from video and text articles. We introduce the new task of Video MultiMedia Event Extraction (Video M2E2) and propose two novel components to build the first system towards this task. First, we propose the first self-supervised multimodal event coreference model that can determine coreference between video events and text events without any manually annotated pairs. Second, we introduce the first multimodal transformer which extracts structured event information jointly from both videos and text documents. We also construct and will publicly release a new benchmark of video-article pairs, consisting of 860 video-article pairs with extensive annotations for evaluating methods on this task. Our experimental results demonstrate the effectiveness of our proposed method on our new benchmark dataset. We achieve 6.0% and 5.8% absolute F-score gain on multimodal event coreference resolution and multimedia event extraction.
翻訳日:2021-09-28 15:15:12 公開日:2021-09-27
# 勾配のない最適化されたディープスパイキングニューラルネットワークアーキテクチャ

An optimised deep spiking neural network architecture without gradients ( http://arxiv.org/abs/2109.12813v1 )

ライセンス: Link先を確認
Yeshwanth Bethi, Ying Xu, Gregory Cohen, Andre van Schaik, Saeed Afshar(参考訳) 任意の時空間スパイクパターン間の変換を行うために,局所シナプスとしきい値適応ルールを用いたエンドツーエンドのトレーニング可能なモジュラーイベント駆動ニューラルアーキテクチャを提案する。 このアーキテクチャは、既存のスパイキングニューラルネットワーク(SNN)アーキテクチャの高度に抽象化されたモデルを表している。 提案したOptimized Deep Event-driven Spiking Neural Network Architecture (ODESA)は、階層的な時空間的特徴を複数の任意の時間スケールで同時に学習することができる。 ODESAはエラーバックプロパゲーションや勾配計算を使わずにオンライン学習を行う。 ネットワークは、各ノードに単純な局所適応選択しきい値を用いることで、実数値誤差測定を使わずに、任意の問題に対して各レイヤのニューロンリソースを適切に割り当てることを学ぶ。 これらの適応選択閾値はODESAの中心的特徴であり、ネットワークの安定性とノイズに対する顕著な堅牢性、および初期システムパラメータの選択を保証する。 ネットワークアクティベーションは、各レイヤのwta(hard winner-take-all)制約のため、本質的にスパースである。 我々は、スパイク符号化されたIRISとTIDIGITSデータセットを含む既存の時空間データセットのアーキテクチャと、私たちが作成した国際モースコードに基づく新しいタスクセットを評価する。 これらのテストは、ODESAの階層的時空間学習能力を示す。 これらのテストを通じて,おおよその計算ノード数で,実用的で高度に困難な階層的時空間学習タスクを最適に解くことができることを示す。

We present an end-to-end trainable modular event-driven neural architecture that uses local synaptic and threshold adaptation rules to perform transformations between arbitrary spatio-temporal spike patterns. The architecture represents a highly abstracted model of existing Spiking Neural Network (SNN) architectures. The proposed Optimized Deep Event-driven Spiking neural network Architecture (ODESA) can simultaneously learn hierarchical spatio-temporal features at multiple arbitrary time scales. ODESA performs online learning without the use of error back-propagation or the calculation of gradients. Through the use of simple local adaptive selection thresholds at each node, the network rapidly learns to appropriately allocate its neuronal resources at each layer for any given problem without using a real-valued error measure. These adaptive selection thresholds are the central feature of ODESA, ensuring network stability and remarkable robustness to noise as well as to the selection of initial system parameters. Network activations are inherently sparse due to a hard Winner-Take-All (WTA) constraint at each layer. We evaluate the architecture on existing spatio-temporal datasets, including the spike-encoded IRIS and TIDIGITS datasets, as well as a novel set of tasks based on International Morse Code that we created. These tests demonstrate the hierarchical spatio-temporal learning capabilities of ODESA. Through these tests, we demonstrate ODESA can optimally solve practical and highly challenging hierarchical spatio-temporal learning tasks with the minimum possible number of computing nodes.
翻訳日:2021-09-28 15:14:51 公開日:2021-09-27
# RGB画像を用いたベイズ深層学習

Bayesian deep learning of affordances from RGB images ( http://arxiv.org/abs/2109.12845v1 )

ライセンス: Link先を確認
Lorenzo Mur-Labadia and Ruben Martinez-Cantin(参考訳) ロボットやインテリジェントデバイスのような自律エージェントは、オブジェクトとその環境とのインタラクション方法を理解する必要がある。 Affordancesはエージェント、オブジェクト、および環境における将来のアクションの間の関係として定義される。 本稿では,RGB画像から直接,環境の可利用性を予測するためのベイズ深層学習手法を提案する。 社会的に受け入れられた価格に関するこれまでの研究に基づいて,対象物と全画像の局所的・グローバル的情報を組み合わせたマルチスケールCNNをモデルとした。 しかしながら、以前の研究では決定論的モデルが想定されているが、不確実性定量化はロバストな検出、アフォーマンスに基づく推論、継続的な学習などの基本である。 ベイズモデルでは, 現場からの照会的不確実性と, モデルと過去の学習過程に関連する認識的不確実性の両方を捉えることができる。 比較のために,モンテカルロのドロップアウトとディープアンサンブルという2つの最先端技術を用いて不確実性を推定する。 また,特徴抽出のために異なるタイプのCNNエンコーダを比較する。 我々は,社会的に許容される行動について,手頃なデータベース上でいくつかの実験を行った。 さらに、不確実性推定は、オブジェクトのタイプやシナリオと一致している。 以上の結果から,Brierスコアと期待校正誤差のMC-dropoutと比較すると,深層アンサンブルの限界性能が向上した。

Autonomous agents, such as robots or intelligent devices, need to understand how to interact with objects and its environment. Affordances are defined as the relationships between an agent, the objects, and the possible future actions in the environment. In this paper, we present a Bayesian deep learning method to predict the affordances available in the environment directly from RGB images. Based on previous work on socially accepted affordances, our model is based on a multiscale CNN that combines local and global information from the object and the full image. However, previous works assume a deterministic model, but uncertainty quantification is fundamental for robust detection, affordance-based reason, continual learning, etc. Our Bayesian model is able to capture both the aleatoric uncertainty from the scene and the epistemic uncertainty associated with the model and previous learning process. For comparison, we estimate the uncertainty using two state-of-the-art techniques: Monte Carlo dropout and deep ensembles. We also compare different types of CNN encoders for feature extraction. We have performed several experiments on an affordance database on socially acceptable behaviours and we have shown improved performance compared with previous works. Furthermore, the uncertainty estimation is consistent with the the type of objects and scenarios. Our results show a marginal better performance of deep ensembles, compared to MC-dropout on the Brier score and the Expected Calibration Error.
翻訳日:2021-09-28 15:14:29 公開日:2021-09-27
# 進化的マルチタスクの半ダース以上の実世界応用

Half a Dozen Real-World Applications of Evolutionary Multitasking and More ( http://arxiv.org/abs/2109.13101v1 )

ライセンス: Link先を確認
Abhishek Gupta, Lei Zhou, Yew-Soon Ong, Zefeng Chen, Yaqing Hou(参考訳) 最近まで、異なる最適化問題インスタンス(あるいはタスク)にまたがって進化したスキルを移す可能性はほとんどなかった。 進化的マルチタスク(EMT)の概念はこのギャップを埋める。 これにより、集団の暗黙の並列性が解き放たれ、一連のタスクを共同で解決する。 初期段階であったにもかかわらず、EMTのアイデアは、様々な現実世界のアプリケーションで約束を示し始めた。 近年の進歩の背景には,本論文の貢献が2つある。 まず,本論文におけるEMTの応用指向探索について概説し,それぞれの適用領域に応じて6つの広いカテゴリにまとめる。 各カテゴリにおいて,マルチタスクの基本的な動機について,例示的なケーススタディとともに論じる。 第2に、実践的関心の一般的な問題、異なる分野にまたがる問題の定式化を、EMTの新しい光で変換できるレシピのセットを提案する。 我々は,既存のEMT手法の実用性を評価するだけでなく,現実的な展開のための新しいアルゴリズムに向けた今後の研究も行おうとしている。

Until recently, the potential to transfer evolved skills across distinct optimization problem instances (or tasks) was seldom explored in evolutionary computation. The concept of evolutionary multitasking (EMT) fills this gap. It unlocks a population's implicit parallelism to jointly solve a set of tasks, hence creating avenues for skills transfer between them. Despite it being early days, the idea of EMT has begun to show promise in a range of real-world applications. In the backdrop of recent advances, the contribution of this paper is twofold. We first present a review of several application-oriented explorations of EMT in the literature, assimilating them into half a dozen broad categories according to their respective application areas. Within each category, the fundamental motivations for multitasking are discussed, together with an illustrative case study. Second, we present a set of recipes by which general problem formulations of practical interest, those that cut across different disciplines, could be transformed in the new light of EMT. We intend our discussions to not only underscore the practical utility of existing EMT methods, but also spark future research toward novel algorithms crafted for real-world deployment.
翻訳日:2021-09-28 15:13:46 公開日:2021-09-27
# ラベル平滑化を用いたレーダースペクトルを用いた深層学習対象分類の不確かさの改善

Improving Uncertainty of Deep Learning-based Object Classification on Radar Spectra using Label Smoothing ( http://arxiv.org/abs/2109.12851v1 )

ライセンス: Link先を確認
Kanil Patel, William Beluch, Kilian Rambach, Michael Pfeiffer, Bin Yang(参考訳) 最近のディープラーニング(DL)ソリューションでは,自動車レーダのオブジェクトタイプ分類が大幅に改善されているが,これらの開発は主に分類精度に重点を置いている。 自動運転のような安全クリティカルなアプリケーションにDLソリューションを採用する前に、必要不可欠な前提条件は分類器の信頼性の正確な定量化である。 残念なことに、DL分類器はブラックボックスシステムとして特徴付けられており、非常に過信な予測を出力し、下流の意思決定システムは破滅的な結果をもたらす可能性がある。 深層レーダー分類器は, 予測の正確性に関わらず, 遠距離, 領域シフト, 信号の破損など, 不明瞭で困難な試料に対して高い信頼を保っていることがわかった。 本稿は,ラベル平滑化を用いたロバストなリアルタイム不確実性推定を提供する,深いレーダースペクトル分類器の学習を目的とする。 ラベルスムーシング(英: Label smoothing)は、分類データセットで一般的に利用できるハードラベルを精錬する技法である。 本稿では,レーダー固有のノウハウを用いてソフトラベルを定義し,分類器が高品位な校正不確実性推定値を出力することを促すことにより,過信問題を部分的に解決する。 本研究では,単純なレーダ知識と複雑なデータ駆動学習アルゴリズムを組み合わせることで,自動車レーダを安全に認識できることを示す。

Object type classification for automotive radar has greatly improved with recent deep learning (DL) solutions, however these developments have mostly focused on the classification accuracy. Before employing DL solutions in safety-critical applications, such as automated driving, an indispensable prerequisite is the accurate quantification of the classifiers' reliability. Unfortunately, DL classifiers are characterized as black-box systems which output severely over-confident predictions, leading downstream decision-making systems to false conclusions with possibly catastrophic consequences. We find that deep radar classifiers maintain high-confidences for ambiguous, difficult samples, e.g. small objects measured at large distances, under domain shift and signal corruptions, regardless of the correctness of the predictions. The focus of this article is to learn deep radar spectra classifiers which offer robust real-time uncertainty estimates using label smoothing during training. Label smoothing is a technique of refining, or softening, the hard labels typically available in classification datasets. In this article, we exploit radar-specific know-how to define soft labels which encourage the classifiers to learn to output high-quality calibrated uncertainty estimates, thereby partially resolving the problem of over-confidence. Our investigations show how simple radar knowledge can easily be combined with complex data-driven learning algorithms to yield safe automotive radar perception.
翻訳日:2021-09-28 15:09:58 公開日:2021-09-27
# 混合整数ニューラルインバース設計

Mixed Integer Neural Inverse Design ( http://arxiv.org/abs/2109.12888v1 )

ライセンス: Link先を確認
Navid Ansari, Hans-Peter Seidel, Vahid Babaei(参考訳) 計算設計と作成において、ニューラルネットワークはかさばる前方シミュレーションの重要なサロゲートになりつつある。 長期にわたる、対立する疑問は、逆設計である: 望ましい目標性能を満たす設計をどう計算するか? 本稿では,日常のニューラルネットワークにおいて非常に一般的である分断線形性が,混合整数線形計画に基づく逆設計定式化を可能にすることを示す。 我々の混合整数逆設計は、原理的にグローバルに最適あるいはほぼ最適解を明らかにする。 さらに, 材料選択など, 創発的, 挑戦的, コンビネート的逆設計タスクを著しく促進する。 最適解の発見が望ましくない問題や扱いにくい問題に対して,効率が良いが最適に近いハイブリッド最適化を開発する。 最終的に,同様の性能を持つ複数設計間の製造摂動に対して頑健な解を見出すことができた。

In computational design and fabrication, neural networks are becoming important surrogates for bulky forward simulations. A long-standing, intertwined question is that of inverse design: how to compute a design that satisfies a desired target performance? Here, we show that the piecewise linear property, very common in everyday neural networks, allows for an inverse design formulation based on mixed-integer linear programming. Our mixed-integer inverse design uncovers globally optimal or near optimal solutions in a principled manner. Furthermore, our method significantly facilitates emerging, but challenging, combinatorial inverse design tasks, such as material selection. For problems where finding the optimal solution is not desirable or tractable, we develop an efficient yet near-optimal hybrid optimization. Eventually, our method is able to find solutions provably robust to possible fabrication perturbations among multiple designs with similar performances.
翻訳日:2021-09-28 15:09:29 公開日:2021-09-27
# スマート環境のためのコミュニケーション効率の良い分散学習フレームワーク

A communication efficient distributed learning framework for smart environments ( http://arxiv.org/abs/2109.13049v1 )

ライセンス: Link先を確認
Lorenzo Valerio, Andrea Passarella, Marco Conti(参考訳) パーソナルなモバイルデバイスやiotデバイスの普及により、多くの‘スマート環境’(スマートシティやスマートファクトリーなど)が、膨大な量のデータを生成することになる。 現在、これは一般的に集中型クラウドベースのデータ分析サービスによって実現されている。 しかし、多くの研究によれば、このアプローチはデータの所有権や無線ネットワーク容量の観点からも重大な問題をもたらす可能性がある。 こうした欠点に対処できる1つの可能性は、データ分析をデータ生成の場所に近づけることである。 本稿では,分散学習フレームワークの提案と分析を行い,ネットワークのエッジ,すなわち,データ生成の場所と非常に近い場所でデータ分析を行う。 特に、我々のフレームワークでは、部分データ分析は、データを生成するノードまたは近接するノードに直接行われる(例えば、いくつかのデータジェネレータは、近くの他のノードのサブセットの代わりにこの役割を果たすことができる)。 その後、ノードは部分モデルを交換し、それに従って洗練する。 私たちのフレームワークは、さまざまな分析サービスをホストできるほど一般的です。 本論文で分析した特定のケースでは,2つの分散学習アルゴリズムを考慮した学習課題に着目した。 参照データセットの両方で、アクティビティ認識とパターン認識タスクを使用して、2つの学習アルゴリズムを中央のクラウドソリューション(つまり、完全なデータセットにアクセス可能なもの)とを比較します。 その結果、分散機械学習技術を用いることで、学習精度の観点からクラウドソリューションに匹敵する性能を得ながら、ネットワークオーバーヘッドを大幅に削減できることがわかった。 分析はまた、ノード上のデータの特定の分布に基づいて、各分散学習アプローチが望ましいタイミングを示す。

Due to the pervasive diffusion of personal mobile and IoT devices, many ``smart environments'' (e.g., smart cities and smart factories) will be, among others, generators of huge amounts of data. Currently, this is typically achieved through centralised cloud-based data analytics services. However, according to many studies, this approach may present significant issues from the standpoint of data ownership, and even wireless network capacity. One possibility to cope with these shortcomings is to move data analytics closer to where data is generated. In this paper, we tackle this issue by proposing and analyzing a distributed learning framework, whereby data analytics are performed at the edge of the network, i.e., on locations very close to where data is generated. Specifically, in our framework, partial data analytics are performed directly on the nodes that generate the data, or on nodes close by (e.g., some of the data generators can take this role on behalf of subsets of other nodes nearby). Then, nodes exchange partial models and refine them accordingly. Our framework is general enough to host different analytics services. In the specific case analysed in the paper, we focus on a learning task, considering two distributed learning algorithms. Using an activity recognition and a pattern recognition task, both on reference datasets, we compare the two learning algorithms between each other and with a central cloud solution (i.e., one that has access to the complete datasets). Our results show that using distributed machine learning techniques, it is possible to drastically reduce the network overhead, while obtaining performance comparable to the cloud solution in terms of learning accuracy. The analysis also shows when each distributed learning approach is preferable, based on the specific distribution of the data on the nodes.
翻訳日:2021-09-28 15:08:46 公開日:2021-09-27
# ニューラルネットワークを用いたプラズマ流体シミュレーションにおける電場計算のための2次元ポアソン方程式の解法

Using neural networks to solve the 2D Poisson equation for electric field computation in plasma fluid simulations ( http://arxiv.org/abs/2109.13076v1 )

ライセンス: Link先を確認
Lionel Cheng and Ekhi Ajuria Illarramendi and Guillaume Bogopolsky and Michael Bauerheim and Benedicte Cuenot(参考訳) ポアソン方程式はホールエフェクトスラスタやストリーマー放電に使用されるプラズマ流体シミュレーションにおいて自己整合解を得るために重要である。 ディープニューラルネットワークを用いてディリクレ境界条件をゼロとした2次元ポアソン方程式の解法を,枝数,深度および受容場で定義されるマルチスケールアーキテクチャを用いて検討した。 後者は、フィールドの大きなトポロジカルな構造を正しく捉えるために重要である。 複数のアーキテクチャ、損失、ハイパーパラメータの調査は、定常ポアソン問題を正確に解くための最適なネットワークを提供する。 新しい解像度とドメインサイズへの一般化は、ネットワークの適切なスケーリングを用いて提案される。 最後に、PoptopNetと呼ばれるニューラルネットワークソルバは、不安定なオイラープラズマ流体方程式ソルバと結合される。 テストケースは、時間依存シミュレーションにおいてニューラルネットワーク溶液の精度を評価するために使用される電子プラズマ振動に対応する。 この時間発展問題では、安定したシミュレーションを生成するには物理的損失が必要である。 PlasmaNetは、ノード数が増加するメッシュ上でベンチマークされ、Poisson方程式の標準的な線形システムアルゴリズムに基づく既存の解法と比較される。 従来のプラズマソルバよりも優れており、大規模メッシュの速度は700倍も速い。 plasmanetは、化学とアドベクションを含むより複雑な放電伝播のケースで最終的にテストされる。 前節で定められたガイドラインは、同じポアソン方程式を円柱座標で解くためにcnnを構築するために適用される。 その結果,CNNの予測精度は著しく向上した。 これらの結果はポアソン方程式を含む非定常問題を予測するための新しい計算戦略への道を開いた。

The Poisson equation is critical to get a self-consistent solution in plasma fluid simulations used for Hall effect thrusters and streamers discharges. Solving the 2D Poisson equation with zero Dirichlet boundary conditions using a deep neural network is investigated using multiple-scale architectures, defined in terms of number of branches, depth and receptive field. The latter is found critical to correctly capture large topological structures of the field. The investigation of multiple architectures, losses, and hyperparameters provides an optimum network to solve accurately the steady Poisson problem. Generalization to new resolutions and domain sizes is then proposed using a proper scaling of the network. Finally, found neural network solver, called PlasmaNet, is coupled with an unsteady Euler plasma fluid equations solver. The test case corresponds to electron plasma oscillations which is used to assess the accuracy of the neural network solution in a time-dependent simulation. In this time-evolving problem, a physical loss is necessary to produce a stable simulation. PlasmaNet is then benchmarked on meshes with increasing number of nodes, and compared with an existing solver based on a standard linear system algorithm for the Poisson equation. It outperforms the classical plasma solver, up to speedups 700 times faster on large meshes. PlasmaNet is finally tested on a more complex case of discharge propagation involving chemistry and advection. The guidelines established in previous sections are applied to build the CNN to solve the same Poisson equation but in cylindrical coordinates. Results reveal good CNN predictions with significant speedup. These results pave the way to new computational strategies to predict unsteady problems involving a Poisson equation, including configurations with coupled multiphysics interactions such as in plasma flows.
翻訳日:2021-09-28 15:08:20 公開日:2021-09-27
# VMAFとエントロピー差を用いた高フレームレート映像品質評価

High Frame Rate Video Quality Assessment using VMAF and Entropic Differences ( http://arxiv.org/abs/2109.12785v1 )

ライセンス: Link先を確認
Pavan C Madhusudana, Neil Birkbeck, Yilin Wang, Balu Adsumilli, Alan C. Bovik(参考訳) ライブでハイアクションなコンテンツによるストリーミングビデオの人気は、ハイフレームレート(HFR)ビデオへの関心を高めている。 本稿では,比較対象の動画がフレームレートと圧縮係数が異なる場合に,フレームレートに依存するビデオ品質評価(VQA)の問題に対処する。 VMAFのような現在のVQAモデルは、比較対象の動画が同じフレームレートであり、圧縮やスケーリングなどの従来の歪みを含む場合の知覚的判断よりも優れている。 しかし、異なるフレームレートの動画を比較する必要がある場合には、このフレームワークは追加の事前処理ステップを必要とする。 近年,フレームレートの変化によって生じるアーティファクトを考慮に入れた一般化エントロピー差分(GREED)VQAモデルが提案され,ジャッジやストロボなどフレームレート依存アーティファクトを含むLIVE-YT-HFRデータベース上で優れた性能を示した。 本稿では,VMAF と GREED の両モデルの利点を活かすため,VMAF と GREED の機能を融合したシンプルな拡張法を提案する。 提案する融合フレームワークは,フレームレートに依存した映像品質を予測するために,より効率的な特徴をもたらすことを示す。 また、標準の非HFR VQAデータベース上の融合特徴集合を評価し、GREEDとVMAFよりも優れた性能を示し、組み合わせた特徴集合が補完的な知覚品質情報を取得することを示す。

The popularity of streaming videos with live, high-action content has led to an increased interest in High Frame Rate (HFR) videos. In this work we address the problem of frame rate dependent Video Quality Assessment (VQA) when the videos to be compared have different frame rate and compression factor. The current VQA models such as VMAF have superior correlation with perceptual judgments when videos to be compared have same frame rates and contain conventional distortions such as compression, scaling etc. However this framework requires additional pre-processing step when videos with different frame rates need to be compared, which can potentially limit its overall performance. Recently, Generalized Entropic Difference (GREED) VQA model was proposed to account for artifacts that arise due to changes in frame rate, and showed superior performance on the LIVE-YT-HFR database which contains frame rate dependent artifacts such as judder, strobing etc. In this paper we propose a simple extension, where the features from VMAF and GREED are fused in order to exploit the advantages of both models. We show through various experiments that the proposed fusion framework results in more efficient features for predicting frame rate dependent video quality. We also evaluate the fused feature set on standard non-HFR VQA databases and obtain superior performance than both GREED and VMAF, indicating the combined feature set captures complimentary perceptual quality information.
翻訳日:2021-09-28 15:07:55 公開日:2021-09-27
# 画像の超解像に先立つ wasserstein パッチ

Wasserstein Patch Prior for Image Superresolution ( http://arxiv.org/abs/2109.12880v1 )

ライセンス: Link先を確認
Johannes Hertrich, Antoine Houdard, Claudia Redenbach(参考訳) 本稿では,2次元および3次元画像の超解像に先立って,ワッサースタインパッチを提案する。 ここでは、再構成の基礎的真理と類似のパッチ分布を有する参照像を(低分解能観察に付加的に)与えたと仮定する。 この仮定は、例えばテクスチャ画像や材料データを扱うときに満たされる。 そして、提案する正則化器は、再構成のパッチ分布のw_2$- distanceを、複数の基準画像のパッチ分布に異なるスケールでペナルティ化する。 提案する正則化器の性能を2次元および3次元の数値例で示す。

In this paper, we introduce a Wasserstein patch prior for superresolution of two- and three-dimensional images. Here, we assume that we have given (additionally to the low resolution observation) a reference image which has a similar patch distribution as the ground truth of the reconstruction. This assumption is e.g. fulfilled when working with texture images or material data. Then, the proposed regularizer penalizes the $W_2$-distance of the patch distribution of the reconstruction to the patch distribution of some reference image at different scales. We demonstrate the performance of the proposed regularizer by two- and three-dimensional numerical examples.
翻訳日:2021-09-28 15:07:28 公開日:2021-09-27
# 無線ネットワークのための深層学習に基づくリソース割り当て

Deep Learning Based Resource Assignment for Wireless Networks ( http://arxiv.org/abs/2109.12970v1 )

ライセンス: Link先を確認
Minseok Kim, Hoon Lee, Hongju Lee, and Inkyu Lee(参考訳) 本稿では,置換行列の2値変数を同定する無線ネットワークにおける2値割当問題に対する深層学習手法について検討する。 これは、ニューラルネットワークの構造と、実行可能な代入ソリューションを生成するためのトレーニング戦略を設計する際の課題を提起する。 そこで本稿では,非凸射影タスクを一連の置換行列に学習する新しいシンクホーンニューラルネットワークを開発した。 シンクホーンニューラルネットワークをネットワーク割り当て問題に適用可能な教師なしトレーニングアルゴリズムを提案する。 各種ネットワークシナリオにおける提案手法の有効性を数値解析により検証した。

This paper studies a deep learning approach for binary assignment problems in wireless networks, which identifies binary variables for permutation matrices. This poses challenges in designing a structure of a neural network and its training strategies for generating feasible assignment solutions. To this end, this paper develop a new Sinkhorn neural network which learns a non-convex projection task onto a set of permutation matrices. An unsupervised training algorithm is proposed where the Sinkhorn neural network can be applied to network assignment problems. Numerical results demonstrate the effectiveness of the proposed method in various network scenarios.
翻訳日:2021-09-28 15:04:09 公開日:2021-09-27
# Demonstration-like Smpled Exploration を用いたロボット深部強化学習におけるオンラインアクター・クリティカルネットワークの効果的学習

Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep Reinforcement Learning with Demonstration-like Sampled Exploration ( http://arxiv.org/abs/2109.13005v1 )

ライセンス: Link先を確認
Zhaorun Chen, Binhao Chen, Shenghan Xie, Liang Gong, Chengliang Liu, Zhengfeng Zhang and Junping Zhang(参考訳) 高次元の複雑な環境では、強化学習(RL)モデルをスクラッチから訓練することは、エージェントと環境の相互作用の長く退屈な収集に悩まされることが多い。 代わりに、rlエージェントをガイドするエキスパートデモンストレーションを利用することで、サンプル効率を高め、最終的な収束を改善することができる。 オンラインRLモデルに先立って専門家をもっとうまく統合するために,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。 技術的には、まずK-Meansクラスタリングを用いて、サンプル探索と実証データとの類似性を評価する。 次に、グラデーション更新戦略を変更してデモを活用することで、類似のフレームにおけるアクションの可能性を高める。 ムジョコの4つの標準ベンチマーク環境と2つの自設計ロボット環境の実験を行った。 その結果, ある条件下では, サンプル効率を20%~40%向上させることができた。 我々のフレームワークとオンラインのアルゴリズムを組み合わせることで、RLモデルは収束を加速し、特に対話が高価である複雑なロボット環境での最終的な平均エピソード報酬を得ることができる。

In complex environments with high dimension, training a reinforcement learning (RL) model from scratch often suffers from lengthy and tedious collection of agent-environment interactions. Instead, leveraging expert demonstration to guide RL agent can boost sample efficiency and improve final convergence. In order to better integrate expert prior with on-policy RL models, we propose a generic framework for Learning from Demonstration (LfD) based on actor-critic algorithms. Technically, we first employ K-Means clustering to evaluate the similarity of sampled exploration with demonstration data. Then we increase the likelihood of actions in similar frames by modifying the gradient update strategy to leverage demonstration. We conduct experiments on 4 standard benchmark environments in Mujoco and 2 self-designed robotic environments. Results show that, under certain condition, our algorithm can improve sample efficiency by 20% ~ 40%. By combining our framework with on-policy algorithms, RL models can accelerate convergence and obtain better final mean episode rewards especially in complex robotic context where interactions are expensive.
翻訳日:2021-09-28 15:03:31 公開日:2021-09-27
# (参考訳) バックプロパゲーションによる多層GBDTの学習 [全文訳有]

Learning Multi-Layered GBDT Via Back Propagation ( http://arxiv.org/abs/2109.11863v2 )

ライセンス: CC BY 4.0
Zhendong Zhang(参考訳) ディープニューラルネットワークはバック伝搬(BP)を通じて多層表現を学習することができる。 勾配向上決定木(GBDT)は表データのモデリングに有効であるが,その入力に対して微分不可能であり,多層表現の学習に苦慮している。 本稿では,BPを用いた多層GBDTの学習フレームワークを提案する。 線形回帰に基づくGBDTの勾配を近似した。 具体的には,木構造への個々の試料の寄与を無視した各葉の定数を線形回帰を用いて置き換える。 このようにして、多層GBDTのBPを容易にする中間表現の勾配を推定する。 実験では,提案手法の有効性を性能と表現能力の観点から示す。 我々の知る限りでは、BPを介して多層GBDTを最適化する最初の試みである。 この研究は、深い木に基づく学習とGBDTとニューラルネットワークを組み合わせる新たな可能性を提供する。

Deep neural networks are able to learn multi-layered representation via back propagation (BP). Although the gradient boosting decision tree (GBDT) is effective for modeling tabular data, it is non-differentiable with respect to its input, thus suffering from learning multi-layered representation. In this paper, we propose a framework of learning multi-layered GBDT via BP. We approximate the gradient of GBDT based on linear regression. Specifically, we use linear regression to replace the constant value at each leaf ignoring the contribution of individual samples to the tree structure. In this way, we estimate the gradient for intermediate representations, which facilitates BP for multi-layered GBDT. Experiments show the effectiveness of the proposed method in terms of performance and representation ability. To the best of our knowledge, this is the first work of optimizing multi-layered GBDT via BP. This work provides a new possibility of exploring deep tree based learning and combining GBDT with neural networks.
翻訳日:2021-09-28 10:46:45 公開日:2021-09-27
# 不均一なデータに対する次元削減

Dimension Reduction for Data with Heterogeneous Missingness ( http://arxiv.org/abs/2109.11765v2 )

ライセンス: Link先を確認
Yurong Ling, Zijing Liu, Jing-Hao Xue(参考訳) 次元減少は高次元データの解析において重要な役割を果たす。 しかし, 標準次元低減技術を直接適用する上で, 欠点のある観測は極めて困難である。 多数の次元縮小アプローチがグラム行列に基づいているため,まず, 欠如の有無に関わらずグラム行列の統計的性質を調べることにより, 欠如が次元減少に及ぼす影響について検討し, 不均一欠如下では優れた統計特性を有する偏補正グラム行列を提案する。 シミュレーションおよび公開可能な実データを用いた実験結果から,提案した非バイアスグラム行列は,代表次元縮小手法の広帯域を著しく改善できることが示された。

Dimension reduction plays a pivotal role in analysing high-dimensional data. However, observations with missing values present serious difficulties in directly applying standard dimension reduction techniques. As a large number of dimension reduction approaches are based on the Gram matrix, we first investigate the effects of missingness on dimension reduction by studying the statistical properties of the Gram matrix with or without missingness, and then we present a bias-corrected Gram matrix with nice statistical properties under heterogeneous missingness. Extensive empirical results, on both simulated and publicly available real datasets, show that the proposed unbiased Gram matrix can significantly improve a broad spectrum of representative dimension reduction approaches.
翻訳日:2021-09-28 10:35:00 公開日:2021-09-27
# 米国の郡レベルでのCOVID-19発生予測のための時空間機械学習アプローチ

A spatiotemporal machine learning approach to forecasting COVID-19 incidence at the county level in the United States ( http://arxiv.org/abs/2109.12094v2 )

ライセンス: Link先を確認
Benjamin Lucas, Behzad Vahedi, and Morteza Karimzadeh(参考訳) 新型コロナウイルス(COVID-19)が世界のすべての国に影響を及ぼし、日常生活が変わる中で、感染拡大を予測できる能力は、これまでのどの流行よりも重要である。 従来の病原体モデルであるコンパートメンタルモデルは、ウイルスの拡散の時空間的均質性の仮定に基づいており、特に高空間分解能において予測が過小評価される可能性がある。 本稿では,時空間機械学習という代替手法を用いて予測課題にアプローチする。 本稿では,米国内の郡レベルでのCOVID-19の発生を予測するための,長期記憶深層学習アーキテクチャに基づくデータ駆動型モデルであるCOVID-LSTMを提案する。 我々は、時間的入力として毎週の新規陽性症例数と、Facebookのムーブメントとコネクテッドネスデータセットから手作業による空間的特徴を用いて、疾患の時間的・空間的拡散を捉える。 COVID-LSTMは、私たちの17週間の評価期間において、COVID-19 Forecast HubのEnsembleモデル(COVIDhub-ensemble)よりも優れています。 4週間の予測で、私たちのモデルは平均50のケースで、COVIDhubアンサンブルよりも正確です。 新型コロナウイルス前のデータ駆動予測の未利用は、時空間予測のための機械学習手法の最近の進歩に加えて、過去の疾患で利用可能な十分なデータが不足しているためと考えられる。 我々は、データ駆動予測のより広範な取り込みに対する障害と、より深い学習ベースのモデルが将来使われる可能性について論じる。

With COVID-19 affecting every country globally and changing everyday life, the ability to forecast the spread of the disease is more important than any previous epidemic. The conventional methods of disease-spread modeling, compartmental models, are based on the assumption of spatiotemporal homogeneity of the spread of the virus, which may cause forecasting to underperform, especially at high spatial resolutions. In this paper we approach the forecasting task with an alternative technique - spatiotemporal machine learning. We present COVID-LSTM, a data-driven model based on a Long Short-term Memory deep learning architecture for forecasting COVID-19 incidence at the county-level in the US. We use the weekly number of new positive cases as temporal input, and hand-engineered spatial features from Facebook movement and connectedness datasets to capture the spread of the disease in time and space. COVID-LSTM outperforms the COVID-19 Forecast Hub's Ensemble model (COVIDhub-ensemble) on our 17-week evaluation period, making it the first model to be more accurate than the COVIDhub-ensemble over one or more forecast periods. Over the 4-week forecast horizon, our model is on average 50 cases per county more accurate than the COVIDhub-ensemble. We highlight that the underutilization of data-driven forecasting of disease spread prior to COVID-19 is likely due to the lack of sufficient data available for previous diseases, in addition to the recent advances in machine learning methods for spatiotemporal forecasting. We discuss the impediments to the wider uptake of data-driven forecasting, and whether it is likely that more deep learning-based models will be used in the future.
翻訳日:2021-09-28 10:34:46 公開日:2021-09-27
# 現在の自己教師付き学習アルゴリズムは、人間レベルのオブジェクト認識を達成するためにどのくらいの“人間的”な視覚体験が必要か?

How much "human-like" visual experience do current self-supervised learning algorithms need to achieve human-level object recognition? ( http://arxiv.org/abs/2109.11523v2 )

ライセンス: Link先を確認
A. Emin Orhan(参考訳) 本稿は、人間に対する現在の自己教師型視覚表現学習アルゴリズムがどの程度優れているかという根本的な疑問に対処する。 より具体的には、imagenetのような複雑で現実的なビジュアルオブジェクト認識タスクで人間レベルのパフォーマンスに到達するために、これらのアルゴリズムがどれだけの「人間のような」自然な視覚体験が必要か? スケーリング実験によって、この答えは人間の寿命よりも数桁長い、100万年に及ぶ自然視覚体験の順序にあると推定する。 しかし、この推定はいくつかの前提に非常に敏感であり、注意深く制御された人間の実験を実行する必要性を裏付けている。 我々は、見積もりに関する主な注意事項と、この驚くべき結果の意義について論じる。

This paper addresses a fundamental question: how good are our current self-supervised visual representation learning algorithms relative to humans? More concretely, how much "human-like", natural visual experience would these algorithms need in order to reach human-level performance in a complex, realistic visual object recognition task such as ImageNet? Using a scaling experiment, here we estimate that the answer is on the order of a million years of natural visual experience, in other words several orders of magnitude longer than a human lifetime. However, this estimate is quite sensitive to some underlying assumptions, underscoring the need to run carefully controlled human experiments. We discuss the main caveats surrounding our estimate and the implications of this rather surprising result.
翻訳日:2021-09-28 10:33:52 公開日:2021-09-27