このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210924となっている論文です。

PDF登録状況(公開日: 20210924)

TitleAuthorsAbstract論文公表日・翻訳日
# 蒸留を超えて:効率的な推論のためのタスクレベルの混合

Beyond Distillation: Task-level Mixture-of-Experts for Efficient Inference ( http://arxiv.org/abs/2110.03742v1 )

ライセンス: Link先を確認
Sneha Kudugunta, Yanping Huang, Ankur Bapna, Maxim Krikun, Dmitry Lepikhin, Minh-Thang Luong and Orhan Firat(参考訳) Sparse Mixture-of-Experts (MoE)は、トレーニング計算の比例的な増加を伴わずに、多言語翻訳モデルを数十億のパラメータに拡張する成功例である。 しかし、MoEモデルは違法に大きめであり、実践者は蒸留などの方法を利用することが多い。 本研究では,moeモデルにおける異なる粒度(トケン,文,タスク)の経路戦略を調査し,蒸留をバイパスする。 WMTとWebスケールのデータセットの実験から、タスクレベルのルーティング(task-MoE)によって、大規模なスパースモデルからより小さく、準備の整ったサブネットワークを抽出できることが示唆された。 WMTでは、32人の専門家(533Mパラメータ)からなるタスク-MoEが、30言語対の平均で、トークンレベルのMoEモデル(token-MoE)を+1.0BLEUで上回ります。 ピーク推論のスループットも、トークンの代わりにタスクによってルーティングされるときに1.9倍向上する。 より小さな密度のモデルにトークン-MoEを蒸留するとBLEUゲインの32%しか保存できないが、私たちのサブネットワークタスク-MoEは、設計上、蒸留した学生モデルと同じ推論コストですべてのゲインを保存する。 最後に、200の言語ペアにスケールアップする場合、128のエキスパートタスク-MoE(13Bパラメータ)はトークンレベルの競合と競合し、ピーク推論スループットを2.6倍改善します。

Sparse Mixture-of-Experts (MoE) has been a successful approach for scaling multilingual translation models to billions of parameters without a proportional increase in training computation. However, MoE models are prohibitively large and practitioners often resort to methods such as distillation for serving. In this work, we investigate routing strategies at different granularity (token, sentence, task) in MoE models to bypass distillation. Experiments on WMT and a web-scale dataset suggest that task-level routing (task-MoE) enables us to extract smaller, ready-to-deploy sub-networks from large sparse models. On WMT, our task-MoE with 32 experts (533M parameters) outperforms the best performing token-level MoE model (token-MoE) by +1.0 BLEU on average across 30 language pairs. The peak inference throughput is also improved by a factor of 1.9x when we route by tasks instead of tokens. While distilling a token-MoE to a smaller dense model preserves only 32% of the BLEU gains, our sub-network task-MoE, by design, preserves all the gains with the same inference cost as the distilled student model. Finally, when scaling up to 200 language pairs, our 128-expert task-MoE (13B parameters) performs competitively with a token-level counterpart, while improving the peak inference throughput by a factor of 2.6x.
翻訳日:2021-10-17 05:09:36 公開日:2021-09-24
# 有害ミームとそのターゲットの検出

Detecting Harmful Memes and Their Targets ( http://arxiv.org/abs/2110.00413v1 )

ライセンス: Link先を確認
Shraman Pramanick, Dimitar Dimitrov, Rituparna Mukherjee, Shivam Sharma, Md. Shad Akhtar, Preslav Nakov, Tanmoy Chakraborty(参考訳) ソーシャルメディアにおける様々なコミュニケーション方法のうち、インターネットミームは政治的、心理学的、社会文化的意見を伝える強力な手段として登場した。 ミームは典型的にはユーモラスであるが、最近では様々な社会的実体を乱用することを目的とした有害なミームが急増している。 ほとんどの有害ミームは、適切な文脈なしに非常に風刺的で不快であるので、既成のマルチモーダルモデルは、その基盤となるセマンティクスを理解するのに十分なものではないかもしれない。 本研究では, 有害ミームを検知する問題と, 有害ミームが対象とする社会的実体の2つを提案する。 この目的のために、最初のベンチマークデータセットであるharmemeを紹介し、covid-19に関連する3,544のミームを含む。 各ミームは厳密な2段階のアノテーションプロセスを経た。 第1段階では、ミームを非常に有害、部分的に有害、あるいは無害と分類し、第2段階では、それぞれの有害ミームが個人、組織、コミュニティ、社会/一般大衆/その他に示すターゲットの種類をさらに注釈した。 10のユニモーダルおよびマルチモーダルモデルを用いた評価の結果,両タスクにおけるマルチモーダル信号の使用の重要性が強調された。 これらのモデルの限界をさらに議論し、これらの問題に対処するにはさらなる研究が必要であると論じる。

Among the various modes of communication in social media, the use of Internet memes has emerged as a powerful means to convey political, psychological, and socio-cultural opinions. Although memes are typically humorous in nature, recent days have witnessed a proliferation of harmful memes targeted to abuse various social entities. As most harmful memes are highly satirical and abstruse without appropriate contexts, off-the-shelf multimodal models may not be adequate to understand their underlying semantics. In this work, we propose two novel problem formulations: detecting harmful memes and the social entities that these harmful memes target. To this end, we present HarMeme, the first benchmark dataset, containing 3,544 memes related to COVID-19. Each meme went through a rigorous two-stage annotation process. In the first stage, we labeled a meme as very harmful, partially harmful, or harmless; in the second stage, we further annotated the type of target(s) that each harmful meme points to: individual, organization, community, or society/general public/other. The evaluation results using ten unimodal and multimodal models highlight the importance of using multimodal signals for both tasks. We further discuss the limitations of these models and we argue that more research is needed to address these problems.
翻訳日:2021-10-10 11:48:51 公開日:2021-09-24
# 安全クリティカルファイナンシャルトレーディングシステムの解釈可能性

Interpretability in Safety-Critical FinancialTrading Systems ( http://arxiv.org/abs/2109.15112v1 )

ライセンス: Link先を確認
Gabriel Deza, Adelin Travers, Colin Rowat, Nicolas Papernot(参考訳) 金融セクターのトレーディングを知らせる高度機械学習(ML)モデルは、解釈可能性とリスク管理の問題を生み出します。 一見ロバストな予測モデルは、分布設定外において誤って振る舞うかもしれない。 2020年、世界で最も洗練された量子ヘッジファンドのいくつかは、MLモデルが最初に過小評価され、過大評価され、損失を被った。 我々は,トレーディングモデルの予測がどのように操作されるか,およびトレーディング実行レベルで下流タスクに与える影響を正確にストレステストするための勾配ベースアプローチを実装した。 感情の変化や市場変数の変化が、リターン分布の変化に効果的に影響を与えるインプットを構築します。 業界標準のトレーディングパイプラインでは、S&P500株8株のインプットを混乱させます。 提案手法では,入出力分布に大きな負の変動をもたらすサンプル内入力設定が検出される。 取引システムにおけるml予測を解釈するメカニズムを金融コミュニティに提供する。 セキュリティコミュニティでは、MLモデルを独立して研究するのではなく、エンドツーエンドのシステムのパフォーマンスをキャプチャする必要がある。 実際,予測モデルの予測誤差だけでは,これらの予測に基づく取引決定が負のリターンをもたらすには不十分であることを示す。

Sophisticated machine learning (ML) models to inform trading in the financial sector create problems of interpretability and risk management. Seemingly robust forecasting models may behave erroneously in out of distribution settings. In 2020, some of the world's most sophisticated quant hedge funds suffered losses as their ML models were first underhedged, and then overcompensated. We implement a gradient-based approach for precisely stress-testing how a trading model's forecasts can be manipulated, and their effects on downstream tasks at the trading execution level. We construct inputs -- whether in changes to sentiment or market variables -- that efficiently affect changes in the return distribution. In an industry-standard trading pipeline, we perturb model inputs for eight S&P 500 stocks. We find our approach discovers seemingly in-sample input settings that result in large negative shifts in return distributions. We provide the financial community with mechanisms to interpret ML forecasts in trading systems. For the security community, we provide a compelling application where studying ML robustness necessitates that one capture an end-to-end system's performance rather than study a ML model in isolation. Indeed, we show in our evaluation that errors in the forecasting model's predictions alone are not sufficient for trading decisions made based on these forecasts to yield a negative return.
翻訳日:2021-10-10 11:46:13 公開日:2021-09-24
# (参考訳) オープンドメイン会話における粗粒度応答選択のための文脈-粗粒度蒸留 [全文訳有]

Contextual Fine-to-Coarse Distillation for Coarse-grained Response Selection in Open-Domain Conversations ( http://arxiv.org/abs/2109.13087v1 )

ライセンス: CC BY 4.0
Wei Chen, Yeyun Gong, Can Xu, Huang Hu, Bolun Yao, Zhongyu Wei, Zhihao Fan, Xiaowu Hu, Bartuer Zhou, Biao Cheng, Daxin Jiang and Nan Duan(参考訳) 検索型対話システムにおける粗粒度応答選択の問題について検討する。 この問題は微粒な応答選択でも同様に重要であるが、既存の文献では調査されていない。 本稿では,オープンドメイン会話における粗粒度応答選択のためのCFC蒸留モデルを提案する。 CFCモデルでは, クエリ, 候補応答, 対応するコンテキストの高密度表現をマルチトウワーアーキテクチャに基づいて学習し, 単一トウワーアーキテクチャ(きめ細かな)から学習したより表現豊かな知識をマルチトウワーアーキテクチャ(粗い粒度の)に蒸留し, 検索器の性能を向上させる。 提案モデルの性能を評価するため,RedditコメントダンプとTwitterコーパスに基づく2つの新しいデータセットを構築した。 その結果,提案手法は従来のベースライン法と比較して,すべての評価指標に対して有意な改善が得られた。

We study the problem of coarse-grained response selection in retrieval-based dialogue systems. The problem is equally important with fine-grained response selection, but is less explored in existing literature. In this paper, we propose a Contextual Fine-to-Coarse (CFC) distilled model for coarse-grained response selection in open-domain conversations. In our CFC model, dense representations of query, candidate response and corresponding context is learned based on the multi-tower architecture, and more expressive knowledge learned from the one-tower architecture (fine-grained) is distilled into the multi-tower architecture (coarse-grained) to enhance the performance of the retriever. To evaluate the performance of our proposed model, we construct two new datasets based on the Reddit comments dump and Twitter corpus. Extensive experimental results on the two datasets show that the proposed methods achieve a significant improvement over all evaluation metrics compared with traditional baseline methods.
翻訳日:2021-10-01 10:50:40 公開日:2021-09-24
# (参考訳) 深層学習法による歯槽骨レベルの測定 [全文訳有]

Use of the Deep Learning Approach to Measure Alveolar Bone Level ( http://arxiv.org/abs/2109.12115v1 )

ライセンス: CC BY 4.0
Chun-Teh Lee, Tanjida Kabir, Jiman Nelson, Sally Sheng, Hsiu-Wan Meng, Thomas E. Van Dyke, Muhammad F. Walji, Xiaoqian Jiang, Shayan Shams(参考訳) 要約: Aim: 目的は, 深部畳み込みニューラルネットワークを用いて歯槽骨レベルを測定し, 歯周診断を支援することであった。 材料と方法:3つのセグメンテーションネットワーク(骨領域, 歯, セメントエナメルジャンクション)と画像解析を統合し, 骨のx線レベルを測定し, 骨損失(rbl)ステージを割り当てることで, 深層学習(dl)モデルを開発した。 RBLの割合は, 各歯のRBLの段階を決定するために算出された。 2018年の歯周炎分類で仮診断を施行した。 RBL, ステージング, 予備診断は, 独立した検査者による測定値と診断値と比較した。 結果: セグメンテーションの平均サイコロ類似度係数 (dsc) は0.01。 DLと試験員によるRBL測定では有意差はなかった(p=0.65)。 ステージi, ii, iiiのrblステージ割り当ての受信機動作特性曲線下の面積は, それぞれ 0.89, 0.90, 0.90 であった。 診断精度は0.85。 結論: 提案したDLモデルは, 根尖部X線画像を用いた信頼性の高いRBL測定と画像に基づく歯周診断を提供する。 しかし、このモデルはより多くの画像によってさらに最適化され、検証されなければならない。

Abstract: Aim: The goal was to use a Deep Convolutional Neural Network to measure the radiographic alveolar bone level to aid periodontal diagnosis. Material and methods: A Deep Learning (DL) model was developed by integrating three segmentation networks (bone area, tooth, cementoenamel junction) and image analysis to measure the radiographic bone level and assign radiographic bone loss (RBL) stages. The percentage of RBL was calculated to determine the stage of RBL for each tooth. A provisional periodontal diagnosis was assigned using the 2018 periodontitis classification. RBL percentage, staging, and presumptive diagnosis were compared to the measurements and diagnoses made by the independent examiners. Results: The average Dice Similarity Coefficient (DSC) for segmentation was over 0.91. There was no significant difference in RBL percentage measurements determined by DL and examiners (p=0.65). The Area Under the Receiver Operating Characteristics Curve of RBL stage assignment for stage I, II and III was 0.89, 0.90 and 0.90, respectively. The accuracy of the case diagnosis was 0.85. Conclusion: The proposed DL model provides reliable RBL measurements and image-based periodontal diagnosis using periapical radiographic images. However, this model has to be further optimized and validated by a larger number of images to facilitate its application.
翻訳日:2021-10-01 10:36:07 公開日:2021-09-24
# (参考訳) 注意的収縮流:リプシッツ拘束自己拘束による収縮流の改善 [全文訳有]

Attentive Contractive Flow: Improved Contractive Flows with Lipschitz-constraine d Self-Attention ( http://arxiv.org/abs/2109.12135v1 )

ライセンス: CC BY 4.0
Avideep Mukherjee, Badri Narayan Patro, Sahil Sidheekh, Maneesh Singh, Vinay P. Namboodiri(参考訳) 正規化フローは、可逆変換を用いて分布から抽出可能な密度推定を求めるエレガントな方法を提供する。 主な課題は、可逆性制約を保ちつつモデルの表現性を向上させることである。 そこで我々は,局所的な自己着想を取り入れることを提案する。 しかし, 従来の自己拘束機構は可逆流を得るための要求を満たせず, 流れの正規化に内在的に組み込むことはできない。 そこで本研究では,フローベース生成モデル(contractive flow)の特別なカテゴリを利用する,Attentive Contractive Flow (ACF) という新しい手法を提案する。 我々は, ACFをプラグアンドプレイ方式で, 各種のアートフローモデルに導入できることを実証した。 これは、これらのモデルの表現力を向上するだけでなく(ディム計量当たりのビットの改善)、トレーニングにおいてはるかに高速な収束をもたらすことが示される。 テスト画像間の補間を含む定性的な結果は、サンプルがより現実的で、データ内の局所的な相関をよく捉えていることを示す。 さらに, AWGNを用いて摂動解析を行い, ACFモデル(特にドット積変種)が付加雑音に対してより良く, より一貫した耐性を示すことを示す。

Normalizing flows provide an elegant method for obtaining tractable density estimates from distributions by using invertible transformations. The main challenge is to improve the expressivity of the models while keeping the invertibility constraints intact. We propose to do so via the incorporation of localized self-attention. However, conventional self-attention mechanisms don't satisfy the requirements to obtain invertible flows and can't be naively incorporated into normalizing flows. To address this, we introduce a novel approach called Attentive Contractive Flow (ACF) which utilizes a special category of flow-based generative models - contractive flows. We demonstrate that ACF can be introduced into a variety of state of the art flow models in a plug-and-play manner. This is demonstrated to not only improve the representation power of these models (improving on the bits per dim metric), but also to results in significantly faster convergence in training them. Qualitative results, including interpolations between test images, demonstrate that samples are more realistic and capture local correlations in the data well. We evaluate the results further by performing perturbation analysis using AWGN demonstrating that ACF models (especially the dot-product variant) show better and more consistent resilience to additive noise.
翻訳日:2021-10-01 10:18:25 公開日:2021-09-24
# (参考訳) ニューラルネットワークを用いた翼の空力係数予測 [全文訳有]

Airfoil's Aerodynamic Coefficients Prediction using Artificial Neural Network ( http://arxiv.org/abs/2109.12149v1 )

ライセンス: CC BY 4.0
Hassan Moin, Hafiz Zeeshan Iqbal Khan, Surrayya Mobeen and Jamshed Riaz(参考訳) 機体の形状が航空機やロータークラフトの全体的な空力特性に直接影響するため、右翼の確認はあらゆる航空機設計の初期段階における重要なステップである。 性能の指標であるだけでなく、空力係数は飛行制御システムのような追加のサブシステムの設計や、空力弾性不安定性のような複雑な動的現象の予測にも用いられる。 問題の係数は風洞試験によって実験的に得られるか、あるいは精度の要求に応じて流体力学の基礎方程式を数値シミュレーションすることによって得られる。 本稿では, 異なる翼形状の空力係数を攻撃角, マッハ数, レイノルズ数で推定するためのニューラルネットワーク (anns) の適用可能性について検討した。 ANNは、高度に非線形な空間的および時間的パターンを学習する能力を持つ計算エンティティである。 そのため、より複雑な実世界現象を近似するために用いられるようになっている。 しかし、ここ数年で大きな進歩を遂げたにもかかわらず、計算流体力学(CFD)分野におけるANNの広がりは比較的最近であり、この分野の多くの応用は未解明のままである。 そこで本研究では,異なるネットワークアーキテクチャとトレーニングデータセットを比較して,ネットワークが与えられた翼のジオメトリーをどのように知覚するかを把握し,より高速かつ容易にリフト,ドラッグ,モーメント係数を定常状態,圧縮不能な流れ状態で予測する神経モデルを構築した。 このデータ駆動方式は,高い計算コストと実験コストを節約し,十分な正確な結果が得られる。

Figuring out the right airfoil is a crucial step in the preliminary stage of any aerial vehicle design, as its shape directly affects the overall aerodynamic characteristics of the aircraft or rotorcraft. Besides being a measure of performance, the aerodynamic coefficients are used to design additional subsystems such as a flight control system, or predict complex dynamic phenomena such as aeroelastic instability. The coefficients in question can either be obtained experimentally through wind tunnel testing or, depending upon the accuracy requirements, by numerically simulating the underlying fundamental equations of fluid dynamics. In this paper, the feasibility of applying Artificial Neural Networks (ANNs) to estimate the aerodynamic coefficients of differing airfoil geometries at varying Angle of Attack, Mach and Reynolds number is investigated. The ANNs are computational entities that have the ability to learn highly nonlinear spatial and temporal patterns. Therefore, they are increasingly being used to approximate complex real-world phenomenon. However, despite their significant breakthrough in the past few years, ANNs' spreading in the field of Computational Fluid Dynamics (CFD) is fairly recent, and many applications within this field remain unexplored. This study thus compares different network architectures and training datasets in an attempt to gain insight as to how the network perceives the given airfoil geometries, while producing an acceptable neuronal model for faster and easier prediction of lift, drag and moment coefficients in steady state, incompressible flow regimes. This data-driven method produces sufficiently accurate results, with the added benefit of saving high computational and experimental costs.
翻訳日:2021-10-01 10:07:48 公開日:2021-09-24
# (参考訳) POSSE: ソフトウェア暗号化時のシステムのパターン [全文訳有]

POSSE: Patterns of Systems During Software Encryption ( http://arxiv.org/abs/2109.12162v1 )

ライセンス: CC BY 4.0
David Noever, Samantha Miller Noever(参考訳) 本研究は,パフォーマンス監視と統計的機械学習を用いたランサムウェア検出を再放送する。 41の入力変数をラベル付けしてテスト環境を構築し、アイドル、暗号化、圧縮という3つのコンピューティング状態を比較する。 この行動検出器の共通の目標は、暗号化によるハードドライブロックの最終段階と、ファイルシステムをベースラインに戻すための支払い要求を予測し、短絡することである。 機械学習技術と比較すると、線形回帰はランダムフォレスト、決定木、サポートベクターマシン(SVM)よりも優れている。 すべてのアルゴリズムは、可能な3つのクラス(アイドル、暗号化、圧縮)を91%以上の精度で分類した。

This research recasts ransomware detection using performance monitoring and statistical machine learning. The work builds a test environment with 41 input variables to label and compares three computing states: idle, encryption and compression. A common goal of this behavioral detector seeks to anticipate and short-circuit the final step of hard-drive locking with encryption and the demand for payment to return the file system to its baseline. Comparing machine learning techniques, linear regression outperforms random forest, decision trees, and support vector machines (SVM). All algorithms classified the 3 possible classes (idle, encryption, and compression) with greater than 91% accuracy.
翻訳日:2021-10-01 09:57:02 公開日:2021-09-24
# (参考訳) 環境混合物のパターン同定のためのベイズ非パラメトリック非負行列分解

Bayesian non-parametric non-negative matrix factorization for pattern identification in environmental mixtures ( http://arxiv.org/abs/2109.12164v1 )

ライセンス: CC BY 4.0
Elizabeth A. Gibson, Sebastian T. Rowland, Jeff Goldsmith, John Paisley, Julie B. Herbstman, Marianthi-Anna Kiourmourtzoglou(参考訳) 環境衛生研究者は、潜在的に有害な環境化学物質の曝露を引き起こす原因、製品の使用、行動を表す露光パターンを特定することを目指している。 ベイズ非パラメトリック非負行列分解 (bn^2mf) は, パターン数が未知な場合の化学被曝パターンを同定するための新しい手法である。 パターンの読み込みと個々のスコアに非負の連続前処理を施し, パターン数を推定する前に, 巧妙な非パラメトリックスパースを用いた。 推定パターンにおけるモデルの信頼度を定量化するため、我々はさらに推定値の変動信頼区間を導出する。 これらの特徴は、ユーザ特定パターン数に制限された既存のパターン認識手法、人間の理解におけるパターンの解釈可能性の欠如、不確実な定量化の欠如などとは対照的である。

Environmental health researchers may aim to identify exposure patterns that represent sources, product use, or behaviors that give rise to mixtures of potentially harmful environmental chemical exposures. We present Bayesian non-parametric non-negative matrix factorization (BN^2MF) as a novel method to identify patterns of chemical exposures when the number of patterns is not known a priori. We placed non-negative continuous priors on pattern loadings and individual scores to enhance interpretability and used a clever non-parametric sparse prior to estimate the pattern number. We further derived variational confidence intervals around estimates; this is a critical development because it quantifies the model's confidence in estimated patterns. These unique features contrast with existing pattern recognition methods employed in this field which are limited by user-specified pattern number, lack of interpretability of patterns in terms of human understanding, and lack of uncertainty quantification.
翻訳日:2021-10-01 09:51:16 公開日:2021-09-24
# (参考訳) データ拡張とモデルアンサンブルを併用した前庭神経癌とコチェリーの非教師的クロスモーダルドメイン適応 [全文訳有]

Unsupervised Cross-Modality Domain Adaptation for Segmenting Vestibular Schwannoma and Cochlea with Data Augmentation and Model Ensemble ( http://arxiv.org/abs/2109.12169v1 )

ライセンス: CC BY 4.0
Hao Li, Dewei Hu, Qibang Zhu, Kathleen E. Larson, Huahong Zhang, and Ipek Oguz(参考訳) 磁気共鳴画像(MRI)は,前庭性シワノーマと内耳の定量化に広く用いられている。 近年,これらの構造をセグメント化するためのディープラーニング手法が注目されている。 しかしながら、トレーニングセグメンテーションモデルは、コストと時間を要するターゲットドメインの手動ラベルを必要とする可能性がある。 この問題を解決するために、ドメイン適応は、ソースドメインからの情報を有効活用して、ターゲットドメインに手動ラベルを必要とせずに正確なセグメンテーションを得る方法である。 本稿では,VS と cochlea をセグメント化するための教師なし学習フレームワークを提案する。 本フレームワークは,T1強調MRI(ceT1-w)とそのラベルからの情報を活用し,T2強調MRIのセグメンテーションを生成する。 まず,画像から画像への変換を実現するためにジェネレータを適用した。 次に、異なるモデルのアンサンブルからの出力をアンサンブルし、最終セグメンテーションを得る。 異なる部位/スキャナーからのMRIに対処するために,トレーニング中に様々な「オンライン」拡張を適用し,画像の外観や品質の幾何学的変動と変動をよりよく捉えた。 提案手法は,VS と cochlea のそれぞれの平均値 0.7930 と 0.7432 で,有望なセグメンテーションの構築と生成が容易である。

Magnetic resonance images (MRIs) are widely used to quantify vestibular schwannoma and the cochlea. Recently, deep learning methods have shown state-of-the-art performance for segmenting these structures. However, training segmentation models may require manual labels in target domain, which is expensive and time-consuming. To overcome this problem, domain adaptation is an effective way to leverage information from source domain to obtain accurate segmentations without requiring manual labels in target domain. In this paper, we propose an unsupervised learning framework to segment the VS and cochlea. Our framework leverages information from contrast-enhanced T1-weighted (ceT1-w) MRIs and its labels, and produces segmentations for T2-weighted MRIs without any labels in the target domain. We first applied a generator to achieve image-to-image translation. Next, we ensemble outputs from an ensemble of different models to obtain final segmentations. To cope with MRIs from different sites/scanners, we applied various 'online' augmentations during training to better capture the geometric variability and the variability in image appearance and quality. Our method is easy to build and produces promising segmentations, with a mean Dice score of 0.7930 and 0.7432 for VS and cochlea respectively in the validation set.
翻訳日:2021-10-01 09:50:16 公開日:2021-09-24
# (参考訳) NICE: 強化学習型整数プログラミングによるロバストスケジューリング [全文訳有]

NICE: Robust Scheduling through Reinforcement Learning-Guided Integer Programming ( http://arxiv.org/abs/2109.12171v1 )

ライセンス: CC BY 4.0
Luke Kenworthy, Siddharth Nayak, Christopher Chin and Hamsa Balakrishnan(参考訳) 整数プログラムは、現実世界の幅広いスケジューリング問題を表現するための強力な抽象化を提供する。 一般的なスケジューリング問題をモデル化する能力にもかかわらず、大規模整数プログラム(ip)の解決は計算上の課題である。 破壊に対する堅牢性のようなより複雑な目的の組み入れにより、さらに計算課題が悪化する。 我々は,強化学習と整数プログラミングを組み合わせた新しい手法であるNICE(Neural Network IP Coefficient extract)を提案する。 より具体的には、NICEは整数プログラミングの定式化における複雑な目的を概ね表すために強化学習を使用する。 niceは、飛行クルーのスケジュールに対するパイロットの割り当てを決定し、混乱の影響を減らすために使用します。 我々は,(1)有望なクルースケジュールを生成するベースライン整数計画法と(2)破壊の影響を明示的に最小化しようとする頑健な整数計画法との比較を行った。 私たちの実験では、様々なシナリオでニースがスケジュールを生成し、ベースラインの定式化よりも33-48-%少ないディスラプションとなることを示しています。 さらに、堅牢な整数プログラムが90分以内にスケジュールを作成できなかった、より厳格に制約されたスケジューリングシナリオでは、niceは平均して2秒未満で堅牢なスケジュールを構築することができる。

Integer programs provide a powerful abstraction for representing a wide range of real-world scheduling problems. Despite their ability to model general scheduling problems, solving large-scale integer programs (IP) remains a computational challenge in practice. The incorporation of more complex objectives such as robustness to disruptions further exacerbates the computational challenge. We present NICE (Neural network IP Coefficient Extraction), a novel technique that combines reinforcement learning and integer programming to tackle the problem of robust scheduling. More specifically, NICE uses reinforcement learning to approximately represent complex objectives in an integer programming formulation. We use NICE to determine assignments of pilots to a flight crew schedule so as to reduce the impact of disruptions. We compare NICE with (1) a baseline integer programming formulation that produces a feasible crew schedule, and (2) a robust integer programming formulation that explicitly tries to minimize the impact of disruptions. Our experiments show that, across a variety of scenarios, NICE produces schedules resulting in 33\% to 48\% fewer disruptions than the baseline formulation. Moreover, in more severely constrained scheduling scenarios in which the robust integer program fails to produce a schedule within 90 minutes, NICE is able to build robust schedules in less than 2 seconds on average.
翻訳日:2021-10-01 09:44:10 公開日:2021-09-24
# (参考訳) 皮膚病変分類における群学習の公正性について [全文訳有]

On the Fairness of Swarm Learning in Skin Lesion Classification ( http://arxiv.org/abs/2109.12176v1 )

ライセンス: CC BY 4.0
Di Fan, Yifan Wu, Xiaoxiao Li(参考訳) 医療の分野で しかし、既存のAIモデルは決定マークに偏っている可能性がある。 サブグループのみのデータ収集など、データ自身によって引き起こされるバイアスは、より多様化したデータを含むことで軽減できる。 分散および協調学習は、大規模な、異種、分散データソース(ノードとしても知られる)でのトレーニングモデルを巻き込むアプローチである。 本研究では,近年のエッジコンピューティングに基づく分散機械学習手法であるswarm learning (sl) における公平性の問題を検討することを目的とした。 SLは臨床応用において高い性能を示したが、SLが公平性を向上させるかどうかを評価する試みは行われていない。 そこで本研究では,単一(ノード)トレーニング,sl,集中型トレーニングの公平性を比較し,実証実験を行った。 具体的には,様々なサブグループのサンプルを含む,広く公開されている皮膚病変データセットについて検討した。 実験により, SLは集中訓練と比較して公平性問題を悪化させず, 単調訓練に比べ, 性能と公平性の両方を改善していることがわかった。 しかし、SLモデルにはまだバイアスがあり、SLの実装は代替の2つの戦略よりも複雑である。

in healthcare. However, the existing AI model may be biased in its decision marking. The bias induced by data itself, such as collecting data in subgroups only, can be mitigated by including more diversified data. Distributed and collaborative learning is an approach to involve training models in massive, heterogeneous, and distributed data sources, also known as nodes. In this work, we target on examining the fairness issue in Swarm Learning (SL), a recent edge-computing based decentralized machine learning approach, which is designed for heterogeneous illnesses detection in precision medicine. SL has achieved high performance in clinical applications, but no attempt has been made to evaluate if SL can improve fairness. To address the problem, we present an empirical study by comparing the fairness among single (node) training, SL, centralized training. Specifically, we evaluate on large public available skin lesion dataset, which contains samples from various subgroups. The experiments demonstrate that SL does not exacerbate the fairness problem compared to centralized training and improves both performance and fairness compared to single training. However, there still exists biases in SL model and the implementation of SL is more complex than the alternative two strategies.
翻訳日:2021-10-01 09:27:01 公開日:2021-09-24
# (参考訳) 質的選好による制約付き最適化 [全文訳有]

Constrained Optimization with Qualitative Preferences ( http://arxiv.org/abs/2109.12179v1 )

ライセンス: CC BY 4.0
Sultan Ahmed and Malek Mouhoub(参考訳) Conditional Preference Network (CP-net) は、セテリスパリバスの解釈の下で、ユーザの質的および条件的嗜好文をグラフィカルに表現する。 制約付きCP-netは制約の集合へのCP-netの拡張である。 制約付きCP-netを解くための既存のアルゴリズムは、高価な支配試験を必要とする。 我々はこの課題に取り組むための3つのアプローチを提案する。 第1のソリューションでは、変数間の相対的重要性を付加することで制約されたCP-netを変更し、結果の完全な順序付けを行う。 我々はこの新しいモデル、制約付き相対重要ネットワーク(constrained cpr-net)と呼ぶ。 その結果、制約付きCPR-netは1つの最適結果(制約付きCPR-netが一貫していると仮定した場合)を持ち、支配試験なしで得られることを示す。 第2の解決策として、Lexicographic Preference Tree (LP-tree) を一連の制約に拡張する。 そこで我々は,検索-LPと呼ぶ再帰的バックトラック探索アルゴリズムを提案し,最も好ましい結果を求める。 検索-LPで返される最初の実現可能な結果(優位性テストなし)は、他の実現可能な結果よりも好ましいことを示す。 最後に、第3のソリューションでは、cp-netのセマンティクスを保存し、支配的テストによって結果を比較する分割・克服アルゴリズムを提案する。

The Conditional Preference Network (CP-net) graphically represents user's qualitative and conditional preference statements under the ceteris paribus interpretation. The constrained CP-net is an extension of the CP-net, to a set of constraints. The existing algorithms for solving the constrained CP-net require the expensive dominance testing operation. We propose three approaches to tackle this challenge. In our first solution, we alter the constrained CP-net by eliciting additional relative importance statements between variables, in order to have a total order over the outcomes. We call this new model, the constrained Relative Importance Network (constrained CPR-net). Consequently, We show that the Constrained CPR-net has one single optimal outcome (assuming the constrained CPR-net is consistent) that we can obtain without dominance testing. In our second solution, we extend the Lexicographic Preference Tree (LP-tree) to a set of constraints. Then, we propose a recursive backtrack search algorithm, that we call Search-LP, to find the most preferable outcome. We prove that the first feasible outcome returned by Search-LP (without dominance testing) is also preferable to any other feasible outcome. Finally, in our third solution, we preserve the semantics of the CP-net and propose a divide and conquer algorithm that compares outcomes according to dominance testing.
翻訳日:2021-10-01 09:16:42 公開日:2021-09-24
# (参考訳) miidl: 解釈可能なディープラーニングを利用した微生物バイオマーカー識別用pythonパッケージ [全文訳有]

MIIDL: a Python package for microbial biomarkers identification powered by interpretable deep learning ( http://arxiv.org/abs/2109.12204v1 )

ライセンス: CC BY 4.0
Jian Jiang(参考訳) 疾患の早期スクリーニングと診断には,疾患の表現型と臨床結果を予測するための微生物バイオマーカーの検出が重要である。 ほとんどのバイオマーカーの同定法は線形ベースであり、生物学的過程が完全に線形であることは稀である。 この分野への機械学習の導入は、有望なソリューションをもたらす傾向がある。 しかし、微生物のバイオマーカーを解釈可能でデータ駆動で堅牢な方法で同定することは依然として困難である。 我々は,解釈可能な深層学習に基づく微生物バイオマーカー識別のためのPythonパッケージMIIDLを提案する。 MIIDLは、畳み込みニューラルネットワーク、様々な解釈可能性アルゴリズム、および多くの事前処理手法を革新的に応用し、高次元およびスパースデータセットから微生物バイオマーカーを識別するためのワンストップで堅牢なパイプラインを提供する。

Detecting microbial biomarkers used to predict disease phenotypes and clinical outcomes is crucial for disease early-stage screening and diagnosis. Most methods for biomarker identification are linear-based, which is very limited as biological processes are rarely fully linear. The introduction of machine learning to this field tends to bring a promising solution. However, identifying microbial biomarkers in an interpretable, data-driven and robust manner remains challenging. We present MIIDL, a Python package for the identification of microbial biomarkers based on interpretable deep learning. MIIDL innovatively applies convolutional neural networks, a variety of interpretability algorithms and plenty of pre-processing methods to provide a one-stop and robust pipeline for microbial biomarkers identification from high-dimensional and sparse data sets.
翻訳日:2021-10-01 08:14:57 公開日:2021-09-24
# (参考訳) 動的時空間予測のためのロングランジ変換器 [全文訳有]

Long-Range Transformers for Dynamic Spatiotemporal Forecasting ( http://arxiv.org/abs/2109.12218v1 )

ライセンス: CC BY 4.0
Jake Grigsby, Zhe Wang, Yanjun Qi(参考訳) 多変量時系列予測(TSF)は、歴史的文脈に基づく将来の価値の予測に焦点を当てている。 これらの問題において、依存変数は将来の行動の変化に関する追加情報や早期警告の兆候を提供する。 最先端の予測モデルは、時間ステップ間の神経的な注意に依存する。 これにより時間学習が可能となるが、変数間の空間的関係を考慮できない。 本稿では,各入力トークンが与えられた時刻における単一変数の値を表すような,多変量 TSF を新しい時空間列の定式化に変換することで,この問題に対処する。 長距離トランスフォーマーは、この拡張シーケンスに沿って、空間、時間、価値情報間の相互作用を学習することができる。 提案手法は,事前に定義された変動グラフに依存するグラフニューラルネットワークが支配する高次元予測問題にスケールする。 データから空間的・時間的関係を学習しながら、交通予測から電力需要、天気予報に至るまでのベンチマークの競争結果を得る。

Multivariate Time Series Forecasting (TSF) focuses on the prediction of future values based on historical context. In these problems, dependent variables provide additional information or early warning signs of changes in future behavior. State-of-the-art forecasting models rely on neural attention between timesteps. This allows for temporal learning but fails to consider distinct spatial relationships between variables. This paper addresses the problem by translating multivariate TSF into a novel spatiotemporal sequence formulation where each input token represents the value of a single variable at a given timestep. Long-Range Transformers can then learn interactions between space, time, and value information jointly along this extended sequence. Our method, which we call Spacetimeformer, scales to high dimensional forecasting problems dominated by Graph Neural Networks that rely on predefined variable graphs. We achieve competitive results on benchmarks from traffic forecasting to electricity demand and weather prediction while learning spatial and temporal relationships purely from data.
翻訳日:2021-10-01 08:11:42 公開日:2021-09-24
# (参考訳) メリーランド州における移動制限がCOVID-19感染に及ぼす影響 [全文訳有]

Influence of Mobility Restrictions on Transmission of COVID-19 in the state of Maryland -- the USA ( http://arxiv.org/abs/2109.12219v1 )

ライセンス: CC BY 4.0
Nandini Raghuraman (1), Kartik Kaushik (1), Deb Niemeier (2) (1 Department of Epidemiology and Public Health University of Maryland School of Medicine, 2 Department of Civil and Environmental Engineering University of Maryland College Park)(参考訳) 背景:新型コロナウイルス(COVID-19)は2020年1月に米国で初めて発見された。 3月中旬の感染拡大を抑制するため、各州はSAH命令を発令した。 これらの非薬剤的介入は、1918年のインフルエンザの流行など、以前の経験に基づいて強制された。 そこで我々は,移動性に対する規制の影響について検討することとした。 方法:2020年3月から12月にかけてメリーランド州のモビリティーパターンとして曝露変動を用いた生態時系列研究を設計し,同時期のCOVID-19の入院結果と比較した。 当社は、xgboost(extreme gradient boosting)機械学習モデルを構築し、メリーランド州のさまざまな地域で、モビリティボリュームを備えた新型コロナウイルス(covid-19)の入院を遅らせました。 結果: 移動度が5倍に増加した場合の入院率は18%増加し, 移動度が10倍に増加したときの43%増となった。 結論:本研究の結果は,移動度と新型コロナウイルスの発症率との正の線形関係を示した。 これらの結果は、移動制限の利点を示唆する他の研究と部分的に一致している。 新型コロナウイルスのパンデミックへの対応の一環として、移動制限の利点と制限を正確に理解するには、より詳細なアプローチが必要である。

Background: The novel coronavirus, COVID-19, was first detected in the United States in January 2020. To curb the spread of the disease in mid-March, different states issued mandatory stay-at-home (SAH) orders. These nonpharmaceutical interventions were mandated based on prior experiences, such as the 1918 influenza epidemic. Hence, we decided to study the impact of restrictions on mobility on reducing COVID-19 transmission. Methods: We designed an ecological time series study with our exposure variable as Mobility patterns in the state of Maryland for March- December 2020 and our outcome variable as the COVID-19 hospitalizations for the same period. We built an Extreme Gradient Boosting (XGBoost) ensemble machine learning model and regressed the lagged COVID-19 hospitalizations with Mobility volume for different regions of Maryland. Results: We found an 18% increase in COVID-19 hospitalizations when mobility was increased by a factor of five, similarly a 43% increase when mobility was further increased by a factor of ten. Conclusion: The findings of our study demonstrated a positive linear relationship between mobility and the incidence of COVID-19 cases. These findings are partially consistent with other studies suggesting the benefits of mobility restrictions. Although more detailed approach is needed to precisely understand the benefits and limitations of mobility restrictions as part of a response to the COVID-19 pandemic.
翻訳日:2021-10-01 07:39:39 公開日:2021-09-24
# (参考訳) 非線形初等二次ハイブリッド勾配アルゴリズムの高速化と機械学習への応用

Accelerated nonlinear primal-dual hybrid gradient algorithms with applications to machine learning ( http://arxiv.org/abs/2109.12222v1 )

ライセンス: CC BY 4.0
J\'er\^ome Darbon and Gabriel Provencher Langlois(参考訳) 原始双対ハイブリッド勾配(PDHG)アルゴリズムは、サドルポイント構造を持つ凸最適化問題をより小さなサブプロブレムに分割する一階法である。 これらのサブプロブレムは、他のほとんどの分割法とは異なり、行列ベクトル乗法や近位写像のような単純な操作が容易に評価できるため、一般に効率的に解ける。 しかし、高速に動作させるためには、PDHGアルゴリズムは手前の問題に対して微調整された段階的なパラメータを必要とする。 残念なことに、ステップサイズパラメータは、機械学習のような大規模最適化問題に対する計算に不当にコストがかかる量から推定されなければならない。 本稿では,PDHGアルゴリズムの高速化された非線形変量を導入し,機械学習に関連する幅広い最適化問題に対して,計算が容易な段差パラメータによる収束率を最適化する手法を提案する。 無限次元反射的バナッハ空間上の問題を含む厳密な収束結果を証明する。 また,オフセットのないサポートベクターマシン,カーネルリッジ回帰,弾性ネット正規化線形回帰,最小絶対収縮選択演算子など,機械学習における複数の回帰タスクを解決するための高速化非線形pdhgアルゴリズムの実装も提供する。

The primal-dual hybrid gradient (PDHG) algorithm is a first-order method that splits convex optimization problems with saddle-point structure into smaller subproblems. Those subproblems, unlike those obtained from most other splitting methods, can generally be solved efficiently because they involve simple operations such as matrix-vector multiplications or proximal mappings that are easy to evaluate. In order to work fast, however, the PDHG algorithm requires stepsize parameters fine-tuned for the problem at hand. Unfortunately, the stepsize parameters must often be estimated from quantities that are prohibitively expensive to compute for large-scale optimization problems, such as those in machine learning. In this paper, we introduce accelerated nonlinear variants of the PDHG algorithm that can achieve, for a broad class of optimization problems relevant to machine learning, an optimal rate of convergence with stepsize parameters that are simple to compute. We prove rigorous convergence results, including for problems posed on infinite-dimensional reflexive Banach spaces. We also provide practical implementations of accelerated nonlinear PDHG algorithms for solving several regression tasks in machine learning, including support vector machines without offset, kernel ridge regression, elastic net regularized linear regression, and the least absolute shrinkage selection operator.
翻訳日:2021-10-01 07:31:52 公開日:2021-09-24
# (参考訳) 深層多視点検出への一般化 [全文訳有]

Bringing Generalization to Deep Multi-view Detection ( http://arxiv.org/abs/2109.12227v1 )

ライセンス: CC BY 4.0
Jeet Vora, Swetanjal Dutta, Shyamgopal Karthik, Vineet Gandhi(参考訳) マルチビュー検出(mvd)はオクルージョン推論に非常に効果的であり、正確なトップビュー占有マップを必要とする様々なアプリケーションにおいて主流のソリューションである。 ディープラーニングを用いた最近の研究はこの分野で大きな進歩を遂げているが、彼らは一般化の側面を見落としている。 私たちの研究の重要な新規性は、一般化の3つの重要な形式とそれらを調べるための「emph{propose experiment」である。 一 様々な数のカメラにまたがる一般化 二 様々なカメラ位置の一般化、そして最後に 三 新しい場面への一般化 既存の \sota モデルでは,単一シーンとカメラ構成にオーバーフィットすることで,一般化が不十分であることが判明した。 本稿では,事前トレーニング,プーリング戦略,正規化,損失関数を既存の最先端フレームワークに変更して,新たなカメラ構成と新たなシーンの一般化に成功させる方法を提案する。 我々は,\wildtrack と \multiviewx データセットに対して包括的な実験を行う。 (a)一般化能力とMVD法の評価の必要性を動機づける b)提案手法の有効性を実証する。 コードは \url{https://github.com/j eetv/GMVD} で公開されている。

Multi-view Detection (MVD) is highly effective for occlusion reasoning and is a mainstream solution in various applications that require accurate top-view occupancy maps. While recent works using deep learning have made significant advances in the field, they have overlooked the generalization aspect, which makes them \emph{impractical for real-world deployment}. The key novelty of our work is to \emph{formalize} three critical forms of generalization and \emph{propose experiments to investigate them}: i) generalization across a varying number of cameras, ii) generalization with varying camera positions, and finally, iii) generalization to new scenes. We find that existing \sota models show poor generalization by overfitting to a single scene and camera configuration. We propose modifications in terms of pre-training, pooling strategy, regularization, and loss function to an existing state-of-the-art framework, leading to successful generalization across new camera configurations and new scenes. We perform a comprehensive set of experiments on the \wildtrack and \multiviewx datasets to (a) motivate the necessity to evaluate MVD methods on generalization abilities and (b) demonstrate the efficacy of the proposed approach. The code is publicly available at \url{https://github.com/j eetv/GMVD}
翻訳日:2021-10-01 07:30:37 公開日:2021-09-24
# ゴーブレンド行動と影響

Go-Blend behavior and affect ( http://arxiv.org/abs/2109.13388v1 )

ライセンス: Link先を確認
Matthew Barthet, Antonios Liapis and Georgios N. Yannakakis(参考訳) 本稿では,感情モデリングタスクを強化学習プロセスとして見ることにより,感情コンピューティングのパラダイムシフトを提案する。 提案フレームワークによれば、エージェントのコンテキスト(環境)とアクションは、振る舞いと影響を織り交ぜる共通の表現を定義します。 このフレームワークを実現するために、我々は強化学習の最近の進歩に基づき、ハード探索タスクで最高のパフォーマンスを示すgo-exploreアルゴリズムの修正版を使用します。 本研究では,Go-Exploreエージェントを最適にプレイし,人間の覚醒のデモンストレーションを模倣しようとすることで,アーケードゲームにおける我々のフレームワークをテストする。 最適な遊びと覚醒的模倣の間に重要度が変化し、感情や行動パターンのパレットを効果的に表示できるエージェントを作成する。 当社のgo-explore実装は,影響モデリングの新しいパラダイムを導入するだけでなく,多数の行動パターンと感情パターンをブレンドし,表現可能なエージェントを提供することで,aiベースのゲームテストを可能にするものです。

This paper proposes a paradigm shift for affective computing by viewing the affect modeling task as a reinforcement learning process. According to our proposed framework the context (environment) and the actions of an agent define the common representation that interweaves behavior and affect. To realise this framework we build on recent advances in reinforcement learning and use a modified version of the Go-Explore algorithm which has showcased supreme performance in hard exploration tasks. In this initial study, we test our framework in an arcade game by training Go-Explore agents to both play optimally and attempt to mimic human demonstrations of arousal. We vary the degree of importance between optimal play and arousal imitation and create agents that can effectively display a palette of affect and behavioral patterns. Our Go-Explore implementation not only introduces a new paradigm for affect modeling; it empowers believable AI-based game testing by providing agents that can blend and express a multitude of behavioral and affective patterns.
翻訳日:2021-09-29 14:54:14 公開日:2021-09-24
# MLIM:マスケ言語による視覚・言語モデルの事前学習と画像モデリング

MLIM: Vision-and-Language Model Pre-training with Masked Language and Image Modeling ( http://arxiv.org/abs/2109.12178v1 )

ライセンス: Link先を確認
Tarik Arici, Mehmet Saygin Seyfioglu, Tal Neiman, Yi Xu, Son Train, Trishul Chilimbi, Belinda Zeng, and Ismail Tutar(参考訳) VLP(Vision-and-Langu age Pre-training)は、画像およびテキスト入力を必要とする下流タスクのモデルパフォーマンスを改善する。 現在のVLPアプローチは異なる。 (i)モデルアーキテクチャ(特に画像埋め込み器) (ii)損失機能、及び (iii)マスキング政策。 画像埋め込みはresnetのような深いモデルか、トランスフォーマーに画像ピクセルを直接送り込む線形投影である。 一般的に、マスケッド言語モデリング(MLM)の損失に加えて、アライメントに基づく目的が相互モダリティの相互作用に使用され、RoIはマスケッドイメージ・レギュレーション・モデリング(MIRM)のための回帰と分類タスクを特徴付ける。 アライメントとMIRMの目的はどちらも、ほとんど真実を持っていない。 アライメントに基づく目的は、画像とテキストのペアリングとヒューリスティックな目的関数を必要とする。 MIRMはオブジェクト検出器に依存している。 マスキングポリシーはマルチモダリティを活用しないか、他のモデルによって生成されたアライメントと厳密に結合する。 本稿では,VLPのためのMasked Language and Image Modeling (MLIM)を提案する。 MLIMは2つの損失関数を使用する: Masked Language Modeling (MLM) 損失と画像再構成 (RECON) 損失。 モーダルアウェア・マスキング(MAM)は、モダリティ間の相互作用を向上し、テキストと画像再構成の品質を別々にキャプチャするMLMとRECONの損失を利用する。 MLM+RECONタスクとMAMを組み合わせることで、単純化されたVLP手法を提示し、プロプライエタリなeコマースマルチモーダルデータセット上でのダウンストリームタスク性能が向上することを示す。

Vision-and-Language Pre-training (VLP) improves model performance for downstream tasks that require image and text inputs. Current VLP approaches differ on (i) model architecture (especially image embedders), (ii) loss functions, and (iii) masking policies. Image embedders are either deep models like ResNet or linear projections that directly feed image-pixels into the transformer. Typically, in addition to the Masked Language Modeling (MLM) loss, alignment-based objectives are used for cross-modality interaction, and RoI feature regression and classification tasks for Masked Image-Region Modeling (MIRM). Both alignment and MIRM objectives mostly do not have ground truth. Alignment-based objectives require pairings of image and text and heuristic objective functions. MIRM relies on object detectors. Masking policies either do not take advantage of multi-modality or are strictly coupled with alignments generated by other models. In this paper, we present Masked Language and Image Modeling (MLIM) for VLP. MLIM uses two loss functions: Masked Language Modeling (MLM) loss and image reconstruction (RECON) loss. We propose Modality Aware Masking (MAM) to boost cross-modality interaction and take advantage of MLM and RECON losses that separately capture text and image reconstruction quality. Using MLM + RECON tasks coupled with MAM, we present a simplified VLP methodology and show that it has better downstream task performance on a proprietary e-commerce multi-modal dataset.
翻訳日:2021-09-28 16:02:26 公開日:2021-09-24
# RuleBert: 事前訓練された言語モデルにソフトルールを教える

RuleBert: Teaching Soft Rules to Pre-trained Language Models ( http://arxiv.org/abs/2109.13006v1 )

ライセンス: Link先を確認
Mohammed Saeed, Naser Ahmadi, Preslav Nakov, Paolo Papotti(参考訳) 事前学習された言語モデル(plm)は、多くの自然言語処理問題に対処するためのgo-toソリューションであるが、共通意味の知識を捉えて利用する能力にはまだ非常に制限がある。 実際、情報が近似論理則(ソフト)の形で利用可能であるとしても、帰納的推論タスクのパフォーマンスを向上させるために、どのようにPLMに転送するかは明らかではない。 そこで我々は,plmにソフトホーンルールによる推論法を教えることで,このギャップを埋めることを目的とする。 そこで我々は, PLM が与えられた仮説の確率で予測を返すべき, 事実とソフトルールを前提とした分類タスクを導入する。 我々は,このタスクの最初のデータセットを公開し,PLMがタスクの正確な確率を予測する方法を学ぶことができるように改良された損失関数を提案する。 評価結果から, 学習時の論理規則にもとづいても, 結果として得られる微調整モデルは非常に高い性能が得られることがわかった。 さらに,ルールによって表現される論理概念が微調整されたモデルに転送され,外部データセットに対する最先端の結果が得られることを示す。

While pre-trained language models (PLMs) are the go-to solution to tackle many natural language processing problems, they are still very limited in their ability to capture and to use common-sense knowledge. In fact, even if information is available in the form of approximate (soft) logical rules, it is not clear how to transfer it to a PLM in order to improve its performance for deductive reasoning tasks. Here, we aim to bridge this gap by teaching PLMs how to reason with soft Horn rules. We introduce a classification task where, given facts and soft rules, the PLM should return a prediction with a probability for a given hypothesis. We release the first dataset for this task, and we propose a revised loss function that enables the PLM to learn how to predict precise probabilities for the task. Our evaluation results show that the resulting fine-tuned models achieve very high performance, even on logical rules that were unseen at training. Moreover, we demonstrate that logical notions expressed by the rules are transferred to the fine-tuned model, yielding state-of-the-art results on external datasets.
翻訳日:2021-09-28 16:00:11 公開日:2021-09-24
# dashcamビデオを用いた地図の自動更新

Automatic Map Update Using Dashcam Videos ( http://arxiv.org/abs/2109.12131v1 )

ライセンス: Link先を確認
Aziza Zhanabatyrova, Clayton Souza Leite, Yu Xiao(参考訳) 自動運転には、セマンティックランドマークに関する正確な最新情報を提供する3dマップが必要である。 レーザースキャナと比較して、カメラの可用性と低コストのため、視覚ベースのマッピングは学術や産業から注目を集めている。 既存のソリューションの中で、Structure-from-Motio n(SfM)技術は、クラウドソースされたデータから3Dマップを構築するのに有効であることが証明されている。 sfmの以前の研究は、主に3dポイントクラウドの構築とカメラポーズの計算に関する問題に焦点を当てており、自動変更検出とローカライゼーションの問題は残されている。 本稿では,リアルタイム変化検出と局所化に着目した,自動地図更新のためのsfmベースのソリューションを提案する。 私たちのソリューションはセマンティックマップデータ(例えば、交通標識の型や位置)の比較に基づいています。 画素ワイド3Dローカライゼーションアルゴリズムの新たな設計により,スパースSfM点雲を用いて2次元画像から検出された物体を3次元空間内に検出することができる。 2つの都市からダッシュカムビデオが収集された実験により、システムは運転方向に沿って前方に目に見える交通標識を見つけることができ、中央距離誤差は1.22mであることがわかった。 さらに、中央値距離2.21mの誤差で最大80%の変化を検出することができる。 その結果、特にオブジェクト検出およびポイントクラウドジオ登録アルゴリズムを含む、使用中の背景技術の精度を高めることにより、将来的なシステム性能を著しく向上する可能性も示された。

Autonomous driving requires 3D maps that provide accurate and up-to-date information about semantic landmarks. Due to the wider availability and lower cost of cameras compared with laser scanners, vision-based mapping has attracted much attention from academia and industry. Among the existing solutions, Structure-from-Motio n (SfM) technology has proved to be feasible for building 3D maps from crowdsourced data, since it allows unordered images as input. Previous works on SfM have mainly focused on issues related to building 3D point clouds and calculating camera poses, leaving the issues of automatic change detection and localization open. We propose in this paper an SfM-based solution for automatic map update, with a focus on real-time change detection and localization. Our solution builds on comparison of semantic map data (e.g. types and locations of traffic signs). Through a novel design of the pixel-wise 3D localization algorithm, our system can locate the objects detected from 2D images in a 3D space, utilizing sparse SfM point clouds. Experiments with dashcam videos collected from two urban areas prove that the system is able to locate visible traffic signs in front along the driving direction with a median distance error of 1.52 meters. Moreover, it can detect up to 80\% of the changes with a median distance error of 2.21 meters. The result analysis also shows the potential of significantly improving the system performance in the future by increasing the accuracy of the background technology in use, including in particularly the object detection and point cloud geo-registration algorithms.
翻訳日:2021-09-28 15:56:46 公開日:2021-09-24
# 博士論文の自動要約のための事前学習モデルの活用

Leveraging Pretrained Models for Automatic Summarization of Doctor-Patient Conversations ( http://arxiv.org/abs/2109.12174v1 )

ライセンス: Link先を確認
Longxiang Zhang, Renato Negrinho, Arindam Ghosh, Vasudevan Jagannathan, Hamid Reza Hassanzadeh, Thomas Schaaf, Matthew R. Gormley(参考訳) 医師と患者の会話書き起こしを自動的に要約するための微調整事前学習モデルは、限られたトレーニングデータ、重要なドメインシフト、長くて騒々しい書き起こし、高いターゲットの要約変数など、多くの課題を提示する。 本稿では,医師と患者との会話をテキストから直接要約するための事前学習型トランスフォーマーモデルの有用性について検討する。 本稿では,BARTを特別に構築したデータセット上で微調整することにより,限られたトレーニングデータを用いて,流動的で適切な要約を生成することができることを示す。 得られたモデルは、平均的な人間のアノテータの性能と、タスクに対する以前の公開作業の品質を大きく上回る。 長い会話を扱う複数の方法を評価し、事前訓練されたモデルの長さ制限に適合するように会話を切断する明確なベースラインと比較する。 本稿では,会話チャンクを部分要約に要約する手法と,部分要約のコレクションを完全要約に書き換える手法という,2つの微調整モデルからタスクに取り組む多段階アプローチを提案する。 慎重に選択した微調整データセットを用いて、この手法はより長い会話を処理し、生成された要約の質を向上させる。 われわれは,自動評価(ROUGEと医学的所見に着目した2つの概念に基づく指標)と人的評価(文献からの定性的な例,幻覚,一般化,流布,生成した要約の一般品質)の両方を行う。

Fine-tuning pretrained models for automatically summarizing doctor-patient conversation transcripts presents many challenges: limited training data, significant domain shift, long and noisy transcripts, and high target summary variability. In this paper, we explore the feasibility of using pretrained transformer models for automatically summarizing doctor-patient conversations directly from transcripts. We show that fluent and adequate summaries can be generated with limited training data by fine-tuning BART on a specially constructed dataset. The resulting models greatly surpass the performance of an average human annotator and the quality of previous published work for the task. We evaluate multiple methods for handling long conversations, comparing them to the obvious baseline of truncating the conversation to fit the pretrained model length limit. We introduce a multistage approach that tackles the task by learning two fine-tuned models: one for summarizing conversation chunks into partial summaries, followed by one for rewriting the collection of partial summaries into a complete summary. Using a carefully chosen fine-tuning dataset, this method is shown to be effective at handling longer conversations, improving the quality of generated summaries. We conduct both an automatic evaluation (through ROUGE and two concept-based metrics focusing on medical findings) and a human evaluation (through qualitative examples from literature, assessing hallucination, generalization, fluency, and general quality of the generated summaries).
翻訳日:2021-09-28 15:55:27 公開日:2021-09-24
# MCTSを用いた多段シングルプレイヤーカードゲーム用エージェント

MCTS Based Agents for Multistage Single-Player Card Game ( http://arxiv.org/abs/2109.12112v1 )

ライセンス: Link先を確認
Konrad Godlewski, Bartosz Sawicki(参考訳) この記事では、カードゲームLord of the RingsにおけるMonte Carlo Tree Searchアルゴリズムの使用について紹介する。 主な課題はゲーム機構の複雑さであり、各ラウンドは5つの決定段階と2つのランダムステージで構成される。 様々な意思決定アルゴリズムをテストするために,ゲームシミュレータが実装されている。 この研究は、フラットなモンテカルロ探索と完全なMCTS-UCBを用いて、専門家の規則に基づくエージェントをカバーした。 また、プレーアウト戦略も異なる。 実験の結果、アルゴリズムの最適(限られた時間を想定した)組み合わせが定式化された。 MCTSをベースとした手法は,専門知識を持つエージェントよりも優れていることを示す。

The article presents the use of Monte Carlo Tree Search algorithms for the card game Lord of the Rings. The main challenge was the complexity of the game mechanics, in which each round consists of 5 decision stages and 2 random stages. To test various decision-making algorithms, a game simulator has been implemented. The research covered an agent based on expert rules, using flat Monte-Carlo search, as well as complete MCTS-UCB. Moreover different playout strategies has been compared. As a result of experiments, an optimal (assuming a limited time) combination of algorithms were formulated. The developed MCTS based method have demonstrated a advantage over agent with expert knowledge.
翻訳日:2021-09-28 15:53:55 公開日:2021-09-24
# AI Explainability 360: インパクトと設計

AI Explainability 360: Impact and Design ( http://arxiv.org/abs/2109.12151v1 )

ライセンス: Link先を確認
Vijay Arya, Rachel K. E. Bellamy, Pin-Yu Chen, Amit Dhurandhar, Michael Hind, Samuel C. Hoffman, Stephanie Houde, Q. Vera Liao, Ronny Luss, Aleksandra Mojsilovic, Sami Mourad, Pablo Pedemonte, Ramya Raghavendra, John Richards, Prasanna Sattigeri, Karthikeyan Shanmugam, Moninder Singh, Kush R. Varshney, Dennis Wei, Yunfeng Zhang(参考訳) 人工知能と機械学習のアルゴリズムが社会で普及するにつれて、複数の利害関係者がこれらのアルゴリズムに説明を求めている。 同時に、これらの利害関係者(市民、政府の規制当局、ドメインの専門家、システム開発者)は、異なる説明の必要性を持っている。 これらのニーズに対処するため、2019年にAI Explainability 360(Arya et al. 2020)を開発しました。 本稿では,いくつかのケーススタディ,統計,コミュニティフィードバックによるツールキットの影響について検討する。 ユーザがai説明360を体験するさまざまな方法によって、複数のタイプのインパクトと複数のメトリクスの改善が生まれ、独立のlf ai & data foundationによるツールキットの採用が強調された。 また,ツールキットのフレキシブルな設計,使用例,利用者が利用可能な教育資料や資料についても述べる。

As artificial intelligence and machine learning algorithms become increasingly prevalent in society, multiple stakeholders are calling for these algorithms to provide explanations. At the same time, these stakeholders, whether they be affected citizens, government regulators, domain experts, or system developers, have different explanation needs. To address these needs, in 2019, we created AI Explainability 360 (Arya et al. 2020), an open source software toolkit featuring ten diverse and state-of-the-art explainability methods and two evaluation metrics. This paper examines the impact of the toolkit with several case studies, statistics, and community feedback. The different ways in which users have experienced AI Explainability 360 have resulted in multiple types of impact and improvements in multiple metrics, highlighted by the adoption of the toolkit by the independent LF AI & Data Foundation. The paper also describes the flexible design of the toolkit, examples of its use, and the significant educational material and documentation available to its users.
翻訳日:2021-09-28 15:53:46 公開日:2021-09-24
# アニメーション画像が少なくとも1000語を語る:マルチモーダルダイアログにおけるGIFベースの応答の選択

An animated picture says at least a thousand words: Selecting Gif-based Replies in Multimodal Dialog ( http://arxiv.org/abs/2109.12212v1 )

ライセンス: Link先を確認
Xingyao Wang, David Jurgens(参考訳) オンライン会話にはテキスト以上のものが含まれる。 ミームやアニメーションgifのような画像ベースの反応は、会話において文化的に認識され、しばしばユーモラスな反応となる。 しかし,NLPはマルチモーダルモデルに拡張されているものの,対話型対話システムはテキスト応答生成のみに重点を置いている。 ここでは,156万のテキスト-ギフ対話ターンのデータセットを導入し,GIFベースの応答を選択するための多モーダル対話モデルPepe the King Prawnを導入する。 我々は,本モデルが関連性および高品質なGIF応答を生成できることを実証し,実ユーザに対して応答する複数のモデルのランダム化制御試験において,我々のモデルがコミュニティからかなり好まれるGIFで応答することを示す。

Online conversations include more than just text. Increasingly, image-based responses such as memes and animated gifs serve as culturally recognized and often humorous responses in conversation. However, while NLP has broadened to multimodal models, conversational dialog systems have largely focused only on generating text replies. Here, we introduce a new dataset of 1.56M text-gif conversation turns and introduce a new multimodal conversational model Pepe the King Prawn for selecting gif-based replies. We demonstrate that our model produces relevant and high-quality gif responses and, in a large randomized control trial of multiple models replying to real users, we show that our model replies with gifs that are significantly better received by the community.
翻訳日:2021-09-28 15:50:09 公開日:2021-09-24
# ゼロ階確率最適化のための適応サンプリング準ニュートン法

Adaptive Sampling Quasi-Newton Methods for Zeroth-Order Stochastic Optimization ( http://arxiv.org/abs/2109.12213v1 )

ライセンス: Link先を確認
Raghu Bollapragada and Stefan M. Wild(参考訳) 勾配情報のない制約のない確率最適化問題を考える。 このような問題は、微分自由シミュレーション最適化から強化学習への設定で生じる。 本稿では,確率関数の勾配を共通乱数フレームワーク内の有限差を用いて推定する適応サンプリング準ニュートン法を提案する。 確率近似で用いられるサンプルサイズを制御し、最適解の近傍に大域収束結果を与えるため、標準試験と内積準ニュートン試験の修正版を開発した。 本稿ではシミュレーション最適化問題に関する数値実験を行い,提案アルゴリズムの性能について述べる。 従来のゼロ階確率勾配法と比較すると, サンプルサイズを適応させる戦略は, 必要となる確率関数評価の数において, 性能を著しく向上させることがわかった。

We consider unconstrained stochastic optimization problems with no available gradient information. Such problems arise in settings from derivative-free simulation optimization to reinforcement learning. We propose an adaptive sampling quasi-Newton method where we estimate the gradients of a stochastic function using finite differences within a common random number framework. We develop modified versions of a norm test and an inner product quasi-Newton test to control the sample sizes used in the stochastic approximations and provide global convergence results to the neighborhood of the optimal solution. We present numerical experiments on simulation optimization problems to illustrate the performance of the proposed algorithm. When compared with classical zeroth-order stochastic gradient methods, we observe that our strategies of adapting the sample sizes significantly improve performance in terms of the number of stochastic function evaluations required.
翻訳日:2021-09-28 15:49:55 公開日:2021-09-24
# GAN-Simulated Mammogram を用いた乳癌の乳房造影検査

Identifying Women with Mammographically-Occ ult Breast Cancer Leveraging GAN-Simulated Mammograms ( http://arxiv.org/abs/2109.12113v1 )

ライセンス: Link先を確認
Juhun Lee, Robert M. Nishikawa(参考訳) 本研究の目的は,高濃度乳房,正常検診を施行し,MRIや超音波による検診で検診を行った女性において,マンモグラフィーを用いてマンモグラフィー(MO)を検出できる可能性を示すことである。 本研究では, 対向するマンモグラムを条件として, 正常な外観のマンモグラムをシミュレートする条件生成適応ネットワーク(CGAN)を開発した。 我々は,Radon Cumulative Distribution Transform (RCDT) で訓練した畳み込みニューラルネットワーク(CNN)を用いて,MO癌を検出する。 CGANのトレーニングには,1366名の女性のマンモグラフィーを用いた。 乳癌検診には,乳房の濃厚333例(97例)のマンモグラム検診を行った。 健常者に対する右乳房X線像とMO癌症例に対する癌側像をシミュレートした。 実際のマンモグラム対と実模擬マンモグラム対の2つのRCDT画像を作成した。 得られたrcdt画像にvgg16を微調整し,mo癌女性を分類した。 CNN_{Fused} と実際の RCDT 画像にのみ訓練された CNN_{Fused と、シミュレーションされた RCDT 画像にのみ訓練された CNN_{Real} とを比較した。 CNN_{Fused} の AUC は 95% 信頼区間 (95CI) が [0.71, 0.83] の 0.77 であり、統計学的に (p-値 < 0.02) が CNN_{Real} AUC が 0.70 で [0.64, 0.77] と CNN_{Simulated} AUC が 0.68 で [0.62, 0.75] の 95CI であった。 その結果,cganシミュレートマンモグラムはmo癌検出に有用であった。

Our objective is to show the feasibility of using simulated mammograms to detect mammographically-occ ult (MO) cancer in women with dense breasts and a normal screening mammogram who could be triaged for additional screening with magnetic resonance imaging (MRI) or ultrasound. We developed a Conditional Generative Adversarial Network (CGAN) to simulate a mammogram with normal appearance using the opposite mammogram as the condition. We used a Convolutional Neural Network (CNN) trained on Radon Cumulative Distribution Transform (RCDT) processed mammograms to detect MO cancer. For training CGAN, we used screening mammograms of 1366 women. For MO cancer detection, we used screening mammograms of 333 women (97 MO cancer) with dense breasts. We simulated the right mammogram for normal controls and the cancer side for MO cancer cases. We created two RCDT images, one from a real mammogram pair and another from a real-simulated mammogram pair. We finetuned a VGG16 on resulting RCDT images to classify the women with MO cancer. We compared the classification performance of the CNN trained on fused RCDT images, CNN_{Fused} to that of trained only on real RCDT images, CNN_{Real}, and to that of trained only on simulated RCDT images, CNN_{Simulated}. The test AUC for CNN_{Fused} was 0.77 with a 95% confidence interval (95CI) of [0.71, 0.83], which was statistically better (p-value < 0.02) than the CNN_{Real} AUC of 0.70 with a 95CI of [0.64, 0.77] and CNN_{Simulated} AUC of 0.68 with a 95CI of [0.62, 0.75]. It showed that CGAN simulated mammograms can help MO cancer detection.
翻訳日:2021-09-28 15:47:22 公開日:2021-09-24
# NanoBatch DPSGD: IPU上のバッチサイズが低いImageNet上での差分プライベート学習の探索

NanoBatch DPSGD: Exploring Differentially Private learning on ImageNet with low batch sizes on the IPU ( http://arxiv.org/abs/2109.12191v1 )

ライセンス: Link先を確認
Edward H. Lee and Mario Michael Krell and Alexander Tsyplikhin and Victoria Rege and Errol Colak and Kristen W. Yeom(参考訳) ディファレンシャルプライベートSGD(DPSGD)は、最近ディープラーニングにおいて有望であることを示している。 しかし、非プライベートなSGDと比較して、DPSGDアルゴリズムはGPUのバッチ処理の利点を克服できる計算オーバーヘッドを配置する。 マイクロバッチは、これを緩和する標準的な方法であり、TensorFlow Privacy Library(TFDP)で完全にサポートされている。 しかし、この手法は訓練時間を改善する一方で勾配の品質を低下させ、分類精度を低下させる。 例えば、JAXフレームワークを使用する最近の研究は、これを緩和する一方で、CNNにおける非プライベートなSGDからプライベートなSGDへのスループットの低下を示しており、まだImageNetの実装を示していない。 本稿では,ResNet-50におけるグループ正規化を用いた低バッチサイズでは,Graphcore IPUの精度とプライバシが向上すると主張している。 これにより、イメージネット上のResNet-50のDPSGDトレーニングを、IPP-POD16システム上でわずか6時間 (100 epochs)で行うことができる。

Differentially private SGD (DPSGD) has recently shown promise in deep learning. However, compared to non-private SGD, the DPSGD algorithm places computational overheads that can undo the benefit of batching in GPUs. Microbatching is a standard method to alleviate this and is fully supported in the TensorFlow Privacy library (TFDP). However, this technique, while improving training times also reduces the quality of the gradients and degrades the classification accuracy. Recent works that for example use the JAX framework show promise in also alleviating this but still show degradation in throughput from non-private to private SGD on CNNs, and have not yet shown ImageNet implementations. In our work, we argue that low batch sizes using group normalization on ResNet-50 can yield high accuracy and privacy on Graphcore IPUs. This enables DPSGD training of ResNet-50 on ImageNet in just 6 hours (100 epochs) on an IPU-POD16 system.
翻訳日:2021-09-28 15:41:54 公開日:2021-09-24
# 変圧器の注意スパーシティ予測

Predicting Attention Sparsity in Transformers ( http://arxiv.org/abs/2109.12188v1 )

ライセンス: Link先を確認
Marcos Treviso, Ant\'onio G\'ois, Patrick Fernandes, Erick Fonseca, Andr\'e F. T. Martins(参考訳) トランスフォーマーアーキテクチャのボトルネックは、入力シーケンスに関する二次複雑性であり、softmaxへの効率的なスパース近似の作業の動機となっている。 entmax変換器が使用する代替パスは、厳密な注意を組み込んだものであるが、このアプローチには2次計算が必要である。 本稿では,entmax の注意のスパースパターンを計算前に識別するために訓練されたモデルである sparsefinder を提案する。 距離,量子化,クラスタリングをベースとした3種類の手法を,機械翻訳(デコーダのアテンション)とマスキング言語モデリング(エンコーダのみ)の2つのタスクで実験した。 本研究は,予測した注意グラフのスパーシティとリコールのトレードオフを広範囲に分析することにより,モデルの効率性を研究するための新たな角度を提供する。 これにより、異なるモデル間の詳細な比較が可能になり、スパースモデルの将来のベンチマークをガイドすることができる。

A bottleneck in transformer architectures is their quadratic complexity with respect to the input sequence, which has motivated a body of work on efficient sparse approximations to softmax. An alternative path, used by entmax transformers, consists of having built-in exact sparse attention; however this approach still requires quadratic computation. In this paper, we propose Sparsefinder, a simple model trained to identify the sparsity pattern of entmax attention before computing it. We experiment with three variants of our method, based on distances, quantization, and clustering, on two tasks: machine translation (attention in the decoder) and masked language modeling (encoder-only). Our work provides a new angle to study model efficiency by doing extensive analysis of the tradeoff between the sparsity and recall of the predicted attention graph. This allows for detailed comparison between different models, and may guide future benchmarks for sparse models.
翻訳日:2021-09-28 15:40:42 公開日:2021-09-24
# スキーマ型自然言語生成のためのスタイル制御

Style Control for Schema-Guided Natural Language Generation ( http://arxiv.org/abs/2109.12211v1 )

ライセンス: Link先を確認
Alicia Y. Tsai, Shereen Oraby, Vittorio Perera, Jiun-Yu Kao, Yuheng Du, Anjali Narayan-Chen, Tagyoung Chung, Dilek Hakkani-Tur(参考訳) タスク指向対話システムのための自然言語生成 (NLG) は、特定のコンテンツを正確に、流動的に、コヒーレントに伝達することに焦点を当てている。 これらの属性は対話の成功には不可欠であるが、応答長、視点、記述性、感情、形式性、共感といった特定のスタイル目標を同時に達成することが望ましい。 本研究では,スキーマ誘導型nlgのスタイル制御と評価に焦点をあて,意味制御とスタイル制御の両立を目標とした。 本研究では,大規模事前訓練型言語モデルのための様々な制御された生成手法を詳細に実験する。 我々は,それらの利点と限界を議論し,幅広い自動評価指標と人間評価指標を用いて評価する。 条件付き学習では,高いスタイルの精度と意味的正当性を実現し易いが,識別器をベースとしたガイド付き復号法により,より意味論的に複雑なスタイルでもスタイリスティック制御が実現可能であることを示す。 また,提案手法はよりスケーラブルで(ハイパーパラメータチューニングの少ない),コンテンツ生成やスタイリスティックなバリエーションが,意味的正確性やスタイルの精度向上に有効であることが示唆された。

Natural Language Generation (NLG) for task-oriented dialogue systems focuses on communicating specific content accurately, fluently, and coherently. While these attributes are crucial for a successful dialogue, it is also desirable to simultaneously accomplish specific stylistic goals, such as response length, point-of-view, descriptiveness, sentiment, formality, and empathy. In this work, we focus on stylistic control and evaluation for schema-guided NLG, with joint goals of achieving both semantic and stylistic control. We experiment in detail with various controlled generation methods for large pretrained language models: specifically, conditional training, guided fine-tuning, and guided decoding. We discuss their advantages and limitations, and evaluate them with a broad range of automatic and human evaluation metrics. Our results show that while high style accuracy and semantic correctness are easier to achieve for more lexically-defined styles with conditional training, stylistic control is also achievable for more semantically complex styles using discriminator-based guided decoding methods. The results also suggest that methods that are more scalable (with less hyper-parameters tuning) and that disentangle content generation and stylistic variations are more effective at achieving semantic correctness and style accuracy.
翻訳日:2021-09-28 15:40:27 公開日:2021-09-24
# UAVによる3次元データA 2D-3Dハイブリットアプローチのための地中物質分類

Ground material classification and for UAV-based photogrammetric 3D data A 2D-3D Hybrid Approach ( http://arxiv.org/abs/2109.12221v1 )

ライセンス: Link先を確認
Meida Chen, Andrew Feng, Yu Hou, Kyle McCullough, Pratusha Bhuvana Prasad, Lucio Soibelman(参考訳) 近年,物理環境を表す3D仮想データを作成するために,多くの領域でフォトグラム法が広く用いられている。 小型無人航空機(suavs)の革新は、比較的広い関心領域をマッピングするための低コストで高精細な撮像能力を提供した。 これらの最先端技術は、迅速な3D戦場再建、仮想訓練、シミュレーションを目的として、アメリカ陸軍と海軍の注目を集めている。 筆者らは, セマンティックリッチな仮想環境を構築するために, 抽出したフォトグラムデータから情報抽出の重要性を実証した(Chen et al., 2019)。 例えば、シミュレーションリアリズムと忠実度の増加は、フォトグラム木をゲーム対応ツリーモデルに分割し置き換えることによって達成された。 本研究では,セマンティック情報抽出の問題をさらに検討し,材料分割と物体検出の課題に焦点をあてた。 この研究の主な革新は、元の2d画像と派生した3dフォトグラムデータの両方を利用して、個々のデータソースを使用する際に直面する課題を克服したことです。 地中物質セグメンテーションのために,RGB-Dセンサを用いた屋内データのセグメンテーション用に設計された既存の畳み込みニューラルネットワークアーキテクチャ(3DMV)を利用した。 本研究では,地形モデルと原画像の距離を考慮に入れた奥行きプーリング層をアーキテクチャに導入することにより,屋外写真グラムデータの性能を向上した。 改良された3DMVの性能をテストするため,One World Terrain(OWT)データリポジトリのデータを用いて,地上の真理基盤データベースを構築した。 最後に,セグメント化された地盤を仮想シミュレーションシーンにインポートするワークフローを導入し,その視覚的結果を報告する。

In recent years, photogrammetry has been widely used in many areas to create photorealistic 3D virtual data representing the physical environment. The innovation of small unmanned aerial vehicles (sUAVs) has provided additional high-resolution imaging capabilities with low cost for mapping a relatively large area of interest. These cutting-edge technologies have caught the US Army and Navy's attention for the purpose of rapid 3D battlefield reconstruction, virtual training, and simulations. Our previous works have demonstrated the importance of information extraction from the derived photogrammetric data to create semantic-rich virtual environments (Chen et al., 2019). For example, an increase of simulation realism and fidelity was achieved by segmenting and replacing photogrammetric trees with game-ready tree models. In this work, we further investigated the semantic information extraction problem and focused on the ground material segmentation and object detection tasks. The main innovation of this work was that we leveraged both the original 2D images and the derived 3D photogrammetric data to overcome the challenges faced when using each individual data source. For ground material segmentation, we utilized an existing convolutional neural network architecture (i.e., 3DMV) which was originally designed for segmenting RGB-D sensed indoor data. We improved its performance for outdoor photogrammetric data by introducing a depth pooling layer in the architecture to take into consideration the distance between the source images and the reconstructed terrain model. To test the performance of our improved 3DMV, a ground truth ground material database was created using data from the One World Terrain (OWT) data repository. Finally, a workflow for importing the segmented ground materials into a virtual simulation scene was introduced, and visual results are reported in this paper.
翻訳日:2021-09-28 15:31:50 公開日:2021-09-24
# リアルタイムクリグのための空間集約と時間畳み込みネットワーク

Spatial Aggregation and Temporal Convolution Networks for Real-time Kriging ( http://arxiv.org/abs/2109.12144v1 )

ライセンス: Link先を確認
Yuankai Wu, Dingyi Zhuang, Mengying Lei, Aurelie Labbe, Lijun Sun(参考訳) 時空間クリギングは時空間データ解析において重要な応用であり、観測された信号に基づいてアンサンプリング/アンオブザーブド位置の信号を復元・インターポーレーションすることを目的としている。 時空間クリギングの原理的課題は、データ内の時空間的依存関係を効果的にモデル化し活用する方法である。 近年,グラフニューラルネットワーク (GNN) は時空間クリグタスクに大いに期待されている。 しかし、標準のGNNは、よく注意深い設計の隣接行列と特定の集約関数を必要とする。 この問題に対処するため,我々はsatcn -- spatial aggregation and temporal convolution networks -- モデル仕様を必要とせず,様々な時空間データセットに対して時空間クリグを実行するための普遍的で柔軟なフレームワークを提案する。 具体的には,一つのノードが隣接ノードから多様な情報を収集するのに役立つ複数のアグリゲーション関数を用いた,主近傍アグリゲーションに触発された新しい空間アグリゲーションネットワーク (san) を提案する。 非サンプリングノードから情報を除外するために、アンサンプリングされたセンサが近所にメッセージを送信するのを防ぐマスキング戦略をsanに導入する。 時間的畳み込みネットワークによって時間的依存関係を捉え、モデルがさまざまなサイズのデータに対応できるようにします。 SATCNを未知のノードや未知のグラフ構造に対して一般化できるようにするため、私たちはSATCNの訓練に誘導的戦略を採用する。 交通速度や気候記録を含む3つの実世界の時空間データセットについて広範な実験を行う。 本研究は,従来のGNNベースクリグモデルよりもSATCNの方が優れていることを示す。

Spatiotemporal kriging is an important application in spatiotemporal data analysis, aiming to recover/interpolate signals for unsampled/unobserved locations based on observed signals. The principle challenge for spatiotemporal kriging is how to effectively model and leverage the spatiotemporal dependencies within the data. Recently, graph neural networks (GNNs) have shown great promise for spatiotemporal kriging tasks. However, standard GNNs often require a carefully designed adjacency matrix and specific aggregation functions, which are inflexible for general applications/problem s. To address this issue, we present SATCN -- Spatial Aggregation and Temporal Convolution Networks -- a universal and flexible framework to perform spatiotemporal kriging for various spatiotemporal datasets without the need for model specification. Specifically, we propose a novel spatial aggregation network (SAN) inspired by Principal Neighborhood Aggregation, which uses multiple aggregation functions to help one node gather diverse information from its neighbors. To exclude information from unsampled nodes, a masking strategy that prevents the unsampled sensors from sending messages to their neighborhood is introduced to SAN. We capture temporal dependencies by the temporal convolutional networks, which allows our model to cope with data of diverse sizes. To make SATCN generalizable to unseen nodes and even unseen graph structures, we employ an inductive strategy to train SATCN. We conduct extensive experiments on three real-world spatiotemporal datasets, including traffic speed and climate recordings. Our results demonstrate the superiority of SATCN over traditional and GNN-based kriging models.
翻訳日:2021-09-28 15:24:51 公開日:2021-09-24
# ブラインド画像品質評価のためのディープニューラルネットワーク - データチャレンジへの取り組み-

Deep Neural Networks for Blind Image Quality Assessment: Addressing the Data Challenge ( http://arxiv.org/abs/2109.12161v1 )

ライセンス: Link先を確認
Shahrukh Athar, Zhongling Wang, Zhou Wang(参考訳) 自然画像の膨大な空間と多様性は、通常、少数の小規模の人間による画像品質評価(IQA)データセットで表される。 これは、自然画像分布を表す大規模トレーニングデータを必要とするディープニューラルネットワーク(dnn)ベースのブラインドiqa(biqa)に大きな課題を投げかける。 主観的テストの制約により、数百万の画像からなる人格分類IQAデータセットを作成することは極めて困難である。 多くの取り組みがDNNベースのBIQAの性能向上に重点を置いているが、ラベル付きIQAデータの不足に対処しようとする試みは驚くほど欠落している。 この課題に対処するため、我々はこれまでに最大のIQAデータベースであるWaterloo Exploration-IIを構築した。 このような大規模データセットに対する主観的テストはほとんど不可能であるため、歪み画像に知覚品質ラベルを合成的に割り当てる機構を開発する。 我々は、EONSSと呼ばれるDNNベースのBIQAモデルを構築し、Waterloo Exploration-IIでトレーニングし、9つの主観評価IQAデータセットでテストする。 その結果、単純なDNNアーキテクチャにより、EONSSは品質予測性能と実行速度の両方において、BIQAの最先端技術よりも優れていることがわかった。 本研究は,高度ネットワークアーキテクチャやトレーニング戦略ではなく,有意義な注釈付きトレーニングデータの量と品質が,DNNベースのBIQAモデルの性能を決定する支配要因である,という見解を強く支持する。 (注:これは現在進行中のプロジェクトなので、Waterloo Exploration-IIデータベース、品質アノテーション、EONSSの最終バージョンは、完成時に公開される予定である。)

The enormous space and diversity of natural images is usually represented by a few small-scale human-rated image quality assessment (IQA) datasets. This casts great challenges to deep neural network (DNN) based blind IQA (BIQA), which requires large-scale training data that is representative of the natural image distribution. It is extremely difficult to create human-rated IQA datasets composed of millions of images due to constraints of subjective testing. While a number of efforts have focused on design innovations to enhance the performance of DNN based BIQA, attempts to address the scarcity of labeled IQA data remain surprisingly missing. To address this data challenge, we construct so far the largest IQA database, namely Waterloo Exploration-II, which contains 3,570 pristine reference and around 3.45 million singly and multiply distorted images. Since subjective testing for such a large dataset is nearly impossible, we develop a novel mechanism that synthetically assigns perceptual quality labels to the distorted images. We construct a DNN-based BIQA model called EONSS, train it on Waterloo Exploration-II, and test it on nine subject-rated IQA datasets, without any retraining or fine-tuning. The results show that with a straightforward DNN architecture, EONSS is able to outperform the very state-of-the-art in BIQA, both in terms of quality prediction performance and execution speed. This study strongly supports the view that the quantity and quality of meaningfully annotated training data, rather than a sophisticated network architecture or training strategy, is the dominating factor that determines the performance of DNN-based BIQA models. (Note: Since this is an ongoing project, the final versions of Waterloo Exploration-II database, quality annotations, and EONSS, will be made publicly available in the future when it culminates.)
翻訳日:2021-09-28 15:19:43 公開日:2021-09-24
# 未知データとクラス重なりを持つ逆転送攻撃

Adversarial Transfer Attacks With Unknown Data and Class Overlap ( http://arxiv.org/abs/2109.11125v2 )

ライセンス: Link先を確認
Luke E. Richards, Andr\'e Nguyen, Ryan Capps, Steven Forsythe, Cynthia Matuszek, Edward Raff(参考訳) あるモデル(サロゲート)から別のモデル(犠牲者)に敵攻撃を転送する能力は、機械学習(ML)コミュニティにおいて問題となっている。 目に見えないモデルを避ける能力は、攻撃を実装するための不快なレベルの容易さを示している。 この研究では、現在の転送攻撃の研究は攻撃者にとって非現実的な利点を持っていることに注意する。 本稿では,攻撃者や被害者が不完全な設定で使用可能なデータに焦点を絞った攻撃を,被害者に問い合わせることなく転送する最初の研究について述べる。 この脅威モデルは、医学、マルウェアなどの応用に関係している。 この新たな脅威モデルの下では、攻撃の成功率はデータやクラスの重複と相関せず、データセットによって異なる。 これにより、アタッカーとディフェンダーが互いに推論することが難しくなり、モデルの堅牢性とセキュリティに関するより広範な研究に寄与する。 我々は、攻撃者が攻撃の成功に対して確実に低いバウンドを推定できるクラス格差をシミュレートする、プロジェクテッド・グラディエント・ダイス(英語版)のマスク版を開発することでこれを改善した。

The ability to transfer adversarial attacks from one model (the surrogate) to another model (the victim) has been an issue of concern within the machine learning (ML) community. The ability to successfully evade unseen models represents an uncomfortable level of ease toward implementing attacks. In this work we note that as studied, current transfer attack research has an unrealistic advantage for the attacker: the attacker has the exact same training data as the victim. We present the first study of transferring adversarial attacks focusing on the data available to attacker and victim under imperfect settings without querying the victim, where there is some variable level of overlap in the exact data used or in the classes learned by each model. This threat model is relevant to applications in medicine, malware, and others. Under this new threat model attack success rate is not correlated with data or class overlap in the way one would expect, and varies with dataset. This makes it difficult for attacker and defender to reason about each other and contributes to the broader study of model robustness and security. We remedy this by developing a masked version of Projected Gradient Descent that simulates class disparity, which enables the attacker to reliably estimate a lower-bound on their attack's success.
翻訳日:2021-09-28 10:34:16 公開日:2021-09-24
# (参考訳) 非学習型グラフニューラルネットワーク [全文訳有]

Untrained Graph Neural Networks for Denoising ( http://arxiv.org/abs/2109.11700v1 )

ライセンス: CC BY 4.0
Samuel Rey, Santiago Segarra, Reinhard Heckel, and Antonio G. Marques(参考訳) 信号処理における根本的な問題は、信号のデノベーションである。 画素の2次元格子上に定義された画像など、正規サポートで定義された信号を識別する多くの優れた手法があるが、グラフのような不規則領域上で多くの重要な信号のクラスが定義される。 本稿では,グラフ信号の分節化のための2つの未学習グラフニューラルネットワークアーキテクチャを紹介し,その分節化能力に関する理論的保証を簡易な設定で提供し,より一般的なシナリオで理論結果を数値的に検証する。 2つのアーキテクチャは、グラフに符号化された情報をどのように組み込むかで異なり、1つはグラフ畳み込みに依存し、もう1つは階層的クラスタリングに基づくグラフアップサンプリング演算子を使用している。 各アーキテクチャは、ターゲットの信号に対して異なる事前を実装している。 理論結果の有効性を数値的に示し,提案するアーキテクチャの性能を他の有意な代替案と比較するために,実データと合成データを用いていくつかの実験結果を示す。

A fundamental problem in signal processing is to denoise a signal. While there are many well-performing methods for denoising signals defined on regular supports, such as images defined on two-dimensional grids of pixels, many important classes of signals are defined over irregular domains such as graphs. This paper introduces two untrained graph neural network architectures for graph signal denoising, provides theoretical guarantees for their denoising capabilities in a simple setup, and numerically validates the theoretical results in more general scenarios. The two architectures differ on how they incorporate the information encoded in the graph, with one relying on graph convolutions and the other employing graph upsampling operators based on hierarchical clustering. Each architecture implements a different prior over the targeted signals. To numerically illustrate the validity of the theoretical results and to compare the performance of the proposed architectures with other denoising alternatives, we present several experimental results with real and synthetic datasets.
翻訳日:2021-09-28 02:37:30 公開日:2021-09-24
# (参考訳) 道路最適化のための交通標識を用いた都市洪水マッピングの可能性に関する研究 [全文訳有]

Feasibility study of urban flood mapping using traffic signs for route optimization ( http://arxiv.org/abs/2109.11712v1 )

ライセンス: CC BY 4.0
Bahareh Alizadeh, Diya Li, Zhe Zhang and Amir H. Behzadan(参考訳) 水イベントは世界中で最も頻繁に発生し、最もコストのかかる災害である。 米国では、沿岸部に住む推計1億1700万人が、ハリケーンや洪水による住宅被害のリスクにさらされている。 洪水緊急管理において,空間的意思決定とインテリジェントルーティングは,時空間スケールでの洪水深度情報に依存する。 本稿では,クラウドソーシングを利用して,水中の停止標識の写真を収集し,同じ場所で撮影されたプレフロード写真と組み合わせる。 それぞれの写真対は、深層ニューラルネットワークと画像処理を使用して分析され、写真の位置にある洪水水の深さを推定する。 生成したポイントバイポイント深度データは洪水浸水マップに変換され、a*探索アルゴリズムによって最適な洪水のない経路接続点を決定するために使用される。 その結果,浸水時の効果的な経路探索が可能となり,救助チームや避難者にとって重要な情報が得られる。

Water events are the most frequent and costliest climate disasters around the world. In the U.S., an estimated 127 million people who live in coastal areas are at risk of substantial home damage from hurricanes or flooding. In flood emergency management, timely and effective spatial decision-making and intelligent routing depend on flood depth information at a fine spatiotemporal scale. In this paper, crowdsourcing is utilized to collect photos of submerged stop signs, and pair each photo with a pre-flood photo taken at the same location. Each photo pair is then analyzed using deep neural network and image processing to estimate the depth of floodwater in the location of the photo. Generated point-by-point depth data is converted to a flood inundation map and used by an A* search algorithm to determine an optimal flood-free path connecting points of interest. Results provide crucial information to rescue teams and evacuees by enabling effective wayfinding during flooding events.
翻訳日:2021-09-28 01:59:29 公開日:2021-09-24
# (参考訳) aesは不安定で過敏:理由の説明と防衛の提案 [全文訳有]

AES Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses ( http://arxiv.org/abs/2109.11728v1 )

ライセンス: CC BY 4.0
Yaman Kumar Singla, Swapnil Parekh, Somesh Singh, Junyi Jessy Li, Rajiv Ratn Shah, Changyou Chen(参考訳) ディープラーニングベースのAutomatic Essay Scoring(AES)システムは、大学アプリケーションからビザ承認まで、数百万の生命変化決定候補を評価するために、州や言語試験機関が積極的に使用している。 しかし、ディープラーニングに基づくスコアリングアルゴリズムのブラックボックスの性質を理解し、解釈する研究はほとんど行われていない。 これまでの研究では、スコアリングモデルは簡単に騙せることが示されている。 本稿では,その驚くべき敵の脆さの原因を考察する。 近年の解釈能力の進歩を活かし,コヒーレンス,内容,語彙,関連性といった特徴が,自動スコアリング機構において重要であることを明らかにする。 本研究では,AESの出力スコアの過敏性(入力エッセイ内容の変化の少ない出力スコア)と過安定性(入力エッセイ内容の変化の少ない出力スコアの過敏性)について検討する。 以上の結果から, BERT などのリッチなコンテキスト埋め込みを備えた "エンドツーエンド" モデルとして訓練されたオートスコーリングモデルは, 単語のバッグ・オブ・ワードモデルのように振る舞うことが示唆された。 若干の言葉でエッセイスコアを決定するが、文脈を必要とせず、モデルは概して過大評価される。 これは、音声の一部や形態といった豊かな言語的特徴がそれらによってコード化されていることを示す、事前訓練された表現学習モデルに関する最近の調査研究とは対照的である。 さらに、モデルがデータセットのバイアスを学習し、過敏になることもわかりました。 これらの問題に対処するため,高精度試料の過敏性と過敏性を検出する検出ベース保護モデルを提案する。 提案モデルでは,異常な帰属パターンを検知し,敵のサンプルをフラグする。

Deep-learning based Automatic Essay Scoring (AES) systems are being actively used by states and language testing agencies alike to evaluate millions of candidates for life-changing decisions ranging from college applications to visa approvals. However, little research has been put to understand and interpret the black-box nature of deep-learning based scoring algorithms. Previous studies indicate that scoring models can be easily fooled. In this paper, we explore the reason behind their surprising adversarial brittleness. We utilize recent advances in interpretability to find the extent to which features such as coherence, content, vocabulary, and relevance are important for automated scoring mechanisms. We use this to investigate the oversensitivity i.e., large change in output score with a little change in input essay content) and overstability i.e., little change in output scores with large changes in input essay content) of AES. Our results indicate that autoscoring models, despite getting trained as "end-to-end" models with rich contextual embeddings such as BERT, behave like bag-of-words models. A few words determine the essay score without the requirement of any context making the model largely overstable. This is in stark contrast to recent probing studies on pre-trained representation learning models, which show that rich linguistic features such as parts-of-speech and morphology are encoded by them. Further, we also find that the models have learnt dataset biases, making them oversensitive. To deal with these issues, we propose detection-based protection models that can detect oversensitivity and overstability causing samples with high accuracies. We find that our proposed models are able to detect unusual attribution patterns and flag adversarial samples successfully.
翻訳日:2021-09-28 01:48:01 公開日:2021-09-24
# (参考訳) リウェイト学習による画像間非整合変換

Unaligned Image-to-Image Translation by Learning to Reweight ( http://arxiv.org/abs/2109.11736v1 )

ライセンス: CC BY 4.0
Shaoan Xie, Mingming Gong, Yanwu Xu, and Kun Zhang(参考訳) 教師なし画像から画像への変換は、トレーニングにペア画像を用いることなく、ソースからターゲットドメインへのマッピングを学習することを目的としている。 教師なし画像翻訳に不可欠な仮定は、2つのドメインが整列していることである。例えば、selfie2animeタスクでは、アニメ(selfie)ドメインは、他のドメインのいくつかの画像に変換できるアニメ(selfie)顔画像のみを含む必要がある。 整列したドメインの収集は手間がかかり、多くの注意が要る。 本稿では,2つの非整合領域間の画像翻訳の課題について考察する。 そこで本研究では,重み付けに基づく画像選択手法を提案し,重み付けを学習し,同時に自動翻訳を行う手法を開発した。 提案手法と最先端画像翻訳手法を比較し,非整合領域の異なるタスクに対する質的,定量的な結果を示す。 広範な実証的証拠は,提案する問題定式化の有用性と提案手法の優越性を示している。

Unsupervised image-to-image translation aims at learning the mapping from the source to target domain without using paired images for training. An essential yet restrictive assumption for unsupervised image translation is that the two domains are aligned, e.g., for the selfie2anime task, the anime (selfie) domain must contain only anime (selfie) face images that can be translated to some images in the other domain. Collecting aligned domains can be laborious and needs lots of attention. In this paper, we consider the task of image translation between two unaligned domains, which may arise for various possible reasons. To solve this problem, we propose to select images based on importance reweighting and develop a method to learn the weights and perform translation simultaneously and automatically. We compare the proposed method with state-of-the-art image translation approaches and present qualitative and quantitative results on different tasks with unaligned domains. Extensive empirical evidence demonstrates the usefulness of the proposed problem formulation and the superiority of our method.
翻訳日:2021-09-28 01:23:40 公開日:2021-09-24
# (参考訳) R\'enyiの$\alpha$-Cross-Entro piesを行列ベースで推定する [全文訳有]

Estimating R\'enyi's $\alpha$-Cross-Entro pies in a Matrix-Based Way ( http://arxiv.org/abs/2109.11737v1 )

ライセンス: CC BY 4.0
Isaac J. Sledge and Jose C. Principe(参考訳) 従来の情報理論量は確率分布へのアクセスを仮定する。 そのような分布を推定するのは簡単ではない。 本稿では,これを回避するクロスエントロピーの関数に基づく定式化について考察する。 再現カーネルヒルベルト空間の設定において、R\'enyiの$\alpha$-cross-entro piesの3つの測度を提案する。 それぞれの手段には魅力がある。 我々は、これらの測度を偏りなく、非パラメトリックで、ミニマックス最適な方法で推定できることを証明できる。 サンプル構成のグラム行列を使ってこれを行う。 これにより、R\'enyi の$\alpha$-cross-entro pies の行列ベースの推定値が得られる。 これらの推定子は、R\'enyiが発散のために確立した全ての公理を満たす。 したがって, 分布差を評価するために, クロスエントロピーを用いることができる。 また, 推定器の収束率はサンプル次元とは独立であるため, 高次元分布の取り扱いにも適している。 これらの尺度を実装するPythonコードはhttps://github.com/i sledge/MBRCEで見ることができる。

Conventional information-theoreti c quantities assume access to probability distributions. Estimating such distributions is not trivial. Here, we consider function-based formulations of cross entropy that sidesteps this a priori estimation requirement. We propose three measures of R\'enyi's $\alpha$-cross-entro pies in the setting of reproducing-kernel Hilbert spaces. Each measure has its appeals. We prove that we can estimate these measures in an unbiased, non-parametric, and minimax-optimal way. We do this via sample-constructed Gram matrices. This yields matrix-based estimators of R\'enyi's $\alpha$-cross-entro pies. These estimators satisfy all of the axioms that R\'enyi established for divergences. Our cross-entropies can thus be used for assessing distributional differences. They are also appropriate for handling high-dimensional distributions, since the convergence rate of our estimator is independent of the sample dimensionality. Python code for implementing these measures can be found at https://github.com/i sledge/MBRCE
翻訳日:2021-09-28 01:22:33 公開日:2021-09-24
# (参考訳) DACT-BERT:効率的なBERT推論のための微分可能な適応計算時間 [全文訳有]

DACT-BERT: Differentiable Adaptive Computation Time for an Efficient BERT Inference ( http://arxiv.org/abs/2109.11745v1 )

ライセンス: CC BY 4.0
Crist\'obal Eyzaguirre, Felipe del R\'io, Vladimir Araujo, \'Alvaro Soto(参考訳) 大規模事前学習型言語モデルは多様なNLPアプリケーションにおいて顕著な結果を示した。 残念なことに、これらのパフォーマンス向上は計算時間とモデルサイズを大幅に増加させ、これらのモデルの効率を高めるために新しいまたは補完的な戦略を開発する必要性を強調した。 本稿では, BERT 型モデルの適応時間戦略である DACT-BERT を提案する。 DACT-BERTはBERTの正規処理パイプラインに適応的な計算機構を追加し、推論時に実行する必要があるTransformerブロックの数を制御する。 これを行うことで、モデルは、手元にあるタスクの最も適切な中間表現を組み合わせることを学ぶ。 我々の実験は、ベースラインと比較して、我々のアプローチが減らされた計算体制に優れており、他の制約の少ない手法と競合することを示した。

Large-scale pre-trained language models have shown remarkable results in diverse NLP applications. Unfortunately, these performance gains have been accompanied by a significant increase in computation time and model size, stressing the need to develop new or complementary strategies to increase the efficiency of these models. In this paper we propose DACT-BERT, a differentiable adaptive computation time strategy for BERT-like models. DACT-BERT adds an adaptive computational mechanism to BERT's regular processing pipeline, which controls the number of Transformer blocks that need to be executed at inference time. By doing this, the model learns to combine the most appropriate intermediate representations for the task at hand. Our experiments demonstrate that our approach, when compared to the baselines, excels on a reduced computational regime and is competitive in other less restrictive ones.
翻訳日:2021-09-28 00:33:16 公開日:2021-09-24
# (参考訳) Antentional Generative Adversarial Network を用いたBanglaテキスト記述からの微粒化画像生成 [全文訳有]

Fine-Grained Image Generation from Bangla Text Description using Attentional Generative Adversarial Network ( http://arxiv.org/abs/2109.11749v1 )

ライセンス: CC0 1.0
Md Aminul Haque Palash, Md Abdullah Al Nasim, Aditi Dhali, Faria Afrin(参考訳) テキストからきめ細かい現実的な画像を生成することは、ビジュアルとセマンティックの領域で多くの応用がある。 そこで我々は,高解像度のBanglaテキスト・画像生成のための多段階処理を可能にするBangla Attentional Generative Adversarial Network (AttnGAN)を提案する。 我々のモデルは、画像の異なる部分領域で最も具体的な詳細を統合することができる。 自然言語記述における関連語に特化して集中する。 このフレームワークは、CUBデータセットの開始スコアが向上しました。 初めて、注目GANを用いてBanglaテキストからきめ細かい画像を生成する。 バングラ語は100の言語の中で7番目の地位を獲得している。 これは、この言語に明示的に焦点を合わせ、多くの人の必然的に必要となることを保証します。 さらに、Banglaはより複雑な構文構造を持ち、作業をより検証するための自然言語処理リソースが少ない。

Generating fine-grained, realistic images from text has many applications in the visual and semantic realm. Considering that, we propose Bangla Attentional Generative Adversarial Network (AttnGAN) that allows intensified, multi-stage processing for high-resolution Bangla text-to-image generation. Our model can integrate the most specific details at different sub-regions of the image. We distinctively concentrate on the relevant words in the natural language description. This framework has achieved a better inception score on the CUB dataset. For the first time, a fine-grained image is generated from Bangla text using attentional GAN. Bangla has achieved 7th position among 100 most spoken languages. This inspires us to explicitly focus on this language, which will ensure the inevitable need of many people. Moreover, Bangla has a more complex syntactic structure and less natural language processing resource that validates our work more.
翻訳日:2021-09-28 00:24:49 公開日:2021-09-24
# (参考訳) ソフトアクター批判の改善: オフポリシック標本とオンポリシィ体験の混合 [全文訳有]

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience ( http://arxiv.org/abs/2109.11767v1 )

ライセンス: CC BY 4.0
Chayan Banerjee, Zhiyong Chen, Nasimul Noman(参考訳) ソフトアクター・クリティカル(Soft Actor-Critic, SAC)は、本質的にエントロピー正規化に基づく、非政治的なアクター批判強化学習アルゴリズムである。 SACは、期待されるリターンとエントロピー(政策におけるランダム性)の間のトレードオフを最大化して政策を訓練する。 一連の連続制御ベンチマークタスクで最先端のパフォーマンスを達成し、以前のオン・ポリシー法やオフ・ポリシー法を上回っている。 sacは、ポリシーと値関数ネットワークのパラメータが更新された過去の経験(バッファに格納)からデータを一様にサンプリングする、オフポリシーな方法で動作します。 本研究では,SACの性能向上のための重要な改良点を提案する。 提案する改良sacでは,まずexperience replay bufferからより良いサンプルを選択するための新しい優先順位付け方式を導入する。 次に、優先順位付けされたオフポリティクスデータと最新のオンポリティクスデータを組み合わせてポリシーとバリューファンクションネットワークをトレーニングする。 我々はこのアプローチをバニラ嚢と最近のsacの変種と比較し,提案手法がアルゴリズムベンチマークよりも優れていることを示した。 MuJoCo環境における多数の継続的制御タスクをテストすると、比較的安定してサンプル効率がよい。

Soft Actor-Critic (SAC) is an off-policy actor-critic reinforcement learning algorithm, essentially based on entropy regularization. SAC trains a policy by maximizing the trade-off between expected return and entropy (randomness in the policy). It has achieved state-of-the-art performance on a range of continuous-control benchmark tasks, outperforming prior on-policy and off-policy methods. SAC works in an off-policy fashion where data are sampled uniformly from past experiences (stored in a buffer) using which parameters of the policy and value function networks are updated. We propose certain crucial modifications for boosting the performance of SAC and make it more sample efficient. In our proposed improved SAC, we firstly introduce a new prioritization scheme for selecting better samples from the experience replay buffer. Secondly we use a mixture of the prioritized off-policy data with the latest on-policy data for training the policy and the value function networks. We compare our approach with the vanilla SAC and some recent variants of SAC and show that our approach outperforms the said algorithmic benchmarks. It is comparatively more stable and sample efficient when tested on a number of continuous control tasks in MuJoCo environments.
翻訳日:2021-09-28 00:14:01 公開日:2021-09-24
# (参考訳) 糖尿病網膜症における多段階移動とクラスベース損失に基づくFew-shot Learning [全文訳有]

Few-shot Learning Based on Multi-stage Transfer and Class-Balanced Loss for Diabetic Retinopathy Grading ( http://arxiv.org/abs/2109.11806v1 )

ライセンス: CC BY 4.0
Lei Shi and Junxing Zhang(参考訳) 糖尿病網膜症(英: diabetes retinopathy、dr)は、現在知られている視覚障害の1つ。 深層学習法を用いた dr の自動評価は, 疾患の診断を高速化するだけでなく, 誤診の頻度を低下させる。 しかし,drデータセットにおけるサンプル不足やクラスミストリビューションの不均衡などの問題は,グレーディング性能の向上を阻害している。 本稿では,マルチステージトランスファーの考え方を紹介する。新しいトランスファー学習手法では,異なるスケールの複数のデータセットを活用して,モデルがより多くの特徴表現情報を学ぶことができる。 一方,不均衡なdrデータセットに対処するために,自然画像分類タスクにおいてよく機能するクラスバランス損失関数を提案し,簡易かつ実装が容易なトレーニング手法を採用する。 実験の結果,多段移動とクラスバランス損失関数の適用により,精度や2重重み付きkappaなどの評価性能指標を効果的に改善できることがわかった。 実際、本手法は2つの最先端手法より優れており、IDRiD Sub-Challenge 2のDRグレーティングタスクにおいて最高の結果を得た。

Diabetic retinopathy (DR) is one of the major blindness-causing diseases current-ly known. Automatic grading of DR using deep learning methods not only speeds up the diagnosis of the disease but also reduces the rate of misdiagnosis. However, problems such as insufficient samples and imbalanced class distribu-tion in DR datasets have constrained the improvement of grading performance. In this paper, we introduce the idea of multi-stage transfer into the grading task of DR. The new transfer learning technique leverages multiple datasets with differ-ent scales to enable the model to learn more feature representation information. Meanwhile, to cope with imbalanced DR datasets, we present a class-balanced loss function that performs well in natural image classification tasks, and adopt a simple and easy-to-implement training method for it. The experimental results show that the application of multi-stage transfer and class-balanced loss function can effectively improve the grading performance metrics such as accuracy and quadratic weighted kappa. In fact, our method has outperformed two state-of-the-art methods and achieved the best result on the DR grading task of IDRiD Sub-Challenge 2.
翻訳日:2021-09-27 23:54:42 公開日:2021-09-24
# (参考訳) 情報量測定と準最適経路計画のための動的プログラミングアルゴリズム [全文訳有]

A dynamic programming algorithm for informative measurements and near-optimal path-planning ( http://arxiv.org/abs/2109.11808v1 )

ライセンス: CC BY 4.0
Peter N. Loxley and Ka Wai Cheung(参考訳) 情報測定は、未知の状態に関する情報を得る最も効率的な方法である。 本稿では,測定結果のエントロピーを逐次最大化することにより,情報量列を返す汎用動的プログラミングアルゴリズムの第一原理を導出する。 このアルゴリズムは、自律エージェントやロボットが次に計測する最適な場所を決定するために使用することができ、最適な情報測定シーケンスに対応する経路を計画する。 このアルゴリズムは、連続的または離散的な状態や制御、マルコフ決定プロセスを含む確率的または決定論的エージェントダイナミクスに適用できる。 ロールアウトやモンテカルロ木探索などのオンライン近似を含む,近似動的プログラミングと強化学習による最近の成果は,エージェントやロボットがリアルタイムで測定タスクを解くことを可能にする。 その結果得られるオプティカルに近い解は、非オプティカル経路と測定結果のエントロピーを最大化するような、概ね、実質的に広く使われる欲欲のヒューリスティックよりも優れる測定シーケンスを含む。 これはグローバルな検索問題として示され、拡張ローカル検索によるオンラインプランニングにより、検索における測定回数を半減させる。

An informative measurement is the most efficient way to gain information about an unknown state. We give a first-principles derivation of a general-purpose dynamic programming algorithm that returns a sequence of informative measurements by sequentially maximizing the entropy of possible measurement outcomes. This algorithm can be used by an autonomous agent or robot to decide where best to measure next, planning a path corresponding to an optimal sequence of informative measurements. This algorithm is applicable to states and controls that are continuous or discrete, and agent dynamics that is either stochastic or deterministic; including Markov decision processes. Recent results from approximate dynamic programming and reinforcement learning, including on-line approximations such as rollout and Monte Carlo tree search, allow an agent or robot to solve the measurement task in real-time. The resulting near-optimal solutions include non-myopic paths and measurement sequences that can generally outperform, sometimes substantially, commonly-used greedy heuristics such as maximizing the entropy of each measurement outcome. This is demonstrated for a global search problem, where on-line planning with an extended local search is found to reduce the number of measurements in the search by half.
翻訳日:2021-09-27 23:47:12 公開日:2021-09-24
# (参考訳) 石油パイプラインにおける養豚活動の予測 [全文訳有]

Predicting pigging operations in oil pipelines ( http://arxiv.org/abs/2109.11812v1 )

ライセンス: CC BY 4.0
Riccardo Angelo Giro, Giancarlo Bernasconi, Giuseppe Giunta, Simone Cesari(参考訳) 本稿では,原油のトランクラインで必要な養豚作業の自動予測を行うために,長期の振動測定を活用した革新的な機械学習手法を提案する。 歴史的圧力信号は、北イタリアにある石油パイプライン(長さ100km、直径16インチのパイプ)に沿って、相対距離30-35kmの離散点において、エニによって2年間収集されてきた。 アクティビティをスピードアップし、操作ログをチェックするために、ライン上で実行される履歴ピッグ操作を自動的にハイライトするツールが実装されている。 このようなツールは、観測された圧力測定において、走行豚によって発生する音響ノイズを検出することができる。 すべてのデータセットは、フィールドデータ検証を使用して決定ツリーレグレッサ(dtr)をガイドすることで再分析され、悪用されている。 ラインセグメント間の圧力ヘッド損失から計算されたいくつかの統計指標がDTRに供給され、パイプラインの肥大化の必要性を示す確率値を自動出力する。 本手法は, 各連続監視局の振動音響信号に適用され, 提案した予測保守戦略が個々のパイプライン区間の状態を追尾し, コンジットのどの部分が最大閉塞レベルであるかを判定し, クリーンアップ操作を最適化する。 予測精度は、回帰問題(例えば根平均二乗誤差(rmse))の統計解析で使われる典型的な指標を評価することによって評価される。

This paper presents an innovative machine learning methodology that leverages on long-term vibroacoustic measurements to perform automated predictions of the needed pigging operations in crude oil trunklines. Historical pressure signals have been collected by Eni (e-vpms monitoring system) for two years on discrete points at a relative distance of 30-35 km along an oil pipeline (100 km length, 16 inch diameter pipes) located in Northern Italy. In order to speed up the activity and to check the operation logs, a tool has been implemented to automatically highlight the historical pig operations performed on the line. Such a tool is capable of detecting, in the observed pressure measurements, the acoustic noise generated by the travelling pig. All the data sets have been reanalyzed and exploited by using field data validations to guide a decision tree regressor (DTR). Several statistical indicators, computed from pressure head loss between line segments, are fed to the DTR, which automatically outputs probability values indicating the possible need for pigging the pipeline. The procedure is applied to the vibroacoustic signals of each pair of consecutive monitoring stations, such that the proposed predictive maintenance strategy is capable of tracking the conditions of individual pipeline sections, thus determining which portion of the conduit is subject to the highest occlusion levels in order to optimize the clean-up operations. Prediction accuracy is assessed by evaluating the typical metrics used in statistical analysis of regression problems, such as the Root Mean Squared Error (RMSE).
翻訳日:2021-09-27 23:18:59 公開日:2021-09-24
# (参考訳) 混合エキスパートに対する平衡割当による非バイアス勾配推定 [全文訳有]

Unbiased Gradient Estimation with Balanced Assignments for Mixtures of Experts ( http://arxiv.org/abs/2109.11817v1 )

ライセンス: CC BY 4.0
Wouter Kool, Chris J. Maddison and Andriy Mnih(参考訳) 現代のハードウェア上で、専門家モデルの大規模な混合を効率的にトレーニングするには、バッチ内のデータポイントを異なる専門家に割り当てる必要がある。 最近提案された割当手続きは確率論的解釈を欠き、バイアス付き推定器をトレーニングに使用する。 そこで,本研究では,確率割当法に基づく2つの非偏り推定法を提案する。1つは熟練能力を超えるデータポイントをスキップし,もう1つはガムベルマッチング分布の延長を用いて完全にバランスの取れた割当をサンプリングする手法 [29] を提案する。 どちらの推定器も、使用するサンプリング手順を正すため、偏りがない。 おもちゃの実験では,'skip'-estimator はバランスの取れたサンプリングよりも有効であり,両者ともバイアスのある代替品よりもタスクの解決に堅牢である。

Training large-scale mixture of experts models efficiently on modern hardware requires assigning datapoints in a batch to different experts, each with a limited capacity. Recently proposed assignment procedures lack a probabilistic interpretation and use biased estimators for training. As an alternative, we propose two unbiased estimators based on principled stochastic assignment procedures: one that skips datapoints which exceed expert capacity, and one that samples perfectly balanced assignments using an extension of the Gumbel-Matching distribution [29]. Both estimators are unbiased, as they correct for the used sampling procedure. On a toy experiment, we find the `skip'-estimator is more effective than the balanced sampling one, and both are more robust in solving the task than biased alternatives.
翻訳日:2021-09-27 23:10:23 公開日:2021-09-24
# (参考訳) 周波数プーリング:シフト等価およびアンチエイリアスダウンサンプリング [全文訳有]

Frequency Pooling: Shift-Equivalent and Anti-Aliasing Downsampling ( http://arxiv.org/abs/2109.11839v1 )

ライセンス: CC BY 4.0
Zhendong Zhang(参考訳) 畳み込みは画像のシフト等価な事前処理を利用するため、画像処理タスクで大きな成功を収める。 しかし、最大プール、平均プール、ストライド畳み込みなどの畳み込みニューラルネットワーク(CNN)で一般的に使用されるプーリングはシフト等価ではない。 これにより、畳み込みやプーリングの積み重ねによってCNNのシフト等価性が破壊される。 さらに、アンチエイリアシングは信号処理の観点からのプーリングの重要な特性である。 しかし、最近のプールはシフト等価でもアンチエイリアスでもない。 この問題に対処するために、シフト等価かつアンチエイリアスである周波数プーリングと呼ばれる新しいプール法を提案する。 周波数プーリングは、まず特徴を周波数領域に変換し、次にナイキスト周波数を超える周波数成分を除去する。 そして最後に、その特徴を空間領域に戻す。 フーリエ変換とナイキスト周波数の特性に基づいて,周波数プーリングがシフト等価かつアンチエイリアスであることを証明する。 画像分類実験により,cnnのシフトに対する周波数プーリングの精度とロバスト性が向上した。

Convolution utilizes a shift-equivalent prior of images, thus leading to great success in image processing tasks. However, commonly used poolings in convolutional neural networks (CNNs), such as max-pooling, average-pooling, and strided-convolution, are not shift-equivalent. Thus, the shift-equivalence of CNNs is destroyed when convolutions and poolings are stacked. Moreover, anti-aliasing is another essential property of poolings from the perspective of signal processing. However, recent poolings are neither shift-equivalent nor anti-aliasing. To address this issue, we propose a new pooling method that is shift-equivalent and anti-aliasing, named frequency pooling. Frequency pooling first transforms the features into the frequency domain, and then removes the frequency components beyond the Nyquist frequency. Finally, it transforms the features back to the spatial domain. We prove that frequency pooling is shift-equivalent and anti-aliasing based on the property of Fourier transform and Nyquist frequency. Experiments on image classification show that frequency pooling improves accuracy and robustness with respect to the shifts of CNNs.
翻訳日:2021-09-27 22:54:08 公開日:2021-09-24
# (参考訳) 経験的分析レンズとしての説明戦略 : 機械学習解釈の社会技術的文脈化 [全文訳有]

Explanation Strategies as an Empirical-Analytical Lens for Socio-Technical Contextualization of Machine Learning Interpretability ( http://arxiv.org/abs/2109.11849v1 )

ライセンス: CC BY-SA 4.0
Jesse Josua Benjamin, Christoph Kinkeldey, Claudia M\"uller-Birn, Tim Korjakow, Eva-Maria Herbst(参考訳) 我々は、機械学習(ML)による非機械学習の専門家のための可視化システムを開発した研究プロジェクトにおいて、MLにおける解釈可能性の研究、コンピュータによる協調作業、人間とコンピュータの相互作用について考察した。 多様体的技術的アプローチは存在するが、これらはしばしばmlの専門家に焦点が当てられ、非文脈的実証研究で評価されている。 我々は,参加型設計研究が,プロジェクトにおける利害関係者の認識理解を支援するかもしれないと仮定した。 技術哲学を基盤として,技術的な説明が人々の解釈に関する文脈的嗜好をどう扱うかを説明する経験的分析レンズとして説明戦略を定式化した。 本稿では,非ML専門家による共同設計ワークショップの分析,参加型設計研究への方法論的含意,非ML専門家による説明のための設計的含意,およびML解釈可能性分野における技術メディエーション理論のさらなる研究を提案する。

During a research project in which we developed a machine learning (ML) driven visualization system for non-ML experts, we reflected on interpretability research in ML, computer-supported collaborative work and human-computer interaction. We found that while there are manifold technical approaches, these often focus on ML experts and are evaluated in decontextualized empirical studies. We hypothesized that participatory design research may support the understanding of stakeholders' situated sense-making in our project, yet, found guidance regarding ML interpretability inexhaustive. Building on philosophy of technology, we formulated explanation strategies as an empirical-analytical lens explicating how technical explanations mediate the contextual preferences concerning people's interpretations. In this paper, we contribute a report of our proof-of-concept use of explanation strategies to analyze a co-design workshop with non-ML experts, methodological implications for participatory design research, design implications for explanations for non-ML experts and suggest further investigation of technological mediation theories in the ML interpretability space.
翻訳日:2021-09-27 22:42:23 公開日:2021-09-24
# (参考訳) 近似潜在力モデル推論 [全文訳有]

Approximate Latent Force Model Inference ( http://arxiv.org/abs/2109.11851v1 )

ライセンス: CC BY 4.0
Jacob Moss, Felix Opolka, Bianca Dumitrascu, Pietro Li\'o(参考訳) 物理的にインスパイアされた潜在力モデルは、動的システムにおける推論のための純粋データ駆動ツールの解釈可能な代替を提供する。 これらは微分方程式の構造とガウス過程の柔軟性を持ち、解釈可能なパラメータと動的に影響される潜在関数をもたらす。 しかし、これらのモデルに付随する既存の推論手法は、解析形式ではほとんど利用できない後方核項の正確な計算に依存している。 ヒル方程式や拡散方程式のような実践者に関連するほとんどの応用は、従って難解である。 本稿では,非線形および放物型偏微分方程式潜在力モデルの一般クラスに変分解を提案することにより,これらの計算問題を克服する。 さらに、ニューラルネットワークアプローチにより、モデルを数千のインスタンスに拡張し、高速で分散計算を可能にすることを示す。 我々は,カーネルが扱いやすさの異なるいくつかのタスクにおいて,競合性能を達成することにより,フレームワークの有効性と柔軟性を示す。

Physically-inspired latent force models offer an interpretable alternative to purely data driven tools for inference in dynamical systems. They carry the structure of differential equations and the flexibility of Gaussian processes, yielding interpretable parameters and dynamics-imposed latent functions. However, the existing inference techniques associated with these models rely on the exact computation of posterior kernel terms which are seldom available in analytical form. Most applications relevant to practitioners, such as Hill equations or diffusion equations, are hence intractable. In this paper, we overcome these computational problems by proposing a variational solution to a general class of non-linear and parabolic partial differential equation latent force models. Further, we show that a neural operator approach can scale our model to thousands of instances, enabling fast, distributed computation. We demonstrate the efficacy and flexibility of our framework by achieving competitive performance on several tasks where the kernels are of varying degrees of tractability.
翻訳日:2021-09-27 22:13:07 公開日:2021-09-24
# (参考訳) ブリッジゲーム登録のためのトレーニングデータセット生成 [全文訳有]

Training dataset generation for bridge game registration ( http://arxiv.org/abs/2109.11861v1 )

ライセンス: CC BY 4.0
Piotr Wzorek, Tomasz Kryjak(参考訳) 本稿では,カード検出に用いる深層畳み込みニューラルネットワークのためのトレーニングデータセットの自動生成手法を提案する。 このソリューションは、認識されたオブジェクトを手動で収集しラベル付けする時間を省くことができる。 生成されたデータセットでトレーニングされたyolov4ネットワークは、カード検出タスクにおいて99.8%の効率を達成した。 提案手法は,視覚システムとニューラルネットワークを用いて重複する橋梁競技の放送プロセスを自動化することを目的としたプロジェクトの一部である。

This paper presents a method for automatic generation of a training dataset for a deep convolutional neural network used for playing card detection. The solution allows to skip the time-consuming processes of manual image collecting and labelling recognised objects. The YOLOv4 network trained on the generated dataset achieved an efficiency of 99.8% in the cards detection task. The proposed method is a part of a project that aims to automate the process of broadcasting duplicate bridge competitions using a vision system and neural networks.
翻訳日:2021-09-27 21:54:44 公開日:2021-09-24
# (参考訳) バックプロパゲーションによる多層GBDTの学習 [全文訳有]

Learning Multi-Layered GBDT Via Back Propagation ( http://arxiv.org/abs/2109.11863v1 )

ライセンス: CC BY 4.0
Zhendong Zhang(参考訳) ディープニューラルネットワークはバック伝搬(BP)を通じて多層表現を学習することができる。 勾配向上決定木(GBDT)は表データのモデリングに有効であるが,その入力に対して微分不可能であり,多層表現の学習に苦慮している。 本稿では,BPを用いた多層GBDTの学習フレームワークを提案する。 線形回帰に基づくGBDTの勾配を近似した。 具体的には,木構造への個々の試料の寄与を無視した各葉の定数を線形回帰を用いて置き換える。 このようにして、多層GBDTのBPを容易にする中間表現の勾配を推定する。 実験では,提案手法の有効性を性能と表現能力の観点から示す。 我々の知る限りでは、BPを介して多層GBDTを最適化する最初の試みである。 この研究は、深い木に基づく学習とGBDTとニューラルネットワークを組み合わせる新たな可能性を提供する。

Deep neural networks are able to learn multi-layered representation via back propagation (BP). Although the gradient boosting decision tree (GBDT) is effective for modeling tabular data, it is non-differentiable with respect to its input, thus suffering from learning multi-layered representation. In this paper, we propose a framework of learning multi-layered GBDT via BP. We approximate the gradient of GBDT based on linear regression. Specifically, we use linear regression to replace the constant value at each leaf ignoring the contribution of individual samples to the tree structure. In this way, we estimate the gradient for intermediate representations, which facilitates BP for multi-layered GBDT. Experiments show the effectiveness of the proposed method in terms of performance and representation ability. To the best of our knowledge, this is the first work of optimizing multi-layered GBDT via BP. This work provides a new possibility of exploring deep tree based learning and combining GBDT with neural networks.
翻訳日:2021-09-27 21:50:42 公開日:2021-09-24
# (参考訳) 統一 f-divergence フレームワークにおける政策評価と政策改善 [全文訳有]

Combing Policy Evaluation and Policy Improvement in a Unified f-Divergence Framework ( http://arxiv.org/abs/2109.11867v1 )

ライセンス: CC BY 4.0
Chen Gong, Qiang He, Yunpeng Bai, Xiaoyu Chen, Xinwen Hou, Yu Liu, Guoliang Fan(参考訳) 深層強化学習(DRL)の枠組みは、シーケンシャルな意思決定のために強力で広く適用可能な数学的形式を提供する。 本稿では,f-divergence Reinforcement Learning(FRL)と呼ばれる,学習方針とサンプリング方針のf-diergenceの研究から始め,新しいDRLフレームワークを導出する。 本稿では,学習方針とサンプリング方針のf分割を最小化することで,政策評価と政策改善の段階が引き起こされることを強調し,期待される累積報酬を最大化する従来のDRLアルゴリズムの目的とは異なっている。 さらに,この枠組みを,政策評価と政策改善からなるFenchel共役を通じて,特定のf関数を持つサドルポイント最適化問題に変換する。 次に、FRLにおける新しい政策評価と政策改善手法を導出する。 我々のフレームワークはDRLアルゴリズムを解析するための新たな洞察を与えるかもしれない。 FRL フレームワークは,1) f-divergence によって政策評価と政策改善プロセスを同時に導出すること,2) 値関数の過大評価問題を緩和すること,の2つの利点を実現する。 FRL フレームワークの有効性を評価するため,我々は Atari 2600 のゲームで実験を行い,テストした DRL アルゴリズムと一致するか上回っていることを示す。

The framework of deep reinforcement learning (DRL) provides a powerful and widely applicable mathematical formalization for sequential decision-making. In this paper, we start from studying the f-divergence between learning policy and sampling policy and derive a novel DRL framework, termed f-Divergence Reinforcement Learning (FRL). We highlight that the policy evaluation and policy improvement phases are induced by minimizing f-divergence between learning policy and sampling policy, which is distinct from the conventional DRL algorithm objective that maximizes the expected cumulative rewards. Besides, we convert this framework to a saddle-point optimization problem with a specific f function through Fenchel conjugate, which consists of policy evaluation and policy improvement. Then we derive new policy evaluation and policy improvement methods in FRL. Our framework may give new insights for analyzing DRL algorithms. The FRL framework achieves two advantages: (1) policy evaluation and policy improvement processes are derived simultaneously by f-divergence; (2) overestimation issue of value function are alleviated. To evaluate the effectiveness of the FRL framework, we conduct experiments on Atari 2600 video games, which show that our framework matches or surpasses the DRL algorithms we tested.
翻訳日:2021-09-27 21:39:56 公開日:2021-09-24
# (参考訳) パーソナリティに基づく金融サービスのためのリカレントニューラルネットワークによる新規顧客機能発見 [全文訳有]

Discovering Novel Customer Features with Recurrent Neural Networks for Personality Based Financial Services ( http://arxiv.org/abs/2109.11871v1 )

ライセンス: CC BY 4.0
Charl Maree, Christian W. Omlin(参考訳) 金融部門における顧客のマイクロセグメンテーションは、非自明な作業であり、最近の科学文献からの非定型的欠落である。 従来のセグメンテーションが人口統計のような粗い特徴に基づいて顧客を分類する場合、マイクロセグメンテーションは個人間のより微妙な違いを描き、金融サービスのパーソナライゼーションを改善する可能性を含むいくつかの利点をもたらす。 AIと表現学習は、マイクロセグメンテーションの問題を解決するユニークな機会を提供する。 多くの産業ではユビキタスだが、金融などの敏感な産業におけるAIの普及は、責任あるAIの衝動に依存している。 我々は以前、リカレントニューラルネットワーク(RNN)の状態空間から時間的特徴を抽出することで、マイクロセグメンテーション問題を解いた。 しかしながら、RNNの本質的な不透明さのため、私たちのソリューションには説明がなかった。 本研究では,時間的特徴の解釈と説明を抽出することにより,この問題に対処する。 我々はRNNの状態空間と線形回帰モデルを用いて、高忠実度で状態空間の軌道を再構成する。 我々の線形回帰係数は、RNNの出力データを作成するのに使用される規則を学習しただけでなく、生データで直接明らかでない関係も学習したことを示す。

The micro-segmentation of customers in the finance sector is a non-trivial task and has been an atypical omission from recent scientific literature. Where traditional segmentation classifies customers based on coarse features such as demographics, micro-segmentation depicts more nuanced differences between individuals, bringing forth several advantages including the potential for improved personalization in financial services. AI and representation learning offer a unique opportunity to solve the problem of micro-segmentation. Although ubiquitous in many industries, the proliferation of AI in sensitive industries such as finance has become contingent on the imperatives of responsible AI. We had previously solved the micro-segmentation problem by extracting temporal features from the state space of a recurrent neural network (RNN). However, due to the inherent opacity of RNNs our solution lacked an explanation - one of the imperatives of responsible AI. In this study, we address this issue by extracting an explanation for and providing an interpretation of our temporal features. We investigate the state space of our RNN and through a linear regression model reconstruct the trajectories in the state space with high fidelity. We show that our linear regression coefficients have not only learned the rules used to create the RNN's output data but have also learned the relationships that were not directly evident in the raw data.
翻訳日:2021-09-27 20:58:15 公開日:2021-09-24
# (参考訳) 局所観測から世界への影響を最大化する学習

Learning to maximize global influence from local observations ( http://arxiv.org/abs/2109.11909v1 )

ライセンス: CC BY 4.0
G\'abor Lugosi, Gergely Neu, Julia Olkhovskaya(参考訳) 本研究では,数列のラウンドが$t=1,\ldots,T$である家族のオンライン影響最大化問題について検討する。 エージェントを選択すると、意思決定者はエージェントと情報の一部を共有し、エージェントが通信する未観測ネットワークにその情報が拡散する。 意思決定者の目標は、ネットワーク内の影響のあるノードの総数という方法でエージェントのシーケンスを選択することである。 本研究では,ある固定分布と未知分布にしたがって,ネットワークを$t$ごとに独立に生成するシナリオを考察し,影響ノードの集合が選択されたエージェントに対応する頂点を含むランダムグラフの連結成分に対応するようにした。 さらに,ネットワーク全体が観測可能であるという非現実的な仮定ではなく,選択した頂点の小さな近傍に基づいて,利用可能なフィードバックが生成されると仮定する。 これらの部分的な局所的な観測は、地球への影響を最大化するのに十分であることを示す。 基礎となるランダムグラフを疎不均一な erd\h{o}s--r\'enyi グラフとしてモデル化し、確率ブロックモデル、chung-luモデル、クロネッカーランダムグラフの3種類のランダムグラフモデルを詳細に研究した。 このような場合、選択された頂点の次数だけをランダムグラフで観測することで、影響を最大化することができる。 我々は,影響を最大化することを目的とした逐次学習アルゴリズムを提案し,それらの理論解析を,すべての考慮モデルのサブクリティカル・スーパークリティカル・レジームの両方において提供する。

We study a family online influence maximization problems where in a sequence of rounds $t=1,\ldots,T$, a decision maker selects one from a large number of agents with the goal of maximizing influence. Upon choosing an agent, the decision maker shares a piece of information with the agent, which information then spreads in an unobserved network over which the agents communicate. The goal of the decision maker is to select the sequence of agents in a way that the total number of influenced nodes in the network. In this work, we consider a scenario where the networks are generated independently for each $t$ according to some fixed but unknown distribution, so that the set of influenced nodes corresponds to the connected component of the random graph containing the vertex corresponding to the selected agent. Furthermore, we assume that the decision maker only has access to limited feedback: instead of making the unrealistic assumption that the entire network is observable, we suppose that the available feedback is generated based on a small neighborhood of the selected vertex. Our results show that such partial local observations can be sufficient for maximizing global influence. We model the underlying random graph as a sparse inhomogeneous Erd\H{o}s--R\'enyi graph, and study three specific families of random graph models in detail: stochastic block models, Chung--Lu models and Kronecker random graphs. We show that in these cases one may learn to maximize influence by merely observing the degree of the selected vertex in the generated random graph. We propose sequential learning algorithms that aim at maximizing influence, and provide their theoretical analysis in both the subcritical and supercritical regimes of all considered models.
翻訳日:2021-09-27 20:50:37 公開日:2021-09-24
# (参考訳) 自律的作物非依存型視覚ナビゲーションに向けて [全文訳有]

Towards Autonomous Crop-Agnostic Visual Navigation in Arable Fields ( http://arxiv.org/abs/2109.11936v1 )

ライセンス: CC BY 4.0
Alireza Ahmadi, Michael Halstead, and Chris McCool(参考訳) 農業分野におけるロボットの自律的なナビゲーションは、作物のモニタリングから雑草管理や肥料の応用に至るまで、あらゆるタスクに不可欠である。 現在の多くのアプローチは正確なGPSに頼っているが、そのような技術は高価であり失敗する傾向がある。 そのため、農業における自律性の目標を達成するためには、カメラなどの環境を解釈できるセンサーによるナビゲーションが重要である。 本稿では,ロボットをロークロップフィールドに確実に誘導できる純粋に視覚に基づくナビゲーション方式を提案する。 グローバルローカライゼーションやマッピングとは無関係に、このアプローチでは、オンボードカメラのみを使用して、作物の列を正確に追跡し、行間を切り替えることができる。 新たな作物群検出技術と新しい作物群切り換え技術により, 様々な成長段階において, 異なる天蓋型を持つ広範囲の畑に, ナビゲーションスキームを展開できる。 我々は,農業用ロボットプラットフォーム(BonnBot-I)を用いて,照明条件の異なる5つの分野において,我々のアプローチを広範囲に検証した。 評価の結果,5つの異なる畑で3.82cmの航法精度を達成できた。

Autonomous navigation of a robot in agricultural fields is essential for every task from crop monitoring through to weed management and fertilizer application. Many current approaches rely on accurate GPS, however, such technology is expensive and also prone to failure~(e.g. through lack of coverage). As such, navigation through sensors that can interpret their environment (such as cameras) is important to achieve the goal of autonomy in agriculture. In this paper, we introduce a purely vision-based navigation scheme which is able to reliably guide the robot through row-crop fields. Independent of any global localization or mapping, this approach is able to accurately follow the crop-rows and switch between the rows, only using on-board cameras. With the help of a novel crop-row detection and a novel crop-row switching technique, our navigation scheme can be deployed in a wide range of fields with different canopy types in various growth stages. We have extensively tested our approach in five different fields under various illumination conditions using our agricultural robotic platform (BonnBot-I). And our evaluations show that we have achieved a navigation accuracy of 3.82cm over five different crop fields.
翻訳日:2021-09-27 20:49:04 公開日:2021-09-24
# (参考訳) 複数の実験からpdesの発見 [全文訳有]

Discovering PDEs from Multiple Experiments ( http://arxiv.org/abs/2109.11939v1 )

ライセンス: CC BY 4.0
Georges Tod, Gert-Jan Both, Remy Kusters(参考訳) 偏微分方程式(PDE)の自動モデル発見は通常、基礎となる支配方程式を推測するために単一の実験またはデータセットを考える。 実際には、実験はパラメータ、初期条件、境界条件に固有の自然変数を持ち、単純に平均化できない。 ランダム化適応型グループであるLassoスポーシティ推定器を導入し、グループ化されたスポーシティを促進し、深層学習に基づくPDE発見フレームワークで実装する。 これは、全ての実験が、潜在的に異なる係数を持つ同じ基礎となるPDE項で説明できるという事前仮定を示す学習バイアスを作成することができる。 実験の結果、より一般化可能なpdesは、単に独立したモデル発見を行うのではなく、このグループ化されたスパーシティ促進によって、複数の騒がしいデータセットから発見できることがわかった。

Automated model discovery of partial differential equations (PDEs) usually considers a single experiment or dataset to infer the underlying governing equations. In practice, experiments have inherent natural variability in parameters, initial and boundary conditions that cannot be simply averaged out. We introduce a randomised adaptive group Lasso sparsity estimator to promote grouped sparsity and implement it in a deep learning based PDE discovery framework. It allows to create a learning bias that implies the a priori assumption that all experiments can be explained by the same underlying PDE terms with potentially different coefficients. Our experimental results show more generalizable PDEs can be found from multiple highly noisy datasets, by this grouped sparsity promotion rather than simply performing independent model discoveries.
翻訳日:2021-09-27 20:36:17 公開日:2021-09-24
# (参考訳) 3次元口腔内スキャンにおける2段階メッシュ深層学習による自動歯列分割とランドマーク位置推定 [全文訳有]

Two-Stage Mesh Deep Learning for Automated Tooth Segmentation and Landmark Localization on 3D Intraoral Scans ( http://arxiv.org/abs/2109.11941v1 )

ライセンス: CC BY-SA 4.0
Tai-Hsien Wu, Chunfeng Lian, Sanghee Lee, Matthew Pastewait, Christian Piers, Jie Liu, Fang Wang, Li Wang, Christina Jackson, Wei-Lun Chao, Dinggang Shen, Ching-Chang Ko(参考訳) 歯科用メッシュモデルにおける歯の正確な分割と対応する解剖学的ランドマークの同定は, コンピュータ支援矯正治療において不可欠である。 これら2つのタスクを手作業で行うことは、時間を要する、退屈で、さらに重要なことは、患者の歯の異常と大規模な分散により、矯正医の経験に大きく依存する。 いくつかの機械学習に基づく手法は歯科用メッシュ(例えば口腔内スキャン)を自動的に分割するために歯科矯正領域に設計され応用されている。 対照的に、歯のランドマークの定位に関する研究は、まだ限られている。 本稿では,メッシュディープラーニング(TS-MDL)に基づく2段階の枠組みを提案する。 我々のTS-MDLは、まずエンド・ツー・エンドの \emph{i}MeshSegNet メソッド(すなわち、精度と効率を向上した既存の MeshSegNet の変種)を採用して、ダウンサンプルスキャンで各歯をラベル付けします。 セグメンテーション出力により誘導されたts-mdlは、さらに元のメッシュ上の各歯の関心領域(roi)を選択し、対応するランドマークヒートマップをレグレッションする先駆的ポイントネット(pointnet-reg)の軽量変種を構築する。 TS-MDLを実クラスタ上で評価し,有望なセグメンテーションとローカライゼーション性能を示した。 具体的には、TS-MDL の最初の段階での \emph{i}MeshSegNet は、平均的な Dice 類似度係数 (DSC) を$0.953\pm0.076$ で達成し、元の MeshSegNet を著しく上回った。 第2段階では、pointnet-regは平均絶対誤差 (mae) を0.623\pm0.718 \, mm$ とし、予測と地上真理の間の距離を44ドルのランドマークで達成した。 これらの結果から,臨床におけるTS-MDLの有用性が示唆された。

Accurately segmenting teeth and identifying the corresponding anatomical landmarks on dental mesh models are essential in computer-aided orthodontic treatment. Manually performing these two tasks is time-consuming, tedious, and, more importantly, highly dependent on orthodontists' experiences due to the abnormality and large-scale variance of patients' teeth. Some machine learning-based methods have been designed and applied in the orthodontic field to automatically segment dental meshes (e.g., intraoral scans). In contrast, the number of studies on tooth landmark localization is still limited. This paper proposes a two-stage framework based on mesh deep learning (called TS-MDL) for joint tooth labeling and landmark identification on raw intraoral scans. Our TS-MDL first adopts an end-to-end \emph{i}MeshSegNet method (i.e., a variant of the existing MeshSegNet with both improved accuracy and efficiency) to label each tooth on the downsampled scan. Guided by the segmentation outputs, our TS-MDL further selects each tooth's region of interest (ROI) on the original mesh to construct a light-weight variant of the pioneering PointNet (i.e., PointNet-Reg) for regressing the corresponding landmark heatmaps. Our TS-MDL was evaluated on a real-clinical dataset, showing promising segmentation and localization performance. Specifically, \emph{i}MeshSegNet in the first stage of TS-MDL reached an averaged Dice similarity coefficient (DSC) at $0.953\pm0.076$, significantly outperforming the original MeshSegNet. In the second stage, PointNet-Reg achieved a mean absolute error (MAE) of $0.623\pm0.718 \, mm$ in distances between the prediction and ground truth for $44$ landmarks, which is superior compared with other networks for landmark detection. All these results suggest the potential usage of our TS-MDL in clinical practices.
翻訳日:2021-09-27 20:28:04 公開日:2021-09-24
# (参考訳) 模倣による相互関係の学習 [全文訳有]

Learning Relative Interactions through Imitation ( http://arxiv.org/abs/2109.12013v1 )

ライセンス: CC BY 4.0
Giorgia Adorni and Elia Cereda(参考訳) このプロジェクトでは、模倣学習を通じて、ロボットと環境内のオブジェクトとの特定のインタラクションを実行するニューラルネットワークを訓練しました。 特に、ロボットを特定の物体に対して一定の姿勢に移動させ、その後、この物体の任意の姿勢を扱うためにこの方法を拡張するという課題に取り組みます。 学習データが少ない単純なネットワークでは、任意のタスクを適切に実行するのにより多くの作業が必要となる一方で、固定されたタスクで非常に優れた性能が得られることを示す。 また,センサ読み取りにおけるあいまいさ,特に対象オブジェクトの対称性が学習したコントローラの動作に与える影響についても検討した。

In this project we trained a neural network to perform specific interactions between a robot and objects in the environment, through imitation learning. In particular, we tackle the task of moving the robot to a fixed pose with respect to a certain object and later extend our method to handle any arbitrary pose around this object. We show that a simple network, with relatively little training data, is able to reach very good performance on the fixed-pose task, while more work is needed to perform the arbitrary-pose task satisfactorily. We also explore the effect of ambiguities in the sensor readings, in particular caused by symmetries in the target object, on the behaviour of the learned controller.
翻訳日:2021-09-27 20:05:16 公開日:2021-09-24
# (参考訳) スパース逆共分散行列の分散推定 [全文訳有]

Distributed Estimation of Sparse Inverse Covariance Matrices ( http://arxiv.org/abs/2109.12020v1 )

ライセンス: CC BY 4.0
Tong Yao, Shreyas Sundaram(参考訳) 時系列データからさまざまなエンティティ間の関係を学習することは、多くのアプリケーションにおいて不可欠である。 ガウス図形モデルはこれらの関係を推測するために研究されている。 しかし、既存のアルゴリズムは中央の場所でバッチでデータを処理し、異なるエージェントによってデータが収集されるシナリオでアプリケーションを制限する。 本稿では,分散エージェントが収集したデータからネットワーク構造(すなわち観測エンティティ間の依存性)をリアルタイムに学習するための分散スパース逆共分散アルゴリズムを提案する。 このアプローチはオンラインのグラフィカルな交互最小化アルゴリズムに基づいており、エージェントが希望の構造を協調的に学習できるコンセンサス用語が拡張されている。 システム設計者は、通信ラウンド数とデータポイント毎の最適化ステップを選択することができる。 我々は,アルゴリズムの収束率を特徴付け,合成データセット上でシミュレーションを行う。

Learning the relationships between various entities from time-series data is essential in many applications. Gaussian graphical models have been studied to infer these relationships. However, existing algorithms process data in a batch at a central location, limiting their applications in scenarios where data is gathered by different agents. In this paper, we propose a distributed sparse inverse covariance algorithm to learn the network structure (i.e., dependencies among observed entities) in real-time from data collected by distributed agents. Our approach is built on an online graphical alternating minimization algorithm, augmented with a consensus term that allows agents to learn the desired structure cooperatively. We allow the system designer to select the number of communication rounds and optimization steps per data point. We characterize the rate of convergence of our algorithm and provide simulations on synthetic datasets.
翻訳日:2021-09-27 19:56:54 公開日:2021-09-24
# (参考訳) Pythia: オンライン強化学習を利用したカスタマイズ可能なハードウェアプリフェッチフレームワーク [全文訳有]

Pythia: A Customizable Hardware Prefetching Framework Using Online Reinforcement Learning ( http://arxiv.org/abs/2109.12021v1 )

ライセンス: CC BY 4.0
Rahul Bera, Konstantinos Kanellopoulos, Anant V. Nori, Taha Shahroodi, Sreenivas Subramoney, Onur Mutlu(参考訳) 過去の研究は、多くのハードウェアプリフェッチ技術を提案しており、そのほとんどは、将来のメモリアクセスを予測するために、1つの特定の種類のプログラムコンテキスト情報(例えば、プログラムカウンタ、キャッシュラインアドレス)を利用する。 これらの手法は、システム全体に対するプレフェッチャーの望ましくない効果(例えば、メモリ帯域使用量)を完全に無視するか、システムレベルのフィードバックをシステム非認識プリフェッチアルゴリズムの後付けとして組み込むかのどちらかである。 従来のプリフェッチでは,プリフェッチ時に複数のプログラムコンテキストやシステムレベルのフィードバック情報を考慮できないため,さまざまなワークロードやシステム構成においてパフォーマンス上のメリットが失われることが多い。 本稿では,複数種類のプログラムコンテキストとシステムレベルのフィードバック情報を用いてプリフェッチを学習する包括的プリフェッチアルゴリズムの設計を事例とする。 そこで本研究では,プレフェッチャーを強化学習剤として定式化するPythiaを提案する。 要求要求毎に、Pythiaは複数の異なる種類のプログラムコンテキスト情報を観察し、事前決定を行う。 プリフェッチ決定毎に、Pythiaは現在のメモリ帯域幅使用量でプリフェッチ品質を評価する数値的な報酬を受け取る。 pythiaはこの報酬を使って、プログラムコンテキスト情報とプリフェッチ決定との相関を強化し、精度が高く、タイムリーで、システム対応のプリフェッチ要求を生成する。 シミュレーションとハードウェア合成を用いた大規模な評価では、Pythiaはさまざまなワークロードやシステム構成に対して、複数の最先端プリフェッチよりも優れており、デスクトップクラスのプロセッサよりも1.03%のオーバヘッドしか発生せず、ワークロードにソフトウェア変更はないことが示されている。 Pythiaのソースコードはhttps://github.com/C MU-SAFARI/Pythiaから無料でダウンロードできる。

Past research has proposed numerous hardware prefetching techniques, most of which rely on exploiting one specific type of program context information (e.g., program counter, cacheline address) to predict future memory accesses. These techniques either completely neglect a prefetcher's undesirable effects (e.g., memory bandwidth usage) on the overall system, or incorporate system-level feedback as an afterthought to a system-unaware prefetch algorithm. We show that prior prefetchers often lose their performance benefit over a wide range of workloads and system configurations due to their inherent inability to take multiple different types of program context and system-level feedback information into account while prefetching. In this paper, we make a case for designing a holistic prefetch algorithm that learns to prefetch using multiple different types of program context and system-level feedback information inherent to its design. To this end, we propose Pythia, which formulates the prefetcher as a reinforcement learning agent. For every demand request, Pythia observes multiple different types of program context information to make a prefetch decision. For every prefetch decision, Pythia receives a numerical reward that evaluates prefetch quality under the current memory bandwidth usage. Pythia uses this reward to reinforce the correlation between program context information and prefetch decision to generate highly accurate, timely, and system-aware prefetch requests in the future. Our extensive evaluations using simulation and hardware synthesis show that Pythia outperforms multiple state-of-the-art prefetchers over a wide range of workloads and system configurations, while incurring only 1.03% area overhead over a desktop-class processor and no software changes in workloads. The source code of Pythia can be freely downloaded from https://github.com/C MU-SAFARI/Pythia.
翻訳日:2021-09-27 19:35:39 公開日:2021-09-24
# (参考訳) 節分割確率推定を用いた間接教師付き英語文ブレーク予測

Indirectly Supervised English Sentence Break Prediction Using Paragraph Break Probability Estimates ( http://arxiv.org/abs/2109.12023v1 )

ライセンス: CC BY 4.0
Robert C. Moore(参考訳) 本報告は,英語自然言語テキストにおける文のブレーク位置を予測するために,段落ブレーク確率推定を用いた場合について検討する。 そこで本研究では, ほぼ段落ブレーク確率推定に基づく文ブレーク予測器が, 高い精度を実現できることを示す。 この文分割予測器は、文分割アノテーションを使わずに、大量の自然発生テキストに基づいてほぼ完全に訓練され、2つのハイパーパラメータをチューニングするために少量の注釈付きデータしか必要としない。 また,段落ブレーク確率信号と,より大量の文ブレークアノテートデータに基づいて訓練されたサポートベクターマシン分類器を組み合わせることで,ドメイン内およびドメイン外テストデータでさらに優れた結果が得られることを示した。 関連する問題も数多く取り組まれている。

This report explores the use of paragraph break probability estimates to help predict the location of sentence breaks in English natural language text. We show that a sentence break predictor based almost solely on paragraph break probability estimates can achieve high accuracy on this task. This sentence break predictor is trained almost entirely on a large amount of naturally occurring text without sentence break annotations, with only a small amount of annotated data needed to tune two hyperparameters. We also show that even better results can be achieved across in-domain and out-of-domain test data, if paragraph break probability signals are combined with a support vector machine classifier trained on a somewhat larger amount of sentence-break-annot ated data. Numerous related issues are addressed along the way.
翻訳日:2021-09-27 18:51:10 公開日:2021-09-24
# (参考訳) 熱帯サイクロンの急拡大前の対流進化における分布的差異の同定 [全文訳有]

Identifying Distributional Differences in Convective Evolution Prior to Rapid Intensification in Tropical Cyclones ( http://arxiv.org/abs/2109.12029v1 )

ライセンス: CC BY 4.0
Trey McNeely, Galen Vincent, Rafael Izbicki, Kimberly M. Wood, and Ann B. Lee(参考訳) 熱帯サイクロン(tc)強度予測は、時空間観測(衛星画像など)とモデル出力(数値気象予測、統計モデルなど)を評価して6時間毎に予測を行う人間の予測者によって発行される。 このような時間的制約の中で、このようなデータから洞察を引き出すことは困難である。 高容量機械学習手法は複雑なシーケンスデータの予測問題に適しているが、解釈可能な科学的情報を抽出することは困難である。 ここでは、強力なAI予測アルゴリズムと古典的な統計的推測を利用して、嵐の急速な激化につながるTC対流構造の進化におけるパターンを特定する。

Tropical cyclone (TC) intensity forecasts are issued by human forecasters who evaluate spatio-temporal observations (e.g., satellite imagery) and model output (e.g., numerical weather prediction, statistical models) to produce forecasts every 6 hours. Within these time constraints, it can be challenging to draw insight from such data. While high-capacity machine learning methods are well suited for prediction problems with complex sequence data, extracting interpretable scientific information with such methods is difficult. Here we leverage powerful AI prediction algorithms and classical statistical inference to identify patterns in the evolution of TC convective structure leading up to the rapid intensification of a storm, hence providing forecasters and scientists with key insight into TC behavior.
翻訳日:2021-09-27 18:49:27 公開日:2021-09-24
# (参考訳) トランスフォーマーは線形に一般化する [全文訳有]

Transformers Generalize Linearly ( http://arxiv.org/abs/2109.12036v1 )

ライセンス: CC BY 4.0
Jackson Petty and Robert Frank(参考訳) 自然言語は階層的に支配される依存関係のパターンを示し、単語間の関係は線形順序付けよりも構文構造に敏感である。 While re-current network models often fail to generalize in a hierarchically sensitive way (McCoy et al.,2020) when trained on ambiguous data, the improvement in performance of newer Trans-former language models (Vaswani et al., 2017)on a range of syntactic benchmarks trained on large data sets (Goldberg, 2019; Warstadtet al., 2019) opens the question of whether these models might exhibit hierarchical generalization in the face of impoverished data.In this paper we examine patterns of structural generalization for Transformer sequence-to-sequence models and find that not only do Transformers fail to generalize hierarchically across a wide variety of grammatical mapping tasks, but they exhibit an even stronger preference for linear generalization than comparable recurrent networks

Natural language exhibits patterns of hierarchically governed dependencies, in which relations between words are sensitive to syntactic structure rather than linear ordering. While re-current network models often fail to generalize in a hierarchically sensitive way (McCoy et al.,2020) when trained on ambiguous data, the improvement in performance of newer Trans-former language models (Vaswani et al., 2017)on a range of syntactic benchmarks trained on large data sets (Goldberg, 2019; Warstadtet al., 2019) opens the question of whether these models might exhibit hierarchical generalization in the face of impoverished data.In this paper we examine patterns of structural generalization for Transformer sequence-to-sequence models and find that not only do Transformers fail to generalize hierarchically across a wide variety of grammatical mapping tasks, but they exhibit an even stronger preference for linear generalization than comparable recurrent networks
翻訳日:2021-09-27 18:39:58 公開日:2021-09-24
# (参考訳) モデル評価の効率化 [全文訳有]

Sample Efficient Model Evaluation ( http://arxiv.org/abs/2109.12043v1 )

ライセンス: CC BY 4.0
Emine Yilmaz, Peter Hayes, Raza Habib, Jordan Burgess, David Barber(参考訳) データのラベリングは、トレーニングとテストの分類において、大きなボトルネックとなる。 ラベル付きデータポイントのコレクションが与えられた場合、精度、$F_1$スコア、micro/macro $F_1$といったテストメトリクスをベストに見積もるために、どのサブセットを選択するかに対処する。 本稿では, よく知られたImportance Smplingというサンプリングベースアプローチと,Poisson Smplingの新たな応用を提案する。 どちらの手法も最小限の誤差サンプリング分布を導出し、それらを近似して推定器と信頼区間を形成する。 ポアソンサンプリングは理論的および実験的にサンプリングの重要性を上回っている。

Labelling data is a major practical bottleneck in training and testing classifiers. Given a collection of unlabelled data points, we address how to select which subset to label to best estimate test metrics such as accuracy, $F_1$ score or micro/macro $F_1$. We consider two sampling based approaches, namely the well-known Importance Sampling and we introduce a novel application of Poisson Sampling. For both approaches we derive the minimal error sampling distributions and how to approximate and use them to form estimators and confidence intervals. We show that Poisson Sampling outperforms Importance Sampling both theoretically and experimentally.
翻訳日:2021-09-27 18:32:31 公開日:2021-09-24
# (参考訳) イタリア語コーパスを用いた単言語・言語間アクセプタビリティ判断 [全文訳有]

Monolingual and Cross-Lingual Acceptability Judgments with the Italian CoLA corpus ( http://arxiv.org/abs/2109.12053v1 )

ライセンス: CC BY 4.0
Daniela Trotta, Raffaele Guarasci, Elisa Leonardelli, Sara Tonelli(参考訳) 言語アクセシビリティに対する自動的なアプローチの開発は、広く使われているGLUEベンチマークに含まれる英語のCoLAコーパスの可用性によって大いに促進されている。 しかし、英語以外の言語に対するこの種の研究や、言語横断的アプローチの分析は、他の言語に匹敵する大きさのリソースの欠如によって妨げられている。 そこで我々はItaCoLAコーパスを開発し,同じアプローチと英文と同じ手順で作成された受理性判定文を約1万文含んだ。 本稿では,コーパス作成について述べるとともに,その内容について詳述し,この新しいリソースに関する最初の実験について述べる。 ドメイン内分類とドメイン外分類を比較し、9つの言語現象の特定評価を行う。 また,マルチリンガルトランスフォーマティブ・アプローチが,微調整時に2つの言語で文を使用することによるメリットを評価できるかどうかを評価することを目的とした,最初のクロスリンガル実験も行った。

The development of automated approaches to linguistic acceptability has been greatly fostered by the availability of the English CoLA corpus, which has also been included in the widely used GLUE benchmark. However, this kind of research for languages other than English, as well as the analysis of cross-lingual approaches, has been hindered by the lack of resources with a comparable size in other languages. We have therefore developed the ItaCoLA corpus, containing almost 10,000 sentences with acceptability judgments, which has been created following the same approach and the same steps as the English one. In this paper we describe the corpus creation, we detail its content, and we present the first experiments on this new resource. We compare in-domain and out-of-domain classification, and perform a specific evaluation of nine linguistic phenomena. We also present the first cross-lingual experiments, aimed at assessing whether multilingual transformerbased approaches can benefit from using sentences in two languages during fine-tuning.
翻訳日:2021-09-27 18:08:23 公開日:2021-09-24
# (参考訳) Far-field Deep Speaker Verificationのためのパラメータ化チャネル正規化 [全文訳有]

Parameterized Channel Normalization for Far-field Deep Speaker Verification ( http://arxiv.org/abs/2109.12056v1 )

ライセンス: CC BY 4.0
Xuechen Liu, Md Sahidullah, Tomi Kinnunen(参考訳) 本稿では,深層ニューラルネットワーク(dnn)に基づく話者埋め込み抽出器を用いた遠方領域話者照合について検討する。 これらの効果を緩和するために,チャネル毎エネルギー正規化(pcen)とパラメータ化ケプストラム平均正規化(pcmn)の2つのパラメトリック正規化法に注目した。 どちらの手法も微分可能なパラメータを含んでおり、自動微分法を用いてDNNと共同で最適化できる。 各メソッドの固定およびトレーニング可能な(データ駆動)変種について検討する。 マイクロホンと位置設定の異なる,最近の大規模遠隔地音声コーパスであるhi-miaの性能評価を行った。 提案手法は従来のメルフィルタバンクよりも優れており,一致マイクロホンと不一致マイクロホンでは最大33.5%,相対的に39.5%改善した。

We address far-field speaker verification with deep neural network (DNN) based speaker embedding extractor, where mismatch between enrollment and test data often comes from convolutive effects (e.g. room reverberation) and noise. To mitigate these effects, we focus on two parametric normalization methods: per-channel energy normalization (PCEN) and parameterized cepstral mean normalization (PCMN). Both methods contain differentiable parameters and thus can be conveniently integrated to, and jointly optimized with the DNN using automatic differentiation methods. We consider both fixed and trainable (data-driven) variants of each method. We evaluate the performance on Hi-MIA, a recent large-scale far-field speech corpus, with varied microphone and positional settings. Our methods outperform conventional mel filterbank features, with maximum of 33.5% and 39.5% relative improvement on equal error rate under matched microphone and mismatched microphone conditions, respectively.
翻訳日:2021-09-27 17:52:44 公開日:2021-09-24
# (参考訳) ロバスト深層話者検証に向けた最適パワー正規化ケプストラム係数 [全文訳有]

Optimized Power Normalized Cepstral Coefficients towards Robust Deep Speaker Verification ( http://arxiv.org/abs/2109.12058v1 )

ライセンス: CC BY 4.0
Xuechen Liu, Md Sahidullah, Tomi Kinnunen(参考訳) 頑健な音声認識の導入後、パワー正規化ケプストラム係数(pncc)機能は話者照合を含む他のタスクにうまく適用された。 しかし、パワースペクトログラムを長期操作する特徴抽出器として、その時間的処理と環境補償に特化した振幅スケーリングステップは冗長である可能性がある。 さらに、深層ニューラルネットワーク(dnn)に基づく話者検証に有用な内在的な話者変動を抑制する可能性がある。 そこで本研究では,中間時間プロセッサのアブレーションとチャネルエネルギー正規化の導入により,pnccを再検討し,最適化する。 DNNベースの話者検証システムによる実験結果から,VoxCeleb1とVoxMoviesでは,比較的5.8%と61.2%の誤差率で,ドメイン内シナリオとクロスドメインシナリオの両方において,ベースライン PNCC を大幅に改善したことが示唆された。

After their introduction to robust speech recognition, power normalized cepstral coefficient (PNCC) features were successfully adopted to other tasks, including speaker verification. However, as a feature extractor with long-term operations on the power spectrogram, its temporal processing and amplitude scaling steps dedicated on environmental compensation may be redundant. Further, they might suppress intrinsic speaker variations that are useful for speaker verification based on deep neural networks (DNN). Therefore, in this study, we revisit and optimize PNCCs by ablating its medium-time processor and by introducing channel energy normalization. Experimental results with a DNN-based speaker verification system indicate substantial improvement over baseline PNCCs on both in-domain and cross-domain scenarios, reflected by relatively 5.8% and 61.2% maximum lower equal error rate on VoxCeleb1 and VoxMovies, respectively.
翻訳日:2021-09-27 17:41:37 公開日:2021-09-24
# (参考訳) 微分プライバシーのための生成型連合学習フレームワーク [全文訳有]

A Generative Federated Learning Framework for Differential Privacy ( http://arxiv.org/abs/2109.12062v1 )

ライセンス: CC BY-SA 4.0
Eugenio Lomurno, Leonardo Di Perna, Lorenzo Cazzella, Stefano Samele, Matteo Matteucci(参考訳) 機械学習では、ますます相互接続する世界で、差分プライバシーとフェデレーション学習の概念がますます重要になっている。 前者は個人プライバシを保護するための厳格なセキュリティルールを特徴とするプライベートデータの共有を指すが、後者は、中央サーバが異なるクライアントと機械学習目的で情報を交換する分散学習技術を指す。 近年、多くの研究が、これらのシステムのプライバシー保護をバイパスし、機械学習モデルの脆弱性を悪用し、彼らが訓練した情報を漏洩する可能性を示している。 本研究では,現在の連合学習パラダイムに代わる3dglフレームワークを提案する。 その目標は、高レベルの$\varepsilon$-differ ential privacyで生成モデルを共有することだ。 さらに,ddp-$\beta$vaeを提案する。これは,高い実用性と個人の安全性を備えた合成データを生成することができる,深い生成モデルである。 ddp-$\beta$vaeに基づく3dglフレームワークを評価し,連合学習における主要な攻撃に対するシステム全体のレジリエント性を示し,分散学習アルゴリズムの性能を向上させる。

In machine learning, differential privacy and federated learning concepts are gaining more and more importance in an increasingly interconnected world. While the former refers to the sharing of private data characterized by strict security rules to protect individual privacy, the latter refers to distributed learning techniques in which a central server exchanges information with different clients for machine learning purposes. In recent years, many studies have shown the possibility of bypassing the privacy shields of these systems and exploiting the vulnerabilities of machine learning models, making them leak the information with which they have been trained. In this work, we present the 3DGL framework, an alternative to the current federated learning paradigms. Its goal is to share generative models with high levels of $\varepsilon$-differ ential privacy. In addition, we propose DDP-$\beta$VAE, a deep generative model capable of generating synthetic data with high levels of utility and safety for the individual. We evaluate the 3DGL framework based on DDP-$\beta$VAE, showing how the overall system is resilient to the principal attacks in federated learning and improves the performance of distributed learning algorithms.
翻訳日:2021-09-27 17:31:30 公開日:2021-09-24
# (参考訳) ディバイドミクスとモデルアンサンブルで学習した低レベルECG分類器モデル [全文訳有]

Reduced-Lead ECG Classifier Model Trained with DivideMix and Model Ensemble ( http://arxiv.org/abs/2109.12063v1 )

ライセンス: CC BY 4.0
Hiroshi Seki, Takashi Nakano, Koshiro Ikeda, Shinji Hirooka, Takaaki Kawasaki, Mitsutomo Yamada, Shumpei Saito, Toshitaka Yamakawa, Shimpei Ogawa(参考訳) 心電図(ECG)データによる多発性心疾患の自動診断は困難である。 この理由の1つは、標準の12リードデータからラベルを定義するのが難しいことである。 狭心症心電図データは通常、ノイズラベル問題のため、心臓異常の同一の特徴を持っていない。 したがって、縮小リードデータと12リードecgデータとの間には、注釈付きラベルに矛盾がある。 そこで本研究では,dnn(deep neural network)ベースのecg分類モデルを提案し,swa(sdmix and stochastic weight averaging)を用いた。 dividemixは2つの異なるモデルを用いてノイズラベルを洗練するために使用された。 DivideMix以外にも、ノイズラベル問題にも焦点をあてたモデルアンサンブル手法であるSWAを用いて、DivideMixが生成したモデルの効果を高めた。 課題評価基準付き隠れテストセットの0.49,0.47,0.48,0.47, 0.47(それぞれ39チーム中9位,10位,10位,11位,10位)を12リー,6リー,4リー,3リード,2リードの2リードで評価した。 10倍のクロス検証では0.701,0.686,0.693,0. 693,0.685,リード組み合わせでは0.623,0.593,0.606,0. 612,0.601を得た。

Automatic diagnosis of multiple cardiac abnormalities from reduced-lead electrocardiogram (ECG) data is challenging. One of the reasons for this is the difficulty of defining labels from standard 12-lead data. Reduced-lead ECG data usually do not have identical characteristics of cardiac abnormalities because of the noisy label problem. Thus, there is an inconsistency in the annotated labels between the reduced-lead and 12-lead ECG data. To solve this, we propose deep neural network (DNN)-based ECG classifier models that incorporate DivideMix and stochastic weight averaging (SWA). DivideMix was used to refine the noisy label by using two separate models. Besides DivideMix, we used a model ensemble technique, SWA, which also focuses on the noisy label problem, to enhance the effect of the models generated by DivideMix. Our classifiers (ami_kagoshima) received scores of 0.49, 0.47, 0.48, 0.47, and 0.47 (ranked 9th, 10th, 10th, 11th, and 10th, respectively, out of 39 teams) for the 12-lead, 6-lead, 4-lead, 3-lead, and 2-lead versions, respectively, of the hidden test set with the challenge evaluation metric. We obtained the scores of 0.701, 0.686, 0.693, 0.693, and 0.685 on the 10-fold cross validation, and 0.623, 0.593, 0.606, 0.612, and 0.601 on the hidden validation set for each lead combination.
翻訳日:2021-09-27 17:12:40 公開日:2021-09-24
# (参考訳) 配電系統におけるvolt-var制御のためのグラフポリシーネットワークアプローチ [全文訳有]

A Graph Policy Network Approach for Volt-Var Control in Power Distribution Systems ( http://arxiv.org/abs/2109.12073v1 )

ライセンス: CC BY 4.0
Xian Yeow Lee, Soumik Sarkar, Yubo Wang(参考訳) ボルトバー制御(VVC)は、電力系統のアクチュエータを制御することで、健全な状態下での電力分配システムの運用の問題である。 既存の研究では主に、パワーシステム(木トポロジーを持つグラフ)を深く強化学習(rl)ポリシーを訓練するベクトルとして表現する従来のルーチンが採用されている。 本稿では,RLとグラフニューラルネットワークを組み合わせたフレームワークを提案し,VVC設定におけるグラフベースのポリシのメリットと限界について検討する。 その結果、グラフベースのポリシーは漸近的に同じ報酬に収束するが、ベクトル表現よりも遅い速度で収束することが示された。 我々は、観測と行動の両方が与える影響についてさらなる分析を行い、観測の最後には、センサ通信障害と測定ミスアライメントの2つの典型的なデータ取得エラーに対するグラフベースのポリシーの堅牢性について検討する。 動作終端では、アクチュエータがシステムに様々な影響を与えることを示すので、電力系トポロジによって誘導されるグラフ表現を使用することが最適な選択ではないかもしれない。 最後に、読み出し関数アーキテクチャとグラフ拡張の選択が、トレーニング性能と堅牢性をさらに向上させることを示すためのケーススタディを行う。

Volt-var control (VVC) is the problem of operating power distribution systems within healthy regimes by controlling actuators in power systems. Existing works have mostly adopted the conventional routine of representing the power systems (a graph with tree topology) as vectors to train deep reinforcement learning (RL) policies. We propose a framework that combines RL with graph neural networks and study the benefits and limitations of graph-based policy in the VVC setting. Our results show that graph-based policies converge to the same rewards asymptotically however at a slower rate when compared to vector representation counterpart. We conduct further analysis on the impact of both observations and actions: on the observation end, we examine the robustness of graph-based policy on two typical data acquisition errors in power systems, namely sensor communication failure and measurement misalignment. On the action end, we show that actuators have various impacts on the system, thus using a graph representation induced by power systems topology may not be the optimal choice. In the end, we conduct a case study to demonstrate that the choice of readout function architecture and graph augmentation can further improve training performance and robustness.
翻訳日:2021-09-27 17:04:42 公開日:2021-09-24
# (参考訳) 汎用マシンインテリジェンスの計測に向けて [全文訳有]

Towards A Measure Of General Machine Intelligence ( http://arxiv.org/abs/2109.12075v1 )

ライセンス: CC BY 4.0
Gautham Venkatasubramanian, Sibesh Kar, Abhimanyu Singh, Shubham Mishra, Dushyant Yadav, Shreyansh Chandak(参考訳) 未知のドメインにまたがる未知の変数を処理できる汎用的な人工知能システムを構築するには、これらのシステムがこれまで見たことのないタスクでどれだけうまく機能するかを正確に測定するベンチマークが必要です。 これの前提条件は、タスクの一般化の難しさ、あるいはそれがシステムの以前の知識や経験といかに異なるかを示す尺度である。 特定の領域におけるインテリジェンスシステムのスキルが、その領域のタスクを解決するための一連の命令(またはプログラム)を一貫して生成する能力として定義されている場合、現在のベンチマークは、新しいスキルの獲得の効率を定量的に測定せず、無制限のデータと計算パワーでトレーニングすることで、力強いスキル獲得を可能にする。 このことを念頭において,我々はまず,多種多様な実世界ドメインと計算プラットフォームにわたる有向非巡回グラフの形でプログラムを表現することを可能にする,共通の命令言語,すなわちプログラミング言語を提案する。 本言語で生成したプログラムを用いて,任意のタスク群の性能評価と一般化の難しさの計算を行うためのマッチベース手法を示す。 我々はこれらを用いてg-indexと呼ばれる数値ベンチマークを定義し、実世界のタスク群における任意のインテリジェンスシステムのスキル獲得効率を測定し比較する。 最後に,g-indexスコアを計算し,汎用知能システムとしてよく知られたモデルの適合性を評価する。

To build increasingly general-purpose artificial intelligence systems that can deal with unknown variables across unknown domains, we need benchmarks that measure precisely how well these systems perform on tasks they have never seen before. A prerequisite for this is a measure of a task's generalization difficulty, or how dissimilar it is from the system's prior knowledge and experience. If the skill of an intelligence system in a particular domain is defined as it's ability to consistently generate a set of instructions (or programs) to solve tasks in that domain, current benchmarks do not quantitatively measure the efficiency of acquiring new skills, making it possible to brute-force skill acquisition by training with unlimited amounts of data and compute power. With this in mind, we first propose a common language of instruction, i.e. a programming language that allows the expression of programs in the form of directed acyclic graphs across a wide variety of real-world domains and computing platforms. Using programs generated in this language, we demonstrate a match-based method to both score performance and calculate the generalization difficulty of any given set of tasks. We use these to define a numeric benchmark called the g-index to measure and compare the skill-acquisition efficiency of any intelligence system on a set of real-world tasks. Finally, we evaluate the suitability of some well-known models as general intelligence systems by calculating their g-index scores.
翻訳日:2021-09-27 16:48:07 公開日:2021-09-24
# (参考訳) ミラーランゲヴィンアルゴリズムは消滅するバイアスに収束する [全文訳有]

The Mirror Langevin Algorithm Converges with Vanishing Bias ( http://arxiv.org/abs/2109.12077v1 )

ライセンス: CC BY 4.0
Ruilin Li and Molei Tao and Santosh S. Vempala and Andre Wibisono(参考訳) ユークリッド計量からヘッセン計量への問題の幾何学的修正技術は、最適化に非常に効果的であることが証明され、サンプリングの研究の対象となっている。 ミラーランゲヴィン拡散(英: Mirror Langevin Diffusion, MLD)は、連続時間におけるミラーフローのサンプリングアナログであり、Chewi et al. (2020) で示されるように、対数ソボレフあるいはポアンケアの不等式の下で優れた収束性を持つ。 離散時間において、mldの単純な離散化は、zhangらによって研究されたmirror langevin algorithm(mla)である(2020年)。 これにより、より良い分析が必要か、または、消滅するバイアスを達成するためにより良い判断が必要かという疑問が持ち上がった。 ここでは,基本ミラーランジュバンアルゴリズムについて検討し,バイアスが消失することを示す。 li et al. (2019) と li et al. (2021) に基づく平均二乗解析を適用し、zhang et al. (2020) によって導入された修正された自己一致条件下で mla の混合時間を示す。

The technique of modifying the geometry of a problem from Euclidean to Hessian metric has proved to be quite effective in optimization, and has been the subject of study for sampling. The Mirror Langevin Diffusion (MLD) is a sampling analogue of mirror flow in continuous time, and it has nice convergence properties under log-Sobolev or Poincare inequalities relative to the Hessian metric, as shown by Chewi et al. (2020). In discrete time, a simple discretization of MLD is the Mirror Langevin Algorithm (MLA) studied by Zhang et al. (2020), who showed a biased convergence bound with a non-vanishing bias term (does not go to zero as step size goes to zero). This raised the question of whether we need a better analysis or a better discretization to achieve a vanishing bias. Here we study the basic Mirror Langevin Algorithm and show it indeed has a vanishing bias. We apply mean-square analysis based on Li et al. (2019) and Li et al. (2021) to show the mixing time bound for MLA under the modified self-concordance condition introduced by Zhang et al. (2020).
翻訳日:2021-09-27 16:20:29 公開日:2021-09-24
# (参考訳) 深層社会力 [全文訳有]

Deep Social Force ( http://arxiv.org/abs/2109.12081v1 )

ライセンス: CC BY 4.0
Sven Kreiss(参考訳) 1995年にhelbingとmolnarによって導入された社会力モデルは歩行者シミュレーションの基礎である。 本稿では、相互作用電位の形状に関する仮定をニューラルネットワークの形で普遍関数近似器を用いて緩和する社会力モデルの微分可能なシミュレーションを提案する。 古典的な力に基づく歩行者シミュレーションは、正面衝突経路で不自然なロック行動に苦しむ。 また、歩行者の偏りをモデル化することはできず、地理的な地域によって左右の互いを避けることができる。 より一般的な相互作用ポテンシャルを用いた私の実験は、前面に鋭い先端を持つポテンシャルがロックを避けることを示している。 さらに、非対称な相互作用電位は、歩行者が互いに避け合うとき、左右のバイアスにつながる。

The Social Force model introduced by Helbing and Molnar in 1995 is a cornerstone of pedestrian simulation. This paper introduces a differentiable simulation of the Social Force model where the assumptions on the shapes of interaction potentials are relaxed with the use of universal function approximators in the form of neural networks. Classical force-based pedestrian simulations suffer from unnatural locking behavior on head-on collision paths. In addition, they cannot model the bias of pedestrians to avoid each other on the right or left depending on the geographic region. My experiments with more general interaction potentials show that potentials with a sharp tip in the front avoid locking. In addition, asymmetric interaction potentials lead to a left or right bias when pedestrians avoid each other.
翻訳日:2021-09-27 15:39:04 公開日:2021-09-24
# (参考訳) MLIMC: 機械学習に基づく暗黙解モンテカルロ [全文訳有]

MLIMC: Machine learning-based implicit-solvent Monte Carlo ( http://arxiv.org/abs/2109.12100v1 )

ライセンス: CC BY 4.0
Jiahui Chen, Weihua Geng, Guo-Wei Wei(参考訳) モンテカルロ法(MC)は分子構造最適化と予測のための重要な計算ツールである。 溶媒効果を明示的に考慮すると、水分子や移動イオンと関連する自由度が高いため、MC法は非常に高価になる。 あるいは、暗黙の溶媒MCは、溶媒効果に平均場近似を適用することで計算コストを大幅に削減し、一方、標的分子の原子詳細を維持できる。 最も一般的な暗黙的解法モデルはポアソン・ボルツマン(PB)モデルと一般化ボルン(GB)モデルであり、GBモデルはPBモデルの近似であるがシミュレーション時間でははるかに高速である。 本研究では,暗黙溶剤モデルの利点を精度と効率で組み合わせることにより,機械学習に基づく暗黙溶剤モンテカルロ法(mlimc)を開発した。 特に、MLIMC法では、PBML(PB-based machine learning)方式を用いて、各ステップで静電溶解自由エネルギーを計算する。 ベンゼン-水系とタンパク質-水系を用いてMLIMC法を検証する。 提案手法は分子構造最適化と予測の高速化と精度に優れた利点があることを示す。

Monte Carlo (MC) methods are important computational tools for molecular structure optimizations and predictions. When solvent effects are explicitly considered, MC methods become very expensive due to the large degree of freedom associated with the water molecules and mobile ions. Alternatively implicit-solvent MC can largely reduce the computational cost by applying a mean field approximation to solvent effects and meanwhile maintains the atomic detail of the target molecule. The two most popular implicit-solvent models are the Poisson-Boltzmann (PB) model and the Generalized Born (GB) model in a way such that the GB model is an approximation to the PB model but is much faster in simulation time. In this work, we develop a machine learning-based implicit-solvent Monte Carlo (MLIMC) method by combining the advantages of both implicit solvent models in accuracy and efficiency. Specifically, the MLIMC method uses a fast and accurate PB-based machine learning (PBML) scheme to compute the electrostatic solvation free energy at each step. We validate our MLIMC method by using a benzene-water system and a protein-water system. We show that the proposed MLIMC method has great advantages in speed and accuracy for molecular structure optimization and prediction.
翻訳日:2021-09-27 15:29:54 公開日:2021-09-24
# (参考訳) ImplicitVol:深部インプシット表現を用いたセンサレス3次元超音波再構成 [全文訳有]

ImplicitVol: Sensorless 3D Ultrasound Reconstruction with Deep Implicit Representation ( http://arxiv.org/abs/2109.12108v1 )

ライセンス: CC BY 4.0
Pak-Hei Yeung, Linde Hesse, Moska Aliasi, Monique Haak, the INTERGROWTH-21st Consortium, Weidi Xie, Ana I.L. Namburete(参考訳) 本研究の目的は,奥深い暗示表現を持つ2次元自由手超音波画像から3次元ボリュームのセンサレス再構成を実現することである。 3dボリュームを離散ボクセルグリッドとして表す従来の方法とは対照的に、これを連続関数のゼロレベル集合、すなわち空間座標から対応する強度値へのマッピングとして暗黙的に3dボリュームを表すことによって、パラメータ化します。 提案手法は,2dスキャンと推定位置を入力として2dスキャンし,相互に再認識する手法である。 推定3D位置をフィッティングし、3Dボリュームの完全な再構築を学習する。 実際の2D超音波画像をテストする場合,ImplicitVolから採取した新しい断面ビューは,既存の再構成手法より視覚的品質が有意に向上し,出力と3Dボリュームテストデータとの接点間において30%以上(NCCおよびSSIM)の画質が向上した。 コードは公開される予定だ。

The objective of this work is to achieve sensorless reconstruction of a 3D volume from a set of 2D freehand ultrasound images with deep implicit representation. In contrast to the conventional way that represents a 3D volume as a discrete voxel grid, we do so by parameterizing it as the zero level-set of a continuous function, i.e. implicitly representing the 3D volume as a mapping from the spatial coordinates to the corresponding intensity values. Our proposed model, termed as ImplicitVol, takes a set of 2D scans and their estimated locations in 3D as input, jointly re?fing the estimated 3D locations and learning a full reconstruction of the 3D volume. When testing on real 2D ultrasound images, novel cross-sectional views that are sampled from ImplicitVol show significantly better visual quality than those sampled from existing reconstruction approaches, outperforming them by over 30% (NCC and SSIM), between the output and ground-truth on the 3D volume testing data. The code will be made publicly available.
翻訳日:2021-09-27 15:13:25 公開日:2021-09-24
# (参考訳) ブートストラップのためのプログレッシブ・アドバーサリー学習--エンティティ集合展開を事例として [全文訳有]

Progressive Adversarial Learning for Bootstrapping: A Case Study on Entity Set Expansion ( http://arxiv.org/abs/2109.12082v1 )

ライセンス: CC BY 4.0
Lingyong Yan, Xianpei Han, Le Sun(参考訳) ブートストラッピングはエンティティセット拡張の主流の方法となっている。 従来のブートストラップ法は, 種別距離測定値を用いた拡張境界の定義がほとんどであり, 選択した種子の品質に大きく依存しており, 極めて疎らな管理のために調整が困難である。 本稿では,ganフレームワークにおけるブートストラッププロセスと境界学習プロセスを共同でモデル化する,ブートストラップのための新しい学習手法であるbootstrapganを提案する。 具体的には、異なるブートストラップ反復の展開境界は、異なる識別器ネットワークを介して学習され、ブートストラップネットワークは、新しい正のエンティティを生成するジェネレータであり、識別器ネットワークは、生成されたエンティティを既知の正のエンティティと区別しようとすることで、拡張境界を識別する。 上記対向学習を反復的に行うことにより、ジェネレータと判別器は互いに強化され、ブートストラッププロセス全体に沿って徐々に洗練される。 実験の結果,BootstrapGANは新たな最先端エンティティセット拡張性能を実現することがわかった。

Bootstrapping has become the mainstream method for entity set expansion. Conventional bootstrapping methods mostly define the expansion boundary using seed-based distance metrics, which heavily depend on the quality of selected seeds and are hard to be adjusted due to the extremely sparse supervision. In this paper, we propose BootstrapGAN, a new learning method for bootstrapping which jointly models the bootstrapping process and the boundary learning process in a GAN framework. Specifically, the expansion boundaries of different bootstrapping iterations are learned via different discriminator networks; the bootstrapping network is the generator to generate new positive entities, and the discriminator networks identify the expansion boundaries by trying to distinguish the generated entities from known positive entities. By iteratively performing the above adversarial learning, the generator and the discriminators can reinforce each other and be progressively refined along the whole bootstrapping process. Experiments show that BootstrapGAN achieves the new state-of-the-art entity set expansion performance.
翻訳日:2021-09-27 14:57:49 公開日:2021-09-24
# GERNERMED - ドイツのオープン医療ナーモデル。

GERNERMED -- An Open German Medical NER Model ( http://arxiv.org/abs/2109.12104v1 )

ライセンス: Link先を確認
Johann Frei and Frank Kramer(参考訳) 構造化された電子カルテの採用状況や、構造化されたフォーマットで医療データを保存するためのデジタル手法の統合は、従来の非構造化されたテキストベースの患者データドキュメントの使用よりも劣ると考えられることが多い。 医療データ分析の分野でのデータマイニングは、関連するデータを取得するために、構造化されていないデータの処理にのみ依存する必要があることが多い。 自然言語処理(NLP)では、音声タグ付け、関係抽出(RE)、名前付きエンティティ認識(NER)といった様々なタスクで統計モデルが成功している。 本稿では,ドイツのテキストデータから医学的エンティティタイプを検出するためのnerタスクのための,最初のニューラルネットワークnlpモデルであるgernermedを提案する。 本稿では,神経機械翻訳モデルによって外国語の公開データセットから翻訳されたカスタムデータセット上でモデルをトレーニングすることにより,センシティブな患者データのトレーニングデータ抽出と統計モデルの重み付けから保護するという矛盾する目標を回避する。 サンプルコードと統計モデルは、https://github.com/f rankkramer-lab/GERNE RMED

The current state of adoption of well-structured electronic health records and integration of digital methods for storing medical patient data in structured formats can often considered as inferior compared to the use of traditional, unstructured text based patient data documentation. Data mining in the field of medical data analysis often needs to rely solely on processing of unstructured data to retrieve relevant data. In natural language processing (NLP), statistical models have been shown successful in various tasks like part-of-speech tagging, relation extraction (RE) and named entity recognition (NER). In this work, we present GERNERMED, the first open, neural NLP model for NER tasks dedicated to detect medical entity types in German text data. Here, we avoid the conflicting goals of protection of sensitive patient data from training data extraction and the publication of the statistical model weights by training our model on a custom dataset that was translated from publicly available datasets in foreign language by a pretrained neural machine translation model. The sample code and the statistical model is available at: https://github.com/f rankkramer-lab/GERNE RMED
翻訳日:2021-09-27 14:29:21 公開日:2021-09-24
# cliport: ロボット操作のための経路と方法

CLIPort: What and Where Pathways for Robotic Manipulation ( http://arxiv.org/abs/2109.12098v1 )

ライセンス: Link先を確認
Mohit Shridhar, Lucas Manuelli, Dieter Fox(参考訳) オブジェクトを正確に操作できるだけでなく、抽象的な概念でそれらを推論できるロボットをどうやって実装できるのか? 近年の操作研究により、エンドツーエンドのネットワークは正確な空間的推論を必要とする巧妙なスキルを習得できることが示されているが、これらの手法は、しばしば新しい目標への一般化やタスク間の転送可能な概念の迅速な学習に失敗している。 並行して、大規模なインターネットデータをトレーニングすることで、視覚と言語に対する一般化可能な意味表現を学習する大きな進歩があったが、これらの表現はきめ細かい操作に必要な空間的理解を欠いている。 この目的のために,視覚操作のための意味的および空間的経路を持つ2ストリームアーキテクチャという,両世界のベストを組み合わせるフレームワークを提案する。 具体的には,CLIP[1]の広い意味理解(何)とTransporter [2]の空間的精度(場所)を組み合わせた言語条件の模倣学習エージェントであるCLIPortを提案する。 私たちのエンドツーエンドフレームワークは、オブジェクトのポーズ、インスタンスのセグメンテーション、メモリ、シンボル状態、構文構造の明示的な表現なしに、目に見えないオブジェクトから折りたたみ布まで、さまざまな言語仕様のテーブルトップタスクを解決できます。 シミュレーションと実世界の環境での実験により,我々のアプローチはデータ効率が低く,視認できない意味概念に効果的に一般化できることが示された。 10のシミュレーションと9の現実世界のタスクに対して、ひとつのマルチタスクポリシーを学習します。

How can we imbue robots with the ability to manipulate objects precisely but also to reason about them in terms of abstract concepts? Recent works in manipulation have shown that end-to-end networks can learn dexterous skills that require precise spatial reasoning, but these methods often fail to generalize to new goals or quickly learn transferable concepts across tasks. In parallel, there has been great progress in learning generalizable semantic representations for vision and language by training on large-scale internet data, however these representations lack the spatial understanding necessary for fine-grained manipulation. To this end, we propose a framework that combines the best of both worlds: a two-stream architecture with semantic and spatial pathways for vision-based manipulation. Specifically, we present CLIPort, a language-conditioned imitation-learning agent that combines the broad semantic understanding (what) of CLIP [1] with the spatial precision (where) of Transporter [2]. Our end-to-end framework is capable of solving a variety of language-specified tabletop tasks from packing unseen objects to folding cloths, all without any explicit representations of object poses, instance segmentations, memory, symbolic states, or syntactic structures. Experiments in simulated and real-world settings show that our approach is data efficient in few-shot settings and generalizes effectively to seen and unseen semantic concepts. We even learn one multi-task policy for 10 simulated and 9 real-world tasks that is better or comparable to single-task policies.
翻訳日:2021-09-27 14:29:00 公開日:2021-09-24
# 連続制御における推定バイアスのパラメータフリー決定論的低減

Parameter-Free Deterministic Reduction of the Estimation Bias in Continuous Control ( http://arxiv.org/abs/2109.11788v1 )

ライセンス: Link先を確認
Baturay Saglam, Enes Duran, Dogan C. Cicek, Furkan B. Mutlu, Suleyman S. Kozat(参考訳) 価値に基づく深層強化学習システムにおける値関数の近似は過大評価バイアスを誘発し、亜最適政策をもたらす。 エージェントが受信した補強信号のばらつきが大きい場合,過大評価バイアスを克服する深い俳優-批判的アプローチが,実質的な過大評価バイアスにつながることを示す。 パラメータフリーで新しい深層q学習型を導入し,この過大評価バイアスを低減し,連続制御を行う。 近似的批判関数の線形結合としての批判対象の計算における固定重みを求めることにより、Q値更新ルールはClipped Double Q-learningとMaxmin Q-learningの概念を統合する。 我々は, MuJoCo と Box2D の連続制御タスクのセットにおける改良点の性能を検証し,それが最先端のアルゴリズムを改善し,ほとんどの環境におけるベースラインアルゴリズムより優れていることを確認する。

Approximation of the value functions in value-based deep reinforcement learning systems induces overestimation bias, resulting in suboptimal policies. We show that when the reinforcement signals received by the agents have a high variance, deep actor-critic approaches that overcome the overestimation bias lead to a substantial underestimation bias. We introduce a parameter-free, novel deep Q-learning variant to reduce this underestimation bias for continuous control. By obtaining fixed weights in computing the critic objective as a linear combination of the approximate critic functions, our Q-value update rule integrates the concepts of Clipped Double Q-learning and Maxmin Q-learning. We test the performance of our improvement on a set of MuJoCo and Box2D continuous control tasks and find that it improves the state-of-the-art and outperforms the baseline algorithms in the majority of the environments.
翻訳日:2021-09-27 14:28:17 公開日:2021-09-24
# アルゴリズム安定性によるベイズ強化学習における正規化保証

Regularization Guarantees Generalization in Bayesian Reinforcement Learning through Algorithmic Stability ( http://arxiv.org/abs/2109.11792v1 )

ライセンス: Link先を確認
Aviv Tamar, Daniel Soudry, Ev Zisselman(参考訳) ベイズ強化学習(RL)では、未知の問題パラメーター(報酬と遷移)に関する事前分布が仮定され、(後)期待されるリターンを最適化するポリシーが求められている。 メタRLとして最近一般化された一般的な近似は、エージェントを以前の$N$問題インスタンスのサンプルでトレーニングすることであり、十分に大きな$N$の場合、未確認のテストインスタンスに対する良い一般化動作が得られることを期待している。 本研究では,アルゴリズム安定性の手法を用いて,ベイズRLの近似近似(PAC)フレームワークによる一般化について検討する。 我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。 ほとんどの安定性は、正則化損失の強い凸性の上に構築され、マルコフ決定過程(MDP)が凸でないため、RLには適さないアプローチである。 その代わり、正則化MDPにおける鏡面降下の高速収束率の最近の結果に基づいて、正則化MDPが一定の二次成長基準を満たすことを示し、安定性を確立するのに十分である。 この結果は独立興味を持つかもしれないので、ベイズ rl の設定における一般化に対する正規化の効果を研究できる。

In the Bayesian reinforcement learning (RL) setting, a prior distribution over the unknown problem parameters -- the rewards and transitions -- is assumed, and a policy that optimizes the (posterior) expected return is sought. A common approximation, which has been recently popularized as meta-RL, is to train the agent on a sample of $N$ problem instances from the prior, with the hope that for large enough $N$, good generalization behavior to an unseen test instance will be obtained. In this work, we study generalization in Bayesian RL under the probably approximately correct (PAC) framework, using the method of algorithmic stability. Our main contribution is showing that by adding regularization, the optimal policy becomes stable in an appropriate sense. Most stability results in the literature build on strong convexity of the regularized loss -- an approach that is not suitable for RL as Markov decision processes (MDPs) are not convex. Instead, building on recent results of fast convergence rates for mirror descent in regularized MDPs, we show that regularized MDPs satisfy a certain quadratic growth criterion, which is sufficient to establish stability. This result, which may be of independent interest, allows us to study the effect of regularization on generalization in the Bayesian RL setting.
翻訳日:2021-09-27 14:28:00 公開日:2021-09-24
# 音源分離のための視覚シーングラフ

Visual Scene Graphs for Audio Source Separation ( http://arxiv.org/abs/2109.11955v1 )

ライセンス: Link先を確認
Moitreya Chatterjee and Jonathan Le Roux and Narendra Ahuja and Anoop Cherian(参考訳) 視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。 これらのアプローチは、しばしばこれらの音源の視覚的な文脈を無視したり、特に同じオブジェクトクラスが異なる相互作用から様々な音を生成する場合、音源をよりよく特徴付けるのに役立つオブジェクトインタラクションのモデリングを避ける。 この課題に対処するために,映像の視覚構造をグラフとして埋め込んだ新しいディープラーニングモデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。 AVSGSのコアとなるのは再帰的ニューラルネットワークで、マルチヘッドアテンションを使用して視覚グラフの相互直交部分グラフ埋め込みを出力する。 これらの埋め込みは、ソース分離に向けたオーディオエンコーダデコーダの条件付けに使用される。 我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。 本稿では,複数の音源を含む音源分離のための"in the wild"ビデオデータセットについても紹介し,これをASIW(Audio separation in the Wild)と呼ぶ。 このデータセットはaudiocapsデータセットから適合しており、ソース分離のための挑戦的で自然で日常的な設定を提供する。 提案するasiwと標準音楽データセットに関する徹底的な実験により,最近の先行手法に対する音の分離性能が実証された。

State-of-the-art approaches for visually-guided audio source separation typically assume sources that have characteristic sounds, such as musical instruments. These approaches often ignore the visual context of these sound sources or avoid modeling object interactions that may be useful to better characterize the sources, especially when the same object class may produce varied sounds from distinct interactions. To address this challenging problem, we propose Audio Visual Scene Graph Segmenter (AVSGS), a novel deep learning model that embeds the visual structure of the scene as a graph and segments this graph into subgraphs, each subgraph being associated with a unique sound obtained by co-segmenting the audio spectrogram. At its core, AVSGS uses a recursive neural network that emits mutually-orthogonal sub-graph embeddings of the visual graph using multi-head attention. These embeddings are used for conditioning an audio encoder-decoder towards source separation. Our pipeline is trained end-to-end via a self-supervised task consisting of separating audio sources using the visual graph from artificially mixed sounds. In this paper, we also introduce an "in the wild'' video dataset for sound source separation that contains multiple non-musical sources, which we call Audio Separation in the Wild (ASIW). This dataset is adapted from the AudioCaps dataset, and provides a challenging, natural, and daily-life setting for source separation. Thorough experiments on the proposed ASIW and the standard MUSIC datasets demonstrate state-of-the-art sound separation performance of our method against recent prior approaches.
翻訳日:2021-09-27 14:27:17 公開日:2021-09-24
# 単語の埋め込みを欠くのか? それを伝統的な辞書にまとめる

Lacking the embedding of a word? Look it up into a traditional dictionary ( http://arxiv.org/abs/2109.11763v1 )

ライセンス: Link先を確認
Elena Sofia Ruzzetti, Leonardo Ranaldi, Michele Mastromattei, Francesca Fallucchi, Fabio Massimo Zanzotto(参考訳) 単語埋め込みは強力な辞書であり、言語のバリエーションを簡単に捉えることができる。 しかし、これらの辞書は稀な単語に意味を持たず、驚くほど伝統的な辞書でカバーされることが多い。 本稿では,従来の辞書で検索された定義を用いて,稀な単語に対する単語埋め込みを提案する。 この目的のために,定義ニューラルネットワーク (definnet) と bert (defbert) という2つの手法を導入する。 我々の実験では、DefiNNetとDefBERTは、未知語の埋め込みを生成するために考案されたベースラインメソッドだけでなく、最先端技術よりも大幅に優れています。 事実、DefiNNetはn-gramsで同じタスクベースのメソッドを実装したFastTextを著しく上回り、DefBERTはOOVワードのBERTメソッドを著しく上回ります。 そして、伝統的な辞書の定義は、稀な単語に対する単語埋め込みを構築するのに有用である。

Word embeddings are powerful dictionaries, which may easily capture language variations. However, these dictionaries fail to give sense to rare words, which are surprisingly often covered by traditional dictionaries. In this paper, we propose to use definitions retrieved in traditional dictionaries to produce word embeddings for rare words. For this purpose, we introduce two methods: Definition Neural Network (DefiNNet) and Define BERT (DefBERT). In our experiments, DefiNNet and DefBERT significantly outperform state-of-the-art as well as baseline methods devised for producing embeddings of unknown words. In fact, DefiNNet significantly outperforms FastText, which implements a method for the same task-based on n-grams, and DefBERT significantly outperforms the BERT method for OOV words. Then, definitions in traditional dictionaries are useful to build word embeddings for rare words.
翻訳日:2021-09-27 14:26:52 公開日:2021-09-24
# SAIS:文書レベル関係抽出のための中間ステップの監督と強化

SAIS: Supervising and Augmenting Intermediate Steps for Document-Level Relation Extraction ( http://arxiv.org/abs/2109.12093v1 )

ライセンス: Link先を確認
Yuxin Xiao, Zecheng Zhang, Yuning Mao, Carl Yang, Jiawei Han(参考訳) 文レベルから文書レベルの関係抽出へのステップとして、研究コミュニティはテキストの長さの増加とより複雑なエンティティインタラクションに直面します。 したがって、関連するコンテキストとエンティティタイプの主要なソースをエンコードすることはより困難である。 しかし、既存の手法は、関係抽出のために訓練されている間、これらの重要な情報ソースを暗黙的にモデル化することしか学ばない。 その結果、非効率な監視と解釈不能なモデル予測の問題に悩まされる。 対照的に、関係抽出のための中間ステップ(sais)を監督・強化することにより、関係コンテキストとエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。 提案手法は, より効果的な管理により, 優れた品質の関係を抽出するだけでなく, 解釈可能性を高めるために, より正確な支援証拠を回収する。 モデルの不確実性を評価することにより、SAISはさらに、エビデンスベースのデータ拡張とアンサンブル推論により、計算コストを削減しながらパフォーマンスを向上する。 最終的に、SAISは3つのベンチマーク(DocRED、CDR、GDA)で最先端の関係抽出結果を提供し、DocREDのエビデンス検索において、F1スコアの5.04%の相対的なゲインを達成した。

Stepping from sentence-level to document-level relation extraction, the research community confronts increasing text length and more complicated entity interactions. Consequently, it is more challenging to encode the key sources of information--relevan t contexts and entity types. However, existing methods only implicitly learn to model these critical information sources while being trained for relation extraction. As a result, they suffer the problems of ineffective supervision and uninterpretable model predictions. In contrast, we propose to explicitly teach the model to capture relevant contexts and entity types by supervising and augmenting intermediate steps (SAIS) for relation extraction. Based on a broad spectrum of carefully designed tasks, our proposed SAIS method not only extracts relations of better quality due to more effective supervision, but also retrieves the corresponding supporting evidence more accurately so as to enhance interpretability. By assessing model uncertainty, SAIS further boosts the performance via evidence-based data augmentation and ensemble inference while reducing the computational cost. Eventually, SAIS delivers state-of-the-art relation extraction results on three benchmarks (DocRED, CDR, and GDA) and achieves 5.04% relative gains in F1 score compared to the runner-up in evidence retrieval on DocRED.
翻訳日:2021-09-27 14:26:37 公開日:2021-09-24
# 濃密なコントラスト視覚言語前訓練

Dense Contrastive Visual-Linguistic Pretraining ( http://arxiv.org/abs/2109.11778v1 )

ライセンス: Link先を確認
Lei Shi, Kai Shuang, Shijie Geng, Peng Gao, Zuohui Fu, Gerard de Melo, Yunpeng Chen, Sen Su(参考訳) BERTの成功に触発されて、画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。 これらの手法は,大規模マルチモーダル事前学習から高レベルの意味情報を取得することにより,優れた性能を実現する。 特に、lxmertとuniterは、ビジュアル領域の機能回帰とラベル分類をプリテキストタスクとして採用している。 しかしそれらは、限定的かつ一貫性のない意味的ラベル付けを備えたクラウドソースデータセットで事前トレーニングされたビジュアル機能に基づいて、ノイズの多いラベルやスパースセマンティクスアノテーションの問題に苦しむ傾向がある。 これらの課題を克服するため,我々は,領域回帰と分類をアノテーションを必要としないクロスモダリティ領域コントラスト学習に置き換える,非偏密なコントラスト視覚言語前訓練(dcvlp)を提案する。 2つのデータ強化戦略(マスク摂動と対外摂動)を開発し、対照的な学習に使用される負のサンプルの品質を向上させる。 全体として、DCVLPは、オブジェクトアノテーションとは独立して自己監督された設定において、クロスモーダルな高密度領域の学習を可能にする。 我々は,従来の視覚言語事前学習フレームワークと比較し,マルチモーダル表現学習における高次コントラスト学習の優位性を検証した。

Inspired by the success of BERT, several multimodal representation learning approaches have been proposed that jointly represent image and text. These approaches achieve superior performance by capturing high-level semantic information from large-scale multimodal pretraining. In particular, LXMERT and UNITER adopt visual region feature regression and label classification as pretext tasks. However, they tend to suffer from the problems of noisy labels and sparse semantic annotations, based on the visual features having been pretrained on a crowdsourced dataset with limited and inconsistent semantic labeling. To overcome these issues, we propose unbiased Dense Contrastive Visual-Linguistic Pretraining (DCVLP), which replaces the region regression and classification with cross-modality region contrastive learning that requires no annotations. Two data augmentation strategies (Mask Perturbation and Intra-/Inter-Adversa rial Perturbation) are developed to improve the quality of negative samples used in contrastive learning. Overall, DCVLP allows cross-modality dense region contrastive learning in a self-supervised setting independent of any object annotations. We compare our method against prior visual-linguistic pretraining frameworks to validate the superiority of dense contrastive learning on multimodal representation learning.
翻訳日:2021-09-27 14:26:14 公開日:2021-09-24
# CPT:事前学習型視覚言語モデルのためのカラープロンプトチューニング

CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models ( http://arxiv.org/abs/2109.11797v1 )

ライセンス: Link先を確認
Yuan Yao, Ao Zhang, Zhengyan Zhang, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun(参考訳) VL-PTM(Pre-Trained Vision-Language Models)は、画像データに自然言語を接地する有望な能力を示し、多種多様なクロスモーダルタスクを可能にしている。 しかし、モデル事前学習と微調整の間には大きなギャップがあることに留意し、従って下流タスクにおけるVL-PTMの視覚的接地能力を刺激するためにラベル付きデータの量が必要であることに留意する。 この課題に対処するために、画像とテキストにおける色に基づく共参照マーカーを用いて視覚的接点を埋め込み問題に再構成し、ギャップを最大化する、VL-PTMをチューニングするための新しいパラダイムであるクロスモーダル・プロンプト・チューニング(CPT、Colorful Prompt Tuning)を提案する。 このようにして、我々はVL-PTMの強力な少数ショットとゼロショットの視覚的グラウンド機能を実現する。 総合的な実験結果から、調整されたVL-PTMは細調整されたVL-PTMよりも大きなマージン(例えば、17.3%の絶対精度改善、73.8%の相対標準偏差減少と1ショットのRefCOCO評価)で優れていた。 すべてのデータとコードは、将来の研究を促進するために利用可能になる。

Pre-Trained Vision-Language Models (VL-PTMs) have shown promising capabilities in grounding natural language in image data, facilitating a broad variety of cross-modal tasks. However, we note that there exists a significant gap between the objective forms of model pre-training and fine-tuning, resulting in a need for quantities of labeled data to stimulate the visual grounding capability of VL-PTMs for downstream tasks. To address the challenge, we present Cross-modal Prompt Tuning (CPT, alternatively, Colorful Prompt Tuning), a novel paradigm for tuning VL-PTMs, which reformulates visual grounding into a fill-in-the-blank problem with color-based co-referential markers in image and text, maximally mitigating the gap. In this way, our prompt tuning approach enables strong few-shot and even zero-shot visual grounding capabilities of VL-PTMs. Comprehensive experimental results show that prompt tuned VL-PTMs outperform their fine-tuned counterparts by a large margin (e.g., 17.3% absolute accuracy improvement, and 73.8% relative standard deviation reduction on average with one shot in RefCOCO evaluation). All the data and code will be available to facilitate future research.
翻訳日:2021-09-27 14:25:42 公開日:2021-09-24
# マルチビュー映像ベース3次元ハンドポース推定

Multi-View Video-Based 3D Hand Pose Estimation ( http://arxiv.org/abs/2109.11747v1 )

ライセンス: Link先を確認
Leyla Khaleghi, Alireza Sepas Moghaddam, Joshua Marshall, Ali Etemad(参考訳) ハンドポーズ推定(HPE)は、物理または仮想または拡張現実デバイスのためのジェスチャーベースの制御など、さまざまな人間とコンピュータのインタラクションアプリケーションに使用できる。 近年の研究では、ビデオやマルチビュー画像は手に関する豊富な情報を持ち、より堅牢なHPEシステムの開発を可能にすることが示されている。 本稿では,マルチビュービデオを用いた3dハンド(muvihand)データセットについて紹介する。 私たちのデータセットには、4,560のビデオで利用可能な402,000以上の合成手画像が含まれています。 ビデオは6つの異なる角度から同時に撮影され、複雑な背景とランダムなダイナミック照明のレベルがある。 6台の追跡カメラが手のみに焦点を合わせ、残りの6台の固定カメラが体全体を撮影する半円トポロジーで12台のカメラを使って、10人のアニメーション被験者からデータを収集した。 次に、手指の視覚的埋め込みを得るための画像エンコーダと、時間的および角的なシーケンシャル情報を学ぶための繰り返し学習者と、U-Netアーキテクチャを用いたグラフネットワークからなるニューラルネットワーク、MuViHandNetを実装し、最終的な3Dポーズ情報を推定する。 我々は,この新しいデータセットの難解な性質と提案手法の有効性を示すため,広範な実験を行った。 アブレーション調査では、MuViHandNetの各コンポーネントの付加価値に加えて、データセットに時間的およびシーケンシャルな情報を持つことのメリットが示されている。

Hand pose estimation (HPE) can be used for a variety of human-computer interaction applications such as gesture-based control for physical or virtual/augmented reality devices. Recent works have shown that videos or multi-view images carry rich information regarding the hand, allowing for the development of more robust HPE systems. In this paper, we present the Multi-View Video-Based 3D Hand (MuViHand) dataset, consisting of multi-view videos of the hand along with ground-truth 3D pose labels. Our dataset includes more than 402,000 synthetic hand images available in 4,560 videos. The videos have been simultaneously captured from six different angles with complex backgrounds and random levels of dynamic lighting. The data has been captured from 10 distinct animated subjects using 12 cameras in a semi-circle topology where six tracking cameras only focus on the hand and the other six fixed cameras capture the entire body. Next, we implement MuViHandNet, a neural pipeline consisting of image encoders for obtaining visual embeddings of the hand, recurrent learners to learn both temporal and angular sequential information, and graph networks with U-Net architectures to estimate the final 3D pose information. We perform extensive experiments and show the challenging nature of this new dataset as well as the effectiveness of our proposed method. Ablation studies show the added value of each component in MuViHandNet, as well as the benefit of having temporal and sequential information in the dataset.
翻訳日:2021-09-27 14:24:39 公開日:2021-09-24
# DeepStroke: マルチモーダル逆深層学習による緊急室の効率的なストロークスクリーニングフレームワーク

DeepStroke: An Efficient Stroke Screening Framework for Emergency Rooms with Multimodal Adversarial Deep Learning ( http://arxiv.org/abs/2109.12065v1 )

ライセンス: Link先を確認
Tongan Cai, Haomiao Ni, Mingli Yu, Xiaolei Huang, Kelvin Wong, John Volpi, James Z. Wang, Stephen T.C. Wong(参考訳) 緊急室(ER)では、脳梗塞の診断が一般的な課題である。 過剰な実行時間とコストのため、通常、MRIスキャンはERでは利用できない。 臨床検査は脳卒中スクリーニングでは一般的に言及されるが、神経科医はすぐには利用できない。 急性期脳卒中疑い患者の顔の動きの調整パターンと発話障害を認識し,コンピュータ支援による脳卒中プレゼンス評価を実現するための,新しい多モードディープラーニングフレームワークであるDeepStrokeを提案する。 提案するdeep strokeは,局所顔面麻痺検出のための映像データと,グローバル音声障害解析のための音声データを用いる。 さらに、低レベルと高レベルの特徴を組み合わせるためにマルチモーダル側方融合を活用し、共同訓練に相互正則化を提供する。 また、識別非依存性および脳卒中識別性の特徴を得るために、新たな逆行訓練損失も導入されている。 実際のer患者によるビデオオーディオデータセットを用いた実験では,提案手法が最先端モデルよりも優れ,er医師よりも優れた性能を実現し,感度が6.60%向上し,特異度調整時の精度が4.62%向上した。 一方、各アセスメントは6分以内で完了でき、このフレームワークが臨床実装に持つ大きな可能性を示している。

In an emergency room (ER) setting, the diagnosis of stroke is a common challenge. Due to excessive execution time and cost, an MRI scan is usually not available in the ER. Clinical tests are commonly referred to in stroke screening, but neurologists may not be immediately available. We propose a novel multimodal deep learning framework, DeepStroke, to achieve computer-aided stroke presence assessment by recognizing the patterns of facial motion incoordination and speech inability for patients with suspicion of stroke in an acute setting. Our proposed DeepStroke takes video data for local facial paralysis detection and audio data for global speech disorder analysis. It further leverages a multi-modal lateral fusion to combine the low- and high-level features and provides mutual regularization for joint training. A novel adversarial training loss is also introduced to obtain identity-independent and stroke-discriminativ e features. Experiments on our video-audio dataset with actual ER patients show that the proposed approach outperforms state-of-the-art models and achieves better performance than ER doctors, attaining a 6.60% higher sensitivity and maintaining 4.62% higher accuracy when specificity is aligned. Meanwhile, each assessment can be completed in less than 6 minutes, demonstrating the framework's great potential for clinical implementation.
翻訳日:2021-09-27 14:24:16 公開日:2021-09-24
# エンドツーエンド関係抽出の評価における抽出からの分離保持

Separating Retention from Extraction in the Evaluation of End-to-end Relation Extraction ( http://arxiv.org/abs/2109.12008v1 )

ライセンス: Link先を確認
Bruno Taill\'e, Vincent Guigue, Geoffrey Scoutheeten and Patrick Gallinari(参考訳) 最先端のNLPモデルは、その一般化能力を制限する浅いヒューリスティックを採用することができる(McCoy et al., 2019)。 そのようなヒューリスティックには、名前付きエンティティ認識(Taill\'e et al., 2020)のトレーニングセットと、関係抽出におけるイベントまたはタイプヒューリスティックス(Rosenman et al., 2020)との語彙的重複が含まれる。 より現実的なエンドツーエンドのRE設定では、もう1つのヒューリスティックが期待できます。 本稿では,既知の事実の保持が標準ベンチマークの性能の重要な要因であることを示す実験をいくつか提案する。 さらに、ある実験では、中間型表現が使えるパイプラインモデルは、保持を過度に繰り返す傾向が低いことを示唆している。

State-of-the-art NLP models can adopt shallow heuristics that limit their generalization capability (McCoy et al., 2019). Such heuristics include lexical overlap with the training set in Named-Entity Recognition (Taill\'e et al., 2020) and Event or Type heuristics in Relation Extraction (Rosenman et al., 2020). In the more realistic end-to-end RE setting, we can expect yet another heuristic: the mere retention of training relation triples. In this paper, we propose several experiments confirming that retention of known facts is a key factor of performance on standard benchmarks. Furthermore, one experiment suggests that a pipeline model able to use intermediate type representations is less prone to over-rely on retention.
翻訳日:2021-09-27 14:23:41 公開日:2021-09-24
# セマンティックな類似性のための群衆ソーシングの再考

Rethinking Crowd Sourcing for Semantic Similarity ( http://arxiv.org/abs/2109.11969v1 )

ライセンス: Link先を確認
Shaul Solomon and Adam Cohn and Hernan Rosenblum and Chezi Hershkovitz and Ivan P. Yamshchikov(参考訳) 意味的類似性の推定は、さまざまな自然言語処理(NLP)タスクに不可欠である。 意味情報の一般的な理論が存在しない中で、多くの論文は、意味的類似性推定の根拠として人間の注釈に頼っている。 本稿では,クラウドソーシングによる意味ラベリングに固有のあいまいさについて検討する。 意味的類似性をバイナリカテゴリとして扱うアノテーション(2つの文は似ているか似ていないかのどちらか)がラベル付けにおいて最も重要な役割を担っていることを示している。 この論文は、信頼できないアノテーションをフィルタリングするヒューリスティックスを提供し、意味的類似性に対する人間の認識に関するさらなる議論を刺激する。

Estimation of semantic similarity is crucial for a variety of natural language processing (NLP) tasks. In the absence of a general theory of semantic information, many papers rely on human annotators as the source of ground truth for semantic similarity estimation. This paper investigates the ambiguities inherent in crowd-sourced semantic labeling. It shows that annotators that treat semantic similarity as a binary category (two sentences are either similar or not similar and there is no middle ground) play the most important role in the labeling. The paper offers heuristics to filter out unreliable annotators and stimulates further discussions on human perception of semantic similarity.
翻訳日:2021-09-27 14:23:24 公開日:2021-09-24
# エッジだが最低ではない - クロスビューグラフポーリング

Edge but not Least: Cross-View Graph Pooling ( http://arxiv.org/abs/2109.11796v1 )

ライセンス: Link先を確認
Xiaowei Zhou, Jie Yin, Ivor W. Tsang(参考訳) グラフニューラルネットワークは、グラフレベルの予測タスクを実行するためのグラフ表現学習の強力なモデルとして登場した。 グラフ畳み込みにより得られる集約ノード埋め込みを通じて、入力グラフを簡潔なグラフレベルの表現にまとめるために、様々なグラフプーリング法が開発された。 しかし、ほとんどのグラフプーリング手法はノード中心であり、グローバルグラフ構造に含まれる重要な情報を十分に活用できない。 本稿では,重要なグラフ構造情報を活用するために,クロスビューグラフプーリング(Co-Pooling)手法を提案する。 提案する共プーリングfuseは、ノードビューとエッジビューの両方から学習されるプール表現である。 クロスビュー相互作用、エッジビュープーリング、ノードビュープーリングにより、相互にシームレスに強化され、より情報的なグラフレベルの表現が学習される。 Co-Poolingは、さまざまなタイプのノード属性でさまざまなグラフを扱う利点がある。 15のグラフベンチマークデータセットに関する広範囲な実験により,提案手法の有効性が検証され,グラフ分類とグラフ回帰タスクの両方において,最先端のプーリング法よりも優れた性能が示された。

Graph neural networks have emerged as a powerful model for graph representation learning to undertake graph-level prediction tasks. Various graph pooling methods have been developed to coarsen an input graph into a succinct graph-level representation through aggregating node embeddings obtained via graph convolution. However, most graph pooling methods are heavily node-centric and are unable to fully leverage the crucial information contained in global graph structure. This paper presents a cross-view graph pooling (Co-Pooling) method to better exploit crucial graph structure information. The proposed Co-Pooling fuses pooled representations learnt from both node view and edge view. Through cross-view interaction, edge-view pooling and node-view pooling seamlessly reinforce each other to learn more informative graph-level representations. Co-Pooling has the advantage of handling various graphs with different types of node attributes. Extensive experiments on a total of 15 graph benchmark datasets validate the effectiveness of our proposed method, demonstrating its superior performance over state-of-the-art pooling methods on both graph classification and graph regression tasks.
翻訳日:2021-09-27 14:23:01 公開日:2021-09-24
# トレーニング可能なパラメータの数は本当に重要なのか?

Is the Number of Trainable Parameters All That Actually Matters? ( http://arxiv.org/abs/2109.11928v1 )

ライセンス: Link先を確認
Am\'elie Chatelain and Amine Djeghri and Daniel Hesslow and Julien Launay and Iacopo Poli(参考訳) 最近の研究では、言語モデルの単純な経験的スケーリング法則、計算予算のリンク、データセットのサイズ、モデルサイズ、自動回帰モデリング損失が特定されている。 これらの単純なパワー法則がモデルスケールで桁違いに有効であることは、より大きなモデルがより有能なモデルであることを示す説得力のある証拠となる。 しかし、ハードウェアとインフラストラクチャの制約の下でモデルをスケールアップするのは容易ではない。 我々は、暫定的にスケーリング法則を騙す方法を調査し、より大規模なモデルをより安くトレーニングする。 我々は効率的な近似を用いて効率的なパラメータの増加をエミュレートする: モデルに凍結ランダムパラメータをドーピングするか、あるいは密度線形層の代わりに高速な構造化変換を用いる。 テスト損失と計算量の間のスケーリング関係は、実際のトレーニング可能なパラメータの数のみに依存しており、スケーリング法則をスプリアスパラメータで欺くことはできない。

Recent work has identified simple empirical scaling laws for language models, linking compute budget, dataset size, model size, and autoregressive modeling loss. The validity of these simple power laws across orders of magnitude in model scale provides compelling evidence that larger models are also more capable models. However, scaling up models under the constraints of hardware and infrastructure is no easy feat, and rapidly becomes a hard and expensive engineering problem. We investigate ways to tentatively cheat scaling laws, and train larger models for cheaper. We emulate an increase in effective parameters, using efficient approximations: either by doping the models with frozen random parameters, or by using fast structured transforms in place of dense linear layers. We find that the scaling relationship between test loss and compute depends only on the actual number of trainable parameters; scaling laws cannot be deceived by spurious parameters.
翻訳日:2021-09-27 14:22:44 公開日:2021-09-24
# 脳波表現学習のためのホロスティック半監督的アプローチ

Holistic Semi-Supervised Approaches for EEG Representation Learning ( http://arxiv.org/abs/2109.11732v1 )

ライセンス: Link先を確認
Guangyi Zhang and Ali Etemad(参考訳) 近年,大量のクラスラベルを必要とする教師付き手法が,脳波表現学習において有望な成果を上げている。 しかし、EEGデータのラベル付けは難しい作業である。 最近では、出力ラベルの少ない総合的な半教師付き学習アプローチが、コンピュータビジョンの分野で有望な結果を示している。 しかし、これらの手法はまだ脳波学習に適応していない。 本稿では,MixMatch,FixMatch,A daMatchの3つの最先端の半教師付きアプローチと,脳波学習のための古典的半教師付き手法を適用する。 我々は,脳波に基づく感情認識データセットであるseedとseed-ivについて,全8手法で厳密な実験を行った。 ラベル付きサンプルを多量に限定した実験により, クラス毎にラベル付きサンプルが1つしか使われていない場合でも, 全体論的アプローチが強い結果が得られることを示した。 さらなる実験によると、ほとんどの場合、AdaMatchが最も効果的な方法であり、MixMatchとFixMatchが続く。

Recently, supervised methods, which often require substantial amounts of class labels, have achieved promising results for EEG representation learning. However, labeling EEG data is a challenging task. More recently, holistic semi-supervised learning approaches, which only require few output labels, have shown promising results in the field of computer vision. These methods, however, have not yet been adapted for EEG learning. In this paper, we adapt three state-of-the-art holistic semi-supervised approaches, namely MixMatch, FixMatch, and AdaMatch, as well as five classical semi-supervised methods for EEG learning. We perform rigorous experiments with all 8 methods on two public EEG-based emotion recognition datasets, namely SEED and SEED-IV. The experiments with different amounts of limited labeled samples show that the holistic approaches achieve strong results even when only 1 labeled sample is used per class. Further experiments show that in most cases, AdaMatch is the most effective method, followed by MixMatch and FixMatch.
翻訳日:2021-09-27 14:22:30 公開日:2021-09-24
# 未知データへの知識グラフ埋め込みはどのように外挿されるか

How Does Knowledge Graph Embedding Extrapolate to Unseen Data: a Semantic Evidence View ( http://arxiv.org/abs/2109.11800v1 )

ライセンス: Link先を確認
Ren Li, Yanan Cao, Qiannan Zhu, Guanqun Bi, Fang Fang, Yi Liu, Qian Li(参考訳) 知識グラフ埋め込み(KGE)は、実体と関係の表現を学ぶことを目的としている。 ほとんどのKGEモデルは、特に外挿シナリオにおいて大きな成功を収めている。 具体的には、未確認のトリプル (h, r, t) が与えられた場合、訓練されたモデルでは、(h, r, ?) または (?, r, t) から t を正確に予測することができる。 しかしながら、既存のKGEの作業の多くは、観測された3重項の可視性を測定するための微妙な三重項モデリング関数の設計に重点を置いている。 そこで、本研究では、データ関連の観点から、KGE外挿の2つの問題について検討する。 1. KGEはどのようにして見当たらないデータに当てはまるのか? 2. より良い外挿能力を有するKGEモデルの設計法 課題1では、まず、外挿のインパクト要因と関係性、実体、三重レベルについて論じ、トレーニングセットから観察できる3つのセマンティックエビデンス(SE)を提案し、未知のデータに対する外挿のための重要な意味情報を提供する。 次に、いくつかの典型的なKGE法に関する広範な実験を通してSEsの有効性を検証するとともに、SEsがKGEの外挿能力を理解する上で重要な役割を果たすことを示す。 問題2では,SE情報をより外挿的な知識表現に活用するために,Semantic Evidence aware Graph Neural Network (SE-GNN)と呼ばれる新しいGNNベースのKGEモデルを提案する。 最後に、FB15k-237およびWN18RRデータセットに関する広範な実験を通して、SE-GNNが知識グラフ補完タスクにおける最先端のパフォーマンスを達成し、より良い補間能力を発揮することを示す。

Knowledge Graph Embedding (KGE) aims to learn representations for entities and relations. Most KGE models have gained great success, especially on extrapolation scenarios. Specifically, given an unseen triple (h, r, t), a trained model can still correctly predict t from (h, r, ?), or h from (?, r, t), such extrapolation ability is impressive. However, most existing KGE works focus on the design of delicate triple modeling function, which mainly tell us how to measure the plausibility of observed triples, but we have limited understanding of why the methods can extrapolate to unseen data, and what are the important factors to help KGE extrapolate. Therefore in this work, we attempt to, from a data relevant view, study KGE extrapolation of two problems: 1. How does KGE extrapolate to unseen data? 2. How to design the KGE model with better extrapolation ability? For the problem 1, we first discuss the impact factors for extrapolation and from relation, entity and triple level respectively, propose three Semantic Evidences (SEs), which can be observed from training set and provide important semantic information for extrapolation to unseen data. Then we verify the effectiveness of SEs through extensive experiments on several typical KGE methods, and demonstrate that SEs serve as an important role for understanding the extrapolation ability of KGE. For the problem 2, to make better use of the SE information for more extrapolative knowledge representation, we propose a novel GNN-based KGE model, called Semantic Evidence aware Graph Neural Network (SE-GNN). Finally, through extensive experiments on FB15k-237 and WN18RR datasets, we show that SE-GNN achieves state-of-the-art performance on Knowledge Graph Completion task and perform a better extrapolation ability.
翻訳日:2021-09-27 14:21:52 公開日:2021-09-24
# 不均一なデータに対する次元削減

Dimension Reduction for Data with Heterogeneous Missingness ( http://arxiv.org/abs/2109.11765v1 )

ライセンス: Link先を確認
Yurong Ling, Zijing Liu, Jing-Hao Xue(参考訳) 次元減少は高次元データの解析において重要な役割を果たす。 しかし, 標準次元低減技術を直接適用する上で, 欠点のある観測は極めて困難である。 多数の次元縮小アプローチがグラム行列に基づいているため,まず, 欠如の有無に関わらずグラム行列の統計的性質を調べることにより, 欠如が次元減少に及ぼす影響について検討し, 不均一欠如下では優れた統計特性を有する偏補正グラム行列を提案する。 シミュレーションおよび公開可能な実データを用いた実験結果から,提案した非バイアスグラム行列は,代表次元縮小手法の広帯域を著しく改善できることが示された。

Dimension reduction plays a pivotal role in analysing high-dimensional data. However, observations with missing values present serious difficulties in directly applying standard dimension reduction techniques. As a large number of dimension reduction approaches are based on the Gram matrix, we first investigate the effects of missingness on dimension reduction by studying the statistical properties of the Gram matrix with or without missingness, and then we present a bias-corrected Gram matrix with nice statistical properties under heterogeneous missingness. Extensive empirical results, on both simulated and publicly available real datasets, show that the proposed unbiased Gram matrix can significantly improve a broad spectrum of representative dimension reduction approaches.
翻訳日:2021-09-27 14:20:05 公開日:2021-09-24
# シンクホーン分布ロバスト最適化

Sinkhorn Distributionally Robust Optimization ( http://arxiv.org/abs/2109.11926v1 )

ライセンス: Link先を確認
Jie Wang, Rui Gao, Yao Xie(参考訳) エントロピー正規化に基づくワッサーシュタイン距離の変種であるシンコルン距離を用いた分布ロバストな最適化について検討する。 我々は,それぞれが経験的分布と一般分布である場合の凸計画二重再構成を導出する。 wasserstein droと比較すると、より大きな損失関数のクラスに対して計算的に扱いやすく、最悪のケース分布の方が妥当である。 そこで我々は,二項探索アルゴリズムを用いた効率的なバッチ勾配降下法を提案する。 最後に、合成データと実データの両方を用いて、その競合性能を示す様々な数値例を示す。

We study distributionally robust optimization with Sinkorn distance -- a variant of Wasserstein distance based on entropic regularization. We derive convex programming dual reformulations when the nominal distribution is an empirical distribution and a general distribution, respectively. Compared with Wasserstein DRO, it is computationally tractable for a larger class of loss functions, and its worst-case distribution is more reasonable. To solve the dual reformulation, we propose an efficient batch gradient descent with a bisection search algorithm. Finally, we provide various numerical examples using both synthetic and real data to demonstrate its competitive performance.
翻訳日:2021-09-27 14:19:51 公開日:2021-09-24
# 異種環境からの最適化に基づく因果推定

Optimization-based Causal Estimation from Heterogenous Environments ( http://arxiv.org/abs/2109.11990v1 )

ライセンス: Link先を確認
Mingzhang Yin, Yixin Wang, David M. Blei(参考訳) 本稿では,因果推定の新しい最適化手法を提案する。 共変量と結果を含むデータがあり、どの共変量がその結果の原因であり、因果性の強さは何か? 古典機械学習(ML)では、最適化の目的は予測精度を最大化することである。 しかし、一部の共変種は結果と非因果関係を示すかもしれない。 このような急激な協会は、古典的なMLに予測力を提供しますが、結果の因果的解釈を妨げます。 本稿では,純粋予測と因果推論のギャップを埋める最適化アルゴリズムCoCoを提案する。 CoCoは、最近提案された環境の概念、因果関係が不変であるが、共変数の分布が環境から環境に変化するような共変数/応答のデータセットを活用している。 複数の環境、そして十分な不均一性を示すデータセットが与えられた場合、CoCoは唯一の解決策が因果解である目的を最大化する。 本稿では,本手法の理論的基礎を説明し,シミュレーションおよび実データに対する有効性を示す。 従来のMLや既存の手法と比較して、CoCoは因果モデルのより正確な推定を提供する。

This paper presents a new optimization approach to causal estimation. Given data that contains covariates and an outcome, which covariates are causes of the outcome, and what is the strength of the causality? In classical machine learning (ML), the goal of optimization is to maximize predictive accuracy. However, some covariates might exhibit a non-causal association to the outcome. Such spurious associations provide predictive power for classical ML, but they prevent us from causally interpreting the result. This paper proposes CoCo, an optimization algorithm that bridges the gap between pure prediction and causal inference. CoCo leverages the recently-proposed idea of environments, datasets of covariates/response where the causal relationships remain invariant but where the distribution of the covariates changes from environment to environment. Given datasets from multiple environments -- and ones that exhibit sufficient heterogeneity -- CoCo maximizes an objective for which the only solution is the causal solution. We describe the theoretical foundations of this approach and demonstrate its effectiveness on simulated and real datasets. Compared to classical ML and existing methods, CoCo provides more accurate estimates of the causal model.
翻訳日:2021-09-27 14:19:41 公開日:2021-09-24
# カーネルに基づく時間差分法による最適政策評価

Optimal policy evaluation using kernel-based temporal difference methods ( http://arxiv.org/abs/2109.12002v1 )

ライセンス: Link先を確認
Yaqi Duan, Mengdi Wang, Martin J. Wainwright(参考訳) 無限水平割引マルコフ報酬過程(MRP)の値関数を推定するためのカーネルヒルベルト空間の再現に基づく手法を検討した。 カーネル最小二乗時間差(LSTD)推定の正規化形式について検討し、無限データの集団制限において、関連する再生カーネルヒルベルト空間で定義される射影ベルマン作用素の固定点に対応する。 推定器自身は、経験作用素の正規化バージョンによって誘導される射影された固定点を計算することで得られるが、基礎となるカーネル構造のため、これはカーネル行列を含む線形系を解くことに還元される。 この推定の誤差を$L^2(\mu)$-normで解析し、$\mu$は基礎となるマルコフ連鎖の定常分布を表す。 我々の解析はマルコフ連鎖の遷移作用素に仮定を課さず、むしろ報酬関数と集団レベルのカーネルLSTD解に関する条件のみを課している。 我々は経験的プロセス理論手法を用いて、関連するカーネル演算子の固有値とベルマン残差誤差のインスタンス依存分散に明示的な依存性を持つ誤差の非漸近上界を導出する。 さらに、MPPのサブクラスよりもミニマックスの低い境界を証明し、サンプルサイズ$n$と有効地平線$H = (1 - \gamma)^{-1}$の点で、我々のレートが最適であることを示す。 既存の最悪のケース理論は、有効地平線における立方体スケーリング(H^3$)を予測するが、我々の理論は実際、カーネル、定常分布、ベルマン残差の分散に依存するより広い範囲のスケーリングが存在することを明らかにしている。 特に、最悪の立方体スケーリングを達成できるのは、パラメトリックでほぼパラメトリックな問題のみである。

We study methods based on reproducing kernel Hilbert spaces for estimating the value function of an infinite-horizon discounted Markov reward process (MRP). We study a regularized form of the kernel least-squares temporal difference (LSTD) estimate; in the population limit of infinite data, it corresponds to the fixed point of a projected Bellman operator defined by the associated reproducing kernel Hilbert space. The estimator itself is obtained by computing the projected fixed point induced by a regularized version of the empirical operator; due to the underlying kernel structure, this reduces to solving a linear system involving kernel matrices. We analyze the error of this estimate in the $L^2(\mu)$-norm, where $\mu$ denotes the stationary distribution of the underlying Markov chain. Our analysis imposes no assumptions on the transition operator of the Markov chain, but rather only conditions on the reward function and population-level kernel LSTD solutions. We use empirical process theory techniques to derive a non-asymptotic upper bound on the error with explicit dependence on the eigenvalues of the associated kernel operator, as well as the instance-dependent variance of the Bellman residual error. In addition, we prove minimax lower bounds over sub-classes of MRPs, which shows that our rate is optimal in terms of the sample size $n$ and the effective horizon $H = (1 - \gamma)^{-1}$. Whereas existing worst-case theory predicts cubic scaling ($H^3$) in the effective horizon, our theory reveals that there is in fact a much wider range of scalings, depending on the kernel, the stationary distribution, and the variance of the Bellman residual error. Notably, it is only parametric and near-parametric problems that can ever achieve the worst-case cubic scaling.
翻訳日:2021-09-27 14:19:25 公開日:2021-09-24
# 埋め込みによる離散選択モデルとニューラルネットワークの組み合わせ:定式化,解釈可能性,性能

Combining Discrete Choice Models and Neural Networks through Embeddings: Formulation, Interpretability and Performance ( http://arxiv.org/abs/2109.12042v1 )

ライセンス: Link先を確認
Ioanna Arkoudi, Carlos Lima Azevedo, Francisco C. Pereira(参考訳) 本研究では,ニューラルネットワーク(ANN)を用いた理論とデータ駆動選択モデルを組み合わせた新しい手法を提案する。 特に、埋め込みと呼ばれる連続ベクトル表現を用いて分類的または離散的説明変数を符号化し、解釈可能性とモデルの透明性に特に焦点をあてる。 logitフレームワークに埋め込まれた表現は、camara (2019) によって概念化されているが、それらの次元は絶対的な決定的な意味を持たないため、行動的洞察は限られている。 私たちの研究の新規性は、それぞれの次元を選択の選択肢に正式に関連付けることによって、埋め込みベクトルへの解釈可能性を高めることである。 したがって,本手法は,旅行需要分析や政策決定に使用可能な行動に有意義なアウトプットを提供するため,ダミー符号化よりも単純な類似表現の改善以上のメリットをもたらす。 さらに、ANNベースの離散選択モデル(DCM)では、性能の解釈可能性を犠牲にするか、部分的にのみ解釈可能であるのに対し、我々のモデルは、ANNの原理に基づくにもかかわらず、全ての入力変数に対する有効係数の解釈可能性を保持する。 提案するモデルは2つの実世界のデータセット上でテストされ、ダミーエンコーディングを使用するベンチマークモデルとベースラインモデルに対して評価された。 実験の結果,我々のモデルが最先端の予測性能を提供し,ネットワークパラメータ数を劇的に削減しつつ,既存のanベースのモデルよりも優れていることがわかった。

This study proposes a novel approach that combines theory and data-driven choice models using Artificial Neural Networks (ANNs). In particular, we use continuous vector representations, called embeddings, for encoding categorical or discrete explanatory variables with a special focus on interpretability and model transparency. Although embedding representations within the logit framework have been conceptualized by Camara (2019), their dimensions do not have an absolute definitive meaning, hence offering limited behavioral insights. The novelty of our work lies in enforcing interpretability to the embedding vectors by formally associating each of their dimensions to a choice alternative. Thus, our approach brings benefits much beyond a simple parsimonious representation improvement over dummy encoding, as it provides behaviorally meaningful outputs that can be used in travel demand analysis and policy decisions. Additionally, in contrast to previously suggested ANN-based Discrete Choice Models (DCMs) that either sacrifice interpretability for performance or are only partially interpretable, our models preserve interpretability of the utility coefficients for all the input variables despite being based on ANN principles. The proposed models were tested on two real world datasets and evaluated against benchmark and baseline models that use dummy-encoding. The results of the experiments indicate that our models deliver state-of-the-art predictive performance, outperforming existing ANN-based models while drastically reducing the number of required network parameters.
翻訳日:2021-09-27 14:18:52 公開日:2021-09-24
# 米国の郡レベルでのCOVID-19発生予測のための時空間機械学習アプローチ

A spatiotemporal machine learning approach to forecasting COVID-19 incidence at the county level in the United States ( http://arxiv.org/abs/2109.12094v1 )

ライセンス: Link先を確認
Benjamin Lucas, Behzad Vahedi, and Morteza Karimzadeh(参考訳) 新型コロナウイルス(COVID-19)が世界のすべての国に影響を及ぼし、日常生活が変わる中で、感染拡大を予測できる能力は、これまでのどの流行よりも重要である。 従来の病原体モデルであるコンパートメンタルモデルは、ウイルスの拡散の時空間的均質性の仮定に基づいており、特に高空間分解能において予測が過小評価される可能性がある。 本稿では,時空間機械学習の代替手法を用いて予測タスクにアプローチする。 本稿では,米国内の郡レベルでのCOVID-19の発生を予測するための,長期記憶深層学習アーキテクチャに基づくデータ駆動型モデルであるCOVID-LSTMを提案する。 我々は、時間的入力として毎週の新規陽性症例数と、Facebookのムーブメントとコネクテッドネスデータセットから手作業による空間的特徴を用いて、疾患の時間的・空間的拡散を捉える。 COVID-LSTMは、私たちの17週間の評価期間において、COVID-19 Forecast HubのEnsembleモデル(COVIDhub-ensemble)よりも優れています。 4週間の予測で、私たちのモデルは平均50のケースで、COVIDhubアンサンブルよりも正確です。 新型コロナウイルス前のデータ駆動予測の未利用は、時空間予測のための機械学習手法の最近の進歩に加えて、過去の疾患で利用可能な十分なデータが不足しているためと考えられる。 我々は、データ駆動予測のより広範な取り込みに対する障害と、より深い学習ベースのモデルが将来使われる可能性について論じる。

With COVID-19 affecting every country globally and changing everyday life, the ability to forecast the spread of the disease is more important than any previous epidemic. The conventional methods of disease-spread modeling, compartmental models, are based on the assumption of spatiotemporal homogeneity of the spread of the virus, which may cause forecasting to underperform, especially at high spatial resolutions. In this paper we approach the forecasting task with an alternative technique -- spatiotemporal machine learning. We present COVID-LSTM, a data-driven model based on a Long Short-term Memory deep learning architecture for forecasting COVID-19 incidence at the county-level in the US. We use the weekly number of new positive cases as temporal input, and hand-engineered spatial features from Facebook movement and connectedness datasets to capture the spread of the disease in time and space. COVID-LSTM outperforms the COVID-19 Forecast Hub's Ensemble model (COVIDhub-ensemble) on our 17-week evaluation period, making it the first model to be more accurate than the COVIDhub-ensemble over one or more forecast periods. Over the 4-week forecast horizon, our model is on average 50 cases per county more accurate than the COVIDhub-ensemble. We highlight that the underutilization of data-driven forecasting of disease spread prior to COVID-19 is likely due to the lack of sufficient data available for previous diseases, in addition to the recent advances in machine learning methods for spatiotemporal forecasting. We discuss the impediments to the wider uptake of data-driven forecasting, and whether it is likely that more deep learning-based models will be used in the future.
翻訳日:2021-09-27 14:18:28 公開日:2021-09-24
# sim2realviz:ロボットエゴポス推定におけるsim2real gapの可視化

SIM2REALVIZ: Visualizing the Sim2Real Gap in Robot Ego-Pose Estimation ( http://arxiv.org/abs/2109.11801v1 )

ライセンス: Link先を確認
Theo Jaunet, Guillaume Bono, Romain Vuillemot, and Christian Wolf(参考訳) ロボットコミュニティは、大量のデータでロボットを大規模に訓練するための、ますます現実的な3dシミュレータに強く依存し始めた。 しかし、ロボットが現実世界に配備されると、シミュレーションのギャップや現実世界の変化(ライトや物体の変位など)がエラーにつながる。 本稿では,ロボットエゴポス推定タスク,すなわち訓練モデルを用いたロボットの位置推定において,このギャップの理解と低減を支援するビジュアル分析ツールであるsim2realvizを提案する。 Sim2RealVizは、与えられたモデルの詳細と、シミュレーションと実世界の両方のインスタンスのパフォーマンスを表示する。 専門家は、特定の場所でモデル予測に影響を与える環境の違いを特定し、モデル仮説と直接対話してそれを修正できる。 ツールの設計や,平均バイアスに対する回帰の活用に関するケーススタディ,対処方法,自転車などのランドマークの消失によってモデルがどのように混乱しているかを詳述する。

The Robotics community has started to heavily rely on increasingly realistic 3D simulators for large-scale training of robots on massive amounts of data. But once robots are deployed in the real world, the simulation gap, as well as changes in the real world (e.g. lights, objects displacements) lead to errors. In this paper, we introduce Sim2RealViz, a visual analytics tool to assist experts in understanding and reducing this gap for robot ego-pose estimation tasks, i.e. the estimation of a robot's position using trained models. Sim2RealViz displays details of a given model and the performance of its instances in both simulation and real-world. Experts can identify environment differences that impact model predictions at a given location and explore through direct interactions with the model hypothesis to fix it. We detail the design of the tool, and case studies related to the exploit of the regression to the mean bias and how it can be addressed, and how models are perturbed by the vanish of landmarks such as bikes.
翻訳日:2021-09-27 14:17:58 公開日:2021-09-24
# 画像デノイングのための学習型雑音成分マップ推定

Learning-based Noise Component Map Estimation for Image Denoising ( http://arxiv.org/abs/2109.11877v1 )

ライセンス: Link先を確認
Sheyda Ghanbaralizadeh Bahnemiri, Mykola Ponomarenko and Karen Egiazarian(参考訳) 本稿では,非定常雑音による画像の劣化に伴う画像の劣化について考察する。 実際、ノイズに関する事前情報がないため、ノイズ統計は画像のデノベーションのために事前に見積もるべきである。 本稿では,深層畳み込みニューラルネットワーク(cnn)を用いた,局所的,パッチ的に,ノイズの標準偏差(いわゆるシグママップ)を推定する手法を提案する。 非定常ノイズの場合のシグママップ推定の精度と付加白色ガウス雑音の場合の雑音分散の推定において,最先端の性能を実現する。 推定シグママップを用いた画像復調実験により,PSNRでは最新のCNNベースのブラインド画像復調法を最大6dB,Sigma-map推定最大0.5dBの最先端手法を最大0.5dBで上回った。 理想の場合と比較すると, グラウンド・ルース・シグマ・マップを用いてデノイジングを適用する場合, 雑音レベルにおける対応するpsnr値の差は0.1-0.2 db以内であり, 0.6 dbを超えないことを示す。

A problem of image denoising when images are corrupted by a non-stationary noise is considered in this paper. Since in practice no a priori information on noise is available, noise statistics should be pre-estimated for image denoising. In this paper, deep convolutional neural network (CNN) based method for estimation of a map of local, patch-wise, standard deviations of noise (so-called sigma-map) is proposed. It achieves the state-of-the-art performance in accuracy of estimation of sigma-map for the case of non-stationary noise, as well as estimation of noise variance for the case of additive white Gaussian noise. Extensive experiments on image denoising using estimated sigma-maps demonstrate that our method outperforms recent CNN-based blind image denoising methods by up to 6 dB in PSNR, as well as other state-of-the-art methods based on sigma-map estimation by up to 0.5 dB, providing same time better usage flexibility. Comparison with the ideal case, when denoising is applied using ground-truth sigma-map, shows that a difference of corresponding PSNR values for most of noise levels is within 0.1-0.2 dB and does not exceeds 0.6 dB.
翻訳日:2021-09-27 14:17:42 公開日:2021-09-24
# 野生の画像から映像に変形した画像分類へ

From images in the wild to video-informed image classification ( http://arxiv.org/abs/2109.12040v1 )

ライセンス: Link先を確認
Marc B\"ohlen, Varun Chandola, Wawan Sujarwo, Raunaq Jain(参考訳) 画像分類器は、構造化画像に適用すると効果的に機能するが、非常に複雑な画像に適用すると失敗することが多い。 本稿では,バリ島で収集された視覚的複雑度の高い野生のユニークな画像に対して,最先端のオブジェクト分類器を適用した実験について述べる。 本論文は,野生における実画像とイメージネットの画像の違いを記述し,野生植物の映像ソース画像の分類結果を改善するために,映像に特有の情報的手がかりと不完全な分類器のアンサンブルを組み合わせた新しいアプローチを提案する。

Image classifiers work effectively when applied on structured images, yet they often fail when applied on images with very high visual complexity. This paper describes experiments applying state-of-the-art object classifiers toward a unique set of images in the wild with high visual complexity collected on the island of Bali. The text describes differences between actual images in the wild and images from Imagenet, and then discusses a novel approach combining informational cues particular to video with an ensemble of imperfect classifiers in order to improve classification results on video sourced images of plants in the wild.
翻訳日:2021-09-27 14:17:16 公開日:2021-09-24
# 検出と摂動: 勾配に基づく復号化によるバイアステキストと感性テキストのニュートラル書き直し

Detect and Perturb: Neutral Rewriting of Biased and Sensitive Text via Gradient-based Decoding ( http://arxiv.org/abs/2109.11708v1 )

ライセンス: Link先を確認
Zexue He, Bodhisattwa Prasad Majumder, Julian McAuley(参考訳) 書かれた言語は明示的で暗黙の偏見を持ち、意味のある信号に注意をそらすことができる。 例えば、レファレンス文字は男女の候補者を別々に記述したり、その書き込みスタイルが間接的に人口動態の特徴を明らかにすることがある。 せいぜい、そのような偏見はテキストの有意義な内容から逸脱し、最悪の場合不公平な結果につながる可能性がある。 本研究では,原文の意味的意味を維持しつつ,センシティブな属性を「中和」するために入力文を再生成する課題について検討する。 本稿では,まず感度の高いコンポーネントを検出し,再生のためにマスキングし,その後,感度の高い属性の(予測された)分布を一様分布にプッシュする中性化制約の下でデコード時に生成モデルを摂動させる,勾配に基づく書き換えフレームワークを提案する。 2つの異なるシナリオにおける実験により、DECENは他の属性のセマンティクスを維持しながら、センシティブな属性で中立な流動的な代替品を再生できることが示されている。

Written language carries explicit and implicit biases that can distract from meaningful signals. For example, letters of reference may describe male and female candidates differently, or their writing style may indirectly reveal demographic characteristics. At best, such biases distract from the meaningful content of the text; at worst they can lead to unfair outcomes. We investigate the challenge of re-generating input sentences to 'neutralize' sensitive attributes while maintaining the semantic meaning of the original text (e.g. is the candidate qualified?). We propose a gradient-based rewriting framework, Detect and Perturb to Neutralize (DEPEN), that first detects sensitive components and masks them for regeneration, then perturbs the generation model at decoding time under a neutralizing constraint that pushes the (predicted) distribution of sensitive attributes towards a uniform distribution. Our experiments in two different scenarios show that DEPEN can regenerate fluent alternatives that are neutral in the sensitive attribute while maintaining the semantics of other attributes.
翻訳日:2021-09-27 14:16:33 公開日:2021-09-24
# 低リソース分類のための多様性強化と制約緩和

A Diversity-Enhanced and Constraints-Relaxed Augmentation for Low-Resource Classification ( http://arxiv.org/abs/2109.11834v1 )

ライセンス: Link先を確認
Guang Liu, Hailong Huang, Yuzhao Mao, Weiguo Gao, Xuan Li, Jianping Shen(参考訳) データ拡張(DA)は、制約付きおよび多様化されたデータを生成し、低リソース分類(LRC)における分類器を改善することを目的としている。 従来の研究では、制約を強化するために微調整言語モデル(LM)がほとんどであったが、多様性の可能性によって生成されたデータの有効性が向上するという事実は無視されていた。 LRCでは、強い制約があるがDAの弱い多様性は、分類器の一般化能力の低下をもたらす。 このジレンマに対処するために、D}iversity-{E}nhanced と {C}onstraints-\{R}elaxed {A}ugmentation (DECRA) を提案する。 私たちのdecraには、トランスフォーマーベースのバックボーンモデル上に2つの重要なコンポーネントがあります。 1) 制約データの生成における多様性を高めるため,DECRAの必須成分であるkベータ拡張を提案する。 変更範囲を拡大し、生成されたデータの複雑さの度合いを向上する。 2)微調整の代わりにマスク付き言語モデル損失が正規化として使用される。 制約を緩和することで、より分散した生成されたデータで分類器をトレーニングすることが可能になる。 これら2つのコンポーネントの組み合わせは、カテゴリ境界に到達または接近可能なデータを生成し、分類器の一般化に役立つ。 低リソース環境下での3つの公開ベンチマークデータセットに対するDECRAの評価を行った。 大規模な実験により、我々のDECRAは最先端のアプローチを3.8%上回る結果となった。

Data augmentation (DA) aims to generate constrained and diversified data to improve classifiers in Low-Resource Classification (LRC). Previous studies mostly use a fine-tuned Language Model (LM) to strengthen the constraints but ignore the fact that the potential of diversity could improve the effectiveness of generated data. In LRC, strong constraints but weak diversity in DA result in the poor generalization ability of classifiers. To address this dilemma, we propose a {D}iversity-{E}nhanced and {C}onstraints-\{R}elaxed {A}ugmentation (DECRA). Our DECRA has two essential components on top of a transformer-based backbone model. 1) A k-beta augmentation, an essential component of DECRA, is proposed to enhance the diversity in generating constrained data. It expands the changing scope and improves the degree of complexity of the generated data. 2) A masked language model loss, instead of fine-tuning, is used as a regularization. It relaxes constraints so that the classifier can be trained with more scattered generated data. The combination of these two components generates data that can reach or approach category boundaries and hence help the classifier generalize better. We evaluate our DECRA on three public benchmark datasets under low-resource settings. Extensive experiments demonstrate that our DECRA outperforms state-of-the-art approaches by 3.8% in the overall score.
翻訳日:2021-09-27 14:16:11 公開日:2021-09-24
# テキストからアルツハイマー病を予測するBERTモデルのロバスト性と感度

Robustness and Sensitivity of BERT Models Predicting Alzheimer's Disease from Text ( http://arxiv.org/abs/2109.11888v1 )

ライセンス: Link先を確認
Jekaterina Novikova(参考訳) テキストからアルツハイマー病を予測するBERTモデルの堅牢性と感度を理解することは、より良い分類モデルの開発とそれらの能力と限界を理解するために重要である。 本稿では,望ましくないテキスト変更の制御量がBERTの性能に与える影響を解析する。 BERTはテキストの自然な言語変化に対して堅牢であることを示す。 一方,BERTはテキストから臨床的に重要な情報を取り除くことには敏感ではない。

Understanding robustness and sensitivity of BERT models predicting Alzheimer's disease from text is important for both developing better classification models and for understanding their capabilities and limitations. In this paper, we analyze how a controlled amount of desired and undesired text alterations impacts performance of BERT. We show that BERT is robust to natural linguistic variations in text. On the other hand, we show that BERT is not sensitive to removing clinically important information from text.
翻訳日:2021-09-27 14:15:50 公開日:2021-09-24
# ドイツ語-低地セルビア語の教師なし翻訳--低資源言語による訓練と新しい移動法を探る

Unsupervised Translation of German--Lower Sorbian: Exploring Training and Novel Transfer Methods on a Low-Resource Language ( http://arxiv.org/abs/2109.12012v1 )

ライセンス: Link先を確認
Lukas Edman, Ahmet \"Ust\"un, Antonio Toral, Gertjan van Noord(参考訳) 本稿では,ドイツにおけるWMT 2021 Unsupervised Machine Translation task for German-Lower Sorbian (DE--DSB):低リソース言語に対する高リソース言語について述べる。 本システムでは,標準的なトレーニング手順に3つの変更を加えたトランスフォーマーエンコーダデコーダアーキテクチャを用いている。 まず,多言語システムに関する豊富な研究とは対照的に,2つの言語を同時に学習する。 次に,未認識言語の語彙を初期化する新しい手法を導入し,de$\rightarrow$dsb の 3.2 bleu と dsb$\rightarrow$de の 4.0 bleu の改善を実現する。 最後に、オフラインとオンラインのバックトランスレーションが教師なしシステムのトレーニングに使用される順序を実験し、オンラインのバックトランスレーションを使用することで、2.76 BLEU の DE$\rightarrow$DSB がよりうまく機能することを発見した。 我々の提出品はDSB$\rightarrow$DEで1位(他のチームと2位)、De$\rightarrow$DSBで3位にランクインした。

This paper describes the methods behind the systems submitted by the University of Groningen for the WMT 2021 Unsupervised Machine Translation task for German--Lower Sorbian (DE--DSB): a high-resource language to a low-resource one. Our system uses a transformer encoder-decoder architecture in which we make three changes to the standard training procedure. First, our training focuses on two languages at a time, contrasting with a wealth of research on multilingual systems. Second, we introduce a novel method for initializing the vocabulary of an unseen language, achieving improvements of 3.2 BLEU for DE$\rightarrow$DSB and 4.0 BLEU for DSB$\rightarrow$DE. Lastly, we experiment with the order in which offline and online back-translation are used to train an unsupervised system, finding that using online back-translation first works better for DE$\rightarrow$DSB by 2.76 BLEU. Our submissions ranked first (tied with another team) for DSB$\rightarrow$DE and third for DE$\rightarrow$DSB.
翻訳日:2021-09-27 14:15:41 公開日:2021-09-24
# 言語間質問応答のための前訓練後表現アライメントの検討

Investigating Post-pretraining Representation Alignment for Cross-Lingual Question Answering ( http://arxiv.org/abs/2109.12028v1 )

ライセンス: Link先を確認
Fahim Faisal, Antonios Anastasopoulos(参考訳) 人間の知識は世界中で話されている約6500の言語に総じてコード化されているが、言語間で均等に分布していない。 したがって、全ての言語の話者に適切なサービスを提供するための情報探索質問応答(QA)システムでは、言語横断で操作する必要がある。 本研究では,言語間QAにおける多言語事前学習言語モデルの能力について検討する。 言語間の表現をポストホックな微調整のステップで明示的に整合させると、一般的にパフォーマンスが向上する。 さらに,この微調整ステップにおけるデータサイズと言語選択の影響についても検討し,言語間qaシステム評価のためのデータセットをリリースする。 コードとデータセットはこちらで公開されている。

Human knowledge is collectively encoded in the roughly 6500 languages spoken around the world, but it is not distributed equally across languages. Hence, for information-seeking question answering (QA) systems to adequately serve speakers of all languages, they need to operate cross-lingually. In this work we investigate the capabilities of multilingually pre-trained language models on cross-lingual QA. We find that explicitly aligning the representations across languages with a post-hoc fine-tuning step generally leads to improved performance. We additionally investigate the effect of data size as well as the language choice in this fine-tuning step, also releasing a dataset for evaluating cross-lingual QA systems. Code and dataset are publicly available here: https://github.com/f faisal93/aligned_qa
翻訳日:2021-09-27 14:15:20 公開日:2021-09-24
# SD-QA: 実世界のための音声対話型質問応答

SD-QA: Spoken Dialectal Question Answering for the Real World ( http://arxiv.org/abs/2109.12072v1 )

ライセンス: Link先を確認
Fahim Faisal, Sharlina Keshava, Md Mahfuz ibn Alam, Antonios Anastasopoulos(参考訳) 質問応答(QA)システムは、様々な分野の多くの商用アプリケーションを通じて利用可能であり、音声インターフェースを介して対話する数百万のユーザを提供する。 しかし、QA研究における現在のベンチマークでは、音声認識モデルが導入する可能性のあるエラーや、ユーザの言語変化(方言)を考慮していない。 このギャップに対処するために、既存のQAデータセットを拡張して、5つの言語(アラビア語、ベンガル語、英語、キスワヒリ語、韓国語)で、255話者の24の方言で68k以上の音声プロンプトで、多言語で話されるQAベンチマークを構築する。 本稿では,QAシステムの実環境性能を示すベースライン結果を提供し,下流性能に対する言語多様性や話者属性の影響を解析する。 最後に,ASRモデルとQAモデルの妥当性について,基礎となるユーザ数について検討する。 データセット、モデル出力、すべての実験を再現するためのコードも利用可能です。

Question answering (QA) systems are now available through numerous commercial applications for a wide variety of domains, serving millions of users that interact with them via speech interfaces. However, current benchmarks in QA research do not account for the errors that speech recognition models might introduce, nor do they consider the language variations (dialects) of the users. To address this gap, we augment an existing QA dataset to construct a multi-dialect, spoken QA benchmark on five languages (Arabic, Bengali, English, Kiswahili, Korean) with more than 68k audio prompts in 24 dialects from 255 speakers. We provide baseline results showcasing the real-world performance of QA systems and analyze the effect of language variety and other sensitive speaker attributes on downstream performance. Last, we study the fairness of the ASR and QA models with respect to the underlying user populations. The dataset, model outputs, and code for reproducing all our experiments are available: https://github.com/f faisal93/SD-QA.
翻訳日:2021-09-27 14:15:08 公開日:2021-09-24
# テキストベースNPエンリッチメント

Text-based NP Enrichment ( http://arxiv.org/abs/2109.12085v1 )

ライセンス: Link先を確認
Yanai Elazar, Victoria Basmov, Yoav Goldberg, Reut Tsarfaty(参考訳) NPによって表されるエンティティ間の関係をテキストで理解することは、人間のような自然言語理解の重要な部分である。 しかし、現在ではNLPタスクやモデルによってカバーされている関係はごくわずかである。 本研究は,テキストベースNPエンリッチメント(TNE)の課題,すなわちテキスト内の他のNPとの間に保持されるすべての前置詞による関係を,各NPを豊かにするものである。 これらの関係は三重項として表され、それぞれ前置詞でリンクされた2つのNPを示す。 人間はこのような関係をシームレスに回復するが、現在の最先端モデルは問題の暗黙的な性質のためにそれらと戦っている。 この問題に対する最初の大規模なデータセットを構築し、正式なフレーミングとアノテーションの範囲を提供し、データを分析し、タスクに微調整されたニューラルネットワークモデルの結果を報告し、それが現在の技術にもたらす課題を実証します。 yanaiela.github.io/t ne/におけるこの困難なテキスト理解問題に関するさらなる研究を促進するため、データ、データエクスプロレーションui、コード、モデル、デモを備えたwebページを作成しました。

Understanding the relations between entities denoted by NPs in text is a critical part of human-like natural language understanding. However, only a fraction of such relations is covered by NLP tasks and models nowadays. In this work, we establish the task of text-based NP enrichment (TNE), that is, enriching each NP with all the preposition-mediated relations that hold between this and the other NPs in the text. The relations are represented as triplets, each denoting two NPs linked via a preposition. Humans recover such relations seamlessly, while current state-of-the-art models struggle with them due to the implicit nature of the problem. We build the first large-scale dataset for the problem, provide the formal framing and scope of annotation, analyze the data, and report the result of fine-tuned neural language models on the task, demonstrating the challenge it poses to current technology. We created a webpage with the data, data-exploration UI, code, models, and demo to foster further research into this challenging text understanding problem at yanaiela.github.io/T NE/.
翻訳日:2021-09-27 14:14:46 公開日:2021-09-24
# ニューラルネットワーク翻訳における忠実な目標属性予測

Faithful Target Attribute Prediction in Neural Machine Translation ( http://arxiv.org/abs/2109.12105v1 )

ライセンス: Link先を確認
Xing Niu, Georgiana Dinu, Prashant Mathur, Anna Currey(参考訳) NMTで使用されるトレーニングデータは、単語のケーシングやジェンダーといった特定の属性に対して制御されることが滅多にない。 対象単語と属性を同時に予測することは、これらの属性に関するトレーニングデータ分布に対して、翻訳がより忠実であることを保証する効果的な方法であると主張する。 上段の入力翻訳と性別予測という2つのタスクの実験結果から,この戦略がテストにおけるトレーニングデータの分布を反映することを示す。 また、大文字入力変換のタスクにおけるデータ拡張も行う。

The training data used in NMT is rarely controlled with respect to specific attributes, such as word casing or gender, which can cause errors in translations. We argue that predicting the target word and attributes simultaneously is an effective way to ensure that translations are more faithful to the training data distribution with respect to these attributes. Experimental results on two tasks, uppercased input translation and gender prediction, show that this strategy helps mirror the training data distribution in testing. It also facilitates data augmentation on the task of uppercased input translation.
翻訳日:2021-09-27 14:14:27 公開日:2021-09-24
# 相対的に学習した潜在表現による点クラウドリアリズムの定量化

Quantifying point cloud realism through adversarially learned latent representations ( http://arxiv.org/abs/2109.11775v1 )

ライセンス: Link先を確認
Larissa T. Triess, David Peter, Stefan A. Baur, J. Marius Z\"ollner(参考訳) 生成モデルによって合成されるサンプルの品質判断は、特に点雲のような複雑なデータ構造において、退屈で時間がかかる。 本稿では,LiDAR点雲における局所領域のリアリズムを定量化する新しい手法を提案する。 関連する機能は、プロキシ分類タスクのトレーニングによって、現実世界と合成ポイントクラウドから学習される。 fair networksにインスパイアされた私たちは、データセット固有の情報のエンコーディングを阻害するために、敵対的なテクニックを使用します。 結果のメトリックは、タスク固有のアノテーションを必要とせずに、品質スコアをサンプルに割り当てることができる。 一連の実験において,制御可能なタスク設定と未認識データに適用することにより,測定値の健全性を確認した。 さらなる実験では、リアリズムの程度が異なるデータ間のメトリックの信頼できる補間能力を示す。 重要な応用の1つとして,ローカルリアリズムスコアが点雲の異常検出にどのように役立つかを示す。

Judging the quality of samples synthesized by generative models can be tedious and time consuming, especially for complex data structures, such as point clouds. This paper presents a novel approach to quantify the realism of local regions in LiDAR point clouds. Relevant features are learned from real-world and synthetic point clouds by training on a proxy classification task. Inspired by fair networks, we use an adversarial technique to discourage the encoding of dataset-specific information. The resulting metric can assign a quality score to samples without requiring any task specific annotations. In a series of experiments, we confirm the soundness of our metric by applying it in controllable task setups and on unseen data. Additional experiments show reliable interpolation capabilities of the metric between data with varying degree of realism. As one important application, we demonstrate how the local realism score can be used for anomaly detection in point clouds.
翻訳日:2021-09-27 14:12:37 公開日:2021-09-24
# MODNet-V: 背景復元による画像マッチングの改善

MODNet-V: Improving Portrait Video Matting via Background Restoration ( http://arxiv.org/abs/2109.11818v1 )

ライセンス: Link先を確認
Jiayu Sun, Zhanghan Ke, Lihe Zhang, Huchuan Lu, Rynson W.H. Lau(参考訳) より正確には、既存の作品では、注釈付きトリマップや背景画像などの追加のユーザー努力を必要とする、いくつかのマッチング先を適用している。 本研究では,ユーザに対して背景画像の明示的な提供を依頼する代わりに,入力ビデオ自体からそれを復元することができることを観察する。 そこで本研究では,まず,入力映像から動的に背景画像を復元する新しい背景復元モジュール(brm)を提案する。 BRMは非常に軽量で、既存のマッティングモデルと簡単に統合できる。 BRMと最近の画像マッチングモデルMODNetを組み合わせることで、ポートレートビデオマッチングのためのMODNet-Vを提示する。 brmの持つ強い背景から、modnet-v は modnet のパラメータの1/3 しか持たないが、同等あるいはそれ以上の性能を達成している。 私たちの設計では、単一のNVIDIA 3090 GPU上でMODNet-Vをエンドツーエンドでトレーニングすることが可能です。 最後に,MODNet-Vを軽量かつ高速に保ちながら,高解像度ビデオにMODNet-Vを適用するための新しいパッチリファインメントモジュール(PRM)を提案する。

To address the challenging portrait video matting problem more precisely, existing works typically apply some matting priors that require additional user efforts to obtain, such as annotated trimaps or background images. In this work, we observe that instead of asking the user to explicitly provide a background image, we may recover it from the input video itself. To this end, we first propose a novel background restoration module (BRM) to recover the background image dynamically from the input video. BRM is extremely lightweight and can be easily integrated into existing matting models. By combining BRM with a recent image matting model, MODNet, we then present MODNet-V for portrait video matting. Benefited from the strong background prior provided by BRM, MODNet-V has only 1/3 of the parameters of MODNet but achieves comparable or even better performances. Our design allows MODNet-V to be trained in an end-to-end manner on a single NVIDIA 3090 GPU. Finally, we introduce a new patch refinement module (PRM) to adapt MODNet-V for high-resolution videos while keeping MODNet-V lightweight and fast.
翻訳日:2021-09-27 14:12:23 公開日:2021-09-24
# GSIP:大規模屋内点雲のグリーンセマンティックセマンティックセグメンテーション

GSIP: Green Semantic Segmentation of Large-Scale Indoor Point Clouds ( http://arxiv.org/abs/2109.11835v1 )

ライセンス: Link先を確認
Min Zhang, Pranav Kadam, Shan Liu, C.-C. Jay Kuo(参考訳) 本研究では,大規模屋内シーンポイント雲のセマンティックセグメンテーションの効率的な解法を提案する。 GSIP(Green Segmentation of Indoor Point clouds)と名付けられたそのパフォーマンスは、Stanford 3D Indoor Segmentation (S3DIS)データセットという代表的な大規模ベンチマークで評価されている。 GSIPには2つの新しいコンポーネントがある。 1)さらなる処理を行うためのポイントの適切なサブセットを選択するルームスタイルのデータ前処理方法 2)ポイントホップから拡張された新しい特徴抽出器。 前者の場合、各部屋のサンプルポイントは入力ユニットを形成する。 後者の場合、大規模ポイントクラウドに拡張する際のpointhopの機能抽出の弱点を識別し、より単純な処理パイプラインで固定する。 ディープラーニングベースのソリューションのパイオニアであるPointNetと比較して、GSIPは計算複雑性が著しく低く、モデルサイズもはるかに小さいため、緑色である。 さらに、GSIPは、S3DISデータセットのセグメンテーション性能において、PointNetよりも優れていることを示す。

An efficient solution to semantic segmentation of large-scale indoor scene point clouds is proposed in this work. It is named GSIP (Green Segmentation of Indoor Point clouds) and its performance is evaluated on a representative large-scale benchmark -- the Stanford 3D Indoor Segmentation (S3DIS) dataset. GSIP has two novel components: 1) a room-style data pre-processing method that selects a proper subset of points for further processing, and 2) a new feature extractor which is extended from PointHop. For the former, sampled points of each room form an input unit. For the latter, the weaknesses of PointHop's feature extraction when extending it to large-scale point clouds are identified and fixed with a simpler processing pipeline. As compared with PointNet, which is a pioneering deep-learning-based solution, GSIP is green since it has significantly lower computational complexity and a much smaller model size. Furthermore, experiments show that GSIP outperforms PointNet in segmentation performance for the S3DIS dataset.
翻訳日:2021-09-27 14:12:01 公開日:2021-09-24
# 深層学習に基づくRGB画像からの任意位相物体の3次元再構成のための学習可能な三角測量

Learnable Triangulation for Deep Learning-based 3D Reconstruction of Objects of Arbitrary Topology from Single RGB Images ( http://arxiv.org/abs/2109.11844v1 )

ライセンス: Link先を確認
Tarek Ben Charrada, Hedi Tabia, Aladine Chetouani, Hamid Laga(参考訳) モノクロ画像から3次元物体を再構成する深層強化学習手法を提案する。 メッシュ表現を使用する先行作業はテンプレートベースである。 したがって、テンプレートと同じトポロジを持つオブジェクトの再構築に限定される。 ボリュームグリッドを中間表現として使用する手法は計算コストが高く、リアルタイムシナリオでの応用を制限する。 本稿では,モノクロ画像から任意の位相の3次元オブジェクトを再構成する新しいエンドツーエンド手法を提案する。 入力されたrgb画像から物体の頂点の初期3d位置を予測する頂点生成ネットワーク(vgn)と、新しい強化学習アルゴリズムを用いて教師なしの方法で学習する微分可能な三角層と、物体の頂点の最良の三角測量と、最後に、グラフ畳み込みを用いて初期メッシュを洗練する階層メッシュ改良ネットワークとからなる。 我々の重要な貢献は学習可能な三角法であり、入力形状のトポロジを教師なしの方法で復元する。 ShapeNet と Pix3D のベンチマーク実験により,提案手法は視覚的品質,再現精度,計算時間において,最先端の手法よりも優れていることが示された。

We propose a novel deep reinforcement learning-based approach for 3D object reconstruction from monocular images. Prior works that use mesh representations are template based. Thus, they are limited to the reconstruction of objects that have the same topology as the template. Methods that use volumetric grids as intermediate representations are computationally expensive, which limits their application in real-time scenarios. In this paper, we propose a novel end-to-end method that reconstructs 3D objects of arbitrary topology from a monocular image. It is composed of of (1) a Vertex Generation Network (VGN), which predicts the initial 3D locations of the object's vertices from an input RGB image, (2) a differentiable triangulation layer, which learns in a non-supervised manner, using a novel reinforcement learning algorithm, the best triangulation of the object's vertices, and finally, (3) a hierarchical mesh refinement network that uses graph convolutions to refine the initial mesh. Our key contribution is the learnable triangulation process, which recovers in an unsupervised manner the topology of the input shape. Our experiments on ShapeNet and Pix3D benchmarks show that the proposed method outperforms the state-of-the-art in terms of visual quality, reconstruction accuracy, and computational time.
翻訳日:2021-09-27 14:11:45 公開日:2021-09-24
# リモートセンシングによる視覚的質問応答のための優れた画像テキスト埋め込みを見つけるには?

How to find a good image-text embedding for remote sensing visual question answering? ( http://arxiv.org/abs/2109.11848v1 )

ライセンス: Link先を確認
Christel Chappuis, Sylvain Lobry, Benjamin Kellenberger, Bertrand Le Saux, Devis Tuia(参考訳) 視覚的質問応答(VQA)がリモートセンシングに導入され、オーバーヘッド画像から情報を取り出すことが可能になった。 VQAは、ある画像に関する質問(自然言語、したがって定式化し易い)を考察し、コンピュータビジョンと自然言語処理法に基づくモデルによる回答の提供を目指している。 したがって、VQAモデルは、しばしば融合ステップを通じて行われる視覚的特徴とテキスト的特徴を共同で考慮する必要がある。 本研究では,遠隔センシングにおけるVQAの文脈における3つの異なる融合手法について検討し,モデル複雑性に関する精度の利得を解析する。 以上の結果から,より複雑な核融合機構は性能の向上をもたらすが,モデルの複雑さと性能のトレードオフを求めることは実際有益であることが示された。

Visual question answering (VQA) has recently been introduced to remote sensing to make information extraction from overhead imagery more accessible to everyone. VQA considers a question (in natural language, therefore easy to formulate) about an image and aims at providing an answer through a model based on computer vision and natural language processing methods. As such, a VQA model needs to jointly consider visual and textual features, which is frequently done through a fusion step. In this work, we study three different fusion methodologies in the context of VQA for remote sensing and analyse the gains in accuracy with respect to the model complexity. Our findings indicate that more complex fusion mechanisms yield an improved performance, yet that seeking a trade-of between model complexity and performance is worthwhile in practice.
翻訳日:2021-09-27 14:11:24 公開日:2021-09-24
# スマートフォンの立体立体視

Catadioptric Stereo on a Smartphone ( http://arxiv.org/abs/2109.11872v1 )

ライセンス: Link先を確認
Kristijan Bartol and David Bojani\'c and Tomislav Petkovi\'c and Tomislav Pribani\'c(参考訳) 前面および背面カメラを用いたステレオ再構成のための平面ミラー付き3Dプリントアダプタを提案する。 このアダプタは、どんなスマートフォンでもステレオカメラとして使用できる実用的で低コストのソリューションを提供する。 アダプタのプロトタイプバージョンを使用して,カメラとミラー間の角度や,カメラ間の距離(ステレオベースライン)などのパラメータを実験する。 最も便利な構成を見つけ、ステレオペアを校正します。 提案した予備分析に基づいて,現在の設計の改善の可能性を明らかにする。 動作プロトタイプを実証するために,ステレオペアから2次元キーポイント検出を用いて3次元人間のポーズを再構成し,抽出した体長を評価する。 その結果、アダプタは複数の身体セグメントの計測に使用できることがわかった。

We present a 3D printed adapter with planar mirrors for stereo reconstruction using front and back smartphone camera. The adapter presents a practical and low-cost solution for enabling any smartphone to be used as a stereo camera, which is currently only possible using high-end phones with expensive 3D sensors. Using the prototype version of the adapter, we experiment with parameters like the angles between cameras and mirrors and the distance to each camera (the stereo baseline). We find the most convenient configuration and calibrate the stereo pair. Based on the presented preliminary analysis, we identify possible improvements in the current design. To demonstrate the working prototype, we reconstruct a 3D human pose using 2D keypoint detections from the stereo pair and evaluate extracted body lengths. The result shows that the adapter can be used for anthropometric measurement of several body segments.
翻訳日:2021-09-27 14:11:09 公開日:2021-09-24
# 微視的画像ベース分類のためのクラス間類似性とクラス内分散

Tackling Inter-Class Similarity and Intra-Class Variance for Microscopic Image-based Classification ( http://arxiv.org/abs/2109.11891v1 )

ライセンス: Link先を確認
Aishwarya Venkataramanan, Martin Laviale, C\'ecile Figus, Philippe Usseglio-Polatera, C\'edric Pradalier(参考訳) 水生微生物の自動分類は、個々の画像から抽出した形態的特徴に基づいている。 分類に関する現在の研究は、クラス間の類似性や誤分類を引き起こすクラス内分散を考慮していない。 特に、顕微鏡画像の離散的な視覚変化によってクラス内のばらつきが発生する場合に関心がある。 本稿では,視覚特徴に基づいてクラスを高いばらつきで分割することにより,それを説明することを提案する。 提案アルゴリズムは,作成したサブクラスの最適な数を自動的に決定し,各サブクラスを個別のトレーニングクラスとみなす。 このようにして、ネットワークはきめ細かい視覚的特徴を学習する。 淡水性底生珪藻と海洋プランクトンの2つのデータベースを用いた実験により,本手法は,これらの水生微生物の分類に関する最先端のアプローチに勝ることが示された。

Automatic classification of aquatic microorganisms is based on the morphological features extracted from individual images. The current works on their classification do not consider the inter-class similarity and intra-class variance that causes misclassification. We are particularly interested in the case where variance within a class occurs due to discrete visual changes in microscopic images. In this paper, we propose to account for it by partitioning the classes with high variance based on the visual features. Our algorithm automatically decides the optimal number of sub-classes to be created and consider each of them as a separate class for training. This way, the network learns finer-grained visual features. Our experiments on two databases of freshwater benthic diatoms and marine plankton show that our method can outperform the state-of-the-art approaches for classification of these aquatic microorganisms.
翻訳日:2021-09-27 14:10:56 公開日:2021-09-24
# RSDet++: より正確な回転物体検出のためのポイントベース変調損失

RSDet++: Point-based Modulated Loss for More Accurate Rotated Object Detection ( http://arxiv.org/abs/2109.11906v1 )

ライセンス: Link先を確認
Wen Qian, Xue Yang, Silong Peng, Junchi Yan, Xiujuan Zhang(参考訳) 本研究では,5パラメータと8パラメータの回転物体検出手法の損失の不連続性を回転感度誤差(RSE)として分類し,性能劣化をもたらす。 本研究では, この問題を緩和するために, 8パラメータの単段回転物体検出器と変調回転損失からなる回転感度検出ネットワーク(RSDet)を提案する。 私たちの提案するrsdetにはいくつかの利点があります。 1) 回転物体検出問題を物体の角の予測として再構成し, 従来手法では, 測定単位が異なる5パラメータ回帰法を採用している。 2) 変調回転損失は、損失の不連続性を解決することにより、5パラムおよび8パラム回転物体検出法の両方において一貫した改善を達成する。 10ピクセル未満のオブジェクトに対する本手法の精度をさらに向上するために,ポイントベースのアンカーフリー回転物体検出器と変調回転損失からなる新しいRSDet++を導入する。 RSDet と RSDet++ は、DOTA1.0, DOTA1.5, DOTA2.0 という挑戦的なベンチマークにおいて、オブジェクトの回転検出に競合する結果をもたらす。 提案手法は, 回転物体検出のアルゴリズムを設計し, 小型物体により多くの注意を払うための新たな視点を提供する。 コードとモデルは、https://github.com/y angxue0827/RotationD etection.comで入手できる。

We classify the discontinuity of loss in both five-param and eight-param rotated object detection methods as rotation sensitivity error (RSE) which will result in performance degeneration. We introduce a novel modulated rotation loss to alleviate the problem and propose a rotation sensitivity detection network (RSDet) which is consists of an eight-param single-stage rotated object detector and the modulated rotation loss. Our proposed RSDet has several advantages: 1) it reformulates the rotated object detection problem as predicting the corners of objects while most previous methods employ a five-para-based regression method with different measurement units. 2) modulated rotation loss achieves consistent improvement on both five-param and eight-param rotated object detection methods by solving the discontinuity of loss. To further improve the accuracy of our method on objects smaller than 10 pixels, we introduce a novel RSDet++ which is consists of a point-based anchor-free rotated object detector and a modulated rotation loss. Extensive experiments demonstrate the effectiveness of both RSDet and RSDet++, which achieve competitive results on rotated object detection in the challenging benchmarks DOTA1.0, DOTA1.5, and DOTA2.0. We hope the proposed method can provide a new perspective for designing algorithms to solve rotated object detection and pay more attention to tiny objects. The codes and models are available at: https://github.com/y angxue0827/RotationD etection.
翻訳日:2021-09-27 14:10:41 公開日:2021-09-24
# ZSD-YOLO:視覚言語知識蒸留を用いたゼロショットヨーロ検出

ZSD-YOLO: Zero-Shot YOLO Detection using Vision-Language KnowledgeDistillatio n ( http://arxiv.org/abs/2109.12066v1 )

ライセンス: Link先を確認
Johnathan Xie and Shuai Zheng(参考訳) 実世界のオブジェクトサンプリングは、稀なタイプに対して指数関数的に多くの画像を必要とする長い尾の分布を生成する。 未発見の物体を検出することを目的としたゼロショット検出は、この問題に対処する一方向である。 COCOのようなデータセットは、多くの画像に広く注釈付けされているが、多数のカテゴリがあり、さまざまなドメインにまたがるすべてのオブジェクトクラスに注釈を付けるのは高価で難しい。 そこで我々は,CLIPなどのゼロショット事前学習モデルからの画像とテキストの埋め込みを,YOLOv5のような一段検出器からの修正意味予測ヘッドに整合させるビジョンランゲージ蒸留法を開発した。 この方法では,cocoゼロショット検出スプリットにおける最先端精度を実現する物体検出器を,少ないモデルパラメータで訓練することができる。 推論中、我々のモデルは追加のトレーニングなしで任意の数のオブジェクトクラスを検出できる。 また,本手法のスケーリングによる改善は,様々なYOLOv5スケールで一貫性があることがわかった。 さらに,余分な画像やラベルを必要とせずに,大幅なスコア改善を実現する自己学習手法を開発した。

Real-world object sampling produces long-tailed distributions requiring exponentially more images for rare types. Zero-shot detection, which aims to detect unseen objects, is one direction to address this problem. A dataset such as COCO is extensively annotated across many images but with a sparse number of categories and annotating all object classes across a diverse domain is expensive and challenging. To advance zero-shot detection, we develop a Vision-Language distillation method that aligns both image and text embeddings from a zero-shot pre-trained model such as CLIP to a modified semantic prediction head from a one-stage detector like YOLOv5. With this method, we are able to train an object detector that achieves state-of-the-art accuracy on the COCO zero-shot detection splits with fewer model parameters. During inference, our model can be adapted to detect any number of object classes without additional training. We also find that the improvements provided by the scaling of our method are consistent across various YOLOv5 scales. Furthermore, we develop a self-training method that provides a significant score improvement without needing extra images nor labels.
翻訳日:2021-09-27 14:10:16 公開日:2021-09-24
# ブロッククリロフ反復による低ランク近似のための周波数方向アルゴリズムの改良

An Improved Frequent Directions Algorithm for Low-Rank Approximation via Block Krylov Iteration ( http://arxiv.org/abs/2109.11703v1 )

ライセンス: Link先を確認
Chenhao Wang, Qianxin Yi, Xiuwu Liao, Yao Wang(参考訳) 低ランク近似問題に対処するための行列スケッチ手法として,周波数方向が提案されている。 この手法は高い精度と実用性を有するが、大規模データに対して多くの計算コストがかかる。 頻繁な方向のランダム化に関する最近のいくつかの研究は計算効率を大幅に向上させたが、残念ながらある程度の精度を犠牲にしている。 そこで本稿では,より正確な投影部分空間を見つけ,既存の頻出方向手法の効率と有効性をさらに高めることを目的としている。 具体的には,ブロッククリロフイテレーションとランダムプロジェクションのパワーを利用して,r-BKIFDという高速かつ高精度な周波数方向アルゴリズムを提案する。 厳密な理論解析により,提案するr-bkifdの誤差は元の頻繁な方向と同等であり,反復回数が適切に選択されると近似誤差が任意に小さくなることが示された。 合成データと実データの両方に対する大規模な実験結果は、計算効率と精度の両面で、いくつかの一般的な周波数方向アルゴリズムよりもr-BKIFDの方が優れていることを示す。

Frequent Directions, as a deterministic matrix sketching technique, has been proposed for tackling low-rank approximation problems. This method has a high degree of accuracy and practicality, but experiences a lot of computational cost for large-scale data. Several recent works on the randomized version of Frequent Directions greatly improve the computational efficiency, but unfortunately sacrifice some precision. To remedy such issue, this paper aims to find a more accurate projection subspace to further improve the efficiency and effectiveness of the existing Frequent Directions techniques. Specifically, by utilizing the power of Block Krylov Iteration and random projection technique, this paper presents a fast and accurate Frequent Directions algorithm named as r-BKIFD. The rigorous theoretical analysis shows that the proposed r-BKIFD has a comparable error bound with original Frequent Directions, and the approximation error can be arbitrarily small when the number of iterations is chosen appropriately. Extensive experimental results on both synthetic and real data further demonstrate the superiority of r-BKIFD over several popular Frequent Directions algorithms, both in terms of computational efficiency and accuracy.
翻訳日:2021-09-27 14:09:54 公開日:2021-09-24
# 正確な運転モデルのためのBO付きGRUニューラルネットワークを用いたパラメータのオンライン適応

Online Adaptation of Parameters using GRU-based Neural Network with BO for Accurate Driving Model ( http://arxiv.org/abs/2109.11720v1 )

ライセンス: Link先を確認
Zhanhong Yang, Satoshi Masuda, Michiaki Tatsubori(参考訳) 異なる地域で自動運転車をテストするには、アグレッシブなスタイルや保守的なスタイルなど、異なる運転スタイルの車を取り巻く必要がある。 人間の運転スタイルを数値的に測定して、一定の運転スタイルを持つ仮想ドライバを作成する方法が求められている。 しかしながら、運転スタイルを測定するほとんどの方法は、運転スタイルを分類するためにしきい値やラベルが必要であり、運転姿勢に関する追加のアンケートを必要とするものもある。 これらの制限は、大規模な仮想テスト環境を作成するには適していない。 運転モデル(DM)は人間の運転スタイルをシミュレートする。 dmを校正することで、シミュレーションされた運転行動は人間の運転行動に近づいた。 従来のDM校正法は、運転中にDMのパラメータが異なることを考慮しない。 これらの「固定」校正法は実際の対話運転シナリオを反映できない。 本稿では,実車追従行動をより正確に再現するために,人間の運転スタイルを測定するdm-calibration法を提案する。 その方法には 1)人間の運転スタイルを計測・クラスタリングするための客観的エントロピー重量法、及び 2) ベイジアン最適化(BO)とゲートリカレントニューラルネットワークを組み合わせた深層学習に基づくDMパラメータのオンライン適応について検討した。 提案手法を評価するために実験を行い,その結果から,人間の運転スタイルを簡易に測定できることが示唆された。 また,仮想テスト環境では,固定校正法よりも最大26%の精度で,対応するDMを校正できることを示した。

Testing self-driving cars in different areas requires surrounding cars with accordingly different driving styles such as aggressive or conservative styles. A method of numerically measuring and differentiating human driving styles to create a virtual driver with a certain driving style is in demand. However, most methods for measuring human driving styles require thresholds or labels to classify the driving styles, and some require additional questionnaires for drivers about their driving attitude. These limitations are not suitable for creating a large virtual testing environment. Driving models (DMs) simulate human driving styles. Calibrating a DM makes the simulated driving behavior closer to human-driving behavior, and enable the simulation of human-driving cars. Conventional DM-calibrating methods do not take into account that the parameters in a DM vary while driving. These "fixed" calibrating methods cannot reflect an actual interactive driving scenario. In this paper, we propose a DM-calibration method for measuring human driving styles to reproduce real car-following behavior more accurately. The method includes 1) an objective entropy weight method for measuring and clustering human driving styles, and 2) online adaption of DM parameters based on deep learning by combining Bayesian optimization (BO) and a gated recurrent unit neural network. We conducted experiments to evaluate the proposed method, and the results indicate that it can be easily used to measure human driver styles. The experiments also showed that we can calibrate a corresponding DM in a virtual testing environment with up to 26% more accuracy than with fixed calibration methods.
翻訳日:2021-09-27 14:09:34 公開日:2021-09-24
# geomgcl:分子特性予測のための幾何グラフコントラスト学習

GeomGCL: Geometric Graph Contrastive Learning for Molecular Property Prediction ( http://arxiv.org/abs/2109.11730v1 )

ライセンス: Link先を確認
Shuangli Li, Jingbo Zhou, Tong Xu, Dejing Dou, Hui Xiong(参考訳) 近年,分子特性予測へのグラフニューラルネットワーク(GNN)の適用に多くの取り組みがなされている。 GNNによる分子特性予測の成功を妨げる大きな障害の1つは、ラベル付きデータの不足である。 グラフコントラスト学習 (gcl) の手法はラベル付きデータに不足しているため、特に一般的なグラフのデータ拡張スキームの設計に重点を置いている。 しかし、分子の基本的な性質は分子グラフ上の拡張法(ランダム摂動法など)によって変化することができる。 しかしながら、分子の臨界幾何学的情報は、現在のGNNおよびGCLアーキテクチャの下ではめったに探索されない。 そこで本研究では,2次元および3次元ビューにまたがる分子の幾何を利用した新しいグラフコントラスト学習手法GeomGCLを提案する。 具体的には、分子の2次元グラフと3次元グラフの両方のリッチな情報を適応的に活用するために、2次元幾何学的メッセージパッシングネットワーク(GeomMPNN)を考案する。 異なるレベルで幾何学的性質を組み込むことは、分子表現学習を大いに促進することができる。 そこで,GeomMPNNの一般化能力を向上させるために,幾何学的ビューを相互に監督する新しい幾何学的グラフコントラスト方式を考案した。 様々な下流特性予測タスクのGeomGCLを微調整プロセスにより評価する。 7つの実生活分子データセットによる実験結果から,提案したGeomGCLの有効性が示された。

Recently many efforts have been devoted to applying graph neural networks (GNNs) to molecular property prediction which is a fundamental task for computational drug and material discovery. One of major obstacles to hinder the successful prediction of molecule property by GNNs is the scarcity of labeled data. Though graph contrastive learning (GCL) methods have achieved extraordinary performance with insufficient labeled data, most focused on designing data augmentation schemes for general graphs. However, the fundamental property of a molecule could be altered with the augmentation method (like random perturbation) on molecular graphs. Whereas, the critical geometric information of molecules remains rarely explored under the current GNN and GCL architectures. To this end, we propose a novel graph contrastive learning method utilizing the geometry of the molecule across 2D and 3D views, which is named GeomGCL. Specifically, we first devise a dual-view geometric message passing network (GeomMPNN) to adaptively leverage the rich information of both 2D and 3D graphs of a molecule. The incorporation of geometric properties at different levels can greatly facilitate the molecular representation learning. Then a novel geometric graph contrastive scheme is designed to make both geometric views collaboratively supervise each other to improve the generalization ability of GeomMPNN. We evaluate GeomGCL on various downstream property prediction tasks via a finetune process. Experimental results on seven real-life molecular datasets demonstrate the effectiveness of our proposed GeomGCL against state-of-the-art baselines.
翻訳日:2021-09-27 14:09:11 公開日:2021-09-24
# 対人神経トリップ勧告

Adversarial Neural Trip Recommendation ( http://arxiv.org/abs/2109.11731v1 )

ライセンス: Link先を確認
Linlang Jiang, Jingbo Zhou, Tong Xu, Yanyan Li, Hao Chen, Jizhou Huang, Hui Xiong(参考訳) trip recommenderシステムは、複数の注文ポイント(pois)からなる旅行を推奨するシステムであり、多くのロケーションベースのサービスにとって重要なアプリケーションとして扱われてきた。 現在、ほとんどの先行技術は、制約プログラミングに基づいた事前定義された目標に従ってトリップを生成しており、人間の移動データに隠された複雑な潜在パターンを反映していない可能性がある。 そして、これらのメソッドのほとんどは、poisの数が大きければ、リアルタイムに応答するのが困難である。 そこで本稿では,これらの課題に対処するためのANT(Adversarial Neural Trip Recommendation)フレームワークを提案する。 まず、新しい注意に基づくエンコーダデコーダトリップジェネレータを考案し、POI間の相関関係を学習し、与えられた制約の下で適切に設計されたトリップを生成する。 ANTの別の新しい特徴は、高品質な旅行を誘導するために、強化学習と統合された敵対的な学習戦略に依存している。 この目的のために,生成したトリップとユーザの実生活トリップを区別する判別器を導入し,ジェネレータを最適化するための報奨信号を提供する。 さらに,実演からの学習に基づく新しい事前学習スキーマを考案し,コンバージェンスを高速化し,十分な効率のトレーニングプロセスを実現する。 4つの実世界のデータセットに対する大規模な実験により提案したANTフレームワークの有効性と効率が検証された。

Trip recommender system, which targets at recommending a trip consisting of several ordered Points of Interest (POIs), has long been treated as an important application for many location-based services. Currently, most prior arts generate trips following pre-defined objectives based on constraint programming, which may fail to reflect the complex latent patterns hidden in the human mobility data. And most of these methods are usually difficult to respond in real time when the number of POIs is large. To that end, we propose an Adversarial Neural Trip Recommendation (ANT) framework to tackle the above challenges. First of all, we devise a novel attention-based encoder-decoder trip generator that can learn the correlations among POIs and generate well-designed trips under given constraints. Another novelty of ANT relies on an adversarial learning strategy integrating with reinforcement learning to guide the trip generator to produce high-quality trips. For this purpose, we introduce a discriminator, which distinguishes the generated trips from real-life trips taken by users, to provide reward signals to optimize the generator. Moreover, we devise a novel pre-train schema based on learning from demonstration, which speeds up the convergence to achieve a sufficient-and-effic ient training process. Extensive experiments on four real-world datasets validate the effectiveness and efficiency of our proposed ANT framework, which demonstrates that ANT could remarkably outperform the state-of-the-art baselines with short response time.
翻訳日:2021-09-27 14:08:47 公開日:2021-09-24
# 局所内在次元信号の逆摂動

Local Intrinsic Dimensionality Signals Adversarial Perturbations ( http://arxiv.org/abs/2109.11803v1 )

ライセンス: Link先を確認
Sandamal Weerasinghe, Tansu Alpcan, Sarah M. Erfani, Christopher Leckie, Benjamin I. P. Rubinstein(参考訳) 機械学習モデルの敵の摂動に対する脆弱性は、敵の機械学習の広範囲にわたる研究の動機となっている。 高度な攻撃は、学習アルゴリズムが決定関数を学習したり、予測性能の悪い決定を下す可能性がある。 この文脈では、各データポイントを記述するのに必要な潜伏変数の最小数を記述し、敵のサンプルを検出し、その後その効果を緩和する局所内在性次元(LID)を使用する文献が増えている。 これまでの研究は、LIDがなぜ敵のサンプルを検出できるのかを十分に説明せずに、現実的な防御方法としてLIDを使用することに重点を置いてきた。 本稿では,摂動データ点の蓋値に対して下界および上界を導出し,その境界,特に下界が摂動の大きさと正の相関を持つことを示す。 したがって、大量のデータを摂動することで、未摂動サンプルに比べて大きなLID値が得られることが示され、従来の文献での使用が正当化される。 さらに,ベンチマークデータセットのバウンダリの有効性を実証的に検証した。

The vulnerability of machine learning models to adversarial perturbations has motivated a significant amount of research under the broad umbrella of adversarial machine learning. Sophisticated attacks may cause learning algorithms to learn decision functions or make decisions with poor predictive performance. In this context, there is a growing body of literature that uses local intrinsic dimensionality (LID), a local metric that describes the minimum number of latent variables required to describe each data point, for detecting adversarial samples and subsequently mitigating their effects. The research to date has tended to focus on using LID as a practical defence method often without fully explaining why LID can detect adversarial samples. In this paper, we derive a lower-bound and an upper-bound for the LID value of a perturbed data point and demonstrate that the bounds, in particular the lower-bound, has a positive correlation with the magnitude of the perturbation. Hence, we demonstrate that data points that are perturbed by a large amount would have large LID values compared to unperturbed samples, thus justifying its use in the prior literature. Furthermore, our empirical validation demonstrates the validity of the bounds on benchmark datasets.
翻訳日:2021-09-27 14:08:23 公開日:2021-09-24
# ロード・オブ・ザ・リング:ザ・カードゲームにおけるmctsプレイヤーの最適化

Optimisation of MCTS Player for The Lord of the Rings: The Card Game ( http://arxiv.org/abs/2109.12001v1 )

ライセンス: Link先を確認
Konrad Godlewski, Bartosz Sawicki(参考訳) この記事では、人気カードゲーム「ロード・オブ・ザ・リング」の人工プレイヤーを作成するために、モンテカルロ木探索(mcts)手法の使用について研究する。 ゲームは複雑なルール、多段階のラウンド構成、高レベルのランダム性によって特徴づけられる。 上記の研究は、専門家の知識に基づくエージェントとmctsエージェントを異なる決定段階に組み合わせる戦略において、勝利の最良の確率が受け入れられることを発見した。 また、専門家の知識を使ってランダムなプレイアウトをプレイアウトに置き換えることも有益である。 最終実験の結果,ゲームの難易度が増大するにつれて,開発ソリューションの相対的有効性が向上することが示された。

The article presents research on the use of Monte-Carlo Tree Search (MCTS) methods to create an artificial player for the popular card game "The Lord of the Rings". The game is characterized by complicated rules, multi-stage round construction, and a high level of randomness. The described study found that the best probability of a win is received for a strategy combining expert knowledge-based agents with MCTS agents at different decision stages. It is also beneficial to replace random playouts with playouts using expert knowledge. The results of the final experiments indicate that the relative effectiveness of the developed solution grows as the difficulty of the game increases.
翻訳日:2021-09-27 14:08:04 公開日:2021-09-24
# 逐次レコメンデーションのための時間スライスユーザ・テーマインタラクショングラフ上での二重動的表現の学習

Learning Dual Dynamic Representations on Time-Sliced User-Item Interaction Graphs for Sequential Recommendation ( http://arxiv.org/abs/2109.11790v1 )

ライセンス: Link先を確認
Zeyuan Chen, Wei Zhang, Junchi Yan, Gang Wang, Jianyong Wang(参考訳) Sequential Recommendationは、ユーザが近い将来に対話するアイテムを、歴史的に相互作用したアイテムに基づいて推奨することを目的としている。 時間的ダイナミクスのモデリングはシーケンシャルなレコメンデーションに欠かせないが、既存の研究のほとんどはユーザー側のみに焦点を合わせながら、アイテム側にあるシーケンシャルなパターンを見下ろしている。 両面のダイナミクスについて研究する研究はいくつかあるが、複雑なユーザ・イテム相互作用は、動的なユーザ・アイテム表現を導出するために、グローバルな視点から完全には利用されない。 本稿では,逐次レコメンデーションのための動的表現学習モデル(drl-sre)を提案する。 両側面からダイナミクスを特徴付けるユーザ-テーマインタラクションをより良くモデル化するために、提案モデルは、スライス毎にグローバルなユーザ-テーマインタラクショングラフを構築し、時間スライスグラフニューラルネットワークを利用してユーザとアイテムの表現を学習する。 さらに,このモデルがきめ細かな時間情報を取り込むために,時間点過程に基づく連続時間スライス上の補助時間予測タスクを提案する。 3つの公開実世界のデータセットに関する総合的な実験は、DRL-SReが最先端のシーケンシャルレコメンデーションモデルよりも大きなマージンで優れていることを示している。

Sequential Recommendation aims to recommend items that a target user will interact with in the near future based on the historically interacted items. While modeling temporal dynamics is crucial for sequential recommendation, most of the existing studies concentrate solely on the user side while overlooking the sequential patterns existing in the counterpart, i.e., the item side. Although a few studies investigate the dynamics involved in the dual sides, the complex user-item interactions are not fully exploited from a global perspective to derive dynamic user and item representations. In this paper, we devise a novel Dynamic Representation Learning model for Sequential Recommendation (DRL-SRe). To better model the user-item interactions for characterizing the dynamics from both sides, the proposed model builds a global user-item interaction graph for each time slice and exploits time-sliced graph neural networks to learn user and item representations. Moreover, to enable the model to capture fine-grained temporal information, we propose an auxiliary temporal prediction task over consecutive time slices based on temporal point process. Comprehensive experiments on three public real-world datasets demonstrate DRL-SRe outperforms the state-of-the-art sequential recommendation models with a large margin.
翻訳日:2021-09-27 14:07:09 公開日:2021-09-24
# 分子ハミルトニアンの同変表現とN中心原子スケール特性

Equivariant representations for molecular Hamiltonians and N-center atomic-scale properties ( http://arxiv.org/abs/2109.12083v1 )

ライセンス: Link先を確認
Jigyasa Nigam, Michael Willatt, Michele Ceriotti(参考訳) 対称性の考慮は、原子構成の効果的な数学的表現を提供するために使われる主要なフレームワークの中核であり、各構造に関連する特性を予測するために機械学習モデルで使用される。 ほとんどの場合、モデルは原子中心の環境の記述に依存しており、原子の性質や、原子の寄与に分解できる大域的な可観測物を学ぶのに適している。 しかし、量子力学計算に関連する多くの量(特に原子軌道ベースで書かれたハミルトン行列)は、単一の中心ではなく、構造の中に2つ(またはそれ以上)の原子がある。 我々は、非常に成功した原子中心密度相関特性をN中心の場合に一般化する構造記述子の族について論じ、特に、原子中心軌道ベースで書かれた(有効)単一粒子ハミルトニアンの行列要素を効率的に学習する方法を示す。 これらのN中心の特徴は、翻訳や回転の点だけでなく、原子に関連する指標の置換点についても完全に同変であり、分子や物質の新しい性質の対称性適応機械学習モデルの基礎を築いた。

Symmetry considerations are at the core of the major frameworks used to provide an effective mathematical representation of atomic configurations, that are then used in machine-learning models to predict the properties associated with each structure. In most cases, the models rely on a description of atom-centered environments, and are suitable to learn atomic properties, or global observables that can be decomposed into atomic contributions. Many quantities that are relevant for quantum mechanical calculations, however -- most notably the Hamiltonian matrix when written in an atomic-orbital basis -- are not associated with a single center, but with two (or more) atoms in the structure. We discuss a family of structural descriptors that generalize the very successful atom-centered density correlation features to the N-centers case, and show in particular how this construction can be applied to efficiently learn the matrix elements of the (effective) single-particle Hamiltonian written in an atom-centered orbital basis. These N-centers features are fully equivariant -- not only in terms of translations and rotations, but also in terms of permutations of the indices associated with the atoms -- and lay the foundations for symmetry-adapted machine-learning models of new classes of properties of molecules and materials.
翻訳日:2021-09-27 14:06:22 公開日:2021-09-24
# 自己スーパービジョンによる心MR画像自動表示装置の空間的関係の訓練

Training Automatic View Planner for Cardiac MR Imaging via Self-Supervision by Spatial Relationship between Views ( http://arxiv.org/abs/2109.11715v1 )

ライセンス: Link先を確認
Dong Wei, Kai Ma, and Yefeng Zheng(参考訳) 心磁気共鳴画像(CMR)の取得のための展望プランニングには、心臓解剖学の知識が必要であり、臨床実践において難しい課題である。 既存の自動化へのアプローチは、通常クリニックルーチンで取得されない追加のボリュームイメージや、心臓の構造的ランドマークの厳格な手動アノテーションに頼っていた。 本研究は,cmrビュー自動計画のためのクリニック互換・アノテーションフリーシステムを提案する。 このシステムは、ソースビューとターゲットビューの間の空間的関係(具体的には、交差する線の位置と利用)をマイニングし、これらの交差する線で定義されたヒートマップを回帰するためにディープネットワークを訓練する。 空間関係は、DICOMフォーマットなど、適切に格納されたデータに自己完結しているため、手動アノテーションの必要性は排除される。 次に,ターゲットビューのすべてのソースビューに対して,予測されたヒートマップから情報を集約し,グローバルな最適基準を求めるマルチビュー計画戦略を提案する。 マルチビューアグリゲーションは、熟練者による同様の戦略を模倣している。 181例の臨床CMR検査の結果,従来のアトラス法や新しい深層学習法を含む既存のアプローチと比較して,4つの標準CMRビューを規定する上で優れた精度が得られた。 地上の真理面に対する平均角度差と点間距離はそれぞれ5.98度と3.48mmである。

View planning for the acquisition of cardiac magnetic resonance imaging (CMR) requires acquaintance with the cardiac anatomy and remains a challenging task in clinical practice. Existing approaches to its automation relied either on an additional volumetric image not typically acquired in clinic routine, or on laborious manual annotations of cardiac structural landmarks. This work presents a clinic-compatible and annotation-free system for automatic CMR view planning. The system mines the spatial relationship -- more specifically, locates and exploits the intersecting lines -- between the source and target views, and trains deep networks to regress heatmaps defined by these intersecting lines. As the spatial relationship is self-contained in properly stored data, e.g., in the DICOM format, the need for manual annotation is eliminated. Then, a multi-view planning strategy is proposed to aggregate information from the predicted heatmaps for all the source views of a target view, for a globally optimal prescription. The multi-view aggregation mimics the similar strategy practiced by skilled human prescribers. Experimental results on 181 clinical CMR exams show that our system achieves superior accuracy to existing approaches including conventional atlas-based and newer deep learning based ones, in prescribing four standard CMR views. The mean angle difference and point-to-plane distance evaluated against the ground truth planes are 5.98 degrees and 3.48 mm, respectively.
翻訳日:2021-09-27 14:05:32 公開日:2021-09-24
# 人間のポーズ伝達のための3次元メッシュを用いた昇降・投射ネットワーク

A 3D Mesh-based Lifting-and-Projecti on Network for Human Pose Transfer ( http://arxiv.org/abs/2109.11719v1 )

ライセンス: Link先を確認
Jinxiang Liu, Yangheng Zhao, Siheng Chen and Ya Zhang(参考訳) ヒトのポーズ伝達は通常、画像から画像への2次元翻訳問題としてモデル化されている。 この定式化は、3次元空間に先行する人体形状を無視し、特に閉塞に直面したとき、不可解な人工物を引き起こす。 この問題に対処するために,3次元メッシュ空間におけるポーズ転送を行うリフトアンドプロジェクションフレームワークを提案する。 我々のフレームワークのコアは、リフト・アンド・プロジェクション・ネットワーク(LPNet)と外観詳細補償ネットワーク(ADCNet)の2つの新しいネットワークで構成される前景生成モジュールである。 LPNetは、人体形状を利用するために、体メッシュのトポロジ的情報を利用して、3Dメッシュ空間における対象人物の表現的視覚表現を学習する。 テクスチャの詳細を保存するために、ADCNetはさらに導入され、LPNetによって生成された特徴をソースフォアグラウンドイメージで拡張する。 このような前景生成モジュールの設計により、オクルージョンを持つような難しいケースをよりよく扱うことができる。 iperとファッションデータセットに関する実験は、提案手法が有効であることを実証的に示しており、自己転送とクロス転送の両方において、既存の画像から画像への移動とメッシュベースの方法よりも優れています。

Human pose transfer has typically been modeled as a 2D image-to-image translation problem. This formulation ignores the human body shape prior in 3D space and inevitably causes implausible artifacts, especially when facing occlusion. To address this issue, we propose a lifting-and-projecti on framework to perform pose transfer in the 3D mesh space. The core of our framework is a foreground generation module, that consists of two novel networks: a lifting-and-projecti on network (LPNet) and an appearance detail compensating network (ADCNet). To leverage the human body shape prior, LPNet exploits the topological information of the body mesh to learn an expressive visual representation for the target person in the 3D mesh space. To preserve texture details, ADCNet is further introduced to enhance the feature produced by LPNet with the source foreground image. Such design of the foreground generation module enables the model to better handle difficult cases such as those with occlusions. Experiments on the iPER and Fashion datasets empirically demonstrate that the proposed lifting-and-projecti on framework is effective and outperforms the existing image-to-image-based and mesh-based methods on human pose transfer task in both self-transfer and cross-transfer settings.
翻訳日:2021-09-27 14:05:07 公開日:2021-09-24
# 内視鏡的深度推定のための対位領域特徴適応法

Adversarial Domain Feature Adaptation for Bronchoscopic Depth Estimation ( http://arxiv.org/abs/2109.11798v1 )

ライセンス: Link先を確認
Mert Asim Karaoglu, Nikolas Brasch, Marijn Stollenga, Wolfgang Wein, Nassir Navab, Federico Tombari and Alexander Ladikos(参考訳) 単眼画像からの深度推定は、気管支鏡ナビゲーションのための局所化および3次元再構成パイプラインにおいて重要な課題である。 様々な教師付きおよび自己教師型ディープラーニングベースのアプローチが、自然画像のこのタスクで証明されている。 しかし, ラベル付きデータの欠如と, 気管支組織の特徴的テクスチャは, 気管支鏡のシーンでは有効ではない。 本研究では,ドメイン適応型アプローチを提案する。 新たな2段階構造では,まず,ラベル付き合成画像を用いた深度推定ネットワークを教師付きで訓練し,非教師付き対向領域特徴適応方式を用いて実画像の性能を向上させる。 実験の結果,提案手法は実画像のネットワーク性能をかなりのマージンで改善し,3次元再構成パイプラインに適用可能であることがわかった。

Depth estimation from monocular images is an important task in localization and 3D reconstruction pipelines for bronchoscopic navigation. Various supervised and self-supervised deep learning-based approaches have proven themselves on this task for natural images. However, the lack of labeled data and the bronchial tissue's feature-scarce texture make the utilization of these methods ineffective on bronchoscopic scenes. In this work, we propose an alternative domain-adaptive approach. Our novel two-step structure first trains a depth estimation network with labeled synthetic images in a supervised manner; then adopts an unsupervised adversarial domain feature adaptation scheme to improve the performance on real images. The results of our experiments show that the proposed method improves the network's performance on real images by a considerable margin and can be employed in 3D reconstruction pipelines.
翻訳日:2021-09-27 14:04:41 公開日:2021-09-24
# インフィニティ型魚類の局在:野生におけるスケッチ誘導物体の局在

Localizing Infinity-shaped fishes: Sketch-guided object localization in the wild ( http://arxiv.org/abs/2109.11874v1 )

ライセンス: Link先を確認
Pau Riba, Sounak Dey, Ali Furkan Biten and Josep Llados(参考訳) 本研究は,人間のスケッチを自然画像におけるオブジェクトのローカライゼーションを行うクエリとして用いる,スケッチ誘導オブジェクトローカライゼーション(sgol)の問題を検討する。 このクロスモーダルな設定では、まず、特定のSGOLトレーニングがなければ、固定されたクラスの前の作業よりもパフォーマンスが良くなるという、強靭なベースラインにコントリビュートする。 ベースラインは、利用可能なシンプルだが強力な手法に基づいて、SGOLアプローチのパフォーマンスを分析するのに有用である。 我々は,スケッチ条件付きDETR(Detection TRansformer)アーキテクチャを提案し,ハードな分類を避け,スケッチとイメージ間の領域ギャップを軽減し,オブジェクトインスタンスのローカライズを行う。 SGOLの主な目的はオブジェクト検出であるが、スケッチ誘導インスタンスセグメンテーションへの自然な拡張について検討した。 この新しいタスクは、いくつかのアプリケーションにおいて重要な、ピクセルレベルでのオブジェクトの識別に向けた移動を可能にする。 実験により,我々のモデルとその変種が過去の最先端結果よりも著しく進歩していることが実証された。 私たちのモデルのすべてのトレーニングとテストコードは、将来の研究を促進するためにリリースされます。

This work investigates the problem of sketch-guided object localization (SGOL), where human sketches are used as queries to conduct the object localization in natural images. In this cross-modal setting, we first contribute with a tough-to-beat baseline that without any specific SGOL training is able to outperform the previous works on a fixed set of classes. The baseline is useful to analyze the performance of SGOL approaches based on available simple yet powerful methods. We advance prior arts by proposing a sketch-conditioned DETR (DEtection TRansformer) architecture which avoids a hard classification and alleviates the domain gap between sketches and images to localize object instances. Although the main goal of SGOL is focused on object detection, we explored its natural extension to sketch-guided instance segmentation. This novel task allows to move towards identifying the objects at pixel level, which is of key importance in several applications. We experimentally demonstrate that our model and its variants significantly advance over previous state-of-the-art results. All training and testing code of our model will be released to facilitate future research{{https://github.com/p riba/sgol_wild}}.
翻訳日:2021-09-27 14:04:30 公開日:2021-09-24
# 最適輸送写像のエントロピー推定

Entropic estimation of optimal transport maps ( http://arxiv.org/abs/2109.12004v1 )

ライセンス: Link先を確認
Aram-Alexandre Pooladian and Jonathan Niles-Weed(参考訳) 厳密な有限サンプル保証付きで$\mathbb{R}^d$上の2つの分布間の最適写像を推定する計算可能手法を開発する。 ブレニエの定理のエントロピー版を利用すると、最適エントロピー計画の野線中心の射影である推定器がシンクホーンのアルゴリズムを用いて容易に計算できることが示される。 その結果, サンプルの次元や数が大きい場合, 評価が遅い現在の地図推定手法とは異なり, 大規模データセットにおいても並列化が可能であり, 極めて効率的であることがわかった。 最適写像上の滑らかさ仮定の下では、我々の推定器は文献における他の推定器と同等の統計的性能を享受するが、計算コストははるかに低い。 提案する推定器の有効性を数値例を通して示す。 我々の証明は、エントロピー最適輸送のための修正された双対性原理とpal(2019)による最適エントロピー計画の近似法に基づいている。

We develop a computationally tractable method for estimating the optimal map between two distributions over $\mathbb{R}^d$ with rigorous finite-sample guarantees. Leveraging an entropic version of Brenier's theorem, we show that our estimator -- the barycentric projection of the optimal entropic plan -- is easy to compute using Sinkhorn's algorithm. As a result, unlike current approaches for map estimation, which are slow to evaluate when the dimension or number of samples is large, our approach is parallelizable and extremely efficient even for massive data sets. Under smoothness assumptions on the optimal map, we show that our estimator enjoys comparable statistical performance to other estimators in the literature, but with much lower computational cost. We showcase the efficacy of our proposed estimator through numerical examples. Our proofs are based on a modified duality principle for entropic optimal transport and on a method for approximating optimal entropic plans due to Pal (2019).
翻訳日:2021-09-27 14:04:03 公開日:2021-09-24
# 共有スペクトルにおける適応媒体アクセスと変調のための分散深層強化学習

Distributed Deep Reinforcement Learning for Adaptive Medium Access and Modulation in Shared Spectrum ( http://arxiv.org/abs/2109.11723v1 )

ライセンス: Link先を確認
Akash Doshi and Jeffrey G. Andrews(参考訳) スペクトル不足は、セルシステムに対する無許可スペクトルの使用の増加につながった。 これにより、WiFiと5Gの両方のスペクトルアクセスに対するインテリジェントな適応的アプローチが動機となり、従来のキャリアセンシングやリス・バイ・トークの手法が改善される。 単一無線アクセス技術(rat)の基地局(bss)に対する非ライセンス共有スペクトル上での分散競合ベースの媒体アクセスについて検討した。 本稿では,ネットワーク全体のダウンリンクスループット目標を最大化しようとする,競合と適応変調の両方に対する学習ベースのアルゴリズムを考案する。 我々は,2段階のマルコフ決定過程をモデル化した2つの深層強化学習手法の新たな分散実装を定式化し,開発する。 実証的に、政策勾配法によって蓄積された(比例的公正性)報酬は、ジェニーエイドによる適応エネルギー検出閾値よりも著しく高い。 我々のアプローチは、sumとピークスループットの改善によってさらに検証される。 大規模ネットワークに対する我々のアプローチのスケーラビリティは,BSを多用した屋内および屋外レイアウトの累積報酬の改善によって実証される。

Spectrum scarcity has led to growth in the use of unlicensed spectrum for cellular systems. This motivates intelligent adaptive approaches to spectrum access for both WiFi and 5G that improve upon traditional carrier sensing and listen-before-talk methods. We study decentralized contention-based medium access for base stations (BSs) of a single Radio Access Technology (RAT) operating on unlicensed shared spectrum. We devise a learning-based algorithm for both contention and adaptive modulation that attempts to maximize a network-wide downlink throughput objective. We formulate and develop novel distributed implementations of two deep reinforcement learning approaches - Deep Q Networks and Proximal Policy Optimization - modelled on a two stage Markov decision process. Empirically, we find the (proportional fairness) reward accumulated by the policy gradient approach to be significantly higher than even a genie-aided adaptive energy detection threshold. Our approaches are further validated by improved sum and peak throughput. The scalability of our approach to large networks is demonstrated via an improved cumulative reward earned on both indoor and outdoor layouts with a large number of BSs.
翻訳日:2021-09-27 14:03:21 公開日:2021-09-24
# マルチスケールTCNとLSTMを用いたスマートフォン磁気を用いた屋内位置推定

Indoor Localization Using Smartphone Magnetic with Multi-Scale TCN and LSTM ( http://arxiv.org/abs/2109.11750v1 )

ライセンス: Link先を確認
Mingyang Zhang, Jie Jia, Jian Chen(参考訳) マルチスケール時間畳み込みネットワーク(TCN)と長短期記憶ネットワーク(LSTM)に基づく磁気局在化手法を提案する。 地磁気信号の識別性を高めるため、まず時系列前処理アプローチを構築する。 次に、LSTMモデルの時系列特性を保ちながら、TNを起動して特徴次元を拡大する。 次に、多スケールの時系列層を異なる拡張因子の複数のTCNで構築し、ローカライゼーションモデルとモバイルユーザ間の一貫性のない時系列速度の問題に対処する。 マルチスケールTNとLSTMの積層構造を屋内磁化法として提案する。 実験結果から,提案アルゴリズムの有効性が実証された。

A novel multi-scale temporal convolutional network (TCN) and long short-term memory network (LSTM) based magnetic localization approach is proposed. To enhance the discernibility of geomagnetic signals, the time-series preprocessing approach is constructed at first. Next, the TCN is invoked to expand the feature dimensions on the basis of keeping the time-series characteristics of LSTM model. Then, a multi-scale time-series layer is constructed with multiple TCNs of different dilation factors to address the problem of inconsistent time-series speed between localization model and mobile users. A stacking framework of multi-scale TCN and LSTM is eventually proposed for indoor magnetic localization. Experiment results demonstrate the effectiveness of the proposed algorithm in indoor localization.
翻訳日:2021-09-27 14:03:06 公開日:2021-09-24
# 数兆パラメータdlモデルの効率的な分散トレーニングのための多次元階層ネットワークトポロジの探索

Exploring Multi-dimensional Hierarchical Network Topologies for Efficient Distributed Training of Trillion Parameter DL Models ( http://arxiv.org/abs/2109.11762v1 )

ライセンス: Link先を確認
William Won, Saeed Rashidi, Sudarshan Srinivasan, Tushar Krishna(参考訳) ディープニューラルネットワークは、異なるドメインで適用可能なため、大きな注目を集めている。 DNNのサイズとトレーニングサンプルは絶えず増加しており、そのようなワークロードのトレーニングをより困難にしている。 分散トレーニングは、トレーニング時間を短縮するためのソリューションです。 高性能分散トレーニングプラットフォームは、ネットワークのさまざまなレベルを通じてアクセラレータを相互接続する多次元階層ネットワークを活用して、スケールアウトネットワークに必要な高価なNICを劇的に削減する必要がある。 しかし、勾配や入出力アクティベーションを交換する分散アクセラレータ間の通信オーバーヘッドを犠牲にしている。 ワークロードのさらなるスケーリングを可能にするためには、通信オーバーヘッドを最小限にする必要がある。 本稿では,トレーニングプラットフォームにおいて,高コストnicリソースの過剰使用を効果的に緩和するために,中間ネットワーク次元の追加が有効であることを動機づける。 さらに,階層ネットワークにおけるDNNトレーニングの課題にも対処する。 我々は、相互接続の設計時、ネットワーク帯域幅のリソースを異なる次元に分散する方法について議論する。 (i)全次元のbw利用を最大化すること、及び (ii)目標作業負荷の総合訓練時間を最小化する。 そして、あるワークロードに対して、パフォーマンスやコスト当たりのパフォーマンスを最大化する最適なネットワーク構成を決定するフレームワークを実装します。

Deep Neural Networks have gained significant attraction due to their wide applicability in different domains. DNN sizes and training samples are constantly growing, making training of such workloads more challenging. Distributed training is a solution to reduce the training time. High-performance distributed training platforms should leverage multi-dimensional hierarchical networks, which interconnect accelerators through different levels of the network, to dramatically reduce expensive NICs required for the scale-out network. However, it comes at the expense of communication overhead between distributed accelerators to exchange gradients or input/output activation. In order to allow for further scaling of the workloads, communication overhead needs to be minimized. In this paper, we motivate the fact that in training platforms, adding more intermediate network dimensions is beneficial for efficiently mitigating the excessive use of expensive NIC resources. Further, we address different challenges of the DNN training on hierarchical networks. We discuss when designing the interconnect, how to distribute network bandwidth resources across different dimensions in order to (i) maximize BW utilization of all dimensions, and (ii) minimizing the overall training time for the target workload. We then implement a framework that, for a given workload, determines the best network configuration that maximizes performance, or performance-per-cost .
翻訳日:2021-09-27 14:02:53 公開日:2021-09-24
# もっと、もっと良いか? DGA検出のための協調機械学習に関する研究

The More, the Better? A Study on Collaborative Machine Learning for DGA Detection ( http://arxiv.org/abs/2109.11830v1 )

ライセンス: Link先を確認
Arthur Drichel, Benedikt Holmes, Justus von Brandt, Ulrike Meyer(参考訳) ドメイン生成アルゴリズム(dgas)は、多数のドメイン名を生成してボットネットとそのマスター間の接続をブロックすることを防ぐ。 DGA生成ドメインから良性を分離するための単一データソースアプローチの試作が提案されている。 協調機械学習(ml)は、分類器の検出率を高め、その偽陽性率(fpr)を低減し、分類器の異なるネットワークへの一般化能力を向上させるために使用できる。 本稿では,総計13,440件の評価を含む総合的な共同学習研究を行い,dga検出の研究領域を補完する。 2つの実世界のシナリオにおいて、3つの異なる最先端の分類器を用いて、11種類の協調学習のバリエーションを評価する。 協調型MLはFPRを最大51.7%削減できることを示す。 しかし、協調MLはDGA検出に有用であるが、全てのアプローチや分類器タイプが等しく利益を得るわけではない。 私たちは、さまざまなコラボレーティブMLアプローチによって引き起こされるプライバシーの脅威について、包括的な研究をまとめました。

Domain generation algorithms (DGAs) prevent the connection between a botnet and its master from being blocked by generating a large number of domain names. Promising single-data-source approaches have been proposed for separating benign from DGA-generated domains. Collaborative machine learning (ML) can be used in order to enhance a classifier's detection rate, reduce its false positive rate (FPR), and to improve the classifier's generalization capability to different networks. In this paper, we complement the research area of DGA detection by conducting a comprehensive collaborative learning study, including a total of 13,440 evaluation runs. In two real-world scenarios we evaluate a total of eleven different variations of collaborative learning using three different state-of-the-art classifiers. We show that collaborative ML can lead to a reduction in FPR by up to 51.7%. However, while collaborative ML is beneficial for DGA detection, not all approaches and classifier types profit equally. We round up our comprehensive study with a thorough discussion of the privacy threats implicated by the different collaborative ML approaches.
翻訳日:2021-09-27 14:02:34 公開日:2021-09-24
# SPECT脳画像における減衰補正のためのベイズ最適化手法

A Bayesian Optimization Approach for Attenuation Correction in SPECT Brain Imaging ( http://arxiv.org/abs/2109.11920v1 )

ライセンス: Link先を確認
Loizos Koutsantonis, Ayman Makki, Tiago Carneiro, Emmanuel Kieffer, Pascal Bouvry(参考訳) 光子減衰と散乱は、SPECTの診断品質に影響を及ぼす2つの主要な物理的要因である。 本稿では,spect脳イメージングにおける減衰補正(boac)のためのベイズ最適化手法を提案する。 BOACは、頭部形状をパラメータ化する先行モデルを使用し、補完的なCTスキャンから解剖学的情報を必要とすることなく、高性能コンピューティング(HPC)を用いて減衰補正画像を再構成する。 BOACは、数値ファントムからシミュレートしたノイズと減衰したシングラムを用いたSPECT脳画像で実証されている。 提案手法により得られたトモグラフィ画像の品質を、適切な画像品質指標を用いて減衰補正を行わないものと比較する。 その結果,非減衰補正MLEM画像と比較して,コントラストが高く,背景アーチファクトも少ない画像を提供するBOACの能力が示された。

Photon attenuation and scatter are the two main physical factors affecting the diagnostic quality of SPECT in its applications in brain imaging. In this work, we present a novel Bayesian Optimization approach for Attenuation Correction (BOAC) in SPECT brain imaging. BOAC utilizes a prior model parametrizing the head geometry and exploits High Performance Computing (HPC) to reconstruct attenuation corrected images without requiring prior anatomical information from complementary CT scans. BOAC is demonstrated in SPECT brain imaging using noisy and attenuated sinograms, simulated from numerical phantoms. The quality of the tomographic images obtained with the proposed method are compared to those obtained without attenuation correction by employing the appropriate image quality metrics. The quantitative results show the capacity of BOAC to provide images exhibiting higher contrast and less background artifacts as compared to the non-attenuation corrected MLEM images.
翻訳日:2021-09-27 14:02:19 公開日:2021-09-24
# 極端に並列な深層強化学習を用いた分節歩行学習

Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning ( http://arxiv.org/abs/2109.11978v1 )

ライセンス: Link先を確認
Nikita Rudin, David Hoeller, Philipp Reist, and Marco Hutter(参考訳) 本研究では,1台のワークステーションGPU上で大規模並列処理を用いることで,実世界のロボットタスクの高速なポリシー生成を実現するトレーニングセットを提示・研究する。 大規模並列システムにおける異なるトレーニングアルゴリズムコンポーネントが最終的なポリシー性能とトレーニング時間に与える影響を分析し,議論する。 さらに,何千ものシミュレーションロボットを並列に学習するのに適した,ゲームに触発された新しいカリキュラムを提案する。 我々は,四足歩行ロボットANYmalを訓練して,挑戦的な地形を歩いた。 平行アプローチでは、平坦な地形を4分以内で、不均一な地形を20分で訓練できる。 これは、以前の作業と比べて、複数の桁のスピードアップを意味します。 最後に、アプローチを検証するために、ポリシーを実際のロボットに転送します。 私たちはトレーニングコードをオープンソースとして公開し、学習脚歩行の分野でのさらなる研究を加速します。

In this work, we present and study a training set-up that achieves fast policy generation for real-world robotic tasks by using massive parallelism on a single workstation GPU. We analyze and discuss the impact of different training algorithm components in the massively parallel regime on the final policy performance and training times. In addition, we present a novel game-inspired curriculum that is well suited for training with thousands of simulated robots in parallel. We evaluate the approach by training the quadrupedal robot ANYmal to walk on challenging terrain. The parallel approach allows training policies for flat terrain in under four minutes, and in twenty minutes for uneven terrain. This represents a speedup of multiple orders of magnitude compared to previous work. Finally, we transfer the policies to the real robot to validate the approach. We open-source our training code to help accelerate further research in the field of learned legged locomotion.
翻訳日:2021-09-27 14:02:07 公開日:2021-09-24
# 説明可能なICD-9分類のための記述型ラベル注意分類器

Description-based Label Attention Classifier for Explainable ICD-9 Classification ( http://arxiv.org/abs/2109.12026v1 )

ライセンス: Link先を確認
Malte Feucht, Zhiliang Wu, Sophia Althammer, Volker Tresp(参考訳) ICD-9コーディングは、患者の診断や治療に関する情報を含む構造化されていないテキストを複数のICD-9コードで注釈付けする、関連する臨床請求業務である。 ICD-9の自動符号化は、CNNとRNNベースのモデルアーキテクチャが最先端のアプローチを表現している活発な研究分野である。 本研究では,臨床ノートなどの騒々しいテキストを扱う際のモデル説明性を改善するために,記述に基づくラベルアテンション分類器を提案する。 提案手法をMIMIC-III-50データセット上で異なるトランスフォーマーベースのエンコーダを用いて評価する。 本手法はaugmented explanationabliltyと共に強力な結果を得る。

ICD-9 coding is a relevant clinical billing task, where unstructured texts with information about a patient's diagnosis and treatments are annotated with multiple ICD-9 codes. Automated ICD-9 coding is an active research field, where CNN- and RNN-based model architectures represent the state-of-the-art approaches. In this work, we propose a description-based label attention classifier to improve the model explainability when dealing with noisy texts like clinical notes. We evaluate our proposed method with different transformer-based encoders on the MIMIC-III-50 dataset. Our method achieves strong results together with augmented explainablilty.
翻訳日:2021-09-27 14:01:52 公開日:2021-09-24
# 破壊面レプリカの3次元顕微鏡解析による法医学的証拠断片の定量一致

Quantitative Matching of Forensic Evidence Fragments Utilizing 3D Microscopy Analysis of Fracture Surface Replicas ( http://arxiv.org/abs/2109.11972v1 )

ライセンス: Link先を確認
Bishoy Dawood and Carlos Llosa-Vite and Geoffrey Z. Thompson and Barbara K. Lograsso and Lauren K. Claytor and John Vanderkolk and William Meeker and Ranjan Maitra and Ashraf Bastawros(参考訳) 破断面は、これらの破断面の比較法医学的分析をサポートするために、正確な定量的比較を提供することができるユニークな詳細を持っている。 本研究では, 破面対とそのレプリカの3次元トポロジカル画像の集合に対して, 統計的解析プロトコルを適用し, 破面対とそのレプリカの定量的統計的比較に信頼性を与える。 10個のステンレス鋼の破断試料を同一の金属棒から制御条件下で破砕し, 標準鋳造法を用いて鋳造した。 6つの3次元トポロジカルマップと50%のオーバーラップが得られた。 分光分析を用いて、表面トポロジーの異なる長さスケールにおけるトポロジー表面の特徴の相関を同定した。 統計的比較のために臨界波長の周波数帯を2つ(直径が2グレーン以上)選択した。 我々の統計モデルは,画像オーバーラップを考慮した行列変数$t$分布を用い,マッチング密度と非マッチング人口密度をモデル化した。 一致した面と一致しない面の確率を特定するための決定規則が開発された。 提案手法は, 鋼板の破断面とそのレプリカを99.96%以上の後方一致確率で正しく分類した。 さらに、この再現技術は、50〜200$\mu$mのほとんどの金属合金との比較範囲をはるかに超える20$\mu$m以上の波長で、き裂表面のトポロジカル詳細を正確に再現する可能性を示している。 破砕物とそのレプリカの法医学的比較の基礎を確立し, 破砕物表面トポロジーの破壊力学に基づく解析を応用し, 信頼性の高い定量的法医学的比較を行った。

Fractured surfaces carry unique details that can provide an accurate quantitative comparison to support comparative forensic analysis of those fractured surfaces. In this study, a statistical analysis comparison protocol was applied to a set of 3D topological images of fractured surface pairs and their replicas to provide confidence in the quantitative statistical comparison between fractured items and their replicas. A set of 10 fractured stainless steel samples was fractured from the same metal rod under controlled conditions and were cast using a standard forensic casting technique. Six 3D topological maps with 50% overlap were acquired for each fractured pair. Spectral analysis was utilized to identify the correlation between topological surface features at different length scales of the surface topology. We selected two frequency bands over the critical wavelength (which is greater than two-grain diameters) for statistical comparison. Our statistical model utilized a matrix-variate-$t$ distribution that accounts for the image-overlap to model the match and non-match population densities. A decision rule was developed to identify the probability of matched and unmatched pairs of surfaces. The proposed methodology correctly classified the fractured steel surfaces and their replicas with a posterior probability of match exceeding 99.96%. Moreover, the replication technique shows the potential to accurately replicate fracture surface topological details with a wavelength greater than 20$\mu$m, which far exceeds the range for comparison of most metallic alloys of 50-200$\mu$m. The developed framework establishes the basis of forensic comparison of fractured articles and their replicas while providing a reliable quantitative statistical forensic comparison, utilizing fracture mechanics-based analysis of the fracture surface topology.
翻訳日:2021-09-27 14:01:41 公開日:2021-09-24
# MORSE-STF:プライバシ保護計算システム

MORSE-STF: A Privacy Preserving Computation System ( http://arxiv.org/abs/2109.11726v1 )

ライセンス: Link先を確認
Qizhi Zhang, Yuan Zhao, Lichun Li, JiaoFu Zhang, Qichao Zhang, Yashun Zhou, Dong Yin, Sijun Tan, Shan Yin(参考訳) データプライバシに対する懸念が高まっているため、プライバシ保護機械学習は研究の一般的な領域となっている。 プライバシ保護機械学習を実現する方法の1つは、セキュアなマルチパーティ計算を使用することである。 MPCに基づくプライバシー保護機械学習フレームワークSecure-TFを提案する。 我々のフレームワークは、ロジスティック回帰、完全接続型ニューラルネットワーク、畳み込み型ニューラルネットワークなど、広く使われている機械学習モデルをサポートすることができる。 本稿では,sgmoid,relu,conv2d および there デリバティブの計算において,ラウンド複雑性が低く,通信も少ない新しい暗号プロトコルを提案する。 これらはすべて、現代の機械学習モデルのための中心的なビルディングブロックである。 我々のシステムは、より効率的なプロトコルにより、従来の最先端のプライバシー保護機械学習フレームワークをWAN設定で上回ることができる。

Privacy-preserving machine learning has become a popular area of research due to the increasing concern over data privacy. One way to achieve privacy-preserving machine learning is to use secure multi-party computation, where multiple distrusting parties can perform computations on data without revealing the data itself. We present Secure-TF, a privacy-preserving machine learning framework based on MPC. Our framework is able to support widely-used machine learning models such as logistic regression, fully-connected neural network, and convolutional neural network. We propose novel cryptographic protocols that has lower round complexity and less communication for computing sigmoid, ReLU, conv2D and there derivatives. All are central building blocks for modern machine learning models. With our more efficient protocols, our system is able to outperform previous state-of-the-art privacy-preserving machine learning framework in the WAN setting.
翻訳日:2021-09-27 14:00:55 公開日:2021-09-24
# 非ユークリッド自己組織化マップ

Non-Euclidean Self-Organizing Maps ( http://arxiv.org/abs/2109.11769v1 )

ライセンス: Link先を確認
Dorota Celi\'nska-Kopczy\'nska Eryk Kopczy\'nski(参考訳) 自己組織化マップ(soms、kohonen networks)は、教師なしクラスのニューラルネットワークモデルに属する。 本稿では,非ユークリッドSOMの一般化構成について述べる。 ほとんどのデータアナリストは、平坦な空間のいくつかの部分領域をデータモデルとして使用するのは当然だと考えるが、基礎となる幾何学が非ユークリッドであると仮定することで、類似性を空間的近傍関係に変換する新しい自由度が得られる。 トポロジ関連拡張を導入することで従来のSOMアルゴリズムを改善する。 この提案は,ビッグデータ(階層的および非階層的の両方)における次元縮小,クラスタリング,類似性の発見に有効である。

Self-Organizing Maps (SOMs, Kohonen networks) belong to neural network models of the unsupervised class. In this paper, we present the generalized setup for non-Euclidean SOMs. Most data analysts take it for granted to use some subregions of a flat space as their data model; however, by the assumption that the underlying geometry is non-Euclidean we obtain a new degree of freedom for the techniques that translate the similarities into spatial neighborhood relationships. We improve the traditional SOM algorithm by introducing topology-related extensions. Our proposition can be successfully applied to dimension reduction, clustering or finding similarities in big data (both hierarchical and non-hierarchical).
翻訳日:2021-09-27 14:00:39 公開日:2021-09-24
# 適応クラスタリングに基づくリダクテッドオーダーモデリングフレームワーク:局所化履歴依存現象の高速かつ正確なモデリング

Adaptive Clustering-based Reduced-Order Modeling Framework: Fast and accurate modeling of localized history-dependent phenomena ( http://arxiv.org/abs/2109.11897v1 )

ライセンス: Link先を確認
Bernardo P. Ferreira, F.M. Andrade Pires, Miguel A. Bessa(参考訳) 本稿では,適応クラスタリングに基づくリダクション・オーダー・モデリング(ACROM)フレームワークを提案し,最近のクラスタリングに基づくリダクション・オーダー・モデル(CROM)のファミリーを大幅に改善し拡張する。 この適応的なフレームワークにより、クラスタリングベースのドメイン分解は問題解全体を通して動的に進化し、関連するフィールドがより急勾配を示す領域における最適な改善が保証される。 これは、高度に局所的な塑性と損傷現象を含む歴史に依存しない非線形問題の高速かつ正確な物質モデリングへの新たな経路を提供する。 全体的なアプローチは、ターゲットクラスタ選択基準、適応クラスタ分析、クラスタ相互作用テンソルの計算の3つの主要な構成要素で構成されている。 さらに,適応的クラスタリング解の巻き戻し手順と動的適応性分割因子戦略を提案し,適応的プロセスをさらに強化した。 ASCA(Adaptive Self-Consistent Clustering Analysis)は, 粒子・マトリックス複合体のマルチスケールの弾塑性挙動を捉え, 関連する破壊と靭性を予測する際に, 静的なそれよりも優れた性能を示すことを示す。 本稿では、ACROMフレームワークがステージを設定し、CROMの文脈で適応性を探究するための新たな道を開く。

This paper proposes a novel Adaptive Clustering-based Reduced-Order Modeling (ACROM) framework to significantly improve and extend the recent family of clustering-based reduced-order models (CROMs). This adaptive framework enables the clustering-based domain decomposition to evolve dynamically throughout the problem solution, ensuring optimum refinement in regions where the relevant fields present steeper gradients. It offers a new route to fast and accurate material modeling of history-dependent nonlinear problems involving highly localized plasticity and damage phenomena. The overall approach is composed of three main building blocks: target clusters selection criterion, adaptive cluster analysis, and computation of cluster interaction tensors. In addition, an adaptive clustering solution rewinding procedure and a dynamic adaptivity split factor strategy are suggested to further enhance the adaptive process. The coined Adaptive Self-Consistent Clustering Analysis (ASCA) is shown to perform better than its static counterpart when capturing the multi-scale elasto-plastic behavior of a particle-matrix composite and predicting the associated fracture and toughness. Given the encouraging results shown in this paper, the ACROM framework sets the stage and opens new avenues to explore adaptivity in the context of CROMs.
翻訳日:2021-09-27 14:00:28 公開日:2021-09-24
# データ駆動音響設計のためのデータ取得設定

A data acquisition setup for data driven acoustic design ( http://arxiv.org/abs/2109.12014v1 )

ライセンス: Link先を確認
Romana Rust, Achilleas Xydis, Kurt Heutschi, Nathana\"el Perraudin, Gonzalo Casas, Chaoyu Du, J\"urgen Strauss, Kurt Eggenschwiler, Fernando Perez-Cruz, Fabio Gramazio, Matthias Kohler(参考訳) 本稿では,拡散面構造と音響特性の関係を研究するための新しい学際的手法を提案する。 計算設計により、表面構造は反復的に生成され、1:10モデルスケールで3dプリントされる。 これらは異なる製造形態から派生し、音響拡散と吸収効果を持つように設計されている。 自動化されたロボットプロセスは、マイクロフォンとスピーカーを複数の場所に配置することで、これらの表面のインパルス応答を測定する。 収集されたデータは2つの目的を果たす: まず、異なる時空間音響シナリオの探索的カタログとして、そして次に、機械学習を用いてデジタル設計された表面ジオメトリの音響応答を予測するデータセットとして。 本稿では,自動データ取得装置,データ処理,および拡散曲面構造の計算生成について述べる。 測定した表面パネルの比較研究の最初の結果と今後の研究の歩みを述べる。

In this paper, we present a novel interdisciplinary approach to study the relationship between diffusive surface structures and their acoustic performance. Using computational design, surface structures are iteratively generated and 3D printed at 1:10 model scale. They originate from different fabrication typologies and are designed to have acoustic diffusion and absorption effects. An automated robotic process measures the impulse responses of these surfaces by positioning a microphone and a speaker at multiple locations. The collected data serves two purposes: first, as an exploratory catalogue of different spatio-temporal-acou stic scenarios and second, as data set for predicting the acoustic response of digitally designed surface geometries using machine learning. In this paper, we present the automated data acquisition setup, the data processing and the computational generation of diffusive surface structures. We describe first results of comparative studies of measured surface panels and conclude with steps of future research.
翻訳日:2021-09-27 14:00:04 公開日:2021-09-24
# グラフに基づく近似メッセージパッシングイテレーション

Graph-based Approximate Message Passing Iterations ( http://arxiv.org/abs/2109.11905v1 )

ライセンス: Link先を確認
C\'edric Gerbelot and Rapha\"el Berthier(参考訳) 近似メッセージパッシング(AMP)アルゴリズムは、その適応性と濃度特性、状態進化(SE)方程式により、高次元統計的推論の重要な要素となっている。 これは、多層推論から精巧な事前計算による低ランク行列推定まで、ますます複雑な問題に対して提案される新しい反復数の増加によって実証される。 本稿では、次のような疑問に対処する: 共通のフレームワークでそれらを統一するAMPイテレーションの基盤となる構造は存在するか? そのような構造を使って状態進化方程式のモジュラーな証明を与え、完全な引数を再現せずに新しいAMP反復に適応できるだろうか? 両質問に対する回答を提案し、AMPインスタンスを汎用的なグラフでインデックス化可能であることを示す。 これにより、彼らが解決する問題とは無関係に、これらのイテレーションを統一的に解釈し、それらを任意に構成する方法を与えることができる。 このようなグラフによってインデックスづけされた全てのamp反復は、厳密なse方程式を認め、以前の証明の範囲を広げ、これらの方程式の最近の多くのヒューリスティック導出を証明する。 我々の証明は自然に非分離関数を含み、空間的結合や行列値変数といった既存の改良が我々のフレームワークとどのように組み合わせられるかを示す。

Approximate-message passing (AMP) algorithms have become an important element of high-dimensional statistical inference, mostly due to their adaptability and concentration properties, the state evolution (SE) equations. This is demonstrated by the growing number of new iterations proposed for increasingly complex problems, ranging from multi-layer inference to low-rank matrix estimation with elaborate priors. In this paper, we address the following questions: is there a structure underlying all AMP iterations that unifies them in a common framework? Can we use such a structure to give a modular proof of state evolution equations, adaptable to new AMP iterations without reproducing each time the full argument ? We propose an answer to both questions, showing that AMP instances can be generically indexed by an oriented graph. This enables to give a unified interpretation of these iterations, independent from the problem they solve, and a way of composing them arbitrarily. We then show that all AMP iterations indexed by such a graph admit rigorous SE equations, extending the reach of previous proofs, and proving a number of recent heuristic derivations of those equations. Our proof naturally includes non-separable functions and we show how existing refinements, such as spatial coupling or matrix-valued variables, can be combined with our framework.
翻訳日:2021-09-27 13:59:49 公開日:2021-09-24
# 凝集クラスタリングを用いた位置追跡によるダイアリゼーション

Diarisation using location tracking with agglomerative clustering ( http://arxiv.org/abs/2109.10598v2 )

ライセンス: Link先を確認
Jeremy H. M. Wong, Igor Abramovski, Xiong Xiao, and Yifan Gong(参考訳) 従来の研究では、空間的位置情報は話者ダイアリゼーションタスクのための話者埋め込みと相補的であることが示されている。 しかし、しばしば使われるモデルは、話し手が会議を通じてかなり静止していると仮定する。 本稿では,agglomerative hierarchical clustering (ahc)ダイアリゼーションフレームワーク内の話者の動きを明示的にモデル化することにより,この仮定を緩和する。 話者の位置を追跡するKalmanフィルタは、AHCマージと停止決定のためのクラスタ親和性計算に寄与するログライクな比率を計算するために使用される。 実験により、提案手法はマイクロソフトのリッチミーティングの転写タスクにおいて、位置情報を使用しない手法や定常性を仮定した手法と比較して改善できることを示した。

Previous works have shown that spatial location information can be complementary to speaker embeddings for a speaker diarisation task. However, the models used often assume that speakers are fairly stationary throughout a meeting. This paper proposes to relax this assumption, by explicitly modelling the movements of speakers within an Agglomerative Hierarchical Clustering (AHC) diarisation framework. Kalman filters, which track the locations of speakers, are used to compute log-likelihood ratios that contribute to the cluster affinity computations for the AHC merging and stopping decisions. Experiments show that the proposed approach is able to yield improvements on a Microsoft rich meeting transcription task, compared to methods that do not use location information or that make stationarity assumptions.
翻訳日:2021-09-27 11:03:32 公開日:2021-09-24
# 音・言語特徴とプレトレーニングBERTを用いたアルツハイマー認知症検出

Alzheimers Dementia Detection using Acoustic & Linguistic features and Pre-Trained BERT ( http://arxiv.org/abs/2109.11010v2 )

ライセンス: Link先を確認
Akshay Valsaraj, Ithihas Madala, Nikhil Garg, Veeky Baths(参考訳) アルツハイマー病は、時間とともに悪化する致命的な進行性脳疾患である。 早期発見とケアのための,安価かつ迅速な臨床診断技術が提供される時期が来た。 これまでの研究では、さまざまな機械学習技術と事前学習されたディープラーニングモデルが、さまざまな音響的特徴と言語的特徴の抽出と併用されている。 本研究は,ADReSS(The Alzheimers Dementia Recognition through Spontaneous Speech)2021 Challengeにおける分類課題の3つのモデルに焦点を当てた。 モデルのトレーニングと検証にはADReSS Challengeが提供するバランスのとれたデータセットを使用します。 Model 1 は eGeMAPs の機能セットの様々な音響的特徴を使い、Model 2 は自動生成した文字起こしから生成した様々な言語的特徴を使い、Model 3 は自動生成した文字起こしを直接使用して、事前訓練されたBERT と TF-IDF を用いて特徴を抽出する。 これらのモデルは、モデルセクションで詳細に説明されます。

Alzheimers disease is a fatal progressive brain disorder that worsens with time. It is high time we have inexpensive and quick clinical diagnostic techniques for early detection and care. In previous studies, various Machine Learning techniques and Pre-trained Deep Learning models have been used in conjunction with the extraction of various acoustic and linguistic features. Our study focuses on three models for the classification task in the ADReSS (The Alzheimers Dementia Recognition through Spontaneous Speech) 2021 Challenge. We use the well-balanced dataset provided by the ADReSS Challenge for training and validating our models. Model 1 uses various acoustic features from the eGeMAPs feature-set, Model 2 uses various linguistic features that we generated from auto-generated transcripts and Model 3 uses the auto-generated transcripts directly to extract features using a Pre-trained BERT and TF-IDF. These models are described in detail in the models section.
翻訳日:2021-09-27 11:03:20 公開日:2021-09-24
# Volctrans GLATシステム:非自己回帰翻訳とWMT21

The Volctrans GLAT System: Non-autoregressive Translation Meets WMT21 ( http://arxiv.org/abs/2109.11247v2 )

ライセンス: Link先を確認
Lihua Qian, Yi Zhou, Zaixiang Zheng, Yaoming Zhu, Zehui Lin, Jiangtao Feng, Shanbo Cheng, Lei Li, Mingxuan Wang and Hao Zhou(参考訳) 本稿では、WMT21ニュース翻訳共有タスクへのVolctransの提出について述べる。 我々はGlancing Transformerを用いて並列(非自己回帰)翻訳システムを構築し、現在普及している自己回帰モデルとは対照的に高速かつ正確な並列復号を可能にする。 我々の知る限りでは、これはWMT競合のような現実的なシナリオにスケールできる最初の並列翻訳システムである。 より重要なことに、我々の並列翻訳システムは、ドイツ語と英語の翻訳タスクにおいて最高のbleuスコア(35.0)を達成し、すべての強力な自己回帰処理を上回っています。

This paper describes the Volctrans' submission to the WMT21 news translation shared task for German->English translation. We build a parallel (i.e., non-autoregressive) translation system using the Glancing Transformer, which enables fast and accurate parallel decoding in contrast to the currently prevailing autoregressive models. To the best of our knowledge, this is the first parallel translation system that can be scaled to such a practical scenario like WMT competition. More importantly, our parallel translation system achieves the best BLEU score (35.0) on German->English translation task, outperforming all strong autoregressive counterparts.
翻訳日:2021-09-27 11:03:04 公開日:2021-09-24
# コンピュータビジョンにおける連続学習の最近の進歩:概要

Recent Advances of Continual Learning in Computer Vision: An Overview ( http://arxiv.org/abs/2109.11369v2 )

ライセンス: Link先を確認
Haoxuan Qu, Hossein Rahmani, Li Xu, Bryan Williams, Jun Liu(参考訳) すべてのトレーニングデータが一度に利用できるバッチ学習とは対照的に、連続学習は知識を蓄積し、逐次的に利用可能なデータで継続的に学習する手法のファミリーを表す。 異なる時間ステップで新しい知識を学習し、融合し、蓄積する能力を持つ人間の学習プロセスと同様に、連続学習は高い実用的意義を持つと考えられている。 したがって、連続学習は様々な人工知能タスクで研究されてきた。 本稿では,コンピュータビジョンにおける連続学習の最近の進歩について概観する。 特に、作品群は、正規化、知識蒸留、記憶、生成再生、パラメータ分離、および上記の技法の組み合わせを含む代表的技術によってグループ化されている。 これらの技術の各カテゴリについて,その特性とコンピュータビジョンへの応用について述べる。 この概要の最後には、連続的な学習が十分に研究されていない間、連続的な知識蓄積が潜在的に有用であるいくつかの亜領域について論じる。

In contrast to batch learning where all training data is available at once, continual learning represents a family of methods that accumulate knowledge and learn continuously with data available in sequential order. Similar to the human learning process with the ability of learning, fusing, and accumulating new knowledge coming at different time steps, continual learning is considered to have high practical significance. Hence, continual learning has been studied in various artificial intelligence tasks. In this paper, we present a comprehensive review of the recent progress of continual learning in computer vision. In particular, the works are grouped by their representative techniques, including regularization, knowledge distillation, memory, generative replay, parameter isolation, and a combination of the above techniques. For each category of these techniques, both its characteristics and applications in computer vision are presented. At the end of this overview, several subareas, where continuous knowledge accumulation is potentially helpful while continual learning has not been well studied, are discussed.
翻訳日:2021-09-27 11:02:51 公開日:2021-09-24
# ライブ音声ポートレイト:リアルタイムフォトリアリスティックトーキングヘッドアニメーション

Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation ( http://arxiv.org/abs/2109.10595v2 )

ライセンス: Link先を確認
Yuanxun Lu, Jinxiang Chai, Xun Cao(参考訳) まず,30fps以上の音声信号のみを駆動する,パーソナライズされたフォトリアリスティックなトーキングヘッドアニメーションを生成するライブシステムを提案する。 私たちのシステムには3つの段階があります。 第1段階はディープニューラルネットワークで、ターゲットの音声空間に特徴を投影する多様体投影と共に、ディープオーディオ特徴を抽出する。 第2段階では、投影された音声特徴から顔の動きと動きを学習する。 予測された動きは頭部ポーズと上半身の動きを含み、前者は対象者の頭部ポーズ分布をモデル化した自己回帰確率モデルによって生成される。 上半身の動きは頭部のポーズから推測される。 最終段階では、前回の予測から条件付き特徴マップを生成し、候補画像セットを画像から画像への変換ネットワークに送り、フォトリアリスティックなレンダリングを合成する。 本手法は,野生の音声によく一般化し,シワや歯など,高忠実度なパーソナライズされた顔詳細をうまく合成する。 また,頭部ポーズの明示的な制御も可能である。 定性的,定量的な評価とユーザスタディは,最先端技術に対する本手法の優位性を実証している。

To the best of our knowledge, we first present a live system that generates personalized photorealistic talking-head animation only driven by audio signals at over 30 fps. Our system contains three stages. The first stage is a deep neural network that extracts deep audio features along with a manifold projection to project the features to the target person's speech space. In the second stage, we learn facial dynamics and motions from the projected audio features. The predicted motions include head poses and upper body motions, where the former is generated by an autoregressive probabilistic model which models the head pose distribution of the target person. Upper body motions are deduced from head poses. In the final stage, we generate conditional feature maps from previous predictions and send them with a candidate image set to an image-to-image translation network to synthesize photorealistic renderings. Our method generalizes well to wild audio and successfully synthesizes high-fidelity personalized facial details, e.g., wrinkles, teeth. Our method also allows explicit control of head poses. Extensive qualitative and quantitative evaluations, along with user studies, demonstrate the superiority of our method over state-of-the-art techniques.
翻訳日:2021-09-27 11:02:35 公開日:2021-09-24
# hybridsdf: 自由形状と幾何学的プリミティブを組み合わせた効果的な形状操作

HybridSDF: Combining Free Form Shapes and Geometric Primitives for effective Shape Manipulation ( http://arxiv.org/abs/2109.10767v2 )

ライセンス: Link先を確認
Subeesh Vasu, Nicolas Talabot, Artem Lukoianov, Pierre Baque, Jonathan Donier, Pascal Fua(参考訳) CADモデリングは通常、単純な幾何学的プリミティブの使用を伴うが、ディープラーニングに基づく3次元表面モデリングの最近の進歩は、新しい形状設計の道を開いた。 残念なことに、これらの進歩はCADコミュニティではまだ受け入れられていない。 そこで本稿では,解釈可能性の維持,一貫性の強化,操作の容易化を図るために,暗黙曲面で表される幾何学的プリミティブと自由曲面を効果的に組み合わせる手法を提案する。

CAD modeling typically involves the use of simple geometric primitives whereas recent advances in deep-learning based 3D surface modeling have opened new shape design avenues. Unfortunately, these advances have not yet been accepted by the CAD community because they cannot be integrated into engineering workflows. To remedy this, we propose a novel approach to effectively combining geometric primitives and free-form surfaces represented by implicit surfaces for accurate modeling that preserves interpretability, enforces consistency, and enables easy manipulation.
翻訳日:2021-09-27 11:01:43 公開日:2021-09-24
# パラボリックPIDEのためのディープニューラルネットワークアルゴリズムと保険数学への応用

Deep Neural Network Algorithms for Parabolic PIDEs and Applications in Insurance Mathematics ( http://arxiv.org/abs/2109.11403v2 )

ライセンス: Link先を確認
R\"udiger Frey and Verena K\"ock(参考訳) 近年,数値解偏微分方程式の深層学習法に関する研究が盛んに行われており,一方で積分微分方程式の結果は乏しい。 本稿では,線形および半線形放物型部分積分微分方程式を高次元境界条件で解くディープニューラルネットワークアルゴリズムについて検討する。 本研究の実施可能性を示すため,保険と金融のケーススタディについて論じる。

In recent years a large literature on deep learning based methods for the numerical solution partial differential equations has emerged; results for integro-differential equations on the other hand are scarce. In this paper we study deep neural network algorithms for solving linear and semilinear parabolic partial integro-differential equations with boundary conditions in high dimension. To show the viability of our approach we discuss several case studies from insurance and finance.
翻訳日:2021-09-27 11:01:33 公開日:2021-09-24