このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200304となっている論文です。

PDF登録状況(公開日: 20200304)

TitleAuthorsAbstract論文公表日・翻訳日
# 対話型データ解析インタフェース生成のためのモンテカルロ木探索

Monte Carlo Tree Search for Generating Interactive Data Analysis Interfaces ( http://arxiv.org/abs/2001.01902v2 )

ライセンス: Link先を確認
Yiru Chen, Eugene Wu(参考訳) ユーザインターフェースのようなインタラクティブなツールは、基盤となるプログラミングの詳細を隠蔽し、必要なウィジェットインターフェースをユーザに公開することにより、エンドユーザのデータアクセスを民主化するのに役立つ。 カスタマイズされたインターフェースの構築にはコストがかかるため、インターフェースの自動生成が望ましい。 sqlはデータ分析の主要な方法であり、データ分析のためのログはすでに存在する。 以前の作業では、SQLクエリログの構造的変更を分析し、変更を表現するためにウィジェットのセットを自動的に生成する構文的アプローチが提案されていた。 しかし、レイアウトのユーザビリティとログ内のクエリのシーケンシャルな順序は考慮していない。 我々はモンテカルロ木探索(MCTS)を用いて,階層的なレイアウトとクエリログの表現がいかに容易かという点で,ユーザビリティを考慮に入れた最適なインターフェースを探索する。

Interactive tools like user interfaces help democratize data access for end-users by hiding underlying programming details and exposing the necessary widget interface to users. Since customized interfaces are costly to build, automated interface generation is desirable. SQL is the dominant way to analyze data and there already exists logs to analyze data. Previous work proposed a syntactic approach to analyze structural changes in SQL query logs and automatically generates a set of widgets to express the changes. However, they do not consider layout usability and the sequential order of queries in the log. We propose to adopt Monte Carlo Tree Search(MCTS) to search for the optimal interface that accounts for hierarchical layout as well as the usability in terms of how easy to express the query log.
翻訳日:2023-01-13 21:09:53 公開日:2020-03-04
# 対話システムのパラメータに対する注意

Attention over Parameters for Dialogue Systems ( http://arxiv.org/abs/2001.01871v2 )

ライセンス: Link先を確認
Andrea Madotto, Zhaojiang Lin, Chien-Sheng Wu, Jamin Shin, Pascale Fung(参考訳) 対話システムは、人間を助け、知らせ、楽しませるために、様々な異なるが補完的な専門知識を必要としている。 例えば、ゴール指向対話システムの異なるドメイン(レストラン予約、列車券予約など)を異なるスキルと見なすことができ、チットチャット対話システムの通常のチャット能力もそうである。 本稿では,異なる対話スキルを個別にパラメータ化する対話システムを学習し,AoP(Attention over Parameters)を通してそれぞれの対話スキルを選択し,組み合わせることを学ぶ。 実験の結果,MultiWOZ,In-Car Assistant,Persona-Chatの複合データセット上での競合性能が得られた。 最後に,各対話スキルを効果的に習得し,他のスキルと組み合わせることで選択的な反応が得られることを示す。

Dialogue systems require a great deal of different but complementary expertise to assist, inform, and entertain humans. For example, different domains (e.g., restaurant reservation, train ticket booking) of goal-oriented dialogue systems can be viewed as different skills, and so does ordinary chatting abilities of chit-chat dialogue systems. In this paper, we propose to learn a dialogue system that independently parameterizes different dialogue skills, and learns to select and combine each of them through Attention over Parameters (AoP). The experimental results show that this approach achieves competitive performance on a combined dataset of MultiWOZ, In-Car Assistant, and Persona-Chat. Finally, we demonstrate that each dialogue skill is effectively learned and can be combined with other skills to produce selective responses.
翻訳日:2023-01-13 20:07:29 公開日:2020-03-04
# 量子ディスコードとしての原始重力波のスクイーズ

Squeezing of primordial gravitational waves as quantum discord ( http://arxiv.org/abs/2001.02474v2 )

ライセンス: Link先を確認
Akira Matsumura, Yasusada Nambu(参考訳) 本研究では, 原始重力波(PGW)の量子不協和性について検討した。 量子不協和のないPGWの古典状態を構築し、Bunch-Davies真空と比較する。 次に, pgwsによって誘起される宇宙マイクロ波背景(cmb)ゆらぎの角パワースペクトルの振動挙動が, pgwsの量子不一致のシグネチャとなることを示す。 さらに,超ホリゾンモードにおけるpgwsのエンタングルメントと量子不一致に対する量子デコヒーレンスの効果について考察する。 脱コヒーレンス効果を有するPGWについて, C. Kieferらによって導入された脱コヒーレンス条件と相関条件について検討した。 量子グラブ。 24 (2007) 1699). PGWの分離性にはデコヒーレンス条件が不十分であること,および相関条件は,物質支配時代のPGWが量子不協和性を持つことを示す。

We investigate the squeezing of primordial gravitational waves (PGWs) in terms of quantum discord. We construct a classical state of PGWs without quantum discord and compare it with the Bunch-Davies vacuum. Then it is shown that the oscillatory behavior of the angular-power spectrum of the cosmic microwave background (CMB) fluctuations induced by PGWs can be the signature of the quantum discord of PGWs. In addition, we discuss the effect of quantum decoherence on the entanglement and the quantum discord of PGWs for super-horizon modes. For the state of PGWs with decoherence effect, we examine the decoherence condition and the correlation condition introduced by C. Kiefer et al. (Class. Quantum Grav. 24 (2007) 1699). We show that the decoherence condition is not sufficient for the separability of PGWs and the correlation condition implies that the PGWs in the matter-dominated era have quantum discord.
翻訳日:2023-01-13 13:15:31 公開日:2020-03-04
# フェデレートラーニングを用いたスマートシティにおけるラベルなしデータのエクスプロイト

Exploiting Unlabeled Data in Smart Cities using Federated Learning ( http://arxiv.org/abs/2001.04030v2 )

ライセンス: Link先を確認
Abdullatif Albaseer, Bekir Sait Ciftler, Mohamed Abdallah, and Ala Al-Fuqaha(参考訳) プライバシーの懸念はスマートシティにおける主要な課題の1つと考えられており、機密データを共有することは人々の生活に脅威をもたらす。 連合学習は、プライバシー侵害を回避し、データの利用を増やす効果的な手法として登場した。 しかし、ラベル付きデータの量や、スマートシティで収集されたラベルなしデータの量が不足しているため、半教師付き学習を使う必要がある。 ラベルなしデータを利用した半教師付きフェデレーション学習手法FedSemを提案する。 アルゴリズムは、ラベル付きデータに基づいて第1フェーズがグローバルモデルを訓練する2つのフェーズに分けられる。 第2フェーズでは,擬似ラベリング手法に基づく半教師付き学習を用いてモデル改善を行う。 我々は,FedSemが学習過程におけるラベルなしデータを利用することで,精度を最大8%向上できることを示すために,交通標識データセットを用いていくつかの実験を行った。

Privacy concerns are considered one of the main challenges in smart cities as sharing sensitive data brings threatening problems to people's lives. Federated learning has emerged as an effective technique to avoid privacy infringement as well as increase the utilization of the data. However, there is a scarcity in the amount of labeled data and an abundance of unlabeled data collected in smart cities, hence there is a need to use semi-supervised learning. We propose a semi-supervised federated learning method called FedSem that exploits unlabeled data. The algorithm is divided into two phases where the first phase trains a global model based on the labeled data. In the second phase, we use semi-supervised learning based on the pseudo labeling technique to improve the model. We conducted several experiments using traffic signs dataset to show that FedSem can improve accuracy up to 8% by utilizing the unlabeled data in the learning process.
翻訳日:2023-01-12 23:50:27 公開日:2020-03-04
# imaginenet:neural style transferを使ったリストラアプリ

ImagineNet: Restyling Apps Using Neural Style Transfer ( http://arxiv.org/abs/2001.04932v2 )

ライセンス: Link先を確認
Michael H. Fischer, Richard R. Yang, Monica S. Lam(参考訳) 本稿では,新しいニューラルスタイルトランスファーモデルを用いて,エンドユーザとアプリケーション開発者が選択したイメージを使用してguiをリスタイル可能にするツールであるimaginenetを提案する。 従来のニューラルスタイルの転送技術はこの応用には不十分である。 スタイルと出力画像間のcnnにおける特徴の非中心的相互分散における二乗誤差を最小化する、新たな損失項を元の定式化に追加することにより、ニューラルネットワークを提案する。 ImagineNetはGUIの詳細を保持し、アートの色とテクスチャを転送する。 我々は、ImagineNetで書き直されたGUIと、他のスタイル転送テクニックを50個の評価器に提示した。 本論文では,(1)アプリのグラフィカルアセット,(2)ユーザ提供コンテンツのアプリ,(3)動的に生成されたguiを備えたアプリのリスタイルにimaginenetを使用する方法を示す。

This paper presents ImagineNet, a tool that uses a novel neural style transfer model to enable end-users and app developers to restyle GUIs using an image of their choice. Former neural style transfer techniques are inadequate for this application because they produce GUIs that are illegible and hence nonfunctional. We propose a neural solution by adding a new loss term to the original formulation, which minimizes the squared error in the uncentered cross-covariance of features from different levels in a CNN between the style and output images. ImagineNet retains the details of GUIs, while transferring the colors and textures of the art. We presented GUIs restyled with ImagineNet as well as other style transfer techniques to 50 evaluators and all preferred those of ImagineNet. We show how ImagineNet can be used to restyle (1) the graphical assets of an app, (2) an app with user-supplied content, and (3) an app with dynamically generated GUIs.
翻訳日:2023-01-11 12:16:51 公開日:2020-03-04
# ベイズ非パラメトリックのための分散部分崩壊MCMC

Distributed, partially collapsed MCMC for Bayesian Nonparametrics ( http://arxiv.org/abs/2001.05591v3 )

ライセンス: Link先を確認
Avinava Dubey, Michael Minyi Zhang, Eric P. Xing, Sinead A. Williamson(参考訳) ベイズ非パラメトリック(BNP)モデルは、データセット内の下層の潜在的特徴を発見するためのエレガントな方法を提供するが、そのようなモデルにおける推論は遅くなる。 ディリクレ法やベータ・ベルヌーリ法のようなモデルでよく用いられる完全無作為測度は独立な部分測度に分解可能であるという事実を利用する。 この分解を用いて潜在測度を、インスタンス化された成分のみを含む有限測度と、他のすべての成分を含む無限測度に分割する。 次に、2つの成分に対して異なる推論アルゴリズムを選択します: 崩壊したサンプルは有限測度でうまく混合し、崩壊したサンプルは無限小に占有されたテールでうまく混合します。 得られたハイブリッドアルゴリズムは、広範囲のモデルに適用することができ、漸近収束保証を犠牲にすることなく、スケーラブルな推論を可能にするために容易に分散することができる。

Bayesian nonparametric (BNP) models provide elegant methods for discovering underlying latent features within a data set, but inference in such models can be slow. We exploit the fact that completely random measures, which commonly used models like the Dirichlet process and the beta-Bernoulli process can be expressed as, are decomposable into independent sub-measures. We use this decomposition to partition the latent measure into a finite measure containing only instantiated components, and an infinite measure containing all other components. We then select different inference algorithms for the two components: uncollapsed samplers mix well on the finite measure, while collapsed samplers mix well on the infinite, sparsely occupied tail. The resulting hybrid algorithm can be applied to a wide class of models, and can be easily distributed to allow scalable inference without sacrificing asymptotic convergence guarantees.
翻訳日:2023-01-11 05:55:48 公開日:2020-03-04
# GaAsおよびシリコン中の電子及び孔に対する第一原理超微細テンソル

First-principles hyperfine tensors for electrons and holes in GaAs and silicon ( http://arxiv.org/abs/2001.05963v2 )

ライセンス: Link先を確認
Pericles Philippopoulos, Stefano Chesi, W. A. Coish(参考訳) 半導体ナノ構造における超微細構造の理解(および制御)は、電子、ホール、核スピン状態を用いた量子情報処理の基礎研究において重要である。 第一原理密度汎関数理論(DFT)と$\mathbf{k}\cdot\mathbf{p}$理論の組み合わせにより、GaAsおよび結晶シリコンの電子と孔の超微細テンソルを計算した。 核近傍での相対論的効果を考慮すると、GaAsの電子に対する接触超微粒子相互作用は、GaAs量子井戸上で行われたナイトシフト測定と一致し、InSbの測定から外挿された以前の推定値とほぼ一致している。 DFTと$\mathbf{k}\cdot\mathbf{p}$理論の組み合わせは、バルクナイトシフト測定と一致するシリコンの伝導バンド最小値における電子の接触超微粒子相互作用を正確に決定するために必要である。 GaAsのホールスピンについて、DFTから得られる超微粒子カップリングの全体的な大きさは、自由原子の性質に基づく以前の理論と一致し、GaAs(およびInGaAs)量子ドットで測定された重いホールオーバーハウザーシフトと一致する。 さらに,ga核スピンへの重孔超微粒子結合はより強く,ほぼ純粋にイジング様であるのに対し,ga核スピンへの(ウェカー)結合は大きな非イジング補正を有することを理論的に予測した。 シリコンのホールスピンの場合、(当然ながら)原子価帯の超微細構造相互作用の強さは導電帯のそれと同等であり、超微細構造テンソルは重孔部分空間において高度に異方性(イジング様)である。 これらの結果は、近年のシリコン量子ドットの重孔で測定されたコヒーレンス(T_2^{\ast}$)の制限機構として超微細結合を除外できないことを示唆している。

Understanding (and controlling) hyperfine interactions in semiconductor nanostructures is important for fundamental studies of material properties as well as for quantum information processing with electron, hole, and nuclear-spin states. Through a combination of first-principles density-functional theory (DFT) and $\mathbf{k}\cdot\mathbf{p}$ theory, we have calculated hyperfine tensors for electrons and holes in GaAs and crystalline silicon. Accounting for relativistic effects near the nuclear core, we find contact hyperfine interactions for electrons in GaAs that are consistent with Knight-shift measurements performed on GaAs quantum wells and are roughly consistent with prior estimates extrapolated from measurements on InSb. We find that a combination of DFT and $\mathbf{k}\cdot\mathbf{p}$ theory is necessary to accurately determine the contact hyperfine interaction for electrons at a conduction-band minimum in silicon that is consistent with bulk Knight-shift measurements. For hole spins in GaAs, the overall magnitude of the hyperfine couplings we find from DFT is consistent with previous theory based on free-atom properties, and with heavy-hole Overhauser shifts measured in GaAs (and InGaAs) quantum dots. In addition, we theoretically predict that the heavy-hole hyperfine coupling to the As nuclear spins is stronger and almost purely Ising-like, while the (weaker) coupling to the Ga nuclear spins has significant non-Ising corrections. In the case of hole spins in silicon, we find (surprisingly) that the strength of the hyperfine interaction in the valence band is comparable to that in the conduction band and that the hyperfine tensors are highly anisotropic (Ising-like) in the heavy-hole subspace. These results suggest that the hyperfine coupling cannot be ruled out as a limiting mechanism for coherence ($T_2^{\ast}$) times recently measured for heavy holes in silicon quantum dots.
翻訳日:2023-01-11 01:06:42 公開日:2020-03-04
# ノイズ不整合に基づく科学的画像改ざん検出:手法とデータセット

Scientific Image Tampering Detection Based On Noise Inconsistencies: A Method And Datasets ( http://arxiv.org/abs/2001.07799v2 )

ライセンス: Link先を確認
Ziyue Xiang, Daniel E. Acuna(参考訳) 科学的イメージ改ざんは、著者だけでなく研究コミュニティの一般的な認識にも影響を及ぼす問題である。 従来の研究者は自然画像の改ざんを識別する方法を開発してきたが、科学的画像には統計、形式、品質、意図が異なるため、科学的条件下では成長しない可能性がある。 そこで本研究では,様々な科学分野の学習と一般化が可能な,ノイズ不整合に基づく科学的画像特異的改ざん検出手法を提案する。 本手法は,科学における問題画像のエミュレートを目的とした,西洋ブロックと顕微鏡画像を用いた新しいデータセットを訓練し,検証する。 実験の結果,提案手法は様々なシナリオにおける様々な画像操作を頑健に検出でき,既存の汎用画像改ざん検出手法よりも優れていることがわかった。 本稿では,これらの2種類の画像を超える応用について論じ,問題画像の検出をピアレビューと科学全般の体系的なステップとする次のステップを提案する。

Scientific image tampering is a problem that affects not only authors but also the general perception of the research community. Although previous researchers have developed methods to identify tampering in natural images, these methods may not thrive under the scientific setting as scientific images have different statistics, format, quality, and intentions. Therefore, we propose a scientific-image specific tampering detection method based on noise inconsistencies, which is capable of learning and generalizing to different fields of science. We train and test our method on a new dataset of manipulated western blot and microscopy imagery, which aims at emulating problematic images in science. The test results show that our method can detect various types of image manipulation in different scenarios robustly, and it outperforms existing general-purpose image tampering detection schemes. We discuss applications beyond these two types of images and suggest next steps for making detection of problematic images a systematic step in peer review and science in general.
翻訳日:2023-01-08 00:29:10 公開日:2020-03-04
# CorGAN:総合医療記録作成のための相関キャプチャ・コンボリューショナル・ジェネレーション・ネットワーク

CorGAN: Correlation-Capturing Convolutional Generative Adversarial Networks for Generating Synthetic Healthcare Records ( http://arxiv.org/abs/2001.09346v2 )

ライセンス: Link先を確認
Amirsina Torfi, Edward A. Fox(参考訳) ディープラーニングモデルは、画像分類や音声処理などの領域で高品質な性能を示す。 しかし、電子健康記録(EHR)データを用いたディープラーニングモデルを作成するには、この領域の研究者特有の特定のプライバシー問題に対処する必要がある。 この問題は、プライバシーを確保しながらリアルな合成データを生成することに焦点を当てている。 本稿では,CorGAN (Relationed-capturing Generative Adversarial Network) という,人工的な医療記録を生成する新しいフレームワークを提案する。 corganでは,畳み込みニューラルネットワークを用いて,畳み込み生成型adversarial networkと畳み込み型オートエンコーダを組み合わせたデータ表現空間における隣接する医療的特徴の相関関係を捉える。 モデル忠実度を示すために,CorGANは,分類や予測などの機械学習環境において,実データと同様の性能の合成データを生成する。 また,合成データの現実的特性に関する統計分析について,プライバシー評価と報告を行う。 この作業のソフトウェアはオープンソースであり、https://github.com/astorfi/cor-gan.com/で入手できる。

Deep learning models have demonstrated high-quality performance in areas such as image classification and speech processing. However, creating a deep learning model using electronic health record (EHR) data, requires addressing particular privacy challenges that are unique to researchers in this domain. This matter focuses attention on generating realistic synthetic data while ensuring privacy. In this paper, we propose a novel framework called correlation-capturing Generative Adversarial Network (CorGAN), to generate synthetic healthcare records. In CorGAN we utilize Convolutional Neural Networks to capture the correlations between adjacent medical features in the data representation space by combining Convolutional Generative Adversarial Networks and Convolutional Autoencoders. To demonstrate the model fidelity, we show that CorGAN generates synthetic data with performance similar to that of real data in various Machine Learning settings such as classification and prediction. We also give a privacy assessment and report on statistical analysis regarding realistic characteristics of the synthetic data. The software of this work is open-source and is available at: https://github.com/astorfi/cor-gan.
翻訳日:2023-01-07 00:09:53 公開日:2020-03-04
# 学習トークン化によるニューラル手話翻訳

Neural Sign Language Translation by Learning Tokenization ( http://arxiv.org/abs/2002.00479v2 )

ライセンス: Link先を確認
Alptekin Orbay and Lale Akarun(参考訳) 手話翻訳は最近かなりの成功を収め、聴覚障害者とのコミュニケーションが改善されることを期待している。 トークン化と呼ばれる前処理ステップは、翻訳の成功を改善する。 トークンは、教師付きデータが利用可能であれば、手話ビデオから学べる。 しかし、グロスレベルでのデータアノテーションはコストがかかり、注釈付きデータは少ない。 本稿では,Adversarial, Multitask, Transfer Learning を用いて,ラベル付けの負担を伴わずに半教師付きトークン化手法を探索する。 異なる設定のすべてのメソッドを比較し、より深い分析を行うための広範な実験を提供する。 文以外の追加の目標アノテーションがない場合,提案手法は13.25 BLUE-4および36.28 ROUGEスコアを達成し,BLUE-4の4点,ROUGEの5点に改善する。

Sign Language Translation has attained considerable success recently, raising hopes for improved communication with the Deaf. A pre-processing step called tokenization improves the success of translations. Tokens can be learned from sign videos if supervised data is available. However, data annotation at the gloss level is costly, and annotated data is scarce. The paper utilizes Adversarial, Multitask, Transfer Learning to search for semi-supervised tokenization approaches without burden of additional labeling. It provides extensive experiments to compare all the methods in different settings to conduct a deeper analysis. In the case of no additional target annotation besides sentences, the proposed methodology attains 13.25 BLUE-4 and 36.28 ROUGE scores which improves the current state-of-the-art by 4 points in BLUE-4 and 5 points in ROUGE.
翻訳日:2023-01-04 20:15:15 公開日:2020-03-04
# 英国中小企業におけるビッグデータ・アナリティクスのデジタル化と普及の動向--53中小企業を事例として-

Trends of digitalization and adoption of big data & analytics among UK SMEs: Analysis and lessons drawn from a case study of 53 SMEs ( http://arxiv.org/abs/2002.11623v2 )

ライセンス: Link先を確認
Muhidin Mohamed, Philip Weber(参考訳) 中小企業は、オンライントランザクション、ソーシャルメディアマーケティングと関連する顧客インタラクション、オンライン製品またはサービスレビューとフィードバック、臨床診断、IoT(Internet of Things)センサー、および生産プロセスから、前例のない速度でデジタルデータを生成する。 これらのデータはすべて、適切なデータバリューチェーンに組み込むと、金銭的価値に変換できる。 これは、ビジネスの長期的な利益のために、スキルとIT投資の両方を必要とします。 しかし、こうした支出は、限られた資源と金融へのアクセス制限のため、ほとんどの中小企業の能力を超えている。 本稿では,3年間のERDFプロジェクトであるBig Data Corridorの一環として,主にイングランドのウェスト・ミッドランズ地域の53の中小企業を対象に,ビッグデータ管理,分析,関連するIT問題に関するケーススタディから得られた教訓を紹介する。 本研究のサンプル企業に基づいて,デジタル技術の動向,英国中小企業が直面する課題,データ分析とビッグデータへの採用状況など,いくつかの視点が論文に提示されている。

Small and Medium Enterprises (SMEs) now generate digital data at an unprecedented rate from online transactions, social media marketing and associated customer interactions, online product or service reviews and feedback, clinical diagnosis, Internet of Things (IoT) sensors, and production processes. All these forms of data can be transformed into monetary value if put into a proper data value chain. This requires both skills and IT investments for the long-term benefit of businesses. However, such spending is beyond the capacity of most SMEs due to their limited resources and restricted access to finances. This paper presents lessons learned from a case study of 53 UK SMEs, mostly from the West Midlands region of England, supported as part of a 3-year ERDF project, Big Data Corridor, in the areas of big data management, analytics and related IT issues. Based on our study's sample companies, several perspectives including the digital technology trends, challenges facing the UK SMEs, and the state of their adoption in data analytics and big data, are presented in the paper.
翻訳日:2023-01-01 04:57:01 公開日:2020-03-04
# コア外に格納された行列の階数-階数分解

Computing rank-revealing factorizations of matrices stored out-of-core ( http://arxiv.org/abs/2002.06960v2 )

ライセンス: Link先を確認
Nathan Heavner, Per-Gunnar Martinsson, Gregorio Quintana-Ort\'i(参考訳) 本稿では,RAMに収まるには大きすぎる行列の階乗分解を効率よく計算するアルゴリズムについて述べる。 列のピボットQR因子分解や行列の完全特異値分解の計算技術のような階数分解を計算するための伝統的なアルゴリズムは非常に通信集約的である。 これらは行列ベクトル演算のシーケンスとして自然に表現され、メインメモリでデータが利用できない場合、非常に高価になる。 ランダム化により、これらの手法は行列の大きな連続ブロックをバルクで処理できるように再構成される。 この論文は2つの異なる方法を説明する。 ひとつはブロックされたcolumn pivoted householder qrで、書き込み操作数(回転ディスクドライブの読み取り操作よりも高価)を最小限に抑えるための"左に見える"メソッドとして構成されている。 2つ目の方法は、いわゆる utv 因子分解で、行列 $a$ as $a = u t v^*$ ここで $u$ と $v$ はユニタリであり、$t$ は三角である。 この方法は、浮動小数点演算が読み書き操作と重なるアルゴリズム・バイ・ブロックとして構成される。 第2の方法は、パワーイテレーションを組み込んでおり、数値ランクを明らかにするのに非常に適しており、完全な特異値分解の代用としてしばしば用いられる。 数値実験により、従来のアルゴリズムはメインメモリに格納されたデータと同じ速度でハードドライブに格納されたデータを処理することができる。 正確に言うと、$n\times n$マトリクスを完全に分解する計算時間は$cn^{3}$となり、スケーリング定数 $c$ はマトリクスがコアに格納されていればわずかに大きくなる。

This paper describes efficient algorithms for computing rank-revealing factorizations of matrices that are too large to fit in RAM, and must instead be stored on slow external memory devices such as solid-state or spinning disk hard drives (out-of-core or out-of-memory). Traditional algorithms for computing rank revealing factorizations, such as the column pivoted QR factorization, or techniques for computing a full singular value decomposition of a matrix, are very communication intensive. They are naturally expressed as a sequence of matrix-vector operations, which become prohibitively expensive when data is not available in main memory. Randomization allows these methods to be reformulated so that large contiguous blocks of the matrix can be processed in bulk. The paper describes two distinct methods. The first is a blocked version of column pivoted Householder QR, organized as a "left-looking" method to minimize the number of write operations (which are more expensive than read operations on a spinning disk drive). The second method results in a so called UTV factorization which expresses a matrix $A$ as $A = U T V^*$ where $U$ and $V$ are unitary, and $T$ is triangular. This method is organized as an algorithm-by-blocks, in which floating point operations overlap read and write operations. The second method incorporates power iterations, and is exceptionally good at revealing the numerical rank; it can often be used as a substitute for a full singular value decomposition. Numerical experiments demonstrate that the new algorithms are almost as fast when processing data stored on a hard drive as traditional algorithms are for data stored in main memory. To be precise, the computational time for fully factorizing an $n\times n$ matrix scales as $cn^{3}$, with a scaling constant $c$ that is only marginally larger when the matrix is stored out of core.
翻訳日:2022-12-31 13:11:59 公開日:2020-03-04
# 継続的に学ぶことを学ぶ

Learning to Continually Learn ( http://arxiv.org/abs/2002.09571v2 )

ライセンス: Link先を確認
Shawn Beaulieu, Lapo Frati, Thomas Miconi, Joel Lehman, Kenneth O. Stanley, Jeff Clune, Nick Cheney(参考訳) 連続的な生涯学習は、エージェントやモデルが、悲惨なほど忘れることなく、過去の知識に基づいて、連続的に順序づけられたタスクを学習する必要がある。 機械学習モデルのデフォルトの傾向が壊滅的に忘れてしまうのを防ぐため、多くの作業が続けられてきた。 メタラーニングは破滅的な忘れ方に対する解決策であり、AIが継続的に学ぶことを可能にします。 脳内の神経調節過程に着想を得て,神経調節メタラーニングアルゴリズム(ANML)を提案する。 シーケンシャルな学習プロセスを通じて、深層ニューラルネットワーク内でコンテキスト依存的な選択的活性化を可能にするアクティベーションゲーティング関数をメタ学習する。 具体的には、ニューロモジュレータ(nm)ニューラルネットワークは、予測学習ネットワーク(pln)と呼ばれる他の(その他の通常の)ニューラルネットワークのフォワードパスをゲートする。 これにより、NMネットワークはPLNの選択的可塑性(すなわち後方通過)を間接的に制御する。 ANMLは、大惨なことを忘れずに連続的な学習を可能にし、最先端の継続的学習パフォーマンスを生成し、600のクラスを逐次学習する(9000以上のSGD更新)。

Continual lifelong learning requires an agent or model to learn many sequentially ordered tasks, building on previous knowledge without catastrophically forgetting it. Much work has gone towards preventing the default tendency of machine learning models to catastrophically forget, yet virtually all such work involves manually-designed solutions to the problem. We instead advocate meta-learning a solution to catastrophic forgetting, allowing AI to learn to continually learn. Inspired by neuromodulatory processes in the brain, we propose A Neuromodulated Meta-Learning Algorithm (ANML). It differentiates through a sequential learning process to meta-learn an activation-gating function that enables context-dependent selective activation within a deep neural network. Specifically, a neuromodulatory (NM) neural network gates the forward pass of another (otherwise normal) neural network called the prediction learning network (PLN). The NM network also thus indirectly controls selective plasticity (i.e. the backward pass of) the PLN. ANML enables continual learning without catastrophic forgetting at scale: it produces state-of-the-art continual learning performance, sequentially learning as many as 600 classes (over 9,000 SGD updates).
翻訳日:2022-12-30 00:08:50 公開日:2020-03-04
# 意味部分空間解析による効率的な文埋め込み

Efficient Sentence Embedding via Semantic Subspace Analysis ( http://arxiv.org/abs/2002.09620v2 )

ライセンス: Link先を確認
Bin Wang and Fenxiao Chen and Yuncheng Wang and C.-C. Jay Kuo(参考訳) 本稿では,意味部分空間解析に基づく意味部分空間文埋め込み(s3e)という新しい文埋め込み手法を提案する。 単語埋め込みは意味的関係を捉えることができ、意味的に類似した単語は高次元埋め込み空間において意味群を形成する傾向があることを考慮し、その構成語の意味的部分空間を解析して文表現法を開発する。 具体的には2つの側面から文モデルを構築する。 まず、グループ内記述子を用いて、同じ意味群に属する単語を表現する。 次に,複数の意味群間の相互作用をグループ間記述子で特徴付ける。 提案手法はテキスト類似性タスクと教師付きタスクの両方で評価される。 実験の結果、最新技術と同等あるいは優れた性能が得られた。 S3E法の複雑さは他のパラメータ化モデルよりもはるかに低い。

A novel sentence embedding method built upon semantic subspace analysis, called semantic subspace sentence embedding (S3E), is proposed in this work. Given the fact that word embeddings can capture semantic relationship while semantically similar words tend to form semantic groups in a high-dimensional embedding space, we develop a sentence representation scheme by analyzing semantic subspaces of its constituent words. Specifically, we construct a sentence model from two aspects. First, we represent words that lie in the same semantic group using the intra-group descriptor. Second, we characterize the interaction between multiple semantic groups with the inter-group descriptor. The proposed S3E method is evaluated on both textual similarity tasks and supervised tasks. Experimental results show that it offers comparable or better performance than the state-of-the-art. The complexity of our S3E method is also much lower than other parameterized models.
翻訳日:2022-12-29 19:29:54 公開日:2020-03-04
# 敵対的ロバストな深層学習におけるオーバーフィット

Overfitting in adversarially robust deep learning ( http://arxiv.org/abs/2002.11569v2 )

ライセンス: Link先を確認
Leslie Rice, Eric Wong, J. Zico Kolter(参考訳) ディープラーニングでは、過剰パラメータネットワークを使用して可能な限りトレーニングすることが一般的であり、理論的にも経験的にも、これらのプラクティスが分類器の一般化性能に明らかに影響を与えないことを示す多くの研究がある。 本稿では,この現象を,最悪の場合の摂動による損失を最小限に抑えるように訓練した,敵対的訓練を受けた深層ネットワークの設定において経験的に研究する。 トレーニングセットへのオーバーフィットは、複数のデータセット(SVHN、CIFAR-10、CIFAR-100、ImageNet)と摂動モデル(\ell_\infty$および$\ell_2$)をまたいで、逆向きに堅牢なトレーニングにおいて、非常に大きなロバストパフォーマンスを損なう。 この観測結果から, 逆行訓練における最近のアルゴリズム改善は, ほぼすべて, 早期停止を用いて達成できることが示唆された。 また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, オーバーフィッティングを説明できないことを示す。 最後に, 正規化やデータ拡張など, オーバーフィッティングのための古典的, 近代的な深層学習の治療法について検討し, 早期停止によって得られる利益に対して, 孤立的アプローチが著しく改善しないことを見出した。 実験を再現するためのすべてのコードと事前トレーニングされたモデル重みとトレーニングログは、https://github.com/locuslab/robust_overfittingで見ることができる。

It is common practice in deep learning to use overparameterized networks and train for as long as possible; there are numerous studies that show, both theoretically and empirically, that such practices surprisingly do not unduly harm the generalization performance of the classifier. In this paper, we empirically study this phenomenon in the setting of adversarially trained deep networks, which are trained to minimize the loss under worst-case adversarial perturbations. We find that overfitting to the training set does in fact harm robust performance to a very large degree in adversarially robust training across multiple datasets (SVHN, CIFAR-10, CIFAR-100, and ImageNet) and perturbation models ($\ell_\infty$ and $\ell_2$). Based upon this observed effect, we show that the performance gains of virtually all recent algorithmic improvements upon adversarial training can be matched by simply using early stopping. We also show that effects such as the double descent curve do still occur in adversarially trained models, yet fail to explain the observed overfitting. Finally, we study several classical and modern deep learning remedies for overfitting, including regularization and data augmentation, and find that no approach in isolation improves significantly upon the gains achieved by early stopping. All code for reproducing the experiments as well as pretrained model weights and training logs can be found at https://github.com/locuslab/robust_overfitting.
翻訳日:2022-12-28 14:26:36 公開日:2020-03-04
# CLARA: 臨床報告オートコンプリート

CLARA: Clinical Report Auto-completion ( http://arxiv.org/abs/2002.11701v2 )

ライセンス: Link先を確認
Siddharth Biswal, Cao Xiao, Lucas M. Glass, M. Brandon Westover, and Jimeng Sun(参考訳) X線や脳波などの生記録から臨床報告を生成することは、医師にとって必須かつ日常的な課題である。 しかし、正確な詳細なレポートを書くのに時間がかかります。 既存の方法のほとんどは、生の入力からレポート全体を生成しようとするが、成功は限られている。 1) 生成された報告は、しばしば手作業によるレビューと修正を必要とするエラーを含む。 2)医師が報告書に追加情報を書きたい場合の時間を節約しない。 3) 個々の医師の好みに基づいて, 作成した報告はカスタマイズされない。 本稿では,医師のアンカーワードと部分的に完結した文に基づいて文文のレポートを生成する対話的手法であるCLARAを提案する。 CLARAは、現在のレポートのテンプレートとして、既存のレポートから最も関連性の高い文を検索する。 検索された文は、入力特徴表現と組み合わせて順次修正され、最終レポートを生成する。 実験では,X線レポートでは0.393 CIDEr,0.248 BLEU-4,脳波レポートでは0.482 CIDEr,0.491 BLEU-4を得た。 また, 定性評価によっては, 医師の承認レベルが有意に高い報告が得られた(クララ5点中74点, ベースライン5点中2.52点, クララ5点中3.74点)。

Generating clinical reports from raw recordings such as X-rays and electroencephalogram (EEG) is an essential and routine task for doctors. However, it is often time-consuming to write accurate and detailed reports. Most existing methods try to generate the whole reports from the raw input with limited success because 1) generated reports often contain errors that need manual review and correction, 2) it does not save time when doctors want to write additional information into the report, and 3) the generated reports are not customized based on individual doctors' preference. We propose {\it CL}inic{\it A}l {\it R}eport {\it A}uto-completion (CLARA), an interactive method that generates reports in a sentence by sentence fashion based on doctors' anchor words and partially completed sentences. CLARA searches for most relevant sentences from existing reports as the template for the current report. The retrieved sentences are sequentially modified by combining with the input feature representations to create the final report. In our experimental evaluation, CLARA achieved 0.393 CIDEr and 0.248 BLEU-4 on X-ray reports and 0.482 CIDEr and 0.491 BLEU-4 for EEG reports for sentence-level generation, which is up to 35% improvement over the best baseline. Also via our qualitative evaluation, CLARA is shown to produce reports which have a significantly higher level of approval by doctors in a user study (3.74 out of 5 for CLARA vs 2.52 out of 5 for the baseline).
翻訳日:2022-12-28 13:48:30 公開日:2020-03-04
# サンプルセル投影による多項式公式の満足度

Solving Satisfiability of Polynomial Formulas By Sample-Cell Projection ( http://arxiv.org/abs/2003.00409v2 )

ライセンス: Link先を確認
Haokun Li and Bican Xia(参考訳) 実数上の多項式公式の充足可能性を決定する新しいアルゴリズムを提案する。 このアルゴリズムのキーポイントは、サンプルセルプロジェクション演算子と呼ばれる新しいプロジェクション演算子であり、Conflict-Driven Clause Learning (CDCL)スタイルの検索用にカスタマイズされている。 この新しい作用素は cad(cylindrical algebraic decomposition) のような射影作用素でもあるが、与えられたサンプルを含むセル(必ずしも円筒形ではない)を計算し、問題の多項式がセル上の符号不変である。 サンプルセル投影演算子は、CDCLスタイルの探索を競合状態から効率的に誘導することができる。 実験では,新しいアルゴリズムの有効性を示す。

A new algorithm for deciding the satisfiability of polynomial formulas over the reals is proposed. The key point of the algorithm is a new projection operator, called sample-cell projection operator, custom-made for Conflict-Driven Clause Learning (CDCL)-style search. Although the new operator is also a CAD (Cylindrical Algebraic Decomposition)-like projection operator which computes the cell (not necessarily cylindrical) containing a given sample such that each polynomial from the problem is sign-invariant on the cell, it is of singly exponential time complexity. The sample-cell projection operator can efficiently guide CDCL-style search away from conflicting states. Experiments show the effectiveness of the new algorithm.
翻訳日:2022-12-27 13:22:42 公開日:2020-03-04
# 不均衡データの正規化による1D CNNによるネットワーク侵入検出

1D CNN Based Network Intrusion Detection with Normalization on Imbalanced Data ( http://arxiv.org/abs/2003.00476v2 )

ライセンス: Link先を確認
Azizjon Meliboev, Jumabek Alikhanov, Wooseong Kim(参考訳) 侵入検知システム(ids)は、コンピュータネットワークが外部攻撃からコンピュータリソースやデータを保護する上で重要な役割を担っている。 最近のIDSは、予期せぬ、予測できない攻撃に対するIDSの柔軟性と効率性を向上する課題に直面している。 ディープニューラルネットワーク(DNN)は、複雑なシステムが特徴を抽象化し、機械学習のテクニックとして学ぶのが一般的である。 本稿では,1次元畳み込みニューラルネットワーク(1D-CNN)を用いた効率的かつ柔軟なIDSを開発するためのディープラーニング手法を提案する。 2次元CNN法はコンピュータビジョン領域における画像の物体検出において顕著な性能を示した。 一方、1D-CNNは時系列データの教師あり学習に利用できる。 IDSの侵入インターネットトラフィックモデルとして,TCP/IPパケットを所定の時間帯にシリアライズすることで,1D-CNNに基づく機械学習モデルを構築し,通常のネットワークトラフィックと異常なネットワークトラフィックを分類,ラベル付けして1D-CNNにおける教師あり学習を行う。 提案手法の有効性を示すために,UNSW\_NB15 IDSデータセットを用いて評価を行った。 性能比較のため、様々なネットワークパラメータとアーキテクチャを備えた1d-cnnに加えて、機械学習に基づくランダムフォレスト(rf)とサポートベクターマシン(svm)モデルが活用されている。 各実験では、モデルは200エポックまで実行され、不均衡データとバランスデータの0.0001で学習される。 1D-CNNとその変種アーキテクチャは、古典的な機械学習分類器よりも優れている。 これは主に、CNNがネットワークトラフィック接続の低レベル特徴集合の抽象的な形式を表す高レベル特徴表現を抽出する能力を持っているためである。

Intrusion detection system (IDS) plays an essential role in computer networks protecting computing resources and data from outside attacks. Recent IDS faces challenges improving flexibility and efficiency of the IDS for unexpected and unpredictable attacks. Deep neural network (DNN) is considered popularly for complex systems to abstract features and learn as a machine learning technique. In this paper, we propose a deep learning approach for developing the efficient and flexible IDS using one-dimensional Convolutional Neural Network (1D-CNN). Two-dimensional CNN methods have shown remarkable performance in detecting objects of images in computer vision area. Meanwhile, the 1D-CNN can be used for supervised learning on time-series data. We establish a machine learning model based on the 1D-CNN by serializing Transmission Control Protocol/Internet Protocol (TCP/IP) packets in a predetermined time range as an invasion Internet traffic model for the IDS, where normal and abnormal network traffics are categorized and labeled for supervised learning in the 1D-CNN. We evaluated our model on UNSW\_NB15 IDS dataset to show the effectiveness of our method. For comparison study in performance, machine learning-based Random Forest (RF) and Support Vector Machine (SVM) models in addition to the 1D-CNN with various network parameters and architecture are exploited. In each experiment, the models are run up to 200 epochs with a learning rate in 0.0001 on imbalanced and balanced data. 1D-CNN and its variant architectures have outperformed compared to the classical machine learning classifiers. This is mainly due to the reason that CNN has the capability to extract high-level feature representations that represent the abstract form of low-level feature sets of network traffic connections.
翻訳日:2022-12-27 13:13:22 公開日:2020-03-04
# AutoPhase: 深い強化学習を伴うランダム森林におけるHLSフェーズオーダのジャグリング

AutoPhase: Juggling HLS Phase Orderings in Random Forests with Deep Reinforcement Learning ( http://arxiv.org/abs/2003.00671v2 )

ライセンス: Link先を確認
Qijing Huang, Ameer Haj-Ali, William Moses, John Xiang, Ion Stoica, Krste Asanovic, John Wawrzynek(参考訳) コンパイラが生成するコードのパフォーマンスは、最適化が通過する順序に依存する。 良い順序を選ぶことは、しばしば位相順序問題と呼ばれるが、NPハード問題である。 その結果、既存のソリューションは様々なヒューリスティックに依存している。 本稿では,位相秩序問題に対処する新しい手法である深層強化学習の評価を行う。 この目的のために、我々はAutoPhaseを実装した。プログラムを受け取り、深い強化学習を使用して、実行時間を最小化するコンパイルパスのシーケンスを見つける。 汎用性を失うことなく、LLVMコンパイラツールチェーンのコンテキストでこのフレームワークを構築し、高レベルな合成プログラムをターゲットにする。 ランダムな森林を用いて、与えられたパスの有効性とプログラムの特徴の相関関係を定量化する。 これにより、与えられたプログラムのパフォーマンスを改善することのできないフェーズ順序を避けることで、検索スペースの削減に役立ちます。 位相順序問題に対処する最先端アルゴリズムとAutoPhaseの性能を比較した。 評価の結果,AutoPhaseは,-O3コンパイラフラグを用いた場合に比べて回路性能を28%向上し,より少ないサンプルを必要としながら,最先端のソリューションと比較して競合的な結果が得られることがわかった。 さらに,既存の最先端ソリューションとは異なり,本ソリューションでは,100個のランダム生成プログラムをトレーニングした結果,実ベンチマークと12,874種類のランダム生成プログラムに一般化する有望な結果を示す。

The performance of the code a compiler generates depends on the order in which it applies the optimization passes. Choosing a good order--often referred to as the phase-ordering problem, is an NP-hard problem. As a result, existing solutions rely on a variety of heuristics. In this paper, we evaluate a new technique to address the phase-ordering problem: deep reinforcement learning. To this end, we implement AutoPhase: a framework that takes a program and uses deep reinforcement learning to find a sequence of compilation passes that minimizes its execution time. Without loss of generality, we construct this framework in the context of the LLVM compiler toolchain and target high-level synthesis programs. We use random forests to quantify the correlation between the effectiveness of a given pass and the program's features. This helps us reduce the search space by avoiding phase orderings that are unlikely to improve the performance of a given program. We compare the performance of AutoPhase to state-of-the-art algorithms that address the phase-ordering problem. In our evaluation, we show that AutoPhase improves circuit performance by 28% when compared to using the -O3 compiler flag, and achieves competitive results compared to the state-of-the-art solutions, while requiring fewer samples. Furthermore, unlike existing state-of-the-art solutions, our deep reinforcement learning solution shows promising result in generalizing to real benchmarks and 12,874 different randomly generated programs, after training on a hundred randomly generated programs.
翻訳日:2022-12-27 06:07:31 公開日:2020-03-04
# 劣化画像超解像のためのGated Fusion Network

Gated Fusion Network for Degraded Image Super Resolution ( http://arxiv.org/abs/2003.00893v2 )

ライセンス: Link先を確認
Xinyi Zhang, Hang Dong, Zhe Hu, Wei-Sheng Lai, Fei Wang, Ming-Hsuan Yang(参考訳) 単一画像スーパーレゾリューションは,コンピュータビジョンの基本課題である空間的コンテンツに対する画質の向上を目的としている。 本研究では,単一フレーム超解像度の課題であるぼやけ,ぼやけ,雨のストレークなど画像劣化の存在について述べる。 フレームキャプチャとフォーメーションプロセスの制限のため、画像の劣化は避けられず、人工物はスーパーレゾリューション法によって悪化する。 この問題に対処するために,基本特徴と回復特徴を分離して抽出する二分岐畳み込みニューラルネットワークを提案する。 ベース機能は、入力画像のローカルおよびグローバル情報を含む。 一方,回復した特徴は劣化領域に着目し,劣化の除去に用いられる。 これらの機能は再帰ゲートモジュールを通して融合され、超高解像度のシャープな特徴を得る。 特徴抽出ステップを2つのタスク非依存ストリームに分解することにより、混合劣化オールインワンの学習を回避し、最終的な高分解能予測結果を高めることにより、デュアルブランチモデルはトレーニングプロセスを容易化することができる。 提案手法を3つの劣化シナリオで評価した。 これらのシナリオの実験により,提案手法は,ベンチマークデータセットの最先端アプローチに対して,より効率的かつ好適に機能することを示した。

Single image super resolution aims to enhance image quality with respect to spatial content, which is a fundamental task in computer vision. In this work, we address the task of single frame super resolution with the presence of image degradation, e.g., blur, haze, or rain streaks. Due to the limitations of frame capturing and formation processes, image degradation is inevitable, and the artifacts would be exacerbated by super resolution methods. To address this problem, we propose a dual-branch convolutional neural network to extract base features and recovered features separately. The base features contain local and global information of the input image. On the other hand, the recovered features focus on the degraded regions and are used to remove the degradation. Those features are then fused through a recursive gate module to obtain sharp features for super resolution. By decomposing the feature extraction step into two task-independent streams, the dual-branch model can facilitate the training process by avoiding learning the mixed degradation all-in-one and thus enhance the final high-resolution prediction results. We evaluate the proposed method in three degradation scenarios. Experiments on these scenarios demonstrate that the proposed method performs more efficiently and favorably against the state-of-the-art approaches on benchmark datasets.
翻訳日:2022-12-27 05:22:48 公開日:2020-03-04
# 形態素言語モデルを用いたデコーダによるウイグルASRシステムの改良

Improving Uyghur ASR systems with decoders using morpheme-based language models ( http://arxiv.org/abs/2003.01509v2 )

ライセンス: Link先を確認
Zicheng Qiu, Wei Jiang, Turghunjan Mamut(参考訳) uyghurはマイノリティ言語であり、自動音声認識(asr)研究のためのリソースは常に不十分である。 thuyg-20は現在、uyghur speechesの唯一のオープンソースデータセットである。 最初のリリース以来、クリーンでノイズのない音声テストタスクの最先端の結果は更新されておらず、主流言語とウイグル語の間のasr開発に大きなギャップがあることを示している。 本稿では、最終的にASRシステムを最適化してギャップを埋めることを試みるとともに、長年行方不明であったMLDG-Decoder(Morpheme Lattice Dynamically Generating Decoder for Uyghur DNN-HMM system)を開発した。 私たちはデコーダをオープンソース化しました。 MLDG-Decoder は "on-the-fly composition with FEBABOS" と呼ばれるアルゴリズムを用いて、バックオフ状態と遷移がオン-ザ-フライ合成においてリレーステーションの役割を演じることを可能にする。 このアルゴリズムは、4-Gram morpheme-based Language Model(LM)を使用するとき、動的に生成されたグラフに対して、静的で完全に構成されたグラフのように格子内の形態素列を効果的に制限する権限を与える。 我々は,より深いニューラルネットワーク音響モデルを訓練し,3種類の復号法を実験した。 実験結果から,静的で完全に構成されたグラフに基づくデコーディングにより,THUYG-20におけるクリーンでノイズのない音声テストタスクにおける最先端のワード誤り率(WER)が14.24%削減された。 MLDGデコーダはWERを14.54%に削減し、メモリ消費を合理的に維持する。 本論文では,オープンソースのMDDGデコーダを用いて,実験結果を容易に再現することができる。

Uyghur is a minority language, and its resources for Automatic Speech Recognition (ASR) research are always insufficient. THUYG-20 is currently the only open-sourced dataset of Uyghur speeches. State-of-the-art results of its clean and noiseless speech test task haven't been updated since the first release, which shows a big gap in the development of ASR between mainstream languages and Uyghur. In this paper, we try to bridge the gap by ultimately optimizing the ASR systems, and by developing a morpheme-based decoder, MLDG-Decoder (Morpheme Lattice Dynamically Generating Decoder for Uyghur DNN-HMM systems), which has long been missing. We have open-sourced the decoder. The MLDG-Decoder employs an algorithm, named as "on-the-fly composition with FEBABOS", to allow the back-off states and transitions to play the role of a relay station in on-the-fly composition. The algorithm empowers the dynamically generated graph to constrain the morpheme sequences in the lattices as effectively as the static and fully composed graph does when a 4-Gram morpheme-based Language Model (LM) is used. We have trained deeper and wider neural network acoustic models, and experimented with three kinds of decoding schemes. The experimental results show that the decoding based on the static and fully composed graph reduces state-of-the-art Word Error Rate (WER) on the clean and noiseless speech test task in THUYG-20 to 14.24%. The MLDG-Decoder reduces the WER to 14.54% while keeping the memory consumption reasonable. Based on the open-sourced MLDG-Decoder, readers can easily reproduce the experimental results in this paper.
翻訳日:2022-12-26 23:20:48 公開日:2020-03-04
# XGPT:画像キャプションのためのクロスモーダル生成事前トレーニング

XGPT: Cross-modal Generative Pre-Training for Image Captioning ( http://arxiv.org/abs/2003.01473v2 )

ライセンス: Link先を確認
Qiaolin Xia, Haoyang Huang, Nan Duan, Dongdong Zhang, Lei Ji, Zhifang Sui, Edward Cui, Taroon Bharti, Xin Liu, Ming Zhou(参考訳) 多くのBERTベースのクロスモーダル事前学習モデルは、画像テキスト検索やVQAのような下流理解タスクにおいて優れた結果をもたらすが、生成タスクに直接適用することはできない。 本稿では,画像条件付きマスケード言語モデリング(IMLM),画像条件付きDenoising Autoencoding(IDA),テキスト条件付き画像特徴生成(TIFG)の3つの新しいタスクを通じて,テキストから画像へのキャプション生成を事前学習するための,画像キャプションのためのクロスモーダル生成事前学習手法であるXGPTを提案する。 その結果、事前訓練されたXGPTはタスク固有のアーキテクチャ変更なしに微調整でき、画像キャプションの最先端モデルを作成することができる。 実験によると、XGPTはCOCO CaptionsやFlickr30k Captionsなど、ベンチマークデータセットで新たな最先端結果を取得する。 また,xgptを用いて新たな画像キャプションを画像検索タスクのデータ拡張として生成し,リコールメトリクスの大幅な改善を実現する。

While many BERT-based cross-modal pre-trained models produce excellent results on downstream understanding tasks like image-text retrieval and VQA, they cannot be applied to generation tasks directly. In this paper, we propose XGPT, a new method of Cross-modal Generative Pre-Training for Image Captioning that is designed to pre-train text-to-image caption generators through three novel generation tasks, including Image-conditioned Masked Language Modeling (IMLM), Image-conditioned Denoising Autoencoding (IDA), and Text-conditioned Image Feature Generation (TIFG). As a result, the pre-trained XGPT can be fine-tuned without any task-specific architecture modifications to create state-of-the-art models for image captioning. Experiments show that XGPT obtains new state-of-the-art results on the benchmark datasets, including COCO Captions and Flickr30k Captions. We also use XGPT to generate new image captions as data augmentation for the image retrieval task and achieve significant improvement on all recall metrics.
翻訳日:2022-12-26 21:39:32 公開日:2020-03-04
# 時空間認識拡張現実:画像ガイド療法におけるHCIの再定義

Spatiotemporal-Aware Augmented Reality: Redefining HCI in Image-Guided Therapy ( http://arxiv.org/abs/2003.02260v1 )

ライセンス: Link先を確認
Javad Fotouhi, Arian Mehrfard, Tianyu Song, Alex Johnson, Greg Osgood, Mathias Unberath, Mehran Armand, and Nassir Navab(参考訳) 画像誘導療法において, 患者データとの至適の相互作用と, 不正な2次元介入画像に基づく3次元解剖学の習得の課題が不可欠である。 拡張現実(AR)は、過去10年間に手術室で導入されてきたが、画像誘導による介入では、従来のワークフローを改善する視覚化デバイスとしてのみ考えられてきた。 その結果、テクノロジーは最小限の成熟度を得ており、新しい手順、ユーザーインターフェース、インタラクションを再定義する必要がある。 本論文の主な貢献は、常に画像システムと完全に共存している場合に、ヘッドマウントディスプレイの利点をフル活用することで、模範的なワークフローがいかに再定義されるかを明らかにすることである。 提案するarランドスケープは、手術室環境を介してユーザとイメージングデバイスを同時にローカライズし、関連する全てのフラスタムを利用して異なる身体間で空間情報を移動することによって実現される。 x線イメージングの幾何学的・物理的特徴からシステムの認識は、異なるヒューマンマシンインタフェースの再定義を可能にする。 我々は、このARパラダイムが汎用的であり、幅広い手続きに利益をもたらすことを実証する。 4.76\pm2.91$mmのk-wireを骨折管理手順に配置し, 人工股関節全置換術では1.57\pm1.16^\circ$と1.46\pm1.00^\circ$の誤差を認めた。 手術のインターフェースを改善するための総合的なアプローチは、外科医の能力を増強するだけでなく、合併症の軽減に効果的な介入を行う上での外科チームの経験を増強し、訓練目的の文書化の新たなアプローチを提供することを願っている。

Suboptimal interaction with patient data and challenges in mastering 3D anatomy based on ill-posed 2D interventional images are essential concerns in image-guided therapies. Augmented reality (AR) has been introduced in the operating rooms in the last decade; however, in image-guided interventions, it has often only been considered as a visualization device improving traditional workflows. As a consequence, the technology is gaining minimum maturity that it requires to redefine new procedures, user interfaces, and interactions. The main contribution of this paper is to reveal how exemplary workflows are redefined by taking full advantage of head-mounted displays when entirely co-registered with the imaging system at all times. The proposed AR landscape is enabled by co-localizing the users and the imaging devices via the operating room environment and exploiting all involved frustums to move spatial information between different bodies. The awareness of the system from the geometric and physical characteristics of X-ray imaging allows the redefinition of different human-machine interfaces. We demonstrate that this AR paradigm is generic, and can benefit a wide variety of procedures. Our system achieved an error of $4.76\pm2.91$ mm for placing K-wire in a fracture management procedure, and yielded errors of $1.57\pm1.16^\circ$ and $1.46\pm1.00^\circ$ in the abduction and anteversion angles, respectively, for total hip arthroplasty. We hope that our holistic approach towards improving the interface of surgery not only augments the surgeon's capabilities but also augments the surgical team's experience in carrying out an effective intervention with reduced complications and provide novel approaches of documenting procedures for training purposes.
翻訳日:2022-12-26 13:55:05 公開日:2020-03-04
# 離散結合型可変オートエンコーダに基づくロバスト話者クラスタリング法

A Robust Speaker Clustering Method Based on Discrete Tied Variational Autoencoder ( http://arxiv.org/abs/2003.01955v1 )

ライセンス: Link先を確認
Chen Feng, Jianzong Wang, Tongxu Li, Junqing Peng, Jing Xiao(参考訳) 近年、アグリゲーション階層クラスタ(AHC)に基づく話者クラスタリングモデルは、プリセットされたカテゴリ番号クラスタリングと固定されたカテゴリ番号クラスタリングの2つの主要な問題を解決する一般的な方法である。 一般に,iベクターのような特徴を確率の入力として用い,PLDA(線形判別分析モデル)は長距離音声アプリケーションシナリオにおいて距離行列を形成し,クラスタリングモデルを用いてクラスタリング結果を得る。 しかし、AHCに基づく従来の話者クラスタリング手法は、長時間実行の欠点があり、環境騒音に敏感である。 本稿では,相互情報(MI)に基づく新しい話者クラスタリング手法と,雑音に対するロバスト性を高めるためにTVAE(Tied Variational Autoencoder)の啓蒙の下で,離散変数を持つ非線形モデルを提案する。 提案手法はDTVAE (Disdisrete Tied Variational Autoencoder) と呼ばれ,時間経過を大幅に短縮する。 経験結果により、一般的なモデルよりも優れ、相対的精度(ACC)の改善と大幅な時間短縮をもたらす。

Recently, the speaker clustering model based on aggregation hierarchy cluster (AHC) is a common method to solve two main problems: no preset category number clustering and fix category number clustering. In general, model takes features like i-vectors as input of probability and linear discriminant analysis model (PLDA) aims to form the distance matric in long voice application scenario, and then clustering results are obtained through the clustering model. However, traditional speaker clustering method based on AHC has the shortcomings of long-time running and remains sensitive to environment noise. In this paper, we propose a novel speaker clustering method based on Mutual Information (MI) and a non-linear model with discrete variable, which under the enlightenment of Tied Variational Autoencoder (TVAE), to enhance the robustness against noise. The proposed method named Discrete Tied Variational Autoencoder (DTVAE) which shortens the elapsed time substantially. With experience results, it outperforms the general model and yields a relative Accuracy (ACC) improvement and significant time reduction.
翻訳日:2022-12-26 13:54:10 公開日:2020-03-04
# 風に触る:マルチロータ上の同時気流, ドラッグ, インタラクションセンシング

Touch the Wind: Simultaneous Airflow, Drag and Interaction Sensing on a Multirotor ( http://arxiv.org/abs/2003.02305v1 )

ライセンス: Link先を確認
Andrea Tagliabue (1), Aleix Paris (1), Suhan Kim (2), Regan Kubicek (2), Sarah Bergbreiter (2), Jonathan P. How (1) ((1) Massachusetts Institute of Technology, (2) Carnegie Mellon University)(参考訳) マイクロ空力車(MAV)の外乱推定は、堅牢性と安全性に不可欠である。 本稿では,MAVに作用する気流をバイオインスパイアした新しい気流センサを用いて計測し,この情報をUKF(Unscented Kalman Filter)に融合して,ロボットに作用する3次元風力ベクトル,ドラッグ力,その他の相互作用力(衝突,人間との相互作用など)を同時に推定する。 この目的のために,完全なモデルベースとディープラーニングベースの戦略を提示し,比較する。 モデルに基づくアプローチでは、MAVと気流センサのダイナミックスとその風との相互作用を考慮し、ディープラーニングベースの戦略では、Long Short-Term Memory (LSTM) ニューラルネットワークを用いて相対的気流の推定を行い、提案したフィルタで融合する。 提案手法をハードウェア実験で検証し,最大4m/sの相対気流を正確に推定し,抗力と相互作用力を区別できることを示した。

Disturbance estimation for Micro Aerial Vehicles (MAVs) is crucial for robustness and safety. In this paper, we use novel, bio-inspired airflow sensors to measure the airflow acting on a MAV, and we fuse this information in an Unscented Kalman Filter (UKF) to simultaneously estimate the three-dimensional wind vector, the drag force, and other interaction forces (e.g. due to collisions, interaction with a human) acting on the robot. To this end, we present and compare a fully model-based and a deep learning-based strategy. The model-based approach considers the MAV and airflow sensor dynamics and its interaction with the wind, while the deep learning-based strategy uses a Long Short-Term Memory (LSTM) neural network to obtain an estimate of the relative airflow, which is then fused in the proposed filter. We validate our methods in hardware experiments, showing that we can accurately estimate relative airflow of up to 4 m/s, and we can differentiate drag and interaction force.
翻訳日:2022-12-26 13:53:00 公開日:2020-03-04
# ナビゲーションのための学習ビューとターゲット不変ビジュアルサーボ

Learning View and Target Invariant Visual Servoing for Navigation ( http://arxiv.org/abs/2003.02327v1 )

ライセンス: Link先を確認
Yimeng Li, Jana Kosecka(参考訳) 深層強化学習の進歩は、最近、データ駆動学習に基づくナビゲーションへの関心を復活させた。 本稿では,局所移動ロボットナビゲーションにおける視点不変性と目標不変の視覚サーボを学習し,初期ビューと目標ビュー,あるいは目標の画像から,目的を達成するために深層畳み込みネットワークコントローラを訓練する。 本稿では,初期視点と目標視点の対応関係を確立する能力と,従来のフィードバック制御誤差による新たな報酬構造を両立させる新しいアーキテクチャを提案する。 提案モデルの利点は,キャリブレーションや深度情報を必要とせず,パラメータの微調整を伴わずに,様々な環境やターゲットにおいて堅牢なビジュアルサーボを実現することである。 視覚的シミュレーション環境における従来のビジュアルサーボ手法と同様に,アプローチの包括的評価と他のディープラーニングアーキテクチャとの比較を行った。 提案モデルでは,従来のビジュアルサーボ手法の脆さを克服し,従来の学習手法に比べて高い一般化能力を実現する。

The advances in deep reinforcement learning recently revived interest in data-driven learning based approaches to navigation. In this paper we propose to learn viewpoint invariant and target invariant visual servoing for local mobile robot navigation; given an initial view and the goal view or an image of a target, we train deep convolutional network controller to reach the desired goal. We present a new architecture for this task which rests on the ability of establishing correspondences between the initial and goal view and novel reward structure motivated by the traditional feedback control error. The advantage of the proposed model is that it does not require calibration and depth information and achieves robust visual servoing in a variety of environments and targets without any parameter fine tuning. We present comprehensive evaluation of the approach and comparison with other deep learning architectures as well as classical visual servoing methods in visually realistic simulation environment. The presented model overcomes the brittleness of classical visual servoing based methods and achieves significantly higher generalization capability compared to the previous learning approaches.
翻訳日:2022-12-26 13:46:16 公開日:2020-03-04
# KITTIに基づくLiDARを用いたPanoptic Segmentationのベンチマーク

A Benchmark for LiDAR-based Panoptic Segmentation based on KITTI ( http://arxiv.org/abs/2003.02371v1 )

ライセンス: Link先を確認
Jens Behley and Andres Milioto and Cyrill Stachniss(参考訳) panoptic segmentationは、最近導入されたタスクで、セマンティックセグメンテーションとインスタンスセグメンテーションを共同で扱う。 本稿では,KITTI Odometry Benchmark のすべてのシーケンスに対して,高密度なポイントワイドセマンティックラベルを提供する大規模データセットであるSemanticKITTIを拡張し,レーザによるパノプティックセグメンテーションのトレーニングと評価を行う。 データを提供し,与えられた意味的アノテーションを時間的一貫性のあるインスタンス情報,すなわち,意味的ラベルを補完し,lidarポイントクラウドのシーケンス上で同じインスタンスを識別するために必要な処理手順について論じる。 さらに,最先端lidarに基づくセマンティクスセグメンテーションアプローチと,セグメンテーションとインスタンス情報を強化した最先端の検出器を組み合わせた2つの強力なベースラインを提案する。 強力なベースラインを持つSemanticKITTIの拡張により、従来のセマンティックセグメンテーションやセマンティックシーン完了タスクと同様に、LiDARベースのパン光学セグメンテーションのための新しいアルゴリズムが作成できることを期待します。 隠れたテストセットを使用したデータ、コード、オンライン評価はhttp://semantic-kitti.orgで公開される。

Panoptic segmentation is the recently introduced task that tackles semantic segmentation and instance segmentation jointly. In this paper, we present an extension of SemanticKITTI, which is a large-scale dataset providing dense point-wise semantic labels for all sequences of the KITTI Odometry Benchmark, for training and evaluation of laser-based panoptic segmentation. We provide the data and discuss the processing steps needed to enrich a given semantic annotation with temporally consistent instance information, i.e., instance information that supplements the semantic labels and identifies the same instance over sequences of LiDAR point clouds. Additionally, we present two strong baselines that combine state-of-the-art LiDAR-based semantic segmentation approaches with a state-of-the-art detector enriching the segmentation with instance information and that allow other researchers to compare their approaches against. We hope that our extension of SemanticKITTI with strong baselines enables the creation of novel algorithms for LiDAR-based panoptic segmentation as much as it has for the original semantic segmentation and semantic scene completion tasks. Data, code, and an online evaluation using a hidden test set will be published on http://semantic-kitti.org.
翻訳日:2022-12-26 13:45:59 公開日:2020-03-04
# 高自動車両評価のためのエッジケースを用いた効率的な統計検証

Efficient statistical validation with edge cases to evaluate Highly Automated Vehicles ( http://arxiv.org/abs/2003.01886v1 )

ライセンス: Link先を確認
Dhanoop Karunakaran, Stewart Worrall, Eduardo Nebot(参考訳) 自動運転車(AV)の大規模展開は、まだ解決されていない多くの安全上の課題にもかかわらず、差し迫っているようだ。 絶対安全性を保証するために普遍的に合意された検証・検証(vv)方法論が存在しないことはよく知られている。 既存の標準は、検証が要求を満たすテストケースのセットのみを必要とする決定論的プロセスに焦点を当てている。 現代の自動運転車には、オペレーションデザインの非決定論的性質のため、より包括的なテスト体制を必要とする機械学習と確率的技術が含まれていることは間違いない。 厳密な統計検証プロセスは、この課題に対処するために必要な必須コンポーネントである。 この分野のほとんどの研究は、大規模な実世界のデータ収集演習(走行数)やシミュレーションにおけるランダム化テストシナリオにおけるシステムパフォーマンスの評価に焦点を当てている。 本稿では,自動生成したテストケースを最悪のシナリオに偏り,潜在的に安全でないエッジケースを識別することにより,システムの動作の統計的特性を計算するための新しい手法を提案する。 この手法を用いることで,より少ないテストケースでより効率的にシステムを検証することができ,最悪のシナリオにシミュレーションを集中させ,安全でない状況に対応するエッジケースを生成することができる。

The widescale deployment of Autonomous Vehicles (AV) seems to be imminent despite many safety challenges that are yet to be resolved. It is well known that there are no universally agreed Verification and Validation (VV) methodologies to guarantee absolute safety, which is crucial for the acceptance of this technology. Existing standards focus on deterministic processes where the validation requires only a set of test cases that cover the requirements. Modern autonomous vehicles will undoubtedly include machine learning and probabilistic techniques that require a much more comprehensive testing regime due to the non-deterministic nature of the operating design domain. A rigourous statistical validation process is an essential component required to address this challenge. Most research in this area focuses on evaluating system performance in large scale real-world data gathering exercises (number of miles travelled), or randomised test scenarios in simulation. This paper presents a new approach to compute the statistical characteristics of a system's behaviour by biasing automatically generated test cases towards the worst case scenarios, identifying potential unsafe edge cases.We use reinforcement learning (RL) to learn the behaviours of simulated actors that cause unsafe behaviour measured by the well established RSS safety metric. We demonstrate that by using the method we can more efficiently validate a system using a smaller number of test cases by focusing the simulation towards the worst case scenario, generating edge cases that correspond to unsafe situations.
翻訳日:2022-12-26 13:45:22 公開日:2020-03-04
# 推薦システムのためのグラフニューラルネットワークによるハッシュ学習

Learning to Hash with Graph Neural Networks for Recommender Systems ( http://arxiv.org/abs/2003.01917v1 )

ライセンス: Link先を確認
Qiaoyu Tan, Ninghao Liu, Xing Zhao, Hongxia Yang, Jingren Zhou, Xia Hu(参考訳) グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。 ユーザ・テーマインタラクションネットワークにおけるオブジェクトの埋め込みベクターの学習効果は高いが,連続的な埋め込み空間におけるユーザの好みを推測する計算コストは極めて大きい。 本研究では,高品質検索のためのグラフニューラルネットワーク(gnns)によるハッシュ化問題を調査し,連続コードと離散コードを同時に学習する簡易かつ効果的な離散表現学習フレームワークを提案する。 具体的には、ノード表現を学習するGNNエンコーダと、ハッシュコードに表現を符号化するハッシュレイヤの2つのコンポーネントからなる、GNNによるディープハッシュ(HashGNN)を提示する。 アーキテクチャ全体は、観測リンクの再構築による再構築損失と、ハッシュコードの相対順序保存によるランキング損失の2つの損失を共同最適化することにより、エンドツーエンドで訓練される。 ガイダンス付きストレートスルー推定器(ste)に基づく新しい離散最適化戦略を提案する。 主な考え方は、継続的埋め込み誘導によるSTEのバックプロパゲーションの勾配拡大を回避し、継続的埋め込みを模倣するより簡単なネットワークを学習し、最終的にSTEに戻るまでトレーニング中にそれを進化させることである。 3つの公開および1つの実世界のアリババの企業データセットに関する包括的な実験により、当社のモデルは、その継続的パフォーマンスと同等のパフォーマンスを達成できるだけでなく、推論時に複数倍高速に動作できることが示されました。

Graph representation learning has attracted much attention in supporting high quality candidate search at scale. Despite its effectiveness in learning embedding vectors for objects in the user-item interaction network, the computational costs to infer users' preferences in continuous embedding space are tremendous. In this work, we investigate the problem of hashing with graph neural networks (GNNs) for high quality retrieval, and propose a simple yet effective discrete representation learning framework to jointly learn continuous and discrete codes. Specifically, a deep hashing with GNNs (HashGNN) is presented, which consists of two components, a GNN encoder for learning node representations, and a hash layer for encoding representations to hash codes. The whole architecture is trained end-to-end by jointly optimizing two losses, i.e., reconstruction loss from reconstructing observed links, and ranking loss from preserving the relative ordering of hash codes. A novel discrete optimization strategy based on straight through estimator (STE) with guidance is proposed. The principal idea is to avoid gradient magnification in back-propagation of STE with continuous embedding guidance, in which we begin from learning an easier network that mimic the continuous embedding and let it evolve during the training until it finally goes back to STE. Comprehensive experiments over three publicly available and one real-world Alibaba company datasets demonstrate that our model not only can achieve comparable performance compared with its continuous counterpart but also runs multiple times faster during inference.
翻訳日:2022-12-26 13:44:07 公開日:2020-03-04
# 自動エンコーダ学習による二元信号検出のためのホテルオブザーバの近似

Approximating the Hotelling Observer with Autoencoder-Learned Efficient Channels for Binary Signal Detection Tasks ( http://arxiv.org/abs/2003.02321v1 )

ライセンス: Link先を確認
Jason L. Granstedt and Weimin Zhou and Mark A. Anastasio(参考訳) 画像品質の客観的評価(iq)は医用画像システムの分析と最適化のために提唱されている。 そのような iq メトリックを得る方法の1つは、数学的観測者によるものである。 ベイズイデアルオブザーバは信号検出タスクの定義によって最適であるが、しばしば難解かつ非線形である。 代替として、線形オブザーバはタスクベースの画像品質評価に使用されることがある。 最適線形観測者はhotelling observer (ho) である。 HOを計算する計算コストは画像サイズとともに増大し、データの次元性を低下させることが望ましい。 チャネル化手法はこの目的のために人気を博し、効率的なチャネルの計算には多くの競合する方法が利用できる。 本研究では,オートエンコーダ(AE)を用いたチャネル学習手法を提案する。 AEは、次元を減らすためにデータの簡潔な表現を学ぶために頻繁に使用される、人工知能(ANN)の一種である。 タスク関連情報にフォーカスするために従来のAE損失関数を変更することで、効率的なAEチャネルの開発が可能になる。 これらのAEチャネルは、様々な信号の形状と背景を訓練し、その性能を評価する。 実験では、AEを学習したチャネルはHOを近似する他の最先端の手法と競合し、しばしば性能を上回った。 トレーニング画像の数が少なく,信号画像のノイズの多い推定値を持つデータセットでは,性能向上が最多であった。 全体として、AEはHOのための効率的なチャネルを生成する最先端の手法と競合することが示されており、小さなデータセットでは優れたパフォーマンスが得られる。

The objective assessment of image quality (IQ) has been advocated for the analysis and optimization of medical imaging systems. One method of obtaining such IQ metrics is through a mathematical observer. The Bayesian ideal observer is optimal by definition for signal detection tasks, but is frequently both intractable and non-linear. As an alternative, linear observers are sometimes used for task-based image quality assessment. The optimal linear observer is the Hotelling observer (HO). The computational cost of calculating the HO increases with image size, making a reduction in the dimensionality of the data desirable. Channelized methods have become popular for this purpose, and many competing methods are available for computing efficient channels. In this work, a novel method for learning channels using an autoencoder (AE) is presented. AEs are a type of artificial neural network (ANN) that are frequently employed to learn concise representations of data to reduce dimensionality. Modifying the traditional AE loss function to focus on task-relevant information permits the development of efficient AE-channels. These AE-channels were trained and tested on a variety of signal shapes and backgrounds to evaluate their performance. In the experiments, the AE-learned channels were competitive with and frequently outperformed other state-of-the-art methods for approximating the HO. The performance gains were greatest for the datasets with a small number of training images and noisy estimates of the signal image. Overall, AEs are demonstrated to be competitive with state-of-the-art methods for generating efficient channels for the HO and can have superior performance on small datasets.
翻訳日:2022-12-26 13:43:08 公開日:2020-03-04
# AlignTTS:明示的アライメントのない効率的なフィードフォワードテキスト音声合成システム

AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment ( http://arxiv.org/abs/2003.01950v1 )

ライセンス: Link先を確認
Zhen Zeng, Jianzong Wang, Ning Cheng, Tian Xia, Jing Xiao(参考訳) 高い効率と性能の両面を目標とし, メルスペクトルを並列に予測するAlignTTSを提案する。 AlignTTSは,文字列からメルスペクトルを生成するフィードフォワード変換器をベースとし,各文字の持続時間を時間予測器で決定する。テキストをメルスペクトルにアライメントするためにTransformer TTSのアテンション機構を採用する代わりに,動的プログラミングを用いてトレーニング中のすべてのアライメントを考慮し,アライメントロスを示す。 LJSpeechデータセットを用いた実験では,Transformer TTSを平均オプションスコア(MOS)0.03で上回る最先端性能だけでなく,リアルタイムよりも50倍以上高速な高効率を実現している。

Targeting at both high efficiency and performance, we propose AlignTTS to predict the mel-spectrum in parallel. AlignTTS is based on a Feed-Forward Transformer which generates mel-spectrum from a sequence of characters, and the duration of each character is determined by a duration predictor.Instead of adopting the attention mechanism in Transformer TTS to align text to mel-spectrum, the alignment loss is presented to consider all possible alignments in training by use of dynamic programming. Experiments on the LJSpeech dataset show that our model achieves not only state-of-the-art performance which outperforms Transformer TTS by 0.03 in mean option score (MOS), but also a high efficiency which is more than 50 times faster than real-time.
翻訳日:2022-12-26 13:37:05 公開日:2020-03-04
# セマンティクスセンサ融合:カメラから分散lidar情報へ

Semantic sensor fusion: from camera to sparse lidar information ( http://arxiv.org/abs/2003.01871v1 )

ライセンス: Link先を確認
Julie Stephany Berrio, Mao Shan, Stewart Worrall, James Ward, Eduardo Nebot(参考訳) 都市部を走行するには、自動運転車は3次元環境で物体を知覚し認識しなければなりません。 正確な運転操作を計画し実行するためには、周囲を高度に理解する必要がある。 本稿では,異なるセンサ情報,光検出,測位(lidar)スキャン,カメライメージを融合する手法を提案する。 畳み込みニューラルネットワーク(cnn)の出力は、環境のラベルを取得するための分類器として使用される。 ラベル付き画像とライダーポイントクラウド間のセマンティック情報の転送は,まず,ラベル付き画像に含まれるすべてのセマンティッククラスに確率を関連付けるためにヒューリスティック手法を用いて行う。 そして、各ライダースキャンのタイムスタンプとカメラ画像との差を考慮し、ライダーポイントを補正して車両の動きを補償する。 3番目のステップでは、対応するカメラ画像の画素座標を計算する。 最後のステップでは、カメラに見えないライダー情報を除去しながら、ヒューリスティックな確率画像からライダーフレームへの意味情報の転送を行う。 我々はUsyd Dataset \cite{usyd_dataset} を用いて,確率的感覚融合法の有効性を示す質的,定量的な結果を得た。

To navigate through urban roads, an automated vehicle must be able to perceive and recognize objects in a three-dimensional environment. A high-level contextual understanding of the surroundings is necessary to plan and execute accurate driving maneuvers. This paper presents an approach to fuse different sensory information, Light Detection and Ranging (lidar) scans and camera images. The output of a convolutional neural network (CNN) is used as classifier to obtain the labels of the environment. The transference of semantic information between the labelled image and the lidar point cloud is performed in four steps: initially, we use heuristic methods to associate probabilities to all the semantic classes contained in the labelled images. Then, the lidar points are corrected to compensate for the vehicle's motion given the difference between the timestamps of each lidar scan and camera image. In a third step, we calculate the pixel coordinate for the corresponding camera image. In the last step we perform the transfer of semantic information from the heuristic probability images to the lidar frame, while removing the lidar information that is not visible to the camera. We tested our approach in the Usyd Dataset \cite{usyd_dataset}, obtaining qualitative and quantitative results that demonstrate the validity of our probabilistic sensory fusion approach.
翻訳日:2022-12-26 13:36:29 公開日:2020-03-04
# ADRN:ハイパースペクトル画像復調のための注意型ディープ残像ネットワーク

ADRN: Attention-based Deep Residual Network for Hyperspectral Image Denoising ( http://arxiv.org/abs/2003.01947v1 )

ライセンス: Link先を確認
Yongsen Zhao, Deming Zhai, Junjun Jiang, Xianming Liu(参考訳) ハイパースペクトル画像(HSI)は、HSI分類や解釈など、その後の多くの応用において重要である。 本稿では,ノイズの多いhsiからクリーンなhsiへのマッピングを直接学習するための注意に基づく深層残留ネットワークを提案する。 空間スペクトル情報を共同利用するために、入力として現在のバンドとその隣接するバンド$k$を同時に利用する。 次に,フィルタサイズが異なる畳み込み層を採用し,マルチスケール機能を融合し,多レベル情報を取り込んだショートカット接続によりノイズ除去を行う。 また、チャネルアテンション機構を用いて、ネットワークを最も関連性の高い補助情報や特徴に集中させる。 トレーニング手順の容易化のために,簡単な予測ではなく,残差モードで出力を再構築する。 実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。

Hyperspectral image (HSI) denoising is of crucial importance for many subsequent applications, such as HSI classification and interpretation. In this paper, we propose an attention-based deep residual network to directly learn a mapping from noisy HSI to the clean one. To jointly utilize the spatial-spectral information, the current band and its $K$ adjacent bands are simultaneously exploited as the input. Then, we adopt convolution layer with different filter sizes to fuse the multi-scale feature, and use shortcut connection to incorporate the multi-level information for better noise removal. In addition, the channel attention mechanism is employed to make the network concentrate on the most relevant auxiliary information and features that are beneficial to the denoising process best. To ease the training procedure, we reconstruct the output through a residual mode rather than a straightforward prediction. Experimental results demonstrate that our proposed ADRN scheme outperforms the state-of-the-art methods both in quantitative and visual evaluations.
翻訳日:2022-12-26 13:35:51 公開日:2020-03-04
# 任意マルチカメラシステムのためのSLAMの再設計

Redesigning SLAM for Arbitrary Multi-Camera Systems ( http://arxiv.org/abs/2003.02014v1 )

ライセンス: Link先を確認
Juichung Kuo, Manasi Muglikar, Zichao Zhang, Davide Scaramuzza(参考訳) slamシステムへのカメラの追加により、堅牢性と精度は向上するが、視覚フロントエンドの設計は大幅に複雑になる。 したがって、文献のほとんどのシステムは特定のカメラ構成に合わせて調整されている。 本研究では,任意のマルチカメラ装置で動作する適応SLAMシステムを提案する。 この目的のために、視覚SLAMにおけるいくつかの一般的なビルディングブロックを再考する。 特に,適応初期化スキーム,センサ非依存,情報理論的なキーフレーム選択アルゴリズム,スケーラブルなvoxelベースのマップを提案する。 これらの手法は実際のカメラの設定をほとんど想定せず、ヒューリスティックよりも理論的に根拠のある方法を好む。 これらの修正により最先端の視覚慣性オドメトリを適応させ, 実験結果から, 修正パイプラインはセンサ固有の修正やチューニングを必要とせず, 広い範囲のカメラ(例えば, 1つの実験で2~6台のカメラ)に適応できることがわかった。

Adding more cameras to SLAM systems improves robustness and accuracy but complicates the design of the visual front-end significantly. Thus, most systems in the literature are tailored for specific camera configurations. In this work, we aim at an adaptive SLAM system that works for arbitrary multi-camera setups. To this end, we revisit several common building blocks in visual SLAM. In particular, we propose an adaptive initialization scheme, a sensor-agnostic, information-theoretic keyframe selection algorithm, and a scalable voxel-based map. These techniques make little assumption about the actual camera setups and prefer theoretically grounded methods over heuristics. We adapt a state-of-the-art visual-inertial odometry with these modifications, and experimental results show that the modified pipeline can adapt to a wide range of camera setups (e.g., 2 to 6 cameras in one experiment) without the need of sensor-specific modifications or tuning.
翻訳日:2022-12-26 13:34:22 公開日:2020-03-04
# Visual SLAMのためのVoxel Map

Voxel Map for Visual SLAM ( http://arxiv.org/abs/2003.02247v1 )

ライセンス: Link先を確認
Manasi Muglikar, Zichao Zhang and Davide Scaramuzza(参考訳) 現代のビジュアルスラムシステムでは、機能マッチングや直接追跡のために重なり合ったキーフレームから潜在的な候補マップポイントを取得する標準的なプラクティスである。 本研究では、弱幾何学的推論やスケーラビリティの低下など、いくつかの固有の制約のため、キーフレームがこのタスクの最適選択ではないと論じる。 視覚SLAMのためのマップポイントを効率的に検索するボクセルマップ表現を提案する。 特に、通常のボクセルグリッドにマップポイントを整理する。 カメラポーズからの可視点は、効率的なボクセルハッシュ法を用いて一定時間にカメラフラストラムをレイキャスト方式でサンプリングすることによりクエリされる。 キーフレームと比較して,本手法を用いて抽出した点がカメラ視野に落下することを幾何的に保証し,隠蔽点を特定・除去することができる。 この方法はまた、大きなシーンと複雑なマルチカメラ構成まで自然にスケールする。 実験の結果,我々のvoxelマップ表現は,キーフレーム5のキーフレームマップと同じくらい効率的であり,eurocデータセット上でのローカライズ精度(平均46%改善)が有意に高いことがわかった。 提案したボクセルマップ表現は、視覚SLAMの基本機能に対する一般的なアプローチであり、広く適用できる。

In modern visual SLAM systems, it is a standard practice to retrieve potential candidate map points from overlapping keyframes for further feature matching or direct tracking. In this work, we argue that keyframes are not the optimal choice for this task, due to several inherent limitations, such as weak geometric reasoning and poor scalability. We propose a voxel-map representation to efficiently retrieve map points for visual SLAM. In particular, we organize the map points in a regular voxel grid. Visible points from a camera pose are queried by sampling the camera frustum in a raycasting manner, which can be done in constant time using an efficient voxel hashing method. Compared with keyframes, the retrieved points using our method are geometrically guaranteed to fall in the camera field-of-view, and occluded points can be identified and removed to a certain extend. This method also naturally scales up to large scenes and complicated multicamera configurations. Experimental results show that our voxel map representation is as efficient as a keyframe map with 5 keyframes and provides significantly higher localization accuracy (average 46% improvement in RMSE) on the EuRoC dataset. The proposed voxel-map representation is a general approach to a fundamental functionality in visual SLAM and widely applicable.
翻訳日:2022-12-26 13:34:06 公開日:2020-03-04
# 分散グラフに基づく人間の言語へのアプローチにおける相転移

Phase transitions in a decentralized graph-based approach to human language ( http://arxiv.org/abs/2003.02639v1 )

ライセンス: Link先を確認
Javier Vera, Felipe Urbina and Wenceslao Palma(参考訳) Zipfの法則は、大きなテキストコーパスにおける単語頻度のスケーリング行動を確立する。 人間の言語におけるZipfian特性の出現は、これまで話者や聞き手の興味を引くための最適化問題として説明されてきた。 一方、人間に似た語彙は二部グラフと見なすことができる。 ここでの目的は、人間の語彙に対する二部グラフのアプローチの中で、Zipfianプロパティの形成のための分散言語ゲームモデルを提案することである。 これを実現するために、人工エージェントの集団が理想化された言語相互作用に関与する言語ゲームを定義する。 数値シミュレーションは、初期乱れ状態から3つの相への相転移が言語形成に現れることを示している。 以上の結果から,言語におけるZipfianの性質は,二分詞意味マッピングを付与したエージェント間の分散言語相互作用から生じると考えられる。

Zipf's law establishes a scaling behavior for word-frequencies in large text corpora. The appearance of Zipfian properties in human language has been previously explained as an optimization problem for the interests of speakers and hearers. On the other hand, human-like vocabularies can be viewed as bipartite graphs. The aim here is double: within a bipartite-graph approach to human vocabularies, to propose a decentralized language game model for the formation of Zipfian properties. To do this, we define a language game, in which a population of artificial agents is involved in idealized linguistic interactions. Numerical simulations show the appearance of a phase transition from an initially disordered state to three possible phases for language formation. Our results suggest that Zipfian properties in language seem to arise partly from decentralized linguistic interactions between agents endowed with bipartite word-meaning mappings.
翻訳日:2022-12-26 13:28:27 公開日:2020-03-04
# 技術報告:完全共分散行列を用いた混合密度ネットワークの訓練

Technical report: Training Mixture Density Networks with full covariance matrices ( http://arxiv.org/abs/2003.05739v1 )

ライセンス: Link先を確認
Jakob Kruse(参考訳) 混合密度ネットワークは条件付き確率分布をモデル化する試みとテストのツールである。 そのため、これらはこの問題に対する新しいアプローチの基盤となる。 標準定式化では、MDNはいくつかの入力を受け取り、混合成分の共分散を制限するガウス混合モデルのパラメータを出力する。 確率変数間の共分散は、我々が検討していた条件付きモデリング問題の中心的な問題であるため、制約のない共分散を持つMDNの定式化を導出し実装した。 これは以前行われたことと思われるが、オンラインでのリソースは見つからなかった。 この理由から、同様の状況に直面する他の人たちにも役に立つことを願って、この技術レポートの形で私のアプローチを文書化しました。

Mixture Density Networks are a tried and tested tool for modelling conditional probability distributions. As such, they constitute a great baseline for novel approaches to this problem. In the standard formulation, an MDN takes some input and outputs parameters for a Gaussian mixture model with restrictions on the mixture components' covariance. Since covariance between random variables is a central issue in the conditional modeling problems we were investigating, I derived and implemented an MDN formulation with unrestricted covariances. It is likely that this has been done before, but I could not find any resources online. For this reason, I have documented my approach in the form of this technical report, in hopes that it may be useful to others facing a similar situation.
翻訳日:2022-12-26 13:28:15 公開日:2020-03-04
# AI媒介交換理論

AI-Mediated Exchange Theory ( http://arxiv.org/abs/2003.02093v1 )

ライセンス: Link先を確認
Xiao Ma, Taylor W. Brown(参考訳) 人工知能(AI)は社会技術システムにおいて絶え間ない役割を担っているため、人間とAIの関係を明確化することが重要である。 しかし、人間とAIの関係を研究する学術コミュニティは、社会コンピューティング、機械学習、科学技術研究、その他の社会科学に限らず、それらを定義する視点で分けられている。 これらの視点は、人間やAIに焦点を当てていることと、被写体に近づくマイクロ/マクロレンズによって異なる。 これらの違いは発見の統合を阻害し、科学と学際性を妨げる。 本稿では,これらの分割を橋渡しするフレームワークAI-Mediated Exchange Theory(AI-MET)の開発を提案する。 社会科学における社会交換理論(SET)の拡張として、AI-METはAIを仲介機構の分類によって人間と人間の関係に影響を与えるとみなしている。 これらのメカニズムの最初のアイデアをリストアップし、AI-METがどのように人間のAI研究コミュニティが互いに話すのに役立つかを示す。

As Artificial Intelligence (AI) plays an ever-expanding role in sociotechnical systems, it is important to articulate the relationships between humans and AI. However, the scholarly communities studying human-AI relationships -- including but not limited to social computing, machine learning, science and technology studies, and other social sciences -- are divided by the perspectives that define them. These perspectives vary both by their focus on humans or AI, and in the micro/macro lenses through which they approach subjects. These differences inhibit the integration of findings, and thus impede science and interdisciplinarity. In this position paper, we propose the development of a framework AI-Mediated Exchange Theory (AI-MET) to bridge these divides. As an extension to Social Exchange Theory (SET) in the social sciences, AI-MET views AI as influencing human-to-human relationships via a taxonomy of mediation mechanisms. We list initial ideas of these mechanisms, and show how AI-MET can be used to help human-AI research communities speak to one another.
翻訳日:2022-12-26 13:27:29 公開日:2020-03-04
# 能動的会話エージェントのためのスヌーズレスユーザ対応通知システム

A Snooze-less User-Aware Notification System for Proactive Conversational Agents ( http://arxiv.org/abs/2003.02097v1 )

ライセンス: Link先を確認
Yara Rizk, Vatche Isahagian, Merve Unuvar, Yasaman Khazaeni(参考訳) スマートフォンや電子機器の普及により、消費者の指先だけでなく、デジタルコンテンツのクリエーターにも多くの情報が流れている。 これにより、投稿されたYouTubeビデオからツイート、メール、個人メッセージまで、毎秒数百万の通知が発行されている。 作業関連の通知を追加すれば,通知数の増加の速さが分かる。 これは生産性と集中度を低下させるだけでなく、警告疲労を引き起こすことも示されている。 この条件により、ユーザーは通知を無視したり、重要なアラートを見逃したりする。 ユーザーがどのドメインで働いているかによって、通知を紛失するコストは、単に不便から生死まで様々である。 そこで本研究では,イベントの重大度やユーザの好み,スケジュールに基づいて通知をインテリジェントに発行,抑制,集約し,ユーザが通知を無視したり無視したりする必要を最小化し,重要な通知への対処を忘れてしまうような警告通知フレームワークを提案する。 私たちのフレームワークはバックエンドサービスとしてデプロイできますが、アクティブな会話エージェント、デジタルトランスフォーメーション時代、メールサービス、ニュースサービスなど、多くの注目を集めている分野に統合するのに適しています。 しかし、主な課題は、これらのモデルを個々のユーザの好みに合わせてカスタマイズしながら、幅広いユーザーからモデルを学習できる適切な機械学習アルゴリズムを開発することである。

The ubiquity of smart phones and electronic devices has placed a wealth of information at the fingertips of consumers as well as creators of digital content. This has led to millions of notifications being issued each second from alerts about posted YouTube videos to tweets, emails and personal messages. Adding work related notifications and we can see how quickly the number of notifications increases. Not only does this cause reduced productivity and concentration but has also been shown to cause alert fatigue. This condition makes users desensitized to notifications, causing them to ignore or miss important alerts. Depending on what domain users work in, the cost of missing a notification can vary from a mere inconvenience to life and death. Therefore, in this work, we propose an alert and notification framework that intelligently issues, suppresses and aggregates notifications, based on event severity, user preferences, or schedules, to minimize the need for users to ignore, or snooze their notifications and potentially forget about addressing important ones. Our framework can be deployed as a backend service, but is better suited to be integrated into proactive conversational agents, a field receiving a lot of attention with the digital transformation era, email services, news services and others. However, the main challenge lies in developing the right machine learning algorithms that can learn models from a wide set of users while customizing these models to individual users' preferences.
翻訳日:2022-12-26 13:27:12 公開日:2020-03-04
# GraphTTS:ニューラルテキスト音声におけるグラフからシーケンスへのモデリング

GraphTTS: graph-to-sequence modelling in neural text-to-speech ( http://arxiv.org/abs/2003.01924v1 )

ライセンス: Link先を確認
Aolan Sun, Jianzong Wang, Ning Cheng, Huayi Peng, Zhen Zeng, Jing Xiao(参考訳) 本稿では、入力シーケンスのグラフ埋め込みをスペクトログラムにマッピングする、ニューラルテキスト音声(GraphTTS)におけるグラフ列法を利用する。 グラフィカル入力は、入力テキストから構築されたノードおよびエッジ表現で構成される。 これらのグラフィカル入力のエンコードには、GNNエンコーダモジュールによる構文情報が含まれる。 さらに、グラフ補助エンコーダ(GAE)としてGraphTTSのエンコーダを適用することで、テキストの意味構造から韻律情報を分析することができる。 これにより、参照オーディオプロセスの手動選択を取り除き、prosodyモデリングをエンドツーエンドの手順にすることができる。 実験分析により、GraphTTSは平均オピニオンスコア(MOS)において、最先端のシーケンス・ツー・シーケンスモデルよりも0.24向上していることが示された。 gaeは合成オーディオの一時停止、換気、音調を自動的に調整できる。 この実験的な結論は、音声合成の韻律改善に取り組んでいる研究者にインスピレーションを与えるかもしれない。

This paper leverages the graph-to-sequence method in neural text-to-speech (GraphTTS), which maps the graph embedding of the input sequence to spectrograms. The graphical inputs consist of node and edge representations constructed from input texts. The encoding of these graphical inputs incorporates syntax information by a GNN encoder module. Besides, applying the encoder of GraphTTS as a graph auxiliary encoder (GAE) can analyse prosody information from the semantic structure of texts. This can remove the manual selection of reference audios process and makes prosody modelling an end-to-end procedure. Experimental analysis shows that GraphTTS outperforms the state-of-the-art sequence-to-sequence models by 0.24 in Mean Opinion Score (MOS). GAE can adjust the pause, ventilation and tones of synthesised audios automatically. This experimental conclusion may give some inspiration to researchers working on improving speech synthesis prosody.
翻訳日:2022-12-26 13:25:13 公開日:2020-03-04
# ドメイン・エフェクトの探求:水辺の物体検出に視覚回復がどう寄与するか

Reveal of Domain Effect: How Visual Restoration Contributes to Object Detection in Aquatic Scenes ( http://arxiv.org/abs/2003.01913v1 )

ライセンス: Link先を確認
Xingyu Chen, Yue Lu, Zhengxing Wu, Junzhi Yu, and Li Wen(参考訳) 水中ロボットの知覚は通常、視覚復元と物体検出を必要とするが、どちらも長年研究されてきた。 一方、データドメインは、現代のデータ駆動のリーンプロセスに大きな影響を与えます。 しかし、ドメイン効果を正確に示すと、復元と検出の関係ははっきりしない。 本稿では,品質の異なるデータ領域と検出性能の関係を概ね検討する。 一方,実際の水中シーンにおける物体検出に視覚的復元がどう寄与するかを明らかにする。 分析によると、5つの重要な発見が報告されている。 1) ドメイン品質は、ドメイン内畳み込み表現及び検出精度に無知な影響を及ぼす。 2)低品質ドメインはクロスドメイン検出において高い一般化能力をもたらす。 3)低品質のドメインは、ドメイン混在の学習プロセスでは、ほとんど学べない。 4)リコール効率の低下により、ドメイン内検出精度が向上しない。 5) トレーニングデータと実世界のシーン間のドメインシフトを減らすことにより,野生での視覚復元は有用である。 最後に,例示として,水中ロボットを用いた水中物体検出を成功させた。

Underwater robotic perception usually requires visual restoration and object detection, both of which have been studied for many years. Meanwhile, data domain has a huge impact on modern data-driven leaning process. However, exactly indicating domain effect, the relation between restoration and detection remains unclear. In this paper, we generally investigate the relation of quality-diverse data domain to detection performance. In the meantime, we unveil how visual restoration contributes to object detection in real-world underwater scenes. According to our analysis, five key discoveries are reported: 1) Domain quality has an ignorable effect on within-domain convolutional representation and detection accuracy; 2) low-quality domain leads to higher generalization ability in cross-domain detection; 3) low-quality domain can hardly be well learned in a domain-mixed learning process; 4) degrading recall efficiency, restoration cannot improve within-domain detection accuracy; 5) visual restoration is beneficial to detection in the wild by reducing the domain shift between training data and real-world scenes. Finally, as an illustrative example, we successfully perform underwater object detection with an aquatic robot.
翻訳日:2022-12-26 13:18:54 公開日:2020-03-04
# 映像からのオプティカルフローの教師なし学習を意識した咬合

Occlusion Aware Unsupervised Learning of Optical Flow From Video ( http://arxiv.org/abs/2003.01960v1 )

ライセンス: Link先を確認
Jianfeng Li, Junqiao Zhao, Tiantian Feng, Chen Ye, Lu Xiong(参考訳) 本稿では,映像フレーム間の光学的流れを推定する教師なし学習手法を提案する。 閉塞は、物体の移動またはカメラの動きによって引き起こされ、あるピクセルが1つのビデオフレームで見えるが隣接するフレームでは見えない場合に定義される。 閉鎖領域におけるフレーム間の画素対応の欠如により、誤った光量損失計算が光フロートレーニングプロセスを誤解させる可能性がある。 ビデオのシーケンスでは、前方(t\rightarrow t+1$)と後方(t\rightarrow t-1$)のフレームペアの閉塞は通常相補的であることがわかった。 つまり、後続のフレームでオクルードされたピクセルは、しばしば前フレームでオクルードされず、その逆である。 そこで, この相補性を用いて, 閉塞問題の解法として新たな重み付き損失を提案する。 さらに,複数の方向の勾配を計算し,より詳細な監督情報を提供する。 本手法は,kitti 2012 および 2015 のベンチマークにおいて,ベースラインおよび教師付き手法と比較し,光学フローの精度を比較検討できる。 このソースコードはhttps://github.com/jianfenglihg/UnOpticalFlow.gitで公開されている。

In this paper, we proposed an unsupervised learning method for estimating the optical flow between video frames, especially to solve the occlusion problem. Occlusion is caused by the movement of an object or the movement of the camera, defined as when certain pixels are visible in one video frame but not in adjacent frames. Due to the lack of pixel correspondence between frames in the occluded area, incorrect photometric loss calculation can mislead the optical flow training process. In the video sequence, we found that the occlusion in the forward ($t\rightarrow t+1$) and backward ($t\rightarrow t-1$) frame pairs are usually complementary. That is, pixels that are occluded in subsequent frames are often not occluded in the previous frame and vice versa. Therefore, by using this complementarity, a new weighted loss is proposed to solve the occlusion problem. In addition, we calculate gradients in multiple directions to provide richer supervision information. Our method achieves competitive optical flow accuracy compared to the baseline and some supervised methods on KITTI 2012 and 2015 benchmarks. This source code has been released at https://github.com/jianfenglihg/UnOpticalFlow.git.
翻訳日:2022-12-26 13:18:18 公開日:2020-03-04
# HintPose

HintPose ( http://arxiv.org/abs/2003.02170v1 )

ライセンス: Link先を確認
Sanghoon Hong, Hunchul Park, Jonghyuk Park, Sukhyun Cho, Heewoong Park(参考訳) トップダウンのポーズ推定モデルのほとんどは、バウンディングボックスに一人しかいないと仮定している。 しかし、その仮定は常に正しいとは限らない。 本報告では,既存のポーズ推定器に対して,複数の人物による検出ボックスを適切に処理できるように,キューとリカレントリファインメントの2つのアイデアを導入する。 COCO17キーポイントデータセットを用いて本モデルを評価すると,ベースラインモデルと比較して無視できない改善が見られた。 本モデルでは,1つのモデルとして76.2 mAP,追加のトレーニングデータなしでテストデフセット上でのアンサンブルとして77.3 mAPを達成した。 別個のリファインメントネットワークによる追加後処理の後、最終的な予測はcocoテスト開発セットで77.8マップを達成した。

Most of the top-down pose estimation models assume that there exists only one person in a bounding box. However, the assumption is not always correct. In this technical report, we introduce two ideas, instance cue and recurrent refinement, to an existing pose estimator so that the model is able to handle detection boxes with multiple persons properly. When we evaluated our model on the COCO17 keypoints dataset, it showed non-negligible improvement compared to its baseline model. Our model achieved 76.2 mAP as a single model and 77.3 mAP as an ensemble on the test-dev set without additional training data. After additional post-processing with a separate refinement network, our final predictions achieved 77.8 mAP on the COCO test-dev set.
翻訳日:2022-12-26 13:17:26 公開日:2020-03-04
# 終端トラックレット探索とランキングによる多目的追跡

Multi-object Tracking via End-to-end Tracklet Searching and Ranking ( http://arxiv.org/abs/2003.02795v1 )

ライセンス: Link先を確認
Tao Hu, Lichao Huang, Han Shen(参考訳) 近年、複数のオブジェクト追跡利用シーケンスモデルを用いて、検出と前のトラックレットの類似点を計算する。 しかし, トレーニング段階において, 地絡への強制曝露は, トレーニング・推論の相違, すなわち, 被曝バイアスに相関誤差が蓄積し, 軌道をドリフトさせる原因となる。 本稿では,オンライン・エンド・ツー・エンドのトラックレット探索学習プロセスを導入することで,予測誤差を直接考慮したトラックレット一貫性の最適化手法を提案する。 特に,提案手法では,対関係ではなく,トラックレットスコア全体を直接最適化する。 トラックレットの出現エンコーダとしてのシーケンスモデルにより,トラッカは従来のトラックレットアソシエーションベースラインから著しい性能向上を達成している。 提案手法は,mot15~17チャレンジベンチマークにおいて,公開検出とオンライン設定を用いて最先端の成果を上げている。

Recent works in multiple object tracking use sequence model to calculate the similarity score between the detections and the previous tracklets. However, the forced exposure to ground-truth in the training stage leads to the training-inference discrepancy problem, i.e., exposure bias, where association error could accumulate in the inference and make the trajectories drift. In this paper, we propose a novel method for optimizing tracklet consistency, which directly takes the prediction errors into account by introducing an online, end-to-end tracklet search training process. Notably, our methods directly optimize the whole tracklet score instead of pairwise affinity. With sequence model as appearance encoders of tracklet, our tracker achieves remarkable performance gain from conventional tracklet association baseline. Our methods have also achieved state-of-the-art in MOT15~17 challenge benchmarks using public detection and online settings.
翻訳日:2022-12-26 13:16:34 公開日:2020-03-04
# ハイブリッドモデリング:リアルタイム診断への応用

Hybrid modeling: Applications in real-time diagnosis ( http://arxiv.org/abs/2003.02671v1 )

ライセンス: Link先を確認
Ion Matei, Johan de Kleer, Alexander Feldman, Rahul Rai, Souma Chowdhury(参考訳) 高忠実度モデルを正確に抽象化し、より高速なシミュレーションを可能にする低次モデルは、リアルタイムのモデルベース診断アプリケーションには不可欠である。 本稿では,機械学習に触発されたモデルと物理モデルを組み合わせて,高忠実度モデルから低次モデルを生成する新しいハイブリッドモデリング手法を提案する。 このようなモデルをリアルタイム診断に利用しています。 具体的には,従来の高忠実度成分モデルの物理的解釈を保存した低次成分モデルを生成するために,機械学習による表現を開発した。 学習アルゴリズムの精度、スケーラビリティ、数値安定性を確保するために、自動微分を特徴とする最適化プラットフォームを使用します。 高忠実度モデルをシミュレートしてトレーニングデータを生成する。 本稿では,レールスイッチシステムの故障診断の文脈におけるアプローチを紹介する。 複素数が高忠実度モデルの複雑さよりも2桁小さい3つの新しいモデル抽象化が、方程式数とシミュレーション時間の両方において示される。 数値実験と実験の結果から,提案手法の有効性が示された。

Reduced-order models that accurately abstract high fidelity models and enable faster simulation is vital for real-time, model-based diagnosis applications. In this paper, we outline a novel hybrid modeling approach that combines machine learning inspired models and physics-based models to generate reduced-order models from high fidelity models. We are using such models for real-time diagnosis applications. Specifically, we have developed machine learning inspired representations to generate reduced order component models that preserve, in part, the physical interpretation of the original high fidelity component models. To ensure the accuracy, scalability and numerical stability of the learning algorithms when training the reduced-order models we use optimization platforms featuring automatic differentiation. Training data is generated by simulating the high-fidelity model. We showcase our approach in the context of fault diagnosis of a rail switch system. Three new model abstractions whose complexities are two orders of magnitude smaller than the complexity of the high fidelity model, both in the number of equations and simulation time are shown. The numerical experiments and results demonstrate the efficacy of the proposed hybrid modeling approach.
翻訳日:2022-12-26 13:09:45 公開日:2020-03-04
# Posterior-GAN: Posterior Generative Adversarial Networkによるインフォーマティブおよびコヒーレント応答生成に向けて

Posterior-GAN: Towards Informative and Coherent Response Generation with Posterior Generative Adversarial Network ( http://arxiv.org/abs/2003.02020v1 )

ライセンス: Link先を確認
Shaoxiong Feng, Hongshen Chen, Kan Li, Dawei Yin(参考訳) ニューラルな会話モデルは、対話履歴を考慮して応答を生成することを学ぶ。 これらのモデルは通常、最大確率推定目標を持つクエリ-レスポンスペアに最適化される。 しかし、クエリ応答タプルは自然に疎結合であり、与えられたクエリに応答できる複数の応答が存在するため、会話モデル学習の負担が伴う。 さらに、モデルが無意味な応答トレーニングインスタンスに直面すると、一般的な鈍い応答問題はさらに悪化する。 直感的には、高品質な応答は、与えられたクエリに応答するだけでなく、将来の会話にもつながります。この記事では、クエリ-レスポンス-将来のターントリプルを利用して、与えられたコンテキストと将来の会話の両方を考慮する生成された応答を誘導します。 さらに,2つの相補的評価の観点から,生成した応答を情報的かつ整合的に促進するために,前向きと後向きの生成的識別器で構成される,新しいエンコーダ・デコーダに基づく生成的逆数学習フレームワークであるPosterior Generative Adversarial Network (Posterior-GAN)を提案する。 実験結果から,提案手法は自動評価と人的評価の両方において,生成した応答のインフォメーションとコヒーレンスを効果的に向上させることを示した。

Neural conversational models learn to generate responses by taking into account the dialog history. These models are typically optimized over the query-response pairs with a maximum likelihood estimation objective. However, the query-response tuples are naturally loosely coupled, and there exist multiple responses that can respond to a given query, which leads the conversational model learning burdensome. Besides, the general dull response problem is even worsened when the model is confronted with meaningless response training instances. Intuitively, a high-quality response not only responds to the given query but also links up to the future conversations, in this paper, we leverage the query-response-future turn triples to induce the generated responses that consider both the given context and the future conversations. To facilitate the modeling of these triples, we further propose a novel encoder-decoder based generative adversarial learning framework, Posterior Generative Adversarial Network (Posterior-GAN), which consists of a forward and a backward generative discriminator to cooperatively encourage the generated response to be informative and coherent by two complementary assessment perspectives. Experimental results demonstrate that our method effectively boosts the informativeness and coherence of the generated response on both automatic and human evaluation, which verifies the advantages of considering two assessment perspectives.
翻訳日:2022-12-26 13:09:30 公開日:2020-03-04
# 回答文選択の効率性, 正確性, 文書構造に関する研究

A Study on Efficiency, Accuracy and Document Structure for Answer Sentence Selection ( http://arxiv.org/abs/2003.02349v1 )

ライセンス: Link先を確認
Daniele Bonadiman and Alessandro Moschitti(参考訳) 質問回答システム(QA)の基本課題は、回答候補の集合、すなわち回答文選択(A2S)を再ランクすることである。 これらの候補は、典型的には1つ以上の文書から自然順序を保つか、検索エンジンによって検索される文である。 タスクに対する最先端のアプローチの多くは、bertや複雑な注意型アーキテクチャといった巨大なニューラルネットワークを使用する。 本稿では,単語関連エンコーダとともに本来のランクの内在的構造を活用すれば,高い効率を維持しつつ,技術状況に関する競争的な結果を得ることができることを論じる。 我々のモデルは、wikiqaデータセットでトレーニングするのに9.5秒かかります。つまり、標準のbertベースの微調整に必要な$\sim 18$ minutesと比べて非常に高速です。

An essential task of most Question Answering (QA) systems is to re-rank the set of answer candidates, i.e., Answer Sentence Selection (A2S). These candidates are typically sentences either extracted from one or more documents preserving their natural order or retrieved by a search engine. Most state-of-the-art approaches to the task use huge neural models, such as BERT, or complex attentive architectures. In this paper, we argue that by exploiting the intrinsic structure of the original rank together with an effective word-relatedness encoder, we can achieve competitive results with respect to the state of the art while retaining high efficiency. Our model takes 9.5 seconds to train on the WikiQA dataset, i.e., very fast in comparison with the $\sim 18$ minutes required by a standard BERT-base fine-tuning.
翻訳日:2022-12-26 13:08:28 公開日:2020-03-04
# GarmentGAN:フォトリアリスティック対応ファッショントランスファー

GarmentGAN: Photo-realistic Adversarial Fashion Transfer ( http://arxiv.org/abs/2003.01894v1 )

ライセンス: Link先を確認
Amir Hossein Raffiee, Michael Sollami(参考訳) 衣服転送問題は、人の体(目的、形状、色)を衣服(衣服の種類、形状、スタイル)から分離する学習と、任意の衣服に身を包んだ着用者の新しい画像を生成する2つの課題を含む。 そこで本研究では,画像ベースの衣服転送を行う新しいアルゴリズムである clothinggan を提案する。 GarmentGANフレームワークは、購入前に仮想的なアイテムの試行と、さまざまなアパレルタイプへの一般化を可能にする。 衣料品は、対象品目の画像と顧客を含む画像の2つの画像のみを入力として要求される。 出力は、顧客がターゲットのアパレルを着ている合成画像である。 生成した画像が写実的に見えるようにするために, 新規な生成的対角法を用いる。 GarmentGANは、生成画像のリアリズムにおける既存の手法を改善し、自己閉塞に関する様々な問題を解決する。 提案モデルは,セグメンテーションマップとボディーキーポイント情報の両方を利用して,トレーニング中に追加情報を取り込む。 本手法の有効性を示すために,他のネットワークとの比較を行った。

The garment transfer problem comprises two tasks: learning to separate a person's body (pose, shape, color) from their clothing (garment type, shape, style) and then generating new images of the wearer dressed in arbitrary garments. We present GarmentGAN, a new algorithm that performs image-based garment transfer through generative adversarial methods. The GarmentGAN framework allows users to virtually try-on items before purchase and generalizes to various apparel types. GarmentGAN requires as input only two images, namely, a picture of the target fashion item and an image containing the customer. The output is a synthetic image wherein the customer is wearing the target apparel. In order to make the generated image look photo-realistic, we employ the use of novel generative adversarial techniques. GarmentGAN improves on existing methods in the realism of generated imagery and solves various problems related to self-occlusions. Our proposed model incorporates additional information during training, utilizing both segmentation maps and body key-point information. We show qualitative and quantitative comparisons to several other networks to demonstrate the effectiveness of this technique.
翻訳日:2022-12-26 13:07:28 公開日:2020-03-04
# EPINE: 近接情報ネットワークの組み込み強化

EPINE: Enhanced Proximity Information Network Embedding ( http://arxiv.org/abs/2003.02689v1 )

ライセンス: Link先を確認
Luoyi Zhang, Ming Xu(参考訳) 非教師なし同種ネットワーク埋め込み(NE)は、ネットワークのすべての頂点を低次元ベクトルに表現し、ネットワーク情報を保存する。 隣接行列は、ネットワーク情報の大部分を保持し、一階近接を直接活性化する。 本研究では,より深いレベルで,隣接行列の貴重な情報をマイニングすることに専念する。 同じ目的のもと、多くのNE法は隣接行列の力で高次近接を計算するが、これは正確で十分に設計されていない。 代わりに、より直感的に高次近接性を再定義することを提案する。 さらに,高精度近接計算の分野におけるスケーラビリティ問題を緩和する新しい計算アルゴリズムを設計する。 実世界のネットワークデータセットに関する包括的実験により,ネットワーク再構築,リンク予測,ノード分類などの下流機械学習タスクにおける本手法の有効性が実証された。

Unsupervised homogeneous network embedding (NE) represents every vertex of networks into a low-dimensional vector and meanwhile preserves the network information. Adjacency matrices retain most of the network information, and directly charactrize the first-order proximity. In this work, we devote to mining valuable information in adjacency matrices at a deeper level. Under the same objective, many NE methods calculate high-order proximity by the powers of adjacency matrices, which is not accurate and well-designed enough. Instead, we propose to redefine high-order proximity in a more intuitive manner. Besides, we design a novel algorithm for calculation, which alleviates the scalability problem in the field of accurate calculation for high-order proximity. Comprehensive experiments on real-world network datasets demonstrate the effectiveness of our method in downstream machine learning tasks such as network reconstruction, link prediction and node classification.
翻訳日:2022-12-26 13:01:03 公開日:2020-03-04
# リアルタイムフェデレーション進化型ニューラルアーキテクチャサーチ

Real-time Federated Evolutionary Neural Architecture Search ( http://arxiv.org/abs/2003.02793v1 )

ライセンス: Link先を確認
Hangyu Zhu and Yaochu Jin(参考訳) フェデレートラーニング(Federated Learning)は、プライバシ保護のための分散機械学習アプローチであり、フェデレーションラーニングの広範な適用を防止するための2つの大きな技術的課題である。 ひとつは、フェデレートされた学習は、多数のモデルパラメータをサーバとクライアントの間で伝達する必要があるため、通信に対する高い要求を提起することです。 もうひとつの課題は、連合学習におけるディープニューラルネットワークのような大規模機械学習モデルのトレーニングには大量の計算リソースが必要であり、これは携帯電話のようなエッジデバイスでは非現実的かもしれない。 連合学習でディープニューラルネットワーク検索を行う場合、問題は悪化する。 上記の課題に対処するために、モデル性能を最適化するだけでなく、局所ペイロードを削減するリアルタイムフェデレーションニューラルアーキテクチャサーチの進化的アプローチを提案する。 探索中に、各個人に対して、マスターモデルのランダムサンプルサブモデルを複数のランダムサンプルクライアントに送信し、再初期化せずにトレーニングを行うダブルサンプリング手法が導入された。 これにより、進化的最適化に必要な計算コストと通信コストを効果的に削減し、局所モデルの大きな性能変動を回避し、提案フレームワークをリアルタイムフェデレーションニューラルネットワーク探索に適させる。

Federated learning is a distributed machine learning approach to privacy preservation and two major technical challenges prevent a wider application of federated learning. One is that federated learning raises high demands on communication, since a large number of model parameters must be transmitted between the server and the clients. The other challenge is that training large machine learning models such as deep neural networks in federated learning requires a large amount of computational resources, which may be unrealistic for edge devices such as mobile phones. The problem becomes worse when deep neural architecture search is to be carried out in federated learning. To address the above challenges, we propose an evolutionary approach to real-time federated neural architecture search that not only optimize the model performance but also reduces the local payload. During the search, a double-sampling technique is introduced, in which for each individual, a randomly sampled sub-model of a master model is transmitted to a number of randomly sampled clients for training without reinitialization. This way, we effectively reduce computational and communication costs required for evolutionary optimization and avoid big performance fluctuations of the local models, making the proposed framework well suited for real-time federated neural architecture search.
翻訳日:2022-12-26 13:00:50 公開日:2020-03-04
# 生成モデルに対するタイプi攻撃

Type I Attack for Generative Models ( http://arxiv.org/abs/2003.01872v1 )

ライセンス: Link先を確認
Chengjin Sun, Sizhe Chen, Jia Cai, Xiaolin Huang(参考訳) 生成モデルは幅広いアプリケーションを持つ一般的なツールである。 それでも、逆検体は分類器として脆弱である。 既存の攻撃手法は主に、入力に知覚不能な摂動を加えることで敵の例を生成することに焦点を当てており、これは間違った結果をもたらす。 しかし、攻撃の別の側面、すなわち、重要な変更によるモデルを不正にすることに焦点を当てる。 前者はタイプIIのエラーを誘発し、後者はタイプIのエラーを引き起こす。 本稿では,VAEやGANなどの生成モデルに対するI型攻撃を提案する。 VAEの例の1つは、オリジナル画像を意味のないものに変更できるが、再構成結果は類似している。 Type I攻撃を実装するために、入力空間の距離を増大させ、入力が異なる場合、深層ニューラルネットワークの特性に類似した特徴に対応する可能性があるため、出力を同じに保ちながら、元の攻撃を破棄する。 実験の結果,本手法は大規模画像データセット上で生成モデルのタイプi逆例を生成するのに有効であることがわかった。

Generative models are popular tools with a wide range of applications. Nevertheless, it is as vulnerable to adversarial samples as classifiers. The existing attack methods mainly focus on generating adversarial examples by adding imperceptible perturbations to input, which leads to wrong result. However, we focus on another aspect of attack, i.e., cheating models by significant changes. The former induces Type II error and the latter causes Type I error. In this paper, we propose Type I attack to generative models such as VAE and GAN. One example given in VAE is that we can change an original image significantly to a meaningless one but their reconstruction results are similar. To implement the Type I attack, we destroy the original one by increasing the distance in input space while keeping the output similar because different inputs may correspond to similar features for the property of deep neural network. Experimental results show that our attack method is effective to generate Type I adversarial examples for generative models on large-scale image datasets.
翻訳日:2022-12-26 13:00:28 公開日:2020-03-04
# MoVi: 大規模な多目的モーションとビデオデータセット

MoVi: A Large Multipurpose Motion and Video Dataset ( http://arxiv.org/abs/2003.01888v1 )

ライセンス: Link先を確認
Saeed Ghorbani, Kimia Mahdaviani, Anne Thaler, Konrad Kording, Douglas James Cook, Gunnar Blohm, Nikolaus F. Troje(参考訳) 人間の動きは激しい研究の領域であり、キャラクターアニメーションのような多くの応用の基礎でもある。 多くのアプリケーションでは、動画からの動きを特定したり、動きのデータセットを分析することが重要です。 ここでは、新しいヒューマンモーションとビデオのデータセットであるMoViを紹介します。 60人の女性と30人の男性俳優が、あらかじめ定義された20の日常的な行動とスポーツ運動の収集を行い、また1人の自選運動を行う。 5回の捕獲ラウンドでは、光学式モーションキャプチャシステム、ビデオカメラ、慣性測定ユニット(imu)など、異なるハードウェアシステムを使用して同じアクターと動きが記録された。 捕獲ラウンドの一部では、俳優が自然服を着ているときに録音され、他のラウンドは最小限の服を着ていた。 私たちのデータセットには、9時間のモーションキャプチャーデータと、4つの異なる視点(ハンドヘルドカメラを含む)からの17時間のビデオデータと6.6時間のIMUデータが含まれています。 本稿では,データセットの収集と後処理について述べるとともに,骨格運動に伴う骨格運動と全身形状変形の最先端推定について述べる。 このデータセットが実現可能な潜在的研究の例について論じる。

Human movements are both an area of intense study and the basis of many applications such as character animation. For many applications, it is crucial to identify movements from videos or analyze datasets of movements. Here we introduce a new human Motion and Video dataset MoVi, which we make available publicly. It contains 60 female and 30 male actors performing a collection of 20 predefined everyday actions and sports movements, and one self-chosen movement. In five capture rounds, the same actors and movements were recorded using different hardware systems, including an optical motion capture system, video cameras, and inertial measurement units (IMU). For some of the capture rounds, the actors were recorded when wearing natural clothing, for the other rounds they wore minimal clothing. In total, our dataset contains 9 hours of motion capture data, 17 hours of video data from 4 different points of view (including one hand-held camera), and 6.6 hours of IMU data. In this paper, we describe how the dataset was collected and post-processed; We present state-of-the-art estimates of skeletal motions and full-body shape deformations associated with skeletal motion. We discuss examples for potential studies this dataset could enable.
翻訳日:2022-12-26 12:59:51 公開日:2020-03-04
# ロボットとコンピュータビジョンのためのiCubマルチセンサデータセット

The iCub multisensor datasets for robot and computer vision applications ( http://arxiv.org/abs/2003.01994v1 )

ライセンス: Link先を確認
Murat Kirtay, Ugo Albanese, Lorenzo Vannucci, Guido Schillaci, Cecilia Laschi, Egidio Falotico(参考訳) この文書は、追加の深度センサーとカラーカメラを備えたiCubロボットを用いて構築された新しいデータセットを提示する。 210個の物体の色と深度情報を取得するために,このロボットを用いた。 この結果、ロボットとコンピュータビジョンのアプリケーションのための大規模データセット(オブジェクト表現、オブジェクト認識と分類、アクション認識)が得られた。

This document presents novel datasets, constructed by employing the iCub robot equipped with an additional depth sensor and color camera. We used the robot to acquire color and depth information for 210 objects in different acquisition scenarios. At this end, the results were large scale datasets for robot and computer vision applications: object representation, object recognition and classification, and action recognition.
翻訳日:2022-12-26 12:59:06 公開日:2020-03-04
# vesr-net: youkuビデオエンハンスメントと超高解像度チャレンジの勝利ソリューション

VESR-Net: The Winning Solution to Youku Video Enhancement and Super-Resolution Challenge ( http://arxiv.org/abs/2003.02115v1 )

ライセンス: Link先を確認
Jiale Chen, Xu Tan, Chaowei Shan, Sen Liu and Zhibo Chen(参考訳) 本稿では,ビデオエンハンスメントと超解像(VESR)のためのVESR-Netを提案する。 我々は、ビデオフレーム間の関係を効率的に探索する別の非ローカルモジュールを設計し、VESR-Netにおけるビデオフレーム再構成のための特徴マップ間の関係を捉えるためのチャンネルアテンション残差ブロックを設計する。 我々はVESR-Netにおけるこれらの設計の有効性を分析する実験を行い、従来のVESR手法よりもVESR-Netの利点を実証した。 なお、Youkuビデオエンハンスメントと超高解像度(Youku-VESR)チャレンジの参加者は数千人を超えており、VESR-Netが他の競争手法に勝って第一位にランクインしている。

This paper introduces VESR-Net, a method for video enhancement and super-resolution (VESR). We design a separate non-local module to explore the relations among video frames and fuse video frames efficiently, and a channel attention residual block to capture the relations among feature maps for video frame reconstruction in VESR-Net. We conduct experiments to analyze the effectiveness of these designs in VESR-Net, which demonstrates the advantages of VESR-Net over previous state-of-the-art VESR methods. It is worth to mention that among more than thousands of participants for Youku video enhancement and super-resolution (Youku-VESR) challenge, our proposed VESR-Net beat other competitive methods and ranked the first place.
翻訳日:2022-12-26 12:58:48 公開日:2020-03-04
# In-Painting Networkの相対ロバスト性に及ぼすホール形状の影響:実証的研究

The Impact of Hole Geometry on Relative Robustness of In-Painting Networks: An Empirical Study ( http://arxiv.org/abs/2003.02314v1 )

ライセンス: Link先を確認
Masood S. Mortazavi and Ning Yan(参考訳) インペイントネットワークは、既存のピクセルを使用して、画像の一部に置かれた「穴」を埋める適切なピクセルを生成する。 2次元インペインティングネットワークの入力は通常、(1)3チャンネルの2次元画像と(2)その画像にインペイントされる「ホール」のための追加チャンネルで構成される。 本稿では,与えられたニューラルネットワークのホール形状分布の変化に対するロバスト性について検討する。 本研究は, 塗装ネットワークのロバスト性は, トレーニング中に提示された孔形状の確率分布関数(PDF)に依存するが, 基礎となる画像データセット(トレーニングやテスト)が変化しない場合でも観察する。 本研究では,4種類のホール形状pdfに対して,インペインティングネットワークの相対的ロバスト性をテストする実験手法を開発した。 筆者らは,(1)塗装中のネットワークが訓練に使用する穴分布に対する自然なバイアス,(2)穴の分布が列車の試験(相互比較)グリッドで変化するにつれて比較的頑健さを識別する能力,(3)穴や画像データセットにおけるエッジの方向分布の影響について,多くの仮説を考察した。 本稿では,L1,PSNR,SSIMの品質測定結果と,これらの品質測定値に基づいて,相互比較格子で使用する相対的塗装ロバスト性の測定値について述べる。 (この相対的な尺度に他の品質指標を組み込むことができる。) ここで報告された経験的研究は、ホールジオメトリーpdfに対するニューラルネットワークの感度、堅牢性、正規化の「空白化」に関する、より広くより深い調査の最初のステップであり、この領域におけるさらなる研究を示唆している。

In-painting networks use existing pixels to generate appropriate pixels to fill "holes" placed on parts of an image. A 2-D in-painting network's input usually consists of (1) a three-channel 2-D image, and (2) an additional channel for the "holes" to be in-painted in that image. In this paper, we study the robustness of a given in-painting neural network against variations in hole geometry distributions. We observe that the robustness of an in-painting network is dependent on the probability distribution function (PDF) of the hole geometry presented to it during its training even if the underlying image dataset used (in training and testing) does not alter. We develop an experimental methodology for testing and evaluating relative robustness of in-painting networks against four different kinds of hole geometry PDFs. We examine a number of hypothesis regarding (1) the natural bias of in-painting networks to the hole distribution used for their training, (2) the underlying dataset's ability to differentiate relative robustness as hole distributions vary in a train-test (cross-comparison) grid, and (3) the impact of the directional distribution of edges in the holes and in the image dataset. We present results for L1, PSNR and SSIM quality metrics and develop a specific measure of relative in-painting robustness to be used in cross-comparison grids based on these quality metrics. (One can incorporate other quality metrics in this relative measure.) The empirical work reported here is an initial step in a broader and deeper investigation of "filling the blank" neural networks' sensitivity, robustness and regularization with respect to hole "geometry" PDFs, and it suggests further research in this domain.
翻訳日:2022-12-26 12:58:31 公開日:2020-03-04
# 暗黙的フィードバックによるレコメンデーションのための高速適応重み付き行列分解

Fast Adaptively Weighted Matrix Factorization for Recommendation with Implicit Feedback ( http://arxiv.org/abs/2003.01892v1 )

ライセンス: Link先を確認
Jiawei Chen, Can Wang, Sheng Zhou, Qihao Shi, Jingbang Chen, Yan Feng, Chun Chen(参考訳) 暗黙のフィードバックからの勧告は、信頼できる観測された負のデータがないため、非常に難しい作業である。 暗黙の推奨に対して人気があり効果的なアプローチは、観測されていないデータを否定的なものとして扱うことである。 当然、信頼度重みを割り当てる方法と、観測されていない大量のデータを扱う方法の2つは、暗黙のレコメンデーションモデルの重要な問題である。 しかし、従来の手法では、柔軟性に欠け、ユーザの嗜好を評価する上で経験的偏見を生じさせるような単純な信頼度を手動で割り当てることによって、高速学習を追求する。 適応重み付けと効率的なモデル学習の両方を達成するために,可変オートエンコーダに基づく高速適応重み付き行列分解(fawmf)を提案する。 パーソナライズされたデータ信頼度重みはパラメータ化されたニューラルネットワーク(関数)で適応的に割り当てられ、そのデータからネットワークを推論することができる。 さらに,fawmfの高速で安定した学習を支援するために,すべてのフィードバックデータをトレーニングするが,その複雑性は観測データ数に線形であるバッチベース学習アルゴリズムfbgdを開発した。 実世界のデータセットに対する大規模な実験は、提案したFAWMFと学習アルゴリズムfBGDの優位性を実証している。

Recommendation from implicit feedback is a highly challenging task due to the lack of the reliable observed negative data. A popular and effective approach for implicit recommendation is to treat unobserved data as negative but downweight their confidence. Naturally, how to assign confidence weights and how to handle the large number of the unobserved data are two key problems for implicit recommendation models. However, existing methods either pursuit fast learning by manually assigning simple confidence weights, which lacks flexibility and may create empirical bias in evaluating user's preference; or adaptively infer personalized confidence weights but suffer from low efficiency. To achieve both adaptive weights assignment and efficient model learning, we propose a fast adaptively weighted matrix factorization (FAWMF) based on variational auto-encoder. The personalized data confidence weights are adaptively assigned with a parameterized neural network (function) and the network can be inferred from the data. Further, to support fast and stable learning of FAWMF, a new specific batch-based learning algorithm fBGD has been developed, which trains on all feedback data but its complexity is linear to the number of observed data. Extensive experiments on real-world datasets demonstrate the superiority of the proposed FAWMF and its learning algorithm fBGD.
翻訳日:2022-12-26 12:52:20 公開日:2020-03-04
# 変分自動エンコーダ:すべての障害が等しいとは限らない

Variational Auto-Encoder: not all failures are equal ( http://arxiv.org/abs/2003.01972v1 )

ライセンス: Link先を確認
Michele Sebag (LRI), Victor Berger (TAU), Mich\`ele Sebag (LRI)(参考訳) We claim that a source of severe failures for Variational Auto-Encoders is the choice of the distribution class used for the observation model.A first theoretical and experimental contribution of the paper is to establish that even in the large sample limit with arbitrarily powerful neural architectures and latent space, the VAE failsif the sharpness of the distribution class does not match the scale of the data.Our second claim is that the distribution sharpness must preferably be learned by the VAE (as opposed to, fixed and optimized offline): Autonomously adjusting this sharpness allows the VAE to dynamically control the trade-off between the optimization of the reconstruction loss and the latent compression. 2つめの実証的な貢献は、このトレードオフのコントロールが、悪名高いvaeのぼやけ問題に対してシャープネス学習がどのように対処するかを示す、人工データ、mnist、celebaの実験に裏付けられている。

We claim that a source of severe failures for Variational Auto-Encoders is the choice of the distribution class used for the observation model.A first theoretical and experimental contribution of the paper is to establish that even in the large sample limit with arbitrarily powerful neural architectures and latent space, the VAE failsif the sharpness of the distribution class does not match the scale of the data.Our second claim is that the distribution sharpness must preferably be learned by the VAE (as opposed to, fixed and optimized offline): Autonomously adjusting this sharpness allows the VAE to dynamically control the trade-off between the optimization of the reconstruction loss and the latent compression. A second empirical contribution is to show how the control of this trade-off is instrumental in escaping poor local optima, akin a simulated annealing schedule.Both claims are backed upon experiments on artificial data, MNIST and CelebA, showing how sharpness learning addresses the notorious VAE blurriness issue.
翻訳日:2022-12-26 12:51:35 公開日:2020-03-04
# 連合学習への脅威:調査

Threats to Federated Learning: A Survey ( http://arxiv.org/abs/2003.02133v1 )

ライセンス: Link先を確認
Lingjuan Lyu, Han Yu, Qiang Yang(参考訳) データサイロの出現と一般的なプライバシー意識により、人工知能(AI)モデルをトレーニングする従来の集中型アプローチは、大きな課題に直面している。 フェデレーション学習(fl)は、この新たな現実の下で有望なソリューションとして最近登場した。 既存のflプロトコル設計では、データプライバシを侵害するシステム内外の敵によって悪用される脆弱性が示されている。 したがって、FLシステム設計者が将来のFLアルゴリズム設計がプライバシー保護に与える影響を意識させることが最重要となる。 現在、この話題に関する調査は行われていない。 本稿では,FL文学におけるこの重要なギャップを橋渡しする。 flの概念の簡潔な説明と、脅威モデルとflに対する2つの主要な攻撃をカバーするユニークな分類法を提供することによって: 1)毒殺、及び 2) 推論攻撃について,本論文では,この重要なトピックの参照可能なレビューを行う。 我々は、様々な攻撃によって採用された直観、鍵となる技術、基本的な前提を強調し、FLにおけるより堅牢なプライバシー保護に向けた将来的な研究の方向性について論じる。

With the emergence of data silos and popular privacy awareness, the traditional centralized approach of training artificial intelligence (AI) models is facing strong challenges. Federated learning (FL) has recently emerged as a promising solution under this new reality. Existing FL protocol design has been shown to exhibit vulnerabilities which can be exploited by adversaries both within and without the system to compromise data privacy. It is thus of paramount importance to make FL system designers to be aware of the implications of future FL algorithm design on privacy-preservation. Currently, there is no survey on this topic. In this paper, we bridge this important gap in FL literature. By providing a concise introduction to the concept of FL, and a unique taxonomy covering threat models and two major attacks on FL: 1) poisoning attacks and 2) inference attacks, this paper provides an accessible review of this important topic. We highlight the intuitions, key techniques as well as fundamental assumptions adopted by various attacks, and discuss promising future research directions towards more robust privacy preservation in FL.
翻訳日:2022-12-26 12:51:10 公開日:2020-03-04
# Probabilistic Performance-Pattern Decomposition (PPPD):解析フレームワークと確率力学系への応用

Probabilistic Performance-Pattern Decomposition (PPPD): analysis framework and applications to stochastic mechanical systems ( http://arxiv.org/abs/2003.02205v1 )

ライセンス: Link先を確認
Ziqi Wang, Marco Broccardo, Junho Song(参考訳) 1900年代初期から、確率力学系の定量的解法の開発に多くの研究が費やされてきた。 一般に、関心量(QoI)に関する完全または部分確率的な記述が決定されると、この問題は解決される。 しかしながら、複雑なシステム動作が存在する場合には、単なる確率的記述以上のものが必要となる。 実際、システムの完全な理解を得るためには、特にqoi溶液がデータ駆動の方法で得られる場合、qoiの確率的構造から物理的特徴を抽出することが重要である。 この観点から,確率システムの挙動に関する構造的特徴を得るための枠組みを提案する。 このフレームワークはProbabilistic Performance-Pattern Decomposition (PPPD)と名付けられた。 PPPD解析は, 複雑な応答挙動を, 所定の性能状態に条件付きで分解し, システム応答空間における意味あるパターンに分解し, 基本確率変数空間におけるパターンがどのように引き起こされるかを調べることを目的とする。 本論文は,pppdの適用例を示すため,以下の3つの数値例を考察する。 1) 仮説確率過程の入力及び出力に関する説明例 2) 周期的かつカオス的な行動を有する確率論的ローレンツシステム,及び 3) 確率的地盤運動励起を受ける簡易せん断構造モデル。

Since the early 1900s, numerous research efforts have been devoted to developing quantitative solutions to stochastic mechanical systems. In general, the problem is perceived as solved when a complete or partial probabilistic description on the quantity of interest (QoI) is determined. However, in the presence of complex system behavior, there is a critical need to go beyond mere probabilistic descriptions. In fact, to gain a full understanding of the system, it is crucial to extract physical characterizations from the probabilistic structure of the QoI, especially when the QoI solution is obtained in a data-driven fashion. Motivated by this perspective, the paper proposes a framework to obtain structuralized characterizations on behaviors of stochastic systems. The framework is named Probabilistic Performance-Pattern Decomposition (PPPD). PPPD analysis aims to decompose complex response behaviors, conditional to a prescribed performance state, into meaningful patterns in the space of system responses, and to investigate how the patterns are triggered in the space of basic random variables. To illustrate the application of PPPD, the paper studies three numerical examples: 1) an illustrative example with hypothetical stochastic processes input and output; 2) a stochastic Lorenz system with periodic as well as chaotic behaviors; and 3) a simplified shear-building model subjected to a stochastic ground motion excitation.
翻訳日:2022-12-26 12:50:54 公開日:2020-03-04
# 深層ニューラルネットワークの企業信用格付け評価への応用

Application of Deep Neural Networks to assess corporate Credit Rating ( http://arxiv.org/abs/2003.02334v1 )

ライセンス: Link先を確認
Parisa Golbayani, Dan Wang, Ionut Florescu(参考訳) 近年の文献は、財務報告に基づいて企業信用格付けを評価するための機械学習技術を実装している。 本研究では,4つのニューラルネットワークアーキテクチャ (MLP, CNN, CNN2D, LSTM) の性能を解析し,Standard and Poor's が発行した企業信用格付けを予測する。 我々は米国のエネルギー、金融、医療部門から企業を分析します。 分析の目的は、信用評価への機械学習アルゴリズムの適用を改善することである。 この目的のために、私たちは3つの質問に焦点を合わせます。 まず,選択した特徴のサブセットを使用する場合,アルゴリズムの性能が向上するか,あるいはその特徴をアルゴリズム自身が選択可能とする方がよいかを検討する。 第二に、金融データに内在する時間的側面は、機械学習アルゴリズムによって得られる結果にとって重要であるか? 第三に、入力機能、セクタ、ホールドアウトセットに関して、一貫して他を上回る特定のニューラルネットワークアーキテクチャがあるか? いくつかのケーススタディを作成し、これらの疑問に答え、ANOVAと多重比較試験法を用いて結果を分析する。

Recent literature implements machine learning techniques to assess corporate credit rating based on financial statement reports. In this work, we analyze the performance of four neural network architectures (MLP, CNN, CNN2D, LSTM) in predicting corporate credit rating as issued by Standard and Poor's. We analyze companies from the energy, financial and healthcare sectors in US. The goal of the analysis is to improve application of machine learning algorithms to credit assessment. To this end, we focus on three questions. First, we investigate if the algorithms perform better when using a selected subset of features, or if it is better to allow the algorithms to select features themselves. Second, is the temporal aspect inherent in financial data important for the results obtained by a machine learning algorithm? Third, is there a particular neural network architecture that consistently outperforms others with respect to input features, sectors and holdout set? We create several case studies to answer these questions and analyze the results using ANOVA and multiple comparison testing procedure.
翻訳日:2022-12-26 12:50:23 公開日:2020-03-04
# Bayesian System ID:パラメータ、モデル、測定の不確実性の最適管理

Bayesian System ID: Optimal management of parameter, model, and measurement uncertainty ( http://arxiv.org/abs/2003.02359v1 )

ライセンス: Link先を確認
Nicholas Galioto and Alex Gorodetsky(参考訳) システム識別(ID)の確率的定式化の頑健さを,スパース,ノイズ,間接データに対して評価した。 具体的には,学習問題のベイズ的後部から導かれる将来のシステムの挙動を,システムIDで使用される最小二乗最適化目標と比較する。 比較の結果, 動的モード分解(DMD)のような離散時間ステッパーの最小二乗および最小二乗再構成を含む従来の手法の目的関数面と比較して, ログ後部は幾何的特性が向上したことが示された。 これらの特性により、新しいデータに対してより敏感になり、複数のミニマの影響を受けにくくなります。 非線形力学(SINDy)のスパース同定のような最小二乗法と正規化最小二乗法は、ノイズレス測定を仮定して確率的定式化から導出できることを示す。 また,線形問題と非線形問題の両方に対してベイズ後方を求めるために用いられるガウスフィルタに基づく近似辺マーコフ連鎖モンテカルロスキームの計算複雑性を解析した。 実験により, パラメータダイナミクスの限界後部値を取得し, 最適推定器(平均, 平均, 中央値, モード)を抽出して予測を行うことで, 上記のアプローチよりも桁違いに改善できることを示す。 この性能は、ベイズ的手法がパラメータ、モデル、測定の不確かさを捉えているのに対し、他の手法は少なくとも1つの不確かさを無視しているという事実による。

We evaluate the robustness of a probabilistic formulation of system identification (ID) to sparse, noisy, and indirect data. Specifically, we compare estimators of future system behavior derived from the Bayesian posterior of a learning problem to several commonly used least squares-based optimization objectives used in system ID. Our comparisons indicate that the log posterior has improved geometric properties compared with the objective function surfaces of traditional methods that include differentially constrained least squares and least squares reconstructions of discrete time steppers like dynamic mode decomposition (DMD). These properties allow it to be both more sensitive to new data and less affected by multiple minima --- overall yielding a more robust approach. Our theoretical results indicate that least squares and regularized least squares methods like dynamic mode decomposition and sparse identification of nonlinear dynamics (SINDy) can be derived from the probabilistic formulation by assuming noiseless measurements. We also analyze the computational complexity of a Gaussian filter-based approximate marginal Markov Chain Monte Carlo scheme that we use to obtain the Bayesian posterior for both linear and nonlinear problems. We then empirically demonstrate that obtaining the marginal posterior of the parameter dynamics and making predictions by extracting optimal estimators (e.g., mean, median, mode) yields orders of magnitude improvement over the aforementioned approaches. We attribute this performance to the fact that the Bayesian approach captures parameter, model, and measurement uncertainties, whereas the other methods typically neglect at least one type of uncertainty.
翻訳日:2022-12-26 12:50:05 公開日:2020-03-04
# 順序カオス:エッジデバイス用不規則配線ニューラルネットワークのメモリアウェアスケジューリング

Ordering Chaos: Memory-Aware Scheduling of Irregularly Wired Neural Networks for Edge Devices ( http://arxiv.org/abs/2003.02369v1 )

ライセンス: Link先を確認
Byung Hoon Ahn, Jinwon Lee, Jamie Menjay Lin, Hsin-Pai Cheng, Jilei Hou, Hadi Esmaeilzadeh(参考訳) 最近の進歩は、ニューラルネットワーク検索(nas)とランダム配線による不規則に配線されたニューラルネットワークは、ディープニューラルネットワークの設計を自動化できるだけでなく、従来の手動設計を上回るモデルも生成できることを実証している。 これらの設計は、このタイプのニューラルネットワークの設計の重要性を強調する、ハードリソース制約(メモリ、MACなど)下でのニューラルネットワークの設計において、特に効果的である。 しかし、このような動きは、以前合理化された実行パターンの複雑さを引き起こす。 実際、大きな課題の1つは、ニューラルネットワーク内のそのようなノードの順序が中間活性化のメモリフットプリントに大きな影響を及ぼすことである。 現在のコンパイラは、アクティベーションメモリのフットプリントに関してスケジュールせず、そのピークが最適なものに比べて大幅に増加するため、エッジデバイスには適用できない。 そこで本研究では,SERENITYと呼ばれる動的プログラミングを用いて,メモリフットプリントを最適化したシーケンスを探索するメモリ認識コンパイラを提案する。 このソリューションはグラフ書き換え技術も備えており、最適以上の削減が可能です。 これにより、セレンティリティは最適なピークメモリを達成し、グラフ書き換え技術は、動的プログラミングベースのスケジューラで1.68倍、グラフ書き換えで1.86倍、オーバーヘッド1分未満でtensorflow liteに対してさらに改善される。

Recent advances demonstrate that irregularly wired neural networks from Neural Architecture Search (NAS) and Random Wiring can not only automate the design of deep neural networks but also emit models that outperform previous manual designs. These designs are especially effective while designing neural architectures under hard resource constraints (memory, MACs, . . . ) which highlights the importance of this class of designing neural networks. However, such a move creates complication in the previously streamlined pattern of execution. In fact one of the main challenges is that the order of such nodes in the neural network significantly effects the memory footprint of the intermediate activations. Current compilers do not schedule with regard to activation memory footprint that it significantly increases its peak compared to the optimum, rendering it not applicable for edge devices. To address this standing issue, we present a memory-aware compiler, dubbed SERENITY, that utilizes dynamic programming to find a sequence that finds a schedule with optimal memory footprint. Our solution also comprises of graph rewriting technique that allows further reduction beyond the optimum. As such, SERENITY achieves optimal peak memory, and the graph rewriting technique further improves this resulting in 1.68x improvement with dynamic programming-based scheduler and 1.86x with graph rewriting, against TensorFlow Lite with less than one minute overhead.
翻訳日:2022-12-26 12:49:37 公開日:2020-03-04
# 熱着色におけるロバストな暗視

Robust Perceptual Night Vision in Thermal Colorization ( http://arxiv.org/abs/2003.02204v1 )

ライセンス: Link先を確認
Feras Almasri, Olivier Debeir(参考訳) 熱赤外画像を頑健な知覚色の可視画像に変換することは、スペクトル領域と物体の表現の違いによる不適切な問題である。 対象は1つのスペクトルに現れるが、別のスペクトルには必ずしも現れず、1つの対象の熱的シグネチャは、その可視性表現において異なる色を持つかもしれない。 これにより、熱から可視画像への直接マッピングが不可能になり、特定の物体の色を予測しながら、熱スペクトルに捕獲されたテクスチャを保存するソリューションが必要になります。 本研究では,熱画像のスペクトルからその低周波空間における可視表現への熱署名をマッピングする深層学習手法を提案する。 次に、予測された低周波表現と熱画像から抽出された高周波表現とをマージするパンシャープニング法を用いる。 提案モデルは,物体の外観があまり変化しない場合,可視的地盤真理と一致する色値を生成し,他のケースでは平均的な灰色値を生成する。 提案手法は、既存の最先端技術と比較して、物体の外観や画像のコンテキストを保ちながら、頑健な暗視画像を示す。

Transforming a thermal infrared image into a robust perceptual colour Visible image is an ill-posed problem due to the differences in their spectral domains and in the objects' representations. Objects appear in one spectrum but not necessarily in the other, and the thermal signature of a single object may have different colours in its Visible representation. This makes a direct mapping from thermal to Visible images impossible and necessitates a solution that preserves texture captured in the thermal spectrum while predicting the possible colour for certain objects. In this work, a deep learning method to map the thermal signature from the thermal image's spectrum to a Visible representation in their low-frequency space is proposed. A pan-sharpening method is then used to merge the predicted low-frequency representation with the high-frequency representation extracted from the thermal image. The proposed model generates colour values consistent with the Visible ground truth when the object does not vary much in its appearance and generates averaged grey values in other cases. The proposed method shows robust perceptual night vision images in preserving the object's appearance and image context compared with the existing state-of-the-art.
翻訳日:2022-12-26 12:43:32 公開日:2020-03-04
# 低ビット幅量子化ニューラルネットワークのための漸近推定勾配の伝搬

Propagating Asymptotic-Estimated Gradients for Low Bitwidth Quantized Neural Networks ( http://arxiv.org/abs/2003.04296v1 )

ライセンス: Link先を確認
Jun Chen, Yong Liu, Hao Zhang, Shengnan Hou, Jian Yang(参考訳) 量子化されたニューラルネットワーク(QNN)は、ニューラルネットワークの加速と圧縮に有用であるが、トレーニングプロセスの間、ほとんどどこでも0の微分でグラフフローを通して損失関数の勾配を伝播する方法が課題となる。 この非微分可能な状況に対応して, 勾配を推定する新しい漸近量子化推定器(aqe)を提案する。 特に、バックプロパゲーションの間、入力と出力を関連付けたグラフは滑らかで微分可能である。 トレーニングの終わりに、AQEの漸近的な振る舞いのため、重量と活性化は低精度に定量化されている。 一方、1-3ビットの重みとアクティベーションを持つ量子化ニューラルネットワークであるAQEによって訓練されたMビット入力とNビット重みネットワーク(MINW-Net)を提案する。 推論フェーズでは、畳み込み操作の代わりにXNORまたはShiFT操作を使用してMINW-Netを高速化する。 CIFARデータセットに対する実験により、AQEは十分に定義されており、AQEを持つQNNは、STE(Straight-Through Estimator)よりも優れた性能を示している。 例えば、1ビットの重みとアクティベーションを持つ同じConvNetの場合、AQEを用いたMINW-Netは、STEによるバイナリニューラルネットワーク(BNN)よりも1.5倍高い精度で予測できる。 AQEによってスクラッチからトレーニングされたMINW-Netは、CIFARテストセット上の32ビットと同等の分類精度を達成できる。 ImageNetデータセットの大規模な実験結果からは,提案したAQEよりも優れた結果が得られ,MINW-Netは他の最先端QNNと同等の結果が得られた。

The quantized neural networks (QNNs) can be useful for neural network acceleration and compression, but during the training process they pose a challenge: how to propagate the gradient of loss function through the graph flow with a derivative of 0 almost everywhere. In response to this non-differentiable situation, we propose a novel Asymptotic-Quantized Estimator (AQE) to estimate the gradient. In particular, during back-propagation, the graph that relates inputs to output remains smoothness and differentiability. At the end of training, the weights and activations have been quantized to low-precision because of the asymptotic behaviour of AQE. Meanwhile, we propose a M-bit Inputs and N-bit Weights Network (MINW-Net) trained by AQE, a quantized neural network with 1-3 bits weights and activations. In the inference phase, we can use XNOR or SHIFT operations instead of convolution operations to accelerate the MINW-Net. Our experiments on CIFAR datasets demonstrate that our AQE is well defined, and the QNNs with AQE perform better than that with Straight-Through Estimator (STE). For example, in the case of the same ConvNet that has 1-bit weights and activations, our MINW-Net with AQE can achieve a prediction accuracy 1.5\% higher than the Binarized Neural Network (BNN) with STE. The MINW-Net, which is trained from scratch by AQE, can achieve comparable classification accuracy as 32-bit counterparts on CIFAR test sets. Extensive experimental results on ImageNet dataset show great superiority of the proposed AQE and our MINW-Net achieves comparable results with other state-of-the-art QNNs.
翻訳日:2022-12-26 12:43:14 公開日:2020-03-04
# 遅延逆数発生器による高分解能画像の作成

Creating High Resolution Images with a Latent Adversarial Generator ( http://arxiv.org/abs/2003.02365v1 )

ライセンス: Link先を確認
David Berthelot, Peyman Milanfar, Ian Goodfellow(参考訳) 近年,現実的な画像の生成は困難であり,多くの定式化が提案されている。 しかし、特定の画像のクラスを生成するタスクに制限を加えると、タスクはよりトラクタブルになる。 すなわち、自然画像の多様体から標本として任意の画像を生成する代わりに、同じ部分空間から低解像度の画像によって指示される自然画像の特定の「部分空間」から画像をサンプリングすることを提案する。 私たちが取り組んでいる問題は、シングルイメージのスーパーレゾリューション問題の定式化に近いが、実際にはかなり異なる。 単一画像超解像は、比較的低解像度の画像から地上の真理に最も近い画像を予測するタスクである。 本稿では,Latent Adversarial Generator (LAG) と呼ばれる新しい手法を用いて,非常に小さな入力を与えられた高解像度画像のサンプルを作成する。 生成サンプリングフレームワークでは、入力(おそらく非常に低解像度)のみを使用して、ネットワークが生成すべきサンプルのクラスを指示します。 このように、我々のアルゴリズムの出力は、入力に関連するユニークな画像ではなく、自然画像の多様体からサンプリングされた関連する画像のSe}である。 本手法は知覚的損失を用いて敵の潜在空間でのみ学習するが、画素損失は持たない。

Generating realistic images is difficult, and many formulations for this task have been proposed recently. If we restrict the task to that of generating a particular class of images, however, the task becomes more tractable. That is to say, instead of generating an arbitrary image as a sample from the manifold of natural images, we propose to sample images from a particular "subspace" of natural images, directed by a low-resolution image from the same subspace. The problem we address, while close to the formulation of the single-image super-resolution problem, is in fact rather different. Single image super-resolution is the task of predicting the image closest to the ground truth from a relatively low resolution image. We propose to produce samples of high resolution images given extremely small inputs with a new method called Latent Adversarial Generator (LAG). In our generative sampling framework, we only use the input (possibly of very low-resolution) to direct what class of samples the network should produce. As such, the output of our algorithm is not a unique image that relates to the input, but rather a possible se} of related images sampled from the manifold of natural images. Our method learns exclusively in the latent space of the adversary using perceptual loss -- it does not have a pixel loss.
翻訳日:2022-12-26 12:42:16 公開日:2020-03-04
# QED: 回復力のあるロボット群を進化させるための品質環境多様性の利用

QED: using Quality-Environment-Diversity to evolve resilient robot swarms ( http://arxiv.org/abs/2003.02341v1 )

ライセンス: Link先を確認
David M. Bossens and Danesh Tarapore(参考訳) swarm roboticsでは、swarm内のどのロボットも異なる障害に影響を受け、パフォーマンスが大幅に低下する可能性がある。 スウォーム内の異なるロボットにランダムに注入された故障からの障害復旧を可能にするため、モデル内の障害の蓄積と近隣ロボットの挙動予測の困難により、モデルフリーなアプローチが望ましい。 モデルのないフォールトリカバリアプローチには、2つのフェーズがある:シミュレーションの間、品質多様性アルゴリズムは、挙動的に多様なコントローラのアーカイブを進化させ、ターゲットアプリケーションでは、障害注入後に最良のコントローラの探索を開始する。 品質多様性アルゴリズムでは、振る舞い記述子の選択は進化したアーカイブの品質を決定する重要な設計選択であり、それゆえフォールトリカバリ性能である。 環境は行動の重要な決定要因であるが、環境多様性の影響はしばしば適切な行動記述子の選択において無視される。 本研究は、幅広いタスクを扱う2つの一般的な記述子、関心領域に適合する1つの手書き記述子、環境多様性に基づく1つの新しいタイプの記述子を含む行動記述子を比較し、品質環境多様性(QED)と呼ぶ。 以上の結果から,Swarmロボティクスの文脈では,上記のモデルフリーの断層回復アプローチが実現可能であることが示唆された。 さらに、QEDで得られた環境多様性は、高い影響の断層から回復できるユニークな挙動の多様性プロファイルをもたらす。

In swarm robotics, any of the robots in a swarm may be affected by different faults, resulting in significant performance declines. To allow fault recovery from randomly injected faults to different robots in a swarm, a model-free approach may be preferable due to the accumulation of faults in models and the difficulty to predict the behaviour of neighbouring robots. One model-free approach to fault recovery involves two phases: during simulation, a quality-diversity algorithm evolves a behaviourally diverse archive of controllers; during the target application, a search for the best controller is initiated after fault injection. In quality-diversity algorithms, the choice of the behavioural descriptor is a key design choice that determines the quality of the evolved archives, and therefore the fault recovery performance. Although the environment is an important determinant of behaviour, the impact of environmental diversity is often ignored in the choice of a suitable behavioural descriptor. This study compares different behavioural descriptors, including two generic descriptors that work on a wide range of tasks, one hand-coded descriptor which fits the domain of interest, and one novel type of descriptor based on environmental diversity, which we call Quality-Environment-Diversity (QED). Results demonstrate that the above-mentioned model-free approach to fault recovery is feasible in the context of swarm robotics, reducing the fault impact by a factor 2-3. Further, the environmental diversity obtained with QED yields a unique behavioural diversity profile that allows it to recover from high-impact faults.
翻訳日:2022-12-26 12:41:42 公開日:2020-03-04
# ディープネットプルーニングによるプライバシー保護学習

Privacy-preserving Learning via Deep Net Pruning ( http://arxiv.org/abs/2003.01876v1 )

ライセンス: Link先を確認
Yangsibo Huang, Yushan Su, Sachin Ravi, Zhao Song, Sanjeev Arora, Kai Li(参考訳) 本稿では,データユーティリティを損なうことなく,ディファレンシャルプライバシを実現するツールとしてニューラルネットワークプルーニングが使用できるか,という疑問に答える。 ニューラルネットワークのプルーニングとディファレンシャルプライバシの関係を理解するための第一歩として,ニューラルネットワークの特定の層をプルーニングすることは,その隠蔽層アクティベーションにある程度のディファレンシャルプライベートノイズを加えることと等価であることを示す。 また,本論文は,理論的発見と鍵パラメータ値の実用的意義を,簡単な実践的設定で示すための実験結果も提示する。 これらの結果は、ニューラルネットワークのプルーニングが、ニューラルネットワークに微分的プライベートノイズを追加するより効果的な選択肢であることを示している。

This paper attempts to answer the question whether neural network pruning can be used as a tool to achieve differential privacy without losing much data utility. As a first step towards understanding the relationship between neural network pruning and differential privacy, this paper proves that pruning a given layer of the neural network is equivalent to adding a certain amount of differentially private noise to its hidden-layer activations. The paper also presents experimental results to show the practical implications of the theoretical finding and the key parameter values in a simple practical setting. These results show that neural network pruning can be a more effective alternative to adding differentially private noise for neural networks.
翻訳日:2022-12-26 12:40:37 公開日:2020-03-04
# 専用ハードウェア上での ising ベースのコンセンサスクラスタリング

Ising-based Consensus Clustering on Specialized Hardware ( http://arxiv.org/abs/2003.01887v1 )

ライセンス: Link先を確認
Eldan Cohen, Avradip Mandal, Hayato Ushijima-Mwesigwa, and Arnab Roy(参考訳) CMOSアニールや断熱量子コンピュータのような特殊な最適化ハードウェアの出現は、ハードウェアにおいてより効率的にハード組合せ最適化問題を解くことを約束する。 近年の研究では、イジングモデルのような異なる組合せ最適化問題や、多くのハードウェアプラットフォームで使われているコア数学的抽象化、特殊なハードウェア上でのこれらのモデルの性能評価に焦点が当てられている。 興味深い応用分野はデータマイニング(data mining)で、組合せ最適化問題は多くのコアタスクを満たしている。 本研究では,過去20年間に注目されてきた重要な組合せ問題であるコンセンサス・クラスタリング(クラスタリング・アグリゲーション)に注目した。 コンセンサスクラスタリングのための2つのIsingモデルを提案し、量子に着想を得たCMOSアニールであるFujitsu Digital Annealerを用いて評価する。 我々の経験的評価は、我々のアプローチが既存の技術より優れており、将来の研究にとって有望な方向であることを示している。

The emergence of specialized optimization hardware such as CMOS annealers and adiabatic quantum computers carries the promise of solving hard combinatorial optimization problems more efficiently in hardware. Recent work has focused on formulating different combinatorial optimization problems as Ising models, the core mathematical abstraction used by a large number of these hardware platforms, and evaluating the performance of these models when solved on specialized hardware. An interesting area of application is data mining, where combinatorial optimization problems underlie many core tasks. In this work, we focus on consensus clustering (clustering aggregation), an important combinatorial problem that has received much attention over the last two decades. We present two Ising models for consensus clustering and evaluate them using the Fujitsu Digital Annealer, a quantum-inspired CMOS annealer. Our empirical evaluation shows that our approach outperforms existing techniques and is a promising direction for future research.
翻訳日:2022-12-26 12:39:59 公開日:2020-03-04
# 深層学習における大きな学習速度相:カタパルト機構

The large learning rate phase of deep learning: the catapult mechanism ( http://arxiv.org/abs/2003.02218v1 )

ライセンス: Link先を確認
Aitor Lewkowycz, Yasaman Bahri, Ethan Dyer, Jascha Sohl-Dickstein, Guy Gur-Ari(参考訳) 初期学習率の選択は、ディープネットワークの性能に大きな影響を及ぼす可能性がある。 本稿では,学習ダイナミクスを解き明かすニューラルネットワークのクラスを示し,その予測を実際のディープラーニング環境で経験的に確認する。 ネットワークは、小さくて大きな学習率で鋭く異なる行動を示す。 2つの体制は相転移によって分離される。 小さな学習率のフェーズでは、無限大ニューラルネットワークの既存の理論を用いてトレーニングを理解することができる。 大きな学習率で、モデルは定性的に異なる現象を捉え、グラデーション降下ダイナミクスをフラットな最小値に収束させる。 我々のモデルの1つの重要な予測は、広範囲で安定した学習率である。 実際のディープラーニング環境では,モデル予測とトレーニングダイナミクスとの間によい一致が得られます。 さらに,このような設定における最適性能は,大きな学習率フェーズでよく見られることがわかった。 我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。 特に、既存の広義のニューラルネットワーク理論と、非線形で大きな学習率、練習に関連するトレーニングダイナミクスとのギャップを埋める。

The choice of initial learning rate can have a profound effect on the performance of deep networks. We present a class of neural networks with solvable training dynamics, and confirm their predictions empirically in practical deep learning settings. The networks exhibit sharply distinct behaviors at small and large learning rates. The two regimes are separated by a phase transition. In the small learning rate phase, training can be understood using the existing theory of infinitely wide neural networks. At large learning rates the model captures qualitatively distinct phenomena, including the convergence of gradient descent dynamics to flatter minima. One key prediction of our model is a narrow range of large, stable learning rates. We find good agreement between our model's predictions and training dynamics in realistic deep learning settings. Furthermore, we find that the optimal performance in such settings is often found in the large learning rate phase. We believe our results shed light on characteristics of models trained at different learning rates. In particular, they fill a gap between existing wide neural network theory, and the nonlinear, large learning rate, training dynamics relevant to practice.
翻訳日:2022-12-26 12:34:14 公開日:2020-03-04
# 対比的推定は、話題の後方情報を線形モデルに示す

Contrastive estimation reveals topic posterior information to linear models ( http://arxiv.org/abs/2003.02234v1 )

ライセンス: Link先を確認
Christopher Tosh and Akshay Krishnamurthy and Daniel Hsu(参考訳) コントラスト学習(Contrastive Learning)は、自然に発生する類似データと異なるデータポイントのペアを利用して、データに有用な埋め込みを見つけるための表現学習のアプローチである。 トピックモデリングの前提下での文書分類の文脈において、コントラスト学習は、その基礎となるトピック後続情報を線形モデルに示す文書の表現を復元できることを示す。 この手順を半教師付きで適用し, 訓練例の少ない文書分類タスクにおいて, これらの表現を用いた線形分類器が有効であることを示す。

Contrastive learning is an approach to representation learning that utilizes naturally occurring similar and dissimilar pairs of data points to find useful embeddings of data. In the context of document classification under topic modeling assumptions, we prove that contrastive learning is capable of recovering a representation of documents that reveals their underlying topic posterior information to linear models. We apply this procedure in a semi-supervised setup and demonstrate empirically that linear classifiers with these representations perform well in document classification tasks with very few training examples.
翻訳日:2022-12-26 12:33:38 公開日:2020-03-04
# 深部ニューラルネットワークにおけるロジスティック・ソフトマックス損失の学習特性について

On the Learning Property of Logistic and Softmax Losses for Deep Neural Networks ( http://arxiv.org/abs/2003.02309v1 )

ライセンス: Link先を確認
Xiangrui Li, Xin Li, Deng Pan and Dongxiao Zhu(参考訳) ロジスティックとソフトマックスの損失で訓練された深層畳み込みニューラルネットワーク(cnns)は、コンピュータビジョンにおける視覚認識タスクを著しく進歩させた。 トレーニングデータがクラス不均衡を示す場合、クラスワイドのロジスティックとソフトマックスの損失は、非重み付きバージョンの性能を高めるためにしばしば使用される。 本稿では,2つの損失関数の学習特性を,CNNの学習後に必要条件(勾配が0に等しいなど)を解析し,局所的な最小限に収束させることにより,再重み付けのメカニズムを説明する。 本分析は,(1) クラス単位の重み付け機構の定量的効果について,(1) ソフトマックス損失を用いたマルチクラス分類において,ロジスティック損失を用いた二項分類に対する決定論的有効性,(2) 1-vs による単一ラベルのマルチクラス分類におけるロジスティック損失のデメリットについて,直ちに理解する。 あらゆるアプローチは、学習過程における負のクラス(例えば、非ターゲットクラス)の予測確率に対する平均効果によるものである。 また,ロジスティック損失のデメリットとデメリットを両立させることにより,ロジスティック損失を多クラス分類に再加重する手法を提案する。 単純かつ効果的な定式化は,難解な非目標クラス(目標クラスと非目標クラス)の学習に焦点を合わせ,通常のロジスティックロスを改善した。 提案手法を複数のベンチマークデータセット上で評価し,その有効性を実証する。

Deep convolutional neural networks (CNNs) trained with logistic and softmax losses have made significant advancement in visual recognition tasks in computer vision. When training data exhibit class imbalances, the class-wise reweighted version of logistic and softmax losses are often used to boost performance of the unweighted version. In this paper, motivated to explain the reweighting mechanism, we explicate the learning property of those two loss functions by analyzing the necessary condition (e.g., gradient equals to zero) after training CNNs to converge to a local minimum. The analysis immediately provides us explanations for understanding (1) quantitative effects of the class-wise reweighting mechanism: deterministic effectiveness for binary classification using logistic loss yet indeterministic for multi-class classification using softmax loss; (2) disadvantage of logistic loss for single-label multi-class classification via one-vs.-all approach, which is due to the averaging effect on predicted probabilities for the negative class (e.g., non-target classes) in the learning process. With the disadvantage and advantage of logistic loss disentangled, we thereafter propose a novel reweighted logistic loss for multi-class classification. Our simple yet effective formulation improves ordinary logistic loss by focusing on learning hard non-target classes (target vs. non-target class in one-vs.-all) and turned out to be competitive with softmax loss. We evaluate our method on several benchmark datasets to demonstrate its effectiveness.
翻訳日:2022-12-26 12:32:46 公開日:2020-03-04
# Bispectrum-based Deep Convolutional Neural Networks を用いた非線形時系列分類

Nonlinear Time Series Classification Using Bispectrum-based Deep Convolutional Neural Networks ( http://arxiv.org/abs/2003.02353v1 )

ライセンス: Link先を確認
Paul A. Parker, Scott H. Holan, Nalini Ravishanker(参考訳) 新たな技術を用いた時系列分類は、統計学者、主題ドメイン科学者、ビジネスおよび産業における意思決定者から近年の復活と関心が高まっている。 これは主に、技術進歩の結果として生成される大規模で複雑なデータの増加によるものである。 モチベーションの例として、非常に非線形な振る舞いを示すGoogleトレンドデータがある。 この問題に対処するためには豊富な文献が存在するが、既存のアプローチは主に時系列の1階と2階の性質に依存している。 多くの場合、これらはGoogle Trendsデータのような非線形時系列データの効果的な分類には不十分である。 これらの方法論的欠陥と実世界の現象の中で持続する非線形時系列の存在を考えると、高次スペクトル分析(HOSA)と深部畳み込みニューラルネットワーク(CNN)を融合して時系列を分類するアプローチを導入する。 提案手法の有効性を,シミュレーションデータと,Googleトレンドデータと電子機器エネルギー消費データを含む2つの産業事例を用いて示す。

Time series classification using novel techniques has experienced a recent resurgence and growing interest from statisticians, subject-domain scientists, and decision makers in business and industry. This is primarily due to the ever increasing amount of big and complex data produced as a result of technological advances. A motivating example is that of Google trends data, which exhibit highly nonlinear behavior. Although a rich literature exists for addressing this problem, existing approaches mostly rely on first and second order properties of the time series, since they typically assume linearity of the underlying process. Often, these are inadequate for effective classification of nonlinear time series data such as Google Trends data. Given these methodological deficiencies and the abundance of nonlinear time series that persist among real-world phenomena, we introduce an approach that merges higher order spectral analysis (HOSA) with deep convolutional neural networks (CNNs) for classifying time series. The effectiveness of our approach is illustrated using simulated data and two motivating industry examples that involve Google trends data and electronic device energy consumption data.
翻訳日:2022-12-26 12:32:15 公開日:2020-03-04
# 対向攻撃に対するオートエンコーダ訓練のためのダブルバックプロパゲーション

Double Backpropagation for Training Autoencoders against Adversarial Attack ( http://arxiv.org/abs/2003.01895v1 )

ライセンス: Link先を確認
Chengjin Sun, Sizhe Chen, and Xiaolin Huang(参考訳) ディープラーニングは、広く知られているように、敵のサンプルに弱い。 本稿では,オートエンコーダに対する敵意攻撃に着目した。 オートエンコーダ(aes)の安全性は、データストレージと送信のための圧縮スキームとして広く使われているため重要であるが、現在のオートエンコーダは、入力をわずかに変更できるが、全く異なるコードを持つため、容易に攻撃される。 この脆弱性は、オートエンコーダの感度を根ざし、ロバスト性を高めるために、VAEやDRAWなどのオートエンコーダを保護するために二重バックプロパゲーション(DBP)を採用することを提案する。 我々は、自己エンコーダが敵攻撃による自明な摂動に敏感でないように、再構成画像から元のものへの勾配を制限する。 dbpによる勾配の平滑化により,ガウス混合モデル (gmm) によるラベルをさらに平滑化し, 高精度かつロバストな分類を目指す。 我々はMNIST, CelebA, SVHNにおいて, 攻撃に抵抗する堅牢なオートエンコーダと, GMMと組み合わせれば画像遷移と対向攻撃への免疫が可能な頑健な分類器を導くことを実証した。

Deep learning, as widely known, is vulnerable to adversarial samples. This paper focuses on the adversarial attack on autoencoders. Safety of the autoencoders (AEs) is important because they are widely used as a compression scheme for data storage and transmission, however, the current autoencoders are easily attacked, i.e., one can slightly modify an input but has totally different codes. The vulnerability is rooted the sensitivity of the autoencoders and to enhance the robustness, we propose to adopt double backpropagation (DBP) to secure autoencoder such as VAE and DRAW. We restrict the gradient from the reconstruction image to the original one so that the autoencoder is not sensitive to trivial perturbation produced by the adversarial attack. After smoothing the gradient by DBP, we further smooth the label by Gaussian Mixture Model (GMM), aiming for accurate and robust classification. We demonstrate in MNIST, CelebA, SVHN that our method leads to a robust autoencoder resistant to attack and a robust classifier able for image transition and immune to adversarial attack if combined with GMM.
翻訳日:2022-12-26 12:31:56 公開日:2020-03-04
# 領域提案に基づくオブジェクト検出のための混合正規化

Mixup Regularization for Region Proposal based Object Detectors ( http://arxiv.org/abs/2003.02065v1 )

ライセンス: Link先を確認
Shahine Bouabid and Vincent Delaitre(参考訳) ラベル付きサンプルペアの線形補間に基づくニューラルネットワーク正規化技術であるMixupは、驚くほど単純な形式化を通じてモデルの堅牢性と一般化性を改善する能力で際立っている。 しかし、境界ボックスの補間はネイティブに定義できないため、オブジェクト検出の分野への拡張は未だ不明である。 本稿では,アンカーの固有領域マッピング構造を活用し,領域提案に基づくオブジェクト検出のための混合駆動型トレーニング正規化を提案する。 提案手法は,検出設定が困難な標準データセット上でベンチマークされる。 実験の結果,画像変化に対する堅牢性が向上し,検出の非コンテクスト化が可能となり,一般化能力が向上した。

Mixup - a neural network regularization technique based on linear interpolation of labeled sample pairs - has stood out by its capacity to improve model's robustness and generalizability through a surprisingly simple formalism. However, its extension to the field of object detection remains unclear as the interpolation of bounding boxes cannot be naively defined. In this paper, we propose to leverage the inherent region mapping structure of anchors to introduce a mixup-driven training regularization for region proposal based object detectors. The proposed method is benchmarked on standard datasets with challenging detection settings. Our experiments show an enhanced robustness to image alterations along with an ability to decontextualize detections, resulting in an improved generalization power.
翻訳日:2022-12-26 12:31:31 公開日:2020-03-04
# 人物再識別のためのユニティスタイル転送

Unity Style Transfer for Person Re-Identification ( http://arxiv.org/abs/2003.02068v1 )

ライセンス: Link先を確認
Chong Liu and Xiaojun Chang and Yi-Dong Shen(参考訳) スタイルの変更は、異なるカメラで同じ歩行者とマッチングすることを目的とした、人物再識別の大きな課題となっている。 既存の研究は、カメラ不変ディスクリプタ部分空間学習でこの問題に対処しようとした。 しかし、異なるカメラで撮影された画像の差が大きくなると、より多くの画像アーティファクトが得られるだろう。 この問題を解決するために,同じカメラ内および異なるカメラ間のスタイルの相違を円滑にできるUnityStyle適応法を提案する。 具体的には、まずUnityGANを作成し、カメラ間のスタイル変化を学習し、各カメラの形状安定なスタイルユニティ画像を生成します。 一方、UnityStyleイメージを使用して、異なるイメージ間のスタイルの違いを排除しています。 次に,提案手法をRe-IDモデルに適用し,クエリのより詳細なスタイルが期待できる。 提案するフレームワークの性能を評価するために,広く利用されているベンチマークデータセットについて広範な実験を行い,その結果,提案モデルの優位性を確認した。

Style variation has been a major challenge for person re-identification, which aims to match the same pedestrians across different cameras. Existing works attempted to address this problem with camera-invariant descriptor subspace learning. However, there will be more image artifacts when the difference between the images taken by different cameras is larger. To solve this problem, we propose a UnityStyle adaption method, which can smooth the style disparities within the same camera and across different cameras. Specifically, we firstly create UnityGAN to learn the style changes between cameras, producing shape-stable style-unity images for each camera, which is called UnityStyle images. Meanwhile, we use UnityStyle images to eliminate style differences between different images, which makes a better match between query and gallery. Then, we apply the proposed method to Re-ID models, expecting to obtain more style-robust depth features for querying. We conduct extensive experiments on widely used benchmark datasets to evaluate the performance of the proposed framework, the results of which confirm the superiority of the proposed model.
翻訳日:2022-12-26 12:31:19 公開日:2020-03-04
# 汚損耐性ガウス過程バンディット最適化

Corruption-Tolerant Gaussian Process Bandit Optimization ( http://arxiv.org/abs/2003.01971v1 )

ライセンス: Link先を確認
Ilija Bogunovic, Andreas Krause, Jonathan Scarlett(参考訳) 雑音フィードバックに基づいて未知の(典型的には非凸)関数を有界ノルムで最適化する問題を再現するケルネルヒルベルト空間(RKHS)において検討する。 本稿では,無作為な雑音によって点評価が損なわれるだけでなく,逆の腐敗も考慮する。 本稿では,ガウス過程法に基づく高速スローGP-UCBアルゴリズム,高速 (非ロバスト) と低 (ロバスト) の2つのインスタンス間のランダム選択,拡張された信頼境界,不確実性の下での楽観主義の原理を紹介する。 我々は, 腐敗レベル, 時間軸, 基礎となるカーネルの観点から, 累積的後悔を上限として, 新たな理論的解析を行い, 特定の依存関係は改善できないと主張する。 腐敗した設定と非腐敗設定の両方でうまく機能するよう要求されるか、腐敗レベルが分かっているかどうかによって異なるアルゴリズムのアイデアが必要であることを観察する。

We consider the problem of optimizing an unknown (typically non-convex) function with a bounded norm in some Reproducing Kernel Hilbert Space (RKHS), based on noisy bandit feedback. We consider a novel variant of this problem in which the point evaluations are not only corrupted by random noise, but also adversarial corruptions. We introduce an algorithm Fast-Slow GP-UCB based on Gaussian process methods, randomized selection between two instances labeled "fast" (but non-robust) and "slow" (but robust), enlarged confidence bounds, and the principle of optimism under uncertainty. We present a novel theoretical analysis upper bounding the cumulative regret in terms of the corruption level, the time horizon, and the underlying kernel, and we argue that certain dependencies cannot be improved. We observe that distinct algorithmic ideas are required depending on whether one is required to perform well in both the corrupted and non-corrupted settings, and whether the corruption level is known or not.
翻訳日:2022-12-26 12:24:33 公開日:2020-03-04
# 変分オートエンコーダにおける離散データの決定論的復号

Deterministic Decoding for Discrete Data in Variational Autoencoders ( http://arxiv.org/abs/2003.02174v1 )

ライセンス: Link先を確認
Daniil Polykovskiy and Dmitry Vetrov(参考訳) 変分オートエンコーダは離散データモデリングのための顕著な生成モデルである。 しかし、フレキシブルなデコーダでは、潜在コードを無視する傾向がある。 本稿では,サンプリングの代わりに最上位のトークンを選択するシーケンシャルデータに対する決定論的デコーダ(DD-VAE)を用いたVAEモデルについて検討する。 決定論的デコーディングは、学習多様体の構造を改善するために、多様なオブジェクトを生成する唯一の方法として潜在コードのみに依存する。 dd-vaeを実装するために,新しい有界支援提案分布のクラスを提案し,ガウスおよび一様事前のkullback-leiblerダイバージェンスを導出する。 また, 決定論的復号目的関数の連続緩和について検討し, 再構成精度と緩和パラメータの関係を解析した。 分子生成や最適化問題を含む複数のデータセット上でのDD-VAEの性能を示す。

Variational autoencoders are prominent generative models for modeling discrete data. However, with flexible decoders, they tend to ignore the latent codes. In this paper, we study a VAE model with a deterministic decoder (DD-VAE) for sequential data that selects the highest-scoring tokens instead of sampling. Deterministic decoding solely relies on latent codes as the only way to produce diverse objects, which improves the structure of the learned manifold. To implement DD-VAE, we propose a new class of bounded support proposal distributions and derive Kullback-Leibler divergence for Gaussian and uniform priors. We also study a continuous relaxation of deterministic decoding objective function and analyze the relation of reconstruction accuracy and relaxation parameters. We demonstrate the performance of DD-VAE on multiple datasets, including molecular generation and optimization problems.
翻訳日:2022-12-26 12:23:10 公開日:2020-03-04
# 拘束型MDPの探査・探査

Exploration-Exploitation in Constrained MDPs ( http://arxiv.org/abs/2003.02189v1 )

ライセンス: Link先を確認
Yonathan Efroni and Shie Mannor and Matteo Pirotta(参考訳) 多くの逐次的な意思決定問題において、目的は異なるユーティリティに対する一連の制約を満たしながら、ユーティリティ機能を最適化することである。 この学習問題は制約付きマルコフ決定プロセス(cmdps)によって形式化される。 本稿では,CMDPの探査・探査ジレンマについて検討する。 未知のCMDPで学びながら、エージェントは、MDPに関する新たな情報を見つけるためにトレードオフ探索を行い、現在の知識を活用して、制約を満たしながら報酬を最大化するべきである。 エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。 本研究では,cmdpsで学習する2つのアプローチを分析した。 第1のアプローチはCMDPの線形定式化を利用して各エピソードで楽観的な計画を行う。 第二のアプローチはCMDPの双対定式化(サドル点定式化)を利用して、原始変数と双対変数の漸進的で楽観的な更新を行う。 いずれも,制約違反をサブ線形後悔しながら,主効用としてサブ線形後悔を実現することを示す。 とはいえ、線形プログラミングアプローチは、双対の定式化に基づくアプローチよりも強い保証をもたらす。

In many sequential decision-making problems, the goal is to optimize a utility function while satisfying a set of constraints on different utilities. This learning problem is formalized through Constrained Markov Decision Processes (CMDPs). In this paper, we investigate the exploration-exploitation dilemma in CMDPs. While learning in an unknown CMDP, an agent should trade-off exploration to discover new information about the MDP, and exploitation of the current knowledge to maximize the reward while satisfying the constraints. While the agent will eventually learn a good or optimal policy, we do not want the agent to violate the constraints too often during the learning process. In this work, we analyze two approaches for learning in CMDPs. The first approach leverages the linear formulation of CMDP to perform optimistic planning at each episode. The second approach leverages the dual formulation (or saddle-point formulation) of CMDP to perform incremental, optimistic updates of the primal and dual variables. We show that both achieves sublinear regret w.r.t.\ the main utility while having a sublinear regret on the constraint violations. That being said, we highlight a crucial difference between the two approaches; the linear programming approach results in stronger guarantees than in the dual formulation based approach.
翻訳日:2022-12-26 12:22:55 公開日:2020-03-04
# ファジィ積分に基づく適応二元化

Adaptive binarization based on fuzzy integrals ( http://arxiv.org/abs/2003.08755v1 )

ライセンス: Link先を確認
Francesco Bardozzo, Borja De La Osa, Lubomira Horanska, Javier Fumanal-Idocin, Mattia delli Priscoli, Luigi Troiano, Roberto Tagliaferri, Javier Fernandez, Humberto Bustince(参考訳) 適応バイナライゼーション手法は、積分画像を利用する隣接画素に対して画素の強度を閾値付けする。 次に、積分画像は総和平均値アルゴリズム(SAT)を用いて最適に計算される。 本論文は,ファジィ積分のための改良SATの効率的な設計により,ファジィ積分画像に基づく適応バイナライズ手法を提案する。 我々はこの新しい手法をフラット(ファジー局所適応しきい値)と定義する。 実験の結果,提案手法は従来のアルゴリズムやニューラルネットワークよりも画像品質のしきい値が良いことがわかった。 本稿では,既存の結果を改善するために,sugeno と cf 1,2 積分の新たな一般化を提案する。 したがって、これらの新しい一般化ファジィ積分は、リアルタイムおよびディープラーニングアプリケーションにおけるグレースケール処理のツールとして使用できる。 インデックス用語:画像閾値、画像処理、ファジィ積分、集約関数

Adaptive binarization methodologies threshold the intensity of the pixels with respect to adjacent pixels exploiting the integral images. In turn, the integral images are generally computed optimally using the summed-area-table algorithm (SAT). This document presents a new adaptive binarization technique based on fuzzy integral images through an efficient design of a modified SAT for fuzzy integrals. We define this new methodology as FLAT (Fuzzy Local Adaptive Thresholding). The experimental results show that the proposed methodology have produced an image quality thresholding often better than traditional algorithms and saliency neural networks. We propose a new generalization of the Sugeno and CF 1,2 integrals to improve existing results with an efficient integral image computation. Therefore, these new generalized fuzzy integrals can be used as a tool for grayscale processing in real-time and deep-learning applications. Index Terms: Image Thresholding, Image Processing, Fuzzy Integrals, Aggregation Functions
翻訳日:2022-12-26 12:15:59 公開日:2020-03-04
# FineHand: アメリカの手話認識のための手形学習

FineHand: Learning Hand Shapes for American Sign Language Recognition ( http://arxiv.org/abs/2003.08753v1 )

ライセンス: Link先を確認
Al Amin Hosain, Panneer Selvam Santhalingam, Parth Pathak, Huzefa Rangwala and Jana Kosecka(参考訳) アメリカ手話認識は、高速で明瞭なジェスチャーを特徴とする、難しいジェスチャー認識問題である。 これらは、手形、表情、頭の動きの異なる腕の動きで構成されている。 これらの要素のうち、手の形は極めて重要であり、しばしばジェスチャーの最も差別的な部分である。 本稿では,aslジェスチャを識別する手形埋め込みの効果的な学習手法を提案する。 手形の認識には,手動でラベル付けした手形と高信頼度予測を組み合わせて,深層畳み込みニューラルネットワーク(CNN)を訓練する。 シーケンシャルなジェスチャーコンポーネントは、最初の段階で学んだ埋め込みに基づいてトレーニングされた再帰的ニューラルネットワーク(RNN)によってキャプチャされる。 多様な話者,異なる照明,有意な動きのぼかしを伴う課題条件において,高品質のハンドシェイプモデルが最終的な映像ジェスチャ分類の精度を大幅に向上できることを実証する。 我々は,gmu-asl51ベンチマークデータセットにおいて,異なるモーダリティと表現を利用する代替手法と比較し,映像ジェスチャ認識精度の向上を示す。

American Sign Language recognition is a difficult gesture recognition problem, characterized by fast, highly articulate gestures. These are comprised of arm movements with different hand shapes, facial expression and head movements. Among these components, hand shape is the vital, often the most discriminative part of a gesture. In this work, we present an approach for effective learning of hand shape embeddings, which are discriminative for ASL gestures. For hand shape recognition our method uses a mix of manually labelled hand shapes and high confidence predictions to train deep convolutional neural network (CNN). The sequential gesture component is captured by recursive neural network (RNN) trained on the embeddings learned in the first stage. We will demonstrate that higher quality hand shape models can significantly improve the accuracy of final video gesture classification in challenging conditions with variety of speakers, different illumination and significant motion blurr. We compare our model to alternative approaches exploiting different modalities and representations of the data and show improved video gesture recognition accuracy on GMU-ASL51 benchmark dataset
翻訳日:2022-12-26 12:15:47 公開日:2020-03-04
# 深部ニューラルネットワーク知覚モデルとロバスト自律運転システム

Deep Neural Network Perception Models and Robust Autonomous Driving Systems ( http://arxiv.org/abs/2003.08756v1 )

ライセンス: Link先を確認
Mohammad Javad Shafiee, Ahmadreza Jeddi, Amir Nazemi, Paul Fieguth, and Alexander Wong(参考訳) 本稿では、自律運転アプリケーションにおけるディープラーニングモデルの堅牢性を分析し、それに対応するための実用的なソリューションについて論じる。

This paper analyzes the robustness of deep learning models in autonomous driving applications and discusses the practical solutions to address that.
翻訳日:2022-12-26 12:15:31 公開日:2020-03-04
# エネルギー効率の良いオンライン学習のための塑性強化ドメインウォールMTJニューラルネットワーク

Plasticity-Enhanced Domain-Wall MTJ Neural Networks for Energy-Efficient Online Learning ( http://arxiv.org/abs/2003.02357v1 )

ライセンス: Link先を確認
Christopher H. Bennett, T. Patrick Xiao, Can Cui, Naimul Hassan, Otitoaleke G. Akinola, Jean Anne C. Incorvia, Alvaro Velasquez, Joseph S. Friedman, and Matthew J. Marinella(参考訳) 機械学習は豊富なトレーニングサンプルを通じてバックプロパゲーションを実装する。 有望な不揮発性メモリデバイスであるドメインウォール磁気トンネル接合(dw-mtj)によって実現される多段階学習システムを示す。 このシステムは、教師なし(クラスタリング)と教師なしのサブシステムで構成され、すぐに一般化する(サンプルはほとんどない)。 本装置の物理的特性と神経科学に触発された可塑性学習ルールの最適実装との相互作用を実証し,一連のタスクにおける性能を強調する。 私たちのエネルギー分析は、機械学習で通常使われる大規模なタスクであっても、学習予算が20ドル以下であることから、このアプローチの価値を確認します。

Machine learning implements backpropagation via abundant training samples. We demonstrate a multi-stage learning system realized by a promising non-volatile memory device, the domain-wall magnetic tunnel junction (DW-MTJ). The system consists of unsupervised (clustering) as well as supervised sub-systems, and generalizes quickly (with few samples). We demonstrate interactions between physical properties of this device and optimal implementation of neuroscience-inspired plasticity learning rules, and highlight performance on a suite of tasks. Our energy analysis confirms the value of the approach, as the learning budget stays below 20 $\mu J$ even for large tasks used typically in machine learning.
翻訳日:2022-12-26 12:15:28 公開日:2020-03-04
# SeMemNN: テキスト分類のためのセマンティックマトリックスベースのメモリニューラルネットワーク

SeMemNN: A Semantic Matrix-Based Memory Neural Network for Text Classification ( http://arxiv.org/abs/2003.01857v1 )

ライセンス: Link先を確認
Changzeng Fu, Chaoran Liu, Carlos Toshinori Ishi, Yuichiro Yoshikawa, Hiroshi Ishiguro(参考訳) テキスト分類は、自然言語で書かれた文書にラベルを割り当てるタスクであり、感情分析や伝統的なトピック割り当てタスクを含む多くの現実世界のアプリケーションを持っている。 本稿では,2つのニュース記事(AG News, Sogou News)に対して,エンドツーエンドの学習手法で意味行列に基づくメモリニューラルネットワークの5つの異なる構成を提案する。 提案手法の最適性能は,テキスト分類タスクにおけるベースラインvdcnnモデルよりも優れており,セマンティクス学習の高速化が期待できる。 さらに,小規模データセット上でのモデル評価も行った。 その結果,提案手法は小規模データセットのvdcnnと比較しても良好な結果が得られることがわかった。 この論文は、2020年のIEEE 14th International Conference on Semantic Computing (ICSC 2020, San Diego, California, 2020に掲載される。

Text categorization is the task of assigning labels to documents written in a natural language, and it has numerous real-world applications including sentiment analysis as well as traditional topic assignment tasks. In this paper, we propose 5 different configurations for the semantic matrix-based memory neural network with end-to-end learning manner and evaluate our proposed method on two corpora of news articles (AG news, Sogou news). The best performance of our proposed method outperforms the baseline VDCNN models on the text classification task and gives a faster speed for learning semantics. Moreover, we also evaluate our model on small scale datasets. The results show that our proposed method can still achieve better results in comparison to VDCNN on the small scale dataset. This paper is to appear in the Proceedings of the 2020 IEEE 14th International Conference on Semantic Computing (ICSC 2020), San Diego, California, 2020.
翻訳日:2022-12-26 12:15:15 公開日:2020-03-04
# ダイナミックエクスペリエンスのリプレイ

Dynamic Experience Replay ( http://arxiv.org/abs/2003.02372v1 )

ライセンス: Link先を確認
Jieliang Luo and Hui Li(参考訳) 本稿では,強化学習(rl)アルゴリズムが,人間の実演だけでなく,訓練中にrlエージェントが生成したトランジションにも成功した経験リプレイサンプルを使用することを可能にする,dynamic experience replay(der)と呼ばれる新しい手法を提案する。 DDPGやDQNなどの任意の外部RLアルゴリズムとその分散バージョンと組み合わせることができる。 我々は,Ape-X DDPGを基盤として,力・トルク・カルテシアンポーズの観察に基づくロボットタイトな組立作業へのアプローチを実証する。 特に、peg-in-holeとlap-jointという2つの異なるタスクで実験を行います。 それぞれのケースで、異なるリプレイバッファ構造とDERがどのように影響するかを比較します。 我々のアブレーション研究によると、ダイナミックエクスペリエンス・リプレイは、これらの困難な環境でのトレーニング時間を大幅に短縮するか、あるいは、Ape-X DDPGが解決できない課題を解決するために重要な要素である。 また、シミュレーションで純粋に学習したポリシーを実際のロボットにうまく展開できることも示している。 実験のビデオはhttps://sites.google.com/site/dynamicexperiencereplayで公開されている。

We present a novel technique called Dynamic Experience Replay (DER) that allows Reinforcement Learning (RL) algorithms to use experience replay samples not only from human demonstrations but also successful transitions generated by RL agents during training and therefore improve training efficiency. It can be combined with an arbitrary off-policy RL algorithm, such as DDPG or DQN, and their distributed versions. We build upon Ape-X DDPG and demonstrate our approach on robotic tight-fitting joint assembly tasks, based on force/torque and Cartesian pose observations. In particular, we run experiments on two different tasks: peg-in-hole and lap-joint. In each case, we compare different replay buffer structures and how DER affects them. Our ablation studies show that Dynamic Experience Replay is a crucial ingredient that either largely shortens the training time in these challenging environments or solves the tasks that the vanilla Ape-X DDPG cannot solve. We also show that our policies learned purely in simulation can be deployed successfully on the real robot. The video presenting our experiments is available at https://sites.google.com/site/dynamicexperiencereplay
翻訳日:2022-12-26 12:14:42 公開日:2020-03-04
# Meta Cyclical Annealing Schedule: Meta-Amortization Error の簡単なアプローチ

Meta Cyclical Annealing Schedule: A Simple Approach to Avoiding Meta-Amortization Error ( http://arxiv.org/abs/2003.01889v1 )

ライセンス: Link先を確認
Yusuke Hayashi and Taiji Suzuki(参考訳) 少量のデータで新しい概念を学習する能力は、深層学習の方法に挑戦することが証明された知性の重要な側面である。 それまでの多くのタスクからデータを通して学習するために学習することで、少数の学習アルゴリズムはタスク間の構造を発見し、新しいタスクの迅速な学習を可能にする。 しかし、少数ショット学習における重要な課題はタスクのあいまいさである: 強力な先行タスクが多数の先行タスクからメタ学習可能であったとしても、新しいタスクのための小さなデータセットは、そのタスクの単一のモデルを取得するために非常に曖昧である。 ベイズメタラーニングモデルは、洗練された事前分布を配置し、ベイズ決定理論を通じて後部を正則化することで、自然にこの問題を解決できる。 しかしながら、現在知られているベイジアンメタラーニング手順、例えばversaはいわゆる「it情報選好問題」、すなわち後方分布が一点に縮退し、正確なものとは程遠い問題に苦しむ。 この課題に対処するために, {\it cyclical annealing schedule} と {\it maximum mean discrepancy} (MMD) を用いた新しいメタ規則化目標を設計する。 環状アニールスケジュールは、そのような縮退した解を避けるのに非常に効果的である。 本手法では,KL偏差推定が難しいが,KL偏差ではなくMDDを用いて解決する。 実験の結果,本手法は標準的なメタラーニングアルゴリズムを実質的に上回っていることがわかった。

The ability to learn new concepts with small amounts of data is a crucial aspect of intelligence that has proven challenging for deep learning methods. Meta-learning for few-shot learning offers a potential solution to this problem: by learning to learn across data from many previous tasks, few-shot learning algorithms can discover the structure among tasks to enable fast learning of new tasks. However, a critical challenge in few-shot learning is task ambiguity: even when a powerful prior can be meta-learned from a large number of prior tasks, a small dataset for a new task can simply be very ambiguous to acquire a single model for that task. The Bayesian meta-learning models can naturally resolve this problem by putting a sophisticated prior distribution and let the posterior well regularized through Bayesian decision theory. However, currently known Bayesian meta-learning procedures such as VERSA suffer from the so-called {\it information preference problem}, that is, the posterior distribution is degenerated to one point and is far from the exact one. To address this challenge, we design a novel meta-regularization objective using {\it cyclical annealing schedule} and {\it maximum mean discrepancy} (MMD) criterion. The cyclical annealing schedule is quite effective at avoiding such degenerate solutions. This procedure includes a difficult KL-divergence estimation, but we resolve the issue by employing MMD instead of KL-divergence. The experimental results show that our approach substantially outperforms standard meta-learning algorithms.
翻訳日:2022-12-26 12:14:01 公開日:2020-03-04
# オッズ・レイショ・トンプソンサンプリングによる時変効果の制御

Odds-Ratio Thompson Sampling to Control for Time-Varying Effect ( http://arxiv.org/abs/2003.01905v1 )

ライセンス: Link先を確認
Sulgi Kim and Kyungmin Kim(参考訳) マルチアームバンディット法は、特にオンラインサービスにおける動的実験に用いられている。 これらの方法のうち、トンプソンサンプリングは単純だが望ましい性能を示すため広く用いられている。 バイナリ報酬のための多くのトンプソンサンプリングメソッドは、特定のパラメータ化で書かれたロジスティックモデルを使用する。 本研究ではオッズ比パラメータを用いてロジスティックモデルを再パラメータ化する。 これはトンプソンサンプリングがパラメータのサブセットで使用できることを示している。 そこで本研究では, 時変効果にロバストに作用することが期待される新しい手法「odds-ratio thompson sampling」を提案する。 提案手法を連続実験に用いた場合,提案手法の望ましい性質について考察した。 シミュレーション研究において、新しい手法は時間的背景効果に頑健に作用するが、性能の損失はそのような効果がない場合に限られる。 最後に,実サービスからのデータセットを用いて,実環境において新たな手法がより大きな報酬を得ることを示した。

Multi-armed bandit methods have been used for dynamic experiments particularly in online services. Among the methods, thompson sampling is widely used because it is simple but shows desirable performance. Many thompson sampling methods for binary rewards use logistic model that is written in a specific parameterization. In this study, we reparameterize logistic model with odds ratio parameters. This shows that thompson sampling can be used with subset of parameters. Based on this finding, we propose a novel method, "Odds-ratio thompson sampling", which is expected to work robust to time-varying effect. Use of the proposed method in continuous experiment is described with discussing a desirable property of the method. In simulation studies, the novel method works robust to temporal background effect, while the loss of performance was only marginal in case with no such effect. Finally, using dataset from real service, we showed that the novel method would gain greater rewards in practical environment.
翻訳日:2022-12-26 12:13:33 公開日:2020-03-04
# リカレントニューラルネットワークによる断片的バビロニアテキストの復元

Restoration of Fragmentary Babylonian Texts Using Recurrent Neural Networks ( http://arxiv.org/abs/2003.01912v1 )

ライセンス: Link先を確認
Ethan Fetaya, Yonatan Lifshitz, Elad Aaron and Shai Gordin(参考訳) 古代メソポタミアの歴史と文化に関する主要な情報源は粘土のクネイフォームである。 貴重なリソースであるにもかかわらず、多くのタブレットが断片化され、情報が失われている。 現在、これらの欠落部分は専門家によって手作業で完成されている。 本研究では,Achaemenid 時代バビロニアの古代アッカド語のテキストを,繰り返しニューラルネットワークを用いて言語をモデル化することにより,研究者を支援する可能性について検討する。

The main source of information regarding ancient Mesopotamian history and culture are clay cuneiform tablets. Despite being an invaluable resource, many tablets are fragmented leading to missing information. Currently these missing parts are manually completed by experts. In this work we investigate the possibility of assisting scholars and even automatically completing the breaks in ancient Akkadian texts from Achaemenid period Babylonia by modelling the language using recurrent neural networks.
翻訳日:2022-12-26 12:06:21 公開日:2020-03-04
# ガウス化流

Gaussianization Flows ( http://arxiv.org/abs/2003.01941v1 )

ライセンス: Link先を確認
Chenlin Meng, Yang Song, Jiaming Song and Stefano Ermon(参考訳) 反復ガウス化は任意の連続ランダムベクトルをガウスベクトルに変換する固定点反復手続きである。 反復ガウス化を基礎として,確率の効率的な計算とサンプル生成の効率的なインバージョンを可能にする新しい正規化フローモデルを提案する。 正規性条件下での連続確率分布に対する普遍近似器として,これらのモデルがガウス化フローと呼ばれることを実証する。 この保証された表現性のため、サンプル生成の効率を損なうことなくマルチモーダルなターゲット分布をキャプチャできる。 実験により,ガウス化フローは,実 nvp,glow,ffjord など他の効率的な可逆フローモデルと比較して,いくつかの表型データセットにおいて,優れた性能あるいは同等の性能が得られることを示した。 特に、ガウス化フローは初期化が容易で、トレーニングデータの異なる変換に関してより堅牢性を示し、小さなトレーニングセットでより良く一般化する。

Iterative Gaussianization is a fixed-point iteration procedure that can transform any continuous random vector into a Gaussian one. Based on iterative Gaussianization, we propose a new type of normalizing flow model that enables both efficient computation of likelihoods and efficient inversion for sample generation. We demonstrate that these models, named Gaussianization flows, are universal approximators for continuous probability distributions under some regularity conditions. Because of this guaranteed expressivity, they can capture multimodal target distributions without compromising the efficiency of sample generation. Experimentally, we show that Gaussianization flows achieve better or comparable performance on several tabular datasets compared to other efficiently invertible flow models such as Real NVP, Glow and FFJORD. In particular, Gaussianization flows are easier to initialize, demonstrate better robustness with respect to different transformations of the training data, and generalize better on small training sets.
翻訳日:2022-12-26 12:05:25 公開日:2020-03-04
# 非局所線形回帰モデルを用いた重み付き符号化に基づく画像補間

Weighted Encoding Based Image Interpolation With Nonlocal Linear Regression Model ( http://arxiv.org/abs/2003.04811v1 )

ライセンス: Link先を確認
Junchao Zhang(参考訳) 画像補間は画像超解像の特殊な場合であり、低解像度画像はぼやけやノイズを伴わない高解像度画像と直接逆サンプリングされる。 したがって、超解像モデルで採用される仮定は、画像補間には有効ではない。 この問題に対処するために,スパース表現に基づく新しい画像補間モデルを提案する。 補間モデルの安定性を高めるために、疎性や非局所的な自己相似性を含む2つの広く用いられる先行項が正規化用語として用いられる。 一方、非局所的線形回帰は、非局所的類似パッチが与えられたパッチに対してより良い近似を与えるので、このモデルに組み込む。 さらに,クラスタリングの代わりに適応的なサブ辞書をオンラインで学習する手法を提案する。 パッチごとに同様のパッチがグループ化され、適応型サブディクショナリを学習し、よりスパースで正確な表現を生成する。 最後に、重み付き符号化を導入し、データ忠実性の適合残差の尾行を抑制する。 豊富な実験結果から,提案手法は定量的測定と視覚品質の点で最先端手法よりも優れていることが示された。

Image interpolation is a special case of image super-resolution, where the low-resolution image is directly down-sampled from its high-resolution counterpart without blurring and noise. Therefore, assumptions adopted in super-resolution models are not valid for image interpolation. To address this problem, we propose a novel image interpolation model based on sparse representation. Two widely used priors including sparsity and nonlocal self-similarity are used as the regularization terms to enhance the stability of interpolation model. Meanwhile, we incorporate the nonlocal linear regression into this model since nonlocal similar patches could provide a better approximation to a given patch. Moreover, we propose a new approach to learn adaptive sub-dictionary online instead of clustering. For each patch, similar patches are grouped to learn adaptive sub-dictionary, generating a more sparse and accurate representation. Finally, the weighted encoding is introduced to suppress tailing of fitting residuals in data fidelity. Abundant experimental results demonstrate that our proposed method outperforms several state-of-the-art methods in terms of quantitative measures and visual quality.
翻訳日:2022-12-26 12:04:35 公開日:2020-03-04