このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20200106となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# デジタル社会における分散化 - デザインパラドックス Decentralization in Digital Societies -- A Design Paradox ( http://arxiv.org/abs/2001.01511v1 ) ライセンス: Link先を確認 | Evangelos Pournaras | (参考訳) デジタル社会には、デザインのパラドックスがある。一方、モノのインターネット、広く普及し、ユビキタスなシステムのような技術は、スマートフォン、スマートサーモスタット、自動運転車など、日常生活の相互接続されたデバイスに分散したローカルインテリジェンスを可能にします。
一方、ビッグデータの収集と保管は高度に集中した方法で管理され、結果としてプライバシー侵害、監視行動、差別と差別の社会現象が生じる。
分散システム設計と分散型システム設計の違いは何ですか?
現在、データの処理は「分散化」されているか?
集中設計は自律性を損なうか?
実践された技術における分権化のレベルは、社会的正義のような倫理的・社会的次元に影響を及ぼすか?
分散化は持続可能性をもたらすか?
デジタル技術の分散化と都市開発の分散化の間に並列性はあるか? Digital societies come with a design paradox: On the one hand, technologies, such as Internet of Things, pervasive and ubiquitous systems, allow a distributed local intelligence in interconnected devices of our everyday life such as smart phones, smart thermostats, self-driving cars, etc. On the other hand, Big Data collection and storage is managed in a highly centralized fashion, resulting in privacy-intrusion, surveillance actions, discriminatory and segregation social phenomena. What is the difference between a distributed and a decentralized system design? How "decentralized" is the processing of our data nowadays? Does centralized design undermine autonomy? Can the level of decentralization in the implemented technologies influence ethical and social dimensions, such as social justice? Can decentralization convey sustainability? Are there parallelisms between the decentralization of digital technology and the decentralization of urban development? | 翻訳日:2023-06-08 11:12:29 公開日:2020-01-06 |
# 有向グラフに対する動機的クラスタリングスキーム Motivic clustering schemes for directed graphs ( http://arxiv.org/abs/2001.00278v2 ) ライセンス: Link先を確認 | Facundo M\'emoli, Guilherme Vituri F. Pinto | (参考訳) ネットワークモチーフの概念に触発され、与えられたモチーフ(あるいは代表者)の集合によってパラメータ化される特定のクラスタリングメソッド(ファクタ)を構築します。 Motivated by the concept of network motifs we construct certain clustering methods (functors) which are parametrized by a given collection of motifs (or representers). | 翻訳日:2023-01-16 09:21:15 公開日:2020-01-06 |
# テキスト線検出による多目的中国語キーワードスポッター A Multi-oriented Chinese Keyword Spotter Guided by Text Line Detection ( http://arxiv.org/abs/2001.00722v2 ) ライセンス: Link先を確認 | Pei Xu, Shan Huang, Hongzhen Wang, Hao Song, Shen Huang, Qi Ju | (参考訳) 中国語のキーワードスポッティングは、中国語には視覚的な空白がないため、難しい課題である。
視覚的なブランクによって自然に分割される英語の単語とは異なり、中国語の単語は一般に意味情報によってのみ分割される。
本稿では,Mask R-CNNにインスパイアされた,自然画像のための中国語のキーワードスポッターを提案する。
テキストライン検出によるキーワードマスクの予測を提案する。
まず、テキスト行の提案は、Faster R-CNNによって生成され、テキスト行マスクとキーワードマスクは、提案のセグメンテーションによって予測される。
このようにして、テキスト行とキーワードを並列に予測する。
RCTW-17とICPR MTWI2018に基づく中国語のキーワードデータセットを作成し,提案手法の有効性を検証する。 Chinese keyword spotting is a challenging task as there is no visual blank for Chinese words. Different from English words which are split naturally by visual blanks, Chinese words are generally split only by semantic information. In this paper, we propose a new Chinese keyword spotter for natural images, which is inspired by Mask R-CNN. We propose to predict the keyword masks guided by text line detection. Firstly, proposals of text lines are generated by Faster R-CNN;Then, text line masks and keyword masks are predicted by segmentation in the proposals. In this way, the text lines and keywords are predicted in parallel. We create two Chinese keyword datasets based on RCTW-17 and ICPR MTWI2018 to verify the effectiveness of our method. | 翻訳日:2023-01-14 17:45:17 公開日:2020-01-06 |
# 物質のフラクトン相 Fracton Phases of Matter ( http://arxiv.org/abs/2001.01722v1 ) ライセンス: Link先を確認 | Michael Pretko, Xie Chen, Yizhi You | (参考訳) フラクトンは新しいタイプの準粒子であり、孤立的に動けないが、しばしば境界状態を形成することで動く。
フラクトンはスピン液体や弾性理論のような様々な物理環境に存在し、重力物理学や局在論のような異常な現象論を示す。
ここ数年、これらのエキゾチックな粒子への関心が高まり、現代の凝縮物理論の最前線になってきた。
本総説では, 教育的導入資料から最近の分野の進歩への議論まで, フラクトンを幅広く扱う。
我々は、しばしばテンソルゲージ理論の出現に伴う高次モーメント保存則の結果として、フラクトン現象が自然に生じることを示すことから始める。
次に, スピンモデルにおけるフラクトン相のサーベイと, それらの特徴付けに用いられる様々なツール, 葉の枠組みについて述べる。
弾性理論におけるフラクトン物理学の出現と、フラクトンと局所化と重力の関係を詳細に論じる。
最後に、マヨラナ諸島やホールドープ反強磁性体など、最近提案されたフラクトン物理学のプラットフォームの概要を示す。
いくつかのオープンな質問と、この分野の展望で締めくくります。 Fractons are a new type of quasiparticle which are immobile in isolation, but can often move by forming bound states. Fractons are found in a variety of physical settings, such as spin liquids and elasticity theory, and exhibit unusual phenomenology, such as gravitational physics and localization. The past several years have seen a surge of interest in these exotic particles, which have come to the forefront of modern condensed matter theory. In this review, we provide a broad treatment of fractons, ranging from pedagogical introductory material to discussions of recent advances in the field. We begin by demonstrating how the fracton phenomenon naturally arises as a consequence of higher moment conservation laws, often accompanied by the emergence of tensor gauge theories. We then provide a survey of fracton phases in spin models, along with the various tools used to characterize them, such as the foliation framework. We discuss in detail the manifestation of fracton physics in elasticity theory, as well as the connections of fractons with localization and gravitation. Finally, we provide an overview of some recently proposed platforms for fracton physics, such as Majorana islands and hole-doped antiferromagnets. We conclude with some open questions and an outlook on the field. | 翻訳日:2023-01-14 03:16:45 公開日:2020-01-06 |
# 分散量子システムに対する拡張量子プロセス代数(eqpalg)アプローチ An extended quantum process algebra (eQPAlg) approach for distributed quantum systems ( http://arxiv.org/abs/2001.04249v1 ) ライセンス: Link先を確認 | Salman Haider, Dr. Syed Asad Raza Kazmi | (参考訳) 本研究では,プロセス代数を用いて量子システムの通信手順を提示する。
我々の研究の主な目的は、分散量子システム間の通信を正式に表現することである。
提案した新しい通信モデルでは、Lalireの量子プロセス代数QPAlgの既存の規則を改善した。
我々は、量子テレポーテーションプロトコルを正式に指定する概念を導入することで、qpalgにいくつかの重要な修正をもたらした。
我々はさらに、その動作を最もよく説明し、仕様を満たすプログラムを使用することで、プロトコルの正式な記述を導入しました。
古典的および量子データの両方の送受信を公式に説明し、量子力学の主要な特徴を念頭に置いて、改良された代数の作用を記述するための例が提供されている。 In this work, we have expounded the communication procedure of quantum systems by means of process algebra. The main objective of our research effort is to formally represent the communication between distributed quantum systems. In this new proposed communication model we have ameliorated the existing rules of Lalire's quantum process algebra QPAlg. We have brought some important modification in QPAlg by introducing the concept of formally specifying the Quantum teleportation protocol. We have further introduced the formal description of protocol by using programs that best explains its working and satisfies the specification. Examples have been provided to describe the working of the improved algebra that formally explain the sending and receiving of both classical as well as quantum data, keeping in mind the principal features of quantum mechanics. | 翻訳日:2023-01-14 03:16:25 公開日:2020-01-06 |
# 対向的摂動を考慮した自律走行のための画像間翻訳ネットワークの廃止 Deceiving Image-to-Image Translation Networks for Autonomous Driving with Adversarial Perturbations ( http://arxiv.org/abs/2001.01506v1 ) ライセンス: Link先を確認 | Lin Wang, Wonjune Cho, and Kuk-Jin Yoon | (参考訳) ディープニューラルネットワーク(DNN)はコンピュータビジョン問題に対処する上で優れた性能を発揮しているが、DNNは敵の例に弱いことが判明した。
このような理由から、最近いくつかの点で敵対的摂動が研究されている。
しかし、以前のほとんどの著作は画像分類の課題に焦点を当てており、画像から画像への変換タスク(im2im)における敵対的摂動についての研究は行われていない。
本稿では,自律運転のためのIm2Imフレームワークを騙しうる,様々な種類の逆転摂動について検討する。
我々は,Im2Imモデルが予期せぬ結果をもたらすような,準物理的およびデジタル逆転摂動を提案する。
次に,これらの摂動を実験的に解析し,画像合成のためのペアリングとスタイル転送のための非ペア設定の両方でよく一般化することを示す。
また、Im2Imマッピングが破壊されるか不可能となるような摂動しきい値が存在することを検証する。
これらの摂動の存在はim2imモデルに重大な弱点が存在することを示している。
最後に,提案手法がアウトプットの品質にどのような影響を与えるかを示すとともに,自律運転における現在のSOTAネットワークのロバスト性の向上を先導していることを示す。 Deep neural networks (DNNs) have achieved impressive performance on handling computer vision problems, however, it has been found that DNNs are vulnerable to adversarial examples. For such reason, adversarial perturbations have been recently studied in several respects. However, most previous works have focused on image classification tasks, and it has never been studied regarding adversarial perturbations on Image-to-image (Im2Im) translation tasks, showing great success in handling paired and/or unpaired mapping problems in the field of autonomous driving and robotics. This paper examines different types of adversarial perturbations that can fool Im2Im frameworks for autonomous driving purpose. We propose both quasi-physical and digital adversarial perturbations that can make Im2Im models yield unexpected results. We then empirically analyze these perturbations and show that they generalize well under both paired for image synthesis and unpaired settings for style transfer. We also validate that there exist some perturbation thresholds over which the Im2Im mapping is disrupted or impossible. The existence of these perturbations reveals that there exist crucial weaknesses in Im2Im models. Lastly, we show that our methods illustrate how perturbations affect the quality of outputs, pioneering the improvement of the robustness of current SOTA networks for autonomous driving. | 翻訳日:2023-01-14 03:13:17 公開日:2020-01-06 |
# 深層強化学習による高速自律ドリフト High-speed Autonomous Drifting with Deep Reinforcement Learning ( http://arxiv.org/abs/2001.01377v1 ) ライセンス: Link先を確認 | Peide Cai, Xiaodong Mei, Lei Tai, Yuxiang Sun, Ming Liu | (参考訳) ドリフトは自動運転車制御の複雑な作業である。
この領域の伝統的な手法のほとんどは、正確なモデル化が難しい車両の動力学の理解から導かれる運動方程式に基づいている。
本研究では,モデルフリーな深層強化学習アルゴリズムであるsoft actor-criticに基づく,明示的な運動方程式のないロバストドドリフトコントローラを提案する。
ドリフト制御問題は軌道追従タスクとして定式化され、エラーベースの状態と報酬が設計される。
難易度が異なるトラックでトレーニングを受けた後、我々のコントローラーは車両をさまざまな鋭い角を素早く安定的に移動させることができる。
提案した制御器は, 質量, タイヤ摩擦など, 物理的特性の異なる車両を直接扱うことができる, 優れた一般化能力を有する。 Drifting is a complicated task for autonomous vehicle control. Most traditional methods in this area are based on motion equations derived by the understanding of vehicle dynamics, which is difficult to be modeled precisely. We propose a robust drift controller without explicit motion equations, which is based on the latest model-free deep reinforcement learning algorithm soft actor-critic. The drift control problem is formulated as a trajectory following task, where the errorbased state and reward are designed. After being trained on tracks with different levels of difficulty, our controller is capable of making the vehicle drift through various sharp corners quickly and stably in the unseen map. The proposed controller is further shown to have excellent generalization ability, which can directly handle unseen vehicle types with different physical properties, such as mass, tire friction, etc. | 翻訳日:2023-01-14 03:12:26 公開日:2020-01-06 |
# ニューラルネットワークが汎用ソリューションを見つける方法 - ディープラーニングにおける自己調整型アニーリング How neural networks find generalizable solutions: Self-tuned annealing in deep learning ( http://arxiv.org/abs/2001.01678v1 ) ライセンス: Link先を確認 | Yu Feng and Yuhai Tu | (参考訳) ディープラーニングにおけるSGD(Stochastic Gradient Descent)アルゴリズムの驚異的な成功にもかかわらず、SGDが高次元の重み空間において一般化可能な解をどのように見つけるかについてはほとんど分かっていない。
学習力学と損失関数のランドスケープを解析することにより,SGDに基づく学習アルゴリズムの重み分散とランドスケープ平坦性(曲率逆)の頑健な逆関係を明らかにする。
逆分散-平坦性関係を説明するために,sgdノイズ強度(有効温度)が景観平坦性に依存することを示すランダムランドスケープ理論を開発した。
本研究は,SGDが,地形の平らなミニマで一般化可能な解を見つけるために,自己調整型ランドスケープ依存型アニーリング戦略を実現することを示唆する。
最後に、これらの新しい理論的な洞察が、例えば破滅的な忘れ物を避けるためにより効率的なアルゴリズムにどのように結びつくかを実証する。 Despite the tremendous success of Stochastic Gradient Descent (SGD) algorithm in deep learning, little is known about how SGD finds generalizable solutions in the high-dimensional weight space. By analyzing the learning dynamics and loss function landscape, we discover a robust inverse relation between the weight variance and the landscape flatness (inverse of curvature) for all SGD-based learning algorithms. To explain the inverse variance-flatness relation, we develop a random landscape theory, which shows that the SGD noise strength (effective temperature) depends inversely on the landscape flatness. Our study indicates that SGD attains a self-tuned landscape-dependent annealing strategy to find generalizable solutions at the flat minima of the landscape. Finally, we demonstrate how these new theoretical insights lead to more efficient algorithms, e.g., for avoiding catastrophic forgetting. | 翻訳日:2023-01-14 03:12:12 公開日:2020-01-06 |
# ニューラルネットワークを用いた音楽構造モデリング Modeling Musical Structure with Artificial Neural Networks ( http://arxiv.org/abs/2001.01720v1 ) ライセンス: Link先を確認 | Stefan Lattner | (参考訳) 近年、ニューラルネットワーク(anns)は、現実世界の問題に取り組むための普遍的なツールとなっている。
annはまた、音楽の要約と分類、類似度推定、コンピュータ支援または自律的な構成、自動音楽分析を含む音楽関連のタスクで大きな成功を収めている。
構造は西洋音楽の基本的特徴であるため、これら全ての課題において重要な役割を果たしている。
いくつかの構造的な側面は、現在のANNアーキテクチャで学ぶことが特に難しい。
これは特に中・高水準の自己相似性、調性、リズムの関係において当てはまる。
本稿では,音楽構造モデリングのさまざまな側面へのANNの適用について検討し,課題の特定と対処戦略を提案する。
まず,制限ボルツマンマシン(RBM)の確率推定を用いて,メロディセグメンテーションに対する確率論的ボトムアップ手法を検討した。
次に、畳み込みRBMを用いたギブスサンプリングと中間解の勾配差最適化を組み合わせた、高レベルな構造テンプレートを音楽生成に導入するトップダウン手法を提案する。
さらに、構造モデリングにおける音楽変換の関連性を動機付け、コネクショナリストモデルであるGated Autoencoder(GAE)をいかにして音楽フラグメント間の変換を学習できるかを示す。
シーケンス変換を学習するために,多音楽曲の列を間隔の列として表現するgaeの特殊予測学習を提案する。
さらに、これらの区間表現の繰り返し区間のトップダウン発見への適用性を示す。
最後に、GAEの繰り返し変奏法を提案し、低レベルの繰り返し構造の予測とモデル化におけるその有効性を示す。 In recent years, artificial neural networks (ANNs) have become a universal tool for tackling real-world problems. ANNs have also shown great success in music-related tasks including music summarization and classification, similarity estimation, computer-aided or autonomous composition, and automatic music analysis. As structure is a fundamental characteristic of Western music, it plays a role in all these tasks. Some structural aspects are particularly challenging to learn with current ANN architectures. This is especially true for mid- and high-level self-similarity, tonal and rhythmic relationships. In this thesis, I explore the application of ANNs to different aspects of musical structure modeling, identify some challenges involved and propose strategies to address them. First, using probability estimations of a Restricted Boltzmann Machine (RBM), a probabilistic bottom-up approach to melody segmentation is studied. Then, a top-down method for imposing a high-level structural template in music generation is presented, which combines Gibbs sampling using a convolutional RBM with gradient-descent optimization on the intermediate solutions. Furthermore, I motivate the relevance of musical transformations in structure modeling and show how a connectionist model, the Gated Autoencoder (GAE), can be employed to learn transformations between musical fragments. For learning transformations in sequences, I propose a special predictive training of the GAE, which yields a representation of polyphonic music as a sequence of intervals. Furthermore, the applicability of these interval representations to a top-down discovery of repeated musical sections is shown. Finally, a recurrent variant of the GAE is proposed, and its efficacy in music prediction and modeling of low-level repetition structure is demonstrated. | 翻訳日:2023-01-14 03:11:52 公開日:2020-01-06 |
# 水危機の文脈におけるソーシャルメディアの貢献 Social Media Attributions in the Context of Water Crisis ( http://arxiv.org/abs/2001.01697v1 ) ライセンス: Link先を確認 | Rupak Sarkar, Hirak Sarkar, Sayantan Mahinder, Ashiqur R. KhudaBukhsh | (参考訳) 自然災害・不運の帰属は、広く研究されている政治科学の問題である。
しかし、そのような研究は典型的にはサーベイ中心か、その問題に重きを置く専門家に頼っている。
本稿では、ソーシャルメディアデータとAIによるアプローチを用いて、従来の調査を補完し、帰属要因を自動的に抽出する方法を検討する。
我々は,地域問題として始まった最盛期のチェンナイ水危機に焦点をあて,水危機統計を警戒し,世界的重要性を議論する話題に急速にエスカレートした。
具体的には,危機にかかわる要因(都市計画の貧弱,人口の爆発など)を特定する,帰属関係検出の新たな予測課題を提案する。
YouTubeのコメントから構築された挑戦的なデータセット(危機に関連する623の動画で43,859人のユーザーが投稿した72,098のコメント)では、適切なパフォーマンスを達成した帰属関係を抽出するためのニューラルネットワーク分類器を提示している(精度:81.34\%、帰属判定では71.19\%)。 Attribution of natural disasters/collective misfortune is a widely-studied political science problem. However, such studies are typically survey-centric or rely on a handful of experts to weigh in on the matter. In this paper, we explore how can we use social media data and an AI-driven approach to complement traditional surveys and automatically extract attribution factors. We focus on the most-recent Chennai water crisis which started off as a regional issue but rapidly escalated into a discussion topic with global importance following alarming water-crisis statistics. Specifically, we present a novel prediction task of attribution tie detection which identifies the factors held responsible for the crisis (e.g., poor city planning, exploding population etc.). On a challenging data set constructed from YouTube comments (72,098 comments posted by 43,859 users on 623 relevant videos to the crisis), we present a neural classifier to extract attribution ties that achieved a reasonable performance (Accuracy: 81.34\% on attribution detection and 71.19\% on attribution resolution). | 翻訳日:2023-01-14 03:04:31 公開日:2020-01-06 |
# ニューラルネットワークを用いた自己学習ロボット Self learning robot using real-time neural networks ( http://arxiv.org/abs/2001.02103v1 ) ライセンス: Link先を確認 | Chirag Gupta, Chikita Nangia, Chetan Kumar | (参考訳) 高ボリューム、低精度の計算技術、認知的人工知的なヒューリスティックシステムに関する応用研究の進展に伴い、リアルタイム学習を伴うニューラルネットワークによる機械学習ソリューションは、業界だけでなく研究コミュニティにも大きな関心を寄せている。
本研究は,ロボットにロボットを介在させたニューラルネットワークの研究,開発,実験的解析を行い,必要な直線を歩いたり,必要に応じて歩いたりすることを学習する。
ニューラルネットワークは、グラディエントDescentとバックプロパゲーションのアルゴリズムを用いて学習する。
ニューラルネットワークの実装とトレーニングは、raspberry pi 3上のロボット上でローカルに行われ、学習プロセスは完全に独立している。
ニューラルネットワークはまずmatlabで開発されたカスタムシミュレータでテストされ、その後raspberryコンピュータで実装された。
進化するネットワークの各世代のデータを格納し、そのデータ上で数学的およびグラフィカルの両方の分析を行う。
学習速度や誤り許容度といった要因が学習過程と最終出力に与える影響を分析する。 With the advancements in high volume, low precision computational technology and applied research on cognitive artificially intelligent heuristic systems, machine learning solutions through neural networks with real-time learning has seen an immense interest in the research community as well the industry. This paper involves research, development and experimental analysis of a neural network implemented on a robot with an arm through which evolves to learn to walk in a straight line or as required. The neural network learns using the algorithms of Gradient Descent and Backpropagation. Both the implementation and training of the neural network is done locally on the robot on a raspberry pi 3 so that its learning process is completely independent. The neural network is first tested on a custom simulator developed on MATLAB and then implemented on the raspberry computer. Data at each generation of the evolving network is stored, and analysis both mathematical and graphical is done on the data. Impact of factors like the learning rate and error tolerance on the learning process and final output is analyzed. | 翻訳日:2023-01-14 03:04:02 公開日:2020-01-06 |
# フォノニック結晶中の色中心配列をもつ位相相のシミュレーション Simulation of topological phases with color center arrays in phononic crystals ( http://arxiv.org/abs/2001.01397v1 ) ライセンス: Link先を確認 | Xiao-Xiao Li, Bo Li, and Peng-Bo Li | (参考訳) 本研究では,シリコン空孔(SiV)中心アレーを用いた音速結晶のトポロジカル位相のシミュレーション手法を提案する。
このフォノニックバンドギャップ構造は、波長可変プロファイルを持つ長距離スピンスピンスピン相互作用を可能にする。
特定の周期マイクロ波駆動の下では、バンドギャップを介するスピンスピン相互作用は、ス=シュリーファー・ヘーガー(SSH)ハミルトニアン(英語版)の形でさらに設計することができる。
運動量空間において,sshモデルの位相特性を調べ,周期的駆動場を変調することで位相的非自明な位相が得られることを示す。
さらに,カラーセンターアレイの境界におけるゼロエネルギー位相エッジ状態を探索し,位相エッジ状態を介してロバストな量子情報伝達について検討する。
このセットアップは、トポロジカル量子物理学と色中心とフォノン結晶を用いた量子情報処理を研究するためのスケーラブルで有望なプラットフォームを提供する。 We propose an efficient scheme for simulating the topological phases of matter based on silicon-vacancy (SiV) center arrays in phononic crystals. This phononic band gap structure allows for long-range spin-spin interactions with a tunable profile. Under a particular periodic microwave driving, the band-gap mediated spin-spin interaction can be further designed with the form of the Su-Schrieffer-Heeger (SSH) Hamiltonian. In momentum space, we investigate the topological characters of the SSH model, and show that the topological nontrivial phase can be obtained through modulating the periodic driving fields. Furthermore, we explore the zero-energy topological edge states at the boundary of the color center arrays, and study the robust quantum information transfer via the topological edge states. This setup provides a scalable and promising platform for studying topological quantum physics and quantum information processing with color centers and phononic crystals. | 翻訳日:2023-01-14 03:03:35 公開日:2020-01-06 |
# ラマンフリー光子ペア源 Raman-free fibered photon-pair source ( http://arxiv.org/abs/2001.01510v1 ) ライセンス: Link先を確認 | Martin Cordier and Philippe Delaye and Fr\'ed\'eric G\'er\^ome and Fetah Benabid and Isabelle Zaquine | (参考訳) シリカ中のラマン散乱ノイズは高品質光ファイバー源の実現に向けた重要な障害となっている。
ここでは、キセノン充填中空コアフォトニック結晶繊維を配向してこの制限を克服する方法を実験的に示す。
光源は室温で動作し、有用な波長範囲でラマンフリー光子ペアを生成し、通信局ではアイドラー、可視範囲では信号を生成するように設計されている。
超低周波gH(0) = 0.002と2740倍の一致事故率(2)を組み合わせ、ノイズ比と無視可能な多光子放出確率を示す。
さらに、ガス圧チューニングにより、アイドラー光子のs-cおよびl通信帯域をカバーする13thzの範囲での光子周波数の制御を実証する。
この研究は、中空コアのフォトニック結晶繊維が高品質な光子ペア光源を設計するための優れたプラットフォームであり、新興量子技術において駆動する役割を担っていることを示している。 Raman-scattering noise in silica has been the key obstacle toward the realisation of high quality fiber-based photon-pair sources. Here, we experimentally demonstrate how to get past this limitation by dispersion tailoring a xenon-filled hollow-core photonic crystal fiber. The source operates at room temperature, and is designed to generate Raman-free photon-pairs at useful wavelength ranges, with idler at the telecom, and signal at a visible range. We achieve a coincidence-to-accidentals ratio (2) as high as 2740 combined with an ultra low heralded g H (0) = 0.002, indicating a very high signal to noise ratio and a negligible multi-photon emission probability. Moreover, by gas-pressure tuning, we demonstrate the control of photon frequencies over a range as large as 13 THz, covering S-C and L telecom band for the idler photon. This work demonstrates that hollow-core photonic crystal fiber is an excellent platform to design high quality photon-pair sources, and could play a driving role in the emerging quantum technology. | 翻訳日:2023-01-14 03:03:07 公開日:2020-01-06 |
# ディープラーニング学習による大規模高分解能SAR画像の分類 Classification of Large-Scale High-Resolution SAR Images with Deep Transfer Learning ( http://arxiv.org/abs/2001.01425v1 ) ライセンス: Link先を確認 | Zhongling Huang, Corneliu Octavian Dumitru, Zongxu Pan, Bin Lei, Mihai Datcu | (参考訳) 衛星が取得した大規模高解像度SARランドカバー画像の分類は難しい課題であり、専門知識のセマンティックアノテーション、画像パラメータの変化によるデータ特性の変化、および光画像とは異なる複雑な散乱機構といった課題に直面している。
TerraSAR-X画像から収集した大規模SARランドカバーデータセットに150のカテゴリの階層的な3レベルアノテーションと10,000以上のパッチが含まれており、高度不均衡なクラス、地理的多様性、ラベルノイズの自動解釈における3つの主な課題に対処する。
本稿では,同様の注釈付き光土地被覆データセット(NWPU-RESISC45)に基づく深層移動学習手法を提案する。
また,ラベルノイズや不均衡クラスの問題に対処するために,コストに敏感なパラメータを持つtop-2スムース損失関数が導入された。
提案手法は,類似のアノテート付きリモートセンシングデータセットからの情報転送効率が高く,高度に不均衡なクラスにおけるロバストな性能を示し,ラベルノイズによる過剰フィッティング問題を緩和する。
さらに、学習したディープモデルは、MSTARターゲット認識のような他のSAR固有のタスクに対して、99.46%の最先端の分類精度を持つ優れた一般化を持つ。 The classification of large-scale high-resolution SAR land cover images acquired by satellites is a challenging task, facing several difficulties such as semantic annotation with expertise, changing data characteristics due to varying imaging parameters or regional target area differences, and complex scattering mechanisms being different from optical imaging. Given a large-scale SAR land cover dataset collected from TerraSAR-X images with a hierarchical three-level annotation of 150 categories and comprising more than 100,000 patches, three main challenges in automatically interpreting SAR images of highly imbalanced classes, geographic diversity, and label noise are addressed. In this letter, a deep transfer learning method is proposed based on a similarly annotated optical land cover dataset (NWPU-RESISC45). Besides, a top-2 smooth loss function with cost-sensitive parameters was introduced to tackle the label noise and imbalanced classes' problems. The proposed method shows high efficiency in transferring information from a similarly annotated remote sensing dataset, a robust performance on highly imbalanced classes, and is alleviating the over-fitting problem caused by label noise. What's more, the learned deep model has a good generalization for other SAR-specific tasks, such as MSTAR target recognition with a state-of-the-art classification accuracy of 99.46%. | 翻訳日:2023-01-14 02:55:42 公開日:2020-01-06 |
# 結合テンソル環分解による超スペクトル超解像 Hyperspectral Super-Resolution via Coupled Tensor Ring Factorization ( http://arxiv.org/abs/2001.01547v1 ) ライセンス: Link先を確認 | Wei He, Yong Chen, Naoto Yokoya, Chao Li, Qibin Zhao | (参考訳) ハイパースペクトル超解像(HSR)は、低分解能ハイパースペクトル像(HSI)と高分解能マルチスペクトル像(MSI)を融合して高分解能HSI(HR-HSI)を得る。
本稿では,HSRのための新しいモデルである結合テンソルリング分解(CTRF)を提案する。
提案手法はHSIと高空間分解能コアテンソルから同時に高スペクトル分解能コアテンソルを学習し、HR-HSIをテンソルリング(TR)表現で再構成する(Figure~\ref{fig:framework})。
CTRFモデルは各クラスの低ランク性(Section \ref{sec:analysis})を別々に利用することができる。
一方、結合行列/CP因子化の単純な表現と結合タッカー因子化の柔軟な低ランク探索を継承する。
Theorem~\ref{th:1}によって導かれ、我々はさらに、グローバルスペクトルの低ランク特性を探索するスペクトル核ノルム正規化を提案する。
この実験は,従来のマトリックス/テンソルおよび深層学習法と比較して,提案した核ノルム正規化CTRF(NCTRF)の利点を実証した。 Hyperspectral super-resolution (HSR) fuses a low-resolution hyperspectral image (HSI) and a high-resolution multispectral image (MSI) to obtain a high-resolution HSI (HR-HSI). In this paper, we propose a new model, named coupled tensor ring factorization (CTRF), for HSR. The proposed CTRF approach simultaneously learns high spectral resolution core tensor from the HSI and high spatial resolution core tensors from the MSI, and reconstructs the HR-HSI via tensor ring (TR) representation (Figure~\ref{fig:framework}). The CTRF model can separately exploit the low-rank property of each class (Section \ref{sec:analysis}), which has been never explored in the previous coupled tensor model. Meanwhile, it inherits the simple representation of coupled matrix/CP factorization and flexible low-rank exploration of coupled Tucker factorization. Guided by Theorem~\ref{th:1}, we further propose a spectral nuclear norm regularization to explore the global spectral low-rank property. The experiments have demonstrated the advantage of the proposed nuclear norm regularized CTRF (NCTRF) as compared to previous matrix/tensor and deep learning methods. | 翻訳日:2023-01-14 02:55:18 公開日:2020-01-06 |
# 網膜眼底緑内障のセグメンテーションと検出のための画素間注意による回帰と学習 Regression and Learning with Pixel-wise Attention for Retinal Fundus Glaucoma Segmentation and Detection ( http://arxiv.org/abs/2001.01815v1 ) ライセンス: Link先を確認 | Peng Liu and Ruogu Fang | (参考訳) 眼科医による網膜基底像の観察は緑内障の主要な診断方法である。
しかし,手動観察,特に緑内障早期に病変の特徴を鑑別することは依然として困難である。
本稿では,緑内障検出と視神経乳頭およびカップセグメンテーションのための深層学習に基づく2つの自動アルゴリズムを提案する。
注意機構を用いて画素単位の特徴を学習し,正確な予測を行う。
特に,様々な画素レベル特徴の学習に焦点をあてた畳み込みニューラルネットワークを2つ提示する。
さらに,予測精度に大きな影響を与える重要な特徴を学習するために,ネットワークを誘導するいくつかの注意戦略を開発する。
検証データセットの手法を評価し,提案する両タスクのソリューションは印象的な結果を得ることができ,現状の手法を上回ることができる。
コードは \url{https://github.com/cswin/rlpa}} で利用可能である。 Observing retinal fundus images by an ophthalmologist is a major diagnosis approach for glaucoma. However, it is still difficult to distinguish the features of the lesion solely through manual observations, especially, in glaucoma early phase. In this paper, we present two deep learning-based automated algorithms for glaucoma detection and optic disc and cup segmentation. We utilize the attention mechanism to learn pixel-wise features for accurate prediction. In particular, we present two convolutional neural networks that can focus on learning various pixel-wise level features. In addition, we develop several attention strategies to guide the networks to learn the important features that have a major impact on prediction accuracy. We evaluate our methods on the validation dataset and The proposed both tasks' solutions can achieve impressive results and outperform current state-of-the-art methods. \textit{The code is available at \url{https://github.com/cswin/RLPA}}. | 翻訳日:2023-01-14 02:54:47 公開日:2020-01-06 |
# 歩行者パターンデータセット The Pedestrian Patterns Dataset ( http://arxiv.org/abs/2001.01816v1 ) ライセンス: Link先を確認 | Kasra Mokhtari and Alan R. Wagner | (参考訳) 本稿では,自動運転のための歩行者パターンデータセットを提案する。
データセットは、異なる特定のタイムスロットから1週間、同じ3つのルートを繰り返すことで収集された。
このデータセットの目的は、異なるルートを横断する社会行動と歩行者行動のパターンを捉え、最終的にこの情報を使用して、異なるルートを自律的に走行する際のリスクを予測することである。
このデータセットには、各トラバーサルのフルHDビデオとGPSデータが含まれている。
得られた映像に高速なR-CNN歩行者検出手法を適用し,各映像フレームにおける歩行者数をカウントし,経路に沿った歩行者の密度を評価する。
この大規模なデータセットを研究者に提供することで、公共と自動運転車の両方のリスクを見積もるだけでなく、将来の移動ロボットと自動運転車の長期的なビジョンに基づくローカライゼーションの研究を加速したいと考えています。 We present the pedestrian patterns dataset for autonomous driving. The dataset was collected by repeatedly traversing the same three routes for one week starting at different specific timeslots. The purpose of the dataset is to capture the patterns of social and pedestrian behavior along the traversed routes at different times and to eventually use this information to make predictions about the risk associated with autonomously traveling along different routes. This dataset contains the Full HD videos and GPS data for each traversal. Fast R-CNN pedestrian detection method is applied to the captured videos to count the number of pedestrians at each video frame in order to assess the density of pedestrians along a route. By providing this large-scale dataset to researchers, we hope to accelerate autonomous driving research not only to estimate the risk, both to the public and to the autonomous vehicle but also accelerate research on long-term vision-based localization of mobile robots and autonomous vehicles of the future. | 翻訳日:2023-01-14 02:54:33 公開日:2020-01-06 |
# MR画像再構成のための機械学習のオープンコンペティション:2019年の高速MRIチャレンジの概要 Advancing machine learning for MR image reconstruction with an open competition: Overview of the 2019 fastMRI challenge ( http://arxiv.org/abs/2001.02518v1 ) ライセンス: Link先を確認 | Florian Knoll, Tullie Murrell, Anuroop Sriram, Nafissa Yakubova, Jure Zbontar, Michael Rabbat, Aaron Defazio, Matthew J. Muckley, Daniel K. Sodickson, C. Lawrence Zitnick and Michael P. Recht | (参考訳) 目的:オープンチャレンジによるMR画像再構成のための機械学習分野の研究を進めること。
方法: 膝の1,594回の臨床検査から得られた生のk空間データのデータセットを参加者に提供した。
課題の目標は、これらのデータから画像を再構築することであった。
mr画像再構成に精通していない人のために,実データと浅い学習曲線のバランスをとるために,マルチコイルデータとシングルコイルデータの複数のトラックを実行した。
定量的画像計測に基づく2段階評価を行い,放射線科医による評価を行った。
挑戦は2019年6月から12月まで行われた。
結果: 合計33回のチャレンジが寄せられました。
参加者全員が、教師付き機械学習アプローチの結果を提出することを選んだ。
結論: この課題は、画像再構成のための機械学習の新たな発展につながり、この分野における技術の現状に関する洞察を提供し、臨床導入の障害を浮き彫りにした。 Purpose: To advance research in the field of machine learning for MR image reconstruction with an open challenge. Methods: We provided participants with a dataset of raw k-space data from 1,594 consecutive clinical exams of the knee. The goal of the challenge was to reconstruct images from these data. In order to strike a balance between realistic data and a shallow learning curve for those not already familiar with MR image reconstruction, we ran multiple tracks for multi-coil and single-coil data. We performed a two-stage evaluation based on quantitative image metrics followed by evaluation by a panel of radiologists. The challenge ran from June to December of 2019. Results: We received a total of 33 challenge submissions. All participants chose to submit results from supervised machine learning approaches. Conclusion: The challenge led to new developments in machine learning for image reconstruction, provided insight into the current state of the art in the field, and highlighted remaining hurdles for clinical adoption. | 翻訳日:2023-01-14 02:54:17 公開日:2020-01-06 |
# 知識蒸留による無ペアマルチモーダルセグメンテーション Unpaired Multi-modal Segmentation via Knowledge Distillation ( http://arxiv.org/abs/2001.03111v1 ) ライセンス: Link先を確認 | Qi Dou, Quande Liu, Pheng Ann Heng, Ben Glocker | (参考訳) マルチモーダル学習は通常、モダリティ固有の層と共有層を含むネットワークアーキテクチャで行われ、異なるモダリティの共登録画像を利用する。
本稿では,高度にコンパクトなセグメンテーション精度を実現した,非ペア型クロスモダリティ画像セグメンテーションのための新しい学習手法を提案する。
提案手法では,CTとMRIにまたがるすべての畳み込みカーネルを共有化することで,ネットワークパラメータを多用し,各統計量を計算するモダリティ固有の内部正規化層のみを用いる。
このような高度にコンパクトなモデルを効果的に訓練するために,モーダル間の予測分布のKL偏差を明示的に制限することにより,知識蒸留にヒントを得た新たな損失項を導入する。
我々は2つのマルチクラスセグメンテーション問題に対するアプローチを広範囲に検証した。
一 心臓構造区分、及び
二 腹部臓器の分節
2次元拡張ネットワークと3次元U-netの異なるネットワーク設定を用いて,本手法の汎用性を検討した。
両タスクにおける実験結果から,新しいマルチモーダル学習方式は,単一モーダルトレーニングと従来のマルチモーダルアプローチを一貫して上回っていることが示された。 Multi-modal learning is typically performed with network architectures containing modality-specific layers and shared layers, utilizing co-registered images of different modalities. We propose a novel learning scheme for unpaired cross-modality image segmentation, with a highly compact architecture achieving superior segmentation accuracy. In our method, we heavily reuse network parameters, by sharing all convolutional kernels across CT and MRI, and only employ modality-specific internal normalization layers which compute respective statistics. To effectively train such a highly compact model, we introduce a novel loss term inspired by knowledge distillation, by explicitly constraining the KL-divergence of our derived prediction distributions between modalities. We have extensively validated our approach on two multi-class segmentation problems: i) cardiac structure segmentation, and ii) abdominal organ segmentation. Different network settings, i.e., 2D dilated network and 3D U-net, are utilized to investigate our method's general efficacy. Experimental results on both tasks demonstrate that our novel multi-modal learning scheme consistently outperforms single-modal training and previous multi-modal approaches. | 翻訳日:2023-01-14 02:54:03 公開日:2020-01-06 |
# 二次取引コストを考慮したポートフォリオ最適化に関する一考察 A Note on Portfolio Optimization with Quadratic Transaction Costs ( http://arxiv.org/abs/2001.01612v1 ) ライセンス: Link先を確認 | Pierre Chen, Edmond Lezmi, Thierry Roncalli, Jiali Xu | (参考訳) 本稿では,トランザクションコストを考慮した平均分散最適化ポートフォリオについて考察する。
二次トランザクションコストの導入は,線形トランザクションコストよりも最適化問題を困難にすることを示す。
その理由は予算制約の仕様にあるが、これはもはや線形ではない。
我々は、この問題を解決する数値アルゴリズムを提供し、最適化されたポートフォリオの期待リターンにトランザクションコストがどのように影響するかを示す。 In this short note, we consider mean-variance optimized portfolios with transaction costs. We show that introducing quadratic transaction costs makes the optimization problem more difficult than using linear transaction costs. The reason lies in the specification of the budget constraint, which is no longer linear. We provide numerical algorithms for solving this issue and illustrate how transaction costs may considerably impact the expected returns of optimized portfolios. | 翻訳日:2023-01-14 02:53:43 公開日:2020-01-06 |
# 集団計測による量子コヒーレンスの直接推定 Direct estimation of quantum coherence by collective measurements ( http://arxiv.org/abs/2001.01384v1 ) ライセンス: Link先を確認 | Yuan Yuan, Zhibo Hou, Jun-Feng Tang, Alexander Streltsov, Guo-Yong Xiang, Chuan-Feng Li, and Guang-Can Guo | (参考訳) 最近確立された量子コヒーレンス(英語版)の資源理論は、量子コンピューティングから量子生物学への応用を含む重ね合わせ原理の定量的理解を可能にする。
文献ではコヒーレンスの異なる定量化器が提案されているが、今日の実験における効率的な推定は依然として困難である。
本稿では,量子状態におけるコヒーレンス量を推定するための集合的測定手法を提案する。
数値シミュレーションで示すように,本手法はトモグラフィや適応測定に基づく他の推定手法よりも優れており,量子ビットおよび量子ビット状態の確立されたコヒーレンス量化器を推定するためのパラメータ範囲が大きい。
本手法は,光子を用いて実験的に実装し,実験と理論の良好な一致を見出すことにより,今日の技術で利用できることを示す。 The recently established resource theory of quantum coherence allows for a quantitative understanding of the superposition principle, with applications reaching from quantum computing to quantum biology. While different quantifiers of coherence have been proposed in the literature, their efficient estimation in today's experiments remains a challenge. Here, we introduce a collective measurement scheme for estimating the amount of coherence in quantum states, which requires entangled measurements on two copies of the state. As we show by numerical simulations, our scheme outperforms other estimation methods based on tomography or adaptive measurements, leading to a higher precision in a large parameter range for estimating established coherence quantifiers of qubit and qutrit states. We show that our method is accessible with today's technology by implementing it experimentally with photons, finding a good agreement between experiment and theory. | 翻訳日:2023-01-14 02:46:20 公開日:2020-01-06 |
# 補間スケール関数を用いたセクシー・非調和発振器の研究 Study of the sextic and decatic anharmonic oscillators using an interpolating scale function ( http://arxiv.org/abs/2001.01457v1 ) ライセンス: Link先を確認 | K. Manimegalai, Swaraj Paul, M. M. Panja, and Tapas Sil | (参考訳) 性的および十進的ポテンシャルを持つアンハーモニック発振器を補間可能な補間スケール関数を用いて研究した。
この方法は、ポテンシャルパラメータを制約することなく、セクティック・セプティカル・オシレータのエネルギー固有値と固有関数の両方の高精度値を得る。
本手法における解の収束は非常に速いことが判明した。 Anharmonic oscillators with the sextic and decatic potentials are studied employing the refinable interpolating scale functions. This method yields highly accurate values of both energy eigenvalues and eigenfunctions for the sextic and decatic oscillator without constraining the potential parameters. Convergence of the solutions in the present method is noticed to be very fast. | 翻訳日:2023-01-14 02:46:00 公開日:2020-01-06 |
# 単一光子による状態非依存文脈性の実験的エントロピー試験 Experimental entropic test of state-independent contextuality via single photons ( http://arxiv.org/abs/2001.01498v1 ) ライセンス: Link先を確認 | Dengke Qu, Pawel Kurzynski, Dagomir Kaszlikowski, Sadegh Raeisi, Lei Xiao, Kunkun Wang, Xiang Zhan, Peng Xue | (参考訳) 近年,非文脈的隠れ変数モデルで満たされた不等式が,非古典的相関に対する情報理論的距離アプローチに基づいて導出されている。
本研究では, 単一光子による不等式違反を実験的に実証する。
本実験は,情報理論の観点から量子相関と古典相関の区別を研究する手法を提供する。 Recently, an inequality satisfied by non-contextual hidden-variable models and violated by quantum mechanics for all states of a four-level system has been derived based on information-theoretic distance approach to non-classical correlations. In this work, we experimentally demonstrate violation of this inequality with single photons. Our experiment offers a method to study a distinction between quantum and classical correlations from an information-theoretic perspective. | 翻訳日:2023-01-14 02:45:52 公開日:2020-01-06 |
# 場と粒子の相互作用に関するq-変形と自由統計 q-Deformation and free statistics for interaction of a field and a particle ( http://arxiv.org/abs/2001.01602v1 ) ライセンス: Link先を確認 | S.V. Kozyrev | (参考訳) 量子場と相互作用する量子粒子のモデルに対する自由(または量子ボルツマン)統計の創出は双極子近似なしで確率極限に記述される。
量子場はガウス状態(例えば温度)で考慮される。
場と粒子の相互作用を記述する絡み合った作用素は、確率極限が自由統計を生成するq-変形関係を満たす。 Emerging of free (or quantum Boltzmann) statistics for a model of quantum particle interacting with quantum field is described in the stochastic limit without dipole approximation. The quantum field is considered in a Gaussian (for example temperature) state. Entangled operators which describe interaction of the field and the particle satisfy the q-deformed relations which in the stochastic limit generate free statistics. | 翻訳日:2023-01-14 02:45:43 公開日:2020-01-06 |
# ボルン-マルコフ近似に近い量子非マルコフ性の検出 Detection of quantum non-Markovianity close to the Born-Markov approximation ( http://arxiv.org/abs/2001.01738v1 ) ライセンス: Link先を確認 | Thais de Lima Silva, Stephen P. Walborn, Marcelo F. Santos, Gabriel H. Aguilar, and Adri\'an A. Budini | (参考訳) ボゾン浴中における2レベル系の崩壊ダイナミクスに対する条件付き過去-未来相関を正確に計算する。
異なる測定方法が考えられる。
システムプロパゲータ特性のみに基づく量子メモリ測定とは対照的に、このメモリ効果は、2つのシステムプロパゲータと環境相関を含む畳み込み構造に関連している。
この構造はボルンマルコフ近似の妥当性に近いメモリ効果を検出することができる。
代替の運用ベースの環境間情報のバックフローの定義は、この結果から従う。
我々は,フォトニック実験においてダイナミクスと計測を実装し,実験支援を行う。 We calculate in an exact way the conditional past-future correlation for the decay dynamics of a two-level system in a bosonic bath. Different measurement processes are considered. In contrast to quantum memory measures based solely on system propagator properties, here memory effects are related to a convolution structure involving two system propagators and the environment correlation. This structure allows to detect memory effects even close to the validity of the Born-Markov approximation. An alternative operational-based definition of environment-to-system backflow of information follows from this result. We provide experimental support to our results by implementing the dynamics and measurements in a photonic experiment. | 翻訳日:2023-01-14 02:45:37 公開日:2020-01-06 |
# 単一光子自己絡み合いによる波動粒子双対性制御 Wave-Particle Duality Controlled by Single-Photon Self-Entanglement ( http://arxiv.org/abs/2001.01749v1 ) ライセンス: Link先を確認 | X.-F. Qian, K. Konthasinghe, S. K. Manikandan, D. Spiecker, A.N. Vamivakas, and J.H. Eberly | (参考訳) 単一光子の量子双対性は、3方向の量子コヒーレンスID$V^2+D^2+C^2=1$で制御される。
ここで v, d, c はそれぞれ波動性, 粒子性, 自己絡み合いを表す。 We experimentally observe that quantum duality of a single photon is controlled by its self-entanglement through a three-way quantum coherence identity $V^2+D^2+C^2=1$. Here V, D, C represent waveness, particleness, and self-entanglement respectively. | 翻訳日:2023-01-14 02:45:27 公開日:2020-01-06 |
# 正規格子データに対する空間重み付け行列の推定 -断面再サンプリングを用いた適応ラッソアプローチ- Estimation of the spatial weighting matrix for regular lattice data -- An adaptive lasso approach with cross-sectional resampling ( http://arxiv.org/abs/2001.01532v1 ) ライセンス: Link先を確認 | Miryam S. Merk and Philipp Otto | (参考訳) 空間計量学的研究は通常、空間依存構造が予め知られており、決定論的空間重み行列によって表されるという仮定に依存する。
古典的アプローチとは対照的に,正規格子データに対するスパース空間依存構造の推定について検討する。
特に、適応最小絶対収縮選択演算子(ラスソ)を用いて空間重み行列の個々の接続を選択して推定する。
空間依存構造を回復するために,ランダムプロセスが交換可能であると仮定して,断面再サンプリングを提案する。
推定手順は、内因性空間自己回帰依存性から生じる同時性問題を回避するための2段階のアプローチに基づいている。
断面再サンプリングを用いた2段階適応lasso法をモンテカルロシミュレーションを用いて検証した。
最終的に, 窒素(NO_2)濃度をモデル化し, 既定重み行列を用いた場合の空間依存構造を推定することにより, 予測精度を著しく向上することを示す。 Spatial econometric research typically relies on the assumption that the spatial dependence structure is known in advance and is represented by a deterministic spatial weights matrix. Contrary to classical approaches, we investigate the estimation of sparse spatial dependence structures for regular lattice data. In particular, an adaptive least absolute shrinkage and selection operator (lasso) is used to select and estimate the individual connections of the spatial weights matrix. To recover the spatial dependence structure, we propose cross-sectional resampling, assuming that the random process is exchangeable. The estimation procedure is based on a two-step approach to circumvent simultaneity issues that typically arise from endogenous spatial autoregressive dependencies. The two-step adaptive lasso approach with cross-sectional resampling is verified using Monte Carlo simulations. Eventually, we apply the procedure to model nitrogen dioxide ($\mathrm{NO_2}$) concentrations and show that estimating the spatial dependence structure contrary to using prespecified weights matrices improves the prediction accuracy considerably. | 翻訳日:2023-01-14 02:44:25 公開日:2020-01-06 |
# MCMLSD:線分検出のための確率的アルゴリズムと評価フレームワーク MCMLSD: A Probabilistic Algorithm and Evaluation Framework for Line Segment Detection ( http://arxiv.org/abs/2001.01788v1 ) ライセンス: Link先を確認 | James H. Elder, Emilio J. Almaz\`an, Yiming Qian and Ron Tal | (参考訳) 線分検出への伝統的なアプローチは、画像領域における知覚的グループ化と、ハフ領域における/または大域的な集積を伴う。
本稿では,両手法の利点を融合する確率的アルゴリズムを提案する。
第1段階では、大域的確率的ハフアプローチを用いて線を検出する。
第2段階では、検出された各線を画像領域で解析し、ハフマップでピークを発生させた線分をローカライズする。
行への探索を制限することにより、行上の点列上のセグメントの分布をマルコフ連鎖としてモデル化することができ、確率論的に最適なラベリングを標準動的プログラミングアルゴリズムを用いて線形時間で正確に計算することができる。
マルコフの仮定はまた、局所辺縁後確率を用いてセグメント上の正しくラベル付けされた点の期待数を推定する直感的なランキング手法をもたらす。
結果として得られたマルコフ鎖辺縁線分検出器(mcmlsd)を評価するために,低セグメンテーションと過剰セグメンテーションを制御する新しい定量的評価手法を開発し,応用する。
YorkUrbanDBとWireframeデータセットの評価は、提案されたMCMLSDメソッドが従来のアプローチよりも優れており、より最近のディープラーニングメソッドが優れていることを示している。 Traditional approaches to line segment detection typically involve perceptual grouping in the image domain and/or global accumulation in the Hough domain. Here we propose a probabilistic algorithm that merges the advantages of both approaches. In a first stage lines are detected using a global probabilistic Hough approach. In the second stage each detected line is analyzed in the image domain to localize the line segments that generated the peak in the Hough map. By limiting search to a line, the distribution of segments over the sequence of points on the line can be modeled as a Markov chain, and a probabilistically optimal labelling can be computed exactly using a standard dynamic programming algorithm, in linear time. The Markov assumption also leads to an intuitive ranking method that uses the local marginal posterior probabilities to estimate the expected number of correctly labelled points on a segment. To assess the resulting Markov Chain Marginal Line Segment Detector (MCMLSD) we develop and apply a novel quantitative evaluation methodology that controls for under- and over-segmentation. Evaluation on the YorkUrbanDB and Wireframe datasets shows that the proposed MCMLSD method outperforms prior traditional approaches, as well as more recent deep learning methods. | 翻訳日:2023-01-14 02:36:05 公開日:2020-01-06 |
# VBM3Dビデオデノーミング法といくつかの変数の実装 Implementation of the VBM3D Video Denoising Method and Some Variants ( http://arxiv.org/abs/2001.01802v1 ) ライセンス: Link先を確認 | Thibaud Ehret, Pablo Arias | (参考訳) vbm3dは、よく知られた画像表示アルゴリズムbm3dのビデオの拡張であり、変換ドメインにおける同様のパッチのスタックのスパース表現を利用する。
同様の2dパッチは、近隣のフレームを含む時空間的な近傍から取られます。
その単純さにもかかわらず、アルゴリズムは性能と計算複雑性を区別する良いトレードオフを提供する。
この作業では、このメソッドを再検討し、結果を再現するオープンソースc++実装を提供する。
詳細な説明が与えられ、パラメータの選択が詳細に議論される。
さらに,(1)マルチスケール実装,(2)3dパッチの利用,(3)光学フローによるパッチ探索のガイドなど,元のアルゴリズムの拡張について検討した。
これらの拡張により、最新の技術とも競合する結果を得ることができる。 VBM3D is an extension to video of the well known image denoising algorithm BM3D, which takes advantage of the sparse representation of stacks of similar patches in a transform domain. The extension is rather straightforward: the similar 2D patches are taken from a spatio-temporal neighborhood which includes neighboring frames. In spite of its simplicity, the algorithm offers a good trade-off between denoising performance and computational complexity. In this work we revisit this method, providing an open-source C++ implementation reproducing the results. A detailed description is given and the choice of parameters is thoroughly discussed. Furthermore, we discuss several extensions of the original algorithm: (1) a multi-scale implementation, (2) the use of 3D patches, (3) the use of optical flow to guide the patch search. These extensions allow to obtain results which are competitive with even the most recent state of the art. | 翻訳日:2023-01-14 02:35:46 公開日:2020-01-06 |
# HRオプティカルフロー推定を用いたディープビデオ超解像 Deep Video Super-Resolution using HR Optical Flow Estimation ( http://arxiv.org/abs/2001.02129v1 ) ライセンス: Link先を確認 | Longguang Wang, Yulan Guo, Li Liu, Zaiping Lin, Xinpu Deng and Wei An | (参考訳) ビデオ超解像(SR)は、高解像度(HR)フレームを高解像度(LR)フレームから高解像度かつ時間的に一貫した細部で生成することを目的としている。
ビデオSRの鍵となる課題は、連続フレーム間の時間依存性を効果的に活用することにある。
既存のディープラーニングに基づく手法は、一般的にLRフレーム間の光の流れを推定し、時間依存性を提供する。
しかし、LR光流とHR出力の分解能の衝突は詳細の回復を妨げる。
本稿では,光学フローと画像の両方を超解凍するエンドツーエンドビデオSRネットワークを提案する。
LRフレームからの光フローSRは正確な時間依存性を提供し、最終的にビデオSR性能を向上させる。
具体的には,まず,hr光の流れを粗く正確に推定するオプティカルフロー再構成ネットワーク(ofrnet)を提案する。
そして、HR光流を用いて動き補償を行い、時間依存性を符号化する。
最後に、補償LR入力を超解像ネットワーク(SRnet)に供給し、SR結果を生成する。
SR性能向上のためのHR光流の有効性を示すため, 広汎な実験を行った。
Vid4 と DAVIS-10 データセットの比較結果は,我々のネットワークが最先端の性能を達成することを示す。 Video super-resolution (SR) aims at generating a sequence of high-resolution (HR) frames with plausible and temporally consistent details from their low-resolution (LR) counterparts. The key challenge for video SR lies in the effective exploitation of temporal dependency between consecutive frames. Existing deep learning based methods commonly estimate optical flows between LR frames to provide temporal dependency. However, the resolution conflict between LR optical flows and HR outputs hinders the recovery of fine details. In this paper, we propose an end-to-end video SR network to super-resolve both optical flows and images. Optical flow SR from LR frames provides accurate temporal dependency and ultimately improves video SR performance. Specifically, we first propose an optical flow reconstruction network (OFRnet) to infer HR optical flows in a coarse-to-fine manner. Then, motion compensation is performed using HR optical flows to encode temporal dependency. Finally, compensated LR inputs are fed to a super-resolution network (SRnet) to generate SR results. Extensive experiments have been conducted to demonstrate the effectiveness of HR optical flows for SR performance improvement. Comparative results on the Vid4 and DAVIS-10 datasets show that our network achieves the state-of-the-art performance. | 翻訳日:2023-01-14 02:35:32 公開日:2020-01-06 |
# 干渉計における粒子状態は波動と完全絡み合った状態に等しい Particle states are equidistant to wave and fully-entangled states in an interferometer ( http://arxiv.org/abs/2001.01375v1 ) ライセンス: Link先を確認 | Miguel Orszag and Sergio Carrasco | (参考訳) 本稿では、両腕の干渉計において、完全経路微分可能性(粒子)の純量子状態が、一定の経路微分可能性を持つ全ての状態と幾何的に等しく一致していることを示し、この性質は、完全外界可視性(波)や最大絡み合った量子状態(アンタングロン)のような他の状態と共有されない。
実際、粒子と他の状態の間のビュール距離は後者の区別可能性にのみ依存する。
それとは対照的に、波とエンタングロンの間のバーズ距離と、他の任意の単一光子状態は、他のパラメータのセットに依存する。 In this article we show that, in a two-arm interferometer, pure quantum states of perfect path distinguishability (particles) are geometrically equidistant from all states with constant path distinguishability D. This property is not shared by other states, such as perfect fringe-visibility (waves) or maximally entangled quantum states (entanglon). Indeed, the Bures distance between a particle and any other state depends only the distinguishability of the latter. On the contrary, the Bures distance between a wave or an entanglon, and any other single photon state depends on other set of parameters. | 翻訳日:2023-01-14 02:35:15 公開日:2020-01-06 |
# 静的画像におけるプラグ・アンド・プレイ・リスケーリングに基づく集団カウント Plug-and-Play Rescaling Based Crowd Counting in Static Images ( http://arxiv.org/abs/2001.01786v1 ) ライセンス: Link先を確認 | Usman Sajid and Guanghui Wang | (参考訳) 群衆の数え上げは、画像全体にわたる巨大な群衆の多様性と、多くの以前のアプローチがうまく一般化せず、結果として巨大な群衆の過大評価や過大評価を生み出す複雑な群衆のような背景領域の存在において、特に難しい問題である。
これらの課題に対処するため,我々は,新しいイメージパッチリスケーリングモジュール (prm) と3つの独立したprmを提案する。
提案されたフレームワークでは、prmモジュールを使用して、特別な処理を必要とするイメージ領域(パッチ)を再スケールする。
3つの標準ベンチマークとクロスデータセット評価実験により、RMSE評価基準の最先端モデルよりも10.4%向上し、新しいデータセットに優れた一般化能力を有することが示された。 Crowd counting is a challenging problem especially in the presence of huge crowd diversity across images and complex cluttered crowd-like background regions, where most previous approaches do not generalize well and consequently produce either huge crowd underestimation or overestimation. To address these challenges, we propose a new image patch rescaling module (PRM) and three independent PRM employed crowd counting methods. The proposed frameworks use the PRM module to rescale the image regions (patches) that require special treatment, whereas the classification process helps in recognizing and discarding any cluttered crowd-like background regions which may result in overestimation. Experiments on three standard benchmarks and cross-dataset evaluation show that our approach outperforms the state-of-the-art models in the RMSE evaluation metric with an improvement up to 10.4%, and possesses superior generalization ability to new datasets. | 翻訳日:2023-01-14 02:28:42 公開日:2020-01-06 |
# 3次元mriによる脳腫瘍領域のロバストなセグメンテーション Robust Semantic Segmentation of Brain Tumor Regions from 3D MRIs ( http://arxiv.org/abs/2001.02040v1 ) ライセンス: Link先を確認 | Andriy Myronenko and Ali Hatamizadeh | (参考訳) マルチモーダル脳腫瘍セグメンテーションチャレンジ(brats)は、研究者が3dmri脳腫瘍セグメンテーションの自動化方法を改善するのに役立つ。
腫瘍の分節は、疾患の診断と治療計画に必要な基本的なビジョンの1つである。
これまでは、ニューラルネットワークアーキテクチャの深い畳み込みを高速に最適化する、現代的なGPUの出現により、すべてディープラーニングに基づいていた。
本研究では,従来のエンコーダ・デコーダアーキテクチャを含む3次元意味セグメンテーションのベストプラクティスと,セグメンテーション精度の向上を目的とした複合損失関数について検討する。
brats 2019チャレンジの手法を評価した。 Multimodal brain tumor segmentation challenge (BraTS) brings together researchers to improve automated methods for 3D MRI brain tumor segmentation. Tumor segmentation is one of the fundamental vision tasks necessary for diagnosis and treatment planning of the disease. Previous years winning methods were all deep-learning based, thanks to the advent of modern GPUs, which allow fast optimization of deep convolutional neural network architectures. In this work, we explore best practices of 3D semantic segmentation, including conventional encoder-decoder architecture, as well combined loss functions, in attempt to further improve the segmentation accuracy. We evaluate the method on BraTS 2019 challenge. | 翻訳日:2023-01-14 02:28:25 公開日:2020-01-06 |
# 潜在エンティティ型情報のモデリングによるエンティティリンクの改善 Improving Entity Linking by Modeling Latent Entity Type Information ( http://arxiv.org/abs/2001.01447v1 ) ライセンス: Link先を確認 | Shuang Chen, Jinpeng Wang, Feng Jiang, Chin-Yew Lin | (参考訳) 既存の最先端のニューラルエンティティリンクモデルでは、注目に基づく単語コンテキストモデルと、単語埋め込みからブートストラップされた事前学習されたエンティティ埋め込みを使用して、トピックレベルのコンテキスト互換性を評価する。
しかし、参照の直近のコンテキストにおける潜在エンティティ型情報は無視されるため、モデルはしばしば参照を誤ったエンティティと間違った型にリンクさせる。
この問題に対処するために,事前学習されたBERTに基づいて,潜在エンティティ型情報をエンティティ埋め込みに注入することを提案する。
さらに、BERTに基づくエンティティ類似度スコアを最先端モデルのローカルコンテキストモデルに統合し、潜在エンティティの型情報をよりよくキャプチャする。
我々のモデルは、標準ベンチマーク(AIDA-CoNLL)における最先端エンティティリンクモデルよりも大幅に優れています。
詳細な実験分析により,本モデルが直接ベースラインが生成する型エラーのほとんどを補正することを示した。 Existing state of the art neural entity linking models employ attention-based bag-of-words context model and pre-trained entity embeddings bootstrapped from word embeddings to assess topic level context compatibility. However, the latent entity type information in the immediate context of the mention is neglected, which causes the models often link mentions to incorrect entities with incorrect type. To tackle this problem, we propose to inject latent entity type information into the entity embeddings based on pre-trained BERT. In addition, we integrate a BERT-based entity similarity score into the local context model of a state-of-the-art model to better capture latent entity type information. Our model significantly outperforms the state-of-the-art entity linking models on standard benchmark (AIDA-CoNLL). Detailed experiment analysis demonstrates that our model corrects most of the type errors produced by the direct baseline. | 翻訳日:2023-01-14 02:28:12 公開日:2020-01-06 |
# 姿勢検出ベンチマーク: 姿勢検出はどの程度堅牢か? Stance Detection Benchmark: How Robust Is Your Stance Detection? ( http://arxiv.org/abs/2001.01565v1 ) ライセンス: Link先を確認 | Benjamin Schiller, Johannes Daxenberger, Iryna Gurevych | (参考訳) Stance Detection(StD)は、あるトピックやクレームに対する著者の姿勢を検出することを目的としており、フェイクニュース検出、クレーム検証、引数検索といったアプリケーションにおいて重要なコンポーネントとなっている。
しかし、人間の姿勢は容易に検出できるが、機械学習モデルは明らかにこの作業に欠落している。
データセットのサイズやStDのフレーミング(クラス数や入力数など)に大きな違いがあるため、私たちは、マルチデータセット学習(MDL)設定において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入します。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
しかし、これらのモデルは人間の能力よりはるかに低い性能を保ち、単純な敵攻撃さえもMDLモデルの性能を著しく損なう。
この現象のより深い調査は、設計によって複数のデータセットから受け継がれたバイアスの存在を示唆している。
分析では,マルチタスク学習におけるロバスト性と脱バイアス戦略への注力の必要性を強調する。
ベンチマークデータセットとコードは利用可能だ。 Stance Detection (StD) aims to detect an author's stance towards a certain topic or claim and has become a key component in applications like fake news detection, claim validation, and argument search. However, while stance is easily detected by humans, machine learning models are clearly falling short of this task. Given the major differences in dataset sizes and framing of StD (e.g. number of classes and inputs), we introduce a StD benchmark that learns from ten StD datasets of various domains in a multi-dataset learning (MDL) setting, as well as from related tasks via transfer learning. Within this benchmark setup, we are able to present new state-of-the-art results on five of the datasets. Yet, the models still perform well below human capabilities and even simple adversarial attacks severely hurt the performance of MDL models. Deeper investigation into this phenomenon suggests the existence of biases inherited from multiple datasets by design. Our analysis emphasizes the need of focus on robustness and de-biasing strategies in multi-task learning approaches. The benchmark dataset and code is made available. | 翻訳日:2023-01-14 02:27:59 公開日:2020-01-06 |
# 2つのvo2系発振器における熱結合とサブハーモニック同期の効果 Thermal coupling and effect of subharmonic synchronization in a system of two VO2 based oscillators ( http://arxiv.org/abs/2001.01382v1 ) ライセンス: Link先を確認 | Andrei Velichko, Maksim Belyaev, Vadim Putrolaynen, Valentin Perminov, and Alexander Pergament | (参考訳) 二酸化バナジウムスイッチングデバイスを用いた振動ニューラルネットワーク(ONN)の試作について検討する。
研究中のモデルシステムは、熱結合型vo2スイッチに基づく2つの発振器を表す。
数値シミュレーションにより、カップリングの有効作用半径RTCは、スイッチング中に放出される総エネルギーと平均出力の両方に依存することが示された。
温度変化dTが放出されたピークとほぼ同期的に開始し、Tカップリングが約10kHzの周波数で自己を示すことが実験的に数値的に証明されている。
検討したスイッチング構造では、外部回路容量Cと抵抗Riに応じてRTC値が4~45mkmの範囲で変化するが、現実的な観点からはRiの変動がより有望である。
弱」結合の場合、同期にはアトラクション効果と主スペクトル高調波幅の減少が伴う。
強い」カップリングの場合、効果の数は増加し、同期はサブハーモニックで起こり、2つの発振器のマルチレベル安定な同期となる。
同期効率と低調波比計算のための高度なアルゴリズムを提案する。
2つの発振器のうち、先頭の発振器は主周波数が高くなり、さらに周波数安定化効果が観測される。
また、強い熱結合の場合、振動が存在する供給電流パラメータの限界は10%程度膨張する。
得られた結果は普遍的な性格を持ち、2Dから3Dへの容易に遷移できる新しいタイプのカップリングであるTカップリング(T-coupling)を実現する。
サブハーモニック同期の効果は、分類とパターン認識への応用を約束する。 We explore a prototype of an oscillatory neural network (ONN) based on vanadium dioxide switching devices. The model system under study represents two oscillators based on thermally coupled VO2 switches. Numerical simulation shows that the effective action radius RTC of coupling depends both on the total energy released during switching and on the average power. It is experimentally and numerically proved that the temperature change dT commences almost synchronously with the released power peak and T-coupling reveals itself up to a frequency of about 10 kHz. For the studied switching structure configuration, the RTC value varies over a wide range from 4 to 45 mkm, depending on the external circuit capacitance C and resistance Ri, but the variation of Ri is more promising from the practical viewpoint. In the case of a "weak" coupling, synchronization is accompanied by attraction effect and decrease of the main spectra harmonics width. In the case of a "strong" coupling, the number of effects increases, synchronization can occur on subharmonics resulting in multilevel stable synchronization of two oscillators. An advanced algorithm for synchronization efficiency and subharmonic ratio calculation is proposed. It is shown that of the two oscillators the leading one is that with a higher main frequency, and, in addition, the frequency stabilization effect is observed. Also, in the case of a strong thermal coupling, the limit of the supply current parameters, for which the oscillations exist, expands by ~ 10 %. The obtained results have a universal character and open up a new kind of coupling in ONNs, namely, T-coupling, which allows for easy transition from 2D to 3D integration. The effect of subharmonic synchronization hold promise for application in classification and pattern recognition. | 翻訳日:2023-01-14 02:27:30 公開日:2020-01-06 |
# マルチタスク強化学習のための再利用可能な学習オプション Learning Reusable Options for Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2001.01577v1 ) ライセンス: Link先を確認 | Francisco M. Garcia, Chris Nota, Philip S. Thomas | (参考訳) 近年,強化学習(RL)は研究の活発な領域となっている。
エージェントが効率的にタスクを解くことができるアルゴリズムは数多く存在するが、手元にあるタスクに関連する事前の経験が利用できる可能性を無視していることが多い。
多くの実践的応用において、一般に計算コストの高いプロセスであるため、エージェントがスクラッチからタスクの解法を学ぶことは不可能であるかもしれない。
本稿では,再利用可能な選択肢を学習することで既存の経験を活用できるフレームワークを提案する。
エージェントが少数の問題を解決するためのポリシーを学習した後、これらのポリシーから生成された軌道を使って再利用可能なオプションを学習し、エージェントが新しく関連する問題を解決する方法をすばやく学習できることを示す。 Reinforcement learning (RL) has become an increasingly active area of research in recent years. Although there are many algorithms that allow an agent to solve tasks efficiently, they often ignore the possibility that prior experience related to the task at hand might be available. For many practical applications, it might be unfeasible for an agent to learn how to solve a task from scratch, given that it is generally a computationally expensive process; however, prior experience could be leveraged to make these problems tractable in practice. In this paper, we propose a framework for exploiting existing experience by learning reusable options. We show that after an agent learns policies for solving a small number of problems, we are able to use the trajectories generated from those policies to learn reusable options that allow an agent to quickly learn how to solve novel and related problems. | 翻訳日:2023-01-14 02:27:04 公開日:2020-01-06 |
# 3Dポイントクラウドセマンティックおよびインスタンスセグメンテーションのための代表プロトタイプの学習と記憶 Learning and Memorizing Representative Prototypes for 3D Point Cloud Semantic and Instance Segmentation ( http://arxiv.org/abs/2001.01349v1 ) ライセンス: Link先を確認 | Tong He and Dong Gong and Zhi Tian and Chunhua Shen | (参考訳) 3Dポイントクラウドセマンティクスとインスタンスセグメンテーションは、3Dシーン理解にとって不可欠かつ基本である。
複雑な構造のため、点集合は多種多様であり、カテゴリー不均衡とパターン不均衡の両方として現れる。
その結果、深層ネットワークは学習過程における非優位なケースを忘れやすく、不満足なパフォーマンスをもたらす。
再重み付けは、よく分類された例の影響を軽減できるが、動的トレーニング中に非支配的なパターンを扱うことはできない。
本稿では,多様なサンプルを普遍的にカバーする代表プロトタイプを学習し,記憶するメモリ拡張ネットワークを提案する。
具体的には、ミニバッチトレーニングで見られるパターンを記録することにより、忘れる問題を緩和するメモリモジュールを導入する。
学習された記憶項目は、支配的かつ非支配的なカテゴリーとケースの解釈可能かつ有意義な情報を一貫して反映する。
したがって、歪んだ観測と稀なケースは、記憶されたプロトタイプを回収することで強化することができ、より良い性能と一般化をもたらす。
S3DIS と ScanNetV2 のベンチマーク実験は,本手法が有効性および効率性の両方において優れていることを反映している。
全体的な精度だけでなく、非支配クラスも大幅に改善されている。 3D point cloud semantic and instance segmentation is crucial and fundamental for 3D scene understanding. Due to the complex structure, point sets are distributed off balance and diversely, which appears as both category imbalance and pattern imbalance. As a result, deep networks can easily forget the non-dominant cases during the learning process, resulting in unsatisfactory performance. Although re-weighting can reduce the influence of the well-classified examples, they cannot handle the non-dominant patterns during the dynamic training. In this paper, we propose a memory-augmented network to learn and memorize the representative prototypes that cover diverse samples universally. Specifically, a memory module is introduced to alleviate the forgetting issue by recording the patterns seen in mini-batch training. The learned memory items consistently reflect the interpretable and meaningful information for both dominant and non-dominant categories and cases. The distorted observations and rare cases can thus be augmented by retrieving the stored prototypes, leading to better performances and generalization. Exhaustive experiments on the benchmarks, i.e. S3DIS and ScanNetV2, reflect the superiority of our method on both effectiveness and efficiency. Not only the overall accuracy but also nondominant classes have improved substantially. | 翻訳日:2023-01-14 02:26:38 公開日:2020-01-06 |
# ARA : Aggregated RAPPorと集中型微分プライバシーの分析 ARA : Aggregated RAPPOR and Analysis for Centralized Differential Privacy ( http://arxiv.org/abs/2001.01618v1 ) ライセンス: Link先を確認 | Sudipta Paul and Subhankar Mishra | (参考訳) ディファレンシャルプライバシ(dp)は、センシティブな統計データ分析を行う場合の標準となっている。
DPの2つの主要なアプローチは、ローカルとセントラルである。
どちらのアプローチも、データの保存、分析するデータの量、分析、速度といった面で明確なギャップがあります。
ローカルはスピードで勝ちます。
我々は、局所的なアプローチであるアートスタンダードRAPPORの状態を検証し、このギャップを支持した。
私たちの仕事は、その部分にも完全に焦点を当てています。
本稿では、まず複数のクライアントからRAPPORレポートを収集し、Tf-Idf推定モデルにプッシュするモデルを提案する。
Tf-Idf推定モデルは、特定の位置における「オンビット」の発生とその位置への寄与に基づいて、レポートを推定する。
したがって、複数のクライアントから集中型差分プライバシー分析を生成する。
我々のモデルは、毎回主要な真理値を分析した。 Differential privacy(DP) has now become a standard in case of sensitive statistical data analysis. The two main approaches in DP is local and central. Both the approaches have a clear gap in terms of data storing,amount of data to be analyzed, analysis, speed etc. Local wins on the speed. We have tested the state of the art standard RAPPOR which is a local approach and supported this gap. Our work completely focuses on that part too. Here, we propose a model which initially collects RAPPOR reports from multiple clients which are then pushed to a Tf-Idf estimation model. The Tf-Idf estimation model then estimates the reports on the basis of the occurrence of "on bit" in a particular position and its contribution to that position. Thus it generates a centralized differential privacy analysis from multiple clients. Our model successfully and efficiently analyzed the major truth value every time. | 翻訳日:2023-01-14 02:20:33 公開日:2020-01-06 |
# 回路シミュレーション・解析のためのデータ駆動型小型ダイオードモデルの開発と実証・検証 Development, Demonstration, and Validation of Data-driven Compact Diode Models for Circuit Simulation and Analysis ( http://arxiv.org/abs/2001.01699v1 ) ライセンス: Link先を確認 | K. Aadithya, P. Kuberry, B. Paskaleva, P. Bochev, K. Leeson, A. Mar, T. Mei, E. Keiter | (参考訳) 小型半導体デバイスモデルは大規模回路の効率的な設計と解析に不可欠である。
しかし、従来のコンパクトモデル開発には大量の手作業が必要であり、何年もかかる可能性がある。
さらに、既存のコンパクトモデルに新しい物理学(例えば放射効果)を組み込むことは簡単ではなく、ゼロから再開発する必要がある。
機械学習(ML)技術は、コンパクトモデルの開発を自動化し、大幅に高速化する可能性がある。
さらにMLは、特定の回路設計段階に適したコンパクトモデルの階層を開発するために使用できる様々なモデリングオプションを提供する。
本稿では,(1)テーブルベース補間,(2)一般化移動最小二乗,(3)フィードフォワードディープニューラルネットワークの3つの選択肢について検討し,p-n接合ダイオードのコンパクトモデルを開発する。
これらの「データ駆動型」コンパクトモデルの性能を,(1)実験室データに対する電圧電流特性の比較,(2)これらの装置を用いたブリッジ整流回路の構築,(2)スパイス様回路シミュレーションによる回路挙動の予測,および同一回路の実験室測定との比較により評価した。 Compact semiconductor device models are essential for efficiently designing and analyzing large circuits. However, traditional compact model development requires a large amount of manual effort and can span many years. Moreover, inclusion of new physics (eg, radiation effects) into an existing compact model is not trivial and may require redevelopment from scratch. Machine Learning (ML) techniques have the potential to automate and significantly speed up the development of compact models. In addition, ML provides a range of modeling options that can be used to develop hierarchies of compact models tailored to specific circuit design stages. In this paper, we explore three such options: (1) table-based interpolation, (2)Generalized Moving Least-Squares, and (3) feed-forward Deep Neural Networks, to develop compact models for a p-n junction diode. We evaluate the performance of these "data-driven" compact models by (1) comparing their voltage-current characteristics against laboratory data, and (2) building a bridge rectifier circuit using these devices, predicting the circuit's behavior using SPICE-like circuit simulations, and then comparing these predictions against laboratory measurements of the same circuit. | 翻訳日:2023-01-14 02:20:06 公開日:2020-01-06 |
# メタモーダル情報フロー : 統合失調症におけるマルチモーダルモジュラー切断率の捉え方 Meta-modal Information Flow: A Method for Capturing Multimodal Modular Disconnectivity in Schizophrenia ( http://arxiv.org/abs/2001.01707v1 ) ライセンス: Link先を確認 | Haleh Falakshahi, Victor M. Vergara, Jingyu Liu, Daniel H. Mathalon, Judith M. Ford, James Voyvodic, Bryon A. Mueller, Aysenil Belger, Sarah McEwen, Steven G. Potkin, Adrian Preda, Hooman Rokham, Jing Sui, Jessica A. Turner, Sergey Plis, and Vince D. Calhoun | (参考訳) 目的: 同一現象のマルチモーダル計測は、それぞれの限界はあるものの、相補的な情報を提供し、異なる視点を強調する。
単一の様相に焦点を合わせれば誤った推論につながる可能性があるが、これは研究された現象が病気である場合に特に重要である。
本稿では,統合失調症(SZ)における解離と機能不全の仮説に対処する上で,マルチモーダルデータを活用する手法を提案する。
方法: gaussian graphical model (ggm) を用いて,抽出されたマルチモーダルデータ特徴間のリンクを推定・可視化することから始める。
次に,マルチモーダルデータセットにまたがる精神疾患に関連するリンクを識別するために,gsmに適用可能なモジュール性に基づく手法を提案する。
シミュレーションと実データにより,本手法は単一モダリティに焦点をあてて欠落する疾患関連ネットワーク破壊に関する重要な情報を明らかにする。
機能MRI(fMRI)、拡散MRI(dMRI)、構造MRI(sMRI)を用いて、低周波変動(fALFF)、分画異方性(FA)、灰白質(GM)濃度マップの分画振幅を計算する。
これら3つのモダリティをモジュラリティ法を用いて解析する。
結果: コンポーネント間の分離性において重要な役割を果たすクロスモーダル情報によってのみキャプチャされるリンクの欠如を示す。
結論: 単一モードでは検出できなかったSZ患者において, デフォルトモードネットワーク領域におけるマルチモーダル(fALFF, FA, GM)の解離性が確認された。
意義:提案手法は複数の画像モダリティに分散した情報をキャプチャするための重要な新しいツールを提供する。 Objective: Multimodal measurements of the same phenomena provide complementary information and highlight different perspectives, albeit each with their own limitations. A focus on a single modality may lead to incorrect inferences, which is especially important when a studied phenomenon is a disease. In this paper, we introduce a method that takes advantage of multimodal data in addressing the hypotheses of disconnectivity and dysfunction within schizophrenia (SZ). Methods: We start with estimating and visualizing links within and among extracted multimodal data features using a Gaussian graphical model (GGM). We then propose a modularity-based method that can be applied to the GGM to identify links that are associated with mental illness across a multimodal data set. Through simulation and real data, we show our approach reveals important information about disease-related network disruptions that are missed with a focus on a single modality. We use functional MRI (fMRI), diffusion MRI (dMRI), and structural MRI (sMRI) to compute the fractional amplitude of low frequency fluctuations (fALFF), fractional anisotropy (FA), and gray matter (GM) concentration maps. These three modalities are analyzed using our modularity method. Results: Our results show missing links that are only captured by the cross-modal information that may play an important role in disconnectivity between the components. Conclusion: We identified multimodal (fALFF, FA and GM) disconnectivity in the default mode network area in patients with SZ, which would not have been detectable in a single modality. Significance: The proposed approach provides an important new tool for capturing information that is distributed among multiple imaging modalities. | 翻訳日:2023-01-14 02:19:45 公開日:2020-01-06 |
# 非教師的適応時の選択的ニューロン更新のための高次および低次ニューロンプルーニングの検討 Investigation and Analysis of Hyper and Hypo neuron pruning to selectively update neurons during Unsupervised Adaptation ( http://arxiv.org/abs/2001.01755v1 ) ライセンス: Link先を確認 | Vikramjit Mitra and Horacio Franco | (参考訳) unseenまたはout-of-domainデータは、ニューラルネットワークモデルのパフォーマンスを著しく低下させ、モデルがunseenデータに一般化できなかったことを示す。
ニューラルネットプルーニングは、モデルのサイズを減らすだけでなく、モデルの一般化能力も改善できる。
プルーニングアプローチは、モデルの決定にあまり寄与せず、それゆえモデルから取り除くことができる低塩分なニューロンを探す。
この研究は、プルーニングアプローチが、高塩分(主に活性または超活性)または低塩分(ほとんど活性または偽)のニューロンの検出に成功し、そのようなニューロンの除去がモデルの一般化能力の向上に役立つかどうかを検討する。
従来のブラインド適応技術は、全体またはサブセットのレイヤを更新するが、個々のニューロンを1つ以上のレイヤで選択的に更新することはなかった。
畳み込みニューラルネットワーク(cnn)の完全連結層に着目したこの研究は、まず特定のニューロン(ハイパーニューロンとハイポニューロン)を選択的に適応させ、次にフルネットワークの微調整を行うことが可能であることを示した。
自動音声認識の課題を用いて、モデルから高次ニューロンと低次ニューロンを除去することで、ドメイン外音声認識データにおけるモデルの性能が向上し、従来のブラインドモデルよりも選択的ニューロン適応が性能を向上できることを示す。 Unseen or out-of-domain data can seriously degrade the performance of a neural network model, indicating the model's failure to generalize to unseen data. Neural net pruning can not only help to reduce a model's size but can improve the model's generalization capacity as well. Pruning approaches look for low-salient neurons that are less contributive to a model's decision and hence can be removed from the model. This work investigates if pruning approaches are successful in detecting neurons that are either high-salient (mostly active or hyper) or low-salient (barely active or hypo), and whether removal of such neurons can help to improve the model's generalization capacity. Traditional blind adaptation techniques update either the whole or a subset of layers, but have never explored selectively updating individual neurons across one or more layers. Focusing on the fully connected layers of a convolutional neural network (CNN), this work shows that it may be possible to selectively adapt certain neurons (consisting of the hyper and the hypo neurons) first, followed by a full-network fine tuning. Using the task of automatic speech recognition, this work demonstrates how the removal of hyper and hypo neurons from a model can improve the model's performance on out-of-domain speech data and how selective neuron adaptation can ensure improved performance when compared to traditional blind model adaptation. | 翻訳日:2023-01-14 02:19:13 公開日:2020-01-06 |
# 熱水理シミュレーションにおける深層学習による局所的物理類似性の探索 Using Deep Learning to Explore Local Physical Similarity for Global-scale Bridging in Thermal-hydraulic Simulation ( http://arxiv.org/abs/2001.04298v1 ) ライセンス: Link先を確認 | Han Bao, Nam Dinh, Linyu Lin, Robert Youngblood, Jeffrey Lane, Hongbin Zhang | (参考訳) 現在の熱水和コードでは、特に幾何学と境界条件が試験施設の範囲を超えて外挿される場合、実際の植物条件をシミュレートする際の信頼性が制限されている。
本稿では,データ駆動型特徴類似度測定(FFSM)を提案する。機械学習を用いて局所パターンを探索することにより,これらの課題を克服するための技術的基盤を確立する。
マルチスケールデータの基盤となる局所パターンは、物理的システムからの情報、経験的相関、メッシュサイズの影響を具現化した物理的な特徴の集合によって表現される。
限られた数の高忠実度数値シミュレーションと十分な量の高速粗度シミュレーションを行った後、エラーデータベースを構築し、深層学習を行い、局所的な物理的特徴とシミュレーションエラーの関係を構築・探究する。
混合対流に基づくケーススタディは、グローバルスケールギャップの橋渡しにおけるデータ駆動モデルの能力を示すために設計されている。 Current system thermal-hydraulic codes have limited credibility in simulating real plant conditions, especially when the geometry and boundary conditions are extrapolated beyond the range of test facilities. This paper proposes a data-driven approach, Feature Similarity Measurement FFSM), to establish a technical basis to overcome these difficulties by exploring local patterns using machine learning. The underlying local patterns in multiscale data are represented by a set of physical features that embody the information from a physical system of interest, empirical correlations, and the effect of mesh size. After performing a limited number of high-fidelity numerical simulations and a sufficient amount of fast-running coarse-mesh simulations, an error database is built, and deep learning is applied to construct and explore the relationship between the local physical features and simulation errors. Case studies based on mixed convection have been designed for demonstrating the capability of data-driven models in bridging global scale gaps. | 翻訳日:2023-01-14 02:18:08 公開日:2020-01-06 |
# スマートフォンを用いた人間行動認識の分類 Classification of human activity recognition using smartphones ( http://arxiv.org/abs/2001.09740v1 ) ライセンス: Link先を確認 | Hoda Sedighi | (参考訳) スマートフォンは通信手段として最も人気があり、広く使われている。
近年,モバイル端末上では,ユーザ行動の予測によるユーザ行動管理に利用される組込みセンサによって,人間の行動認識が可能となっている。
この目的を達成するために,本研究では,活動特性の保存,分類,学習アルゴリズムへのマッピングについて検討した。
本研究では,深層信仰ネットワークによる分類をデータテストとトレーニングに応用し,トレーニングデータでは98.25%,テストデータでは93.01%の精度で正しい診断を行った。
そこで本研究では,深い信念ネットワークが,この特定の目的に適した手法であることを実証する。 Smartphones have been the most popular and widely used devices among means of communication. Nowadays, human activity recognition is possible on mobile devices by embedded sensors, which can be exploited to manage user behavior on mobile devices by predicting user activity. To reach this aim, storing activity characteristics, Classification, and mapping them to a learning algorithm was studied in this research. In this study, we applied categorization through deep belief network to test and training data, which resulted in 98.25% correct diagnosis in training data and 93.01% in test data. Therefore, in this study, we prove that the deep belief network is a suitable method for this particular purpose. | 翻訳日:2023-01-14 02:17:51 公開日:2020-01-06 |
# TableNet: Scanned Document Imagesからエンドツーエンドのテーブル検出とタブラリデータ抽出のためのディープラーニングモデル TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Images ( http://arxiv.org/abs/2001.01469v1 ) ライセンス: Link先を確認 | Shubham Paliwal, Vishwanath D, Rohit Rahul, Monika Sharma, Lovekesh Vig | (参考訳) 携帯電話やスキャナーが文書の撮影・アップロードに広く使われるようになると、小売レシートや保険請求書、財務請求書などの非構造化文書画像に含まれる情報を抽出する必要性が高まっている。
この目的に対する大きなハードルは、これらの画像がしばしば表の形式で情報を含んでおり、表のサブ画像からデータを抽出することは、ユニークな課題のセットである。
これには、画像内の表領域の正確な検出と、検出されたテーブルの行や列から情報の検出と抽出が含まれる。
テーブル検出の進歩はいくつかあるが、よりきめ細かいテーブル構造(行と列)の認識を含むため、テーブル内容の抽出は依然として困難である。
従来のアプローチでは、2つの異なるモデルを用いてテーブルの検出と構造認識を独立に解決しようと試みてきた。
本稿では,テーブル検出と構造認識のための新しいエンドツーエンドディープラーニングモデルであるTableNetを提案する。
このモデルは、テーブル検出のツインタスクとテーブル構造認識の相互依存性を利用して、テーブルと列領域を分割する。
これに続いて、識別されたタブ状のサブリージョンからセマンティックルールベースの行抽出を行う。
提案手法は,公開可能なicdar 2013およびmarmotテーブルデータセット上で評価され,結果が得られた。
さらに,追加的なセマンティクス機能の提供により,モデルの性能がさらに向上し,モデルがデータセット間での転送学習を示すことを実証する。
この論文のもう一つの貢献は、テーブル検出のためのアノテーションしか持たないmarmotデータに追加のテーブル構造アノテーションを提供することである。 With the widespread use of mobile phones and scanners to photograph and upload documents, the need for extracting the information trapped in unstructured document images such as retail receipts, insurance claim forms and financial invoices is becoming more acute. A major hurdle to this objective is that these images often contain information in the form of tables and extracting data from tabular sub-images presents a unique set of challenges. This includes accurate detection of the tabular region within an image, and subsequently detecting and extracting information from the rows and columns of the detected table. While some progress has been made in table detection, extracting the table contents is still a challenge since this involves more fine grained table structure(rows & columns) recognition. Prior approaches have attempted to solve the table detection and structure recognition problems independently using two separate models. In this paper, we propose TableNet: a novel end-to-end deep learning model for both table detection and structure recognition. The model exploits the interdependence between the twin tasks of table detection and table structure recognition to segment out the table and column regions. This is followed by semantic rule-based row extraction from the identified tabular sub-regions. The proposed model and extraction approach was evaluated on the publicly available ICDAR 2013 and Marmot Table datasets obtaining state of the art results. Additionally, we demonstrate that feeding additional semantic features further improves model performance and that the model exhibits transfer learning across datasets. Another contribution of this paper is to provide additional table structure annotations for the Marmot data, which currently only has annotations for table detection. | 翻訳日:2023-01-14 02:17:40 公開日:2020-01-06 |
# 核融合のためのオフラインコンテキストベイズ最適化 Offline Contextual Bayesian Optimization for Nuclear Fusion ( http://arxiv.org/abs/2001.01793v1 ) ライセンス: Link先を確認 | Youngseog Chung, Ian Char, Willie Neiswanger, Kirthevasan Kandasamy, Andrew Oakleigh Nelson, Mark D Boyer, Egemen Kolemen, Jeff Schneider | (参考訳) 核融合は、無限のクリーンエネルギーの可能性を示すため、未来のエネルギーと見なされている。
核融合を実現可能なエネルギー源として利用する際の障害は、反応の安定性である。
理想的には、反応をできるだけ長く延ばすために、プラズマの現在の状態に応じて反応を起こす反応器の制御装置を持っているだろう。
本研究では,このようなコントローラを学習するための予備的なステップを行う。
実世界の原子炉での学習は不可能であるため、プラズマの状態を明確に設定できるシミュレータを通してオフラインで最適制御を学習し、この問題に対処する。
特に,各イテレーションで状態と動作のペアを評価することを推奨する理論的根拠付きベイズ最適化アルゴリズムを導入し,シミュレータをより効率的に利用することを示す。 Nuclear fusion is regarded as the energy of the future since it presents the possibility of unlimited clean energy. One obstacle in utilizing fusion as a feasible energy source is the stability of the reaction. Ideally, one would have a controller for the reactor that makes actions in response to the current state of the plasma in order to prolong the reaction as long as possible. In this work, we make preliminary steps to learning such a controller. Since learning on a real world reactor is infeasible, we tackle this problem by attempting to learn optimal controls offline via a simulator, where the state of the plasma can be explicitly set. In particular, we introduce a theoretically grounded Bayesian optimization algorithm that recommends a state and action pair to evaluate at every iteration and show that this results in more efficient use of the simulator. | 翻訳日:2023-01-14 02:11:10 公開日:2020-01-06 |
# 組合せ最適化ヒューリスティックスを用いたバイナリデータのクラスタリング Clustering Binary Data by Application of Combinatorial Optimization Heuristics ( http://arxiv.org/abs/2001.01809v1 ) ライセンス: Link先を確認 | Javier Trejos-Zelaya, Luis Eduardo Amaya-Brice\~no, Alejandra Jim\'enez-Romero, Alex Murillo-Fern\'andez, Eduardo Piza-Volio, Mario Villalobos-Arias | (参考訳) 本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
周辺地域と人口行動を組み合わせたメタヒューリスティックスを用いた新しい5つの手法が導入された: まず1つは、アニーリング、しきい値の受け入れ、タブサーチ、もう1つは遺伝的アルゴリズムとアリコロニー最適化である。
提案手法は, ヒューリスティックスにおけるパラメータの適切なキャリブレーションを行い, 良好な結果が得られた。
準モンテカルロ実験によって生成された16のデータテーブルから、l1の異質性(階層的クラスタリング)とk-meansのバージョン(メドロイドやpamを囲むパーティショニング)を用いた1つのアグリゲーションの比較を行う。
シミュレーションアニーリングは、特に古典的手法と比較して非常によく機能する。 We study clustering methods for binary data, first defining aggregation criteria that measure the compactness of clusters. Five new and original methods are introduced, using neighborhoods and population behavior combinatorial optimization metaheuristics: first ones are simulated annealing, threshold accepting and tabu search, and the others are a genetic algorithm and ant colony optimization. The methods are implemented, performing the proper calibration of parameters in the case of heuristics, to ensure good results. From a set of 16 data tables generated by a quasi-Monte Carlo experiment, a comparison is performed for one of the aggregations using L1 dissimilarity, with hierarchical clustering, and a version of k-means: partitioning around medoids or PAM. Simulated annealing perform very well, especially compared to classical methods. | 翻訳日:2023-01-14 02:10:50 公開日:2020-01-06 |
# 高汚染データを用いた深層生成モデルによる粒度学習 Granular Learning with Deep Generative Models using Highly Contaminated Data ( http://arxiv.org/abs/2001.04297v1 ) ライセンス: Link先を確認 | John Just | (参考訳) 品質問題のある実世界の画像データセットにおける粒状(連続的)な意味での異常検出のための深部生成モデルの最近の進歩を、近年の正規化フローモデルを用いて詳述する。
このアプローチは完全に教師なし(アノテーションは使用できない)だが、質的に示され、スケールしたログライクなオーバーレイドのヒートマップを通じて画像に正確なセマンティックラベリングを提供する。
画像ごとの中央値に基づいてソートすると、品質の明確な傾向が観察される。
さらに、特徴抽出畳み込みニューラルネットワークのトレーニング信号として正規化フローモデルからのログ様出力を用いて、弱教師付きアプローチにより下流分類が可能で効果的であることを示す。
CNN上の線形密度層出力は、高次表現をアンタングルし、様々な品質問題を効率的にクラスタリングする。
したがって、品質問題の正確な推定と分類には、完全に非注釈の(完全に教師なしの)アプローチが示される。
. An approach to utilize recent advances in deep generative models for anomaly detection in a granular (continuous) sense on a real-world image dataset with quality issues is detailed using recent normalizing flow models, with implications in many other applications/domains/data types. The approach is completely unsupervised (no annotations available) but qualitatively shown to provide accurate semantic labeling for images via heatmaps of the scaled log-likelihood overlaid on the images. When sorted based on the median values per image, clear trends in quality are observed. Furthermore, downstream classification is shown to be possible and effective via a weakly supervised approach using the log-likelihood output from a normalizing flow model as a training signal for a feature-extracting convolutional neural network. The pre-linear dense layer outputs on the CNN are shown to disentangle high level representations and efficiently cluster various quality issues. Thus, an entirely non-annotated (fully unsupervised) approach is shown possible for accurate estimation and classification of quality issues.. | 翻訳日:2023-01-14 02:10:35 公開日:2020-01-06 |
# 連鎖表現サイクリング:表現間のサイクリングによる3次元人間のポーズと形状推定の学習 Chained Representation Cycling: Learning to Estimate 3D Human Pose and Shape by Cycling Between Representations ( http://arxiv.org/abs/2001.01613v1 ) ライセンス: Link先を確認 | Nadine Rueegg, Christoph Lassner, Michael J. Black, Konrad Schindler | (参考訳) 多くのコンピュータビジョンシステムの目標は、画像ピクセルを3D表現に変換することである。
最近の人気モデルでは、ニューラルネットワークを使ってピクセルから3Dオブジェクトパラメータに直接回帰している。
このようなアプローチは、監督が可能であればうまく機能するが、人間のポーズや形状推定といった問題では、3次元の地上真実を持つ自然画像を得ることは困難である。
さらに一歩進めるために、教師なし、あるいは軽々しく教師なしの学習を容易にする新しいアーキテクチャを提案する。
その考え方は、問題をますます抽象的な表現間の一連の変換に分解することである。
各ステップには、アノテートされたトレーニングデータなしで学習できるように設計されたサイクルが含まれます。
具体的には、2dボディ部分セグメントを3dに持ち上げるのに十分な情報を含む中間表現として使用すると同時に、教師なしの方法で学習できるほど単純である。
本研究では,無注画像と無注画像から3次元人間のポーズと形状を学習し,その方法を示す。
また,様々な量のペアデータを調査し,サイクリングがペアデータの必要性を大幅に軽減することを示した。
人間のモデリング結果を示す一方で、定式化は一般的であり、他の視覚問題にも適用できる。 The goal of many computer vision systems is to transform image pixels into 3D representations. Recent popular models use neural networks to regress directly from pixels to 3D object parameters. Such an approach works well when supervision is available, but in problems like human pose and shape estimation, it is difficult to obtain natural images with 3D ground truth. To go one step further, we propose a new architecture that facilitates unsupervised, or lightly supervised, learning. The idea is to break the problem into a series of transformations between increasingly abstract representations. Each step involves a cycle designed to be learnable without annotated training data, and the chain of cycles delivers the final solution. Specifically, we use 2D body part segments as an intermediate representation that contains enough information to be lifted to 3D, and at the same time is simple enough to be learned in an unsupervised way. We demonstrate the method by learning 3D human pose and shape from un-paired and un-annotated images. We also explore varying amounts of paired data and show that cycling greatly alleviates the need for paired data. While we present results for modeling humans, our formulation is general and can be applied to other vision problems. | 翻訳日:2023-01-14 02:10:17 公開日:2020-01-06 |
# 分散ディープラーニングのための弾性バルク同期並列モデル Elastic Bulk Synchronous Parallel Model for Distributed Deep Learning ( http://arxiv.org/abs/2001.01347v1 ) ライセンス: Link先を確認 | Xing Zhao, Manos Papagelis, Aijun An, Bao Xin Chen, Junfeng Liu, Yonggang Hu | (参考訳) バルク同期並列 (BSP) は汎用並列コンピューティングのための有名な同期モデルであり、機械学習モデルの分散トレーニングに成功している。
BSPの最大の欠点は、各イテレーションで作業員がストラグラーを待つ必要があることだ。
古典的BSPのこの欠点を改善するために,厳密な同期要求を緩和するモデルであるELASTICBSPを提案する。
提案手法は, モデルの精度を犠牲にすることなく, 訓練段階での柔軟性と適応性を高める。
また,ZIPLINEというモデルを実現する効率的な手法を提案する。
このアルゴリズムは調整可能で、異なる環境やアプリケーションに対応するために、コンバージェンスの品質とイテレーションスループットの間のトレードオフを効果的にバランスさせることができる。
実験により,提案したELASTICBSPモデルは従来のBSPよりも高速かつ高精度に収束することが確認された。
また、他の有能な同期モデルと同等の精度(高くないにせよ)を達成している。 The bulk synchronous parallel (BSP) is a celebrated synchronization model for general-purpose parallel computing that has successfully been employed for distributed training of machine learning models. A prevalent shortcoming of the BSP is that it requires workers to wait for the straggler at every iteration. To ameliorate this shortcoming of classic BSP, we propose ELASTICBSP a model that aims to relax its strict synchronization requirement. The proposed model offers more flexibility and adaptability during the training phase, without sacrificing on the accuracy of the trained model. We also propose an efficient method that materializes the model, named ZIPLINE. The algorithm is tunable and can effectively balance the trade-off between quality of convergence and iteration throughput, in order to accommodate different environments or applications. A thorough experimental evaluation demonstrates that our proposed ELASTICBSP model converges faster and to a higher accuracy than the classic BSP. It also achieves comparable (if not higher) accuracy than the other sensible synchronization models. | 翻訳日:2023-01-14 02:09:56 公開日:2020-01-06 |
# オートエンコーダを用いた半教師あり異常検出 Semi-supervised Anomaly Detection using AutoEncoders ( http://arxiv.org/abs/2001.03674v1 ) ライセンス: Link先を確認 | Manpreet Singh Minhas, John Zelek | (参考訳) 異常検出(anomaly detection)は、通常のデータから際立った異常なインスタンスを見つけるタスクである。
いくつかのアプリケーションでは、これらの外れ値や異常なインスタンスは通常のものよりも大きな関心を持つ。
特に工業用光学検査やインフラ資産管理の場合、これらの欠陥(異常領域)を見つけることは極めて重要である。
伝統的にも今日でも手作業で行われている。
人間は欠陥を検出するのに通常のテクスチャに比べて欠陥の正当性に依存する。
しかし、手動検査は遅く、退屈で、主観的で、人間の偏見に影響を受けやすい。
したがって、欠陥検出の自動化が望ましい。
しかし、欠陥検出では、大量の異常インスタンスとラベル付きデータの可用性の欠如が問題となる。
本稿では,異常検出のための畳み込み型オートエンコーダアーキテクチャを提案する。
テスト画像については、オートエンコーダ出力から原画像を減算して得られる残留マスクをしきい値にし、欠陥セグメンテーションマスクを得る。
このアプローチは2つのデータセットでテストされ、平均F1スコア0.885を達成しました。
ネットワークは、トレーニング中に欠陥画像を使用しなくても、欠陥の実際の形状を検出することを学習した。 Anomaly detection refers to the task of finding unusual instances that stand out from the normal data. In several applications, these outliers or anomalous instances are of greater interest compared to the normal ones. Specifically in the case of industrial optical inspection and infrastructure asset management, finding these defects (anomalous regions) is of extreme importance. Traditionally and even today this process has been carried out manually. Humans rely on the saliency of the defects in comparison to the normal texture to detect the defects. However, manual inspection is slow, tedious, subjective and susceptible to human biases. Therefore, the automation of defect detection is desirable. But for defect detection lack of availability of a large number of anomalous instances and labelled data is a problem. In this paper, we present a convolutional auto-encoder architecture for anomaly detection that is trained only on the defect-free (normal) instances. For the test images, residual masks that are obtained by subtracting the original image from the auto-encoder output are thresholded to obtain the defect segmentation masks. The approach was tested on two data-sets and achieved an impressive average F1 score of 0.885. The network learnt to detect the actual shape of the defects even though no defected images were used during the training. | 翻訳日:2023-01-14 02:02:08 公開日:2020-01-06 |
# ニューラルマシン翻訳における伝達学習のメリットを探る Exploring Benefits of Transfer Learning in Neural Machine Translation ( http://arxiv.org/abs/2001.01622v1 ) ライセンス: Link先を確認 | Tom Kocmi | (参考訳) ニューラルマシン翻訳は、大量の並列トレーニング文を必要とすることで知られており、一般的に低リソースの言語ペアでの性能を損なう。
この論文は、リソース不足による問題を解決する手段として、ニューラルネットワークにおける言語間移動学習の使用を探求する。
本稿では,高リソース言語ペアで事前学習したモデルを再利用するためのトランスファー学習手法を提案する。
私たちはテクニックの単純さに特に注意を払う。
2つのシナリオを研究しました
(a) トレーニングプロセスに事前の変更を加えることなく、高リソースモデルを再利用する場合
(b) 転送学習のための第1段階高リソースモデルを事前に準備できる場合。
前者のシナリオでは、他の研究者が訓練したモデルを再利用して概念実証法を提案する。
後者のシナリオでは,翻訳性能をさらに向上させる手法を提案する。
提案手法とは別に,転送学習技術の詳細分析に焦点をあて,転送学習の改善に光を当てようとしている。
本手法は低リソース言語の特定の問題にどのように対処するかを示し,高リソース変換学習にも適していることを示す。
本研究では, 人工的な損傷を受けた訓練コーパスや, 固定された様々なモデル部品を用いて, 様々な状況における移動学習の潜在的な欠点と行動を評価する。 Neural machine translation is known to require large numbers of parallel training sentences, which generally prevent it from excelling on low-resource language pairs. This thesis explores the use of cross-lingual transfer learning on neural networks as a way of solving the problem with the lack of resources. We propose several transfer learning approaches to reuse a model pretrained on a high-resource language pair. We pay particular attention to the simplicity of the techniques. We study two scenarios: (a) when we reuse the high-resource model without any prior modifications to its training process and (b) when we can prepare the first-stage high-resource model for transfer learning in advance. For the former scenario, we present a proof-of-concept method by reusing a model trained by other researchers. In the latter scenario, we present a method which reaches even larger improvements in translation performance. Apart from proposed techniques, we focus on an in-depth analysis of transfer learning techniques and try to shed some light on transfer learning improvements. We show how our techniques address specific problems of low-resource languages and are suitable even in high-resource transfer learning. We evaluate the potential drawbacks and behavior by studying transfer learning in various situations, for example, under artificially damaged training corpora, or with fixed various model parts. | 翻訳日:2023-01-14 02:01:51 公開日:2020-01-06 |
# 確率制約付きシステム設計問題に対する変分ベイズ法 Variational Bayesian Methods for Stochastically Constrained System Design Problems ( http://arxiv.org/abs/2001.01404v1 ) ライセンス: Link先を確認 | Prateek Jaiswal, Harsha Honnappa and Vinayak A. Rao | (参考訳) 本稿では,確率制約付きパラメータ化確率プログラムとして表現されるシステム設計問題について検討する。
我々は、通常難解な後続予測積分の計算を必要とするベイズ的アプローチを採用する。
さらに、問題が十分に定義された凸プログラムであるためには、実現可能な集合の凸性を維持する必要がある。
そこで本研究では,可搬性を確保し,可換集合の凸性を保持する後続予測積分を近似的に計算する変分ベイズ法を提案する。
一定の規則性条件の下では、変分ベイズを用いて得られる解集合が、観測回数が無限大になる傾向にある真の解集合に収束することを示す。
また、与えられたサンプル数に対するvb近似の下で実現可能な真の実現不可能な点(真の制約に関して)を許容する確率の境界も与える。 We study system design problems stated as parameterized stochastic programs with a chance-constraint set. We adopt a Bayesian approach that requires the computation of a posterior predictive integral which is usually intractable. In addition, for the problem to be a well-defined convex program, we must retain the convexity of the feasible set. Consequently, we propose a variational Bayes-based method to approximately compute the posterior predictive integral that ensures tractability and retains the convexity of the feasible set. Under certain regularity conditions, we also show that the solution set obtained using variational Bayes converges to the true solution set as the number of observations tends to infinity. We also provide bounds on the probability of qualifying a true infeasible point (with respect to the true constraints) as feasible under the VB approximation for a given number of samples. | 翻訳日:2023-01-14 02:00:35 公開日:2020-01-06 |
# 条件付きグラフ論理ネットワークによる再合成予測 Retrosynthesis Prediction with Conditional Graph Logic Network ( http://arxiv.org/abs/2001.01408v1 ) ライセンス: Link先を確認 | Hanjun Dai, Chengtao Li, Connor W. Coley, Bo Dai, Le Song | (参考訳) 再合成は有機化学の基本的な問題の一つである。
タスクは、特定の生成物分子を合成するのに使用できる反応物質を特定することである。
近年,コンピュータ支援のレトロシンセシスが化学とコンピュータ科学のコミュニティから新たな関心を集めている。
既存のアプローチのほとんどは、サブグラフマッチングルールを定義するテンプレートベースのモデルに依存しているが、化学反応が進行できるかどうかは、厳しい決定ルールによって定義されていない。
本研究では,反応テンプレートからのルールをいつ適用すべきかを学習するグラフニューラルネットワーク上に構築された条件付きグラフィカルモデルであるConditional Graph Logic Networkを用いて,反応が化学的に実現可能かつ戦略的であるかどうかを暗黙的に検討する。
また,計算コストを軽減できる効率的な階層的サンプリング手法を提案する。
ベンチマークデータセット上での現在の最先端メソッドよりも8.1\%の大幅な改善を実現する一方で、我々のモデルは予測の解釈も提供する。 Retrosynthesis is one of the fundamental problems in organic chemistry. The task is to identify reactants that can be used to synthesize a specified product molecule. Recently, computer-aided retrosynthesis is finding renewed interest from both chemistry and computer science communities. Most existing approaches rely on template-based models that define subgraph matching rules, but whether or not a chemical reaction can proceed is not defined by hard decision rules. In this work, we propose a new approach to this task using the Conditional Graph Logic Network, a conditional graphical model built upon graph neural networks that learns when rules from reaction templates should be applied, implicitly considering whether the resulting reaction would be both chemically feasible and strategic. We also propose an efficient hierarchical sampling to alleviate the computation cost. While achieving a significant improvement of $8.1\%$ over current state-of-the-art methods on the benchmark dataset, our model also offers interpretations for the prediction. | 翻訳日:2023-01-14 02:00:16 公開日:2020-01-06 |
# 制御変数選択のためのベイズ型ニューラルネットワークの自動帰属判定 An Automatic Relevance Determination Prior Bayesian Neural Network for Controlled Variable Selection ( http://arxiv.org/abs/2001.01765v1 ) ライセンス: Link先を確認 | Rendani Mbuvha, Illyes Boulkaibet and Tshilidzi Marwala | (参考訳) モデル-xノックオフフィルタの特徴量として,ベイズニューラルネットワーク(BNN-ARD)の重み l2-norm を用いた自動相関決定法を提案する。
シミュレーションデータとノルウェーの風力発電データを用いて,提案した特徴重要度統計値が,変動選択能力と実世界の予測性能の両方において類似した特徴重要度尺度と比較して統計的に有意な改善をもたらすことを示す。 We present an Automatic Relevance Determination prior Bayesian Neural Network(BNN-ARD) weight l2-norm measure as a feature importance statistic for the model-x knockoff filter. We show on both simulated data and the Norwegian wind farm dataset that the proposed feature importance statistic yields statistically significant improvements relative to similar feature importance measures in both variable selection power and predictive performance on a real world dataset. | 翻訳日:2023-01-14 01:59:33 公開日:2020-01-06 |
# 文字認識アテンションに基づくエンドツーエンド音声認識 Character-Aware Attention-Based End-to-End Speech Recognition ( http://arxiv.org/abs/2001.01795v1 ) ライセンス: Link先を確認 | Zhong Meng, Yashesh Gaur, Jinyu Li, Yifan Gong | (参考訳) 単語とサブワード単位(WSU)を出力として予測することは、エンドツーエンド音声認識における注意に基づくエンコーダデコーダ(AED)モデルに有効であることが示されている。
しかし、デコーダリカレントニューラルネットワーク(RNN)への1つの入力として、各WSU埋め込みは、コンテキストと音響情報を純粋にデータ駆動方式で独立に学習する。
WSU間の形態的関係を明示的にモデル化する努力はほとんど行われていない。
本稿では、各WSU埋め込みをCA-RNNを用いてその構成文字の埋め込みを要約することにより計算する新しい文字認識(CA)AEDモデルを提案する。
このWSUに依存しないCA-RNNは、従来のAEDのエンコーダ、デコーダ、アテンションネットワークと共同で訓練され、WSUを予測する。
CA-AEDでは、形態学的に類似したWSUの埋め込みは、従来のAEDでモデル化された意味的および音響的関係に加えて、CA-RNNを介して自然に、直接的に相関する。
さらにCA-AEDは、WSU埋め込みの大きなプールをはるかに小さな文字埋め込みに置き換えることで、従来のAEDのモデルパラメータを著しく削減します。
3400時間のMicrosoft Cortanaデータセットでは、CA-AEDはモデルパラメータを27.1%削減した強力なAIDベースラインよりも11.9%の相対的なWER改善を実現している。 Predicting words and subword units (WSUs) as the output has shown to be effective for the attention-based encoder-decoder (AED) model in end-to-end speech recognition. However, as one input to the decoder recurrent neural network (RNN), each WSU embedding is learned independently through context and acoustic information in a purely data-driven fashion. Little effort has been made to explicitly model the morphological relationships among WSUs. In this work, we propose a novel character-aware (CA) AED model in which each WSU embedding is computed by summarizing the embeddings of its constituent characters using a CA-RNN. This WSU-independent CA-RNN is jointly trained with the encoder, the decoder and the attention network of a conventional AED to predict WSUs. With CA-AED, the embeddings of morphologically similar WSUs are naturally and directly correlated through the CA-RNN in addition to the semantic and acoustic relations modeled by a traditional AED. Moreover, CA-AED significantly reduces the model parameters in a traditional AED by replacing the large pool of WSU embeddings with a much smaller set of character embeddings. On a 3400 hours Microsoft Cortana dataset, CA-AED achieves up to 11.9% relative WER improvement over a strong AED baseline with 27.1% fewer model parameters. | 翻訳日:2023-01-14 01:53:12 公開日:2020-01-06 |
# エンドツーエンド音声認識のための教師学習によるドメイン適応 Domain Adaptation via Teacher-Student Learning for End-to-End Speech Recognition ( http://arxiv.org/abs/2001.01798v1 ) ライセンス: Link先を確認 | Zhong Meng, Jinyu Li, Yashesh Gaur, Yifan Gong | (参考訳) 教師学生(T/S)は,ハイブリッド音声認識システムにおけるディープニューラルネットワーク音響モデルのドメイン適応に有効であることが示されている。
本研究では,T/S学習を,注意に基づくエンドツーエンド(E2E)モデルの大規模非教師なし領域適応に拡張し,教師のトークン後部をソフトラベルとして,一益予測をデコーダガイダンスとして,2段階の知識伝達を行う。
そこで本研究では,T/S学習を適応的に行うことを提案する。
AT/Sでは、教師のソフトトークンの後部またはワンホットのグランドトゥルースラベルから条件付きで選択する代わりに、学生は常に教師と地上の真実から、ソフトとワンホットのラベルに割り当てられた一対の適応重みで学習し、それぞれの知識源に対する信頼度を定量化する。
信頼スコアは、ソフトおよびワンホットラベルの関数としてデコーダステップ毎に動的に推定される。
3400時間並列クローズトークと遠方フィールドのmicrosoft cortanaデータで、t/sとat/sは同じ量の遠方フィールドデータで訓練された強いe2eモデルに対して6.3%と10.3%の相対的な単語誤り率改善を達成している。 Teacher-student (T/S) has shown to be effective for domain adaptation of deep neural network acoustic models in hybrid speech recognition systems. In this work, we extend the T/S learning to large-scale unsupervised domain adaptation of an attention-based end-to-end (E2E) model through two levels of knowledge transfer: teacher's token posteriors as soft labels and one-best predictions as decoder guidance. To further improve T/S learning with the help of ground-truth labels, we propose adaptive T/S (AT/S) learning. Instead of conditionally choosing from either the teacher's soft token posteriors or the one-hot ground-truth label, in AT/S, the student always learns from both the teacher and the ground truth with a pair of adaptive weights assigned to the soft and one-hot labels quantifying the confidence on each of the knowledge sources. The confidence scores are dynamically estimated at each decoder step as a function of the soft and one-hot labels. With 3400 hours parallel close-talk and far-field Microsoft Cortana data for domain adaptation, T/S and AT/S achieve 6.3% and 10.3% relative word error rate improvement over a strong E2E model trained with the same amount of far-field data. | 翻訳日:2023-01-14 01:52:52 公開日:2020-01-06 |
# MapReduceフレームワークにおける関連トピックモデルを用いたcrawled Documentsコレクションのトピック抽出 Topic Extraction of Crawled Documents Collection using Correlated Topic Model in MapReduce Framework ( http://arxiv.org/abs/2001.01669v1 ) ライセンス: Link先を確認 | Mi Khine Oo and May Aye Khine | (参考訳) 利用可能な研究資料の量の増加は、研究者が文書コレクションの潜在意味テーマを抽出するトピックモデルを提案することを示唆している。
しかし、ドキュメントコレクションの隠れたトピックを抽出する方法は多くのトピックモデルアプリケーションにとって重要なタスクとなっている。
さらに,文書コレクションのサイズが大きくなると,従来のトピックモデリング手法はスケーラビリティの問題に悩まされる。
本稿では,mapreduceフレームワークにおいて,拡張性問題を解決するために,変分期待最大化アルゴリズムと関連するトピックモデルを実装した。
提案手法は,公開デジタルライブラリからクロールされたデータセットを利用する。
さらに、MapReduce CTMの精度を高めるために、クロールされたドキュメントの全文を解析する。
提案アルゴリズムの性能を実証するために実験を行った。
評価から,提案手法はMapReduceフレームワークに実装されたLDAとトピックコヒーレンスの観点から比較した性能を有する。 The tremendous increase in the amount of available research documents impels researchers to propose topic models to extract the latent semantic themes of a documents collection. However, how to extract the hidden topics of the documents collection has become a crucial task for many topic model applications. Moreover, conventional topic modeling approaches suffer from the scalability problem when the size of documents collection increases. In this paper, the Correlated Topic Model with variational Expectation-Maximization algorithm is implemented in MapReduce framework to solve the scalability problem. The proposed approach utilizes the dataset crawled from the public digital library. In addition, the full-texts of the crawled documents are analysed to enhance the accuracy of MapReduce CTM. The experiments are conducted to demonstrate the performance of the proposed algorithm. From the evaluation, the proposed approach has a comparable performance in terms of topic coherences with LDA implemented in MapReduce framework. | 翻訳日:2023-01-14 01:52:27 公開日:2020-01-06 |
# 時間制約下におけるマルチタスク強化学習の最適選択 Optimal Options for Multi-Task Reinforcement Learning Under Time Constraints ( http://arxiv.org/abs/2001.01620v1 ) ライセンス: Link先を確認 | Manuel Del Verme, Bruno Castro da Silva, Gianluca Baldassarre | (参考訳) 強化学習は、反復する振る舞いをエンコードし、探索を促進する方法としてオプションを使用することで、大きな恩恵を受ける。
重要なオープンな問題は、エージェントが関連するタスクの特定の分布を解決する際に、どのように自律的に有用な選択肢を学習できるかである。
エージェントが各タスクを学習するための限られた時間予算を持ち、タスク分布が異なるレベルの類似性の問題が発生するような設定において、選択肢の最適性に影響を与える条件について検討する。
最適なオプションセットを直接検索し,利用可能な学習時間予算などの要因によって検出されたオプションが,一般的なオプション生成ヒューリスティックよりも大幅に異なることを示す。 Reinforcement learning can greatly benefit from the use of options as a way of encoding recurring behaviours and to foster exploration. An important open problem is how can an agent autonomously learn useful options when solving particular distributions of related tasks. We investigate some of the conditions that influence optimality of options, in settings where agents have a limited time budget for learning each task and the task distribution might involve problems with different levels of similarity. We directly search for optimal option sets and show that the discovered options significantly differ depending on factors such as the available learning time budget and that the found options outperform popular option-generation heuristics. | 翻訳日:2023-01-14 01:51:43 公開日:2020-01-06 |
# ニューラルアーキテクチャ探索における重みの共有に関する深い洞察 Deeper Insights into Weight Sharing in Neural Architecture Search ( http://arxiv.org/abs/2001.01431v1 ) ライセンス: Link先を確認 | Yuge Zhang, Zejun Lin, Junyang Jiang, Quanlu Zhang, Yujing Wang, Hui Xue, Chen Zhang, Yaming Yang | (参考訳) ディープニューラルネットワークの成功により、自動モデル設計の手段としてのニューラルアーキテクチャサーチ(NAS)が注目されている。
すべての子どもモデルをスクラッチからトレーニングするのは非常に時間がかかるため、最近の研究では重み付けを利用してモデル評価の手順をスピードアップしている。
これらのアプローチはスーパーネット上で重みのコピーを1つ残し、全ての子モデルで重みを共有することによって計算を大幅に削減する。
しかし、重量共有は理論的保証がなく、その影響は以前にも十分に研究されていない。
In this paper, we conduct comprehensive experiments to reveal the impact of weight-sharing: (1) The best-performing models from different runs or even from consecutive epochs within the same run have significant variance; (2) Even with high variance, we can extract valuable information from training the super-net with shared weights; (3) The interference between child models is a main factor that induces high variance; (4) Properly reducing the degree of weight sharing could effectively reduce variance and improve performance. With the success of deep neural networks, Neural Architecture Search (NAS) as a way of automatic model design has attracted wide attention. As training every child model from scratch is very time-consuming, recent works leverage weight-sharing to speed up the model evaluation procedure. These approaches greatly reduce computation by maintaining a single copy of weights on the super-net and share the weights among every child model. However, weight-sharing has no theoretical guarantee and its impact has not been well studied before. In this paper, we conduct comprehensive experiments to reveal the impact of weight-sharing: (1) The best-performing models from different runs or even from consecutive epochs within the same run have significant variance; (2) Even with high variance, we can extract valuable information from training the super-net with shared weights; (3) The interference between child models is a main factor that induces high variance; (4) Properly reducing the degree of weight sharing could effectively reduce variance and improve performance. | 翻訳日:2023-01-14 01:51:11 公開日:2020-01-06 |
# Express Wavenet -- ランダムシフトウェーブレットパターンを持つ低パラメータ光ニューラルネットワーク Express Wavenet -- a low parameter optical neural network with random shift wavelet pattern ( http://arxiv.org/abs/2001.01458v1 ) ライセンス: Link先を確認 | Yingshi Chen | (参考訳) express wavenetは改良された光回折ニューラルネットワークである。
各層では、ウェーブレットのようなパターンを使って光波の位相を変調する。
n2ピクセルの入力画像の場合、表現ウェーブネットはパラメータ番号をO(n2)からO(n)に還元する。
パラメータの1%しか必要とせず、精度は依然として非常に高い。
MNISTデータセットでは、92%の精度を得るために1229のパラメータしか必要とせず、標準の光学ネットワークでは125440のパラメータが必要である。
ランダムシフトウェーブレットは、より鮮明に光ネットワークの特性を示す。
特に訓練過程における消失勾配現象。
この問題に対する高速道路構造の変更について述べる。
ランダムシフトウェーブレットと高速道路構造の効果を実験により検証した。
我々の研究は、光回折ネットワークが他のニューラルネットワークよりもはるかに少ないパラメータを使用することを示した。
ソースコードはhttps://github.com/closest-git/onnetで入手できる。 Express Wavenet is an improved optical diffractive neural network. At each layer, it uses wavelet-like pattern to modulate the phase of optical waves. For input image with n2 pixels, express wavenet reduce parameter number from O(n2) to O(n). Only need one percent of the parameters, and the accuracy is still very high. In the MNIST dataset, it only needs 1229 parameters to get accuracy of 92%, while the standard optical network needs 125440 parameters. The random shift wavelets show the characteristics of optical network more vividly. Especially the vanishing gradient phenomenon in the training process. We present a modified expressway structure for this problem. Experiments verified the effect of random shift wavelet and expressway structure. Our work shows optical diffractive network would use much fewer parameters than other neural networks. The source codes are available at https://github.com/closest-git/ONNet. | 翻訳日:2023-01-14 01:50:54 公開日:2020-01-06 |